JP4639907B2

JP4639907B2 - 撮像装置、音声記録方法及びプログラム

Info

Publication number: JP4639907B2
Application number: JP2005101972A
Authority: JP
Inventors: 孝夫菅家
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2011-02-23
Anticipated expiration: 2025-03-31
Also published as: JP2006287387A

Description

本発明は、デジタルカメラ等の撮像装置に係り、特に撮影中に入力された音声信号を撮影画像と共に記録可能な機能を備えた撮像装置と、この撮像装置に用いられる音声記録方法及びプログラムに関する。

従来から音声信号に重畳した雑音を除去するための手法として、スペクトルサブトラクション（ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）法が知られている。このスペクトルサブトラクション法（以下、ＳＳ法と呼ぶ）とは、無音区間におけるスペクトルを雑音スペクトルと推定し、その雑音スペクトルに所定の係数（サブトラクト係数）を乗じた信号を入力音声スペクトルから差し引くことで雑音成分を除去する方法である。

ここで、特許文献１では、前記ＳＳ法を用いた雑音除去システムにおいて、サブトラクト係数を音声信号のフレームパワーに依存してフレーム毎に変化させることにより、推定雑音スペクトルの引き過ぎによるスペクトル歪を減少させることが開示されている。すなわち、母音のような音声パワーが確保されている区間は通常のサブトラクト係数を掛け、破裂子音のような音声パワーの少ない部分ではサブトラクト係数を小さくすることにより、推定雑音スペクトルの引き過ぎによる入力音声スペクトルの歪を抑えるようにしている。
特開平８−２２１０９２号公報

上述したように、ＳＳ法を用いて入力音声から雑音成分を除去する方法が知られている。しかしながら、音声付きの動画撮影機能を備えたデジタルカメラでは、その撮影中に音声入力とは無関係にズーム音やフォーカス音などの機構音が発生して入力音声に入り込む問題がある。

この場合、前記特許文献１のように、無音区間の音声スペクトル信号から雑音スペクトルを推定する方法では、音声入力とは無関係に発生する機構音を雑音として除去することはできない。

特に、デジタルカメラでは、ユーザがズーム操作を行った場合に、そのズーム操作に伴ってモータ駆動信号が出力されてから実際にモータが駆動されるまでに多少の時間がかかる。このため、入力音声のスペクトルから雑音スペクトルを減算するタイミングが実際のモータ音の発生時期と合わず、雑音成分を適切に除去できないことがある。

また、入力音声レベルの自動調整機能を備えたデジタルカメラでは、入力音声が小さくなると増幅率を上げ、入力音声が大きくなると増幅率を下げることにより、記録される音声レベルを一定に保っている。これにより、音声レベルは一定に保たれるが、入力音声に含まれるモータ音のレベルまでも変化してしまい、単純に雑音スペクトルを減算してしまうと、そのときのモータ音の入力レベルに合わずに引き過ぎや引き残しなどを招いてしまう問題がある。

このように、ＳＳ方式においては、雑音スペクトルを減算するタイミングや雑音スペクトルを減算する量（係数）にずれを生じさせる様々な要因がある。

本発明は前記のような点に鑑みなされたもので、撮影時に雑音スペクトルを適切に使用して、音声信号に含まれる機構音の雑音成分を適切に除去することのできる撮像装置、音声記録方法及びプログラムを提供することを目的とする。

本発明の請求項１に係る撮像装置は、音声付き動画撮影を行う場合に、音声信号から撮影動作に伴って発生する機構音を雑音として除去して記録する音声記録機能を備えた撮像装置であって、音声信号を入力する音声入力手段と、この音声入力手段から入力される音声信号をスペクトル信号に変換する変換手段と、前記音声入力手段を通じて事前に採取した、複数のモータの各々のモータ駆動に伴って発生する機構音のスペクトルを、複数のモータの各々に対応して雑音スペクトルとして記憶した記憶手段と、前記複数のモータの各々に対する駆動開始および駆動停止を独立して指示するモータ制御手段と、前記機構音の発生源近傍に設けられた機構音入力手段と、この機構音入力手段から入力される機構音のパワーが所定値以上であるか否かを判定する判定手段と、前記モータ制御手段により前記各モータのいずれかのモータの駆動開始が指示された後に前記判定手段により機構音のパワーが所定値以上であると判定された場合に、前記記憶手段に記憶された当該モータに対応した雑音スペクトルに前記音声入力手段から入力される入力音声のレベルに応じて設定される係数を乗じ、前記変換手段によって変換された音声信号のスペクトルから前記係数乗算後の雑音スペクトルを減算することで雑音成分を除去する雑音除去動作を開始し、前記モータ制御手段により当該モータの駆動停止が指示された後に前記判定手段により機構音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止する雑音除去手段と、この雑音除去手段によって得られた雑音除去後の音声スペクトル信号を元の音声信号に逆変換する逆変換手段と、この逆変換手段によって得られた音声信号を撮影画像と共に記録する記録手段とを具備したことを特徴とする。

また、本発明の請求項２は、前記請求項１記載の撮像装置において、前記音声入力手段から入力される音声信号のパワーに応じて増幅率を調整する増幅調整手段を備え、前記変換手段は、この増幅調整手段によって増幅調整された音声信号を前記変換手段によるスペクトル変換対象として入力し、前記雑音除去手段は、前記雑音スペクトルに乗じる係数を前記増幅率に応じて変更することを特徴とする。

本発明の請求項３に係る音声記録方法は、音声信号を入力する音声入力部と、前記音声入力部を通じて事前に採取した、複数のモータの各々のモータ駆動に伴って発生する機構音のスペクトルを、複数のモータの各々に対応して雑音スペクトルとして記憶した記憶部と、前記機構音の発生源近傍に設けられた機構音入力部と、を備え、音声付き動画撮影を行う場合に、音声信号から撮影動作に伴って発生する機構音を雑音として除去して記録する撮像装置の音声記録方法であって、前記音声入力部を介して音声信号を入力するステップと、前記入力された音声信号をスペクトル信号に変換するステップと、前記複数のモータの各々に対する駆動開始および駆動停止を独立して指示するステップと、前記機構音入力部を介して入力される機構音のパワーが所定値以上であるか否かを判定するステップと、前記各モータのいずれかのモータの駆動開始が指示された後に前記機構音のパワーが所定値以上であると判定された場合に、前記記憶された当該モータに対応した雑音スペクトルに、前記入力される音声信号のレベルに応じて設定される係数を乗じ、前記音声信号のスペクトルから前記係数乗算後の雑音スペクトルを減算することで雑音成分を除去する雑音除去動作を開始するステップと、前記モータの駆動停止が指示された後に機構音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止するステップと、この雑音除去後の音声スペクトル信号を元の音声信号に逆変換するステップと、この逆変換によって得られた音声信号を撮影画像と共に所定のメモリに記録するステップとを備えたことを特徴とする。

本発明の請求項４に係るプログラムは、音声信号を入力する音声入力部と、前記音声入力部を通じて事前に採取した、複数のモータの各々のモータ駆動に伴って発生する機構音のスペクトルを、複数のモータの各々に対応して雑音スペクトルとして記憶した記憶部と、前記機構音の発生源近傍に設けられた機構音入力部と、を備え、音声付き動画撮影を行う場合に、入力音声信号から撮影動作に伴って発生する機構音を雑音として除去して記録する機能を備えた撮像装置を制御するコンピュータに、前記音声入力部を介して音声信号を入力する機能と、前記入力された音声信号をスペクトル信号に変換する機能と、前記複数のモータの各々に対する駆動開始および駆動停止を独立して指示する機能と、前記機構音入力部を介して入力される機構音のパワーが所定値以上であるか否かを判定する機能と、前記各モータのいずれかのモータの駆動開始が指示された後に前記機構音のパワーが所定値以上であると判定された場合に、前記記憶された当該モータに対応した雑音スペクトルに、前記入力される音声信号のレベルに応じて設定される係数を乗じ、前記音声信号のスペクトルから前記係数乗算後の雑音スペクトルを減算することで雑音成分を除去する雑音除去動作を開始する機能と、前記モータの駆動停止が指示された後に機構音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止する機能と、この雑音除去後の音声スペクトル信号を元の音声信号に逆変換する機能と、この逆変換によって得られた音声信号を撮影画像と共に所定のメモリに記録する機能とを実現させることを特徴とする。

以上のように本発明によれば、音声付き動画撮影を行う場合において、撮影時に音声信号と共に入力される機構音の発生タイミングや、機構音の入力レベルに合わせて雑音スペクトルを適切に使用して、入力音声から機構音の雑音成分を適切に除去することができ、その雑音除去後の音声信号を撮影画像と共に高品質に記録することができる。

以下、図面を参照して本発明の実施形態を説明する。

図１は本発明の撮像装置としてデジタルカメラを例にした場合の外観構成を示す図であり、図１（ａ）は主に前面の構成、同図（ｂ）は主に背面の構成を示す斜視図である。

このデジタルカメラ１は、略矩形の薄板状ボディ２の前面に、撮影レンズ３、セルフタイマランプ４、光学ファインダ窓５、ストロボ発光部６、マイクロホン部７などを有し、上面の（ユーザにとって）右端側には電源キー８及びシャッタキー９などが設けられている。

電源キー８は、電源のオン／オフ毎に操作するキーであり、シャッタキー９は、撮影時に撮影タイミングを指示するキーである。

また、デジタルカメラ１の背面には、撮影モード（Ｒ）キー１０、再生モード（Ｐ）キー１１、光学ファインダ１２、スピーカ部１３、マクロキー１４、ストロボキー１５、メニュー（ＭＥＮＵ）キー１６、リングキー１７、セット（ＳＥＴ）キー１８、表示部１９などが設けられている。

撮影モードキー１０は、電源オフの状態から操作することで自動的に電源オンとして静止画の撮影モードに移行する一方で、電源オンの状態から繰返し操作することで、静止画モード、動画モードを循環的に設定する。静止画モードは、静止画を撮影するためのモードである。また、動画モードは、動画を撮影するためのモードであり、特に本実施形態では音声付き動画撮影が可能であるとする。

前記シャッタキー９は、これらの撮影モードに共通に使用される。すなわち、静止画モードでは、シャッタキー９が押下されたときのタイミングで静止画の撮影が行われる。動画モードでは、シャッタキー９が押下されたときのタイミングで動画の撮影が開始され、シャッタキー９が再度押下されたときにその動画の撮影が終了する。

再生モードキー１１は、電源オフの状態から操作することで自動的に電源オンとして再生モードに移行する。

マクロキー１４は、静止画の撮影モードで通常撮影とマクロ撮影とを切換える際に操作する。ストロボキー１５は、ストロボ発光部６の発光モードを切換える際に操作する。メニューキー１６は、各種メニュー項目等を選択する際に操作する。リングキー１７は、上下左右各方向への項目選択用のキーが一体に形成されたものであり、このリングキー１７の中央に位置するセットキー１８は、その時点で選択されている項目を設定する際に操作する。

表示部１９は、バックライト付きのカラー液晶パネルで構成されるもので、撮影モード時には電子ファインダとしてスルー画像のモニタ表示を行う一方で、再生モード時には選択した画像等を再生表示する。

また、このデジタルカメラ１には、光学ズーム機能が備えられており、ズームキー２０ａ，２０ｂの操作により焦点距離を物理的に変化させて画像の拡大率を変更することができる。ズームキー２０ａ，２０ｂのうち、一方のズームキー２０ａはテレ端用であり、望遠側へズーム倍率を変更する場合に用いられる。他方のズームキー２０ｂはワイド端用であり、広角側へズーム倍率を変更する場合に用いられる。

なお、図示はしないがデジタルカメラ１の底面には、記録媒体として用いられるメモリカードを着脱するためのメモリカードスロットや、外部のパーソナルコンピュータ等と接続するためのシリアルインタフェースコネクタとして、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）コネクタ等が設けられている。

図２はデジタルカメラ１の電子回路構成を示すブロック図である。

このデジタルカメラ１には、前記撮影レンズ３を構成する図示せぬフォーカスレンズおよびズームレンズなどを含むレンズ光学系２２が光軸方向に所定の範囲内で移動可能に設けられている。このレンズ光学系２２は、モータ駆動部２１ａによって回転駆動されるモータ２１により移動する。

なお、前記モータ２１として、ズーム倍率調整用のモータ（ズームモータ）、フォーカス調整用のモータ（フォーカスモータ）などの複数の異なるモータを含み、それぞれに対応したモータ駆動部２１ａが設けられているものとする。

このモータ２１の光軸後方に撮像素子であるＣＣＤ（ｃｈａｒｇｅｃｏｕｐｌｅｄｄｅｖｉｃｅ）２３が配設されている。このＣＣＤ２３は、撮影レンズ３を通して入力される被写体の各部位からの光を受光し、その光の強度に応じた電気信号を出力する。

基本モードである記録モード時において、ＣＣＤ２３がタイミング発生器（ＴＧ）２４、ドライバ２５によって走査駆動され、一定周期毎に結像した光像に対応する光電変換出力を１画面分出力する。このＣＣＤ２３の光電変換出力は、アナログ値の信号の状態でＲＧＢの各原色成分毎に適宜ゲイン調整された後に、サンプルホールド回路２６でサンプルホールドされ、Ａ／Ｄ変換器２７でデジタルデータに変換される。

そして、画像処理回路２８において、画素補間処理及びγ補正処理を含む画像処理が行われて、デジタル値の輝度信号Ｙ及び色差信号Ｕ，Ｖ（Ｃｂ，Ｃｒ）が生成され、ＤＭＡ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）コントローラ２９に出力される。

ＤＭＡコントローラ２９は、画像処理回路２８の出力する輝度信号Ｙ及び色差信号Ｕ，Ｖを、同じく画像処理回路２８からの複合同期信号、メモリ書込みイネーブル信号、及びクロック信号を用いて一度ＤＭＡコントローラ２９内部のバッファに書き込み、ＤＲＡＭインタフェース（Ｉ／Ｆ）３０を介してバッファメモリとして使用されるＤＲＡＭ３１にＤＭＡ転送を行う。

制御部３２は、デジタルカメラ１全体の制御を行うものであり、ＣＰＵと、このＣＰＵで実行される動作プログラムを記憶したＲＯＭ、及びワークメモリとして使用されるＲＡＭなどを含むマイクロコンピュータにより構成される。この制御部３２は、前記輝度及び色差信号のＤＲＡＭ３１へのＤＭＡ転送終了後に、この輝度及び色差信号をＤＲＡＭインタフェース３０を介してＤＲＡＭ３１より読み出し、ＶＲＡＭコントローラ３３を介してＶＲＡＭ３４に書き込む。

デジタルビデオエンコーダ３５は、前記輝度及び色差信号をＶＲＡＭコントローラ３３を介してＶＲＡＭ３４より定期的に読み出し、これらのデータを元にビデオ信号を発生して表示部１９に出力する。

この表示部１９は、上述した如く撮影時にはモニタ表示部（電子ファインダ）として機能するもので、デジタルビデオエンコーダ３５からのビデオ信号に基づいた表示を行うことで、その時点でＶＲＡＭコントローラ３３から取込んでいる画像情報に基づく画像をリアルタイムに表示することとなる。

このように、表示部１９にその時点での画像がモニタ画像としてリアルタイムに表示されている状態で、例えば静止画撮影を行いたいタイミングでシャッタキー９を押下操作すると、トリガ信号が発生する。

制御部３２は、このトリガ信号に応じて、その時点でＣＣＤ２３から取込んでいる１画面分の輝度及び色差信号のＤＲＡＭ３１へのＤＭＡ転送の終了後、直ちにＣＣＤ２３からのＤＲＡＭ３１への経路を停止し、記録保存の状態に遷移する。

この記録保存の状態では、制御部３２がＤＲＡＭ３１に書き込まれている１フレーム分の輝度及び色差信号をＤＲＡＭインタフェース３０を介してＹ，Ｃｂ，Ｃｒの各コンポーネント毎に縦８画素×横８画素の基本ブロックと呼称される単位で読み出して、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｃｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ）回路３７に書き込み、このＪＰＥＧ回路３７でＡＤＣＴ（ＡｄａｐｔｉｖｅＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ：適応離散コサイン変換）、エントロピ符号化方式であるハフマン符号化等の処理によりデータ圧縮する。

そして得た符号データを１画像のデータファイルとして該ＪＰＥＧ回路３７から読み出して記録用のメモリ３８に書き込む。このメモリ３８としては、予め本体に内蔵されたフラッシュメモリ等の内部メモリの他に、記録媒体として着脱自在に装着されるメモリカードなどを含む。１フレーム分の輝度及び色差信号の圧縮処理及びメモリ３８への全圧縮データの書込み終了に伴って、制御部３２はＣＣＤ２３からＤＲＡＭ３１への経路を再び起動する。

制御部３２には、さらに音声処理部３９、ＵＳＢインタフェース（Ｉ／Ｆ）４０、ストロボ駆動部４１が接続される。

音声処理部３９は、ＰＣＭ音源等の音源回路を備え、音声の録音時には前記マイクロホン部（ＭＩＣ）７より入力された音声信号をデジタル化し、所定のデータファイル形式、例えばＭＰ３（ＭＰＥＧ−１ａｕｄｉｏｌａｙｅｒ３）規格に従ってデータ圧縮して音声データファイルを作成してメモリ３８へ送出する一方、音声の再生時にはメモリ３８から読み出された音声データファイルの圧縮を解いてアナログ化し、上述したデジタルカメラ１の背面側に設けられるスピーカ部（ＳＰ）１３を通じて出力する。

なお、この音声処理部３９には、後述するように、マイクロホン部（ＭＩＣ）７とは別にモータ２１の近くに設置された参照マイク７ａが接続されている。この参照マイク７ａは、雑音除去用として主にモータ音を入力するための入力手段として用いられるものである。

ＵＳＢインタフェース４０は、ＵＳＢコネクタを介して有線接続されるパーソナルコンピュータ等の他の情報端末装置との間で画像データ、その他の送受を行う場合の通信制御を行う。ストロボ駆動部４１は、撮影時に図示せぬストロボ用の大容量コンデンサを充電した上で、制御部３２からの制御に基づいてストロボ発光部６を閃光駆動する。

なお、前記キー入力部３６は、上述したシャッタキー９の他に、電源キー８、撮影モードキー１０、再生モードキー１１、マクロキー１４、ストロボキー１５、メニューキー１６、リングキー１７、セットキー１８、ズームキー２０ａ，２０ｂなどから構成され、それらのキー操作に伴う信号は直接制御部３２へ送出される。

また、静止画像ではなく動画像の撮影時においては、シャッタキー９が押下操作されたときに、上述したＪＰＥＧ回路３７によりｍｏｔｉｏｎ−ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）などの手法により撮影動画をデータ圧縮してメモリ３８へ記録する。この場合、音声付き動画撮影であれば、その撮影中にマイクロホン部（ＭＩＣ）７より入力された音声信号が動画データと共に前記メモリ３８に記録されることになる。再度シャッタキー９が操作されると、動画データの記録を終了する。

一方、基本モードである再生モード時には、制御部３２がメモリ３８に記録されている画像データを選択的に読み出し、ＪＰＥＧ回路３７で記録モード時にデータ圧縮した手順と全く逆の手順で、圧縮されている画像データを伸長する。そして、この伸長した画像データをＤＲＡＭインタフェース３０を介してＤＲＡＭ３１に保持させた上で、このＤＲＡＭ３１の保持内容をＶＲＡＭコントローラ３３を介してＶＲＡＭ３４に記憶させ、このＶＲＡＭ３４より定期的に画像データを読み出してビデオ信号を発生し、表示部１９で再生出力させる。

選択した画像データが静止画像ではなく動画像であった場合には、その動画データを構成する複数フレームの静止画データを時系列の順で順次再生して表示し、すべての静止画データの再生を終了した時点で、例えば、次に再生の指示がなされるまで先頭に位置する静止画データを表示するなどを行う。その際、当該動画データに音声データが含まれていれば、その音声データがスピーカ部（ＳＰ）１３を通じて出力されることになる。

次に、このデジタルカメラ１に用いられる雑音除去機能を備えた音声記録装置について説明する。

図３は本発明の一実施形態に係るデジタルカメラ１に用いられる雑音除去機能を備えた音声記録装置の構成を示すブロック図である。

この音声記録装置は、主としてデジタルカメラ１の音声付き動画撮影に用いられるものであり、その撮影中に音声信号に混入するズーム音やフォーカス音などの機構音を雑音として除去する機能を備えている。

本実施形態において、この音声記録装置は、モータ２１、モータ駆動部２１ａ、制御部３２、キー入力部３６、音声入力部５１、フレーム分割部５２、フーリエ変換部５３、スペクトル記憶部５４、サブトラクト部５５、逆フーリエ変換部５７、波形合成部５８を備える。また、この音声記録装置は、増幅器６１、入力パワー算出部６２、サブトラクト係数制御部６３を備える。さらに、別系統として、参照入力部６４、フレーム分割部６５、短時間パワー算出部６６を備える。

なお、前記各構成部のうち、５１〜５５，５７，５８、６１〜６６の部分は図２に示したデジタルカメラ１の音声処理部３９に含まれる。

モータ２１はズームレンズなどのレンズ光学系２２を光軸方向に移動させるためのモータであり、モータ駆動部２１ａはそのモータ２１を回転駆動させるための駆動機構である。

制御部３２は、キー入力部３６に含まれるズームキー２０ａ，２０ｂなどの操作信号を受けてモータ駆動制御信号をモータ駆動部２１ａに出力すると共に、ここでは、音声付き動画撮影中にモータ２１の駆動タイミングに基づいてサブトラクト係数制御部６３を制御する機能を備える。

一方、音声入力部５１は、図１に示すデジタルカメラ１の機器筐体上に設置されたマイクロホン部７を主マイクとして含み、この主マイクを通じて入力される音声信号を主信号として増幅器６１を介してフレーム分割部５２に与える。この場合、音声付き動画撮影中に例えばズーム操作が行われると、そのズーム操作に伴って発生するモータ音（ズーム音）が音声入力部５１を通じて音声信号と共に入り込むことになる。

フレーム分割部５２は、増幅器６１を介して入力された音声信号（主信号）を所定時間分のフレーム単位で分割する。フーリエ変換部５３は、このフレーム分割部５２によってフレーム単位で分割された音声信号をフーリエ変換し、周波数毎のパワーを示したスペクトル信号（Ｉａ）に変換する。

スペクトル記憶部５４には、音声入力部５１（主マイク）を通じて事前に採取したモータ音のスペクトル信号が雑音スペクトル信号として記憶されている。サブトラクト部５５は、フーリエ変換部５３によって得られた入力音声スペクトル信号（Ｉａ）と、スペクトル記憶部５４から出力された雑音スペクトル信号（Ｘｖ）に基づいて、ＳＳ（ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ）法による雑音除去処理を行う。

詳しくは、入力音声スペクトル信号（Ｉａ）から雑音スペクトル信号（Ｘｖ）に所定のサブトラクト係数αを乗じた信号を減算することで、音声信号に含まれる雑音成分を除去する処理を行う。後述するように、このサブトラクト係数αの値は、入力音声のレベルに応じて調整される。

逆フーリエ変換部５７は、このサブトラクト部５５によって雑音除去処理された音声スペクトル信号（Ｉｂ）を逆フーリエ変換して元のフレーム単位毎の音声信号に戻す。

波形合成部５８は、この逆フーリエ変換部５７によって得られるフレーム単位毎の音声信号を合成することで時系的に連続した音声信号に復元する。この音声信号は、最終的な記録用の音声信号として用いられ、デジタルカメラ１の撮像系から得られる動画データと共に図２に示したメモリ３８に記録される。

また、入力パワー算出部６２は、入力音声信号の所定区間の短時間パワー（入力音声の音量）を算出し、そのパワー値を示す音声パワー信号を増幅器６１およびサブトラクト係数制御部６３にそれぞれ出力する。なお、入力パワー算出部６２のパワー算出区間とフレーム分割部５２のフレーム切出し区間は異なり、パワー算出区間の方が長くなる。

増幅器６１は、この入力パワー算出部６２から出力される音声パワー信号に従って、入力音声を増幅調整してからフレーム分割部５２に出力する。サブトラクト係数制御部６３は、撮影時にサブトラクト部５５によって雑音スペクトル信号（Ｘｖ）に乗じるサブトラクト係数αの値を制御する。

一方、参照入力部６４は、主としてモータ音を集音するための参照マイク７ａを含み、この参照マイク７ａを通じて入力されるモータ音のみの信号を参照信号としてフレーム分割部６５に与える。参照マイク７ａは、主マイクマイクロホン部（ＭＩＣ）７とは別に機器筐体内のモータ２１の近傍に設置されており、そのモータ駆動時に発生するモータ音のみを入力する。

フレーム分割部６５は、この参照入力部６１によって入力されたモータ音のみの信号（参照信号）を所定時間分のフレーム単位で分割する。短時間パワー算出部６６は、参照入力部６４から得られるモータ音信号のフレーム単位毎のパワー（モータ音の音量）を算出し、そのパワー値を示すモータパワー信号を制御部３２に出力する。

制御部３２では、この短時間パワー算出部６６から出力されるモータパワー信号に基づいてモータ音の発生タイミングを判断し、そのタイミングに従って雑音スペクトル信号（Ｘｖ）に適切なサブトラクト係数αを乗じてサブトラクト処理（雑音除去処理）を行うようにサブトラクト係数制御部６３を制御する。

次に、本実施形態の動作について説明する。

今、音声付き動画撮影を行っている最中に、例えばユーザがキー入力部３６に含まれるズームキー２０ａ，２０ｂを操作したとする。

デジタルカメラ全体の動作を制御する制御部３２は、キー入力部３６に含まれるズームキー２０ａ，２０ｂのズーム操作信号を入力すると、モータ駆動部２１ａに対して駆動開始信号を送る。モータ駆動部２１ａは、この駆動開始信号を受けてモータ２１を回転駆動する。このモータ２１の回転に伴い、図２のレンズ光学系２２に含まれる図示せぬズームレンズが光軸上に移動してズーム倍率が変化する。

また、ユーザがズーム操作を終了すると、制御部３２はモータ駆動部２１ａに対して駆動停止信号を送る。これにより、モータ２１の回転駆動が停止し、ズーム動作が終了する。

ここで、音声付き動画の撮影中は常にマイクロホン部７による音声入力機能がＯＮ状態にある。このため、前記ズーム操作に伴って発生するモータ音が入力音声の中に雑音として混入する問題がある。このようなモータ音を音声信号から除去して記録するべく、以下のような処理が行われる。

すなわち、まず、雑音除去対象となるモータ音（機構音）のスペクトル信号を事前に採取しておき、スペクトル記憶部５４に記憶しておく。以下では、ズーム操作時に発生するモータ音つまりズーム音を雑音除去対象として説明する。

ズーム音の採取方法は、無音状態でズーム操作を行い、そのときに発生するズーム音のみを音声入力部５１に入力することで行う。この入力したズーム音をデジタル信号に変換した後、フレーム分割部５２により数１０ｍｓ程度のフレーム区間に切り出し、フーリエ変換部５３によりスペクトル信号に変換する。これをモータ駆動期間（ズームモータの駆動開始から駆動停止までの期間）について行い、その間にフレーム単位で順次得られるスペクトル信号の平均値を雑音スペクトル信号としてスペクトル記憶部５４に記憶しておく。

上述したように、撮影中にズーム操作を行うと、音声入力部５１には音声信号に加えて、そのときに発生するモータ音が雑音として入力される。このため、フーリエ変換部５３からは入力音声のスペクトルとモータ音のスペクトルが混合したスペクトル信号Ｉａが出力されることになる。

サブトラクト部５５では、このモータ音を含んだ入力音声スペクトル信号Ｉａと、前記スペクトル記憶部５４に予め記憶された雑音スペクトル信号（Ｘｖ）とに基づいてＳＳ法による雑音除去処理を行う。

この雑音除去処理について、図４を参照して詳しく説明する。

図４はＳＳ法（スペクトルサブトラクション法）を用いた雑音除去処理を説明するための図である。図４（ａ）は入力音声の波形データ、同図（ｂ）はこの入力音声をフレーム単位でフーリエ変換して得られた音声スペクトル信号である。

また、同図（ｃ）は雑音除去用に採取したモータ音のスペクトルつまり雑音スペクトル信号（Ｘｖ）、同図（ｄ）はその雑音スペクトル信号（Ｘｖ）に所定のサブトラクト係数αを乗じた信号である。同図（ｅ）は入力音声スペクトル信号（Ｉａ）から係数乗算後の雑音スペクトル信号（Ｘｖ）を減算して得られるスペクトル信号つまり雑音除去後の音声スペクトル信号（Ｉｂ）である。同図（ｆ）はその雑音除去後の音声スペクトル信号（Ｉｂ）を逆フーリエ変換して得られた音声信号、同図（ｇ）はフレーム単位で分割された音声信号を時系列に合成して元の音声波形に戻した状態を示している。

今、図４（ａ）に示すような波形を有する音声信号が音声入力部５１に入力されたとする。この音声信号には、例えばズーム操作に伴って発生するモータ音つまりズーム音が雑音として混入されている。

まず、フレーム分割部５２において、例えば１０ｍｓ程度のフレーム区間で音声信号を切り出し、同図（ｂ）に示すように、フーリエ変換部５３にて周波数毎のパワーを表した入力音声スペクトル信号Ｉａを生成する。

ここで、同図（ｃ）に示すように、スペクトル記憶部５４には予め採取したモータ音のみのスペクトル信号が雑音スペクトル信号（Ｘｖ）として記憶されている。そこで、同図（ｃ）〜（ｅ）に示すように、サブトラクト部５５において、入力音声スペクトル信号Ｉａから雑音スペクトル信号（Ｘｖ）に所定のサブトラクト係数αを乗じた信号を減算することにより、雑音除去後の音声スペクトル信号（Ｉｂ）を得る。

なお、前記サブトラクト係数αは、入力音声のレベルに応じて設定され、通常、“１”以上の値である。

制御部３２では、ズーム操作が行われている間、つまり、ズームモータであるモータ２１の駆動期間中（モータ駆動開始〜駆動停止までの期間）において、サブトラクト部５５に所定のサブトラクト係数αを与えて雑音除去処理を行うようにサブトラクト係数制御部６３を制御する。

図４（ｆ）に示すように、この雑音除去後の音声スペクトル信号Ｉｂは逆フーリエ変換部５７にて逆フーリエ変換される。そして、同図（ｇ）に示すように、波形合成部５８にて各フレーム毎の音声信号が時系列に合成処理されて、元のアナログ波形信号である音声信号に復元される。この音声信号は、雑音除去後の音声信号として動画撮影中に画像データと共にメモリ３８に記録される。

なお、前記のような雑音除去処理において、実際にはフレーム分割部５２にて音声信号をフレーム分割してフーリエ変換する前に、音声信号に「ハニング窓」等の窓関数をかけておく。また、後段の波形合成部５８で逆フーリエ変換後の音声信号をフレーム毎に合成処理する際にフレーム境界で不連続な波形になるのを防止するために、フレーム毎の音声信号を多少オーバーラップして合成していく。

例えば、フレーム長が２５６サンプルとして分析ポイントを１２８サンプルずつシフトしていく。この場合のハニング窓は式（１）のように表せる。

ｗ（ｎ）＝０．５−ｃｏｓ｛２＊ＰＩ＊ｎ／（Ｌ−１）｝ …（１）
Ｌ：１フレームのサンプル数
ｎ＝０，１，…，Ｌ−１
このように、各信号を１／２フレームずらして重ね合わせると、振幅が一定で不連続点のない音声波形を得ることができる。

以上がサブトラクト処理を行う場合の基本的な流れである。

次に、（１）自動増幅率制御システム、（２）モータ音の発生タイミングに関する処理について説明する。

（１）自動増幅率制御システム
デジタルカメラ１における音声入力システムでは、入力音声のレベルをほぼ一定に保つために、入力音声を増幅する増幅器６１と、入力音声のパワーを算出する入力パワー算出部６２を有して、入力音声のパワーが小さい場合には増幅率を大きくし、逆に入力音声のパワーが大きい場合は増幅率を小さくしている。これを自動増幅率制御システム（ＡＧＣ：Ａｕｔｏ−Ｇａｉｎ−ＣｏｎｔｒｏｌまたはＡＬＣ：Ａｕｔｏ−Ｌｅｖｅ１−Ｃｏｎｔｒｏｌ）と呼ぶ。

このような自動増幅率制御システムが搭載されていると、音声入力部５１から主信号として入力された音声信号は増幅器６１にて所定の倍率ｋで増幅された後、フレーム分割部５２にて数１０ｍｓ程度のフレームに分割され、続いて、フーリエ変換部５３にてスペクトル信号（Ｉａ）に変換される。この入力音声スペクトル信号（Ｉａ）に雑音として含まれるモータ音のスペクトルもｋ倍されている。

一方、スペクトル記憶部５４に記憶された雑音スペクトル信号（Ｘｖ）は、通常レベル（ｋ＝１）で採取したモータ音のスペクトルであることから、そのままサブトラクト部５５の雑音除去処理に適用すると、ｋ＝１より大きい場合には、スペクトルの引き残しが発生し、その結果、波形合成部５８から出力される音声信号にはズーム音が残ってしまう。また、ｋ＝１より小さい場合には、入力音声スペクトル信号（Ｉａ）から過大なスペクトルを減算してしまうことになる。このため、入力音声に含まれる雑音成分は除去されるが、スペクトルの引きすぎにより音声信号自体が歪んでしまう。

この様子を図５に示す。

図５は入力音声の増幅率に関係なくサブトラクト係数を一定である場合での各部の出力波形を示す図である。なお、図中のＡ部〜Ｆ部の付記は図３の各構成部に付した（Ａ）〜（Ｆ）に対応している。

今、図５（ａ）に示すような音量の音声と周囲音を入力対象とする。撮影時に同図（ｂ）に示すようなタイミングでモータ駆動信号が出力されると、そのモータ音が音声信号と共に音声入力部５１から入り込むため、入力音声は同図（ｃ）のようにモータ音を含んだ音量を有することになる。

ここで、入力音量に応じて同図（ｄ）に示すような増幅率が増幅器６１に設定され、同図（ｅ）のようにレベル調整された音声スペクトル信号（Ｉａ）がサブトラクト部５５に与えられることになる。

ところが、同図（ｆ）に示すように、サブトラクト係数αの値が増幅率に関係なく一定であると、サブトラクト部５５にて雑音スペクトル信号（Ｘｖ）を減じる際に前記レベル調整後の音声スペクトル信号（Ｉａ）の入力レベルと合わずに、出力音量が同図（ｇ）のように歪んだものとなる。

このような問題を解消するため、本実施形態では、サブトラクト係数制御部６３により入力音声の増幅率に応じてサブトラクト係数αを変更して雑音除去処理を行うことを第１の特徴としている。

すなわち、モータ駆動期間では、サブトラクト部５５にて音声スペクトル信号（Ｉａ）から雑音スペクトル信号（Ｘｖ）にサブトラクト係数αを乗じた信号を減算することで、入力音声に含まれる雑音成分を除去している。このときのサブトラクト部５５の出力をＩｂとすると、以下のような式（２）で表せる。

Ｉｂ＝Ｉａ−α＊Ｘｖ …（２）
ここで、サブトラクト係数制御部６３は、増幅器６１で調整される入力音声の増幅率が所定値よりも大きい時はサブトラクト係数αをその増幅率の増加量に合わせて大きくし、逆に増幅率が所定値よりも小さい時はサブトラクト係数αをその増幅率の減少量に合わせて小さくするようにサブトラクト部５５の動作を制御する。なお、増幅器６１の増幅率が現在どのくらいに調整設定されているのかは、入力パワー算出部６２から出力される音声パワー信号から判断できる。

一方、モータ２１が駆動されていない期間では、サブトラクト係数制御部６３は、α＝０としてサブトラクト部５５の動作を制御する。これにより、サブトラクト部５５からは音声スペクトル信号（Ｉａ）がそのまま出力されることになる。

このように、入力音声のレベルを増幅調整する機能を備える場合において、その入力音声のレベルに合わせてサブトラクト係数αが適切な値に調整されるため、増幅調整された入力音声に含まれるモータ音を雑音成分として適切に除去することができる。また、モータ２１が駆動されていない場合には、α＝０に制御されるので、スペクトル減算は行われない。よって、不必要に音声スペクトルから雑音分のスペクトルを引き過ぎて、音声信号に歪みを生じさせることもない。

（２）モータ音の発生タイミング
モータ２１を駆動する場合において、制御部３２がモータ駆動信号を出力してから実際にモータ２１が回転し始めるまでには多少の遅れがある。したがって、モータ駆動信号の出力と同時に雑音除去処理（サブトラクト処理）を開始してしまうと、まだモータ音（ここではズーム音）が発生していないにも関わらず、サブトラクト部５５にて入力音声スペクトル信号（Ｉａ）からモータ音分のスペクトルが減算されることになり、雑音成分を正しく除去できないばかりか、音声信号自体に歪みが生じる可能性がある。

この様子を図６に示す。

図６はモータ駆動動作とモータ音の発生タイミングが合わない場合での各部の出力波形を示す図である。なお、図中のＡ部，Ｂ部，Ｅ部，Ｆ部の付記は図３の各構成部に付した（Ａ），（Ｂ），（Ｅ），（Ｆ）に対応している。

今、図６（ａ）に示すような音量の音声と周囲音を入力対象とする。撮影時に同図（ｂ）に示すようなタイミングでモータ駆動信号が出力されると、そのモータ音が音声信号と共に音声入力部５１から入り込むため、入力音声は同図（ｃ）のようにモータ音を含んだ音量を有することになる。

ここで、モータ駆動信号が出力されてから、実際にモータ２１が回転を始めて入力音声にモータ音が雑音として入り込むまでに多少のタイムラグがある。このようなタイムラグを考慮せずに、同図（ｄ）に示すように、モータ駆動信号の出力と同時にサブトラクト部５５にて雑音分のスペクトル減算を行ってしまうと、モータ音の発生タイミングと合わず、出力音量が同図（ｅ）のように歪んだものとなる。

このような問題を解消するため、本実施形態では、参照入力部６４（参照マイク）を用いてモータ音のみの信号を入力することで、モータ音の発生タイミングを正確に判断して雑音除去処理を行うことを第２の特徴としている。

すなわち、参照入力部６４からの入力信号は略モータ音のみの信号であることに着目して、短時間パワー算出部６６によって、その入力信号の短時間パワー（音量）を算出する。制御部３２では、この短時間パワー算出部６６によって算出されたモータ音パワーと予め設定された閾値とを比較する。その結果、モータ音パワーが閾値よりも小さい場合には、まだ実際にモータ音が発生していないものと判断し、モータ駆動信号が出力されていても、雑音除去動作を禁止するべく、α＝０を出力するようにサブトラクト係数制御部６３を制御する。これにより、サブトラクト部５５では、フーリエ変換部５３から得られた音声スペクトル信号（Ｉａ）をスペクトル減算ぜずに、そのまま逆フーリエ変換部５７に出力することになる。

一方、モータ音パワーが閾値以上であれば、制御部３２は実際にモータ音が発生しているものと判断し、雑音除去動作を許可するべく、サブトラクト係数αとして有効値を出力するようにサブトラクト係数制御部６３を制御する。上述したように、このとき出力されるサブトラクト係数αは、入力パワー算出部６２によって算出された入力パワー値に基づいて、増幅器６１による入力音声の増幅率に応じた値に調整される。

なお、モータ２１を停止するときも同様であり、短時間パワー算出部６６から得られるモータ音パワーに基づいてモータ２１の回転が実際に停止したことを確認してからα＝０に戻すように制御する。

これにより、モータ駆動動作と実際にモータ音が発生するタイミングとがずれる場合であっても、モータ音の発生タイミングに正確に合わせてスペクトル減算処理つまり雑音除去処理を行うことができる。その結果、雑音成分を適切に除去でき、波形合成部５８から歪みのない音声信号を得ることができる。

この場合、主マイクである音声入力部５１からの入力音ではタイミング判定のための閾値を正確に設定できないが、参照マイクである参照入力部６４を用いてモータ音のみを入力するようにしたことで、その参照入力部６４からの入力音に対してタイミング判定のための閾値を正確に設定して、雑音除去を適切に行うことが可能となる。

図７は本方式による各部の出力波形を示す図である。なお、図中のＡ部〜Ｆ部の付記は図３の各構成部に付した（Ａ）〜（Ｆ）に対応している。図７（ｄ）〜（ｇ）に示すように、サブトラクト係数αの値が入力音声の増幅率に応じて変更され、また、参照マイクからの入力音量と閾値との比較によりモータ音発生タイミングに合わせてスペクトル減算が行われている。これにより、同図（ｈ）に示すように、雑音成分が適切に除去された音声信号の波形を得ることができる。

図８は同実施形態における音声記録処理をソフトウェア的に実現する場合のフローチャートである。なお、このフローチャートで示される処理は、コンピュータである制御部３２によって読取り可能なプログラムの形態でＲＯＭ等の記録媒体に予め記録されているものとする。

音声付きの動画撮影を行う場合において、制御部３２は、まず、主マイクである音声入力部５１から入力された音声信号のパワー（音量）を算出し、その音声パワーに応じた増幅率に従って音声信号を増幅処理した後、その音声信号を所定単位でフレーム分割する（ステップＡ１１）。なお、ここで実行される音声パワーと増幅率の算出処理について後に図９を用いて説明する。

一方、制御部３２は、参照マイクである参照入力部６４を通じて入力されたモータ音のパワー（音量）を算出し、そのモータ音パワーと所定の閾値とを比較する（ステップＡ１２）。なお、ここで実行されるモータ音パワーの算出処理について後に図１０を用いて説明する。

ここで、前記ステップＡ１２にてモータ音パワーと所定の閾値とを比較した結果、モータ音パワーが所定の閾値よりも小さい場合であれば（ステップＡ１３のＮｏ）、モータ音が発生していないものと判断する。この場合、例えばモータ２１に対する駆動信号が出力されていても、信号伝送速度やドライバの特性などを起因としたタイムラグによって、まだ実際にモータ２１が回転していない状態にある。よって、制御部３２は、当該入力音声信号に対して雑音除去処理（サブトラクト処理）を施すことなく、そのまま撮影画像（動画データ）と同期させてメモリ３８に記録する（ステップＡ２０）。

一方、モータ音パワーが所定の閾値以上であれば（ステップＡ１３のＮｏ）、モータ２１が駆動状態にあり、そのときに発生するモータ音が入力音声に入り込んでいるものと判断する。そこで、図７（ｆ）に示したように、モータ音パワーが所定の閾値以上になったときのタイミングで、制御部３２は以下のような雑音除去処理（サブトラクト処理）を実行して、入力音声に含まれる雑音成分つまりモータ音を除去してからなメモリ３８に記録する（ステップＡ１４〜Ａ２０）。

すなわち、まず、制御部３２は、前記ステップＡ１１で得た入力音声の分割フレームを対象にしてフーリエ変換を行い、フレーム単位で区切ったスペクトルデータを生成する（ステップＡ１４）。

ここで、制御部３２は、当該入力音声の増幅率を取得することにより（ステップＡ１５）、予め記憶された雑音スペクトルデータに対して前記増幅率に基づく係数（サブトラクト係数α）を乗算する（ステップＡ１６）。この場合、従来方式では係数の値が固定であったが、本方式では、図７（ｇ）に示したように入力音声の増幅率に応じて変更される。そして、制御部３２は、入力音声のスペクトルデータから前記係数乗算後の雑音スペクトルデータを減算して雑音成分を除去する（ステップＡ１７）。

以後は、雑音除去後の入力音声のスペクトルデータを逆フリー変換処理して元の音声波形データに戻し（ステップＡ１８）、これを前の音声波形データと連続するようにフレーム単位で合成しながら（ステップＡ１９）、撮影画像（動画データ）と同期させてメモリ３８に記録していく（ステップＡ２０）。

以上のような処理を例えばシャッタキー９の操作により動画撮影の終了が明示的に指示されるまでの間、繰り返し行う（ステップＡ２１）。

（音声パワー・増幅率算出処理）
次に、前記図８のステップＡ１１で実行される音声パワーと増幅率の算出処理について説明する。

図９はその算出処理を示すフローチャートである。制御部３２は、主マイクである音声入力部５１から入力された音声信号を所定単位でフレーム分割し（ステップＢ１１）、その分割フレームにおけるスペクトルのパワーを算出する（ステップＢ１２）。つまり、入力音声の短時間パワー（音量）をフレーム単位で求める。

そして、制御部３２は、所定期間内で逐次算出された複数の分割フレームのパワーを積分して平滑化すると共に遅延させて当該入力音声の短時間パワーに対応した増幅率を算出して出力する（ステップＢ１３，Ｂ１４）。

以上のような処理を例えばシャッタキー９の操作により動画撮影の終了が明示的に指示されるまでの間、繰り返し行う（ステップＢ１５）。

（モータ音パワー算出処理）
次に、前記図８のステップＡ１２で実行されるモータ音パワーの算出処理について説明する。

図１０はその算出処理を示すフローチャートである。制御部３２は、参照マイクである参照入力部６４から入力されたモータ音の信号を所定単位でフレーム分割し（ステップＣ１１）、その分割フレームにおけるスペクトルのパワーを算出して出力する（ステップＣ１２，Ｃ１３）。つまり、参照マイクを通して得られるモータ音のみの信号を利用して、そのモータ音の短時間パワー（音量）をフレーム単位で求める。

以上のような処理を例えばシャッタキー９の操作により動画撮影の終了が明示的に指示されるまでの間、繰り返し行う（ステップＣ１４）。

このように、本装置をソフトウェア的に実現した場合であっても前記図３に示した構成と同様の効果が得られる。

なお、前記実施形態では、ズーム音を雑音除去対象として説明したが、ズーム音に限らず、例えばフォーカス音、さらにはシャッター音などでも同様であり、要は撮影動作に伴って発生する機構音を入力音声から除去する場合に適用可能である。

また、複数の異なるモータ音を雑音除去対象として処理する場合には、以下のような構成とする。

すなわち、図３に示したスペクトル記憶部５４に、モータ駆動に伴って発生するモータ音（機構音）の雑音スペクトルを複数のモータの各々に対応して記憶させておく。すなわち、複数のモータとは、例えばズームモータ、フォーカスモータなどであり、これらのモータ駆動にと伴って発生する音を事前に採取し、その音をスペクトル化した信号を雑音スペクトルとして各モータに対応付けてスペクトル記憶部５４に記憶させておく。

ここで、制御部３２は、前記各モータの各々に対する駆動開始および駆動停止を独立して指示する。そして、各モータのいずれかのモータの駆動開始を指示した後に短時間パワー算出部６６から得られるモータ音のパワーが所定値以上であると判定された場合に、スペクトル記憶部５４に記憶された当該モータに対応した雑音スペクトルに基づく雑音除去動作を開始する。また、当該モータの駆動停止が指示された後に短時間パワー算出部６６から得られるモータ音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止する。

このような構成によれば、複数のモータを備える場合であっても、それぞれのモータ駆動時に当該モータに対応した雑音スペクトルを適切なタイミングで使用して、入力音声から雑音成分を適切に除去することができる。

また、前記各実施形態では、音声付き動画撮影可能なデジタルカメラを例にして説明したが、本発明はデジタルカメラに限らず、例えばカメラ付きの携帯電話など、音声信号と共に撮影画像を記録可能な機能を備えた電子機器であれば、そのすべてに適用可能である。

要するに、本発明は前記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

また、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク（フレキシブルディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、そのプログラム自体をネットワーク等の伝送媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムあるいは伝送媒体を介して提供されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。

図１は本発明の撮像装置としてデジタルカメラを例にした場合の外観構成を示す図であり、図１（ａ）は主に前面の構成、同図（ｂ）は主に背面の構成を示す斜視図である。図２はデジタルカメラの電子回路構成を示すブロック図である。図３は本発明の一実施形態に係るデジタルカメラに用いられる雑音除去機能を備えた音声記録装置の構成を示すブロック図である。図４はＳＳ法（スペクトルサブトラクション法）を用いた雑音除去処理を説明するための図である。図５は入力音声の増幅率に関係なくサブトラクト係数を一定である場合での各部の出力波形を示す図である。図６はモータ駆動動作とモータ音の発生タイミングが合わない場合での各部の出力波形を示す図である。図７は本方式による各部の出力波形を示す図である。図８は同実施形態における音声記録処理をソフトウェア的に実現する場合のフローチャートである。図９は前記図８のステップＡ１１で実行される音声パワー・増幅率算出処理の算出処理を示すフローチャートである。図１０は前記図８のステップＡ１２で実行されるモータ音パワーの算出処理を示すフローチャートである。

符号の説明

１…デジタルカメラ、２…ボディ、３…撮影レンズ、７…マイクロホン部（主マイク）、７ａ…参照マイク、９…シャッタキー、２０ａ，２０ｂ…ズームキー、２１…モータ、２１ａ…モータ駆動部、３２…制御部、３６…キー入力部、５１…音声入力部、５２…フレーム分割部、５３…フーリエ変換部、５４…スペクトル記憶部、５５…サブトラクト部、５７…逆フーリエ変換部、５８…波形合成部、６１…増幅器、６２…入力パワー算出部、６３…フーリエ変換部、６４…参照入力部、６５…フレーム分割部、６６…短時間パワー算出部、Ｉａ…入力音声スペクトル信号、Ｉｂ…雑音除去後の音声スペクトル信号、Ｘｖ…雑音スペクトル信号。

Claims

音声付き動画撮影を行う場合に、音声信号から撮影動作に伴って発生する機構音を雑音として除去して記録する音声記録機能を備えた撮像装置であって、
音声信号を入力する音声入力手段と、
この音声入力手段から入力される音声信号をスペクトル信号に変換する変換手段と、
前記音声入力手段を通じて事前に採取した、複数のモータの各々のモータ駆動に伴って発生する機構音のスペクトルを、複数のモータの各々に対応して雑音スペクトルとして記憶した記憶手段と、
前記複数のモータの各々に対する駆動開始および駆動停止を独立して指示するモータ制御手段と、
前記機構音の発生源近傍に設けられた機構音入力手段と、
この機構音入力手段から入力される機構音のパワーが所定値以上であるか否かを判定する判定手段と、
前記モータ制御手段により前記各モータのいずれかのモータの駆動開始が指示された後に前記判定手段により機構音のパワーが所定値以上であると判定された場合に、前記記憶手段に記憶された当該モータに対応した雑音スペクトルに前記音声入力手段から入力される入力音声のレベルに応じて設定される係数を乗じ、前記変換手段によって変換された音声信号のスペクトルから前記係数乗算後の雑音スペクトルを減算することで雑音成分を除去する雑音除去動作を開始し、前記モータ制御手段により当該モータの駆動停止が指示された後に前記判定手段により機構音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止する雑音除去手段と、
この雑音除去手段によって得られた雑音除去後の音声スペクトル信号を元の音声信号に逆変換する逆変換手段と、
この逆変換手段によって得られた音声信号を撮影画像と共に記録する記録手段と
を具備したことを特徴とする撮像装置。
前記音声入力手段から入力される音声信号のパワーに応じて増幅率を調整する増幅調整手段を備え、
前記変換手段は、この増幅調整手段によって増幅調整された音声信号を前記変換手段によるスペクトル変換対象として入力し、
前記雑音除去手段は、前記雑音スペクトルに乗じる係数を前記増幅率に応じて変更することを特徴とする請求項１記載の撮像装置。
音声信号を入力する音声入力部と、前記音声入力部を通じて事前に採取した、複数のモータの各々のモータ駆動に伴って発生する機構音のスペクトルを、複数のモータの各々に対応して雑音スペクトルとして記憶した記憶部と、前記機構音の発生源近傍に設けられた機構音入力部と、を備え、音声付き動画撮影を行う場合に、音声信号から撮影動作に伴って発生する機構音を雑音として除去して記録する撮像装置の音声記録方法であって、
前記音声入力部を介して音声信号を入力するステップと、
前記入力された音声信号をスペクトル信号に変換するステップと、
前記複数のモータの各々に対する駆動開始および駆動停止を独立して指示するステップと、
前記機構音入力部を介して入力される機構音のパワーが所定値以上であるか否かを判定するステップと、
前記各モータのいずれかのモータの駆動開始が指示された後に前記機構音のパワーが所定値以上であると判定された場合に、前記記憶された当該モータに対応した雑音スペクトルに、前記入力される音声信号のレベルに応じて設定される係数を乗じ、前記音声信号のスペクトルから前記係数乗算後の雑音スペクトルを減算することで雑音成分を除去する雑音除去動作を開始するステップと、
前記モータの駆動停止が指示された後に機構音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止するステップと、
この雑音除去後の音声スペクトル信号を元の音声信号に逆変換するステップと、
この逆変換によって得られた音声信号を撮影画像と共に所定のメモリに記録するステップと
を備えたことを特徴とする音声記録方法。
音声信号を入力する音声入力部と、前記音声入力部を通じて事前に採取した、複数のモータの各々のモータ駆動に伴って発生する機構音のスペクトルを、複数のモータの各々に対応して雑音スペクトルとして記憶した記憶部と、前記機構音の発生源近傍に設けられた機構音入力部と、を備え、音声付き動画撮影を行う場合に、入力音声信号から撮影動作に伴って発生する機構音を雑音として除去して記録する機能を備えた撮像装置を制御するコンピュータに、
前記音声入力部を介して音声信号を入力する機能と、
前記入力された音声信号をスペクトル信号に変換する機能と、
前記複数のモータの各々に対する駆動開始および駆動停止を独立して指示する機能と、
前記機構音入力部を介して入力される機構音のパワーが所定値以上であるか否かを判定する機能と、
前記各モータのいずれかのモータの駆動開始が指示された後に前記機構音のパワーが所定値以上であると判定された場合に、前記記憶された当該モータに対応した雑音スペクトルに、前記入力される音声信号のレベルに応じて設定される係数を乗じ、前記音声信号のスペクトルから前記係数乗算後の雑音スペクトルを減算することで雑音成分を除去する雑音除去動作を開始する機能と、
前記モータの駆動停止が指示された後に機構音のパワーが所定値より小さいと判定された場合に、その雑音除去動作を停止する機能と、
この雑音除去後の音声スペクトル信号を元の音声信号に逆変換する機能と、
この逆変換によって得られた音声信号を撮影画像と共に所定のメモリに記録する機能と
を実現させることを特徴とするプログラム。