JP2011028061A

JP2011028061A - 音声記録装置及び方法、ならびに撮影装置

Info

Publication number: JP2011028061A
Application number: JP2009174740A
Authority: JP
Inventors: Koichi Washisu; 晃一鷲巣; Masashi Kimura; 正史木村; Fumihiro Kajimura; 文裕梶村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2009-07-27
Filing date: 2009-07-27
Publication date: 2011-02-10
Anticipated expiration: 2029-07-27
Also published as: CN101969592B; JP5351644B2; US8626500B2; CN101969592A; US20110022403A1

Abstract

【課題】雑音発生区間の音声を置換するために生成される予測音声の精度劣化を防ぐ音声記録装置、方法を提供する。
【解決手段】動画撮影時にマイクを介して入力された音声を録音する音声記録装置は、音声の大きさに応じて録音時の利得を自動的に変更する利得変更部と、録音中に、雑音が重畳する雑音発生区間を検出した場合に検出された雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて雑音発生区間の予測音声を生成し、この雑音発生区間の音声を予測音声で置き換える予測部とを有する。利得変更部は、雑音発生区間の後方の学習区間の全体を含む所定期間において、利得変更部による利得の変更が禁止される。
【選択図】図６

Description

本発明は、音声情報の処理技術に関する。

近年カメラ等の撮影装置の高機能化が進んでおり、高機能化の一環として動画／静止画の双方を撮影可能なカメラが多く見られる。動画撮影においては、撮像装置は画像を取得すると同時に音声を取得し画像と同期させて記録を行う。

しかしながら、例えば、カメラのような撮影装置においては、光学系の調整などの為の駆動源を備えており、これらの駆動が雑音として録音されてしまうという特性をもつ。更には撮影者の操作音も撮影装置筐体を伝わる振動となり雑音として録音されてしまうという特性をもつ。これらの問題を解決するために、様々な音声処理回路や撮影装置が提案されている。

特許文献１ではハードディスクのヘッド退避音の隠蔽方法が記載されている。具体的には、ハードディスクのヘッド退避音発生箇所の音声信号をその前後の参照音から生成して、ヘッド退避音を隠蔽する。また、非特許文献１では、音声の伝送および復調に関連した技術として、音声伝送においてパケットの喪失の隠蔽方法が記載されている。具体的にはパケット喪失した箇所の信号を、喪失以前の参照音信号から予測して生成することによりパケットの喪失を隠蔽する。また、非特許文献１では、パケットが再度正常に得られたときには、当該正常パケットから前方１パケット分の信号を滑らかに繋がるように予測して補正する。

特開２００８−０５３８０２号公報

ITU-T RecommendationG.711-Appendix I

上述の特許文献１に開示された従来技術では、雑音の発生する区間の前後の被写体音を参照音として用いて雑音の発生する区間の音声信号を予測するための演算を行い、予測音声を生成する。そして、雑音の発生する区間の音声を生成した予測音声で置換する構成になっている。例えば、予測音声は、音声の波形の連続性を利用して音声信号の次のサンプルを予測する処理を連続して行うことにより生成される。また、予測処理は、音声の繰り返し周波数を検出し波形を所定の周期で繰り返す処理によって生成される。したがって、このような予測音声を精度良く生成する為には参照音の精度が高くなくてはならない。しかしながら雑音発生区間の前後において参照すべき音声の精度が低下するという課題が生じている。以下その課題について説明する。

一般的な録音装置においては自動利得変更制御（ＡＬＣ：オートレベルコントロール）と呼ばれる利得制御回路が設けられている。ＡＬＣとは、被写体音が大きい時にはマイクで検出した音声の後段アンプでの増幅利得を小さくして録音する事で音声信号の飽和を防ぐ機能である。又、被写体音が小さい時にはマイクで検出した音声の後段アンプでの増幅利得を大きくして録音する事で音声信号のＳ／Ｎを向上させている。このようにＡＬＣは被写体音声の大きさ（音圧レベル）に応じてマイクで検出した音声信号の利得を細かく変更している。その為に上述した参照音の発生区間でＡＬＣが作動するとその前の被写体音との音圧の連続性が保てなくなる為に予測音声の精度が低下してしまう。すなわち、音声の波形の連続性を利用して音声信号の次のサンプルを予測する処理を連続して行う処理の場合には、音圧の連続性が無くなり、次のサンプルの予測がうまくいかないことになる。また、音声の繰り返し周波数を検出し波形を所定の周期で繰り返す処理の場合にも、音声の繰り返し周波数の検出がうまくいかないことになる。このように、予測音声の精度が低下してしまう原因となる。この様な問題は、上述した特許文献１のように、雑音発生区間の前後の参照音から予測音声を生成する場合にのみ発生するものではない。例えば、雑音発生区間の前の参照音と、雑音発生区間の音声を合成することにより予測音声を生成させるような場合にも、雑音発生区間の前のＡＬＣと、雑音発生区間のＡＬＣの増幅利得が異なっても、予測音声の精度が低下してしまう。また、雑音低減区間の後の参照音を合成する場合も同様である。また、この様な問題は、雑音除去処理のための予測音声の生成処理時にのみならず、例えば、時間的に前後する被写体音同士を合成するような処理の特殊効果を使用する場合にも発生することがある。例えば、動画の音声を複数区間に区切り、その区間同士を合成する場合には、合成する区間同士のＡＬＣが異なると、合成する区間同士の音圧がずれているため、精度の高い特殊効果（適切な特殊効果）とならないことがある。

本発明は上記の課題に鑑みてなされたものであり、音声処理の精度劣化を低減することを目的とする。

上記目的を達成するための、本発明の一態様による音声処理装置は以下の構成を備える。すなわち、
動画撮影が可能な装置における音声記録装置であって、
動画撮影時にマイクを介して入力された音声を録音する録音手段と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
前記録音手段による録音の間に、雑音が重畳する雑音発生区間を検出する検出手段と、
検出された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測手段と、
前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記予測手段による予測音声の生成における前記利得の変動が及ぼす影響を低減するように、前記利得変更手段による利得の変更を制御する制御手段とを備える。

本発明によれば、音声処理の精度劣化を低減することが可能となる。

実施形態による撮影装置のブロック図。実施形態における音声処理回路のブロック図。雑音処理を含む音声処理を説明するタイミングチャート。雑音発生とＡＬＣ固定区間の関係を説明するタイミングチャート。第１実施形態の利得制御、雑音処理を説明するフローチャート。絞り駆動とＡＬＣ固定区間を説明するタイミングチャート。ＡＣＬ固定区間における予測音声と補間を説明する図。雑音発生とＡＬＣ固定区間の関係を説明するタイミングチャート。第２実施形態の利得制御、雑音処理を説明するフローチャート。ＡＬＣ急速リカバリ区間を説明するタイミングチャート。第２実施形態の利得制御を説明するフローチャート。

以下、添付の図面を参照して、本発明の好適な実施形態を説明する。
［第１実施形態］
図１は本実施形態による撮影装置の構成例を示すブロック図である。本実施形態では、動画撮影が可能な装置としてデジタル一眼レフカメラを用いるものとするが、これに限られるものではなく、コンパクトデジタルカメラや動画撮影が可能な携帯電話等にも適用可能である。なお、デジタルカメラの静止画、動画の撮影動作は各種文献に記載されているので説明を省略する。

図１において、１は撮影装置、２は撮影装置に装着されたレンズ、４はレンズの光軸を示している。レンズ２の各構成はレンズ鏡筒に収容されている。撮影装置１と撮影レンズ２は、所定のレンズ装着機構を介して機械的に接続されるとともに、電気接点１０を介して電気的に接続される。撮像装置１及びレンズ２から構成されるデジタルカメラは、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系３、撮像素子６を含み、画像処理系は、Ａ／Ｄ変換器２０、画像処理回路２１を含み、音声処理系はマイク７および音声処理回路２６を含む。また、記録再生系は、記録処理回路２３、記憶部であるメモリ２４を含む。また、制御系は、制御部であるカメラシステム制御回路２５、焦点検出部（ＡＦセンサ含む）１２、露出検出部（ＡＥセンサ含む）１３、ブレセンサ１４、操作検出回路２７、およびレンズシステム制御回路２８、レリーズ釦３０、光学系駆動部９を含む。光学系駆動部９は、焦点レンズ駆動部９ａ、ブレ補正駆動部９ｂ、絞り駆動部９ｃなどから構成されている。表示部２２は、撮影装置１の背面に設けられた、例えば液晶表示器から構成された表示器を含み、表示器に各種画像を表示させる。

マイク７は、例えば、周囲の音声を電気信号に変換し音声信号を取得する集音手段として機能する。音声処理系では、音声処理回路２６がマイク７で得られた信号に対して適切な処理を施して録音用音声信号を生成する。生成された録音用生成信号は、動画撮影時においては、後述する記録処理回路２３により画像とリンクして圧縮処理される。記録処理回路２３は、メモリ２４へ画像信号の出力を行うとともに、表示部２２に出力する像を生成、保存する。また、記録処理回路２３は、予め定められた方法を用いて画像、動画、音声などの圧縮を行う。

カメラシステム制御回路２５には焦点検出部１２および露出検出部１３が接続されており、静止画撮影においてはこれらの信号を元に適切な焦点位置、絞り位置を求める。また、カメラシステム制御回路２５は、電気接点１０を介してレンズシステム制御回路２８に指令を出し、レンズシステム制御回路２８は焦点レンズ駆動部９ａ及び絞り駆動部９ｃを制御する。例えば撮影被写体が明るくなった場合にはその事を撮像素子６或いはＡＥセンサ１３が検出し、その情報をカメラシステム制御回路２５に伝達する。カメラシステム制御回路２５は撮影光学系３に設けられた不図示の絞りを絞り駆動部９ｃにより駆動させる信号（絞り駆動指示信号）をレンズシステム制御回路２８に出力する。

以下、いわゆる動画撮影などの音声記録を伴う撮影について説明する。音声記録を伴う撮影においては、カメラ本体およびレンズのアクチュエータ駆動に伴う音（以下、メカ駆動音）は不要な音であり雑音となる。

図２は、本実施形態による音声処理回路２６の詳細な構成を示すブロック図である。マイク７から得られた信号はゲイン調整部４１に供給される。ゲイン調整部４１はＡ／Ｄコンバータ４３のダイナミックレンジが十分に活用できるようにマイク７の信号増幅レベルを調整する。どのようにレベル調整を行うかは後述する。フィルタ４２はＡ／Ｄコンバータ４３のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイク７が特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。Ａ／Ｄコンバータ４３はゲイン調整部４１及びフィルタ４２による処理信号をデジタル変換する。音圧検出部４４は、Ａ／Ｄ変換された音圧レベルの大きさを検出する。音声利得制御部４７は、音圧検出部４４で検出された音圧レベルが閾値（例えば飽和レベルの半分）を越える場合に、前述したゲイン調整部４１の信号増幅レベルを下げる。逆にＡ／Ｄ変換された音圧レベルが閾値（例えば飽和レベルの１／４）より小さい場合には前述したゲイン調整部４１の信号増幅レベルを上げる。このように、ゲイン調整部４１、音圧検出部４４及び音声利得制御部４７は、マイク７から入力された音声の大きさに応じて録音に用いられる利得（ゲイン、増幅率）を自動的に変更する自動利得変更部（ＡＬＣ）を構成している。

雑音処理部４５は、例えば、カメラの絞り駆動部９ｃの駆動などにより発生した雑音が混入した音声信号を処理し、雑音が混入した区間の音声の雑音を低減させる処理を行う。具体的には、雑音処理部４５は雑音発生区間の被写体音声信号を削除する。そして、雑音発生区間前後の区間（学習区間）の参照信号（雑音発生区間という所定領域の前方、後方の被写体音声）より雑音発生区間の被写体音声を予測し（音声予測）、元の雑音発生区間の信号と置き換えて音声信号補完を行う。例えば、音声予測は、音声の波形の連続性を利用して音声信号の次のサンプルを予測する処理を連続して行う。または、音声の繰り返し周波数を検出し波形を所定の周期で繰り返すようにしてもよい。すなわち、参照信号の音声を利用して雑音発生区間に置き換えるための信号を生成することが音声予測処理である。本実施形態では、絞り駆動部９ｃの駆動を例にとって説明するが、そのほかの駆動部（カメラ本体、レンズ、アクチュエータ）の駆動に伴う雑音が混入した場合であっても適用することができる。フィルタ４６は、雑音処理を行った後に必要であれば適当なフィルタ処理を施すためのフィルタであり、例えば２０Ｈｚから２０ｋＨｚなどの、人間の可聴音声帯域のみ透過させる帯域透過フィルタで構成される。又、不要であれば雑音処理を行わずスルーまたは適当な遅延のみ行うことも出来る。なお、振動検出部１１１は第２実施形態で用いられる構成であり、第１実施形態では省略可能である。

ここで音声の波形の連続性を利用して音声信号の次のサンプル（値）を予測する処理を連続して行う音声予測について説明する。まず、この音声予測で用いる、線形予測係数の導出（学習動作）と線形予測係数を用いた信号の予測（予測動作）について説明する。線形予測を用いるにあたっては、現在の信号とこれに隣接する有限個（ここではｐ個とおく）の標本値との間に次のような線形１次結合関係を仮定する。

但し、［数１］において、ε_tは平均値０、分散σ²の互いに無相関な確率変数である。
ここでｘ_tが過去の値から予測されるように式を変形すると、

［数２］によると、ε_tが十分に小さければ、近傍ｐ個の線形和によって現在の値が表現される。
ｘ_tを上記の予測によって求めた後、さらにその近似が十分によければｘ_t+1も同じく近傍ｐ個の線形和によって求められる。
このようにε_tを十分に小さくする事が出来れば順次予測信号を求めることが出来る。

そこでε_tを最小にするようなα_iの求め方を考える。
本明細書ではε_tを最小にする様なα_iを求める動作を学習動作と呼ぶ。その為前述の学習区間においてε_tの２乗和を最小化すればよい。学習の開始時間をｔ₀、終了時間をｔ₁とすると、

ただしα₀＝１である。ここで式を簡単にするために以下の様におく。

［数３］を最小化するようにα_iを決めるためには、以下に示すように、［数３］のα_j（j=,1,2,…p）に関する偏微分を０として解けばよい。

［数５］はｐ個の線形連立１次方程式を解けばα_iを決定できることを示している。［数５］のうちｃ_ijはｘ_t-i（i=1,2,…p）から求めることができる。すなわち［数５］からα_iを求めることが出来る。

［数５］に従ってα_iを決定した場合、ε_tの２乗和は最小化されている。この時数２より、ｘ_tの値はｘ^_tで良い近似を与えることが出来る。この近似が十分に良いものであれば、ｘ_tの代わりにｘ^_tを予測信号として用いることが出来る。さらにｘ_t-1についても同様に近傍のｐ−１個と予測によって求めた信号から近似値を得ることが出来る。これを順次繰り返すことで予測区間の信号を生成することが出来る。

次に、以上のようにして求めたα_iから予測区間の音声の予測信号を求める。なお、本明細書では、求められたα_iから予測区間の近似（予測信号）を求める動作を予測動作と呼ぶ。以下、好適な学習動作と予測動作について述べる。
図３は被写体音声を模式的に示しており横軸は時間、縦軸は音圧レベルを表す。本実施形態では、絞り駆動等の駆動部の駆動により雑音の発生した区間（雑音発生区間）の音声を演算により得られた予測音声で上書き（置換）する。そのため、雑音処理部４５は絞り駆動指示信号を検出するとメモリに音声を一時的に記憶させる。
そして、本実施形態では、雑音処理部４５は、絞り駆動指示信号を検出してから例えば１００ｍｓｅｃ後から２００ｍｓｅｃ後までの間に絞り駆動による雑音が混入すると仮定する。ここでは、雑音の発生した区間を削除区間と呼ぶ。図３において、５１ａは元の被写体音声であり第１の区間である削除区間５２に雑音が重畳している。また、雑音処理部４５は、絞り駆動指示信号を検出してから例えば１０ｍｓｅｃ後から１００ｍｓｅｃ後までの間を雑音発生区間より前の学習区間５３ａとして仮定する。また、雑音処理部４５は、絞り駆動指示信号を検出してから例えば２００ｍｓｅｃ後から３００ｍｓｅｃ後までの間を雑音発生区間より後ろの学習区間５３ｂとして仮定する。本実施形態では、雑音処理部４５は、絞り駆動指示信号を検出すると、この様に区間を決定し、記録媒体に記録前に一時的にメモリに記憶されている音声を、上述の予測処理により得られた予測音声を用いて雑音除去処理を施す。この場合、まず、雑音処理部４５はメモリに記憶されている音声の削除区間５２の被写体音声を削除する。

５１ｂは削除区間５２の被写体音声を削除した後の被写体音声である。雑音処理部４５は、削除区間５２の前後のメモリに記録されている学習区間５３ａと学習区間５３ｂにおける被写体音声より上述の予測動作を行う。そして、それぞれの学習区間から上述の予測動作によって得られた予測信号を重み付けをしながら合成し、当該削除区間５２に埋め込む。５１ｃは被写体音声５１ｂの予測区間５４に予測信号が埋め込まれた被写体音声を示す。この様に学習動作を行うに当たっては予測区間５４（削除区間５２と同じ区間）の前後の近傍の信号を用いる。これは音声信号が極短時間の領域に着目すると比較的繰り返し性が高い性質になっている事を利用している。

学習区間５３ａおよび学習区間５３ｂの２つの信号に対して、前述した音声予測の演算が夫々独立に行われる。予測区間５４よりも前の学習区間５３ａで学習動作を行った後に当該予測区間５４の信号を生成することを前方からの予測と呼ぶ。また、予測区間５４よりも後ろの学習区間５３ｂで学習動作を行った後に予測区間５４の信号を生成することを後方からの予測と呼ぶことにする。

予測区間５４内の信号でも、学習区間５３ａに近い区間には前方からの予測による値の重みを重く、学習区間５３ｂに近い区間には後方からの予測による値の重みを重くなるように互いの予測値の混合に適当な演算を行って求める。尚、後方からの予測はリアルタイムでは出来ない。その為、実際には雑音処理部４５は絞り駆動指示信号を検出した場合に、被写体音声を所定の区間だけメモリ等に一時記憶し、記憶された音声に雑音が重畳した雑音発生区間（削除区間５２に該当する）の音声を予測音声に差換えた後に記録媒体に音声を記録している。メモリに一時的に記憶する工程は、音声予測を行う場合だけであっても良いし、予測を行わない場合も常に一度メモリに記憶してから記録媒体に記録しても良い。本実施形態では、予測を行わない場合は、メモリに記憶させずに記録媒体に記録する場合について説明していく。

ここで上記の様に音声検出時のリアルタイムではなく、音声を検出し、その後に音声を記録するまでの間に雑音処理が出来る理由を以下に説明する。
図１のブロック図で説明した様に、カメラシステム制御回路２５は絞りの駆動を制御するので、絞りの駆動（絞り駆動などは雑音の発生源となる）タイミングが判る。そこで、本実施形態では、雑音処理部４５は、絞り駆動指示信号を検出すると、まず、絞り駆動指示信号検出から所定時間分（例えば３００ｍｓｅｃ）の音声データをメモリに記憶する。そして、雑音処理部４５は、絞り駆動指示信号を検出してから例えば１００ｍｓｅｃ後から２００ｍｓｅｃ後までの間に絞り駆動による雑音が混入すると仮定する。また、雑音処理部４５は、絞り駆動指示信号を検出してから例えば１０ｍｓｅｃ後から１００ｍｓｅｃ後までの間を雑音発生区間より前の学習区間５３ａとして仮定する。また、雑音処理部４５は、絞り駆動指示信号を検出してから例えば２００ｍｓｅｃ後から３００ｍｓｅｃ後までの間を雑音発生区間より後ろの学習区間５３ｂとして仮定する。本実施形態では、雑音処理部４５は、絞り駆動指示信号を検出すると、この様に区間を決定し、記録媒体に記録前に一時的にメモリに記憶されている音声を、上述の予測処理により得られた予測音声を用いて雑音除去処理を施す。そして、音声録音までの間に前方、後方の学習区間における参照音に基づき雑音区間を予測音声に差し替える。

次に自動利得変更制御（以降ＡＬＣという）に付いて説明する。
ＡＬＣは図２で示した様に音声処理回路２６の中のゲイン調整部４１、音圧検出部４４及び音声利得制御部４７で構成され、自動的に利得変更を行う。図４の（ａ）は、一般的なＡＬＣの動作を示しており横軸は時間、縦軸は音圧レベル或いは利得レベルを示している（２つのスケールが存在する為、縦軸に尺度表示は行っていない）。

ここでは点線で示す被写体音声５１ａは時刻ｔ１まで通常音圧の被写体音声であるが、時刻t２からｔ３まで被写体音声が大きくなり（録音飽和レベルの半分以上）、その後通常音圧レベルに復帰している。図４の（ａ）において時刻ｔ１〜ｔ２で大きな被写体音声が発生すると音声信号の飽和を防ぐ為にＡＬＣが動作し、ゲイン調整部４１はマイクの信号増幅レベルを下げる。その為、実線で示す録音される音声６１は区間ｔ１〜ｔ２における被写体音声５１ａほど大きな音として録音される事はない。時刻ｔ２で被写体音声が元の音圧に戻ると再びＡＬＣが機能して、ゲイン調整部４１はマイクの信号増幅レベルを徐々に元に戻す。ここで「徐々に元に戻す」理由は急激に復帰させると音の連続性が失われて不自然な音声として録音される為である。しかしながら図４の（ａ）の様な模式図で見ると、実際に録音される音声６１は時刻ｔ２からｔ３にかけて音圧レベルが変化する事になり精度の良い録音は行われていない。音声の不連続性は極めて異質に知覚されるので急激な信号増幅変化を行わないのは大切であるが、上述した様に所定の時定数をもった信号増幅レベルの変化は録音精度を低下させる原因でもある。ＡＬＣによる信号増幅レベル６２（一点鎖線）は、図示のように、増幅レベルは時刻ｔ１で一旦下がり、時刻ｔ２からｔ３にかけてゆっくりと復帰する。なお、時刻ｔ１で徐々にではなく急激に信号増幅レベル６２を下げるのは、信号の飽和が突然発生する事を防ぐ為である。

図３と図４の（ａ）を用いて雑音処理部とＡＬＣの関連を説明する。そのために、図４の（ａ）における被写体音声（大）区間６５に絞りが駆動し、絞りの駆動に起因する雑音が混入し、被写体音声のレベルが５１ａのようになったと仮定する。そうすると、図３の削除区間５２に、図４の被写体音声（大）区間６５が対応していることになる。図３で説明したように、予測区間５４の音声は、前方の学習区間５３ａと後方の学習区間５３ｂにおける参照音により予測される。そうすると、図４の（ａ）において６４が、前方の学習区間となり、６６が、後方の学習区間となる。図４の（ａ）において、前方の学習区間６４の参照音（録音される音声６１）は被写体音声５１ａを一定の信号増幅レベルで記録したものである。その為、それを用いた削除区間（図３の削除区間５２、図４の（ａ）の被写体音声（大）区間６５に置き換えられる音声の予測は精度良く行われる。それに対して後方の学習区間６６の参照音（録音される音声６１）は被写体音声５１ａを変動する信号増幅レベルで記録したものである。すなわち、録音される音声５１の後方の学習区間６６の参照音は前述した様にＡＬＣの作動によるものである。その為に、後方の学習区間６６の参照音を用いた削除区間（図３の削除区間５２、図４の（ａ）の被写体音声（大）区間６５）の音声予測精度は大幅に低下する。

第１実施形態では、信号増幅レベルが変化してしまうことにより、音声予測の精度が低下してしまうことを防止するために、音声予測の処理に関する区間における、ゲイン調整部４１の信号増幅レベルを固定するようにした。すなわち、図４の（ｂ）に示すように、前方の学習区間６４と、雑音発生区間６５と、後方の学習区間６６とを含む区間におけるゲイン調整部４１の信号増幅レベルを固定する。この区間をＡＬＣ固定区間７１としている。ＡＬＣ固定区間７１においては音声利得制御部４７により被写体音声の音圧の変化によらず、信号増幅レベルがその直前に設定されているレベルに固定される。その為に後方の学習区間６６においても被写体音声が一定の信号増幅レベルで記録されることになる。これにより、後方の学習区間６６に基づいて予測される音声の精度の低下を防止することができるようになる。よって、絞り駆動区間（削除区間５２）における絞り駆動の雑音が重畳された音声信号を、前方及び後方の学習区間６４、６６の参照音より生成された高品位な予測音声によって置き換えることができる。尚、録音される音声６１はＡＬＣが固定される為に、被写体音声５１ａは絞り駆動区間に対応する削除区間５２では回路が飽和するほど大きな音になっている。しかしながらこの区間の音声は削除されてしまう為に音声の飽和が起きても問題にはならない。本実施形態では、前方の学習区間６４と、雑音発生区間６５と、後方の学習区間６６とを含む区間の信号増幅レベルを固定することについて説明した。しかし、雑音発生区間６５の音声は削除され、その前後の学習区間６４、６６における音声から予測により求められる。従って、本実施形態のように、前方の学習区間６４と、後方の学習区間６６との音声を処理する場合、雑音発生区間６５の信号増幅レベルは固定されていなくてもよく、前後の学習区間６４、６６における信号増幅レベルが一定の値になるように制御されればよい。

なお、本実施形態では時刻ｔ０より前の時間である時刻ｔ−１よりＡＬＣ固定を行っている。実際の撮影時には絞りの駆動ばかりではなく撮影者が撮影装置を操作する音も被写体音に重畳される。この音は撮影装置の筐体を伝わり、マイクに対してかなり大きな音として入力される事になる。その発生は短時間ではあるが、その度にＡＬＣが動作すると、図４の（ａ）に示される波形６３のようにＡＬＣの復帰に長時間がかかるため、その間の被写体音声は予測の為の参照音としてつかえない。そこで学習区間６４、６６でＡＬＣの変動がおきないように、学習区間６４、６６より長い区間をＡＬＣ固定区間７１（時刻ｔ−１からｔ４）としている。

ＡＬＣ固定区間７１は特に、絞り駆動等の様に撮影装置の指示により駆動する駆動部の発生させる雑音を低減させる場合に設定される。具体的には、レンズの絞り駆動を行う時など、撮像装置側でその駆動指示が出力される場合には絞りが駆動することを当然、撮像装置が判別することができる。そのため、絞り駆動による雑音の発生が予測でき、ＡＬＣ固定区間７１を設定することができる。なお、このような雑音の発生を予測する、すなわち雑音発生区間を特定する機能はカメラシステム制御回路２５に含まれる。そして、その区間のゲイン調整部４１における信号増幅レベルを固定する様にカメラシステム制御回路２５が音声利得制御部４７に対して、信号増幅レベル変更を所定期間（音声処理を行う期間）禁止する指示をする。たとえば、信号増幅レベルを絞り駆動前のレベルに固定する指示を行う。音声利得制御部４７は、この指示を受けている間、ゲイン調整部４１における利得（ゲイン）を一定に保つ。

図５は、第１実施形態による音声記録処理を説明するフローチャートであり、このフローはデジタルカメラが動画撮影時に録音を開始する時にスタートする。尚、説明をわかり易くする為に、図５のフローチャートでは本実施形態の説明に必要な処理が示されており、他の一般的な処理は省略されている。本実施形態では、予測を行わない場合は、メモリに記憶させずに記録媒体に記録する場合について説明していく。

まず、マイク７に入力された被写体音声はゲイン調整部４１で増幅され、フィルタ４２でフィルタ処理され、Ａ／Ｄコンバータ４３でＡ／Ｄ変換される。ステップＳ５０１において、音圧検出部４４は、Ａ／Ｄ変換された被写体音声からその音圧を検出する。ステップＳ５０２において、音声利得制御部４７は、カメラシステム制御回路２５から絞り駆動指示信号が出力されたか否かを検出し、絞りが駆動しようとしているか否かを判別する。そして、絞りが駆動しようとしていない場合はステップＳ５０３に処理が進み、絞りが駆動しようとしている場合はステップＳ５０６に処理が進む。絞りが駆動しようとしている場合は、ステップＳ５０３〜Ｓ５０５の処理がスキップされるため、ＡＣＬによる利得変更が禁止され、録音レベルが固定されることになる。すなわち、この区間が、ゲイン調整部４１における信号増幅レベルが固定されるＡＬＣ固定区間７１となる。なお、本実施形態では、ＡＬＣ固定区間７１においてＡＬＣの利得がその直前のレベルに固定されることになるが、これに限られるものではない。例えば、ＡＬＣ固定区間ではＡＬＣを所定のレベルに固定するようにしても良い。例えば、ステップＳ５０２において絞りが駆動しようとしていると判定された場合に、処理をステップＳ５０５へ進めるようにすれば、ＡＬＣ固定区間ではＡＬＣのレベルが通常の録音レベルに固定されることになる。

本例では、絞り駆動に起因した削除区間５２に関するものであるため、ＡＬＣ固定区間７１は絞り駆動区間に応じた所定期間となる。ここで「ＡＬＣ固定駆動区間」について詳細に説明する。図６はＡＬＣ固定駆動区間と絞り駆動区間の関係を説明する図であり横軸は時間、縦軸は各信号の様子を、Ｈは信号オン、Ｌは出力オフを表している。図６に示されるＡＬＣ固定区間信号９２がオン（Ｈ）の間、音声利得制御部４７はＡＬＣによる利得の変更を禁止する。

撮影被写体が明るくなり、絞りを絞る事で露出を補正する必要があるときは一点鎖線で示した絞り駆動指示信号９３がカメラシステム制御回路２５より時刻ｔ−２で出力される。それに応じてカメラシステム制御回路２５は、ＡＬＣ固定区間信号９２を時刻ｔ−１で音声利得制御部４７へ出力する。その後、学習区間を時刻ｔ０より例えば０．１秒ほど設けた後に、カメラシステム制御回路２５は絞り駆動信号９１を出力する。レンズシステム制御回路２８は、絞り駆動信号９１に応じて、絞り駆動部９ｃに絞り駆動を行わせる。この様に、カメラシステム制御回路２５は、絞り駆動に先立ち、前方の学習区間６４を確保したＡＬＣ固定区間信号９２を出力する。このように、絞り等のようなデジタルカメラが備える機構の駆動に関わる制御信号に基づいて雑音発生区間の発生するタイミングを決定し、決定された雑音発生区間の前方に設定される学習区間をさらに含むようにＡＬＣ固定区間が決定される。なお、制御信号としては、上記例では絞り駆動指示信号であるがこれに限られるものではなく、例えば、ユーザによる操作信号等（ズーム変更操作等）を上記制御信号として検出することも可能である。

以上のように、ＡＬＣ固定区間信号９２を学習区間６４を含むか或いはそれより前の時刻より出力する事で、学習区間６４における信号増幅レベルが安定的に固定される。又、絞りの駆動時間は例えば０．１秒程度とほぼ一定な為にその絞り駆動信号の発生期間（削除区間６５）及び後方の学習区間６６を含む時刻ｔ４までをＡＬＣ固定区間信号９２のオン期間としている。なお、絞り駆動信号を監視し、絞り駆動信号がオフしてから学習区間分が経過した後にＡＬＣ固定区間信号９２をオフするようにしてもよい。そしてそのＡＬＣ固定区間信号９２がオンとなっている間は、信号増幅レベルが一定のレベルまたは、標準のレベルに固定される。この様に後方の学習区間を含むか或いはそれより後の時刻ｔ４まで出力する事で後方の学習区間６６における信号増幅レベルを固定している。

図６でわかるように、ＡＬＣ固定区間信号９２によりＡＬＣ固定区間７１は実際の絞り駆動信号９１を跨ぐ広い区間になっているので、学習区間の被写体音声がＡＬＣの変動の影響を受ける事がない。即ち絞り駆動指示に先立って信号増幅レベルを固定する構成となっているため、学習区間の被写体音声がＡＬＣの変動の影響を受ける事はない。

ステップＳ５０３において、音声利得制御部４７は、ステップＳ５０１で検出した被写体音声の音圧が所定レベル以上であるか否かを判定する。そして、所定レベル以上のときは処理はステップＳ５０４に進み、ゲイン調整部４１により録音レベルを小さくする。被写体音声の音圧が所定レベル以上でない場合はステップＳ５０５に進み、録音レベルを通常に設定する。なお、Ｓ５０３〜Ｓ５０５で実行されるＡＬＣでは、音圧が所定レベルを超えた場合にゲインを下げる構成を示したが、音圧が所定レベルより小さい場合にゲインを上げる機能を持たせても良い。次に、絞り駆動指示信号を検出した場合には、ステップＳ５０６へ処理をうつす。ステップＳ５０６では被写体音声を設定したレベルで録音し一時記憶する。この一時記憶には、例えば音声利得制御部４７に設けられたメモリ（不図示）を用いることができる。ここで被写体音声を一時記憶するのは前述したように予測処理を行う区間より後の信号（後方の学習区間）を用いているからである。

以上が、予測音声の生成における利得の変動が及ぼす影響を低減することを目的として、雑音発生区間の前方及び後方の学習区間を含む所定期間においてなされる利得の変更の制御である。以上のようにして一時記憶された音声は、次に説明するように、必要に応じて雑音処理が施され、録音音声として記録される。なお、図５の（ａ）と（ｂ）の処理は少なくとも見かけ上並列に実行されるものとする。まず、ステップＳ５０７において、雑音処理部４５は、カメラシステム制御回路２５から絞り駆動指示信号が出力されたか否かを検出し、絞りが駆動しようとしているか否かを判定する。ステップＳ５０７において、絞りが駆動しようとしていると判定された場合、ステップＳ５０９へ進み、絞りが駆動しようとしていないと判定された場合、ステップＳ５１３へ進む。
ステップＳ５０７で、絞りが駆動しようとしていないと判定された場合は、ステップＳ５１３へ処理をうつし、音声信号を記録媒体へ記録する。また、ステップＳ５０７で、絞りが駆動しようとしていると判定された場合は、ステップＳ５０９からステップＳ５１２で示される処理へ進み、上述した予測処理、等を実行し雑音低減処理を行う。ステップＳ５０９において、雑音処理部（音声利得制御部４７）は、学習区間６６の完了か否かに基づいて予測を開始するか否かを判定する。絞り駆動信号９１のオフへの切り替わりを検出した後、学習区間６６に対応した期間の経過を検出することにより、予測の開始と判定される。或いは、ＡＬＣ固定区間の完了（ＡＬＣ固定区間信号９２のオフへの移行）を検出することで予測の開始と判定しても良い。

ステップＳ５０９において予測の開始と判定されると、処理はステップＳ５１０へ進む。ステップＳ５１０において、雑音処理部（音声利得制御部４７）は、削除区間の前後の学習区間における音声信号から削除区間の音声を予測する。そして、ステップＳ５１１において、雑音処理部（音声利得制御部４７）は、ステップＳ５１０で予測した音声を削除区間に組み入れる。ステップＳ５１２では、雑音処理を行った音声信号を雑音処理を行わなかった音声信号にはめ込み、両音声信号を時間的に揃える。そして、ステップＳ５１３に進む。

ステップＳ５１３において、音声処理回路２６は、Ｓ５１２で、予測音声により雑音区間の音声を置き換えた音声データがメモリに一時記憶されているので、その音声データをメモリ２４に記録する。例えば、音声処理回路２６は、ステップＳ５１２で得られた雑音処理済の音声信号がはめ込まれた音声信号をメモリ２４に記録する。また、絞り駆動区間中以外の音声信号であれば、そのままメモリ２４に書き込まれる。

尚、図５の（ｂ）に示したステップＳ５０７からステップＳ５１３の処理は、デジタルカメラで処理しなくても、デジタルカメラで録音された音声信号を外部の情報処理装置（例えばパーソナルコンピュータ）で処理するようにしても良い。但し、その場合には、ステップＳ５０４、Ｓ５０５で得られた信号を、絞り駆動区間信号９２や絞り駆動信号９１と共にカメラの記録媒体に記録しておく。そして、外部の情報処理装置が、音声信号とともに記録されている絞り駆動区間信号や絞り駆動信号に基づいて上述した音声信号の雑音処理を行う事になる。

図７の（ａ）から(ｅ)は本発明の第１の実施形態を音声信号で示した図であり、横軸は時間、縦軸は音圧レベルである。図７の（ａ）は、雑音混入区間１０２において、被写体音信号に絞りの駆動雑音が混入している様子を示す。図７の（ｂ）は、前方の学習区間１０１より予測区間１０４（雑音混入区間１０２に対応する）の音声を予測している最中の音声信号波形(予測波形１０５)を示している。図７の（ｃ）は、図７の（ｂ）の予測信号に三角形状の窓関数１０７をかけた信号１０６を示す。図７の（ｄ）は、同様にして予測区間１０４（雑音混入区間１０２）の後方からの音声予測結果に、窓関数１０９を掛けたものである。図７の（ｅ）は、（ｃ）及び（ｄ）の予測結果を加算して、雑音混入区間１０２の音声信号の補間を行った波形１１０を示す。

予測処理においては、まず、カメラシステム制御回路２５が出力する絞り駆動区間信号９２によりＡＬＣ固定区間７１が決定される。ＡＬＣ固定区間７１は、図７の（ａ）で示される雑音混入区間１０２（絞り駆動雑音が被写体音声に重畳している区間）および前方、後方の学習区間１０１、１０３に基づいてカメラシステム制御回路２５が出力する絞り駆動区間信号９２に対応する。

次に、図７の（ｂ）で示すように、所定周期（例えば４４Ｋｈｚ）毎に前方の学習区間１０１の音声信号を用いてその信号を延長してゆく（予測波形１０５）。次に、図７の（ｃ）に示すように、図７の（ｂ）で作成した窓掛け前予測信号に三角形状の窓関数１０７をかけて前方予測信号１０６を完成させる。以下、この段階での予測信号を窓掛け後予測信号と呼ぶ。このとき窓関数ｗｆ（ｔ）は予測区間のデータ数がＮ＋１点である場合は、予測開始直後のデータをｎ＝０とするとｗｆ（ｎ）＝（Ｎ‐ｎ）/Ｎで表される関数である。

図７の（ｄ）のように同様の処理を雑音混入区間１０２直後についても行い、窓関数１０９を用いて後方からの窓掛け後予測信号１０８を作る。後方からの窓掛け前予測信号にかけられる三角形状の窓関数１０９は前方からの予測のときと対称となりｗｒ（ｎ）＝ｎ/Ｎで表される。図７の（ｅ）で示すように、音声処理回路２６は前方からの窓掛け後の予測信号１０６と後方からの窓掛け後の予測信号１０８を加算して雑音混入区間の音声信号と置き換えることで補間が終了する。

前方、後方の両方からの窓掛け前予測信号に三角形状の窓関数をかけて加算することで、前方からの予測信号と雑音混入区間直後及び、後方からの予測信号と雑音混入区間直前の音声信号が滑らかにつながるようにしている。図７の（ａ）で示した様にＡＬＣ固定区間７１を前方の学習区間１０１、後方の学習区間１０３を含む期間よりも広く設けているので、その間の音声信号がＡＬＣによる音圧変動を受けない。その為に雑音混入区間の被写体音声のみを精度よく予測できる。

以上説明したように、第１実施形態によれば、絞り駆動により雑音が発生する雑音発生区間の前後の学習区間の全体を含む期間において、ゲイン調整部４１における信号増幅レベルの変更が禁止される。このため、雑音発生区間の音声をより高精度、高品質に予測することができる。

本実施形態では、前方の学習区間６４と、雑音発生区間６５と、後方の学習区間６６とを含む区間の信号増幅レベルを固定することについて説明した。しかし、雑音発生区間６５の音声は削除され、その前後の学習区間６４、６６における音声から予測により求められる。従って、本実施形態のように、前方の学習区間６４と、後方の学習区間６６との音声を処理する場合、雑音発生区間６５の信号増幅レベルは固定されていなくてもよく、前後の学習区間６４、６６における信号増幅レベルが一定の値になるように制御されればよい。

また、本実施形態で説明した予測処理については、上述したように、マイクより入力された音声に基づいた、他のアルゴリズムによって処理が行われても良い。この場合も、音声処理に使用される学習区間（参照区間）の音声信号が信号増幅レベルが一定の値になるように制御されればよい。例えば、前方の学習区間６４の参照音に基づいて求められた音声と、雑音発生区間６５の音声を、窓関数を用いて所定の割合で合成する場合でもよい。そうすると、音声の処理に使用されるのは、前方の学習区間６４と、雑音発生区間６５の音声であるため、その区間の信号増幅レベルが所定の値または、直前の値に固定されていればよい。

また、本実施形態では、雑音処理の方法として予測を用いた処理を説明したが、例えば音声特殊効果などのために、入力された音声の複数の区間を利用して音声を処理するような場合であっても、本技術は採用することができる。具体的には、音声の特殊効果の実行があるタイミングを検出したら、音声の特殊効果の処理に利用される区間の信号増幅レベルが一定の値になるように制御することによって、特殊効果の精度の低下を防ぐことができる。

また、本実施形態では、絞り駆動に対応する音声に関して雑音除去処理を実行していたが、これ以外の駆動部の駆動に対応する音声に関して雑音除去処理を行っても良い。
また、絞り駆動の度合い（例えば、１段駆動、３段駆動）によって、雑音発生区間とする期間の長さを変えても良い。それと同時に、ＡＬＣ固定区間とする期間の長さを変えても良い。例えば、１段駆動の場合よりも３段駆動の場合の方が、雑音発生区間についても、ＡＬＣ固定区間についても長くするようにする。すなわち、駆動時間の長い駆動を行う動作については、雑音発生区間についても、ＡＬＣ固定区間についても長くするようにする。

［第２実施形態］
次に、第２実施形態による音声処理系が適用された撮像装置について説明する。第２実施形態の音声処理系では、図２に示した振動検出部１１１が追加される。振動検出部１１１は加速度計などで構成されており、録音装置であるマイク７の近傍に配置されて、カメラから発生しマイク７に加わる振動を検出している。音声処理回路２６は、振動検出部１１１の出力に応じてゲイン調整部４１における信号増幅レベルを一定のレベル、または直前のレベルに設定する。

カメラが発生する雑音の要因となる振動には、第１実施形態で説明した絞り駆動などの駆動振動ばかりではなく、撮影者がカメラを操作したときに生ずるカメラをこする振動も含まれる。このような振動は、駆動信号の様にカメラシステム制御回路２５からは検知できない。また、カメラをこする振動はかなり大きな振動としてマイク７に入力される為に雑音として被写体に重畳してしまう。その為にカメラをこする区間も検出し、その区間も予測音声に置き換えることで雑音を除去する事が考えられる。このとき、カメラをこする振動により、マイク７が音として検出する信号のレベルもＡＬＣを作動させて学習区間の音声を低下させてしまう。そこで振動検出部１１１は雑音区間の検出と共にＡＬＣ固定区間の設定も行う。

図８の（ａ）は、第２実施形態における振動発生区間とＡＬＣ固定区間のタイミングを説明する図である。図８の（ａ）に示されるように、振動検出部１１１の信号が所定レベルに達した時に始まり、そのレベルが所定レベルを下回ってから一定区間（例えば０．０５秒）後に終了するＡＬＣ固定区間７１が設定される。ＡＬＣ固定区間７１においては被写体音声の音圧の変化によらず、それより前に設定されたマイク信号増幅レベルに固定される。その為に振動発生区間１２１における振動雑音は前方及び後方の学習区間６４、６６により高品位な予測音声に置き換えられる。第１実施形態で説明した図４の（ｂ）と異なるのは、前方の学習区間６４においてはＡＬＣが固定されていない事である。これは振動検出部１１１の信号発生タイミング（振動発生区間）を予測することが出来ない為である。その為、第２実施形態では、録音音声の一時記憶時に、そのＡＬＣレベルも同時に記憶しておく。そして、前方の学習区間６４でＡＬＣレベルの変動が生じていた場合には、ＡＬＣレベル変動分を復元して予測に利用する。

図８の（ｂ）を参照して上記の動作を説明する。図８の（ｂ）において横軸は経過時間、縦軸は音声の音圧レベル或いは信号増幅レベルである。ここで時刻ｔ−３より被写体音声１２１ａが発生している。被写体音声１２１ａにおいて、区間１３１で瞬間的に被写体音声が大きくなっている。この様な場合は、ＡＬＣの信号増幅レベル１３２がその区間で低くなる。しかしながら前述した様に被写体音声が元に戻っても、ゲイン調整部４１における信号増幅レベルは直ぐには元に戻らず、ある時定数を持って復帰してゆく。その為にその区間１３１では録音される音声１２３は音声１３３で示す様に実際の被写体音声より低いレベルで録音される事になる。撮影者が操作釦を操作したり、カメラをこするとその振動が発生する（時刻ｔ１）。この振動発生区間１２１においては被写体音声に上記振動音が重畳する。音声利得制御部４７は、振動検出部１１１から振動を検出した旨の通知を受けると、直ちに信号増幅レベルを固定する（時刻ｔ１）。音声利得制御部４７は、ＡＬＣ固定区間７１を時刻ｔ１から開始し、振動の発生が時刻ｔ２でおさまった後に後方の学習区間６６（時刻ｔ３）を見込んで、それより遅い時刻ｔ４まで継続させる。これは後方の学習区間６６におけるＡＬＣの変動を止めて音声予測精度を高める為である。その為後方の学習区間６６においては信号増幅レベルの変動を受けず、予測精度の低下を防ぐことができる。

通常は時刻ｔ１における振動の発生以前にはＡＬＣの変動はない為に前方の学習区間６４もそのまま予測に用いても予測精度は低下しない。しかしながら図８の（ｂ）に示した様に振動の発生時刻ｔ１に先立って瞬間的に大きな音声が発声されたときにはＡＬＣが変動してしまうので前方の学習区間６４の音声を用いると予測の精度が劣化する。その対応について以下に説明する。

前述した様に被写体音声は一旦メモリ等に記憶され、雑音処理を施された後に最終的に音声記録される。本実施形態では、被写体音声を一旦記憶するときに、同時にＡＬＣ信号増幅レベルも同期して記憶する。そして、その後に予測処理を行うに先立って、一旦記憶した信号レベルの増幅率を修復する。図８の（ｂ）において修復信号レベル１３４は信号増幅レベル１３２の逆波形である。この修復信号レベル１３４を１３５の時点１３５（ＡＬＣレベルが復帰を始めた時点）から録音される音声に乗ずる。時点１３５以降の音声信号は時刻ｔ０以前の被写体音圧と同じレベルに復帰する。その後、前方の学習区間６４の音圧レベルが復帰された音声を用いて振動発生区間１２１の音声を予測するので、予測信号の精度低下を防ぐ事が出来る。

図９は第２実施形態によるデジタルカメラの動作を説明するフローチャートであり、この処理はデジタルカメラが動画撮影時に録音を開始する時にスタートする。尚、説明をわかり易くする為に、図９のフローチャートでは本実施形態の説明に必要な処理が示されており、他の一般的な処理は省略されている。また、第１実施形態と同じ機能のステップは同一番号で示している。

ステップＳ９０１において、音声利得制御部４７は、振動検出部１１１から振動を検出した旨の信号を受信したかどうかを判定する。検出信号を受信した場合（振動が発生したとき）は、処理はステップＳ９０２に進む。この結果、ステップＳ５０３〜Ｓ５０５がスキップされ、録音レベル（ＡＬＣレベル）が固定される。なお、本実施形態では、振動検出部１１１からの信号を音声利得制御部４７が検出してＡＬＣ固定区間を開始する。また、音声利得制御部４７は、振動検出部１１１が振動を検出しなくなってから学習区間６６の期間に所定の余裕期間を加えた期間の経過を待って、当該ＡＬＣ固定区間の完了とする。しかしながら、カメラシステム制御回路２５が振動検出部１１１による振動検出に基づいてＡＬＣ固定区間（振動発生区間１２１＋学習区間６６＋余裕期間）を示す信号を生成し、これを音声利得制御部４７に通知するような構成としても良い。

振動が発生していない場合はステップＳ５０１に進む。ステップＳ５０１、Ｓ５０３〜Ｓ５０５は第１実施形態で説明したとおりである。検出信号を受信した場合（振動が発生したとき）は、ステップＳ９０２において、音声処理回路２６は、被写体音声を設定されたＡＬＣレベルで録音し一時記憶するとともに、それと同期してそのときの増幅レベル（ＡＬＣレベル）も一時記憶する。ここでＡＬＣレベルを一時記憶する理由は前述した様に、学習区間６４におけるＡＬＣの変動による音圧変動を同時に記憶したＡＬＣレベルで修復する為であり、且つ、後方の学習区間６６から音声予測を行う為である。

以上が、予測音声の生成における利得の変動が及ぼす影響を低減することを目的として、雑音発生区間の前方及び後方の学習区間を含む所定期間においてなされる利得の変更の制御である。以上のようにして一時記憶された音声は、次に説明するように、必要に応じて雑音処理が施され、録音音声として記録される。まず、ステップＳ９０３において、検出信号を受信したか否かを（振動が発生したときであるか否か）を判定する。ステップＳ９０３において、検出信号を受信した（振動が発生した）と判定された場合には、処理はステップＳ９０５〜Ｓ９０８、Ｓ５１２に進み、雑音低減処理を実行する。ステップＳ９０４では、ステップＳ５０８と同様に当該雑音区間の音声が削除される。また、ステップＳ９０３で雑音区間ではないと判定された場合は、処理はステップＳ５１３に進む。ステップＳ５１３の処理は第１実施形態で説明したとおりである。

ステップＳ９０５において予測開始と判定されると、処理はステップＳ９０６へ進む。この判定は、図５のステップＳ５０９と同様である。ステップＳ９０６では、上記雑音区間の前後の学習区間６４及び学習区間６６の音声信号を、音声の録音と同期して記憶したＡＬＣレベルを用いて修復する。以降、ステップＳ９０７、Ｓ９０８の処理は、学習区間６４に関して修復後の音声信号を用いる点を除いて、ステップＳ５１０、Ｓ５１１と同様の処理である。

尚、図９の（ｂ）（ステップＳ９０３からステップＳ５１３）で示される処理は、デジタルカメラで実行しなくてもよく、デジタルカメラで録音された音声信号を外部の情報処理装置（パーソナルコンピュータ等）で処理しても良い。その場合にはステップＳ５０４、Ｓ５０５で設定された録音レベル、絞り駆動区間、振動発生区間、ＡＬＣ固定区間を示す信号を、音声信号とともに記録媒体に記録しておくことが必要となる。そして、外部の情報処理装置は、音声信号とともに記録されている録音レベル、絞り駆動区間、振動発生区間、ＡＬＣ固定区間を示す信号に基づいて雑音処理を行う事になる。

以上説明したように、第２実施形態によれば、雑音発生区間に続く学習区間の全体を含む期間において、ＡＬＣによる利得の変更が禁止される。また、雑音発生区間の前方の学習区間の音声が、当該音声を記録した際の利得のレベルに応じて修復される。そのため、雑音発生区間の音声をより高精度、高品質に予測することができる。なお、振動検出部１１１による雑音区間の検出については第２実施形態のようにＡＬＣ固定区間を設定し、発声が予測可能な雑音区間（例えば絞り駆動）については第１実施形態のようにＡＬＣを固定する構成としても良い。また、第１実施形態の技術と組み合わせて実施しても良いことは言うまでもない。

［第３実施形態］
第１実施形態、第２実施形態では雑音が発生するときにはＡＬＣを固定していた。第３実施形態ではＡＬＣを固定するのではなく、雑音が発生する区間および、その後の所定期間にわたってＡＬＣのリカバリを急速に行うことで後方の学習区間６６の精度劣化を防いでいる。

図１０に示されるような被写体音声が録音される場合、前方の学習区間６４の参照音（録音される音声６１）は被写体音声５１ａと同じである為にそれを用いた削除区間６５（図３の削除区間５２）の音声予測は精度良く行われる。それに対して後方の学習区間６６の参照音（録音される音声６１）は被写体音声５１ａとは大きく異なる。これは前述した様にＡＬＣのリカバリがゆっくりである為である。その為にその参照音を用いた削除区間６５の音声予測精度は大幅に低下する。それに対して第３実施形態では絞り駆動や振動検出部１１１が検出する振動発生区間である雑音発生区間１５０３およびその後の学習区間６６を含む区間をＡＬＣ急速リカバリ区間１５０１としている。その為に信号増幅レベルの波形１５０２で示す様に、従来の信号増幅レベルの波形６３と比較してＡＬＣの利得復帰が急速になり、後方の学習区間６６の参照音声に与えるＡＬＣの変動の影響が低減される。

よって後方の学習区間６６においても録音される音声と被写体音声がほぼ一致するようになり、雑音発生区間１５０３における雑音は前方及び後方の学習区間６４、６６により高品位な予測音声に置き換えられる。

図１１は、第３実施形態による雑音処理のフローチャートであり、このフローはデジタルカメラが動画撮影時に録音を開始する時にスタートする。尚、説明をわかり易くする為に、図１１のフローチャートでは本実施形態の説明に必要な処理が示されており、他の一般的な処理は省略されている。また、第１実施形態や第２実施形態と同じ機能のステップは同一番号で示している。

第３実施形態では、ＡＬＣ固定を行わないため、Ｓ５０１、Ｓ５０３〜Ｓ５０５の録音レベルの調整（ＡＬＣ）が必ず実行される。そして、ステップＳ９０１で振動検出部１１１により振動が検出された場合、或いはステップＳ１１０２においてＡＬＣ急速リカバリ区間であると判定された場合には、処理はステップＳ１１０２に進む。なお、ＡＬＣ急速リカバリ区間とは、第１、第２実施形態のＡＬＣ固定区間に対応する期間である。ステップＳ１１０２ではＡＬＣレベルが変動している場合には音声処理回路２６は振動が発生する以前、或いは絞り駆動以前、すなわちＡＬＣ急速リカバリ区間になる以前のＡＬＣレベルに急速復帰させる。

雑音処理及び音声の記録に関しては、図９の（ｂ）と同様である。すなわち、音声予測において、学習区間６４については記録されているＡＬＣレベルを用いて音声信号を補正したものが用いられる。また、学習区間６６に関しては、急速リカバリにより利得がほぼ一定な音声信号が得られているため、一時記録された音声信号がそのまま用いられる。

以上のように、第３実施形態によれば、雑音発生区間に続く学習区間の全体を含む期間において、ＡＬＣによる利得のリカバリ（利得のより高いレベルへの移行）が高速になる。一般に雑音発生区間では音圧が増大して信号増幅レベルが低下し、学習区間で利得のリカバリが発生するが、この学習区間を急速リカバリ区間とすることで、学習区間における利得の変動が低減され、雑音発生区間の音声をより高精度、高品質に予測することができる。

Claims

動画撮影が可能な装置における音声記録装置であって、
動画撮影時にマイクを介して入力された音声を録音する録音手段と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
前記録音手段による録音の間に、雑音が重畳している雑音発生区間を特定する特定手段と、
前記特定手段により特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測手段と、
前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更手段による利得の変更を禁止する制御手段とを備えることを特徴とする音声記録装置。
前記制御手段は、前記所定期間において前記利得を所定のレベルに固定することを特徴とする請求項２に記載の音声記録装置。
前記制御手段は、前記所定期間において、前記利得を当該所定期間の開始時のレベルで固定することを特徴とする請求項２に記載の音声記録装置。
前記特定手段は、撮影のための光学系において機械的な駆動が発生している期間を前記雑音発生区間として特定することを特徴とする請求項１乃至３のいずれか１項に記載の音声記録装置。
前記制御手段は、前記撮影のための光学系における機械的な駆動に関わる制御信号に基づいて雑音発生区間の発生するタイミングを決定し、決定された雑音発生区間の前方に設定される学習区間をさらに含むように前記所定期間を決定することを特徴とする請求項４に記載の音声記録装置。
前記特定手段は、前記装置に装着された振動検出手段が振動を検出している期間を前記雑音発生区間として特定することを特徴とする請求項１乃至５のいずれか１項に記載の音声記録装置。
前記利得変更手段によって設定された利得を前記録音と同期して記録する記録手段をさらに備え、
前記予測手段は、前記記録手段に記録された利得に基づいて前記雑音発生区間の前方に設定された学習区間の音声を補正して利得の変動による音声の変動を除去することを特徴とする請求項１乃至４，６のいずれか１項に記載の音声記録装置。
動画撮影が可能な装置における音声記録装置であって、
動画撮影時にマイクを介して入力された音声を録音する録音手段と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
前記録音手段による録音の間に、雑音が重畳している雑音発生区間を特定する特定手段と、
前記特定手段により特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測手段と、
前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更手段による利得がより高いレベルに移行する速さを、他の期間よりも速くすることを特徴とする音声記録装置。
請求項１乃至８のいずれか１項に記載の音声記録装置を備えた撮像装置。
動画撮影が可能な装置における音声記録装置における音声記録方法であって、
動画撮影時にマイクを介して入力された音声を録音する録音工程と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更工程と、
前記録音工程による録音の間に、雑音が重畳している雑音発生区間を特定する特定工程と、
前記特定工程で特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音工程により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測工程と、
前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更工程による利得の変更を禁止する制御工程とを有することを特徴とする音声記録方法。
動画撮影が可能な装置における音声記録装置における音声記録方法であって、
動画撮影時にマイクを介して入力された音声を録音する録音工程と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更工程と、
前記録音工程による録音の間に、雑音が重畳している雑音発生区間を特定する特定工程と、
前記特定工程で特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音工程で録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測工程と、
前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更工程で利得がより高いレベルに移行する速さを、他の期間よりも速くすることを特徴とする音声記録方法。
周囲の音声を電気信号に変換し音声信号を取得する集音手段と、
前記音声信号のレベルに応じて変化する増幅率で、前記音声信号を増幅する増幅手段と、
前記音声信号のうち特定の区間の音声信号に基づいて、音声信号を処理する処理手段と、
前記処理手段により処理された音声信号を記録媒体に記録する記録手段と、
前記音声信号の特定の区間の音声信号に対する増幅率の変更を禁止するよう前記増幅手段を制御する制御手段とを有することを特徴とする音声記録装置。
動画撮影が可能な装置における音声記録装置であって、
動画撮影時にマイクを介して入力された音声を録音する録音手段と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
前記録音手段による録音の間に、雑音が重畳している雑音発生区間を特定する特定手段と、
前記特定手段により特定された前記雑音発生区間の前方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声と前記予測音声とを所定の割合で合成する予測手段と、
前記雑音発生区間の前方の学習区間および前記雑音発生区間の全体を含む所定期間において、前記利得変更手段による利得の変更を禁止する制御手段とを備えることを特徴とする音声記録装置。