JP2011028061A - 音声記録装置及び方法、ならびに撮影装置 - Google Patents

音声記録装置及び方法、ならびに撮影装置 Download PDF

Info

Publication number
JP2011028061A
JP2011028061A JP2009174740A JP2009174740A JP2011028061A JP 2011028061 A JP2011028061 A JP 2011028061A JP 2009174740 A JP2009174740 A JP 2009174740A JP 2009174740 A JP2009174740 A JP 2009174740A JP 2011028061 A JP2011028061 A JP 2011028061A
Authority
JP
Japan
Prior art keywords
recording
section
sound
noise generation
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009174740A
Other languages
English (en)
Other versions
JP5351644B2 (ja
JP2011028061A5 (ja
Inventor
Koichi Washisu
晃一 鷲巣
Masashi Kimura
正史 木村
Fumihiro Kajimura
文裕 梶村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009174740A priority Critical patent/JP5351644B2/ja
Priority to US12/833,563 priority patent/US8626500B2/en
Priority to CN201010240762.0A priority patent/CN101969592B/zh
Publication of JP2011028061A publication Critical patent/JP2011028061A/ja
Publication of JP2011028061A5 publication Critical patent/JP2011028061A5/ja
Application granted granted Critical
Publication of JP5351644B2 publication Critical patent/JP5351644B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)

Abstract

【課題】 雑音発生区間の音声を置換するために生成される予測音声の精度劣化を防ぐ音声記録装置、方法を提供する。
【解決手段】動画撮影時にマイクを介して入力された音声を録音する音声記録装置は、音声の大きさに応じて録音時の利得を自動的に変更する利得変更部と、録音中に、雑音が重畳する雑音発生区間を検出した場合に検出された雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて雑音発生区間の予測音声を生成し、この雑音発生区間の音声を予測音声で置き換える予測部とを有する。利得変更部は、雑音発生区間の後方の学習区間の全体を含む所定期間において、利得変更部による利得の変更が禁止される。
【選択図】 図6

Description

本発明は、音声情報の処理技術に関する。
近年カメラ等の撮影装置の高機能化が進んでおり、高機能化の一環として動画/静止画の双方を撮影可能なカメラが多く見られる。動画撮影においては、撮像装置は画像を取得すると同時に音声を取得し画像と同期させて記録を行う。
しかしながら、例えば、カメラのような撮影装置においては、光学系の調整などの為の駆動源を備えており、これらの駆動が雑音として録音されてしまうという特性をもつ。更には撮影者の操作音も撮影装置筐体を伝わる振動となり雑音として録音されてしまうという特性をもつ。これらの問題を解決するために、様々な音声処理回路や撮影装置が提案されている。
特許文献1ではハードディスクのヘッド退避音の隠蔽方法が記載されている。具体的には、ハードディスクのヘッド退避音発生箇所の音声信号をその前後の参照音から生成して、ヘッド退避音を隠蔽する。また、非特許文献1では、音声の伝送および復調に関連した技術として、音声伝送においてパケットの喪失の隠蔽方法が記載されている。具体的にはパケット喪失した箇所の信号を、喪失以前の参照音信号から予測して生成することによりパケットの喪失を隠蔽する。また、非特許文献1では、パケットが再度正常に得られたときには、当該正常パケットから前方1パケット分の信号を滑らかに繋がるように予測して補正する。
特開2008−053802号公報
ITU-T RecommendationG.711-Appendix I
上述の特許文献1に開示された従来技術では、雑音の発生する区間の前後の被写体音を参照音として用いて雑音の発生する区間の音声信号を予測するための演算を行い、予測音声を生成する。そして、雑音の発生する区間の音声を生成した予測音声で置換する構成になっている。例えば、予測音声は、音声の波形の連続性を利用して音声信号の次のサンプルを予測する処理を連続して行うことにより生成される。また、予測処理は、音声の繰り返し周波数を検出し波形を所定の周期で繰り返す処理によって生成される。したがって、このような予測音声を精度良く生成する為には参照音の精度が高くなくてはならない。しかしながら雑音発生区間の前後において参照すべき音声の精度が低下するという課題が生じている。以下その課題について説明する。
一般的な録音装置においては自動利得変更制御(ALC:オートレベルコントロール)と呼ばれる利得制御回路が設けられている。ALCとは、被写体音が大きい時にはマイクで検出した音声の後段アンプでの増幅利得を小さくして録音する事で音声信号の飽和を防ぐ機能である。又、被写体音が小さい時にはマイクで検出した音声の後段アンプでの増幅利得を大きくして録音する事で音声信号のS/Nを向上させている。このようにALCは被写体音声の大きさ(音圧レベル)に応じてマイクで検出した音声信号の利得を細かく変更している。その為に上述した参照音の発生区間でALCが作動するとその前の被写体音との音圧の連続性が保てなくなる為に予測音声の精度が低下してしまう。すなわち、音声の波形の連続性を利用して音声信号の次のサンプルを予測する処理を連続して行う処理の場合には、音圧の連続性が無くなり、次のサンプルの予測がうまくいかないことになる。また、音声の繰り返し周波数を検出し波形を所定の周期で繰り返す処理の場合にも、音声の繰り返し周波数の検出がうまくいかないことになる。このように、予測音声の精度が低下してしまう原因となる。この様な問題は、上述した特許文献1のように、雑音発生区間の前後の参照音から予測音声を生成する場合にのみ発生するものではない。例えば、雑音発生区間の前の参照音と、雑音発生区間の音声を合成することにより予測音声を生成させるような場合にも、雑音発生区間の前のALCと、雑音発生区間のALCの増幅利得が異なっても、予測音声の精度が低下してしまう。また、雑音低減区間の後の参照音を合成する場合も同様である。また、この様な問題は、雑音除去処理のための予測音声の生成処理時にのみならず、例えば、時間的に前後する被写体音同士を合成するような処理の特殊効果を使用する場合にも発生することがある。例えば、動画の音声を複数区間に区切り、その区間同士を合成する場合には、合成する区間同士のALCが異なると、合成する区間同士の音圧がずれているため、精度の高い特殊効果(適切な特殊効果)とならないことがある。
本発明は上記の課題に鑑みてなされたものであり、音声処理の精度劣化を低減することを目的とする。
上記目的を達成するための、本発明の一態様による音声処理装置は以下の構成を備える。すなわち、
動画撮影が可能な装置における音声記録装置であって、
動画撮影時にマイクを介して入力された音声を録音する録音手段と、
前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
前記録音手段による録音の間に、雑音が重畳する雑音発生区間を検出する検出手段と、
検出された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測手段と、
前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記予測手段による予測音声の生成における前記利得の変動が及ぼす影響を低減するように、前記利得変更手段による利得の変更を制御する制御手段とを備える。
本発明によれば、音声処理の精度劣化を低減することが可能となる。
実施形態による撮影装置のブロック図。 実施形態における音声処理回路のブロック図。 雑音処理を含む音声処理を説明するタイミングチャート。 雑音発生とALC固定区間の関係を説明するタイミングチャート。 第1実施形態の利得制御、雑音処理を説明するフローチャート。 絞り駆動とALC固定区間を説明するタイミングチャート。 ACL固定区間における予測音声と補間を説明する図。 雑音発生とALC固定区間の関係を説明するタイミングチャート。 第2実施形態の利得制御、雑音処理を説明するフローチャート。 ALC急速リカバリ区間を説明するタイミングチャート。 第2実施形態の利得制御を説明するフローチャート。
以下、添付の図面を参照して、本発明の好適な実施形態を説明する。
[第1実施形態]
図1は本実施形態による撮影装置の構成例を示すブロック図である。本実施形態では、動画撮影が可能な装置としてデジタル一眼レフカメラを用いるものとするが、これに限られるものではなく、コンパクトデジタルカメラや動画撮影が可能な携帯電話等にも適用可能である。なお、デジタルカメラの静止画、動画の撮影動作は各種文献に記載されているので説明を省略する。
図1において、1は撮影装置、2は撮影装置に装着されたレンズ、4はレンズの光軸を示している。レンズ2の各構成はレンズ鏡筒に収容されている。撮影装置1と撮影レンズ2は、所定のレンズ装着機構を介して機械的に接続されるとともに、電気接点10を介して電気的に接続される。撮像装置1及びレンズ2から構成されるデジタルカメラは、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系3、撮像素子6を含み、画像処理系は、A/D変換器20、画像処理回路21を含み、音声処理系はマイク7および音声処理回路26を含む。また、記録再生系は、記録処理回路23、記憶部であるメモリ24を含む。また、制御系は、制御部であるカメラシステム制御回路25、焦点検出部(AFセンサ含む)12、露出検出部(AEセンサ含む)13、ブレセンサ14、操作検出回路27、およびレンズシステム制御回路28、レリーズ釦30、光学系駆動部9を含む。光学系駆動部9は、焦点レンズ駆動部9a、ブレ補正駆動部9b、絞り駆動部9cなどから構成されている。表示部22は、撮影装置1の背面に設けられた、例えば液晶表示器から構成された表示器を含み、表示器に各種画像を表示させる。
マイク7は、例えば、周囲の音声を電気信号に変換し音声信号を取得する集音手段として機能する。音声処理系では、音声処理回路26がマイク7で得られた信号に対して適切な処理を施して録音用音声信号を生成する。生成された録音用生成信号は、動画撮影時においては、後述する記録処理回路23により画像とリンクして圧縮処理される。記録処理回路23は、メモリ24へ画像信号の出力を行うとともに、表示部22に出力する像を生成、保存する。また、記録処理回路23は、予め定められた方法を用いて画像、動画、音声などの圧縮を行う。
カメラシステム制御回路25には焦点検出部12および露出検出部13が接続されており、静止画撮影においてはこれらの信号を元に適切な焦点位置、絞り位置を求める。また、カメラシステム制御回路25は、電気接点10を介してレンズシステム制御回路28に指令を出し、レンズシステム制御回路28は焦点レンズ駆動部9a及び絞り駆動部9cを制御する。例えば撮影被写体が明るくなった場合にはその事を撮像素子6或いはAEセンサ13が検出し、その情報をカメラシステム制御回路25に伝達する。カメラシステム制御回路25は撮影光学系3に設けられた不図示の絞りを絞り駆動部9cにより駆動させる信号(絞り駆動指示信号)をレンズシステム制御回路28に出力する。
以下、いわゆる動画撮影などの音声記録を伴う撮影について説明する。音声記録を伴う撮影においては、カメラ本体およびレンズのアクチュエータ駆動に伴う音(以下、メカ駆動音)は不要な音であり雑音となる。
図2は、本実施形態による音声処理回路26の詳細な構成を示すブロック図である。マイク7から得られた信号はゲイン調整部41に供給される。ゲイン調整部41はA/Dコンバータ43のダイナミックレンジが十分に活用できるようにマイク7の信号増幅レベルを調整する。どのようにレベル調整を行うかは後述する。フィルタ42はA/Dコンバータ43のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイク7が特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。A/Dコンバータ43はゲイン調整部41及びフィルタ42による処理信号をデジタル変換する。音圧検出部44は、A/D変換された音圧レベルの大きさを検出する。音声利得制御部47は、音圧検出部44で検出された音圧レベルが閾値(例えば飽和レベルの半分)を越える場合に、前述したゲイン調整部41の信号増幅レベルを下げる。逆にA/D変換された音圧レベルが閾値(例えば飽和レベルの1/4)より小さい場合には前述したゲイン調整部41の信号増幅レベルを上げる。このように、ゲイン調整部41、音圧検出部44及び音声利得制御部47は、マイク7から入力された音声の大きさに応じて録音に用いられる利得(ゲイン、増幅率)を自動的に変更する自動利得変更部(ALC)を構成している。
雑音処理部45は、例えば、カメラの絞り駆動部9cの駆動などにより発生した雑音が混入した音声信号を処理し、雑音が混入した区間の音声の雑音を低減させる処理を行う。具体的には、雑音処理部45は雑音発生区間の被写体音声信号を削除する。そして、雑音発生区間前後の区間(学習区間)の参照信号(雑音発生区間という所定領域の前方、後方の被写体音声)より雑音発生区間の被写体音声を予測し(音声予測)、元の雑音発生区間の信号と置き換えて音声信号補完を行う。例えば、音声予測は、音声の波形の連続性を利用して音声信号の次のサンプルを予測する処理を連続して行う。または、音声の繰り返し周波数を検出し波形を所定の周期で繰り返すようにしてもよい。すなわち、参照信号の音声を利用して雑音発生区間に置き換えるための信号を生成することが音声予測処理である。本実施形態では、絞り駆動部9cの駆動を例にとって説明するが、そのほかの駆動部(カメラ本体、レンズ、アクチュエータ)の駆動に伴う雑音が混入した場合であっても適用することができる。フィルタ46は、雑音処理を行った後に必要であれば適当なフィルタ処理を施すためのフィルタであり、例えば20Hzから20kHzなどの、人間の可聴音声帯域のみ透過させる帯域透過フィルタで構成される。又、不要であれば雑音処理を行わずスルーまたは適当な遅延のみ行うことも出来る。なお、振動検出部111は第2実施形態で用いられる構成であり、第1実施形態では省略可能である。
ここで音声の波形の連続性を利用して音声信号の次のサンプル(値)を予測する処理を連続して行う音声予測について説明する。まず、この音声予測で用いる、線形予測係数の導出(学習動作)と線形予測係数を用いた信号の予測(予測動作)について説明する。線形予測を用いるにあたっては、現在の信号とこれに隣接する有限個(ここではp個とおく)の標本値との間に次のような線形1次結合関係を仮定する。
Figure 2011028061
但し、[数1]において、εtは平均値0、分散σ2の互いに無相関な確率変数である。
ここでxtが過去の値から予測されるように式を変形すると、
Figure 2011028061
[数2]によると、εtが十分に小さければ、近傍p個の線形和によって現在の値が表現される。
tを上記の予測によって求めた後、さらにその近似が十分によければxt+1も同じく近傍p個の線形和によって求められる。
このようにεtを十分に小さくする事が出来れば順次予測信号を求めることが出来る。
そこでεtを最小にするようなαiの求め方を考える。
本明細書ではεtを最小にする様なαiを求める動作を学習動作と呼ぶ。その為前述の学習区間においてεtの2乗和を最小化すればよい。学習の開始時間をt0、終了時間をt1とすると、
Figure 2011028061
ただしα0=1である。ここで式を簡単にするために以下の様におく。
Figure 2011028061
[数3]を最小化するようにαiを決めるためには、以下に示すように、[数3]のαj(j=,1,2,…p)に関する偏微分を0として解けばよい。
Figure 2011028061
[数5]はp個の線形連立1次方程式を解けばαiを決定できることを示している。[数5]のうちcijはxt-i(i=1,2,…p)から求めることができる。すなわち[数5]からαiを求めることが出来る。
[数5]に従ってαiを決定した場合、εtの2乗和は最小化されている。この時数2より、xtの値はx^tで良い近似を与えることが出来る。この近似が十分に良いものであれば、xtの代わりにx^tを予測信号として用いることが出来る。さらにxt-1についても同様に近傍のp−1個と予測によって求めた信号から近似値を得ることが出来る。これを順次繰り返すことで予測区間の信号を生成することが出来る。
次に、以上のようにして求めたαiから予測区間の音声の予測信号を求める。なお、本明細書では、求められたαiから予測区間の近似(予測信号)を求める動作を予測動作と呼ぶ。以下、好適な学習動作と予測動作について述べる。
図3は被写体音声を模式的に示しており横軸は時間、縦軸は音圧レベルを表す。本実施形態では、絞り駆動等の駆動部の駆動により雑音の発生した区間(雑音発生区間)の音声を演算により得られた予測音声で上書き(置換)する。そのため、雑音処理部45は絞り駆動指示信号を検出するとメモリに音声を一時的に記憶させる。
そして、本実施形態では、雑音処理部45は、絞り駆動指示信号を検出してから例えば100msec後から200msec後までの間に絞り駆動による雑音が混入すると仮定する。ここでは、雑音の発生した区間を削除区間と呼ぶ。図3において、51aは元の被写体音声であり第1の区間である削除区間52に雑音が重畳している。また、雑音処理部45は、絞り駆動指示信号を検出してから例えば10msec後から100msec後までの間を雑音発生区間より前の学習区間53aとして仮定する。また、雑音処理部45は、絞り駆動指示信号を検出してから例えば200msec後から300msec後までの間を雑音発生区間より後ろの学習区間53bとして仮定する。本実施形態では、雑音処理部45は、絞り駆動指示信号を検出すると、この様に区間を決定し、記録媒体に記録前に一時的にメモリに記憶されている音声を、上述の予測処理により得られた予測音声を用いて雑音除去処理を施す。この場合、まず、雑音処理部45はメモリに記憶されている音声の削除区間52の被写体音声を削除する。
51bは削除区間52の被写体音声を削除した後の被写体音声である。雑音処理部45は、削除区間52の前後のメモリに記録されている学習区間53aと学習区間53bにおける被写体音声より上述の予測動作を行う。そして、それぞれの学習区間から上述の予測動作によって得られた予測信号を重み付けをしながら合成し、当該削除区間52に埋め込む。51cは被写体音声51bの予測区間54に予測信号が埋め込まれた被写体音声を示す。この様に学習動作を行うに当たっては予測区間54(削除区間52と同じ区間)の前後の近傍の信号を用いる。これは音声信号が極短時間の領域に着目すると比較的繰り返し性が高い性質になっている事を利用している。
学習区間53aおよび学習区間53bの2つの信号に対して、前述した音声予測の演算が夫々独立に行われる。予測区間54よりも前の学習区間53aで学習動作を行った後に当該予測区間54の信号を生成することを前方からの予測と呼ぶ。また、予測区間54よりも後ろの学習区間53bで学習動作を行った後に予測区間54の信号を生成することを後方からの予測と呼ぶことにする。
予測区間54内の信号でも、学習区間53aに近い区間には前方からの予測による値の重みを重く、学習区間53bに近い区間には後方からの予測による値の重みを重くなるように互いの予測値の混合に適当な演算を行って求める。尚、後方からの予測はリアルタイムでは出来ない。その為、実際には雑音処理部45は絞り駆動指示信号を検出した場合に、被写体音声を所定の区間だけメモリ等に一時記憶し、記憶された音声に雑音が重畳した雑音発生区間(削除区間52に該当する)の音声を予測音声に差換えた後に記録媒体に音声を記録している。メモリに一時的に記憶する工程は、音声予測を行う場合だけであっても良いし、予測を行わない場合も常に一度メモリに記憶してから記録媒体に記録しても良い。本実施形態では、予測を行わない場合は、メモリに記憶させずに記録媒体に記録する場合について説明していく。
ここで上記の様に音声検出時のリアルタイムではなく、音声を検出し、その後に音声を記録するまでの間に雑音処理が出来る理由を以下に説明する。
図1のブロック図で説明した様に、カメラシステム制御回路25は絞りの駆動を制御するので、絞りの駆動(絞り駆動などは雑音の発生源となる)タイミングが判る。そこで、本実施形態では、雑音処理部45は、絞り駆動指示信号を検出すると、まず、絞り駆動指示信号検出から所定時間分(例えば300msec)の音声データをメモリに記憶する。そして、雑音処理部45は、絞り駆動指示信号を検出してから例えば100msec後から200msec後までの間に絞り駆動による雑音が混入すると仮定する。また、雑音処理部45は、絞り駆動指示信号を検出してから例えば10msec後から100msec後までの間を雑音発生区間より前の学習区間53aとして仮定する。また、雑音処理部45は、絞り駆動指示信号を検出してから例えば200msec後から300msec後までの間を雑音発生区間より後ろの学習区間53bとして仮定する。本実施形態では、雑音処理部45は、絞り駆動指示信号を検出すると、この様に区間を決定し、記録媒体に記録前に一時的にメモリに記憶されている音声を、上述の予測処理により得られた予測音声を用いて雑音除去処理を施す。そして、音声録音までの間に前方、後方の学習区間における参照音に基づき雑音区間を予測音声に差し替える。
次に自動利得変更制御(以降ALCという)に付いて説明する。
ALCは図2で示した様に音声処理回路26の中のゲイン調整部41、音圧検出部44及び音声利得制御部47で構成され、自動的に利得変更を行う。図4の(a)は、一般的なALCの動作を示しており横軸は時間、縦軸は音圧レベル或いは利得レベルを示している(2つのスケールが存在する為、縦軸に尺度表示は行っていない)。
ここでは点線で示す被写体音声51aは時刻t1まで通常音圧の被写体音声であるが、時刻t2からt3まで被写体音声が大きくなり(録音飽和レベルの半分以上)、その後通常音圧レベルに復帰している。図4の(a)において時刻t1〜t2で大きな被写体音声が発生すると音声信号の飽和を防ぐ為にALCが動作し、ゲイン調整部41はマイクの信号増幅レベルを下げる。その為、実線で示す録音される音声61は区間t1〜t2における被写体音声51aほど大きな音として録音される事はない。時刻t2で被写体音声が元の音圧に戻ると再びALCが機能して、ゲイン調整部41はマイクの信号増幅レベルを徐々に元に戻す。ここで「徐々に元に戻す」理由は急激に復帰させると音の連続性が失われて不自然な音声として録音される為である。しかしながら図4の(a)の様な模式図で見ると、実際に録音される音声61は時刻t2からt3にかけて音圧レベルが変化する事になり精度の良い録音は行われていない。音声の不連続性は極めて異質に知覚されるので急激な信号増幅変化を行わないのは大切であるが、上述した様に所定の時定数をもった信号増幅レベルの変化は録音精度を低下させる原因でもある。ALCによる信号増幅レベル62(一点鎖線)は、図示のように、増幅レベルは時刻t1で一旦下がり、時刻t2からt3にかけてゆっくりと復帰する。なお、時刻t1で徐々にではなく急激に信号増幅レベル62を下げるのは、信号の飽和が突然発生する事を防ぐ為である。
図3と図4の(a)を用いて雑音処理部とALCの関連を説明する。そのために、図4の(a)における被写体音声(大)区間65に絞りが駆動し、絞りの駆動に起因する雑音が混入し、被写体音声のレベルが51aのようになったと仮定する。そうすると、図3の削除区間52に、図4の被写体音声(大)区間65が対応していることになる。図3で説明したように、予測区間54の音声は、前方の学習区間53aと後方の学習区間53bにおける参照音により予測される。そうすると、図4の(a)において64が、前方の学習区間となり、66が、後方の学習区間となる。図4の(a)において、前方の学習区間64の参照音(録音される音声61)は被写体音声51aを一定の信号増幅レベルで記録したものである。その為、それを用いた削除区間(図3の削除区間52、図4の(a)の被写体音声(大)区間65に置き換えられる音声の予測は精度良く行われる。それに対して後方の学習区間66の参照音(録音される音声61)は被写体音声51aを変動する信号増幅レベルで記録したものである。すなわち、録音される音声51の後方の学習区間66の参照音は前述した様にALCの作動によるものである。その為に、後方の学習区間66の参照音を用いた削除区間(図3の削除区間52、図4の(a)の被写体音声(大)区間65)の音声予測精度は大幅に低下する。
第1実施形態では、信号増幅レベルが変化してしまうことにより、音声予測の精度が低下してしまうことを防止するために、音声予測の処理に関する区間における、ゲイン調整部41の信号増幅レベルを固定するようにした。すなわち、図4の(b)に示すように、前方の学習区間64と、雑音発生区間65と、後方の学習区間66とを含む区間におけるゲイン調整部41の信号増幅レベルを固定する。この区間をALC固定区間71としている。ALC固定区間71においては音声利得制御部47により被写体音声の音圧の変化によらず、信号増幅レベルがその直前に設定されているレベルに固定される。その為に後方の学習区間66においても被写体音声が一定の信号増幅レベルで記録されることになる。これにより、後方の学習区間66に基づいて予測される音声の精度の低下を防止することができるようになる。よって、絞り駆動区間(削除区間52)における絞り駆動の雑音が重畳された音声信号を、前方及び後方の学習区間64、66の参照音より生成された高品位な予測音声によって置き換えることができる。尚、録音される音声61はALCが固定される為に、被写体音声51aは絞り駆動区間に対応する削除区間52では回路が飽和するほど大きな音になっている。しかしながらこの区間の音声は削除されてしまう為に音声の飽和が起きても問題にはならない。本実施形態では、前方の学習区間64と、雑音発生区間65と、後方の学習区間66とを含む区間の信号増幅レベルを固定することについて説明した。しかし、雑音発生区間65の音声は削除され、その前後の学習区間64、66における音声から予測により求められる。従って、本実施形態のように、前方の学習区間64と、後方の学習区間66との音声を処理する場合、雑音発生区間65の信号増幅レベルは固定されていなくてもよく、前後の学習区間64、66における信号増幅レベルが一定の値になるように制御されればよい。
なお、本実施形態では時刻t0より前の時間である時刻t−1よりALC固定を行っている。実際の撮影時には絞りの駆動ばかりではなく撮影者が撮影装置を操作する音も被写体音に重畳される。この音は撮影装置の筐体を伝わり、マイクに対してかなり大きな音として入力される事になる。その発生は短時間ではあるが、その度にALCが動作すると、図4の(a)に示される波形63のようにALCの復帰に長時間がかかるため、その間の被写体音声は予測の為の参照音としてつかえない。そこで学習区間64、66でALCの変動がおきないように、学習区間64、66より長い区間をALC固定区間71(時刻t−1からt4)としている。
ALC固定区間71は特に、絞り駆動等の様に撮影装置の指示により駆動する駆動部の発生させる雑音を低減させる場合に設定される。具体的には、レンズの絞り駆動を行う時など、撮像装置側でその駆動指示が出力される場合には絞りが駆動することを当然、撮像装置が判別することができる。そのため、絞り駆動による雑音の発生が予測でき、ALC固定区間71を設定することができる。なお、このような雑音の発生を予測する、すなわち雑音発生区間を特定する機能はカメラシステム制御回路25に含まれる。そして、その区間のゲイン調整部41における信号増幅レベルを固定する様にカメラシステム制御回路25が音声利得制御部47に対して、信号増幅レベル変更を所定期間(音声処理を行う期間)禁止する指示をする。たとえば、信号増幅レベルを絞り駆動前のレベルに固定する指示を行う。音声利得制御部47は、この指示を受けている間、ゲイン調整部41における利得(ゲイン)を一定に保つ。
図5は、第1実施形態による音声記録処理を説明するフローチャートであり、このフローはデジタルカメラが動画撮影時に録音を開始する時にスタートする。尚、説明をわかり易くする為に、図5のフローチャートでは本実施形態の説明に必要な処理が示されており、他の一般的な処理は省略されている。本実施形態では、予測を行わない場合は、メモリに記憶させずに記録媒体に記録する場合について説明していく。
まず、マイク7に入力された被写体音声はゲイン調整部41で増幅され、フィルタ42でフィルタ処理され、A/Dコンバータ43でA/D変換される。ステップS501において、音圧検出部44は、A/D変換された被写体音声からその音圧を検出する。ステップS502において、音声利得制御部47は、カメラシステム制御回路25から絞り駆動指示信号が出力されたか否かを検出し、絞りが駆動しようとしているか否かを判別する。そして、絞りが駆動しようとしていない場合はステップS503に処理が進み、絞りが駆動しようとしている場合はステップS506に処理が進む。絞りが駆動しようとしている場合は、ステップS503〜S505の処理がスキップされるため、ACLによる利得変更が禁止され、録音レベルが固定されることになる。すなわち、この区間が、ゲイン調整部41における信号増幅レベルが固定されるALC固定区間71となる。なお、本実施形態では、ALC固定区間71においてALCの利得がその直前のレベルに固定されることになるが、これに限られるものではない。例えば、ALC固定区間ではALCを所定のレベルに固定するようにしても良い。例えば、ステップS502において絞りが駆動しようとしていると判定された場合に、処理をステップS505へ進めるようにすれば、ALC固定区間ではALCのレベルが通常の録音レベルに固定されることになる。
本例では、絞り駆動に起因した削除区間52に関するものであるため、ALC固定区間71は絞り駆動区間に応じた所定期間となる。ここで「ALC固定駆動区間」について詳細に説明する。図6はALC固定駆動区間と絞り駆動区間の関係を説明する図であり横軸は時間、縦軸は各信号の様子を、Hは信号オン、Lは出力オフを表している。図6に示されるALC固定区間信号92がオン(H)の間、音声利得制御部47はALCによる利得の変更を禁止する。
撮影被写体が明るくなり、絞りを絞る事で露出を補正する必要があるときは一点鎖線で示した絞り駆動指示信号93がカメラシステム制御回路25より時刻t−2で出力される。それに応じてカメラシステム制御回路25は、ALC固定区間信号92を時刻t−1で音声利得制御部47へ出力する。その後、学習区間を時刻t0より例えば0.1秒ほど設けた後に、カメラシステム制御回路25は絞り駆動信号91を出力する。レンズシステム制御回路28は、絞り駆動信号91に応じて、絞り駆動部9cに絞り駆動を行わせる。この様に、カメラシステム制御回路25は、絞り駆動に先立ち、前方の学習区間64を確保したALC固定区間信号92を出力する。このように、絞り等のようなデジタルカメラが備える機構の駆動に関わる制御信号に基づいて雑音発生区間の発生するタイミングを決定し、決定された雑音発生区間の前方に設定される学習区間をさらに含むようにALC固定区間が決定される。なお、制御信号としては、上記例では絞り駆動指示信号であるがこれに限られるものではなく、例えば、ユーザによる操作信号等(ズーム変更操作等)を上記制御信号として検出することも可能である。
以上のように、ALC固定区間信号92を学習区間64を含むか或いはそれより前の時刻より出力する事で、学習区間64における信号増幅レベルが安定的に固定される。又、絞りの駆動時間は例えば0.1秒程度とほぼ一定な為にその絞り駆動信号の発生期間(削除区間65)及び後方の学習区間66を含む時刻t4までをALC固定区間信号92のオン期間としている。なお、絞り駆動信号を監視し、絞り駆動信号がオフしてから学習区間分が経過した後にALC固定区間信号92をオフするようにしてもよい。そしてそのALC固定区間信号92がオンとなっている間は、信号増幅レベルが一定のレベルまたは、標準のレベルに固定される。この様に後方の学習区間を含むか或いはそれより後の時刻t4まで出力する事で後方の学習区間66における信号増幅レベルを固定している。
図6でわかるように、ALC固定区間信号92によりALC固定区間71は実際の絞り駆動信号91を跨ぐ広い区間になっているので、学習区間の被写体音声がALCの変動の影響を受ける事がない。即ち絞り駆動指示に先立って信号増幅レベルを固定する構成となっているため、学習区間の被写体音声がALCの変動の影響を受ける事はない。
ステップS503において、音声利得制御部47は、ステップS501で検出した被写体音声の音圧が所定レベル以上であるか否かを判定する。そして、所定レベル以上のときは処理はステップS504に進み、ゲイン調整部41により録音レベルを小さくする。被写体音声の音圧が所定レベル以上でない場合はステップS505に進み、録音レベルを通常に設定する。なお、S503〜S505で実行されるALCでは、音圧が所定レベルを超えた場合にゲインを下げる構成を示したが、音圧が所定レベルより小さい場合にゲインを上げる機能を持たせても良い。次に、絞り駆動指示信号を検出した場合には、ステップS506へ処理をうつす。ステップS506では被写体音声を設定したレベルで録音し一時記憶する。この一時記憶には、例えば音声利得制御部47に設けられたメモリ(不図示)を用いることができる。ここで被写体音声を一時記憶するのは前述したように予測処理を行う区間より後の信号(後方の学習区間)を用いているからである。
以上が、予測音声の生成における利得の変動が及ぼす影響を低減することを目的として、雑音発生区間の前方及び後方の学習区間を含む所定期間においてなされる利得の変更の制御である。以上のようにして一時記憶された音声は、次に説明するように、必要に応じて雑音処理が施され、録音音声として記録される。なお、図5の(a)と(b)の処理は少なくとも見かけ上並列に実行されるものとする。まず、ステップS507において、雑音処理部45は、カメラシステム制御回路25から絞り駆動指示信号が出力されたか否かを検出し、絞りが駆動しようとしているか否かを判定する。ステップS507において、絞りが駆動しようとしていると判定された場合、ステップS509へ進み、絞りが駆動しようとしていないと判定された場合、ステップS513へ進む。
ステップS507で、絞りが駆動しようとしていないと判定された場合は、ステップS513へ処理をうつし、音声信号を記録媒体へ記録する。また、ステップS507で、絞りが駆動しようとしていると判定された場合は、ステップS509からステップS512で示される処理へ進み、上述した予測処理、等を実行し雑音低減処理を行う。ステップS509において、雑音処理部(音声利得制御部47)は、学習区間66の完了か否かに基づいて予測を開始するか否かを判定する。絞り駆動信号91のオフへの切り替わりを検出した後、学習区間66に対応した期間の経過を検出することにより、予測の開始と判定される。或いは、ALC固定区間の完了(ALC固定区間信号92のオフへの移行)を検出することで予測の開始と判定しても良い。
ステップS509において予測の開始と判定されると、処理はステップS510へ進む。ステップS510において、雑音処理部(音声利得制御部47)は、削除区間の前後の学習区間における音声信号から削除区間の音声を予測する。そして、ステップS511において、雑音処理部(音声利得制御部47)は、ステップS510で予測した音声を削除区間に組み入れる。ステップS512では、雑音処理を行った音声信号を雑音処理を行わなかった音声信号にはめ込み、両音声信号を時間的に揃える。そして、ステップS513に進む。
ステップS513において、音声処理回路26は、S512で、予測音声により雑音区間の音声を置き換えた音声データがメモリに一時記憶されているので、その音声データをメモリ24に記録する。例えば、音声処理回路26は、ステップS512で得られた雑音処理済の音声信号がはめ込まれた音声信号をメモリ24に記録する。また、絞り駆動区間中以外の音声信号であれば、そのままメモリ24に書き込まれる。
尚、図5の(b)に示したステップS507からステップS513の処理は、デジタルカメラで処理しなくても、デジタルカメラで録音された音声信号を外部の情報処理装置(例えばパーソナルコンピュータ)で処理するようにしても良い。但し、その場合には、ステップS504、S505で得られた信号を、絞り駆動区間信号92や絞り駆動信号91と共にカメラの記録媒体に記録しておく。そして、外部の情報処理装置が、音声信号とともに記録されている絞り駆動区間信号や絞り駆動信号に基づいて上述した音声信号の雑音処理を行う事になる。
図7の(a)から(e)は本発明の第1の実施形態を音声信号で示した図であり、横軸は時間、縦軸は音圧レベルである。図7の(a)は、雑音混入区間102において、被写体音信号に絞りの駆動雑音が混入している様子を示す。図7の(b)は、前方の学習区間101より予測区間104(雑音混入区間102に対応する)の音声を予測している最中の音声信号波形(予測波形105)を示している。図7の(c)は、図7の(b)の予測信号に三角形状の窓関数107をかけた信号106を示す。図7の(d)は、同様にして予測区間104(雑音混入区間102)の後方からの音声予測結果に、窓関数109を掛けたものである。図7の(e)は、(c)及び(d)の予測結果を加算して、雑音混入区間102の音声信号の補間を行った波形110を示す。
予測処理においては、まず、カメラシステム制御回路25が出力する絞り駆動区間信号92によりALC固定区間71が決定される。ALC固定区間71は、図7の(a)で示される雑音混入区間102(絞り駆動雑音が被写体音声に重畳している区間)および前方、後方の学習区間101、103に基づいてカメラシステム制御回路25が出力する絞り駆動区間信号92に対応する。
次に、図7の(b)で示すように、所定周期(例えば44Khz)毎に前方の学習区間101の音声信号を用いてその信号を延長してゆく(予測波形105)。次に、図7の(c)に示すように、図7の(b)で作成した窓掛け前予測信号に三角形状の窓関数107をかけて前方予測信号106を完成させる。以下、この段階での予測信号を窓掛け後予測信号と呼ぶ。このとき窓関数wf(t)は予測区間のデータ数がN+1点である場合は、予測開始直後のデータをn=0とするとwf(n)=(N‐n)/Nで表される関数である。
図7の(d)のように同様の処理を雑音混入区間102直後についても行い、窓関数109を用いて後方からの窓掛け後予測信号108を作る。後方からの窓掛け前予測信号にかけられる三角形状の窓関数109は前方からの予測のときと対称となりwr(n)=n/Nで表される。図7の(e)で示すように、音声処理回路26は前方からの窓掛け後の予測信号106と後方からの窓掛け後の予測信号108を加算して雑音混入区間の音声信号と置き換えることで補間が終了する。
前方、後方の両方からの窓掛け前予測信号に三角形状の窓関数をかけて加算することで、前方からの予測信号と雑音混入区間直後及び、後方からの予測信号と雑音混入区間直前の音声信号が滑らかにつながるようにしている。図7の(a)で示した様にALC固定区間71を前方の学習区間101、後方の学習区間103を含む期間よりも広く設けているので、その間の音声信号がALCによる音圧変動を受けない。その為に雑音混入区間の被写体音声のみを精度よく予測できる。
以上説明したように、第1実施形態によれば、絞り駆動により雑音が発生する雑音発生区間の前後の学習区間の全体を含む期間において、ゲイン調整部41における信号増幅レベルの変更が禁止される。このため、雑音発生区間の音声をより高精度、高品質に予測することができる。
本実施形態では、前方の学習区間64と、雑音発生区間65と、後方の学習区間66とを含む区間の信号増幅レベルを固定することについて説明した。しかし、雑音発生区間65の音声は削除され、その前後の学習区間64、66における音声から予測により求められる。従って、本実施形態のように、前方の学習区間64と、後方の学習区間66との音声を処理する場合、雑音発生区間65の信号増幅レベルは固定されていなくてもよく、前後の学習区間64、66における信号増幅レベルが一定の値になるように制御されればよい。
また、本実施形態で説明した予測処理については、上述したように、マイクより入力された音声に基づいた、他のアルゴリズムによって処理が行われても良い。この場合も、音声処理に使用される学習区間(参照区間)の音声信号が信号増幅レベルが一定の値になるように制御されればよい。例えば、前方の学習区間64の参照音に基づいて求められた音声と、雑音発生区間65の音声を、窓関数を用いて所定の割合で合成する場合でもよい。そうすると、音声の処理に使用されるのは、前方の学習区間64と、雑音発生区間65の音声であるため、その区間の信号増幅レベルが所定の値または、直前の値に固定されていればよい。
また、本実施形態では、雑音処理の方法として予測を用いた処理を説明したが、例えば音声特殊効果などのために、入力された音声の複数の区間を利用して音声を処理するような場合であっても、本技術は採用することができる。具体的には、音声の特殊効果の実行があるタイミングを検出したら、音声の特殊効果の処理に利用される区間の信号増幅レベルが一定の値になるように制御することによって、特殊効果の精度の低下を防ぐことができる。
また、本実施形態では、絞り駆動に対応する音声に関して雑音除去処理を実行していたが、これ以外の駆動部の駆動に対応する音声に関して雑音除去処理を行っても良い。
また、絞り駆動の度合い(例えば、1段駆動、3段駆動)によって、雑音発生区間とする期間の長さを変えても良い。それと同時に、ALC固定区間とする期間の長さを変えても良い。例えば、1段駆動の場合よりも3段駆動の場合の方が、雑音発生区間についても、ALC固定区間についても長くするようにする。すなわち、駆動時間の長い駆動を行う動作については、雑音発生区間についても、ALC固定区間についても長くするようにする。
[第2実施形態]
次に、第2実施形態による音声処理系が適用された撮像装置について説明する。第2実施形態の音声処理系では、図2に示した振動検出部111が追加される。振動検出部111は加速度計などで構成されており、録音装置であるマイク7の近傍に配置されて、カメラから発生しマイク7に加わる振動を検出している。音声処理回路26は、振動検出部111の出力に応じてゲイン調整部41における信号増幅レベルを一定のレベル、または直前のレベルに設定する。
カメラが発生する雑音の要因となる振動には、第1実施形態で説明した絞り駆動などの駆動振動ばかりではなく、撮影者がカメラを操作したときに生ずるカメラをこする振動も含まれる。このような振動は、駆動信号の様にカメラシステム制御回路25からは検知できない。また、カメラをこする振動はかなり大きな振動としてマイク7に入力される為に雑音として被写体に重畳してしまう。その為にカメラをこする区間も検出し、その区間も予測音声に置き換えることで雑音を除去する事が考えられる。このとき、カメラをこする振動により、マイク7が音として検出する信号のレベルもALCを作動させて学習区間の音声を低下させてしまう。そこで振動検出部111は雑音区間の検出と共にALC固定区間の設定も行う。
図8の(a)は、第2実施形態における振動発生区間とALC固定区間のタイミングを説明する図である。図8の(a)に示されるように、振動検出部111の信号が所定レベルに達した時に始まり、そのレベルが所定レベルを下回ってから一定区間(例えば0.05秒)後に終了するALC固定区間71が設定される。ALC固定区間71においては被写体音声の音圧の変化によらず、それより前に設定されたマイク信号増幅レベルに固定される。その為に振動発生区間121における振動雑音は前方及び後方の学習区間64、66により高品位な予測音声に置き換えられる。第1実施形態で説明した図4の(b)と異なるのは、前方の学習区間64においてはALCが固定されていない事である。これは振動検出部111の信号発生タイミング(振動発生区間)を予測することが出来ない為である。その為、第2実施形態では、録音音声の一時記憶時に、そのALCレベルも同時に記憶しておく。そして、前方の学習区間64でALCレベルの変動が生じていた場合には、ALCレベル変動分を復元して予測に利用する。
図8の(b)を参照して上記の動作を説明する。図8の(b)において横軸は経過時間、縦軸は音声の音圧レベル或いは信号増幅レベルである。ここで時刻t−3より被写体音声121aが発生している。被写体音声121aにおいて、区間131で瞬間的に被写体音声が大きくなっている。この様な場合は、ALCの信号増幅レベル132がその区間で低くなる。しかしながら前述した様に被写体音声が元に戻っても、ゲイン調整部41における信号増幅レベルは直ぐには元に戻らず、ある時定数を持って復帰してゆく。その為にその区間131では録音される音声123は音声133で示す様に実際の被写体音声より低いレベルで録音される事になる。撮影者が操作釦を操作したり、カメラをこするとその振動が発生する(時刻t1)。この振動発生区間121においては被写体音声に上記振動音が重畳する。音声利得制御部47は、振動検出部111から振動を検出した旨の通知を受けると、直ちに信号増幅レベルを固定する(時刻t1)。音声利得制御部47は、ALC固定区間71を時刻t1から開始し、振動の発生が時刻t2でおさまった後に後方の学習区間66(時刻t3)を見込んで、それより遅い時刻t4まで継続させる。これは後方の学習区間66におけるALCの変動を止めて音声予測精度を高める為である。その為後方の学習区間66においては信号増幅レベルの変動を受けず、予測精度の低下を防ぐことができる。
通常は時刻t1における振動の発生以前にはALCの変動はない為に前方の学習区間64もそのまま予測に用いても予測精度は低下しない。しかしながら図8の(b)に示した様に振動の発生時刻t1に先立って瞬間的に大きな音声が発声されたときにはALCが変動してしまうので前方の学習区間64の音声を用いると予測の精度が劣化する。その対応について以下に説明する。
前述した様に被写体音声は一旦メモリ等に記憶され、雑音処理を施された後に最終的に音声記録される。本実施形態では、被写体音声を一旦記憶するときに、同時にALC信号増幅レベルも同期して記憶する。そして、その後に予測処理を行うに先立って、一旦記憶した信号レベルの増幅率を修復する。図8の(b)において修復信号レベル134は信号増幅レベル132の逆波形である。この修復信号レベル134を135の時点135(ALCレベルが復帰を始めた時点)から録音される音声に乗ずる。時点135以降の音声信号は時刻t0以前の被写体音圧と同じレベルに復帰する。その後、前方の学習区間64の音圧レベルが復帰された音声を用いて振動発生区間121の音声を予測するので、予測信号の精度低下を防ぐ事が出来る。
図9は第2実施形態によるデジタルカメラの動作を説明するフローチャートであり、この処理はデジタルカメラが動画撮影時に録音を開始する時にスタートする。尚、説明をわかり易くする為に、図9のフローチャートでは本実施形態の説明に必要な処理が示されており、他の一般的な処理は省略されている。また、第1実施形態と同じ機能のステップは同一番号で示している。
ステップS901において、音声利得制御部47は、振動検出部111から振動を検出した旨の信号を受信したかどうかを判定する。検出信号を受信した場合(振動が発生したとき)は、処理はステップS902に進む。この結果、ステップS503〜S505がスキップされ、録音レベル(ALCレベル)が固定される。なお、本実施形態では、振動検出部111からの信号を音声利得制御部47が検出してALC固定区間を開始する。また、音声利得制御部47は、振動検出部111が振動を検出しなくなってから学習区間66の期間に所定の余裕期間を加えた期間の経過を待って、当該ALC固定区間の完了とする。しかしながら、カメラシステム制御回路25が振動検出部111による振動検出に基づいてALC固定区間(振動発生区間121+学習区間66+余裕期間)を示す信号を生成し、これを音声利得制御部47に通知するような構成としても良い。
振動が発生していない場合はステップS501に進む。ステップS501、S503〜S505は第1実施形態で説明したとおりである。検出信号を受信した場合(振動が発生したとき)は、ステップS902において、音声処理回路26は、被写体音声を設定されたALCレベルで録音し一時記憶するとともに、それと同期してそのときの増幅レベル(ALCレベル)も一時記憶する。ここでALCレベルを一時記憶する理由は前述した様に、学習区間64におけるALCの変動による音圧変動を同時に記憶したALCレベルで修復する為であり、且つ、後方の学習区間66から音声予測を行う為である。
以上が、予測音声の生成における利得の変動が及ぼす影響を低減することを目的として、雑音発生区間の前方及び後方の学習区間を含む所定期間においてなされる利得の変更の制御である。以上のようにして一時記憶された音声は、次に説明するように、必要に応じて雑音処理が施され、録音音声として記録される。まず、ステップS903において、検出信号を受信したか否かを(振動が発生したときであるか否か)を判定する。ステップS903において、検出信号を受信した(振動が発生した)と判定された場合には、処理はステップS905〜S908、S512に進み、雑音低減処理を実行する。ステップS904では、ステップS508と同様に当該雑音区間の音声が削除される。また、ステップS903で雑音区間ではないと判定された場合は、処理はステップS513に進む。ステップS513の処理は第1実施形態で説明したとおりである。
ステップS905において予測開始と判定されると、処理はステップS906へ進む。この判定は、図5のステップS509と同様である。ステップS906では、上記雑音区間の前後の学習区間64及び学習区間66の音声信号を、音声の録音と同期して記憶したALCレベルを用いて修復する。以降、ステップS907、S908の処理は、学習区間64に関して修復後の音声信号を用いる点を除いて、ステップS510、S511と同様の処理である。
尚、図9の(b)(ステップS903からステップS513)で示される処理は、デジタルカメラで実行しなくてもよく、デジタルカメラで録音された音声信号を外部の情報処理装置(パーソナルコンピュータ等)で処理しても良い。その場合にはステップS504、S505で設定された録音レベル、絞り駆動区間、振動発生区間、ALC固定区間を示す信号を、音声信号とともに記録媒体に記録しておくことが必要となる。そして、外部の情報処理装置は、音声信号とともに記録されている録音レベル、絞り駆動区間、振動発生区間、ALC固定区間を示す信号に基づいて雑音処理を行う事になる。
以上説明したように、第2実施形態によれば、雑音発生区間に続く学習区間の全体を含む期間において、ALCによる利得の変更が禁止される。また、雑音発生区間の前方の学習区間の音声が、当該音声を記録した際の利得のレベルに応じて修復される。そのため、雑音発生区間の音声をより高精度、高品質に予測することができる。なお、振動検出部111による雑音区間の検出については第2実施形態のようにALC固定区間を設定し、発声が予測可能な雑音区間(例えば絞り駆動)については第1実施形態のようにALCを固定する構成としても良い。また、第1実施形態の技術と組み合わせて実施しても良いことは言うまでもない。
[第3実施形態]
第1実施形態、第2実施形態では雑音が発生するときにはALCを固定していた。第3実施形態ではALCを固定するのではなく、雑音が発生する区間および、その後の所定期間にわたってALCのリカバリを急速に行うことで後方の学習区間66の精度劣化を防いでいる。
図10に示されるような被写体音声が録音される場合、前方の学習区間64の参照音(録音される音声61)は被写体音声51aと同じである為にそれを用いた削除区間65(図3の削除区間52)の音声予測は精度良く行われる。それに対して後方の学習区間66の参照音(録音される音声61)は被写体音声51aとは大きく異なる。これは前述した様にALCのリカバリがゆっくりである為である。その為にその参照音を用いた削除区間65の音声予測精度は大幅に低下する。それに対して第3実施形態では絞り駆動や振動検出部111が検出する振動発生区間である雑音発生区間1503およびその後の学習区間66を含む区間をALC急速リカバリ区間1501としている。その為に信号増幅レベルの波形1502で示す様に、従来の信号増幅レベルの波形63と比較してALCの利得復帰が急速になり、後方の学習区間66の参照音声に与えるALCの変動の影響が低減される。
よって後方の学習区間66においても録音される音声と被写体音声がほぼ一致するようになり、雑音発生区間1503における雑音は前方及び後方の学習区間64、66により高品位な予測音声に置き換えられる。
図11は、第3実施形態による雑音処理のフローチャートであり、このフローはデジタルカメラが動画撮影時に録音を開始する時にスタートする。尚、説明をわかり易くする為に、図11のフローチャートでは本実施形態の説明に必要な処理が示されており、他の一般的な処理は省略されている。また、第1実施形態や第2実施形態と同じ機能のステップは同一番号で示している。
第3実施形態では、ALC固定を行わないため、S501、S503〜S505の録音レベルの調整(ALC)が必ず実行される。そして、ステップS901で振動検出部111により振動が検出された場合、或いはステップS1102においてALC急速リカバリ区間であると判定された場合には、処理はステップS1102に進む。なお、ALC急速リカバリ区間とは、第1、第2実施形態のALC固定区間に対応する期間である。ステップS1102ではALCレベルが変動している場合には音声処理回路26は振動が発生する以前、或いは絞り駆動以前、すなわちALC急速リカバリ区間になる以前のALCレベルに急速復帰させる。
雑音処理及び音声の記録に関しては、図9の(b)と同様である。すなわち、音声予測において、学習区間64については記録されているALCレベルを用いて音声信号を補正したものが用いられる。また、学習区間66に関しては、急速リカバリにより利得がほぼ一定な音声信号が得られているため、一時記録された音声信号がそのまま用いられる。
以上のように、第3実施形態によれば、雑音発生区間に続く学習区間の全体を含む期間において、ALCによる利得のリカバリ(利得のより高いレベルへの移行)が高速になる。一般に雑音発生区間では音圧が増大して信号増幅レベルが低下し、学習区間で利得のリカバリが発生するが、この学習区間を急速リカバリ区間とすることで、学習区間における利得の変動が低減され、雑音発生区間の音声をより高精度、高品質に予測することができる。

Claims (13)

  1. 動画撮影が可能な装置における音声記録装置であって、
    動画撮影時にマイクを介して入力された音声を録音する録音手段と、
    前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
    前記録音手段による録音の間に、雑音が重畳している雑音発生区間を特定する特定手段と、
    前記特定手段により特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測手段と、
    前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更手段による利得の変更を禁止する制御手段とを備えることを特徴とする音声記録装置。
  2. 前記制御手段は、前記所定期間において前記利得を所定のレベルに固定することを特徴とする請求項2に記載の音声記録装置。
  3. 前記制御手段は、前記所定期間において、前記利得を当該所定期間の開始時のレベルで固定することを特徴とする請求項2に記載の音声記録装置。
  4. 前記特定手段は、撮影のための光学系において機械的な駆動が発生している期間を前記雑音発生区間として特定することを特徴とする請求項1乃至3のいずれか1項に記載の音声記録装置。
  5. 前記制御手段は、前記撮影のための光学系における機械的な駆動に関わる制御信号に基づいて雑音発生区間の発生するタイミングを決定し、決定された雑音発生区間の前方に設定される学習区間をさらに含むように前記所定期間を決定することを特徴とする請求項4に記載の音声記録装置。
  6. 前記特定手段は、前記装置に装着された振動検出手段が振動を検出している期間を前記雑音発生区間として特定することを特徴とする請求項1乃至5のいずれか1項に記載の音声記録装置。
  7. 前記利得変更手段によって設定された利得を前記録音と同期して記録する記録手段をさらに備え、
    前記予測手段は、前記記録手段に記録された利得に基づいて前記雑音発生区間の前方に設定された学習区間の音声を補正して利得の変動による音声の変動を除去することを特徴とする請求項1乃至4,6のいずれか1項に記載の音声記録装置。
  8. 動画撮影が可能な装置における音声記録装置であって、
    動画撮影時にマイクを介して入力された音声を録音する録音手段と、
    前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
    前記録音手段による録音の間に、雑音が重畳している雑音発生区間を特定する特定手段と、
    前記特定手段により特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測手段と、
    前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更手段による利得がより高いレベルに移行する速さを、他の期間よりも速くすることを特徴とする音声記録装置。
  9. 請求項1乃至8のいずれか1項に記載の音声記録装置を備えた撮像装置。
  10. 動画撮影が可能な装置における音声記録装置における音声記録方法であって、
    動画撮影時にマイクを介して入力された音声を録音する録音工程と、
    前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更工程と、
    前記録音工程による録音の間に、雑音が重畳している雑音発生区間を特定する特定工程と、
    前記特定工程で特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音工程により録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測工程と、
    前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更工程による利得の変更を禁止する制御工程とを有することを特徴とする音声記録方法。
  11. 動画撮影が可能な装置における音声記録装置における音声記録方法であって、
    動画撮影時にマイクを介して入力された音声を録音する録音工程と、
    前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更工程と、
    前記録音工程による録音の間に、雑音が重畳している雑音発生区間を特定する特定工程と、
    前記特定工程で特定された前記雑音発生区間の前方及び後方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音工程で録音された音声のうちの前記雑音発生区間の音声を前記予測音声で置き換える予測工程と、
    前記雑音発生区間の後方の学習区間の全体を含む所定期間において、前記利得変更工程で利得がより高いレベルに移行する速さを、他の期間よりも速くすることを特徴とする音声記録方法。
  12. 周囲の音声を電気信号に変換し音声信号を取得する集音手段と、
    前記音声信号のレベルに応じて変化する増幅率で、前記音声信号を増幅する増幅手段と、
    前記音声信号のうち特定の区間の音声信号に基づいて、音声信号を処理する処理手段と、
    前記処理手段により処理された音声信号を記録媒体に記録する記録手段と、
    前記音声信号の特定の区間の音声信号に対する増幅率の変更を禁止するよう前記増幅手段を制御する制御手段とを有することを特徴とする音声記録装置。
  13. 動画撮影が可能な装置における音声記録装置であって、
    動画撮影時にマイクを介して入力された音声を録音する録音手段と、
    前記音声の大きさに応じて前記録音手段によって用いられる利得を自動的に変更する利得変更手段と、
    前記録音手段による録音の間に、雑音が重畳している雑音発生区間を特定する特定手段と、
    前記特定手段により特定された前記雑音発生区間の前方に設定された学習区間において録音された音声に基づいて前記雑音発生区間の予測音声を生成し、前記録音手段により録音された音声のうちの前記雑音発生区間の音声と前記予測音声とを所定の割合で合成する予測手段と、
    前記雑音発生区間の前方の学習区間および前記雑音発生区間の全体を含む所定期間において、前記利得変更手段による利得の変更を禁止する制御手段とを備えることを特徴とする音声記録装置。
JP2009174740A 2009-07-27 2009-07-27 音声記録装置及び方法、ならびに撮像装置 Expired - Fee Related JP5351644B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009174740A JP5351644B2 (ja) 2009-07-27 2009-07-27 音声記録装置及び方法、ならびに撮像装置
US12/833,563 US8626500B2 (en) 2009-07-27 2010-07-09 Apparatus and method for noise reduction and sound recording
CN201010240762.0A CN101969592B (zh) 2009-07-27 2010-07-27 声音记录设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009174740A JP5351644B2 (ja) 2009-07-27 2009-07-27 音声記録装置及び方法、ならびに撮像装置

Publications (3)

Publication Number Publication Date
JP2011028061A true JP2011028061A (ja) 2011-02-10
JP2011028061A5 JP2011028061A5 (ja) 2012-09-13
JP5351644B2 JP5351644B2 (ja) 2013-11-27

Family

ID=43498073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009174740A Expired - Fee Related JP5351644B2 (ja) 2009-07-27 2009-07-27 音声記録装置及び方法、ならびに撮像装置

Country Status (3)

Country Link
US (1) US8626500B2 (ja)
JP (1) JP5351644B2 (ja)
CN (1) CN101969592B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203040A (ja) * 2011-03-23 2012-10-22 Canon Inc 音声信号処理装置、及びその制御方法
JP2013118450A (ja) * 2011-12-01 2013-06-13 Canon Inc 情報処理装置及び方法、並びにプログラム
JP2014199343A (ja) * 2013-03-29 2014-10-23 キヤノン株式会社 撮像装置、信号処理装置及び方法、並びにプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5656586B2 (ja) * 2010-11-26 2015-01-21 キヤノン株式会社 撮像装置とその制御方法並びに音声処理装置及び方法
JP6061476B2 (ja) 2012-03-02 2017-01-18 キヤノン株式会社 音声処理装置
US9204065B2 (en) 2013-10-28 2015-12-01 Nokia Corporation Removing noise generated from a non-audio component
JP2015130547A (ja) * 2014-01-06 2015-07-16 パナソニックIpマネジメント株式会社 記録装置
US9667857B2 (en) * 2014-10-09 2017-05-30 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus with adjustable noise level reduction
CN105023602A (zh) * 2015-07-28 2015-11-04 苏州宏展信息科技有限公司 一种用于录音笔的音频测试电路
CN105139868A (zh) * 2015-07-28 2015-12-09 苏州宏展信息科技有限公司 一种用于录音笔的语音频率自动补偿控制方法
KR20180113415A (ko) * 2017-04-06 2018-10-16 김금철 소리를 적응적으로 증폭하여 소리를 분석하는 장치 및 사용방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01286633A (ja) * 1988-05-13 1989-11-17 Fujitsu Ltd 音声agc装置
JP2005159877A (ja) * 2003-11-27 2005-06-16 Canon Inc 電子機器及びビデオカメラ装置
JP2005303681A (ja) * 2004-04-12 2005-10-27 Sony Corp ノイズ低減方法及び装置
JP2006216188A (ja) * 2005-02-04 2006-08-17 Canon Inc 電子機器及びその制御方法
JP2006287387A (ja) * 2005-03-31 2006-10-19 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP2008053802A (ja) * 2006-08-22 2008-03-06 Sony Corp 記録装置、ノイズ除去方法、ノイズ除去装置
JP2008211526A (ja) * 2007-02-26 2008-09-11 Nec Corp 音声入出力装置及び音声入出力方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4186745B2 (ja) * 2003-08-01 2008-11-26 ソニー株式会社 マイクロホン装置、ノイズ低減方法および記録装置
US7433475B2 (en) * 2003-11-27 2008-10-07 Canon Kabushiki Kaisha Electronic device, video camera apparatus, and control method therefor
JP2006270591A (ja) * 2005-03-24 2006-10-05 Nikon Corp 電子カメラ、データ再生装置およびプログラム
JP2007150737A (ja) * 2005-11-28 2007-06-14 Sony Corp 音声信号ノイズ低減装置及び方法
JP2008077707A (ja) * 2006-09-19 2008-04-03 Sony Corp 記録装置、ノイズ除去方法、ノイズ除去装置
JP2008122729A (ja) * 2006-11-14 2008-05-29 Sony Corp ノイズ低減装置、ノイズ低減方法、ノイズ低減プログラムおよびノイズ低減音声出力装置
JP2009054225A (ja) * 2007-08-27 2009-03-12 Sony Corp 信号処理装置、信号処理方法およびプログラム
JP4926005B2 (ja) * 2007-11-13 2012-05-09 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 音声信号処理装置及び音声信号処理方法、通信端末

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01286633A (ja) * 1988-05-13 1989-11-17 Fujitsu Ltd 音声agc装置
JP2005159877A (ja) * 2003-11-27 2005-06-16 Canon Inc 電子機器及びビデオカメラ装置
JP2005303681A (ja) * 2004-04-12 2005-10-27 Sony Corp ノイズ低減方法及び装置
JP2006216188A (ja) * 2005-02-04 2006-08-17 Canon Inc 電子機器及びその制御方法
JP2006287387A (ja) * 2005-03-31 2006-10-19 Casio Comput Co Ltd 撮像装置、音声記録方法及びプログラム
JP2008053802A (ja) * 2006-08-22 2008-03-06 Sony Corp 記録装置、ノイズ除去方法、ノイズ除去装置
JP2008211526A (ja) * 2007-02-26 2008-09-11 Nec Corp 音声入出力装置及び音声入出力方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203040A (ja) * 2011-03-23 2012-10-22 Canon Inc 音声信号処理装置、及びその制御方法
JP2013118450A (ja) * 2011-12-01 2013-06-13 Canon Inc 情報処理装置及び方法、並びにプログラム
US9277102B2 (en) 2011-12-01 2016-03-01 Canon Kabushiki Kaisha Audio processing apparatus, audio processing method and imaging apparatus
JP2014199343A (ja) * 2013-03-29 2014-10-23 キヤノン株式会社 撮像装置、信号処理装置及び方法、並びにプログラム

Also Published As

Publication number Publication date
CN101969592B (zh) 2014-01-29
JP5351644B2 (ja) 2013-11-27
US8626500B2 (en) 2014-01-07
CN101969592A (zh) 2011-02-09
US20110022403A1 (en) 2011-01-27

Similar Documents

Publication Publication Date Title
JP5351644B2 (ja) 音声記録装置及び方法、ならびに撮像装置
JP5529635B2 (ja) 音声信号処理装置および音声信号処理方法
JP4816334B2 (ja) ノイズ低減装置、撮像装置、ノイズ低減方法およびプログラム
JP5279629B2 (ja) 撮像装置
JP2011151481A (ja) 音声信号処理装置、音声信号処理システム
US9288370B2 (en) Imaging apparatus and audio processing apparatus
JP5839795B2 (ja) 撮像装置および情報処理システム
JP2010166516A (ja) 音響処理装置及びそれを備えた電子機器並びに音響処理方法
US8855482B2 (en) Imaging apparatus and sound processing apparatus
US9294835B2 (en) Image capturing apparatus, signal processing apparatus and method
JP6061476B2 (ja) 音声処理装置
JP2012165219A (ja) 撮像装置
JP5638897B2 (ja) 撮像装置
JP5473786B2 (ja) 音声信号処理装置、及びその制御方法
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP6877246B2 (ja) 音声処理装置及びその制御方法
JP6931296B2 (ja) 音声処理装置及びその制御方法
JP5495753B2 (ja) 撮像装置
JP2011239187A (ja) 撮像装置
JP5171370B2 (ja) 音声処理装置及び電子機器並びに音声処理方法
JP6886352B2 (ja) 音声処理装置及びその制御方法
JP2011114406A (ja) 撮像装置、撮像方法およびプログラム
JP5246134B2 (ja) 信号処理装置及び撮像装置
JP2016018082A (ja) 音声処理装置及び方法、並びに撮像装置
JP2012054751A (ja) 音声処理装置ならびにそれを含む集積回路、音声記録装置および撮像装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130823

R151 Written notification of patent or utility model registration

Ref document number: 5351644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees