JP6271851B2

JP6271851B2 - 音声処理装置、撮像装置、及び、それらの制御方法、並びにプログラム

Info

Publication number: JP6271851B2
Application number: JP2013070454A
Authority: JP
Inventors: 木村　正史; 正史木村; 山本　泰史; 泰史山本; 文裕梶村; 吉隆橋本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2018-01-31
Anticipated expiration: 2033-03-28
Also published as: JP2014194463A

Description

本発明は、音声処理技術に関する。

従来、音声処理装置として、撮影した動画とともに音声を記録することができる撮像装置が知られている。これらの撮像装置においては、光学系の駆動により発生する雑音が音声として記録されてしまう問題があり、様々な雑音低減技術が開発されている（例えば、特許文献１）。特許文献１においては、撮像装置のアイリスモータまたはシャッタモータが駆動した場合には、モータの駆動する直前の音声を用いて、雑音の発生する区間の音声を補間する技術が提案されている。

また、類似の技術として、音声の伝送におけるパケットの喪失を補正する技術が開示されている（例えば、非特許文献１）。非特許文献１においては、パケットの喪失が発生する直前の音声でピッチの検出を行い、パケット喪失区間の音声を疑似的に生成する技術が開示されている。

特開２００６−２０３３７６号公報特開２０１１−１２４８５０号公報

ＩＴＵ−Ｔ勧告Ｇ７１１ＡｐｐｅｎｄｉｘＩ

しかしながら、特許文献１の技術を用いて雑音低減を行う場合には、循環バッファが必要であり、物理的な制限から特許文献１の技術を活用できる時間の範囲が制限されてしまう。また、非特許文献１の技術を用いて雑音低減を行う場合には、直前の音声信号でのみ雑音低減を図るので、必ずしも高品位に処理されない場合がある。

本発明は、雑音低減処理の改良に係り、低メモリ消費でかつ高品位な雑音低減処理を実現する。

本発明の一側面によれば、入力した時間領域の音声信号をフレームごとに周波数領域信号に変換して周波数スペクトルの時間変化を表す周波数／時間領域信号を取得する取得手段と、前記周波数／時間領域信号から切り出される、雑音低減処理の対象とする所定の時間幅、所定の周波数幅の参照領域を設定する設定手段と、前記周波数／時間領域信号における、前記設定された参照領域とサイズが等しく位置が異なる複数の比較領域の各々について、前記参照領域に対する類似度を算出する算出手段と、前記算出された類似度の高い順に選択された所定数の比較領域の信号を用いて前記参照領域の信号をフィルタリングすることで前記参照領域における雑音を低減するフィルタ処理手段とを有することを特徴とする音声処理装置が提供される。

本発明によれば、低メモリ消費でかつ高品位な雑音低減処理が実現される。

実施形態に係る音声処理装置の機能構成図。時間領域信号と周波数領域信号を説明する図。周波数／時間領域信号を説明する図。実施形態１におけるフィルタ処理を説明する図。短時間雑音が混入した周波数／時間領域信号を説明する図。周波数／時間領域信号を説明する図。実施形態におけるフィルタ処理を説明する図。実施形態２における音声処理装置の機能ブロック図。実施形態３における音声処理装置の機能ブロック図。実施形態３における雑音低減処理を説明する図。実施形態３における雑音低減処理を説明する図。実施形態３における雑音低減処理を説明する図。実施形態４における撮像装置の外観斜視図、中央断面図及びブロック図。実施形態５における音声処理部の機能ブロック図。時間領域信号と周波数領域信号を説明する図。レンズ駆動雑音が混入した周波数／時間領域信号を説明する図。実施形態５におけるフィルタ処理を説明する図。レンズ駆動雑音が複数回混入した周波数／時間領域信号を説明する図。実施形態６における音声処理部の機能ブロック図。実施形態６における雑音低減処理を説明する図。実施形態７における音声処理部の機能ブロック図。実施形態７における顔検出結果の例を示す図。実施形態８における音声処理部の機能ブロック図。実施形態８における人物検出部及び開口検出部の処理を説明する図。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。また、以下の実施形態の中で説明されている特徴の組み合わせの全てが本発明の課題解決のために必須のものであるとは限らない。

＜実施形態１＞
図１において、（ａ）は実施形態に係る信号処理システムの構成図、（ｂ）は音声処理装置の機能ブロック図である。図１（ａ）において、信号処理システムは、撮像装置１と、音声処理装置として機能する情報処理装置２とを含み、両者は通信ケーブル３により接続されている。情報処理装置２は例えばパーソナルコンピュータで実現されうる。図１（ｂ）は情報処理装置２の機能ブロック図である。図１（ｂ）においては、機能ブロックは四角で示され、データは角の丸い四角で示されている。

撮像装置１は、図示しない集音装置（例えばマイクロホン）を備え、ユーザの操作により映像の記録と同期して音声を収集し、映像／音声を収めたファイルを生成する。これを動画ファイルと称する。本実施形態では、映像と同期して音声を取得する例で説明を行うが、音声を取得できる機器であれば映像は必須ではない。ただし多くの場面で、音声の取得はいわゆる動画撮影において行われるので、本実施形態は映像と音声を同期して取得する例を用いて説明する。

撮像装置１で取得された動画ファイルは通信ケーブル３を介して情報処理装置２に送られる。なお、撮像装置１と情報処理装置２との間の動画ファイルのやりとりは、通信ケーブル３を用いた有線通信に限られない。かわりに、無線通信を用いてもよいし、あるいはメモリカードの移動によるものでもよい。情報処理装置２は、そこに備えられたプログラムによって、受信した動画ファイルから音声信号を分離する。この音声信号が図１（ｂ）における入力音声１０である。

周波数領域変換部２０は、時間領域信号である入力音声１０を、フレームごとに周波数領域信号に変換し、周波数スペクトルの時間変化を表す周波数／時間領域信号１１を取得する。周波数領域変換部２０の具体的な動作は図２を用いて後述する。なお、周波数／時間領域信号はスペクトログラムと呼ばれることもある。

参照位置制御部２１は、取得された周波数／時間領域信号１１から切り出される所定の時間幅、所定の周波数幅の参照領域を設定する。ここで、参照領域は例えばユーザが指定することも可能である。比較部２２は、参照位置制御部２１で設定された参照領域とサイズが等しく位置が異なる複数の比較領域の各々について、参照領域に対する類似度を算出し、これを比較結果１２として出力する。比較部２２の動作の詳細については図３を用いて後述する。

置換信号生成部２３は、比較結果１２に基づいて周波数／時間領域信号１１から参照領域と置換する置換信号１３を生成する。置換信号生成部２３の動作の詳細については図４を用いて後述する。出力音声生成部２４は、置換信号１３と周波数／時間領域信号１１とに基づいて、周波数領域変換部２０での変換に対する逆変換を施すことで出力音声１４を生成する。

次に、図２を用いて周波数領域変換部２０の動作について説明する。なお、図２から図４では、白色雑音の処理方法について説明する。また、図５から図７では、短時間でパワーの強い雑音の処理方法について説明する。

図２において、（ａ）は雑音が存在しないときの音声信号を、（ｂ）は（ａ）の信号に対して白色雑音が重畳した場合の音声信号を示す。（ｃ）は、（ａ）及び（ｂ）の信号をフレームごとに周波数領域変換するときのフレーム長及びフレームのオーバラップを模式的に示す。（ｄ）は、（ａ）の信号の１フレーム区間で周波数領域変換した結果を、（ｅ）は、（ｂ）の信号を同フレーム区間で周波数領域変換した結果を示す。本実施形態では、ノイズレベルの高い（ｂ）の音声信号を入力として、（ａ）に近い雑音が低減された音声信号を出力信号として得ることを目指す。

図２の（ａ）及び（ｂ）において、横軸は時間、縦軸は信号レベルであり、マイクロホンなどの集音装置で得られた信号そのものを示している。（ａ）及び（ｂ）の信号は全体で0.3秒程度の時間の信号を示している。すなわちこれらの信号は動画ファイルから得られた音声信号のごく一部を拡大した図である。（ａ）及び（ｂ）を見ると分かるように、音声信号は局所的に観察すると、非常に繰り返し性が高いことが分かる。一方で、時間的な変動が大きくかつスパース（信号が存在する区間が非常に限定されている）な性質を持っている。本発明の着眼点の一つは、音声の持つ短時間での繰り返し性にある。

上記したように、周波数領域変換部２０は、時間領域信号である入力音声１０をフレームごとに周波数領域信号に変換して周波数スペクトルの時間変化を表す周波数／時間領域信号１１を取得する。この処理の一つの方法は、短時間ＦＦＴを施すことである。必要に応じて、ＦＦＴ処理の前に窓関数を掛けてもよい。図２（ｃ）は短時間ＦＦＴを模式的に示している。図２（ｃ）のＦＦＴと書かれた四角の横方向の大きさは一度にＦＦＴ処理を行うデータ大きさ（フレーム長）を示している。（縦方向は物理的な意味は無い。）ＦＦＴの性質から演算を容易にするために２の累乗で適当な大きさにすればよい。図２（ｃ）に示すように、適当に重なる領域を設けながらずらした区間を切り出す。横方向に適当なサンプル数毎ずらして切り出すがこれをずらし量と記載する。ずらし量はオーバラップ量と呼ばれることもある。

望ましいＦＦＴデータの大きさ（図２（ｃ）のＦＦＴと書いた四角の横の大きさ）やずらし量（図２（ｃ）のＦＦＴと書いた四角の横方向のずらしサンプル数）は以下のようになる。例えば、４８０００Ｈｚで音声をサンプリングしているとする。ＦＦＴ後のデータの周波数分解能はサンプリング周波数とＦＦＴデータの大きさによって決まり、（サンプリング周波数／２）／（ＦＦＴデータの大きさ／２）で計算される。例えば、ＦＦＴデータ点数を１０２４点にすると（４８０００／２）／（１０２４／２）＝４６．８７５Ｈｚとなる。この周波数分解能は、音声の基本周波数（ピッチ周波数）を表現するのに十分である。また、フレームのずらし量を、音声のピッチ周期の整数倍になるように設定するとよい。図２の（ａ）及び（ｂ）では、類似した波形が繰り返し現れている。ここで、例えば非特許文献１に記載されているような方法でフレームごとに音声信号のピッチ検出を行い、フレームのずらし量をその検出されたピッチ周期の整数倍に決定するとよい。このように設定することで、主被写体音の周波数／時間変換後の位相が揃った状態になる。

図２において、（ｄ）及び（ｅ）はそれぞれ、（ｃ）の３０で示した区間で（ａ）及び（ｂ）の音声信号を周波数領域信号に変換して得た結果を示している。周波数領域変換部２０は（ｃ）に示すように時間方向にずらして処理を行う。（ｄ）及び（ｅ）はこの特定の時間の信号のみに着目して図示したものである。（ｄ）及び（ｅ）は周波数領域変換後の複素数をいわゆるボード線図の状態で図示してあり、上段は位相、下段はゲインである。また横軸は共通して周波数である。（ｄ）はノイズレベルの低い状態での信号を示しているので、ゲインに着目すると主被写体音の特徴が明瞭に得られておりピーク３１，３２，３３が観察される。また、（ｄ）のノイズレベルを３４で図示した。一方、（ｅ）はノイズレベルの高い状態での信号を図示しているので、ゲインに着目すると主被写体音のピーク３１，３２，３３は観察されるが、ノイズレベル３５が高いために埋もれかかっている。このような状態は、Ｓ／Ｎが小さく一般的には音質が良くない状態にあると言える。

図２の（ｄ）及び図２（ｅ）を縦に貫くように引いた破線は同じ周波数であることを明示するための線であり、ノイズレベルが高い状態にあっても主被写体音のピークが変化することはない。また、主被写体音の成分が優勢なピーク３１，３２，３３では位相も大きく異なる値はとらない。位相やゲインのばらつきの状態については図３を用いて後述する。

図２を用いて説明したように、周波数領域変換部２０は音声信号を適当な区間で切り出して周波数変換を施すなどの方法により、入力音声を周波数及び時間の広がりをもった複素数である周波数／時間領域信号１１に変換する。

図３（ａ）は、周波数／時間領域信号１１を模式的に示したものである。図３（ａ）では位相を省略してゲインのみ図示している。また、図を分かりやすくするためにピークのみ示した。すなわち図３（ａ）の線３１、３２、３３は図２（ｄ）及び（ｅ）のピーク３１、３２、３３と対応している。図３（ｂ）は、ある時間、周波数に着目したときの周波数／時間領域信号のデータである複素数をガウス平面に表示したものである。すなわち横軸は複素数の実数部を、縦軸は複素数の虚数部をそれぞれ示している。

図３（ａ）において、区間３０は図２（ｃ）の区間３０と対応しており、一度のＦＦＴで得られるデータの範囲を示す枠を示す。４１は参照領域の例を、４２は比較領域の例を示す。４１ａ，４１ｂは参照領域４１内の着目する周波数／時間領域信号を示す。比較領域４２内の周波数／時間領域信号４２ａ，４２ｂはそれぞれ、周波数／時間領域信号４１ａ，４１ｂに対応する。図３（ｂ）において、５０ａ，５０ｂはノイズ範囲を示す円を、５１は仮想的に描いた平均的な主被写体信号を、５２は主被写体音の平均的な信号が存在する範囲を示す円をそれぞれ示している。

図３（ａ）の横軸は時間であり、縦軸は周波数である。図３（ａ）に点線で示した格子は１つのデータを模式的に示している。すなわち、横方向の１マスの大きさは図２で説明したずらし量をサンプリング周波数で除した大きさの時間のスケールを持っている。縦方向の１マスの大きさは、図２で説明した周波数分解能に対応している。図３（ａ）は実際には複素数の大きさ（ノルム）に応じた値が濃淡で表示されるのであるが、図を明瞭に示すために図２（ｄ）及び図２（ｅ）に示したピーク３１，３２，３３のみ示した。

ここで、参照領域４１を設定することを考える。参照領域４１は雑音処理がなされる領域である。参照領域はユーザの指示により設定されうる。（処理に時間はかかるが、音声全体とすることも可能である。）参照位置制御部２１は、ユーザの指示に基づき、順次、参照領域を設定する。図３（ａ）の例では、参照領域は５×５マスの大きさを持っているが、これに限定されない。参照位置制御部２１は例えば、これを縦横方向に１マスずつずらしながら（周波数／時間をずらしながら）、ユーザが指定した範囲を覆うように参照領域を順次設定することができる。

次に、比較領域４２を設定することを考える。比較領域４２は参照領域４１と似たブロックを選択できると都合がよい。前述したように、音声信号は局所的にみると繰り返し性が高いので、参照領域と周波数位置が同じで時間位置が異なる領域を探索することは好都合となる。別の都合のよい比較領域としては、参照領域と時間位置が同じで周波数位置が異なる領域に設けることも考えられる。例えば、楽器音等が主被写体音の場合にはきれいな調波性がみられる。調波性とは、基本波成分（ピッチ成分）とその高調波に信号エネルギが集中している特徴であり、本発明で着目するもう一つの音声信号の特徴である。きれいな調波性がみられる信号では高調波に類似する波形が観察される。ノイズが狭帯域でピーク３１が近傍のみにノイズの影響がみられるような場合や図２から図４で説明している白色雑音の場合にはこのような比較領域の選び方も有効である。調波性を利用することで別の周波数の信号を活用できるので比較的短時間の音声信号から参照領域４１に類似する比較領域４２を選択することが可能となる。

ここで参照領域４１に対して比較領域４２を設定した場合を考える。このとき、参照領域４１と比較領域４２の類似度を以下の式で計算する。

数１においてi,jは参照領域内に設けられた時間、周波数方向のローカル座標である。N,Mは時間及び周波数方向の参照領域４１、比較領域４２の大きさを表し、図３（ａ）においてはいずれも５である。X_Rは参照領域の信号を、X_Cは比較領域の信号を示している。||はノルムを計算する演算子である。数１は比較領域４２内の各部の信号に対して、参照領域４１と対応する位置との差を積算していることになる。すなわち比較領域４２と参照領域４１が完全に同一のものであれば数１はゼロとなり、類似度が下がるに従って大きな値をとる。つまり数１は参照領域４１と比較領域４２の類似度を算出している。本実施形態では、比較部２２によって数１の演算を行い、類似度が高いものから予め定められた数または類似度が一定の範囲にある比較領域を選択する。置換信号生成部２３で用いる比較領域は１つである必要はなく、後述するように中心極限定理に従ったノイズ処理なので、類似度が高いものが得られるのであれば、多い方が望ましい。

類似度の計算を図示したものが、図３（ｂ）である。数１の計算のうち特定のもののみ示している。図３（ａ）から分かるように周波数／時間領域信号４１ａ、４２ａはそれぞれ、X_R(1,3)、X_C(1,3)に対応する。周波数／時間領域信号４１ｂ、４２ｂはそれぞれ、X_R(5,1)、X_C(5,1)に対応する。この２組の信号のみを図３（ｂ）に図示した。（数１に示すように演算はその他の組み合わせでも行われる。）ここで、ピーク３１が存在するので、周波数／時間領域信号４１ａ，４２ａは強い主被写体音＋白色雑音となっている。一方、周波数／時間領域信号４１ｂ，４２ｂは弱い主被写体音＋白色雑音となっている。図３（ｂ）では分かりやすくするために、周波数／時間領域信号４１ｂ，４２ｂ領域に存在する弱い主被写体音を０として図示した。（このようにしても本発明の要旨に変化はない。）
図３（ｂ）において、数１の演算は２つのベクトルの差のノルムを積算していることになる。すなわち、ベクトル４１ａとベクトル４２ａの差のベクトルの長さ及び、ベクトル４１ｂとベクトル４２ｂの差のベクトルの長さが評価値になる。例えば、主被写体音が存在しないように参照領域４２を設定すると、４１ａと４２ｂを比較するような状態になり、そのノルムは大きくなり数１の値が大きくなる。

前述したように、ピッチ検出を行うことで、主被写体音の周波数／時間変換後の位相は揃った状態にある。そのため図３（ｂ）に示す平面において、主被写体音は、ノイズが無いとした場合のベクトル（図３（ｂ）では５１として図示している。）を中心とした円５０ａの内部に存在することになる。円のいずれの場所にあるかは確率的に決定され（これが白色雑音の特徴である。）ガウス分布的に分布している。中心極限定理によると、標本平均は標本のサイズが大きくなると元の母集団の平均に近づくので、多くの類似ブロックの信号を加算すると結果的にノイズの無いベクトル５１に近づいていく。これが類似ブロックを集めて平均化することで白色雑音が低減できる理由である。

ここで、位相を揃えておく効用について説明する。前述のように、本実施形態ではピッチ検出を行い、フレームのずらし量をピッチ周期の整数倍にすることで、主被写体音の周波数／時間変換後の位相を揃えている。これを行わない場合には、主被写体音はノイズの無い場合に図３（ｂ）の円５２上のいずれかの場所に存在することになる。偶然位相が一致するような比較領域も存在し、その比較領域が類似しているとして選択されるが、その確率は低くなってしまう。音声信号が十分に長ければ、予め位相を揃えなくても偶然一致する個所を探索すればよいが、その場合においても計算量やメモリ領域を多く必要とする。本実施形態に示すように位相を揃えておくことで、類似する比較領域を短時間のデータから見つけることが可能となり、計算量やメモリ領域の削減に寄与する。

同様に、主被写体音が存在しない領域４１ｂ，４２ｂでも原点を中心とした（＝これが主被写体音が存在しないことと同義）円５０ｂ内に、ベクトル４１ｂ，４２ｂは確率的に分布した状態にある。こちらも同様に多くの類似ブロックの信号を加算すると結果的にノイズの無い状態（＝ゼロベクトル）に近づいていく。

図４は、置換信号生成部２３及び出力音声生成部２４の動作を説明する図である。図４（ａ）において、４１は参照領域を、４２、４３、４４は比較領域を示す。また、４２ｎ，４３ｎ，４４ｎは参照領域とは異なることを模式的に示している。１３は置換信号生成部２３で得られる置換信号を示す。図４（ｂ）は、図２（ｄ）及び図２（ｅ）と同じ時間の信号に対して置換信号生成部２３によって置換された後の状態を示したボード線図である。図４（ｂ）の上段は位相、下段はゲインである。また、横軸は共通して周波数である。さらに、３１、３２、３３は図２（ｄ）及び図２（ｅ）と同じ音声信号のピークを、３５は図２（ｅ）に示したノイズレベルを、３６は置換信号のノイズレベルをそれぞれ示している。

図４（ａ）においては比較領域が模式的に３つ示されているが、３つに限定されない。比較領域の数は図３で説明したように、類似度が高いものが得られるのであれば、多い方が望ましい。参照領域４１に対して類似するとして選択された比較領域４２、４３、４４を適当な重みを付けて加算する。これを式で示すと以下のようになる。

X_Oは置換信号を、X_Rは参照領域の信号を、X_Ckは比較領域の信号をそれぞれ示している。また、ここまでの説明では、比較領域の数は多い方がよいとしていたが、数２では所定数Pとしている。i,j,N,Mに関しては数１と同じである。また、kは選ばれた比較領域の番号に対応しており、1〜Pの整数値をとる。X_C1は１番目の比較領域、X_CPはP番目の比較領域という意味である。w_kはフィルタの重みである。これは、後述するように、類似度の高い順に選択される所定数の比較領域の信号に重みを付けて加重平均とする等のために用いる。

図４（ａ）及び数２によれば、出力される置換信号１３(X_O)は、参照領域４１(X_R)と、選択された比較領域４２(X_C1)、４３(X_C2)、４４(X_CP)との重み付け平均になっている。図３（ｂ）との対応を考えると、ノイズの無い場合のベクトル５１に近いベクトルを推定している。比較領域４２(X_C1)、４３(X_C2)、４４(X_CP)には類似度の高い順に大きな重みw_kを適用することで、適当なフィルタを実現することが可能となる。このフィルタ処理（重み付け平均をとることは一種のフィルタリングとみなせる。）によって比較領域４２(X_C1)、４３(X_C2)、４４(X_CP)に存在する参照領域４１(X_R)とは異なる信号成分４２ｎ，４３ｎ，４４ｎ（この信号はノイズに由来している。）が抑制される。（確率的に発生したノイズなので中心極限定理により図３で説明したように抑制される。）
その結果、図４（ｂ）に示すように、雑音レベルの下がった信号を得ることができる。図４（ｂ）ではノイズレベルが３５から３６に改善される様子を図示した。このときの改善量は図４（ａ）のフィルタの特性によって決まっており、例として重みが全て等しい単純平均の場合には、平均化する信号数のルートに比例してノイズレベルに対する信号レベルが改善する。例えば、４つの信号を平均化すると√４＝２なので２倍のＳ／Ｎになる。

図４（ｂ）で示される信号が置換信号として得られるので、この信号を元の位置に戻す。（図３（ａ）の３０で図示した枠の位置にこの信号を当てはめる。）この処理は出力音声生成部２４が行う。

以上は１つの参照領域に対する処理を説明したが、ユーザにより指示された範囲に複数の参照領域を設定し、各々の参照領域に対して動作を繰り返すことができる。これにより、ノイズの低減された周波数／時間領域信号を得ることができる。最後に、出力音声生成部２４が、処理後の（置換信号によって置き換えが終了した）周波数／時間領域信号に対して、周波数領域変換部２０での変換処理に対する逆変換を施すことで出力音声１４を得る。

以上、図２から図４を用いて白色雑音を処理する例を示した。上記例によれば、音声の局所的な繰り返し性の良さや調波性を活用することで、類似する比較領域を狭い範囲から探すことが可能である。比較領域（時間方向の長さ）のデータのみメモリ上に展開して処理すればよいので、少ないメモリ消費で高品位な雑音低減処理が実現される。

次に、図５から図７を用いて短時間に発生する音圧の強い雑音（以下「短時間雑音」という。）を処理する方法を説明する。

図５は、図２と対応する図である。ただし、雑音が存在しない場合の波形は図２（ａ）と同じになるので省略した。図５において、（ａ）は短時間雑音が重畳した場合の音声信号を示す。（ｂ）は（ａ）の信号を周波数時間変換するときのフレーム長及びフレームのオーバラップを時模式的に示す。（ｃ）は（ａ）の信号の短時間雑音が重畳している１フレーム区間で周波数領域変換した結果を示す。短時間雑音は、例えば撮像装置１にユーザが不意に接触した場合や、ユーザの操作（タッチ）等により発生する。この雑音の特徴は発生している時間は短いが、音圧が高く（＝パワーが強い）帯域が広い。これが図５の（ａ）及び（ｃ）に示されている。

図５（ａ）において、６０は短時間雑音が発生した時間を示している。図５（ａ）から分かるように、短時間雑音が発生した時間６０の間は主被写体音が雑音に埋もれている状態にある。図５（ｂ）は短時間ＦＦＴのフレームを模式的に示しているが、６１は雑音を含むように設定された区間を示している。図５（ｃ）は図５（ｂ）の６１で示した区間（雑音を含む区間）で図５（ａ）の音声信号を周波数変換した結果を図示している。図５（ｃ）は周波数変換後の複素数をいわゆるボード線図の状態で図示してあり、上段は位相、下段はゲインである。また横軸は共通して周波数である。図５（ｃ）は短時間雑音を含んでいるのでゲインのデータは６２のように得られる。主被写体音の特徴であるピーク３１，３２，３３が埋もれて観察できない状態にある。この信号に対して図２から図４と同じ処理をしても望ましい雑音低減は見込めない。そこで本実施形態では、予測に基づく短時間雑音発生時間の信号の置き換えを行う。

図６（ａ）は、図５（ａ）の信号に対する周波数／時間領域信号１１を模式的に示したものである。図６（ａ）では位相を省略してゲインのみ図示している。また、図を分かりやすくするためにピークのみ示した。すなわち図６（ａ）の線３１、３２、３３は図５（ｃ）のピーク３１、３２、３３と対応している。短時間雑音が発生した時間６０では、ピーク３１、３２、３３は雑音に埋もれているため示されていない。対照的に、前述した図３（ａ）では、ピーク３１、３２、３３の線は、３０の時間でも示されている。

図６（ａ）において、時間６０は、図５（ａ）の短時間雑音が発生した時間６０に対応する。４１は参照領域の例を、４２は比較領域の例を示す。４１ａ、４１ｂ、４１ｃは参照領域内の着目する周波数／時間領域信号を示す。比較領域４２内の周波数／時間領域信号４２ａ、４２ｂ、４２ｃはそれぞれ、参照領域４１内の周波数／時間領域信号４１ａ、４１ｂ、４１ｃに対応する。図６（ｂ）は、周波数／時間領域信号４１ａ、４１ｂ、４１ｃ、４２ａ、４２ｂ、４２ｃのデータをガウス平面上に図示したものである。５０ａ、５０ｂはノイズ範囲を示す円をそれぞれ示している。

図６（ａ）において、例えばユーザの指示により、短時間雑音が発生した時間６０が参照領域４１として選択されたとする。短時間雑音を処理する場合は前述の指示範囲を包含するような大きさに参照領域４１を設定する。すなわち図６（ａ）においては、短時間雑音が発生した時間６０は時間方向（横方向）に２マスの大きさを持っているが、これよりも大きい参照領域を設定する。図６（ａ）の例では参照領域４１は５×５マスなので時間方向の大きさは２よりも大きい。可能であれば、参照領域４１は短時間雑音が発生した時間６０がその端にならないように設定するとよい。これは予測に基づく短時間雑音発生時間の信号の置き換えにおいて、雑音の前後の双方の音声信号を参照することができるためである。これにより前方又は後方のみからの予測に比べて信頼性を高め、出力音声の品位を向上させることができる。

次に、比較領域４２を設定する。比較領域は白色雑音の場合と同様に設定すればよい。さらに望ましくは、比較領域は短時間雑音の発生がない個所に設定すればよい。このとき、参照領域４１に対する比較領域４２の類似度を以下の式で計算する。

数１との違いは、短時間雑音が発生した時間６０を類似度の評価に含めない点である。すなわち、参照領域のうち雑音を含む時間に係る領域を類似度の算出から除外する。時間６０の前後の波形は短時間雑音の影響を受けず、高品位な音声信号が得られている。これは図５（ａ）における時間６０の前後の波形が繰り返し性の高い波形となっていることからも分かる。

図６（ｂ）は、類似度の計算と短時間雑音の関係を示している。数３の計算のうち特定のもののみ示している。図６（ａ）から分かるように周波数／時間領域信号４１ａ、４２ａはそれぞれ、X_R(1,3)、X_C(1,3)に対応する。周波数／時間領域信号４１ｂ、４２ｂはそれぞれ、X_R(5,1)、X_C(5,1)に対応する。周波数／時間領域信号４１ｃ、４２ｃはそれぞれ、X_R(3,3)、X_C(3,3)に対応する。この３組の信号のみを図６（ｂ）に図示した。ここで、短時間雑音の影響を受けている４１ｃは、図５（ｃ）に示すようにピーク３１が観察されずノイズによって決まるので、ゲインは大きく位相は任意の方向にある。これが偶然雑音が無い場合のベクトル４２ｃと類似することもあるが、一般的には図６（ｂ）に示すように大きく異なったベクトルとなっている。つまり、|X_C(3,3)-X_R(3,3)|は大きな値を持つであろう。この場所を除いて短時間雑音の前後が類似する参照領域を探す。これは楽器では同じ音が続いているような個所を、人の声では同じ母音を発声しているような個所を探すことに対応する。

図６（ｂ）は図３（ｂ）と類似した状態を図示しているので、短時間雑音が発生した時間６０と重なったベクトル４１ｃを除いて主被写体音はノイズを図示した円５０ａの範囲にある。主被写体音が弱い領域は別の円５０ｂを中心とする円の中にベクトルが存在する。つまりベクトル４１ｃの代わりにベクトル４２ｃを用いれば、短時間雑音が発生した箇所の信号を生成することが可能となる。（前後が似ている別の周波数、時間の波形を持ってきてはめ込むので、予測に基づく短時間雑音発生時間の信号の置き換えといういい方を使った。）
図７は、置換信号生成部２３及び出力音声生成部２４の動作を説明する図である。図７（ａ）において、４１は参照領域を、４２、４３、４４は比較領域を示す。また、４２ｎ，４３ｎ，４４ｎは参照領域とは異なることを模式的に示している。１３は置換信号生成部２３で得られる置換信号を示す。図７（ｂ）は、図５（ｃ）と同じ時間の信号に対して置換信号生成部２３によって置換された後の状態を示したボード線図である。図７（ｂ）の上段は位相、下段はゲインである。また、横軸は共通して周波数である。さらに３１、３２、３３は音声信号のピークを、６２は短時間雑音が存在する領域で入力音声を周波数／時間変換した時のゲインを、６５は置換信号のゲインをそれぞれ示している。

図７（ａ）においては比較領域が模式的に３つ示されているが、複数であることを示しているものであり、３つに限定されない。参照領域４１に対して類似するとして選択された比較領域４２、４３、４４を適当な重みを付けて加算する。これを式で示すと以下のようになる。

X_Oは置換信号を、X_Rは参照領域の信号を、X_Ckは比較領域の信号をそれぞれ示している。数４は数２と類似しているが、参照領域の信号X_Rを含まない点が異なっている。これは、数２の重み付け平均をとる際に参照領域の信号に掛ける重みw₀を0とすることに等しい。こうして参照領域４１の信号を含めないようにすることで、短時間雑音の影響がない信号を得ることができる。これは図６（ｂ）の４１ｃの代わりに４２ｃを当該個所の信号として用いることに対応する。

図７（ａ）及び数４によれば、出力される置換信号１３(X_O)は、選択された比較領域４２(X_C1)、４３(X_C2)、４４(X_CP)の重み付け平均になっている。比較領域４２(X_C1)、４３(X_C2)、４４(X_CP)には類似度の高い順に大きな重みw_kを適用することで、適当なフィルタを実現することが可能となる。このフィルタ処理（重み付け平均をとることは一種のフィルタリングとみなせる。）によって比較領域４２(X_C1)、４３(X_C2)、４４(X_CP)に存在する参照領域４１(X_R)とは異なる信号成分４２ｎ，４３ｎ，４４ｎ（この信号は白色雑音に由来している。）は抑制される。（確率的に発生したノイズなので中心極限定理により抑制される。）最終的には、前後の情報から推定した、最適な信号が生成される。（ここでの最適とは発生確率が高いことを言う。）
その結果、図７（ｂ）に示すように、短時間雑音の信号６２を完全に破棄して、類似する参照領域から推定された適当な信号６５が生成される。図７（ｂ）で示される信号が置換信号として得られるので、この信号を元の位置に戻す。（図６（ａ）の６０で図示した枠の位置にこの信号を当てはめる。）この処理は出力音声生成部２４が行う。

以上は１つの参照領域に対する処理を説明したが、ユーザにより指示された範囲に複数の参照領域を設定し、各々の参照領域に対して動作を繰り返すことができる。これにより、ノイズの低減された周波数／時間領域信号を得ることができる。このようにして得られた周波数／時間領域信号に対して、周波数領域変換部２０での変換処理に対する逆変換を施すことで出力音声１４が得られる。

以上、図５から図７を用いて短時間雑音を処理する例を示した。上記例によれば、音声の局所的な繰り返し性の良さや調波性を活用することで、類似する比較領域を狭い範囲から探すことが可能である。比較領域（時間方向の長さ）のデータのみメモリ上に展開して処理すればよいので、少ないメモリ消費で高品位な雑音低減処理が実現される。

＜実施形態２＞
以下の実施形態２では、ピッチ検出処理を用いて効果的に比較領域を探すことで、より少ないメモリ消費で高品位な雑音低減処理を実現する。

図８は、本実施形態における情報処理装置２の機能ブロック図である。図１（ｂ）と同じブロックには同じ参照番号を付しその説明を省略する。図８では、図１（ｂ）の構成に対して、入力音声１０の基準ピッチを検出するピッチ検出部２５が付加されている。ピッチ検出部２５は、ピッチ検出結果１５を周波数領域変換部２０及び比較部２２に出力する。

ピッチ検出結果１５に基づいたＦＦＴデータの大きさやそのずらし量は以下のようになる。例えば、４８０００Ｈｚで音声をサンプリングしているとする。ＦＦＴ後のデータの周波数分解能はサンプリング周波数とＦＦＴデータの大きさによって決まり、（サンプリング周波数／２）／（ＦＦＴデータの大きさ／２）で計算される。ここで求めた周波数分解能が検出したピッチ検出結果１５から求まるピッチ周波数より細かい必要がある。周波数分解能がピッチ周波数より大きい場合、周波数／時間変換によりピッチ情報を損なうことになる。類似度の算出において、ピッチを含まない信号の類似度を算出することになり、それによりピッチ成分を除去することになってしまう。そのため、ピッチ周波数を含むように周波数／時間変換を行う必要がある。例えば、ＦＦＴデータ点数を１０２４点にすると（４８０００／２）／（１０２４／２）＝４６．８７５Ｈｚとなる。この周波数分解能は、音声の基本周波数（ピッチ周波数）を表現するのに十分である。また、フレームのずらし量を、音声のピッチ周期の整数倍になるように設定するとよい。図２の（ａ）及び（ｂ）では、類似した波形が繰り返し現れている。ここで、例えば非特許文献１に記載されているような方法でフレームごとに音声信号のピッチ検出を行い、フレームのずらし量をその検出されたピッチ周期の整数倍に決定するとよい。このように設定することで主被写体音の必要な周波数情報を損なうことなく周波数時間変換後の位相が揃った状態にすることができる。

図３（ａ）の例では、参照領域は５×５マスの大きさを持っているが、本実施形態では、周波数方向の大きさを、ピッチ検出結果１５に応じた幅に設定する。例えば、比較領域４２の設定において、周波数幅を、基準ピッチを含みその高調波を含まない周波数幅に設定するとよい。このように設定することで、類似度の高い比較領域をより多く得ることが可能となる。また、参照領域の周波数方向の大きさをこのように設定することで、基準ピッチ及び高調波を２つ以上含むことがないため、より多く類似する比較領域４２を選択することが可能となる。

また、図５（ｂ）では短時間ＦＦＴのフレームを模式的に示したが、６１は雑音を含むように設定された区間を示している。ここでも、ＦＦＴは音声信号のピッチ周波数よりも周波数分解能が細かくなるように行い、ずらし量はピッチの整数倍になるように設定するとよい。ここでも、周波数方向の大きさは、白色雑音の場合と同様に、基準ピッチを含みその高調波を含まない周波数幅に設定するとよい。

本実施形態によれば、音声のピッチに対象を絞り局所的な繰り返し性の良さや調波性を活用可能となる。そのため、類似する比較領域を狭い範囲から探すことが可能となる。比較領域（時間方向の長さ）のデータのみメモリ上に展開して処理すればよいので、少ないメモリ消費で高品位な雑音低減処理が可能である。

＜実施形態３＞
以下の実施形態３は、上記した実施形態２の変形例である。図９は、本実施形態における情報処理装置２の機能ブロック図である。図８と同じブロックには同じ参照番号を付しその説明を省略する。図８の構成と比較すると、図９の構成はまず、周波数領域変換部２０を持たない。すなわち、本実施形態は、周波数／時間領域での信号処理ではなく、時間領域での信号処理となる。また、図９の構成は、図８の構成に対して、周波数制限部２６が付加されている。

ピッチ検出部２５は、例えば非特許文献１に開示されている技術等でピッチを検出する。周波数制限部２６は、ピッチ検出結果１５に基づいて、少なくともピッチの成分が残存するように入力音声の周波数帯域制限を行う。このように周波数帯域を限定することで、類似度の計算においてピッチの類似度が高い比較領域を選択的に得ることができる。なお、通常の場合、周波数制限部２６にはカットオフ周波数可変のバンドパスフィルタを用いることができる。

参照位置制御部２１は、ユーザが指定した参照位置の範囲を受け付ける。比較部２２は、周波数制限部２６により周波数が限定された入力信号の上記指定された参照位置の範囲に、ピッチ検出結果１５に基づいた所定の時間幅の参照区間を設定する。そして、入力信号における参照区間とサイズが等しく位置が異なる複数の比較区間の各々について、参照区間に対する類似度を算出してそれを比較結果１２として出力する。比較結果１２は、類似度が高い（＝似ている）区間がわかるような情報を含む。

次に、図１０及び図１１を参照して、白色雑音の処理方法について説明する。図１０において、（ａ）は入力音声１０を、（ｂ）は周波数制限部２６により周波数が限定された信号を示す。ともに横軸は時間、縦軸は信号レベルである。ここで入力音声１０に対し参照区間７１を設定することを考える。参照区間７１は雑音低減処理対象区間であり、対応する周波数制限後の信号に対する区間を７１’とする。参照区間はユーザの指示により設定される。（処理に時間はかかるが、音声全体とすることも可能である。）ユーザの指示により参照位置制御部２１が指し示す範囲に順次参照区間を設定すればよい。ここで、後述するように参照区間の時間幅は、ピッチ検出結果に基づいて、ピッチよりも長くなるように設定される。この参照区間を、後述するようにピッチ長だけずらしながら、指定範囲を覆うように参照区間を順次設定する。

次に入力音声１０に対し比較区間７２を設定する。比較区間７２は参照区間７１と似たブロックを選択できると都合がよい。前述したように、音声信号は局所的にみると繰り返し性が高いので近傍の時間区間を探索することは好都合となる。対応する周波数制限後の信号に対する区間を７２’とする。前述したように本実施形態においては類似度の計算を周波数制限後の信号に対して行う。参照区間７１’と比較区間７２’の類似度を以下の式で計算する。

数５において、iは区間内に設けられた時間方向のローカル座標である。Nは時間方向の区間長であり、データ単位の大きさを示すものであるが、対応する時間長さは前述したようにピッチ検出結果１５（基準ピッチ）より長い時間幅となるようにする。X’_Rは周波数制限後の参照区間の信号を、X’_Cは周波数制限後の比較区間の信号をそれぞれ示している。||は絶対値を計算する演算子である。数５は比較区間７２’内の信号に対して、参照区間７１’と対応する信号との差を積算していることになる。すなわち比較区間７２’と参照区間７１’が完全に同一のものであれば数５はゼロとなり、類似度が下がるに従って大きな値をとる。つまり数５は参照区間７１’と比較区間７２’の類似度を算出している。本実施形態では比較部２２によって数５の演算を行い、類似度が高いものからあらかじめ定められた数または類似度が一定の範囲にある比較区間を選択する。（置換信号生成部で用いる比較区間は１つである必要はなく、前述したように中心極限定理に従ったノイズ処理なので、類似度が高いものが得られるのであれば、多いほうが望ましい。）
図１０（ｃ）は、置換信号生成部２３のフィルタ処理を説明する図である。本実施形態においては、類似度の算出は周波数制限後の信号において行ったが、置換信号の算出はもとの入力音声１０を用いる。図１０（ｃ）において、７１は入力音声１０の参照区間を示す。７２，７３，７４は入力音声１０の比較区間を示す。１３は置換信号生成部２３で得られる置換信号を示す。図１０（ｃ）においては、比較区間が模式的に３つ示されているが、複数であることを示しているものであり、類似度が高いものが得られるのであれば、多い方が望ましい。参照区間７１に対して類似するとして選択された比較区間７２、７３，７４を適当な重みを付けて加算する。これを式で示すと以下のようになる。

S_Oは置換信号を、S_Rは参照区間の信号を、S_Ckは比較区間の信号を示す。なお、比較区間の数は多いほうがよいと説明したが、数5では所定数Pである。i,Nに関しては数５と同じである。また、kは選ばれた比較区間の番号に対応しており、1〜Pの整数値をとる。S_C1は１番目の比較区間、S_CPはP番目の比較区間という意味である。w_kはフィルタの重みである。後述するように、より類似度が高いものに重みを付けて加重平均とする等のために用いる。

図１０（ｂ）及び数６によれば、出力される置換信号１３(S_O)は参照区間７１(S_R)と選択された比較区間７２(S_C1)，７３(S_C2)，７４(S_CP)の重み付け平均になっている。比較区間７２(S_C1)，７３(S_C2)，７４(S_CP)には類似度の高い順に大きな重みw_kを適用することで、適当なフィルタを実現することが可能となる。このフィルタ処理（重み付け平均をとることは一種のフィルタリングとみなせる。）によって参照区間７１(S_R)と比較区間７２(S_C1)、７３(S_C2)、７４(S_CP)、とのばらつき（このばらつきはノイズに由来している）が抑制される。（確率的に発生したノイズなので中心限定定理により抑制される。）以上の動作をユーザの指示により設定される範囲に順次参照区間をずらしながら行うことで、本実施形態では周波数領域変換部を用いることなく出力信号を得る。

図１１は、参照区間７１の適切な時間幅の設定について説明する図である。図１１において、T_Oは基準ピッチを示す。まず、図１１（ａ）、（ｂ）を用いて、参照区間の時間幅t_nが基準ピッチT_Oより長い適切な場合を説明する。図１１（ａ）のように、参照区間７１’（１）が設定された場合、比較区間を参照区間から基準ピッチT_Oの整数倍だけずれた時点の近傍ΔT_Oから探してくると効率がよい。これは、時間T_Oだけずれた時点に、ノイズが取り除かれる基準ピッチの同位相信号が存在することが明らかなためである。このようなずらし量で、前述したように比較結果１２を得て、置換信号１３（１）を算出する。

次に、参照区間７１’（１）をずらして新たな参照区間７１’（２）を設定し、同様に置換信号１３（２）を導くことを考える。ここで、参照区間７１のずらし量Δt_Rは、参照区間の時間幅tnを超えない範囲において、基準ピッチT_Oの整数倍のうち最も長い量に設定すると効率がよい。このように設定することで、得られる置換信号１３は、互いに時間的重なりを持ち、なお且つその時間的重なりが最も短くなる。よって、これらの信号から欠落のない出力音声１４を合成することができ、その際の無駄な時間重なりを避けることができる。また、参照区間内の基礎周波数信号の位相が揃うため、得られる置換信号１３も位相が揃った状態で得ることができる。よって、図１１（ｂ）に示すように、複数の置換信号１３（１）、１３（２）間の位置合わせ処理が容易となる。

一方、参照区間の時間幅tnが周期T_Oより短い不適切な場合を、図１１（ｃ）、（ｄ）を用いて説明する。参照区間に対する比較区間を探す場所が、前述と同様に基準ピッチT_Oの整数倍離れた時点の近傍ΔT_Oであることに変わりはない。前述と同様の手順で参照区間７１’（１）に対応した、置換信号１３（１）を得る。

次に参照区間７１’（１）をずらし、新たな参照区間７１’（２）を設定する。その際、時間幅tnが基準ピッチT_Oより長い場合と異なり、得られる置換信号１３が時間的重なりを持つためには、ずらし量ΔT_Rを基準ピッチT_Oより短く設定する必要がある。その結果、それぞれの参照区間７１内の基準ピッチ信号の位相はばらばらになる。よって、図１１（ｄ）に示すように、複数の置換信号１３（１）、１３（２）間の位置合わせ処理が困難となる。

以上によれば、少ないメモリ消費で高品位な雑音低減処理が実現される。

次に、図１２を用いて、短時間雑音を処理する方法を説明する。図１２は図１１と対応する図である。図１２（ａ）において、入力音声１０に対して参照区間７１を設定する。ユーザの指示により、短時間雑音が発生した時間が参照区間として選択されたとする。短時間雑音を処理する場合は前述の指示範囲を包含するような大きさに参照区間７１を設定する。可能であれば、参照区間７１は短時間雑音が発生した期間がその端にならないように設定するとよい。さらには、前後に基準ピッチを数ピッチ含むことが望ましい。これは予測に基づく短時間雑音発生時間の信号の置き換えにおいて、雑音の前後の双方の音声信号を参照することができるためである。（前後または後方のみからの予測に比べて信頼性を高め、出力信号の品位を向上させることができる。）前後に基準ピッチを数ピッチ含むように設定するために、短時間雑音が発生する時間を特定する必要がある。適当な方法で短時間雑音を検出してもよい。撮像装置１の発する駆動音の場合には、撮像装置が短時間雑音の発生時間情報を音声情報に付与し、その情報をもとにしてもよい。また、入力音声１０の参照区間７１に対応するように周波数制限後の信号に対しても区間７１’を設定する。

次に入力音声１０に対して比較区間７２を設定する。比較区間は白色雑音の場合と同様に設定すればよい。さらに望ましくは、短時間雑音の発生が無い箇所に設定すればよい。また、参照区間と同様に対応する周波数制限後の信号における区間を７２’と設定する。

そして、周波数制限後の信号における参照区間７１’と比較区間７２’の類似度を以下の式で計算する。

数５との違いは短時間雑音が発生した時間６０を類似度の計算に含めない点である。前述したようにＮは短時間雑音を含み、前後に基準ピッチ数ピッチ分の時間幅を持つため、その前後の波形は短時間雑音の影響を受けておらず高品位な音声信号が得られている。

図１２（ｃ）において、７１は入力音声１０における参照区間を示す。７２，７３，７４は周波数制限後の信号における区間と対応する比較区間を示す。白色雑音の場合と同様、類似度の算出は周波数制限後の信号において行うが、置換信号１３はもとの入力信号を用いて行われる。図１２（ｃ）においては比較区間が模式的に３つ示されているが、複数であることを示している。参照区間７１に対して類似するとして選択された比較区間７２、７３、７４を適当な重みを付けて加算する。これを式で示すと以下のようになる。

S_Oは置換信号を、S_Rは参照区間の信号を、S_Ckは比較区間の信号を示す。数８は数６と類似しているが、参照区間の信号S_Rを含まない点で異なっている。すなわち参照区間４１の信号を含めないようにすることで、短時間雑音の影響がない信号を得ることができる。

図１２（ａ）及び数８によれば、出力される置換信号１３(S_O)は選択された比較区間７２(S_C1)、７３(S_C2)、７４(S_CP)の重み付け平均になっている。比較区間７２(S_C1)、７３(S_C2)、７４(S_CP)には類似度の高い順に大きな重みw_kを適用することで、適当なフィルタを実現することが可能となる。このフィルタ処理によって、比較区間内に存在する参照区間とは異なる信号成分が抑制される。その結果図１２（ｃ）に示すように、短時間雑音の信号を完全に破棄して、類似する参照区間から推定された適当な信号１３を得ることができる。

上述の処理を指示された範囲に参照区間を設定しながら繰り返すことで、ノイズの低減された出力音声１４を得る。

本実施形態によれば、処理を時間領域で行うため、実施形態２のように階調性を利用することはできない。しかし、音声の基準ピッチに対象を絞り局所的な繰り返し性の良さを利用することで、比較区間（時間方向の長さ）のデータのみメモリ上に展開して処理すればよい。したがって、少ないメモリ消費で高品位な雑音低減処理が可能となる。

＜実施形態４＞
上述の実施形態においては、情報処理装置２が本発明に係る音声処理装置として機能するものとして説明した。しかし、本発明は撮像装置１単体で実現することも可能である。そこで本実施形態では、本発明に係る音声処理装置の構成を含んだ撮像装置１の例を、図１３を参照して説明する。図１３において、（ａ）は撮像装置１の外観斜視図、（ｂ）は中央断面図、（ｃ）は電気的構成を示すブロック図である。

撮像装置１（カメラ）は、撮影レンズ１０２と測距部１１５を用いて、焦点検出を行うとともに、不図示の露出検出部を用いて適当な露光状態となる露光条件を決定する。レンズ駆動部１１３は、撮影光学系１０３の一部を駆動させて像を撮像素子１０６近傍に結像させるとともに適正露光を得るために絞りを動作させる。カメラシステム制御部１０５は、ユーザによる操作を操作検出部１１０に含まれるレリーズ釦の操作と同期させて撮像素子１０６から被写体の情報を得て、メモリ１０８へ記録を行う。いわゆる動画撮影については、同じくユーザによる操作を操作検出部１１０で検知して画像と同期して音声信号を集音装置１２０から取得して動画ファイルを生成する。

撮像装置１は、撮像系、画像処理系、音声処理系、記録再生系、制御系を有する。撮像系は、撮影光学系１０３、撮像素子１０６を含み、画像処理系は、画像処理部１０７を含む。音声処理系は、マイクロホン等の集音装置１２０、音声処理部１３０を含む。記録再生系は、メモリ１０８、表示部１０９を含み、制御系は、カメラシステム制御部１０５、操作検出部１１０、及びレンズシステム制御部１１２、レンズ駆動部１１３を含む。レンズ駆動部１１３は、焦点レンズ、ブレ補正レンズ、絞りなどを駆動することができる。

撮像系は、物体からの光を、撮影光学系１０３を介して撮像素子１０６の撮像面に結像する光学処理系である。エイミングなどの撮影予備動作中は、クイックリターンミラー機構１１４に設けられたミラーを介して、測距部１１５にも光束の一部が導かれる。また、制御系によって適切に撮影光学系が調整されることで、適切な光量の物体光を撮像素子１０６に露光するとともに、撮像素子１０６近傍で被写体像が結像する。画像処理部１０７は、内部にＡ／Ｄ変換器、ホワイトバランス回路、ガンマ補正回路、補間演算回路等を有しており、記録用の画像を生成することができる。画層処理部１０７はまた、予め定められた方法を用いて画像、動画のデータ圧縮を行う。音声処理部１３０は、入力された音声のデータ圧縮を行う他、本発明に係る音声処理を実行する。もっとも、音声処理部１３０を別途設けるのではなく、カメラシステム制御部１０５が本発明に係る音声処理を実行する構成としてもよい。メモリ１０８は、画像処理部１０７、音声処理部１３０からのデータを記憶する。

カメラシステム制御部１０５は、撮像の際のタイミング信号などを生成して出力する。外部操作に応動して撮像系、画像処理系、音声処理系、記録再生系をそれぞれ制御する。例えば、不図示のシャッターレリーズ釦の押下を操作検出部１１０が検出して、撮像素子１０６の駆動、画像処理部１０７の動作、メモリ１０８へのアクセスなどを制御する。さらに表示部１０９の各セグメントの状態を制御する。

制御系の光学系の調整動作について説明する。カメラシステム制御部１０５には画像処理部１０７及び測距部１１５が接続されており、撮像素子１０６及び測距部１１５からの信号を元に適切な焦点位置、絞り位置を求める。カメラシステム制御部１０５は、電気接点１１１を介してレンズシステム制御部１１２に指令を出し、レンズシステム制御部１１２はレンズ駆動部１１３を適切に制御する。さらにレンズシステム制御部１１２には不図示の手ぶれ検出センサが接続されており、手ぶれ補正を行うモードにおいては、手ぶれ検出センサの信号を基にレンズ駆動部１１３を介してブレ補正レンズを適切に制御する。

本実施形態においては、上述の実施形態で説明した音声処理装置の機能が、音声処理部１３０によって実現される。以下、ユーザの操作によって動画撮影を行う場合を考える。前述のように適当に撮影光学系１０３を調整して撮像素子１０６に結像するようにして動画撮影を開始する。動画撮影においては撮像素子１０６の信号を適当なフレームレートで読み出すとともに予め定められたサンプリング周波数で集音装置１２０から音声信号を取得する。例えば画像は２４フレーム／秒で読み出し、音声は４８０００Ｈｚでサンプリングする。連続して得られた画像及び音声を適当な符号化方式によって圧縮することでいわゆる動画ファイルを生成する。

ここで、動画撮影中に撮影状態が大きく変化した場合を考える。例えば明るさやピント状態が大きく変化することに対応し、ユーザが撮影中に屋内と屋外を移動したり被写体がピント方向に移動した場合などが該当する。このような場合は、適当な明るさやピント状態での撮影ができなくなるので、撮像装置１はレンズシステム制御部１１２に指示を出して、レンズ駆動部１１３により適当な結像、露光状態が維持されるように動作する。例えば明るくなった場合には絞りを絞り込み、ピントが外れた場合にピントを合わせる動作に対応する。レンズ駆動部１１３が動画撮影中に動作するとレンズ駆動音が発生しうる。レンズ駆動音は空気及び撮像装置１の筺体を伝播し、集音装置１２０で収音した音声信号に雑音として混入する。この雑音を上述の実施形態で説明した手法で除去する。例えば絞りを駆動すると一般的には短時間雑音が発生する。一方で動画に適したようなフォーカス駆動はゆっくりと（長い時間）小さい音であるが雑音が発生する。これは有色であるが、実施形態１の白色雑音と同様にして処理を行うことができる。

音声処理部１３０は、レンズ駆動部１１３が動作した時間を雑音が発生した時間として認識して、実施形態１で説明した参照領域を設定する。実施形態１においては雑音を処理すべき区間（参照領域を設定する区間）はユーザの指示に従い設定された。しかし本実施形態では、不要雑音の発生時間が分かっているので、音声処理部１３０が自動的に設定することができる。

一般に、撮像装置１のような機器においてはメモリ資源に限りがあり、比較領域を一度にバッファできる量が制約される場合もある。しかし本発明では、上述したように、音声の短時間での繰り返し性の良さや調波性を利用して抽出する比較領域の数を削減できるため、このように使用できるメモリ容量が制約された機器にも有利である。

＜実施形態５＞
実施形態５では、上述の実施形態４における音声処理部１３０の変形例を示す。本実施形態において、撮像装置の構成については実施形態４に係る図１３を援用する。実施形態４で説明したように、撮像装置１においては、動画撮影中にレンズ駆動部１１３が動作するとレンズ駆動音が発生し、これが空気及び撮像装置１の筺体を伝播し、集音装置１２０で収音した音声信号に雑音として混入する。以下では、レンズ駆動音を「レンズ駆動雑音」という。

本実施形態において、音声処理部１３０は、主被写体音が適正な音圧レベルで記録されるように、被写体音に応じてオートゲインコントロール（ＡＧＣ）を行う。カメラシステム制御部１０５は、画像処理部１０７及び音声処理部１３０でそれぞれ符号化された画像データ及び音声データから動画ファイルを生成する。この動画ファイルには、カメラシステム制御部１０５が発した駆動命令に基づくレンズ駆動部１１３の駆動タイミングとＡＧＣの設定値が動画ファイルに同期して記録される。なお、レンズ駆動部１１３が駆動するタイミングにおいてＡＧＣの値は直前の被写体音に合わせた設定値のまま固定される。

図１４は、本実施形態における音声処理部１３０の機能ブロック図である。図１（ｂ）と同じブロックには同じ参照番号を付している。参照位置制御部２１は、レンズ駆動雑音が発生した時間、つまりカメラシステム制御部１０５からレンズ駆動命令が発せられレンズ駆動部１１３を駆動させた時間の範囲を、雑音処理する範囲（すなわち参照領域）として設定する。音圧検出部３３は、周波数／時間領域信号１１における音声信号の音圧を検出し、レンズ駆動雑音の音圧と本来録音をしたい被写体音との音圧差を検出する。例えば、レンズ駆動雑音を予め記憶しておき、被写体音に合わせて調整されるＡＧＣの値をみることで、被写体音とレンズ駆動雑音の音圧差を検出することができる。比較位置制御部３４は、音圧検出部３３での検出結果に応じて比較領域を切り出す位置を制御する。比較位置制御部３４の詳細な動作については後述する。

音声信号置換部３７は、参照領域の音声信号を置換信号１３で置換し、置換後周波数/時間領域信号１２５を生成する。周波数時間逆変換部３８は、置換後周波数/時間領域信号１２５に対し周波数領域変換部２０の逆変換を施すことで、時間領域信号である出力音声１４を生成する。

次に、図１５を参照して、周波数領域変換部２０の動作について説明する。図１５において、（ａ）はレンズ駆動雑音が存在しない時の音声信号を、（ｂ）は（ａ）の信号に対してレンズ駆動雑音が一部に重畳した場合の音声信号を示す。（ｃ）は、（ａ）及び（ｂ）をフレームごとに周波数領域変換するときのフレーム長及びフレームのオーバラップを模式的に示す。（ｄ）は、（ａ）の信号の１フレーム区間で周波数領域変換した結果を、（ｅ）は、（ｂ）の信号の同フレーム区間で周波数領域変換した結果を示す。

図１５の（ａ）及び（ｂ）において、横軸は時間、縦軸は信号レベルであり、集音装置１２０で得られた信号そのものを示している。（ａ）及び（ｂ）の信号は全体で0.3s程度の時間の信号を示している。すなわちこれらの信号は動画ファイルから得られた音声信号のごく一部を拡大した図である。（ａ）を見ると分かるように、音声信号は局所的に観察すると、非常に繰り返し性が高いことが分かる。一方で、時間的な変動が大きくかつスパース（信号が存在する区間が非常に限定されている）な性質を持っている。本発明の着眼点の一つは、音声の持つ短時間での繰り返し性にある。

上述したように、周波数領域変換部２０は、時間領域信号である入力音声１０をフレームごとに周波数領域信号に変換して周波数／時間領域信号１１を取得する。この処理の一つの方法は、短時間ＦＦＴを施すことである。必要に応じてＦＦＴ処理の前に、窓関数を掛けてもよい。図１５（ｃ）は、図２（ｃ）と同様に、ＦＦＴにおけるフレーム間のオーバラップを表している。

図１５において、（ｄ）及び（ｅ）はそれぞれ、（ｃ）の４０で示した区間で（ａ）及び（ｂ）の音声信号を周波数変換して得た結果を示している。周波数領域変換部２０は（ｃ）に示すように時間方向にずらして処理を行う。（ｄ）及び（ｅ）はこの特定の時間の信号のみに着目して図示したものである。（ｄ）及び（ｅ）は周波数領域変換後の複素数をいわゆるボード線図の状態で図示してあり、上段は位相、下段はゲインである。また横軸は共通して周波数である。（ｄ）はレンズ駆動雑音がない状態での（ｃ）の区間４０における音声信号を示しているので、ゲインに着目すると主被写体音の特徴が明瞭に得られておりピーク４１、４２、４３が観察される。一方、（ｅ）はレンズ駆動雑音が混入しているフレーム４０における音声信号を示している。ここで、ゲインに注目すると主被写体音のピーク４１、４２、４３は観察されるが、その他の位置にレンズ駆動雑音の影響が表れている。例えば、ピーク４１付近の範囲４５では、その帯域内で一様な雑音が混入し、ピーク以外のすそ野の部分が盛り上がっている。範囲４６では、ピーク４３以外にもレンズ駆動雑音における他のピークが表れている。これは、レンズ駆動雑音に特徴的な周波数成分が含まれていることを示している。一般に、白色雑音とは、全周波数帯域においてランダムな位相でほぼ一様なゲインで有するものをいうが、ここでは、注目する帯域において一様なゲインのランダムな位相の雑音を白色雑音と呼ぶ。

図１５において、（ｂ）に示すようなレンズ駆動雑音の混入では、（ｅ）の範囲４５付近の帯域である主被写体音のピーク４１，４２が大きく変化することはない。また、主被写体音の成分が優勢なピーク４１，４２では位相も大きく異なる値はとらない。

位相やゲインのばらつきの状態について、図１６を用いて説明する。図１６（ａ）は、図３、図６と同様に、周波数／時間領域信号１１を模式的に示したものである。図１６（ａ）では位相を省略してゲインのみ図示している。また、図を分かりやすくするためにピークのみ示した。すなわち図１６（ａ）の線４１、４２、４３は図１５（ｄ）及び（ｅ）のピーク４１、４２、４３と対応している。図１６（ｂ）は、ある時間、周波数に着目したときの周波数／時間領域信号のデータである複素数をガウス平面に表示したものである。すなわち横軸は複素数の実数部を、縦軸は複素数の虚数部をそれぞれ示している。

図１６（ａ）において、区間４０は、図１５（ｃ）の区間４０と対応しており、一度のＦＦＴで得られるデータの範囲を示す枠を示す。５１、６１は参照領域の例を、５２、６２は比較領域の例を示す。周波数／時間領域信号５１ａ，５１ｂ、６１ａ、６１ｂは参照領域内の着目する信号を示す。周波数／時間領域信号５２ａ、５２ｂ、６２ａ、６２ｂはそれぞれ、比較領域内の周波数／時間領域信号５１ａ、５１ｂ、６１ａ、６１ｂに対応する信号である。図１６（ｂ）において、７０ａ，７０ｂはレンズ駆動雑音を含む雑音範囲を示す円を、７１は仮想的に描いた平均的な主被写体信号を、７２は主被写体音の平均的な信号が存在する範囲を示す円をそれぞれ示している。また、図１６（ｃ）は、図１６（ａ）の周波数／時間領域信号６１ａ、６１ｂ、６２ａ、６２ｂのデータをガウス平面上に図示したものである。

図１６（ａ）において、範囲４６はレンズ駆動雑音の特徴的な周波数を含む帯域であり、ピーク４３が埋もれている。一方、フレーム４０の時間における範囲４６以外の範囲は、白色雑音でありピーク４１，４２が確認できる。

ここで、参照領域５１を設定することを考える。参照領域５１は雑音処理がなされる領域である。レンズ駆動部１１３の駆動中のフレームを含む領域が参照領域に設定される。レンズ駆動部１１３の駆動タイミングが検出されると、参照位置制御部２１は、順次、参照領域を設定する。図１６（ａ）の例では参照領域は５×５マスの大きさを持っているが、これに限定されない。参照位置制御部２１は、これを縦横方向に１マスずつずらしながら（周波数／時間をずらしながら）所定範囲を覆うように参照領域を順次設定することができる。

比較領域５２については、実施形態１と同様に設定する。参照領域５１と比較領域５２の類似度も、実施形態１と同様、次式により計算する。

類似度の計算の概念を図示したものが、図１６（ｂ）である。数９の計算のうち特定のもののみ示している。図１６（ａ）から分かるように周波数／時間領域信号５１ａ，５２ａはそれぞれX_R(3,3)、X_C(3,3)に対応する。周波数／時間領域信号５１ｂ，５２ｂはX_R(5,1)、X_C(5,1)に対応する。この２組の信号のみを図１６（ｂ）に図示した。（数９に示すように演算はその他の組み合わせでも行われる。）ここで、ピーク４１が存在するので、周波数／時間領域信号５１ａ，５２ａは強い主被写体音と白色雑音の合成信号となっており、５１ａの白色雑音にはレンズ駆動雑音の低周波帯域における音圧レベルの低い雑音も含まれている。一方、周波数／時間領域信号５１ｂ，５２ｂは弱い主被写体音とマイクの感度性能から発生する白色雑音との合成信号となっている。図１６（ｂ）では分かりやすくするために、周波数／時間領域信号５１ｂ，５２ｂ領域に存在する弱い主被写体音を０として図示した。（このようにしても本発明の要旨に変化はない。）
図１６（ｂ）において、数９の演算は２つのベクトルの差のノルムを積算していることになる。すなわち、ベクトル５１ａとベクトル５２ａの差のベクトルの長さ及び、ベクトル５１ｂとベクトル５２ｂの差のベクトルの長さが評価値になる。例えば、主被写体音が存在しないように参照領域５２を設定すると、５１ａと５２ｂを比較するような状態になり、そのノルムは大きくなり数９の値が大きくなる。

前述したように、ピッチ検出を用いることで、主被写体音の周波数／時間変換後の位相は揃った状態にある。そのため図１６（ｂ）に示す平面において、主被写体音は、ノイズが無いとした場合のベクトル（図１６（ｂ）では７１として図示している。）を中心とした円７０ａの内部に存在することになる。円のいずれの場所にあるかは確率的に決定され（これが白色雑音の特徴である。）ガウス分布的に分布している。中心極限定理によると、標本平均は標本のサイズが大きくなると元の母集団の平均に近づくので、多くの類似ブロックの信号を加算すると結果的にノイズの無いベクトル７１に近づいていく。これが類似ブロックを集めて平均化することで白色雑音が低減できる理由である。ここでは、レンズ駆動雑音が発生したフレーム４０を含む領域５１ａについて述べた。しかし、ピーク４１を含むその他の領域X_R(1,3)〜X_R(5,3)においてもマイクの感度性能における白色雑音は混入しているので、同様に雑音を低減して被写体音のピーク４１を強調することができる。

同様に、主被写体音が存在しない領域５１ｂ，５２ｂでも原点を中心とした（＝これが主被写体音が存在しないことと同義）円７０ｂ内に、ベクトル５１ｂ，５２ｂは確率的に分布した状態にある。こちらも同様に多くの類似ブロックの信号を加算すると結果的にノイズの無い状態（＝ゼロベクトル）に近づいていく。

図１７は、置換信号生成部２３及び音声信号置換部３７の動作を説明する図である。図１７（ａ）において、５１は参照領域を、５２、５３、５４は比較領域を示す。また、５１ｎはピーク４１より音圧レベルの低いレンズ駆動雑音である。５２ｎ，５３ｎ，５４ｎは参照領域とは異なることを模式的に示している。２４ａは置換信号生成部２３で得られる置換信号を示す。図１７（ａ）においては比較領域をが模式的に３つ示されているが、３つに限定されない。比較領域の数は、類似度が高いものが得られるのであれば、多い方が望ましい。参照領域５１に対して類似するとして選択された比較領域５２、５３、５３を適当な重みを付けて加算する。これを式で示すと以下のようになる。

X_Oは置換信号を、X_Rは参照領域の信号を、X_Ckは比較領域の信号をそれぞれ示している。また、ここまでの説明では、比較領域の数は多い方がよいとしていたが、数９では所定数Pとしている。i,j,N,Mに関しては数１と同じである。また、kは選ばれた比較領域の番号に対応しており、1〜Pの整数値をとる。X_C1は１番目の比較領域、X_CPはP番目の比較領域という意味である。w_kはフィルタの重みである。これは、後述するように、類似度が高い順に選択される少なくとも１つの比較領域の信号に重みを付けて加重平均とする等のために用いる。

図１７（ａ）及び数１０によれば、出力される置換信号１３(X_O)は、参照領域５１(X_R)と、選択された比較領域５２(X_C1)、５３(X_C2)、５４(X_CP)の重み付け平均になっている。図１６（ｂ）との対応を考えると、ノイズの無い場合のベクトル７１に近いベクトルを推定している。比較領域５２(X_C1)、５３(X_C2)、５４(X_CP)には類似の高い順に大きな重みw_kを適用することで、適当なフィルタを実現することが可能となる。このフィルタ処理（重み付け平均をとることは一種のフィルタリングとみなせる。）によって比較領域５２(X_C1)、５３(X_C2)、５４(X_CP)に存在する参照領域５１(X_R)とは異なる信号成分５２ｎ，５３ｎ，５４ｎ（この信号はノイズに由来している。）は抑制される。（確率的に発生したノイズなので中心極限定理により図１６で説明したように抑制される。）
その結果、図１７（ｃ）に示すように、雑音レベルの下がった信号を得ることができる。図１５（ｅ）との比較において、図１７（ｃ）の範囲４７では、レンズ駆動雑音の低周波帯域の白色雑音のレベルが抑圧されていることがわかる。

次に、図１６（ｃ）を参照して、レンズ駆動雑音の特徴的な周波数を含む図１５（ｅ）の範囲４６の周波数帯域における類似度の計算について説明する。図１６（ａ）から分かるように、周波数／時間領域信号６１ａ、６２ａはそれぞれX_R(1,4)、X_C(1,4)に対応する。また、周波数／時間領域信号６１ｂ，６２ｂはそれぞれ、X_R(3,4)、X_C(3,4)に対応している。この２組の信号のみを図１６（ｃ）に図示した。周波数／時間領域信号６１ａ、６２ａ及び６２ｂは、被写体音のピーク４３が存在するので、図１６（ｂ）の周波数／時間領域信号５１ａ、５２ａと同様に、強い主被写体音とマイクの感度性能による白色雑音になっている。一方、周波数／時間領域信号６１ｂは、レンズ駆動雑音の特徴的な周波数の影響を受けているために、図１６（ａ）に示すようにピーク４３がノイズに埋もれて観察されず、ゲインは大きいまま位相は任意の方向にある。この結果、図１６（ｃ）に示すように円７５ａから外れたベクトルとなっている。つまり|X_C(3,4)-X_R(3,4)|は|X_C(1,4)-X_R(1,4)|より大きな値を持つであろう。ここで、参照領域６１の大きさ（ブロック数）がレンズ駆動雑音混入の範囲４６に対して十分大きければ、参照領域６１と比較領域６２との類似度の評価値は周波数／時間領域信号６１ｂの影響をほとんど受けない。よって、上述したように参照領域５１と同様に類似度を算出し、類似度の高い比較領域の信号を用いて置換信号生成部２３により置換信号を生成すればよい。一方、参照領域６１の大きさ（ブロック数）に対して、レンズ駆動雑音の範囲４６が比較的大きい場合は、次のように類似度の評価値を求める際に、範囲４６を計算から省いてもよい。参照領域６１と比較領域６２の類似度を次式により計算する。

数９との違いは、レンズ駆動雑音の特徴的な周波数が存在する範囲４６を類似度の評価に含めない点である。

次に、図１７（ｂ）を参照して、置換信号生成部２３の動作について説明する。図１７（ｂ）において、６１は参照領域を、６２、６３、６４は比較結果１２で得られた比較領域を示す。６１ｎは、参照領域６１におけるレンズ駆動雑音を模式的に示す。２４ｂは、置換信号生成部２３で得られる置換信号を示す。参照領域６１にはレンズ駆動雑音が範囲４６に含まれるので、数１０の重み付け平均をとる際に参照領域６１ａに掛ける重みw₀を0とする。これにより、図１７（ｃ）の範囲４８に示すように、レンズ駆動雑音の特徴的な周波数の帯域においても、ノイズを低減することができる。

上述の処理を、所定範囲に参照領域を設定しながら繰り返すことで、ノイズの低減された置換後周波数／時間領域信号を得ることができる。最後に、周波数時間逆変換部３８が置換後周波数／時間領域信号１２５に対して、周波数領域変換部２０の逆変換を施すことで出力音声１４を得る。

次に、本本実施形態における比較領域の制御方法について図１５及び図１８を参照して説明する。図１８において、（ａ）はレンズ駆動雑音が複数回発生した時の音声信号を示す。（ｂ）は（ａ）を周波数領域変換を行うときのフレームの重なりの例を示す。（ｃ）は（ａ）の音声信号に対する周波数／時間領域信号を示す。なお、（ａ）において、横軸は時間、縦軸は信号レベルを表す。また、（ｃ）は位相を省略してゲインのみ図示した。

図１８（ａ）の音声信号は図１５（ａ）で示した主被写体音声と似た音声信号の範囲７３、７４，７５を抽出したものであり、それぞれの範囲内でレンズ駆動雑音７６、７７、７８が発生している。レンズ駆動雑音７６、７７、７８は、同じレンズ駆動部を駆動させた時に発生したものであり、絞り駆動部を駆動させた時の雑音を例とする。上述したように、音声信号と共にレンズ駆動雑音７６、７７、７８が発生した駆動タイミングが音声信号と同期して記録されている。範囲７３、７４、７５において、主被写体音声は同じ音圧レベルとなっているが、上述したＡＧＣの設定値によって各範囲で異なる値の増幅が行われている。つまり、レンズ駆動雑音はそれぞれ異なる音圧レベルとなっている。例えば、範囲７４では、主被写体音が小さかったためＡＧＣの設定値（ゲイン値）が大きくなり、その結果、レンズ駆動雑音７７も増幅されて７６よりも大きな音圧レベルの雑音として記録されている。一方、範囲７５では主被写体音が大きかったため、ＡＧＣのゲイン値は小さくなりレンズ駆動雑音７８は７６よりも小さな音圧レベルで記録されている。メモリ１０８には、上述したように音声信号と同期してＡＧＣの設定値の変化とレンズ駆動部１１３の駆動タイミングが記録されている。このＡＧＣの設定値より、録音を目的とする主被写体音とレンズ駆動雑音の音圧レベルの差を比較することができる。図１８（ｂ）のフレーム８１、８２、８３は、それぞれレンズ駆動雑音７６、７７、７８が混入している周波数時間変換する時のフレームである。図１８（ｃ）において、８１、８２、８３は、図１８（ｂ）の８１、８２、８３と対応しており、１フレームのＦＦＴで得られるデータの範囲を示す枠を示す。９１は参照領域の例を、９２、９３は比較領域の候補例を示している。各レンズ駆動雑音が混入したフレーム８１，８２，８３において、レンズ駆動雑音の音圧レベルを斜線の幅で表現している。斜線の幅が狭いほど雑音の音圧レベルが高いものとする。また、参照領域９１及び比較領域９２、９３を含む周波数帯域８５は、図１５（ｅ）で示したように、レンズ駆動雑音の特徴的な周波数の帯域を示している。

参照領域９１を設定して、比較領域を設定する処理を述べる。レンズ駆動雑音を低減したい参照領域９１に対して、９２を比較領域として設定した場合、比較領域９２では前述したようにレンズ駆動雑音の音圧レベルが大きい。このような比較領域９２との類似度を算出すると、被写体音ではなくレンズ駆動雑音に類似度が大きく影響を受け、類似性が高いと判断され選択されることが考えられる。しかし、比較領域９２に重みが大きく付けられ置換信号が生成されると、レンズ駆動雑音の低減効果が下がるか、場合によってはレンズ駆動雑音が増幅されてしまう。一方、９３が比較領域として設定された場合、比較領域９３にはレンズ駆動雑音が混入しているが、上述したようにレンズ駆動雑音の音圧レベルは小さい。そして、比較領域９３の被写体音が参照領域９１に対して類似しているので、類似度が高いとして選択される。置換信号生成時に比較領域９３が類似度が高いと判断され選択されても、混入しているレンズ駆動雑音の音圧レベルが小さいので、置換信号はレンズ駆動雑音が低減されたものとなる。

そこで、音圧検出部３３、比較位置制御部３４は、以下のような処理を行う。周波数領域変換部２０で周波数／時間変換されたフレームにはフレーム間でのＡＧＣ情報とレンズの駆動タイミング情報が付与されている。音圧検出部３３は、音圧レベルに関連する値であるフレーム内のＡＧＣの設定値に基づきレンズ駆動雑音が混入しているフレームのレンズ駆動雑音の音圧レベルを検出する。比較位置制御部３４は、各フレームに対してレンズ駆動のタイミング情報に基づきレンズ駆動雑音が混入しているか、及びレンズ駆動雑音の音圧レベルが閾値を超えているかを判断する。そして、比較位置制御部３４は、判断されたフレームを含む周波数／時間領域を比較領域として設定するか否かの判定を行う。例えば、フレーム８２について、ＡＧＣの設定値が閾値より大きい場合は、比較位置制御部３４は、フレーム８２を含む周波数時間領域を比較領域として設定しない。一方、フレーム８３について、ＡＧＣの設定が閾値より大きくない場合は、比較位置制御部３４は、フレーム８３を含む周波数時間領域も比較領域として設定するように制御される。また、レンズ駆動のタイミング情報よりフレーム内にレンズ駆動雑音が混入していなければ、比較位置制御部３４は、そのフレームを含む周波数時間領域も比較領域として設定する。なお、閾値を０に設定すれば、レンズ駆動雑音が混入しているフレームは全て比較領域に設定されないようになる。

比較部２２は、各比較領域の参照領域に対する類似度を算出しそれを比較結果１２として出力する。そして、置換信号生成部２３は、比較結果１２に基づきレンズ駆動雑音が低減された置換信号１３を生成する。音声信号置換部３７は、その置換信号１３でもって元の音声信号の対応する部分を置換し、これを置換後周波数／時間領域信号１２５として出力する。このときカメラシステム制御部１０５は、レンズ駆動雑音が低減された音声信号については、以後、参照領域として設定されても問題ないので、レンズ駆動のタイミング情報を書き換えてもよい。

このようにして、主被写体音とレンズ駆動雑音との音圧レベル差に応じて比較領域に設定するかを制御することで、音声信号に混入したレンズ駆動雑音を高精度に低減することができる。

以上述べたように、撮像装置による動画撮影及び録音中において、レンズ駆動時に発生するレンズ駆動雑音が録音音声信号に混入した場合でも、高品質に雑音を低減することができる。

本実施形態の雑音低減処理は、自動で、かつ、リアルタイムで実行することも可能である。例えば、動画撮影中に一定時間の音声信号をバッファリングし、レンズ駆動が発生するたびに、バッファ内の音声信号内で比較領域を設定していく。また、動画撮影終了後に、録音された音声信号の全部又は一部を比較領域として設定するようにしてもよい。比較領域を設定できる範囲が広い場合、比較部２２での演算処理負荷が大きくなるが、選択される比較領域の類似度が高まる確率が上がるので、高精度な雑音低減処理を行うことができる。また、ユーザが撮影した動画・音声を視聴して、レンズ駆動雑音の低減したい範囲を参照領域として指定し、雑音低減処理を行ってもよい。また、上述したＡＧＣの設定値についての閾値をユーザが設定できるようにしてもよい。例えば、カメラ２内の表示部１０９に、雑音低減レベルを大、中、小など段階的に選択できるように表示し、選択されたレベルに応じて閾値を設定することが考えられる。

また、上述の例ではレンズ駆動雑音が発生したタイミングのＡＧＣの設定値からレンズ駆動雑音が含まれるフレームを比較領域に設定するかを判断したが、次のようにしてもよい。本実施形態のレンズ駆動雑音は、図１５（ｅ）に示すように、周波数帯域４６付近に特にゲインの高い特徴的な雑音が含まれているが、その他の周波数帯域は比較的白色雑音に近くゲインの低いものである。そこで、予め記憶されたレンズ駆動雑音について周波数帯域ごとに閾値を持ち、レンズ駆動雑音の周波数に応じて比較領域として設定するかを判断してもよい。図１８（ｃ）の９４は、参照領域９１と同時間における低周波帯域の参照領域を示す。また、９５、９６はそれぞれ、領域９２、９３と同時刻における低周波帯域の比較領域の候補を示す。上述したように、参照領域９１が設定されたとき、領域９２はレンズ駆動雑音の特徴的な周波数でゲインも大きいので、比較位置制御部３４において閾値より音圧レベルが大きいと判断され、比較領域として設定されないように制御される。一方、同期した時刻の違う周波数帯域を含む参照領域９４が設定されたときは、レンズ駆動雑音が比較的音圧レベルが低く白色雑音に近いので、先ほどの閾値よりも低い閾値で判断される。その結果、領域９５はレンズ駆動雑音が混入しているが音圧レベルが低いと判断され、比較領域として設定される。以下、同様に比較部２２で類似度の比較が行われ、置換信号生成部２３、音声信号置換部３７、周波数時間逆変換部３８を介してレンズ駆動雑音の低減処理が行われる。

本実施形態では、参照領域に含まれるレンズ駆動雑音と比較領域に設定するかどうかを判定するレンズ駆動雑音を同一の絞り駆動のものとしたが、その他のレンズ駆動部１１３の駆動雑音でも構わない。例えば、レンズ駆動雑音ごとに、比較位置制御部３４の閾値を別々に持つことが考えられる。

＜実施形態６＞
以下の実施形態６は、上記した実施形態５の変形例である。図１９は、本実施形態における音声処理部１３０の機能ブロック図である。図１４と同じブロックには同じ参照番号を付しその説明を省略する。図１４の構成と比較すると、図１９の構成はまず、周波数領域変換部２０を持たない。すなわち、本実施形態は、周波数／時間領域での信号処理ではなく、時間領域での信号処理となる。図１９において、音声信号分割部３９は、入力音声１０から一定時間の音声を切り出し、これを分割音声信号２７として出力する。

図２０において、（ａ）はレンズ駆動雑音が発生した時の音声信号と、そこから切り出された分割音声信号の例を示す。（ｂ）は雑音低減処理が施された後の出力音声１４の例を示す。区間１０１、１０２、１０３は、音声信号分割部３９で分割される音声信号の区間を示している。ここで、区間１０１は参照区間の候補、区間１０２、１０３は比較区間の候補である。また、区間１０１、１０２、１０３を切り出して得た分割音声信号をそれぞれ、１１１、１１２、１１３で示している。また、１０４は参照区間１０１で発生し低減処理が施されるレンズ駆動雑音を示している。１０５は比較区間候補の区間１０３で発生しＡＧＣの設定値が大きいため音圧レベルの大きいレンズ駆動雑音を示している。

音声信号分割部３９は、入力音声１０を、図２０（ａ）の区間１０１で示すように一定時間ごとに分割する。分割される時間の長さは、一般的な人の声の基本周波数の数倍程度とする。音声信号分割部３９は、その後の音声信号についても時間をずらしながら分割を行い分割音声信号２７を生成していく。この時の時間方向のずらし量は、取得した音声信号の基本周波数の整数倍の長さが望ましい。また、分割音声信号２７にはレンズ駆動のタイミング情報及び、ＡＧＣ情報が付与されている。参照位置制御部２１により参照区間１０１が設定された時、レンズ駆動雑音を含まない区間１０２の分割音声信号が比較位置制御部３４で全て比較区間として設定される。一方、レンズ駆動雑音が発生している区間１０３の分割音声信号は音圧検出部３３においてＡＧＣ情報より音圧レベルが検出される。比較位置制御部３４は、検出された音圧レベルが閾値を超えているかを判断し、区間１０３を参照区間に設定するかを判定する。区間１０３ではレンズ駆動雑音の音圧レベルが閾値を超えているため、比較位置制御部３４は、その区間１０３を比較区間に設定しない。比較部２２は、参照区間１０１と設定された各比較区間の類似度を計算する。類似度は次式により計算する。

数１２において、iは参照区間内である分割音声信号の離散時間を示す。S_C(i)は分割音声信号S_Cにおける時間i番目の値である。Mは分割された音声信号の離散時間長であり、分割時間(sec)/サンプリングレートで求められる。S_Rは参照区間の時間領域信号を示す。S_Cは比較区間の時間領域信号を示す。ここでは、参照区間と比較区間の各時間の差を積算しており、参照区間と比較区間の類似度が上がるにつれ小さい値をとり、完全に同一であれば数１２は０になる。各比較区間に対して類似度を求め、類似度が高いものから予め定められた数を選択する。選択された比較結果は置換信号生成部２３において、次式により算出される。

S_Oは置換信号を、S_Rは参照区間の信号を、S_Ckは比較区間の信号をそれぞれ示している。Pは選択された比較区間の数である。i,Mに関しては数１２と同じである。またkは選ばれた比較区間の番号に対応しており、1〜Pの整数値をとる。S_C1は１番目の比較区間、S_CPはP番目の比較区間という意味である。w_kはフィルタの重みであり、類似度が高いものに重みを付けて加重平均とする等のために用いる。数１３は実施形態５の数１０が２次元の信号情報で処理をしているのに対して、本実施形態では時間領域の１次元の信号で計算を行っているだけなので、詳細な説明は省略する。生成された置換信号１３は音声信号置換部３７において参照区間１０１の音声信号と置換され、出力音声１４が出力される。図２０（ｂ）はレンズ駆動雑音１０４が低減された出力音声を示すものであり、区間１０６でレンズ駆動雑音が低減されていることを示している。

このように、時間領域信号に対して参照区間を設定し、レンズ駆動雑音の音圧レベルにより比較区間の設定を制御することで、高品質な雑音低減処理を行うことができる。本実施形態では、類似度を数１２で示すように参照区間と比較区間の差分値の積算で求めたが、二つの相互相関係数を類似度としてもよい。相互相関係数による類似度は以下の式で計算される。

数１４の記号の意味は数１２と同様である。この場合、相互相関係数が高いほど類似度が高いと判断される。

＜実施形態７＞
実施形態７では、上述の実施形態１における情報処理装置２あるいは実施形態４における音声処理部１３０の変形例を示す。撮像装置の構成については実施形態４に係る図１３を援用する。

人間が話しているシーンを撮影し、その動画を再生すると、混入した雑音によって人の声が聞き取りづらくなってしまう問題があり、さまざまな音質改善技術が開発されている（例えば、特許文献２）。特許文献２においては、顔が検出されると音声の増幅率の変化速度を上げる技術が提案されている。しかし、特許文献２の技術を用いて音質改善を行う場合、不自然な音声となってしまい品位が損なわれてしまうという課題がある。本実施形態はこのような課題に対処するものである。

図２１は、本実施形態における音声処理部１３０の機能ブロック図である。図１（ｂ）や図１４と同じブロックには同じ参照番号を付している。顔検出部２２１は、入力画像２１２から人物の顔の領域を検出し、顔検出結果２１３を参照位置制御部２１と比較位置制御部３４に出力する。

図２２は、顔検出結果の例を示す図である。IMG１〜IMG5は動画中の各時刻t₁〜t₅に記録された画像を示している。動画中の時刻t₁における画像IMG1には人物は映っていない。そのため、顔検出部２２１は顔を検出しない。次に、時刻t₂において初めて画像IMG2に人物３０１が映ると、顔検出部２２１は顔を検出し、顔検出時刻として時刻t₂を記憶する。３０２は顔が検出されたことを示す枠であり、実際に表示される必要はない。さらに、時刻t₃から時刻t₄における画像IMG3から画像IMG4において人物３０１は映り続けており、その間、顔検出部２２１は顔検出時刻として時刻t₃、t₄を記憶する。そして、時刻t₅における画像IMG５には人物は映っておらず、顔検出部２２１は顔を検出せず、時刻t₅は顔検出時刻として記憶はされない。顔検出部２２１は、顔検出時刻として記憶している時刻t₂、t₃、t₄を、顔検出結果２１３として出力する。

説明を図２１に戻す。参照位置制御部２１は、顔検出結果２１３に基づき、人物、とりわけ人物の顔が検出された時間を含む領域に、雑音低減処理の対象とする領域である参照領域を設定することができる。あるいは、参照位置制御部２１は、実施形態１で説明したように、ユーザの指示に基づき参照領域を設定してもよい。ここで、動画撮影中に撮影状態が大きく変化した場合を考える。例えば、明るさやピント状態が大きく変化した場合である。より具体的には、ユーザが撮影中に屋内と屋外との間を移動したり、被写体がピント方向に移動した場合などである。このような場合は、レンズシステム制御部１１２は、適当な結像、露光状態が維持されるようレンズ駆動部１１３を制御する。例えば、撮影環境が明るくなった場合には絞りを絞り込み、ピントが外れた場合にはピントを合わせる動作を行う。上述したように、このようにレンズ駆動部１１３が動画撮影中に動作するとレンズ駆動雑音が発生する。例えば絞りを駆動すると一般的には短時間のレンズ駆動雑音が発生しうる。一方、動画に適したようなフォーカス駆動は低レベルではあるが比較的長時間にわたるレンズ駆動雑音が発生しうる。そこで、参照位置制御部２１は、実施形態５で説明したように、レンズ駆動部１１３の駆動中のフレームを含む領域、すなわちレンズ駆動雑音が発生しうる時間帯を含む領域を参照領域として設定してもよい。

一方、比較位置制御部３４は、顔検出結果２１３に基づいて比較領域を設定することができる。顔検出結果２１３を活用することで、類似する比較領域を狭い範囲から探すことが可能になる。これにより、少ないメモリ消費で高品位な雑音低減処理が可能になる。例えば、比較位置制御部３４は、参照領域が顔検出時刻を含む場合、比較領域の設定範囲を顔検出時刻を含む範囲に限定する。言い換えると、人物の顔の領域が検出された時間の比較領域は、類似度の算出から除外される。参照領域が顔検出時刻を含まない場合は、比較領域の設定範囲を顔検出時刻を含まない範囲に限定する。さらに望ましくは、比較領域は短時間雑音の発生が無い個所に設定すればよい。比較部２２は、例えば実施形態１で説明した数３に従い参照領域と比較領域との類似度を計算する。これ以降の処理も実施形態１と同様である。

以上のように、顔検出結果を活用することで、類似する比較領域を狭い範囲から多く抽出することが可能である。

また、本実施形態では、実施形態５のように撮像装置１単体で実現することできるし、実施形態１のように撮像装置１とは別体の、パーソナルコンピュータ等の情報処理装置で実現することもできる。

また、本実施形態では参照領域と比較領域を同一動画データ内で設定したが、異なる動画データを用いても構わない。

＜実施形態８＞
以下では、複数の人物が撮影されていた場合に有効な実施形態を説明する。本実施形態は実施形態７の変形例であり、撮像装置の構成については図１３を援用する。図２３は、本実施形態における音声処理部１３０の機能ブロック図である。図２１と同じブロックには同じ参照番号を付している。実施形態７に係る図２１との差異は、顔検出部２２１のかわりに、入力画像２１２から人物を識別する人物検出部２２７、及び、発声人物を特定するための開口検出部２２８とを備える点である。開口検出部２２８は、人物検出部２２７で検出された人物ごとに、その人物の口の状態を検出する。

図２４は、人物検出部２２７及び開口検出部２２８の処理を説明する図である。IMG6〜IMG10は動画中の各時刻t₆〜t₁₀に記録された画像を示している。動画中の時刻t₆における画像IMG6には人物が映っていない。そのため、時刻t₆では人物検出部２２７は人物を検出しない。そして、時間t₇における画像IMG7に初めて人物３０３が映ると、人物検出部２２７は人物を検出する。人物が検出されると、開口検出部２２８は人物３０３の口の状態を判定する。人物３０３が開口状態であれば、人物３０３の開口検出時刻として時刻t₇を記憶する。時刻t₈における画像IMG8では、人物３０３に加えて人物３０４が映っている。すると、人物検出部２２７は人物３０３と人物３０４を検出する。人物３０３と人物３０４が検出されると、開口検出部２２８は、人物３０３と人物３０４の口の状態をそれぞれ判定する。画像IMG8では、人物３０３が開口状態、人物３０４は閉口状態であるため、人物３０３の開口検出時刻として時刻t₈を記憶する。時刻t₉における画像IMG9においても、人物３０３と人物３０４が映っており、人物検出部２２７は人物３０３と人物３０４を検出する。そして、開口検出部２２８は人物３０３と人物３０４の口の状態を判定する。ここで、画像IMG9は画像IMG8とは異なり、人物３０３は閉口状態、人物３０４は開口状態であるため、人物３０４の開口検出時刻として時刻t₉を記憶する。時刻t₁₀における画像IMG10では人物３０４のみが映っており、人物検出部２２７は人物３０４を検出する。人物３０４が検出されると、開口検出部２２８は人物３０４の口の状態を判定する。人物３０４が開口状態であれば、人物３０４の開口検出時刻として時刻t₁₀を記憶する。

本実施形態では、以上のようにして得られた、入力画像に映る人物ごとの開口検出結果２１７を、実施形態７における顔検出結果２１３と同様に扱って、参照領域及び比較領域を設定する。以上のように、複数の人物が映っている動画中においても、口の状態検出結果を活用することで、類似する比較領域を狭い範囲から多く抽出することが可能である。なお、本実施形態では映っている人物に対して自動で雑音低減処理を行ったが、ユーザが指示した特定の人物が映っている範囲だけを処理するようにしてもよい。

＜他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

Claims

入力した時間領域の音声信号をフレームごとに周波数領域信号に変換して周波数スペクトルの時間変化を表す周波数／時間領域信号を取得する取得手段と、
前記周波数／時間領域信号から切り出される、雑音低減処理の対象とする所定の時間幅、所定の周波数幅の参照領域を設定する設定手段と、
前記周波数／時間領域信号における、前記設定された参照領域とサイズが等しく位置が異なる複数の比較領域の各々について、前記参照領域に対する類似度を算出する算出手段と、
前記算出された類似度の高い順に選択された所定数の比較領域の信号を用いて前記参照領域の信号をフィルタリングすることで前記参照領域における雑音を低減するフィルタ処理手段と、
を有することを特徴とする音声処理装置。
前記設定手段は、複数の参照領域を設定し、
前記算出手段及び前記フィルタ処理手段は、前記複数の参照領域の各々に対して動作を繰り返すことを特徴とする請求項１に記載の音声処理装置。
前記参照領域は、前記周波数／時間領域信号のうち雑音が発生した時間を含む領域に設定されることを特徴とする請求項１又は２に記載の音声処理装置。
前記算出手段は、前記参照領域のうち、前記雑音が発生した時間の信号を除いて、前記比較領域に対する類似度の算出を行うことを特徴とする請求項３に記載の音声処理装置。
前記フィルタ処理手段は、前記参照領域の信号と前記所定数の比較領域の信号の重み付け平均をとることで前記フィルタリングを行うことを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
前記フィルタ処理手段は、前記所定数の比較領域の信号の重み付け平均をとることで前記フィルタリングを行うことを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
前記算出手段は、前記複数の比較領域を、前記参照領域と周波数位置が同じで時間位置が異なる領域に設定することを特徴とする請求項１乃至６のいずれか１項に記載の音声処理装置。
前記算出手段は、前記複数の比較領域を、前記参照領域と時間位置が同じで周波数位置が異なる領域に設定することを特徴とする請求項１乃至６のいずれか１項に記載の音声処理装置。
フレームごとに前記音声信号のピッチを検出するピッチ検出手段を更に有し、
前記取得手段は、フレームのずらし量を前記検出されたピッチの整数倍に設定する
ことを特徴とする請求項１乃至８のいずれか１項に記載の音声処理装置。
フレームごとに前記音声信号のピッチを検出するピッチ検出手段を更に有し、
前記設定手段は、前記所定の周波数幅を前記検出されたピッチに応じた幅に設定する
ことを特徴とする請求項１乃至８のいずれか１項に記載の音声処理装置。
入力した時間領域の音声信号のピッチを検出するピッチ検出手段と、
少なくとも前記検出されたピッチの成分が残存するように前記音声信号の周波数帯域制限を行う帯域制限手段と、
前記周波数帯域制限された音声信号から切り出される、雑音低減処理の対象とする所定の時間幅の参照区間を設定する設定手段と、
前記周波数帯域制限された音声信号における、前記設定された参照区間とサイズが等しく位置が異なる複数の比較区間の各々について、前記参照区間に対する類似度を算出する算出手段と、
前記算出された類似度の高い順に選択された所定数の比較区間の信号を用いて前記参照区間の信号をフィルタリングすることで前記参照区間における雑音を低減するフィルタ処理手段と、
を有することを特徴とする音声処理装置。
請求項１乃至１１のいずれか１項に記載の音声処理装置を有することを特徴とする撮像装置。
撮影レンズと、
前記撮影レンズを駆動するレンズ駆動手段と、
前記撮影レンズを用いて動画を撮影中に入力した音声信号をフレームごとに周波数領域信号に変換して周波数スペクトルの時間変化を表す周波数／時間領域信号を取得する取得手段と、
前記入力した音声信号についてフレームごとに音圧レベルに関連する値を検出する音圧検出手段と、
前記周波数／時間領域信号のうち前記レンズ駆動手段が前記撮影レンズを駆動している時間から切り出される、雑音低減処理の対象とする所定の時間幅、所定の周波数幅の参照領域を設定する設定手段と、
前記周波数／時間領域信号における、前記設定された参照領域とサイズが等しく位置が異なる複数の比較領域の各々について、前記参照領域に対する類似度を算出する算出手段と、
前記算出された類似度の高い順に選択された所定数の比較領域の信号を用いて前記参照領域の信号をフィルタリングすることで前記参照領域における雑音を低減するフィルタ処理手段と、
を有し、
前記算出手段は、前記音圧検出手段により検出された音圧レベルに関連する値が所定の閾値を超えている場合は当該フレームを含む比較領域を類似度の算出から除外することを特徴とする撮像装置。
撮影レンズと、
前記撮影レンズを駆動するレンズ駆動手段と、
前記撮影レンズを用いて動画を撮影中に入力した音声信号についてフレームごとに音圧レベルに関連する値を検出する音圧検出手段と、
前記音声信号のうち前記レンズ駆動手段が前記撮影レンズを駆動している時間から切り出される、雑音低減処理の対象とする所定の時間幅の参照区間を設定する設定手段と、
前記音声信号における、前記設定された参照区間とサイズが等しく位置が異なる複数の比較区間の各々について、前記参照区間に対する類似度を算出する算出手段と、
前記算出された類似度の高い順に選択された所定数の比較区間の信号を用いて前記参照区間の信号をフィルタリングすることで前記参照区間における雑音を低減するフィルタ処理手段と、
を有し、
前記算出手段は、前記音圧検出手段により検出された音圧レベルに関連する値が所定の閾値を超えている場合は当該フレームを含む比較区間を類似度の算出から除外することを特徴とする撮像装置。
前記フィルタ処理手段は、前記参照区間の信号と前記所定数の比較区間の信号の重み付け平均をとることで前記フィルタリングを行うことを特徴とする請求項１４に記載の撮像装置。
前記音声信号は、動画撮影において入力されるものであり、
前記動画撮影において入力した画像における人物の領域を検出する検出手段を更に有し、
前記算出手段は、前記検出手段により人物の領域が検出された時間の比較領域を類似度の算出から除外することを特徴とする請求項１に記載の音声処理装置。
音声処理装置の制御方法であって、
取得手段が、入力した時間領域の音声信号をフレームごとに周波数領域信号に変換して周波数スペクトルの時間変化を表す周波数／時間領域信号を取得する取得ステップと、
設定手段が、前記周波数／時間領域信号から切り出される、雑音低減処理の対象とする所定の時間幅、所定の周波数幅の参照領域を設定する設定ステップと、
算出手段が、前記周波数／時間領域信号における、前記設定された参照領域とサイズが等しく位置が異なる複数の比較領域の各々について、前記参照領域に対する類似度を算出する算出ステップと、
フィルタ処理手段が、前記算出された類似度の高い順に選択された所定数の比較領域の信号を用いて前記参照領域の信号をフィルタリングすることで前記参照領域における雑音を低減するフィルタ処理ステップと、
を有することを特徴とする音声処理装置の制御方法。
音声処理装置の制御方法であって、
ピッチ検出手段が、入力した時間領域の音声信号のピッチを検出するピッチ検出ステップと、
帯域制限手段が、少なくとも前記検出されたピッチの成分が残存するように前記音声信号の周波数帯域制限を行う帯域制限ステップと、
設定手段が、前記周波数帯域制限された音声信号から切り出される、雑音低減処理の対象とする所定の時間幅の参照区間を設定する設定ステップと、
算出手段が、前記周波数帯域制限された音声信号における、前記設定された参照区間とサイズが等しく位置が異なる複数の比較区間の各々について、前記参照区間に対する類似度を算出する算出ステップと、
フィルタ処理手段が、前記算出された類似度の高い順に選択された所定数の比較区間の信号を用いて前記参照区間の信号をフィルタリングすることで前記参照区間における雑音を低減するフィルタ処理ステップと、
を有することを特徴とする音声処理装置の制御方法。
撮影レンズと、前記撮影レンズを駆動するレンズ駆動手段とを有する撮像装置の制御方法であって、
取得手段が、前記撮影レンズを用いて動画を撮影中に入力した音声信号をフレームごとに周波数領域信号に変換して周波数スペクトルの時間変化を表す周波数／時間領域信号を取得する取得ステップと、
音圧検出手段が、前記入力した音声信号についてフレームごとに音圧レベルに関連する値を検出する音圧検出ステップと、
設定手段が、前記周波数／時間領域信号のうち前記レンズ駆動手段が前記撮影レンズを駆動している時間から切り出される、雑音低減処理の対象とする所定の時間幅、所定の周波数幅の参照領域を設定する設定ステップと、
算出手段が、前記周波数／時間領域信号における、前記設定された参照領域とサイズが等しく位置が異なる複数の比較領域の各々について、前記参照領域に対する類似度を算出する算出ステップと、
フィルタ処理手段が、前記算出された類似度の高い順に選択された所定数の比較領域の信号を用いて前記参照領域の信号をフィルタリングすることで前記参照領域における雑音を低減するフィルタ処理ステップと、
を有し、
前記算出ステップは、前記音圧検出ステップで検出された音圧レベルに関連する値が所定の閾値を超えている場合は当該フレームを含む比較領域を類似度の算出から除外することを特徴とする撮像装置の制御方法。
撮影レンズと、前記撮影レンズを駆動するレンズ駆動手段とを有する撮像装置の制御方法であって、
音圧検出手段が、前記撮影レンズを用いて動画を撮影中に入力した音声信号についてフレームごとに音圧レベルに関連する値を検出する音圧検出ステップと、
設定手段が、前記音声信号のうち前記レンズ駆動手段が前記撮影レンズを駆動している時間から切り出される、雑音低減処理の対象とする所定の時間幅の参照区間を設定する設定ステップと、
算出手段が、前記音声信号における、前記設定された参照区間とサイズが等しく位置が異なる複数の比較区間の各々について、前記参照区間に対する類似度を算出する算出ステップと、
フィルタ処理手段が、前記算出された類似度の高い順に選択された所定数の比較区間の信号を用いて前記参照区間の信号をフィルタリングすることで前記参照区間における雑音を低減するフィルタ処理ステップと、
を有し、
前記算出ステップは、前記音圧検出ステップで検出された音圧レベルに関連する値が所定の閾値を超えている場合は当該フレームを含む比較区間を類似度の算出から除外することを特徴とする撮像装置の制御方法。
コンピュータに、請求項１７又は１８に記載の音声処理装置の制御方法の各ステップを実行させるためのプログラム。
コンピュータに、請求項１９又は２０に記載の撮像装置の制御方法の各ステップを実行させるためのプログラム。