JP2019086724A

JP2019086724A - 音声処理装置

Info

Publication number: JP2019086724A
Application number: JP2017216858A
Authority: JP
Inventors: 文裕梶村; Fumihiro Kajimura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2019-06-06

Abstract

【課題】演算量を抑えつつ精度のよい雑音低減処理を行う。【解決手段】実時間領域における入力音声信号を所定のフレームごとに周波数領域信号に変換する。実時間領域における入力音声信号に対し雑音低減対象である一定の大きさの参照領域を設定する。周波数領域信号に対して参照領域と、その他の位置から参照領域と同じ大きさを切り出した比較領域との類似度を比較し類似領域を抽出する。抽出された類似領域における実時間領域の入力音声信号、及びその近傍の入力音声信号を含む領域を拡大類似領域とし、実時間領域において参照領域と拡大類似領域内から参照領域と同じ大きさを切り出した実時間比較領域との類似度を比較し実時間類似領域を抽出し、この実時間類似領域を用いて重みづけ加算を行い、参照領域を置換すべき信号を生成する。【選択図】図１

Description

本発明は音声処理装置に関する。

従来、音声処理装置として、撮影した動画とともに音声を記録することができる撮像装置が知られている。

これらの撮像装置においては、光学系の駆動により発生する雑音が音声として記録されてしまう問題があり、様々な雑音低減技術が開発されている。特許文献１では、音声の繰り返し性に注目し、雑音低減処理の対象とする参照区間を設定し、その他の音声信号範囲に適応される比較領域から参照区間と類似する領域を比較抽出し、加算平均することで雑音を低減する手法が開示されている。特許文献１では、取得した音声信号について時間領域で類似度を求める手法と、音声信号を周波数／時間領域に変換して、周波数／時間領域で類似度を求めて加算平均した後に、時間領域に逆変換する手法の二つが開示されている。

特開２０１４−１９４４６３号公報

しかしながら、特許文献１の技術を用いて雑音低減を行う場合、次のような課題がある。時間領域で類似度の高い領域を抽出する際、音声信号が時間的に長く、比較する範囲が広い場合は、演算量が膨大になる。一方、周波数／時間領域に変換して類似度の高い領域を抽出する場合、位相の類似度も加味すると、類似領域として抽出される領域が少なく、精度のよい雑音低減が困難である。

そこで、本発明の目的は、演算量を抑えつつ精度のよい雑音低減処理が可能な音声処理装置を提供することである。

上記目的を達成するために本発明は、音声取得手段により取得した入力音声信号と、実時間領域における前記入力音声信号を所定のフレームごとに周波数領域信号に変換し周波数／時間領域信号を取得する周波数／時間領域変換手段と、実時間領域における前記入力音声信号に対し雑音低減対象である一定の大きさの参照領域を設定する参照領域制御手段と、前記周波数／時間領域信号に対して参照領域と、その他の位置から参照領域と同じ大きさを切り出した比較領域との類似度を比較し類似領域を抽出する第１の比較抽出手段と、前記第１の比較抽出手段により抽出された類似領域における実時間領域の入力音声信号、及びその近傍の入力音声信号を含む領域を拡大類似領域とする拡大類似領域制御手段と、実時間領域において前記参照領域と、前記拡大類似領域内から参照領域と同じ大きさを切り出した実時間比較領域との類似度を比較し実時間類似領域を抽出する第２の比較抽出手段と、前記第２の比較抽出手段から得られた実時間類似領域を用いて重みづけ加算を行い、参照領域を置換すべき信号を生成する置換信号生成手段と、前記置換信号生成手段から得られる信号によって参照領域を置き換える音声信号置換手段と、前記入力音声信号、及び周波数／時間領域信号を記録する記録手段で音声処理装置を構成する。

演算量を抑えつつ精度のよい雑音低減処理を行うことができる。

第１の実施例における撮像装置の音声処理部を表すブロック図。第１の実施例における撮像装置を表す斜視図とブロック図。第１の実施例における雑音低減処理の動作を説明する音声の模式図。第１の実施例における雑音低減処理のフローを示すフローチャート。その他の例における雑音低減処理の動作を説明する音声の模式図。従来の実時間領域での雑音低減処理の動作を説明する音声の模式図。従来の雑音低減処理の動作を説明する長時間の音声信号の模式図。従来の周波数／時間領域での雑音低減処理の動作を説明する音声の模式図。

以下、図面を参照して本発明の実施形態について詳細に説明するが、本発明は以下の実施形態に限定されるものではない。

以下、図面を参照して、本発明における雑音低減の音声処理機能を有する撮像装置について説明する。

図２（ａ）は本実施例における撮像装置であるカメラ１の斜視図、図２（ｂ）はカメラの構成を示すブロック図であり、図１は音声処理部を説明するブロック図である。図２において、１は撮像装置であるカメラを、１０はカメラの制御を司るカメラシステム制御部を、１１は撮影レンズを、１２は音声取得手段であるマイクを、１３は撮像素子を、１４は画像処理部を、１５はレンズ駆動部を、１６は音声処理装置である音声処理部を、１７は記録手段であるメモリ部を、１８は操作部を、１９は画像表示部を示す。

撮影レンズ１１を通過した光線は、撮像素子１３近傍位置で結像をし、撮像素子１３において適正な時間露光される。画像処理部１４は内部にＡ／Ｄ変換器、ホワイトバランス回路、ガンマ補正回路、補間演算回路等を有しており、撮像素子１３で露光し光電変換された信号に補正処理等を行い画像として生成する。生成された画像はカメラシステム制御部１０を介し、メモリ部１７に記録される。レンズ駆動部１５はカメラシステム制御部の命令により、撮影レンズ１１内の不図示のフォーカスレンズ群、絞り機構、手振れ防振機構などを駆動させ、撮影レンズの光学状態を調整する。

さらに、撮像素子１３を連続的に露光し、一定のフレームレートで読み出しを行うことで、動画撮影を可能とする。一方、マイク１２では動画撮影時における被写体の音声信号を取得する。取得された入力音声は音声処理部１６にてＡ／Ｄ変換がなされ、本発明の要部である雑音低減処理が施されたあと、カメラシステム制御部１０を介してメモリ部１７に、動画とともに記録される。音声処理部１６の雑音低減処理の詳細については後述する。

カメラシステム制御部１０は撮像の際のタイミング信号など外部操作に応答して各処理部を制御する。例えば、操作部１８に不図示の含まれる電源釦やレリーズ釦１８ａの押下が検出されると、撮像素子１３の駆動、画像処理部１４及び音声処理部１６の動作、メモリ手段１７の圧縮処理などを制御する。さらに画像表示部１９に情報表示を行う。

次に、音声の類似性に着目した参照領域との比較抽出により類似領域抽出による雑音低減処理方法と、その課題について述べる。

まず図６を用いて実時間領域でのみ、参照領域との比較抽出を行う場合について述べる。図６は実時間における雑音低減処理を説明する図で、図６（ａ）は被写体音声に白色の暗雑音が重畳された時の音声信号及び選択された類似領域信号を、図６（ｂ）は生成された置換信号を、図６（ｃ）は参照領域が置換信号で置換された後の音声信号を、図６（ｄ）は雑音低減処理が施された出力音声信号を示している。横軸は時間、縦軸は信号レベルである。図６（ａ）、（ｃ）、（ｄ）の信号は全体で０．２ｓ程度の時間の信号を示している（すなわち動画ファイルから得られた音声信号のごく一部を拡大した図）。

図６（ａ）を見ると分かるように音声信号は局所的に観察すると、非常に繰り返し性が高いことが分かる。本発明は、このような音声の持つ短時間での繰り返し性の良さに着目している。図６（ａ）に示すように入力音声信号は、参照領域制御手段により雑音除去したい範囲として、ある所定の分割時間の参照領域１００を設定する。図６（ａ）では、説明のために参照領域１００の信号を切り出して示している。参照領域の長さである分割時間は、一般的な成人の声の第１フォルマントともよばれる基本周波数５００〜１５００Ｈｚを十分に包括するように２ｍｓｅｃ以上に設定される。

図６（ａ）における基本周波数の幅は範囲１０３であり、この範囲の類似した波形が何度も繰り返されている。よって参照領域１００は、少なくともこの範囲１０３が含まれる長さに設定される。

比較抽出手段では、参照領域１００と設定された各比較領域の類似度の比較が行われる。参照領域制御手段により参照領域１００が設定された時、その他の領域が比較抽出手段で比較される領域とされ、参照領域１００と同じ時間幅で少しずつ時間のずれた信号が各比較領域として設定される。比較領域は少しずつ時間的にずれながら、隣接するお互いの比較領域は重複して設定される。隣接する比較領域の時間ずれ量は、望ましくは取得された音声のサンプリングレートでの１ビット分であるが、演算負荷及び着目する周波数の観点から、適当な時間ずれ量が設定される。比較抽出手段において、音声信号である参照領域と比較領域の類似度は以下の式１で計算する。

式１においてiは参照領域内の音声信号の離散時間を示しており、S_C(i)は離散音声信号S_Cにおける時間i番目の値である。Mは分割された音声信号の離散時間長であり、分割時間(sec)/サンプリングレートで求められる。S_Rは参照領域信号を、S_Cは比較領域信号を表している。式１では参照領域と比較領域の各時間の差を積算しており、参照領域と比較領域の類似度が上がるにつれ小さい値をとり、同一であれば数１は０になる。各比較領域に対して類似度を求め、類似度が高いものから予め定められた数を選択する。

図６（ａ）の１０１ａ、１０１ｂ、１０１ｃは類似度が高いとして選択された類似領域信号である。参照領域１００と同様に、説明のために類似領域の信号を切り出して示している。

選択された比較抽出結果である類似領域信号を用いて、置換信号が置換信号生成手段において、式２で算出される。

S_Oは置換信号を、S_Rは参照領域の信号を、S_Ckは比較領域の信号をそれぞれ示している。Pは選択された比較領域の数である。i,Mに関しては式１と同じである。またkは選ばれた比較領域の番号に対応しており、１からＰの整数値をとる。S_C1は１番目の比較領域、S_CPはP番目の比較領域という意味である。ｗ０、ｗｋはフィルタの重みであり、類似度が高いものに重みを付けて加重平均とする等のために用いる。なお、ｗ０、ｗｋを全て１に設定し、加算した信号数で割りこみ平均をとってもよい。図６（ｂ）の１０２は置換信号生成手段により生成された置換信号を表している。参照領域１００に含まれていた雑音レベルが低減されていることを示している。

生成された置換信号１０２は、音声信号置換手段３６において参照領域１００の音声信号と置換され、出力音声が出力される。図６（ｃ）において、図６（ａ）の音声信号に対して、参照領域１００の信号が置換信号１０２で置換されていることを表している。

図６（ａ）に示すように、暗雑音は全領域に重畳されているので、参照領域を少しずつずらしながら上記の処理を繰り返し行うことで、図６（ｄ）に示すように全領域の雑音低減がなされる。

しかし、上述した雑音低減処理においては、次のような課題がある。参照領域との類似領域を抽出する比較領域を広くとれば、類似性の高い領域が抽出される確率は高くなる。例えば、被写体があるタイミングで「お」と発音した後、数秒後に再度「お」と発音した音声信号において、最初の「お」と後の「お」の音声信号は、類似している。図７は、同じ被写体の数秒間発話している音声信号であり、音声１１０と１１２は「お」と発音しており、音声１１１は「あ」と発音している音声信号である。音声１１０，１１１、１１２については、下に拡大した音声を示している。

図７に示すように音声１１０は音声１１１とは類似していないが、時間的に離れた音声１１２と非常に類似していることがわかる。このように、時間的に離れた範囲においても、参照領域と類似した音声領域は多数存在する。つまり、取得した音声信号全範囲に対し順次比較領域として、比較出手段により類似度を計算し類似領域を抽出すれば、より類似度の高い類似領域を取得することができ、置換音声信号の音声低減の効果が高まる。しかし、音声信号全範囲に対し類似度の計算を行うと、演算量が非常に大きくなってしまう。

次に、図８を用いて周波数/時間領域で、参照領域との比較抽出を行う場合について述べる。

図８（ａ）は、図６で（ａ）で示した実時間の音声信号の一部領域を切り出してフーリエ変換により周波数領域に変換したグラフで、横軸に周波数、縦軸に各周波数のゲインを示している。点線２３０は雑音の混入していない場合の被写体音だけの信号を周波数領域変換したもので、実線２３１は雑音を含む被写体音の信号を周波数領域変換したものである。点線２３０で示すように、人の声である被写体音には、その信号を特徴づける周波数／時間領域にピーク２２０、２２１、２２２が存在し、その他の周波数のゲインは相対的に低い。

さらに、この音声信号に白色性の高い雑音が混入した場合、ピーク２２０、２２１、２２２のゲインはあまり変わらないが、その他の周波数のゲインは増加していることがわかる。この周波数変化した信号を、実時間の音声信号から切り出す位置を順次ずらしながら得ることで、周波数／時間領域の信号を得ることができる。図８（ｂ）は、実時間領域の音声信号を、所定のフレームを切り出す位置を順次ずらしていく様子を示したものである。期間３１１が周波数変換を行う際に切り出す所定のフレーム長である。

この期間の音声信号を離散フーリエ変換により周波数変換を行い、図８（ａ）のような周波数領域の信号を得る。そして、時間３１２だけずらした位置から期間３１１と同じ期間の信号を切り出し、同様に周波数変換を行っていく。これを順次繰り返していくことで、周波数／時間領域信号を得ることができる。

図８（ｃ）は被写体音の含まれる音声信号を適当な時間区間で周波数領域変換した周波数／時間領域音声信号を模式的に示したものである。図８（ｃ）の横軸は時間で有り、縦軸は周波数である。図８（ｃ）に点線で示した格子は、１つのデータを模式的に示している。すなわち横方向の１マスの大きさは、周波数／時間領域変換時の実時間から音声信号を切り出した１フレーム分であり、隣のフレームは順次切り出し位置をずらしたずらし量分だけ時間が異なっている。

縦方向の１マスの大きさは、周波数領域変換時の周波数分解能に対応しており、例えば音声信号のサンプリング周波数がＦｓ，離散フーリエ変換の次数をＮとすると、周波数分解能ｆ０はＦｓ／２Ｎで表される。なお、周波数領域変換を音声信号の１フレームには、少なくとも被写体音性の基本周波数である５００〜１５００Ｈｚの音声信号が含まれていることが望ましい。図８（ｃ）では、説明のために図８（ａ）で示す分解能よりも荒く表現している。図８（ｃ）では位相を省略してゲインのみ図示している。また、図を分かりやすくするために、図８（ａ）で示したように、被写体音声のピークのみを示した。

すなわち図８（ｃ）の線２２０、２２１、２２２は図８（ａ）のピーク２２０、２２１、２２２と対応している。また、その他の線２２３〜２２８は別の発音音声のピークを示している。つまり、期間２１０は同じ被写体が同じ発音、例えば「お」と発音している期間であり、ピーク２２０、２２１、２２２が続いている。期間２１１は期間２１０とは別の言葉を発音している期間であり、期間２１０とは異なる周波数にピーク２２３、２２４、２２４が存在している。さらに、期間２１２は、別の時間に期間２１０と同じ言葉を発音している期間で、ピーク２２６、２２７，２２８の周波数は、期間２１０のピーク２２０、２２１、２２２とそれぞれ一致する。

図８（ｃ）において、１点鎖線で示した範囲２００は実時間の参照領域の信号を含んでおり、周波数参照領域として設定される。周波数参照領域２００は、４ｘ２０のマスで構成されており、各マス目をＸｒ（ｉ，ｊ）の形式で表現する。ｉは横方向すなわち時間軸方向のマス目を示しており、ｊは縦方向すなわち周波数方向のマス目を示している。この設定された参照領域２００に対し、時間方向、つまり横方向に同じサイズの範囲をずらした領域を周波数比較領域とし、二つの領域の相関値の算出により比較抽出を行う。範囲２０１、２０２、２０３は周波数比較領域の例である。

ここで参照領域２００に対して比較領域２０１を設定した場合を考える。この時参照領域２００と比較領域２０１の類似度を以下の式３で計算する。

式３においてi,jは参照領域内に設けられた時間、周波数方向のローカル座標である。図８（ａ）においてはＮが４、Ｍが２０に設定されており、Xrは参照領域の信号を、Xc1は比較領域の信号をそれぞれ示している。さらに｜｜はノルムを計算する演算子である。式３は比較領域２００内の各部の信号に対して、参照領域２００と対応する位置との差を積算していることになる。すなわち比較領域２０１と参照領域２００が同一のものであれば数１はゼロとなり、類似度が下がるに従って大きな値をとる。

比較領域２０１は参照領域２００と同じ発音の期間２１０内にあるので、ピーク２２０、２２１、２２２を有しており、雑音の周波数以外での類似度は高くなり、類似領域として抽出される。そして、期間２１０とは異なる発音の期間２１１で比較領域２０２を設定されると、ピークの周波数が異なるため、式３の類似度は低くなり類似領域として抽出されにくい。一方、期間２１２は期間２１０とは異なる期間であるが同じ被写体の同じ発音であるために、同じピークを有しているので、期間２１２の比較領域２０３は参照領域２００との類似度が高く、類似領域として抽出される。

このように、周波数／時間領域においても、参照領域と比較領域との類似度を計算することで、類似領域を抽出することができる。式１を用いて求めた実時間音声信号における類似度の算出に比べて、式３の周波数／時間領域での類似度の算出の演算量は、サンプリング周波数や周波数／時間領域変換のパラメータにもよるが、大幅に少なくなる。よって、比較領域を取得した音声信号全体に設定し比較抽出を行う場合において、実時間領域で比較抽出を行う場合に比べると、演算量がかなり少なくなるので、比較領域を広くとる場合は、周波数／時間領域での比較抽出が有効である。

なお周波数／時間領域変換のパラメータとは、離散フーリエ変換の標本数Ｎや切り出しフレームのずらし量などであり、図８（ｂ）では、切り出しフレームのずらし量を１／２フレームとしている。

しかしながら、周波数／時間領域での比較抽出を行う場合は、以下のような課題がある。

図８（ｄ）（ｅ）（ｆ）は参照領域２００の実時間の音声信号及び、類似度の高い比較領域２０１，２０３の実時間の音声信号を表している。図８（ｄ）の参照領域信号と、図８（ｅ）（ｆ）の比較領域信号は音声信号の形状は類似しているが、位相がずれていることを示している。これは、周波数／時間領域の音声信号は、時間領域の音声信号を所定のフレームずつずらして切り出しながら周波数領域変換を行うからであり、フレーム切り出し時のずらし量が、被写体音声の基本周波数と必ずしも一致しないからである。この比較領域の実時間の音声信号をそのまま数２に適応して加算し置換信号を生成しようとしても、位相がずれているため適正な置換信号を得ることができない。

つまり、雑音低減処理の精度が低下してしまう。また、周波数／時間領域での比較抽出処理時に、上述の方法はゲインだけに着目して行ったが、位相の類似度も加味して比較抽出を行うことも考えられる。しかし、ピークの周波数のゲイン及び位相の両方の類似度が高い比較領域は、ゲインのみが類似度している比較領域に比べて抽出される数が少なくなる。その結果、雑音低減処理の精度が低下する。

そこで、本実施形態では周波数／時間領域で比較抽出を行って選択された類似領域について、その類似領域の同期する時間の実時間信号の前後を拡大した領域について、比較領域を設定し時間領域における比較抽出動作を再度行う。これにより、実時間領域の参照領域と位相も含めて類似した類似領域を取得することができ、演算量を抑えつつも、精度のよい雑音低減処理を行うことができる。

次に、図１を用いて雑音低減の処理について述べる。音声信号の取得を伴う動画撮影時において、被写体の音声以外に、撮影レンズ光学系の調整に伴うレンズ駆動音や、マイク１２の性能による白色雑音である暗雑音などの雑音が重畳される。本発明では、音声処理部によりこれらの雑音の低減処理を行う。図１は音声処理装置の動作を説明するブロック図であるが、データの流れを分かりやすくするために処理手段は四角、データは角を丸めた四角で図示した。

図１において２１は入力音声を、２２は周波数／時間領域変換手段による周波数／時間領域信号を、２３は周波数／時間領域比較抽出手段で抽出された周波数／時間領域類似領域を、２４は時間領域比較抽出手段での時間領域比較抽出結果を、２５は置換信号生成手段で生成された置換信号を、２６は出力音声を示している。そして、３１は周波数／時間領域変換手段を、３２は第１の比較抽出手段である周波数／時間領域比較抽出手段を、３３は参照領域制御手段を、３４は拡大類似領域制御手段を、３５は第２の比較抽出手段である時間領域比較抽出手段を、３６は置換信号生成手段を、３７は音声信号置換手段を表している。これらは図２の音声処理部１６に包括されている。

図２のマイク１２から取得されてＡ／Ｄ変換された入力音声信号２１は周波数／時間領域変換手段により所定のフレームごとに分割されて周波数／時間領域信号に変換され、周波数スペクトルの時間変化を表す周波数／時間領域信号が取得される。参照領域制御手段は雑音低減をしたい音声信号領域を所定の長さに切り出して参照領域として設定する。まず参照領域制御手段は実時間領域について参照領域を設定し、その時間に同期した周波数／時間領域信号を周波数／時間領域の参照領域とし、その他の領域を順次比較領域として周波数／時間領域比較抽出手段３２により、数３を用いて比較抽出を行う。

そして類似度が高いとして抽出された範囲が周波数／時間領域類似領域２３として出力される。そして、拡大類似領域制御手段３４により、周波数／時間領域類似領域２３と同期する実時間領域信号の前後を拡大された範囲を拡大類似領域として時間領域比較抽出手段３５に送られる。この拡大類似領域制御手段３４により設定された拡大類似領域が、実時間領域で再度比較抽出を行う比較領域である。

そして、時間領域比較抽出手段３５により、参照領域制御手段３３により設定された参照領域と、拡大類似領域を比較領域に対し実時間時間での比較抽出が行われる。実時間での比較抽出は数１を用いて行われ、参照領域と位相の一致した実時間で類似度が高い領域が時間領域比較抽出結果２４として出力される。拡大類似領域は前後の音声信号が拡大されているので、この範囲に順次比較領域を設定することで、実時間領域の参照領域と位相の一致した類似領域を抽出することができる。

詳細については、後述する。置換信号生成手段３６では、複数抽出された時間領域比較抽出結果２４を用いて、数２に基づき重み付け加算処理を行い、置換信号２５を生成する。そして、音声信号置換手段３７により生成された置換信号２５を用いて、参照領域の音声信号が置換信号に置き換えられ、雑音低減された音声が出力音声２６として出力される。

図１、３、４を用いて、本発明の具体的な雑音低減処理について説明する。図３は雑音低減処理を説明するための実時間領域の音声信号及び周波数／時間領域の音声信号を模式的に表している。図３（ａ）は入力音声２１である実時間領域の被写体音声信号を、図３（ｂ）は入力音声２１を周波数領域変換手段３１で変換した周波数／時間領域信号を示しており、図８（ｃ）と同様に、被写体音の特徴的なピークだけを示している。図３（ｃ）は図３（ａ）の実時間領域における参照領域のみを表した音声信号を示している。

図３（ｄ）は周波数／時間領域比較抽出手段２３により抽出された類似領域に基づき、拡大類似領域制御手段３４により設定された実時間領域での比較領域の説明する音声信号である。さらに、図４は雑音低減処理の動作を説明するフローチャートである。

図３の音声信号を例に、雑音低減処理のフローについて説明する。フローが開始するとステップＳ１０１では、マイク１２により図３（ａ）に示すような音声信号を入力音声２１とし取得し、メモリ部１７に記録される。

ステップＳ１０２では、取得した入力音声２１の全範囲に対し、周波数領域変換手段３１により周波数／時間領域の音声信号に変換し、得られた周波数／時間領域信号がメモリ部１７に記録される。ステップＳ１０３では、参照領域制御手段３３により実時間領域における雑音低減を行う範囲を参照領域として設定する。図３（ａ）では範囲４０が参照領域として設定されている。図３（ｃ）は図３（ａ）に示した参照領域４０を拡大して示したものである。

ステップＳ１０４では、ステップＳ１０３で設定した参照領域と時間的に同期した範囲の周波数／時間領域信号２２における参照領域が決定される。図３（ｂ）では周波数／時間領域信号における図３（ａ）の参照領域４０と時間的に同期した範囲を領域５０として示している。

次にステップ１０５では、周波数／時間領域比較抽出手段３２により参照領域５０を用い、その他の領域内における参照領域と同じ大きさのある領域を比較領域として比較抽出を行う。比較領域は時間方向つまり横方向にずらして設定されながら、比較抽出処理が行われる。そして、複数の類似度の高い領域が周波数／時間領域類似領域２３として抽出される。図３（ｂ）において、参照領域５０のピーク６０、６１、６２と同様のピーク６３、６４、６５が存在する範囲５１が周波数／時間領域類似領域として抽出されている。

ステップＳ１０６では、拡大類似領域制御手段３４により周波数／時間領域類似領域２３と同期する実時間領域信号の前後を拡大された範囲を拡大類似領域として設定される。図３（ｄ）の範囲４１は、図３（ｂ）の周波数／時間領域類似領域５０に時間的に同期した時間領域の音声信号であり、図３（ｄ）ではその近傍の音声信号も示している。範囲４１の時間的な幅は、図３（ｃ）で拡大表示した参照領域４０の幅と一致する。拡大類似領域制御手段３４は、範囲４１の前後の領域である範囲４２、４３を含めた範囲４４を拡大類似領域として設定する。

図３（ｄ）で示す範囲４１は図３（ｃ）で示す参照領域４０と類似性は持っているが、位相が合っていない。しかし、範囲４１の前後を拡大すると参照領域４１と位相の一致する範囲が含まれることとなる。そこで、時間領域において拡大類似領域制御手段３４により拡大した類似領域に対して、参照領域４０との比較抽出を行うことで、位相が一致類似度の高い実時間類似領域を得ることができる。なお、前後を拡大する範囲４２及び４３の長さは、短すぎると一致する位相が抽出されないことがあるので、拡大領域は少なくとも被写体音声の基本周波数の１周期を含む期間であることが望ましい。

ステップＳ１０７では、時間領域比較抽出手段３５により、実時間領域において拡大類似領域に対し比較領域を設定し、参照領域４０との比較抽出を行う。そして、類似度の高い領域を時間領域類似領域２４として抽出する。これをステップＳ１０５で得られた複数の類似領域に対して行うことで、複数の時間領域類似領域２４を得ることができる。図３（ｄ）では、設定された拡大類似領域４４に対し時間領域での比較抽出が行われ、時間領域類似領域として範囲４５が抽出されている。範囲４５は参照領域４０と類似度が高く、位相も一致している。また、時間領域比較抽出手段３５は、拡大類似領域４４についてのみ比較抽出を行うので、入力音声全体に対して実時間領域の比較抽出を行う場合に比べて、演算量を抑えることができる。

次に、ステップ１０８では置換信号生成手段３６により、ステップＳ１０7で抽出された複数の時間領域類似領域２４を用いて、数２に示すように重み付け加算を行い、置換信号２５を生成する。

ステップＳ１０９では、音声信号置換手段３７により、時間領域信号に対し設定した参照領域の範囲の音声信号を、ステップ１０８で生成した置換信号２５と置換する。ステップＳ１１０では、置換を行い雑音低減した音声を出力音声２６として出力し、メモリ部１７に記録する。ステップＳ１１１では、音声信号に対し雑音低減処理を施す範囲があるかを判断し、まだ雑音低減処理が必要な範囲があればステップＳ１０３に戻り、雑音低減処理を所望する範囲に参照領域を設定し、ループを繰り返す。全ての雑音低減処理対象の音声信号について、上記の処理が終了すればフローを終了する。

以上述べたように、本発明は周波数／時間領域で比較抽出を行って選択された周波数／時間領域類似領域を抽出する。そして、その類似領域の同期する時間の実時間信号の前後を拡大した領域について、比較領域を設定し時間領域における比較抽出動作を再度行う。これにより、実時間領域の参照領域と位相も含めて類似した類似領域を取得することができ、演算量を抑えつつも、高品位な雑音低減処理を行うことができる。

本実施例では、周波数／時間領域比較抽出手段３２において、周波数領域変換手段３１で変換した全周波数帯域について、式３の類似度の算出を行ったが、特定の周波数帯域に制限をして比較抽出を行ってもよい。上述したように本実施例の類似度の算出は、人の声のピークを利用して比較抽出を行っているので、人の声の周波数帯域に着目して、特定周波数帯域のみについて比較抽出を行うが考えられる。一般的に成人で、第１フォルマントは５００〜１５００Ｈｚ、第２フォルマントは１５００〜３０００Ｈｚとされ、さらに高い周波数に第３、第４、第５フォルマントと続いて存在しているといわれている。この各フォルマントの周波数が、図３で示したピークに概ね相当する。

そこで、例えば主張フォルマントと呼ばれる第１、第２フォルマントを含む周波数帯域を、比較抽出を行う特定周波数帯域として設定してもよい。例えば、第１、第２フォルマントを含む周波数帯域（５００〜３０００Ｈｚ）が、図３（ｂ）の範囲６６に示す縦軸でいう上から９マス目から１９マス目だとすると、式４のようにiを９〜１９の範囲で類似度の算出を行えばよい。

なお、楽器音などの繰り返し性がよく、人の声の周波数帯域と異なる場合などは、特定周波数を別の帯域に設定することが望ましい。図３（ｂ）では、説明のためにマス目のサイズ、マス数を模式的に表現しているが、実際の周波数／時間領域信号の縦軸の１マスである周波数分解能ｆ０であり、上述したようにはＦｓ／２Ｎで表される（サンプング周波数Ｆｓ、離散フーリエ変換の次数Ｎ）。

例えば、サンプリング周波数Ｆｓを４４１００Ｈｚ、離散フーリエ変換の次数Ｎを５１２点の場合、ｆ０は約８６であり、縦のマス数はＮ／２である２５６マスとなる。つまり、比較抽出を行う特定周波数帯域を５００〜３０００Ｈｚとすると、縦軸マス目の２５６マスのうち４マス目（約４３０Ｈｚ）から３５マス目（３０１４Ｈｚ）の信号のみを用いて類似度を算出すればよく、演算量の大幅な削減が見込める。

また、このように特定周波数についてのみ類似度算出の比較抽出処理を行う場合は、周波数／時間領域信号の比較抽出に用いない特定周波数以外の帯域の信号を、メモリ部１７に記録しなくてもよい。これは、周波数／時間領域信号は、周波数／時間領域類似信号を求める為だけにしか使用されず、その後に周波数逆変換により時間領域の音声信号に変換されないからである。このようにすることで、メモリ部１７の記録容量を削減することができる。また、レンズの駆動雑音などのように特徴的な周波数を有する雑音に対しては、その特徴周波数を省いた周波数帯域を用いて比較抽出を行うことが考えられる。

図５はある周波数にパワーの強いノイズが重畳した時の被写体音の周波数／時間領域信号の例である。編みかけ部は周波数帯域３０１にパワーの強いノイズが重畳していることを示している。ピーク６１、６４を含むピークは、編みかけ部３０１により埋もれている。このような雑音が重畳している場合、ノイズの影響により類似度の算出の精度が落ちることが考えられる。そこで、数３においてパワーの強いノイズの特徴帯域３０１を除いた周波数の信号を用いて類似度を算出することで、パワーの強いノイズの影響を低減することができる。

図５に示す帯域３０１は、数３のｉの１０〜１４マス目に相当する。そこで、類似度の算出の際にｉは１０〜１４を省いて類似度を算出すればよい。このようなある周波数に帯域に強いパワーを持つ雑音として、撮影レンズ光学系の調整に伴うレンズ駆動部雑音があげられる。レンズ駆動部のアクチュエータ、機構によっては特定の帯域にノイズが発生しやすい。その他に、低周波帯域に強いパワーを持ち、マイクに風が当たることにより発生する風雑音などがあげられる。上述のような処理を行うことで、類似領域抽出の精度向上だけでなく、演算量を低減することもできる。

また、レンズ駆動部の駆動雑音などであれば、レンズ駆動の度に同様の雑音が発生するので、予めメモリ部１７に雑音低減処理の対象である駆動雑音の周波数帯域を記録しておいてもよい。

本実施例では、入力音声２１の全範囲を周波数領域変換し、周波数／時間領域において比較抽出を行い、抽出された類似領域の近傍を含む実時間領域の信号で再度比較抽出を行ったが、演算量を見積もり、処理を変更してもよい。例えば、入力音声２１が短い場合などは、図６を用いて説明したような実時間領域での比較抽出のみの演算量が、周波数領域変換や周波数／時間領域での比較抽出をする場合よりも少ない場合がある。演算量は、入力音声２１の実時間の長さと周波数／時間領域変換の変換パラメータ等により見積もることができるので、２種類の処理の見積もった演算量を用いて、雑音低減処理を切替えてもよい。

周波数／時間領域変換のパラメータである離散フーリエ変換の標本数Nや切り出しフレームのずらし量は、基本的には変更しないので入力音声２１の長さに閾値を設けて置き、処理を切替えればよい。例えば、実時間領域の音声信号でのみ比較抽出を行うか、上述した周波数／時間領域信号で比較抽出を行った後、実時間領域の拡大類似領域について比較抽出を行うかを切替える比較抽出切換え手段を有しておく。そして、比較抽出切換え手段は、入力音声の実時間の長さが閾値時間Ｔｔｈ（秒）以下ならば、実時間領域の音声信号でのみ比較抽出を行うように処理を切替える。

なお、上述した特定周波数のみで周波数／時間領域での比較抽出を行う場合など演算量を加味した方がより望ましい。なお、周波数／時間領域変換のパラメータは基本的に変更しないと述べたが、パラメータを変更するような処理構成においては、それぞれの処理の単位時間当たりの演算量を見積もる。そして、演算量が周波数／時間領域での比較抽出を行った方が少なくなる時間を閾値時間Ｔｔｈ（秒）として定めてもよい。

本実施例では、音声入力手段を有する撮像装置を例にして述べたが、その他の音声入力手段及び音声処理部を有する電子機器についても本手法は有効である。また、撮像装置で取得された雑音処理前の音声入力信号を動画データとして動画撮影時に記録しておき、音声処理部を有する外部演算処理装置に動画データを送信する。そして、外部演算処理装置内で上述の雑音低減処理を行うことも可能である。

２１入力音声３１周波数領域変換手段
２３周波数／時間領域比較抽出手段３４拡大類似領域制御手段

Claims

音声取得手段により取得した入力音声信号と、
実時間領域における前記入力音声信号を所定のフレームごとに周波数領域信号に変換し周波数／時間領域信号を取得する周波数／時間領域変換手段と、
実時間領域における前記入力音声信号に対し雑音低減対象である一定の大きさの参照領域を設定する参照領域制御手段と、
前記周波数／時間領域信号に対して参照領域と、その他の位置から参照領域と同じ大きさを切り出した比較領域との類似度を比較し類似領域を抽出する第１の比較抽出手段と、
前記第１の比較抽出手段により抽出された類似領域における実時間領域の入力音声信号、及びその近傍の入力音声信号を含む領域を拡大類似領域とする拡大類似領域制御手段と、
実時間領域において前記参照領域と、前記拡大類似領域内から参照領域と同じ大きさを切り出した実時間比較領域との類似度を比較し実時間類似領域を抽出する第２の比較抽出手段と、
前記第２の比較抽出手段から得られた実時間類似領域を用いて重みづけ加算を行い、参照領域を置換すべき信号を生成する置換信号生成手段と、
前記置換信号生成手段から得られる信号によって参照領域を置き換える音声信号置換手段と、
前記入力音声信号、及び周波数／時間領域信号を記録する記録手段
を有することを特徴とする音声処理装置。
前記第１の比較抽出手段が特定周波数帯域のみについて比較を行うことを特徴とする請求項１に記載の音声処理装置。
前記特定周波数帯域が被写体音の音声周波数帯域に基づき帯域が設定されることを特徴とする請求項２に記載の音声処理装置。
前記周波数／時間領域信号の情報は前記特定周波数帯域についてのみ前記記録手段に記録することを特徴とする請求項２または３に記載の音声処理装置
前記第１の比較抽出手段は、前記参照領域を時間方向にずらし比較して類似領域を抽出することを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
前記記録手段に予め保存された低減対象の雑音信号の特徴周波数情報を有し、
前記第１の比較抽出手段が、前記雑音信号の特徴周波数の帯域を省いて比較抽出を行うことを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。
前記周波数／時間領域変換手段における音声信号の前記フレームの長さが、被写体音声の基本周波数の少なくとも１周期を含むことを特徴とする請求項１乃至６のいずれか１項に記載の音声処理装置。
前記拡大類似領域は前記第１の比較抽出手段の領域から前後に被写体音声の基本周波数の少なくとも1周期を拡大した領域であることを特徴とする請求項１乃至７のいずれか１項に記載の音声処理装置。
前記入力音声信号の実時間の長さと前記周波数／時間領域変換手段の変換パラメータに基づき、実時間領域でのみ比較抽出を行うかを判断する比較抽出切換え手段を有することを特徴とする請求項１乃至８のいずれか１項に記載の音声処理装置。