JP6381366B2

JP6381366B2 - 音声処理装置、音声処理方法、及び、プログラム

Info

Publication number: JP6381366B2
Application number: JP2014171649A
Authority: JP
Inventors: 文裕梶村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2018-08-29
Anticipated expiration: 2034-08-26
Also published as: JP2016045456A

Description

本発明は、音声処理装置、音声処理方法、及び、プログラムに関する。

撮像した動画とともに音声を記録することができる撮像装置では、光学系の駆動により発生する雑音を含む音声が記録されてしまうことがある。
このような課題を解決するための従来技術は、例えば、特許文献１に開示されている。
特許文献１に開示の技術では、撮像装置のモータ（アイリスモータ、シャッタモータ、等）が駆動した場合に、モータの駆動する直前の音声を用いて、雑音が発生する期間の音声が補正される。

特開２００６−２０３３７６号公報

しかしながら、特許文献１の技術は循環バッファを必要とするため、特許文献１の技術を用いて雑音を低減できる期間の長さは、物理的な制限によって制限される。
そのため、特許文献１の技術を用いたとしても、雑音を高精度に低減することができないことがある。

本発明は、音声に含まれている雑音を高精度に低減することができる技術を提供することを目的とする。

本発明の第１の態様は、
第１音声信号を取得する第１取得手段と、
参照期間を設定する第１設定手段と、
前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第２設定手段と、
前記第１音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第１音声信号に施すことにより、第２音声信号を取得する第２取得手段と、
前記参照期間における第２音声信号を各比較期間における第２音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第２音声信号と類似した第２音声信号の期間である複数の類似期間を検出する検出手段と、
前記参照期間における第１音声信号と、前記複数の類似期間のそれぞれにおける第１音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成手段と、
前記参照期間における第１音声信号を前記置換信号に置換する置換手段と、
を有することを特徴とする音声処理装置である。

本発明の第２の態様は、
第１音声信号を取得する第１取得ステップと、
参照期間を設定する第１設定ステップと、
前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第２設定ステップと、
前記第１音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第１音声信号に施すことにより、第２音声信号を取得する第２取得ステップと、
前記参照期間における第２音声信号を各比較期間における第２音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第２音声信号と類似した第２音声信号の期間である複数の類似期間を検出する検出ステップと、
前記参照期間における第１音声信号と、前記複数の類似期間のそれぞれにおける第１音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成ステップと、
前記参照期間における第１音声信号を前記置換信号に置換する置換ステップと、
を有することを特徴とする音声処理方法である。

本発明の第３の態様は、上述した音声処理方法の各ステップをコンピュータに実行させることを特徴とするプログラムである。

本発明によれば、音声に含まれている雑音を高精度に低減することができる。

本実施形態に係る音声処理部の機能構成の一例を示すブロック図本実施形態に係る撮像装置の外観及び機能構成の一例を示す図本実施解体に係る雑音低減処理の一例を示す図本実施形態に係る各音声信号と減衰処理の特性の一例を示す図本実施解体に係る雑音低減処理の流れの一例を示すフローチャート本実施形態に係る音声処理部の機能構成の一例を示すブロック図従来の雑音低減処理の一例を示す図従来の雑音低減処理において生じる課題の一例を示す図

以下、図面を参照して本発明の実施形態に係る音声処理装置、撮像装置、及び、音声処理方法について詳細に説明する。
なお、以下の実施形態はあくまで一例であり、本発明は以下の実施形態に限定されない。

（撮像装置の構成）
本実施形態に係る音声処理装置の一例として、以下カメラ１について説明する。
図２（ａ）は、カメラ１の外観の一例を示す斜視図である。図２（ｂ）は、カメラ１の構成の一例を示すブロック図である。
図２（ｂ）に示すように、カメラ１は、カメラシステム制御部１０、撮像レンズ１１、マイクロフォン１２、撮像素子１３、画像処理部１４、レンズ駆動部１５、音声処理部１６、メモリ部１７、操作部１８、画像表示部１９、等を有する。

撮像レンズ１１を通過した光線は、撮像素子１３の近傍で結像をし、撮像素子１３に適正な時間だけ露光される。
撮像素子１３は、露光された光を電気信号（アナログ信号）に光電変換する。
画像処理部１４は、Ａ／Ｄ変換器、ホワイトバランス回路、ガンマ補正回路、補間演算回路、等の処理部（処理回路）を有する。画像処理部１４は、これらの処理部を用いて、撮像素子１３で生成されたアナログ信号に様々な処理を施すことにより、デジタル信号である撮像画像データを生成する。生成された撮像画像データは、カメラシステム制御部１
０を介して、メモリ部１７に記録される。
レンズ駆動部１５は、カメラシステム制御部１０からの指示（命令）に応じて撮像レンズ１１を駆動することにより、撮像レンズ１１の光学状態を調整する。具体的には、レンズ駆動部１５は、カメラシステム制御部１０からの指示に応じて、撮像レンズ１１が有するフォーカスレンズ群、絞り機構、手振れ防振機構、等を駆動する。
撮像素子１３に連続的に露光し、撮像素子１３からアナログ信号を読み出して撮像画像データを生成する処理を一定のフレームレートで行うことにより、動画の撮像を行うことができる。

マイクロフォン１２には、音声が入力される。マイクロフォン１２は、入力された音声を表す音声信号（アナログ信号またはデジタル信号）を生成する。本実施形態では、マイクロフォン１２は、動画の撮像中に入力された音声（被写体の音声を少なくとも含む音声）を表す音声信号を生成する。
音声処理部１６は、マイクロフォン１２で生成された音声信号を取得し、取得した音声信号に種々の処理を施すことにより、デジタル信号である音声信号（出力音声信号）を生成する。音声処理部１６が行う処理は、Ａ／Ｄ変換処理、雑音低減処理、等を含む。雑音低減処理は、マイクロフォン１２で生成された音声信号が表す音声に含まれている雑音を低減する処理である。雑音低減処理の詳細については後述する。生成された出力音声信号は、カメラシステム制御部１０を介して、メモリ部１７に記録される。出力音声信号は、例えば、動画の撮像画像データに対応付けられてメモリ部１７に記録される。

操作部１８は、カメラ１に対するユーザ操作を受け付ける。本実施形態では、操作部１８は、図２（ａ）のシャッターレリーズ釦１８ａを含む１つ以上の釦を有する。
カメラシステム制御部１０は、ユーザ操作に応じて生成された操作信号（タイミング信号）に応じて、カメラ１の各機能部を制御する。例えば、シャッターレリーズ釦１８ａの押下が検出されると、撮像素子１３の駆動、画像処理部１４の動作、音声処理部１６の動作、メモリ部１７に記録するデータや信号の圧縮処理、等が制御される。また、カメラシステム制御部１０は、画像表示部１９の画像や情報の表示を制御する。

（音声処理部１６の構成）
図２（ｂ）の音声処理部１６の構成について説明する。
動画撮像中にマイクロフォン１２で生成された音声信号が表す音声には、被写体の音声のみが含まれていることが好ましい。しかしながら、動画撮像中にマイクロフォン１２で生成された音声信号が表す音声には、撮像レンズ１１の駆動に伴って生じたレンズ駆動雑音、マイクロフォン１２の性能に起因して生じた白色雑音である暗雑音、等の雑音が重畳されていることがある。このように、マイクロフォン１２で生成された音声信号が表す音声には、雑音が含まれていることがある。
音声処理部１６は、雑音低減処理を行うことにより、上述した雑音を低減する。

図１は、音声処理部１６の機能構成の一例を示すブロック図である。
図１では、データ（信号）と機能部とを区別しやすくするために、駆動部は四隅がとがった四角、データ（信号）は四隅が丸まった四角で図示されている。
図１に示すように、音声処理部１６は、音声信号減衰部３１、類似期間検出部３２、置換信号生成部３３、参照期間設定部３４、音声信号置換部３５、等を有する。
図１において、入力音声信号２１は、音声信号であり、マイクロフォン１２で生成されたデジタル信号、マイクロフォン１２で生成されたアナログ信号にＡ／Ｄ変換処理を施したデジタル信号、等である。

音声信号減衰部３１は、入力音声信号２１（第１音声信号）を取得する（第１取得処理）。
また、音声信号減衰部３１は、注目帯域以外の周波数帯域である非注目帯域の音声信号を減衰させる減衰処理を入力音声信号２１に施すことにより、減衰音声信号（第２音声信号）を取得（生成）する（第２取得処理）。注目帯域は、入力音声信号２１に対する雑音低減処理において注目すべき周波数帯域である。減衰処理は、注目帯域の音声信号を抽出する抽出処理と言うこともできる。
音声信号減衰部３１は、減衰音声信号を類似期間検出部３２に出力する。

なお、減衰処理（抽出処理）の方法は特に限定されない。例えば、減衰処理は、注目帯域の音声信号を通過させるフィルタ（バンドパスフィルタ；ＢＰＦ）を用いたフィルタ処理であってもよい。
なお、注目帯域や非注目帯域は特に限定されない。注目帯域と非注目帯域は、予め定められた周波数帯域であってもよいし、ユーザによって設定可能なものであってもよい。例えば、注目帯域と非注目帯域の少なくとも一方が、撮像対象、カメラ１の動作モード、ユーザ操作、等に応じて決定されてもよい。

なお、人間が発する声がマイクロフォン１２に入力される音声として想定されている場合には、注目帯域は、人間が発する声の周波数帯域を含むことが好ましい。具体的には、注目帯域は、人間が発する声の第１フォルマントに相当する周波数帯域を含むことが好ましい。一般的に、成人が発する声の第１フォルマントの周波数帯域は、５００Ｈｚ以上且つ１５００Ｈｚ以下の周波数帯域と言われている。そのため、注目帯域は、５００Ｈｚ以上且つ１５００Ｈｚ以下の周波数帯域を含むことが好ましい。また、成人が発する声の第２フォルマントの周波数帯域は、１５００Ｈｚ以上且つ３０００Ｈｚ以下の周波数帯域と言われている。そして、成人が発する声には、第２フォルマントの周波数よりも高い周波数帯域に、第３フォルマントの周波数および第４フォルマントの周波数が存在していると言われている。
本実施形態では、注目帯域が、第１フォルマントの周波数帯域と第２フォルマントの周波数帯域とを含む周波数帯域である場合の例を説明する。具体的には、注目帯域が、５００Ｈｚ以上且つ３０００Ｈｚ以下の周波数帯域である場合の例を説明する。
なお、第１取得処理は、音声信号減衰部３１とは異なる機能部によって実行されてもよい。

参照期間設定部３４は、音声信号減衰部３１から出力された減衰音声信号に対して、参照期間を設定する（第１設定処理）。参照期間は、雑音低減処理の対象の期間である。本実施形態では、参照期間として、所定の時間幅を有する期間が設定される。参照期間設定部３４は、参照期間を類似期間検出部３２に通知する。
なお、参照期間の時間幅は予め定められていなくてもよい。例えば、参照期間の時間幅は、撮像対象、カメラ１の動作モード、ユーザ操作、等に応じて決定されてもよい。

類似期間検出部３２は、音声信号減衰部３１から出力された減衰音声信号に対して、複数の比較期間を設定する（第２設定処理）。比較期間は、参照期間と同じ時間幅を有する期間であり、且つ、参照期間とは異なる期間である。
また、類似期間検出部３２は、参照期間における減衰音声信号を各比較期間における減衰音声信号と比較する。そして、類似期間検出部３２は、その比較結果に基づいて、複数の比較期間の中から、参照期間における減衰音声信号と類似した減衰音声信号の期間である複数の類似期間を検出する（検出処理）。例えば、参照期間における減衰音声信号との減衰音声信号の類似度が高い比較期間から順番にＮ個（Ｎは２以上の整数）の比較期間のそれぞれが、類似期間として検出される。
そして、類似期間検出部３２は、各類似期間を少なくとも表す類似期間信号２２を出力する。本実施形態では、類似期間信号２２として、複数の類似期間にそれぞれ対応する複数の信号類似度の大小関係をさらに表す信号が、生成され、出力される。信号類似度は、
参照期間における減衰音声信号と類似期間における減衰音声信号との間の類似度である。

なお、第２設定処理は、類似期間検出部３２とは異なる機能部によって実行されてもよい。
なお、類似期間の検出方法は上記方法に限らない。例えば、信号類似度が閾値以上である複数の比較期間のうち、参照期間に時間的に近い比較期間から順番にＮ個の比較期間のそれぞれが、類似期間として検出されてもよい。
なお、Ｎの値は、予め定められた固定値であってもよいし、ユーザによって設定されてもよい。例えば、Ｎの値は、撮像対象、カメラ１の動作モード、ユーザ操作、等に応じて決定されてもよい。

置換信号生成部３３は、参照期間における入力音声信号と、複数の類似期間のそれぞれにおける入力音声信号と、に基づいて、置換信号２３を生成する。置換信号２３は、参照期間における出力音声信号として設定すべき音声信号である。参照期間における入力音声信号は、参照期間における減衰音声信号に対応する入力音声信号であり、類似期間における入力音声信号は、類似期間における減衰音声信号に対応する入力音声信号である。

音声信号置換部３５は、参照期間における入力音声信号を置換信号２３に置換することにより、出力音声信号２４を生成する。

（従来の雑音低減処理）
従来の雑音低減処理の一例について説明する。詳細は以下で述べるが、従来の雑音低減処理では、減衰音声信号は生成されない。
図７（ａ）〜７（ｅ）は、従来の雑音低減処理の一例を示す模式図である。図７（ａ）の上側には、被写体の音声に白色雑音（暗雑音）が重畳された入力音声信号の一例が示されている。図７（ａ）の下側には、参照期間における入力音声信号と各類似期間における入力音声信号とが、他の期間における入力音声信号から切り離されて図示されている。図７（ｂ）は、置換信号の一例を示す。図７（ｃ）は、参照期間における入力音声信号を置換信号に置き換えて得られる出力音声信号の一例を示す。図７（ｄ）は、出力音声信号の他の例を示す。図７（ｅ）は、被写体の音声に対して一時的にレンズ駆動雑音が重畳された入力音声信号の一例を示す。図７（ａ）〜７（ｅ）において、横軸は時間位置を示し、縦軸は音声信号レベル（音声信号の信号レベル）を示す。図７（ａ）の上側，７（ｃ），７（ｄ），７（ｅ）は、入力音声信号２１や出力音声信号２４の一部を拡大した拡大図である。図７（ａ）の上側，７（ｃ），７（ｄ），７（ｅ）に示す音声信号は、０．２秒程度の音声信号である。図７（ａ）の上側の音声信号を局所的に観察すると、音声信号の繰り返し性が非常に高いことが分かる。以下で説明する従来の雑音低減処理は、音声信号が有する短時間での繰り返し性の高さに着目した処理である。短時間での繰り返し性の高さは、本実施形態でも着目される。

まず、図７（ａ）に示すように、入力音声信号に対して、参照期間１００が設定される。参照期間における入力音声信号に第１フォルマントの周波数の１周期分の音声信号が含まれるように、参照期間の長さ（時間）が設定されていることが好ましい。即ち、参照期間の長さは、第１フォルマントの周波数の１周期以上であることが好ましい。例えば、成人が発する声の第１フォルマントの周波数は５００Ｈｚ以上且つ１０００Ｈｚ以下の周波数と言われているため、参照期間の長さは、２ｍｓｅｃ（＝０．００２ｓｅｃ＝１÷５００Ｈｚ）以上であることが好ましい。

次に、複数の比較期間が設定される。例えば、参照期間に対して時間的に前の期間と、参照期間に対して時間的に後の期間と、の少なくとも一方を含む複数の期間が、複数の比較期間として設定される。上述したように、比較期間の時間幅は、参照期間の時間幅と等
しい。
なお、比較期間と、当該比較期間に隣接する隣接期間（参照期間または比較期間）と、の間の時間差は、特に限定されない。上記時間差は、例えば、処理負荷、想定される音声の周波数、等を考慮して決定される。上記時間差は、音声信号レベルのサンプリングレートの１ビット分であることが好ましい。比較期間の一部が隣接期間の一部に重畳されていてもよいし、比較期間は隣接期間から離れていてもよい。

そして、参照期間１００における入力音声信号を各比較期間における入力音声信号と比較することにより、複数の比較期間の中から複数の類似期間が検出される。図７（ａ）の例では、３つの類似期間１０１ａ，１０１ｂ，１０１ｃが検出されている。

類似期間の検出方法の一例を以下に説明する。
なお、類似期間の検出方法は、以下の方法に限らない。

まず、比較期間毎に、参照期間における入力音声信号と比較期間における入力音声信号との間の類似度が算出される。類似度は、例えば、以下の式１を用いて算出される。

参照期間及び比較期間は、Ｍ個（Ｍは２以上の整数）の離散時間位置を含む。Ｍの値は、参照期間（または比較期間）の長さを音声信号レベルのサンプリングレートで除算することにより、算出することができる。式１において、Ｓ_Ｃ（ｉ）は比較期間のｉ番目（ｉは１以上且つＭ以下の整数）の離散時間位置における入力信号レベル（入力音声信号の信号レベル）であり、Ｓ_Ｒ（ｉ）は参照期間のｉ番目の離散時間位置における入力信号レベルである。Ｄは、非類似度である。類似度は、例えば、非類似度Ｄの逆数である。

式１では、各離散時間位置におけるレベル差（参照期間における入力信号レベルと比較期間における入力信号レベルとの間の差の絶対値）の総和が、非類似度Ｄとして算出される。そのため、比較期間における入力音声信号が参照期間における入力音声信号に近いほど小さい値が、非類似度Ｄとして算出される。そして、比較期間における入力音声信号が参照期間における入力音声信号と完全に一致する場合に、非類似度Ｄとして０が算出される。

次に、類似度が高い比較期間から順番にＮ個（Ｎは３以上の整数）の比較期間のそれぞれが、類似期間として検出される。具体的には、非類似度Ｄが小さい比較期間から順番にＮ個の比較期間のそれぞれが、類似期間として検出される。

類似期間が検出された後、参照期間における入力音声信号と、各類似期間における入力音声信号と、を用いて、置換信号が生成される。置換信号は、例えば、以下の式２を用いて算出される。

式２において、ｉとＭは式１と同じである。Ｎは類似期間の総数であり、Ｋは類似期間
の番号である。Ｋは、１以上且つＮ以下の整数である。Ｓ_Ｏ（ｉ）はｉ番目の離散時間位置における置換信号レベル（置換信号の信号レベル）であり、Ｓ_Ｒ（ｉ）は参照期間のｉ番目の離散時間位置における入力信号レベルである。Ｓ_ＣＫ（ｉ）は、番号Ｋの類似期間のｉ番目の離散時間位置における入力信号レベルである。ｗ_Ｒは参照期間における入力音声信号の重みであり、ｗ_Ｋは番号Ｋの類似期間における入力音声信号の重みである。式２では、参照期間における入力音声信号と各類似期間における入力音声信号とを重みづけ加算することにより、置換信号が生成される。類似期間における音声信号の重みｗ_Ｋとしては、例えば、参照期間における音声信号との音声信号の類似度が高いほど大きい重みが使用される。即ち、重みｗ_Ｋとしては、非類似度Ｄが小さいほど大きい重みが使用される。

図７（ｂ）の音声信号１０２は、参照期間１００における入力音声信号と、類似期間１０１ａ，１０１ｂ，１０１ｃにおける入力音声信号と、を用いて生成された置換信号である。図７（ｂ）から、雑音が低減された音声信号が置換信号１０２として生成されていることがわかる。
なお、置換信号の生成方法は上記方法に限らない。例えば、重みｗ_Ｒ，ｗ_Ｋとして１を使用し、参照期間における入力音声信号と各類似期間における入力音声信号との平均の音声信号が、置換信号として生成されてもよい。また、重みｗ_Ｋとして、参照期間と類似期間の間の時間差が小さいほど大きい重みが使用されてもよい。

次に、参照期間１００における入力音声信号が、置換信号１０２に置換される。それにより、図７（ｃ）の出力音声信号が生成される。図７（ｃ）の出力音声信号では、参照期間１００における暗雑音が低減されている。
図７（ａ）の例では、入力音声信号の全期間にわたって暗雑音が重畳されている。参照期間の時間位置を少しずつずらしながら上述した処理を繰り返し行うことにより、図７（ｄ）の出力音声信号を生成することができる。図７（ｄ）の出力音声信号では、入力音声信号の全期間にわたって暗雑音が低減されている。
なお、暗雑音以外の雑音についても、上述した処理により低減することができる。例えば、図７（ｅ）の入力音声信号に重畳されている雑音（一部の期間１０３に重畳されているレンズ駆動雑音）も、上述した処理により低減することができる。具体的には、参照期間１０４ａと参照期間１０４ｂを含む複数の参照期間を順番に設定して上述した処理を行うことにより、図７（ｅ）の入力音声信号に重畳されている全てのレンズ駆動雑音を低減することができる。

しかしながら、上述した従来の雑音低減処理では、高精度に雑音を低減することができないことがある。以下、図８（ａ）〜８（ｄ）を用いて、従来の雑音低減処理において生じる課題について説明する。

図８（ａ）は、被写体の音声を表す音声信号（被写体音声信号；雑音が重畳されていない音声信号）の一例を示す図である。図８（ｂ）は、雑音を表す音声信号（雑音信号）の一例を示す図である。図８（ｃ）は、図８（ａ）の被写体音声信号に図８（ｂ）の雑音信号が重畳された音声信号を示す図である。図８（ｄ）は、図８（ａ）の被写体信号に風雑音と暗雑音とが重畳された音声信号の一例を示す図である。以下では、簡略化のために被写体の音声を表す音声信号の周波数がＦｂ［Ｈｚ］であるものとする。

図８（ｂ）に示す雑音の周波数［Ｈｚ］及びパワー（大きさ）［ｄＢ］は、図７（ａ）の入力音声信号に重畳されている暗雑音に比べて大きい。そのため、図８（ｃ）に示す音声信号が入力音声信号である場合、入力音声信号に対する雑音の影響が大きいため、類似期間として検出されるべき比較期間の信号類似度が低下し、類似期間の検出精度が低下してしまう。具体的には、被写体音声信号の繰り返し単位の比較期間が類似期間として検出され難くなる。このように、入力音声信号に重畳されている雑音の周波数及びパワーが大
きい場合、類似期間の検出精度が低下してしまう。その結果、雑音低減処理の処理精度が低下してしまう。
周波数及びパワーが大きい雑音は、例えば、手振れ防振機構の駆動雑音である。

図８（ｄ）に示す音声信号（風雑音が重畳されている音声信号）が入力音声信号である場合にも、類似期間の検出精度が低下し、雑音低減処理の処理精度が低下してしまう。風雑音は、低周波成分を多く含む。一般的には、風雑音は、４００Ｈｚ以下の周波数帯域に強いパワーを有すると言われている。低周波成分を多く含む雑音が入力音声信号に重畳されている場合にも、類似期間の高精度な検出が困難となる。その結果、類似期間の検出精度が低下し、雑音低減処理の処理精度が低下してしまう。

（本実施形態に係る雑音低減処理）
そこで、本実施形態では、入力音声信号に減衰処理を施すことにより、低周波成分を多く含む雑音、周波数及びパワーが大きい雑音、等が低減された減衰音声信号を取得（生成）する。そして、入力音声信号の代わりに減衰音声信号を用いて、類似期間を検出する。その後、上述した従来の雑音低減処理と同様に、入力音声信号を用いて置換信号及び出力音声信号を生成する。減衰音声信号を用いることにより、類似期間を高精度に検出することができる。その結果、音声に含まれている雑音を高精度に低減することができる。
本実施形態に係る雑音低減処理の一例について説明する。

図３（ａ）は、被写体音声信号の一例を示す図であり、図３（ｂ）は、周波数及びパワーが大きい雑音を表す雑音信号の一例を示す図である。図３（ｃ）は、入力音声信号の一例を示す図であり、図３（ｄ）は、減衰音声信号の一例を示す図である。図３（ｃ）の下側には、図３（ａ）の被写体音声信号に図３（ｂ）の雑音信号が重畳された入力音声信号の一例が示されている。図３（ｃ）の上側には、参照期間における入力音声信号と各類似期間における入力音声信号とが、他の期間における入力音声信号から切り離されて図示されている。図３（ｄ）の減衰音声信号は、図３（ｃ）の入力音声信号に減衰処理を施すことにより得られた音声信号である。

図４（ａ），４（ｂ）は、各音声信号の周波数特性及び減衰処理の処理特性（フィルタ特性）の一例を示す図である。
図４（ａ），４（ｂ）において、横軸は周波数を示し、縦軸はパワーを示す。
図４（ａ）において、実線６１は、図３（ａ）の被写体音声信号の周波数特性を表し、破線６２は、図３（ｂ）の雑音信号の周波数特性を表す。図４（ａ），４（ｂ）において、太実線６３は、図３（ｃ）の入力音声信号の周波数特性を表す。図４（ｂ）において、一点鎖線６４は、減衰処理のフィルタ特性を表し、実線６５は、図３（ｄ）の減衰音声信号の周波数特性を表す。

被写体音声信号の周波数特性６１は、周波数帯域Ｆ１，Ｆ２，Ｆ３，Ｆ４にピークを有する。周波数帯域Ｆ１が第１フォルマントの周波数帯域であり、周波数帯域Ｆ２が第２フォルマントの周波数帯域であり、周波数帯域Ｆ３が第３フォルマントの周波数帯域であり、周波数帯域Ｆ４が第４フォルマントの周波数帯域である。
雑音信号の周波数特性６２は、高周波数の側にある周波数帯域Ｆ４に、他の周波数帯域よりも強めの成分が存在している。このような成分は、類似期間の検出精度を低下させる。
本実施形態では、フィルタ特性６４を有するフィルタを用いた減衰処理（フィルタ処理）を行うことにより、入力音声信号から、第１フォルマントの周波数帯域Ｆ１と第２フォルマントの周波数帯域Ｆ２とを含む周波数帯域の音声信号が抽出される。
そのため、減衰音声信号の周波数特性６５では、周波数帯域Ｆ２よりも高い周波数の成分が入力音声信号の周波数特性６３から低減されている。
このように、本実施形態では、減衰処理を行うことにより、類似期間の検出精度を低下させる成分が低減された減衰音声信号が得られる。
なお、図３（ａ）〜３（ｂ）と図４（ａ），４（ｂ）とを用いて、周波数及びパワーが大きい雑音を低減する減衰処理を説明したが、上記減衰処理と同様の方法で他の雑音（低周波成分を多く含む雑音、等）を低減することもできる。

図５は、本実施形態に係る雑音低減処理の流れの一例を示すフローチャートである。
以下、本実施形態に係る雑音低減処理の流れの一例について説明する。

まず、音声処理部１６が、マイクロフォン１２から入力音声信号を取得し、メモリ部１７に記録する（Ｓ１１０）。例えば、図３（ｃ）の入力音声信号が取得される。
次に、音声信号減衰部３１が、Ｓ１１０で取得された入力音声信号に減衰処理を施すことにより、減衰音声信号を生成する（Ｓ１１１）。例えば、図３（ｄ）の減衰音声信号が生成される。

そして、参照期間設定部３４が、Ｓ１１１で生成された減衰音声信号に対して、参照期間を設定する（Ｓ１１２）。参照期間の情報は、類似期間検出部３２と置換信号生成部３３とに出力される。例えば、図３（ｄ）の参照期間５１が設定される。
次に、類似期間検出部３２が、Ｓ１１１で生成された減衰音声信号を用いて、複数の類似期間を検出する（Ｓ１１３）。具体的には、入力音声信号の代わりに減衰音声信号を用いて従来の処理と同様の処理を行うことにより、複数の類似期間が検出される。例えば、図３（ｄ）の３つの類似期間５２ａ，５２ｂ，５２ｃが検出される。類似期間検出部３２は、検出した各類似期間を表す類似期間信号を置換信号生成部３３に出力する。例えば、図３（ｄ）の時刻ｔ１，ｔ２，ｔ３を表す情報が、類似期間信号として出力される。

そして、置換信号生成部３３が、Ｓ１１０で取得された入力音声信号から、Ｓ１１２で設定された参照期間における入力音声信号と、Ｓ１１３で検出された複数の類似期間における入力音声信号と、を抽出する（Ｓ１１４）。例えば、図３（ｃ）の上側に示すように、参照期間５１における入力音声信号４１、類似期間５２ａにおける入力音声信号４２ａ、類似期間５２ｂにおける入力音声信号４２ｂ、及び、類似期間５２ｃにおける入力音声信号４２ｃ、が抽出される。

次に、置換信号生成部３３が、Ｓ１１４で抽出された入力音声信号を用いて、置換信号を生成する（Ｓ１１５）。置換信号は、従来の処理と同様の処理により生成される。置換信号生成部３３は、生成した置換信号を音声信号置換部３５に出力する。
そして、音声信号置換部３５が、Ｓ１１２で設定された参照期間における入力音声信号をＳ１１５で生成された置換信号に置換することにより、出力音声信号を生成または更新する（Ｓ１１６）。１回目の処理では、Ｓ１１０で取得された入力音声信号の一部がＳ１１５で生成された置換信号に置換される。それにより、出力音声信号が生成される。２回目以降の処理では、前回のＳ１１６で生成された出力音声信号の一部がＳ１１５で生成された置換信号に置換される。それにより、出力音声信号が更新される。
次に、置換信号生成部３３が、Ｓ１１６で得られた出力音声信号を、メモリ部１７に記録する（Ｓ１１７）。１回目の処理では、Ｓ１１６で得られた出力音声信号がメモリ部１７に新規保存され、２回目以降の処理では、メモリ部１７に記録されている出力音声信号がＳ１１６で得られた出力音声信号に更新される。

そして、参照期間設定部３４が、雑音を低減すべき期間であり、且つ、参照期間として設定されていない期間である、未処理期間が存在するかを判断する（Ｓ１１８）。未処理期間が存在する場合には、Ｓ１１２に処理が戻される。そして、Ｓ１１２において、未処理期間の少なくとも一部を含む参照期間が設定される。その後、Ｓ１１３〜Ｓ１１８の処
理が行われる。そして、未処理期間が存在しなくなるまで、Ｓ１１２〜Ｓ１１８の処理が繰り返し行われる。未処理期間が存在しなくなると、本フローが終了される。
なお、複数の参照期間の設定方法は特に限定されない。複数の参照期間は、例えば、時間位置を少しずつずらしながら順番に設定される。参照期間の一部が隣接参照期間の一部に重畳されていてもよいし、参照期間が隣接参照期間から離れていてもよい。参照期間の終了時間位置と隣接参照期間の開始時間位置とが一致するように、複数の参照期間が設定されてもよい。隣接参照期間は、参照期間に隣接する参照期間である。

Ｓ１１１では、類似期間の検出精度を低下させる成分が低減された減衰音声信号が得られる。減衰処理のフィルタ特性が図４（ｂ）のフィルタ特性６４である場合には、第１フォルマントの周波数帯域と第２フォルマントの周波数帯域とを含む注目帯域における音声信号（被写体音声信号及び雑音信号）を表す減衰音声信号が得られる。換言すれば、低周波数の側及び低周波数の側の音声信号（被写体音声信号及び雑音信号）を減衰させた減衰音声信号が得られる。そして、Ｓ１１３では、このような減衰音声信号を用いて複数の類似期間が検出される。それにより、複数の類似期間を高精度に検出することができる。具体的には、注目帯域における音声信号に着目して類似期間が検出されるため、高精度に類似期間を検出することができる。

ここで、減衰音声信号では、図４（ｂ）の減衰音声信号の周波数特性６５に示すように、非注目帯域（注目帯域以外の周波数帯域）における雑音信号だけでなく、非注目帯域における被写体音声信号も減衰している。そのため、図３（ａ）の被写体音声信号のうち、低周波数の側及び低周波数の側の音声信号は、図３（ｄ）の減衰音声信号には含まれていない。そのため、図３（ｄ）の減衰音声信号（参照期間５１における減衰音声信号、及び、３つの類似期間５２ａ，５２ｂ，５２ｃのそれぞれにおける減衰音声信号）を用いて置換信号を生成すると、被写体の音声が劣化した置換信号が生成されてしまう。具体的には、低周波数の側及び低周波数の側の被写体音声信号を含まない置換信号が生成されてしまう。その結果、被写体の音声が劣化した出力音声信号が生成されてしまう。

本実施形態では、Ｓ１１５において、減衰されていない入力音声信号（全周波数帯域における音声信号）を用いて、置換信号が生成される。それにより、被写体の音声が劣化しておらず、且つ、雑音が高精度に低減された置換信号を生成することができる。その結果、雑音が高精度に低減された出力音声信号を生成することができる。
具体的には、ランダム性の高い雑音は、Ｓ１１５の処理（例えば、参照期間における入力音声信号と、各類似期間における入力音声信号と、を重みづけ合成する処理）によって低減することができる。例えば、風雑音はランダム性が非常に高いため、Ｓ１１５の処理によって低減することができる。そして、類似期間が高精度に検出されているため、Ｓ１１５の処理によって雑音を高精度に低減することができる。
また、繰り返し性の高い被写体音声信号は、Ｓ１１５の処理によって、低減されず、強調される。そして、入力音声信号では、全周波数帯域において音声信号が減衰されていないため、上述した被写体の音声の劣化を抑制することができる。

以上述べたように、本実施形態によれば、減衰音声信号を用いて複数の類似期間が検出される。それにより、複数の類似期間を高精度に検出することができる。そして、本実施形態によれば、入力音声信号（参照期間における入力音声信号、及び、複数の類似期間のそれぞれにおける入力音声信号）を用いて置換信号が生成される。それにより、雑音が高精度に低減され、且つ、被写体の音声をよく表す置換信号及び出力音声信号を生成することができる。

なお、注目帯域は、５００Ｈｚ以上且つ３０００Ｈｚ以下の周波数帯域に限らない。類似期間の検出精度に影響を与える雑音が小さい場合には、注目帯域が広いほど高精度に類
似範囲を検出することができる。そのため、類似期間の検出精度に影響を与える雑音として想定される雑音（想定雑音）の周波数に基づいて、注目帯域を決定することが好ましい。例えば、想定雑音が撮像レンズ１１の駆動に伴うレンズ駆動雑音であり、且つ、当該レンズ駆動雑音が８０００Ｈｚの近傍に強い成分を有する場合には、５００Ｈｚ以上且つ７０００Ｈｚ以下の周波数帯域が注目帯域として設定されてもよい。７０００Ｈｚ以下の周波数帯域が注目帯域として設定されてもよい。想定雑音が風雑音である場合には、５００Ｈｚ以上の周波数帯域が注目帯域として設定されてもよい。

なお、注目帯域は固定値でなくてもよい。
例えば、音声処理装置や撮像装置が複数の動作モードを有しており、複数の動作モードにそれぞれ対応する複数の周波数帯域が予め定められていてもよい。そして、音声処理装置は、複数の周波数帯域の中から、設定されている動作モードに対応する周波数帯域を、注目帯域として選択する選択部を有していてもよい。
具体的には、複数の動作モードは、屋内での撮像時に設定すべき屋内撮像モード、屋外での撮像時に設定すべき屋外撮像モード、等を含む。そして、屋内撮像モードが設定されている場合には、風雑音が重畳されていないと判断され、３０００Ｈｚ以下の周波数帯域が注目帯域として設定される。屋外撮像モードが設定されている場合には、風雑音が重畳されていると判断され、５００Ｈｚ以上の周波数帯域が注目帯域として設定される。

また、撮像装置が有する光学レンズの複数の駆動状態にそれぞれ対応する複数の周波数帯域が予め定められていてもよい。そして、音声処理装置は、複数の周波数帯域の中から、光学レンズの駆動状態に対応する周波数帯域を、注目帯域として選択する選択部を有していてもよい。
なお、入力音声信号にレンズ駆動雑音が重畳されている場合には、撮像装置が有する光学レンズの駆動期間を、参照期間として設定すればよい。具体的には、カメラシステム制御部１０からの駆動命令に応じてレンズ駆動部１５が撮像レンズ１１を駆動している期間を、参照期間として設定すればよい。

また、音声処理装置は、入力音声信号に基づいて注目帯域（または非注目帯域）を決定する決定部を有していてもよい。例えば、決定部は、入力音声信号における第１フォルマントの周波数を検出し、検出した周波数を含む周波数帯域を、注目帯域として決定する。
入力音声信号に基づく注目帯域の決定方法は特に限定されない。入力音声信号に基づく注目帯域は、例えば、入力音声信号を用いた周波数解析の結果に基づいて決定することができる。

具体的には、図６に示すように、音声処理部１６が、周波数解析部３７と注目帯域決定部３６とをさらに有していてもよい。図６は、音声処理部１６の機能構成の一例を示すブロック図である。図６において、図１と同じ機能部には図１と同じ符号を付し、その説明は省略する。
周波数解析部３７は、入力音声信号２１を周波数解析することにより、入力音声信号２１（入力音声信号２１が含む被写体音声信号）における第１フォルマントの周波数を検出する。例えば、周波数解析部３７は、入力音声信号２１をフーリエ変換し、フーリエ変換の結果に基づいて第１フォルマントの周波数を検出する。
なお、入力音声信号２１（入力音声信号２１が含む被写体音声信号）における特徴的な他の周波数をさらに含む複数の周波数が検出されてもよい。
注目帯域決定部３６は、周波数解析部３７で検出された１つ以上の周波数（検出周波数）を含む周波数帯域を注目帯域として決定する。１つ以上の検出周波数は、第１フォルマントの周波数を含む。
一般的には、成人が発する声の第１フォルマントの周波数帯域は、５００Ｈｚ以上且つ１５００Ｈｚ以下の周波数帯域と言われている。図６の構成によれば、被写体音声信号の
第１フォルマントの周波数が５００Ｈｚ以上且つ１５００Ｈｚ以下の周波数帯域の外側の周波数である場合にも、適切な検出帯域を設定することができ、適切な雑音低減処理を行うことができる。

なお、本実施形態では、音声処理装置としてカメラ１のような撮像装置を例示し、撮像装置が上述した雑音低減処理を実行する例を説明したが、これに限らない。撮像装置と異なる他の電子機器が上述した雑音低減処理を実行してもよい。

＜その他の実施形態＞
記憶装置に記録されたプログラムを読み込み実行することで前述した実施形態の機能を実現するシステムや装置のコンピュータ（又はＣＰＵ、ＭＰＵ等のデバイス）によっても、本発明を実施することができる。また、例えば、記憶装置に記録されたプログラムを読み込み実行することで前述した実施形態の機能を実現するシステムや装置のコンピュータによって実行されるステップからなる方法によっても、本発明を実施することができる。この目的のために、上記プログラムは、例えば、ネットワークを通じて、又は、上記記憶装置となり得る様々なタイプの記録媒体（つまり、非一時的にデータを保持するコンピュータ読取可能な記録媒体）から、上記コンピュータに提供される。したがって、上記コンピュータ（ＣＰＵ、ＭＰＵ等のデバイスを含む）、上記方法、上記プログラム（プログラムコード、プログラムプロダクトを含む）、上記プログラムを非一時的に保持するコンピュータ読取可能な記録媒体は、いずれも本発明の範疇に含まれる。

１：カメラ１１：撮像レンズ１５：レンズ駆動部１６：音声処理部
３１：音声信号減衰部３２：類似期間検出部３３：置換信号生成部
３４：参照期間設定部３５：音声信号置換部

Claims

第１音声信号を取得する第１取得手段と、
参照期間を設定する第１設定手段と、
前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第２設定手段と、
前記第１音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第１音声信号に施すことにより、第２音声信号を取得する第２取得手段と、
前記参照期間における第２音声信号を各比較期間における第２音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第２音声信号と類似した第２音声信号の期間である複数の類似期間を検出する検出手段と、
前記参照期間における第１音声信号と、前記複数の類似期間のそれぞれにおける第１音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成手段と、
前記参照期間における第１音声信号を前記置換信号に置換する置換手段と、
を有することを特徴とする音声処理装置。
前記減衰処理は、前記対象帯域の音声信号を抽出する抽出処理である
ことを特徴とする請求項１に記載の音声処理装置。
前記減衰処理は、前記対象帯域の音声信号を通過させるフィルタを用いたフィルタ処理である
ことを特徴とする請求項１または２に記載の音声処理装置。
前記対象帯域は、５００Ｈｚ以上且つ１５００Ｈｚ以下の周波数帯域を含む
ことを特徴とする請求項１〜３のいずれか１項に記載の音声処理装置。
複数の動作モードにそれぞれ対応する複数の周波数帯域が予め定められており、
前記音声処理装置は、前記複数の周波数帯域の中から、設定されている動作モードに対応する周波数帯域を、前記対象帯域として選択する選択手段、をさらに有する
ことを特徴とする請求項１〜４のいずれか１項に記載の音声処理装置。
前記第１音声信号に基づいて前記対象帯域を決定する決定手段、をさらに有する
ことを特徴とする請求項１〜４のいずれか１項に記載の音声処理装置。
前記決定手段は、前記第１音声信号を用いた周波数解析の結果に基づいて前記対象帯域を決定する
ことを特徴とする請求項６に記載の音声処理装置。
前記決定手段は、前記第１音声信号における第１フォルマントの周波数を含む周波数帯域を、前記対象帯域として決定する
ことを特徴とする請求項６または７に記載の音声処理装置。
前記生成手段は、前記参照期間における第１音声信号と、前記複数の類似期間のそれぞれにおける第１音声信号と、を重みづけ加算することにより、前記置換信号を生成する
ことを特徴とする請求項１〜８のいずれか１項に記載の音声処理装置。
前記生成手段は、前記類似期間における第１音声信号の重みとして、前記参照期間における第２音声信号との第２音声信号の類似度が高いほど大きい重みを使用する
ことを特徴とする請求項９に記載の音声処理装置。
前記検出手段は、前記参照期間における第２音声信号との第２音声信号の類似度が高い比較期間から順番にＮ個（Ｎは２以上の整数）の比較期間のそれぞれを、前記類似期間として検出する
ことを特徴とする請求項１〜１０のいずれか１項に記載の音声処理装置。
光学レンズと、
前記光学レンズを駆動する駆動手段と、
を有し、
前記第１設定手段は、前記光学レンズの駆動期間を前記参照期間として設定する
ことを特徴とする請求項１〜１１のいずれか１項に記載の音声処理装置。
第１音声信号を取得する第１取得ステップと、
参照期間を設定する第１設定ステップと、
前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第２設定ステップと、
前記第１音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第１音声信号に施すことにより、第２音声信号を取得する第２取得ステップと、
前記参照期間における第２音声信号を各比較期間における第２音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第２音声信号と類似した第２音声信号の期間である複数の類似期間を検出する検出ステップと、
前記参照期間における第１音声信号と、前記複数の類似期間のそれぞれにおける第１音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成ステップと、
前記参照期間における第１音声信号を前記置換信号に置換する置換ステップと、
を有することを特徴とする音声処理方法。
請求項１３に記載の音声処理方法の各ステップをコンピュータに実行させることを特徴とするプログラム。