JP6381366B2 - 音声処理装置、音声処理方法、及び、プログラム - Google Patents

音声処理装置、音声処理方法、及び、プログラム Download PDF

Info

Publication number
JP6381366B2
JP6381366B2 JP2014171649A JP2014171649A JP6381366B2 JP 6381366 B2 JP6381366 B2 JP 6381366B2 JP 2014171649 A JP2014171649 A JP 2014171649A JP 2014171649 A JP2014171649 A JP 2014171649A JP 6381366 B2 JP6381366 B2 JP 6381366B2
Authority
JP
Japan
Prior art keywords
audio signal
signal
period
reference period
periods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014171649A
Other languages
English (en)
Other versions
JP2016045456A5 (ja
JP2016045456A (ja
Inventor
文裕 梶村
文裕 梶村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014171649A priority Critical patent/JP6381366B2/ja
Publication of JP2016045456A publication Critical patent/JP2016045456A/ja
Publication of JP2016045456A5 publication Critical patent/JP2016045456A5/ja
Application granted granted Critical
Publication of JP6381366B2 publication Critical patent/JP6381366B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声処理装置、音声処理方法、及び、プログラムに関する。
撮像した動画とともに音声を記録することができる撮像装置では、光学系の駆動により発生する雑音を含む音声が記録されてしまうことがある。
このような課題を解決するための従来技術は、例えば、特許文献1に開示されている。
特許文献1に開示の技術では、撮像装置のモータ(アイリスモータ、シャッタモータ、等)が駆動した場合に、モータの駆動する直前の音声を用いて、雑音が発生する期間の音声が補正される。
特開2006−203376号公報
しかしながら、特許文献1の技術は循環バッファを必要とするため、特許文献1の技術を用いて雑音を低減できる期間の長さは、物理的な制限によって制限される。
そのため、特許文献1の技術を用いたとしても、雑音を高精度に低減することができないことがある。
本発明は、音声に含まれている雑音を高精度に低減することができる技術を提供することを目的とする。
本発明の第1の態様は、
1音声信号を取得する第1取得手段と、
参照期間を設定する第1設定手段と、
前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第2設定手段と、
前記第1音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第1音声信号に施すことにより、第2音声信号を取得する第2取得手段と、
前記参照期間における第2音声信号を各比較期間における第2音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第2音声信号と類似した第2音声信号の期間である複数の類似期間を検出する検出手段と、
前記参照期間における第1音声信号と、前記複数の類似期間のそれぞれにおける第1音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成手段と、
前記参照期間における第1音声信号を前記置換信号に置換する置換手段と、
を有することを特徴とする音声処理装置である。
本発明の第2の態様は、
1音声信号を取得する第1取得ステップと、
参照期間を設定する第1設定ステップと、
前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第2設定ステップと、
前記第1音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第1音声信号に施すことにより、第2音声信号を取得する第2取得ステップと、
前記参照期間における第2音声信号を各比較期間における第2音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第2音声信号と類似した第2音声信号の期間である複数の類似期間を検出する検出ステップと、
前記参照期間における第1音声信号と、前記複数の類似期間のそれぞれにおける第1音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成ステップと、
前記参照期間における第1音声信号を前記置換信号に置換する置換ステップと、
を有することを特徴とする音声処理方法である。
本発明の第3の態様は、上述した音声処理方法の各ステップをコンピュータに実行させることを特徴とするプログラムである。
本発明によれば、音声に含まれている雑音を高精度に低減することができる。
本実施形態に係る音声処理部の機能構成の一例を示すブロック図 本実施形態に係る撮像装置の外観及び機能構成の一例を示す図 本実施解体に係る雑音低減処理の一例を示す図 本実施形態に係る各音声信号と減衰処理の特性の一例を示す図 本実施解体に係る雑音低減処理の流れの一例を示すフローチャート 本実施形態に係る音声処理部の機能構成の一例を示すブロック図 従来の雑音低減処理の一例を示す図 従来の雑音低減処理において生じる課題の一例を示す図
以下、図面を参照して本発明の実施形態に係る音声処理装置、撮像装置、及び、音声処理方法について詳細に説明する。
なお、以下の実施形態はあくまで一例であり、本発明は以下の実施形態に限定されない。
(撮像装置の構成)
本実施形態に係る音声処理装置の一例として、以下カメラ1について説明する。
図2(a)は、カメラ1の外観の一例を示す斜視図である。図2(b)は、カメラ1の構成の一例を示すブロック図である。
図2(b)に示すように、カメラ1は、カメラシステム制御部10、撮像レンズ11、マイクロフォン12、撮像素子13、画像処理部14、レンズ駆動部15、音声処理部16、メモリ部17、操作部18、画像表示部19、等を有する。
撮像レンズ11を通過した光線は、撮像素子13の近傍で結像をし、撮像素子13に適正な時間だけ露光される。
撮像素子13は、露光された光を電気信号(アナログ信号)に光電変換する。
画像処理部14は、A/D変換器、ホワイトバランス回路、ガンマ補正回路、補間演算回路、等の処理部(処理回路)を有する。画像処理部14は、これらの処理部を用いて、撮像素子13で生成されたアナログ信号に様々な処理を施すことにより、デジタル信号である撮像画像データを生成する。生成された撮像画像データは、カメラシステム制御部1
0を介して、メモリ部17に記録される。
レンズ駆動部15は、カメラシステム制御部10からの指示(命令)に応じて撮像レンズ11を駆動することにより、撮像レンズ11の光学状態を調整する。具体的には、レンズ駆動部15は、カメラシステム制御部10からの指示に応じて、撮像レンズ11が有するフォーカスレンズ群、絞り機構、手振れ防振機構、等を駆動する。
撮像素子13に連続的に露光し、撮像素子13からアナログ信号を読み出して撮像画像データを生成する処理を一定のフレームレートで行うことにより、動画の撮像を行うことができる。
マイクロフォン12には、音声が入力される。マイクロフォン12は、入力された音声を表す音声信号(アナログ信号またはデジタル信号)を生成する。本実施形態では、マイクロフォン12は、動画の撮像中に入力された音声(被写体の音声を少なくとも含む音声)を表す音声信号を生成する。
音声処理部16は、マイクロフォン12で生成された音声信号を取得し、取得した音声信号に種々の処理を施すことにより、デジタル信号である音声信号(出力音声信号)を生成する。音声処理部16が行う処理は、A/D変換処理、雑音低減処理、等を含む。雑音低減処理は、マイクロフォン12で生成された音声信号が表す音声に含まれている雑音を低減する処理である。雑音低減処理の詳細については後述する。生成された出力音声信号は、カメラシステム制御部10を介して、メモリ部17に記録される。出力音声信号は、例えば、動画の撮像画像データに対応付けられてメモリ部17に記録される。
操作部18は、カメラ1に対するユーザ操作を受け付ける。本実施形態では、操作部18は、図2(a)のシャッターレリーズ釦18aを含む1つ以上の釦を有する。
カメラシステム制御部10は、ユーザ操作に応じて生成された操作信号(タイミング信号)に応じて、カメラ1の各機能部を制御する。例えば、シャッターレリーズ釦18aの押下が検出されると、撮像素子13の駆動、画像処理部14の動作、音声処理部16の動作、メモリ部17に記録するデータや信号の圧縮処理、等が制御される。また、カメラシステム制御部10は、画像表示部19の画像や情報の表示を制御する。
(音声処理部16の構成)
図2(b)の音声処理部16の構成について説明する。
動画撮像中にマイクロフォン12で生成された音声信号が表す音声には、被写体の音声のみが含まれていることが好ましい。しかしながら、動画撮像中にマイクロフォン12で生成された音声信号が表す音声には、撮像レンズ11の駆動に伴って生じたレンズ駆動雑音、マイクロフォン12の性能に起因して生じた白色雑音である暗雑音、等の雑音が重畳されていることがある。このように、マイクロフォン12で生成された音声信号が表す音声には、雑音が含まれていることがある。
音声処理部16は、雑音低減処理を行うことにより、上述した雑音を低減する。
図1は、音声処理部16の機能構成の一例を示すブロック図である。
図1では、データ(信号)と機能部とを区別しやすくするために、駆動部は四隅がとがった四角、データ(信号)は四隅が丸まった四角で図示されている。
図1に示すように、音声処理部16は、音声信号減衰部31、類似期間検出部32、置換信号生成部33、参照期間設定部34、音声信号置換部35、等を有する。
図1において、入力音声信号21は、音声信号であり、マイクロフォン12で生成されたデジタル信号、マイクロフォン12で生成されたアナログ信号にA/D変換処理を施したデジタル信号、等である。
音声信号減衰部31は、入力音声信号21(第1音声信号)を取得する(第1取得処理)。
また、音声信号減衰部31は、注目帯域以外の周波数帯域である非注目帯域の音声信号を減衰させる減衰処理を入力音声信号21に施すことにより、減衰音声信号(第2音声信号)を取得(生成)する(第2取得処理)。注目帯域は、入力音声信号21に対する雑音低減処理において注目すべき周波数帯域である。減衰処理は、注目帯域の音声信号を抽出する抽出処理と言うこともできる。
音声信号減衰部31は、減衰音声信号を類似期間検出部32に出力する。
なお、減衰処理(抽出処理)の方法は特に限定されない。例えば、減衰処理は、注目帯域の音声信号を通過させるフィルタ(バンドパスフィルタ;BPF)を用いたフィルタ処理であってもよい。
なお、注目帯域や非注目帯域は特に限定されない。注目帯域と非注目帯域は、予め定められた周波数帯域であってもよいし、ユーザによって設定可能なものであってもよい。例えば、注目帯域と非注目帯域の少なくとも一方が、撮像対象、カメラ1の動作モード、ユーザ操作、等に応じて決定されてもよい。
なお、人間が発する声がマイクロフォン12に入力される音声として想定されている場合には、注目帯域は、人間が発する声の周波数帯域を含むことが好ましい。具体的には、注目帯域は、人間が発する声の第1フォルマントに相当する周波数帯域を含むことが好ましい。一般的に、成人が発する声の第1フォルマントの周波数帯域は、500Hz以上且つ1500Hz以下の周波数帯域と言われている。そのため、注目帯域は、500Hz以上且つ1500Hz以下の周波数帯域を含むことが好ましい。また、成人が発する声の第2フォルマントの周波数帯域は、1500Hz以上且つ3000Hz以下の周波数帯域と言われている。そして、成人が発する声には、第2フォルマントの周波数よりも高い周波数帯域に、第3フォルマントの周波数および第4フォルマントの周波数が存在していると言われている。
本実施形態では、注目帯域が、第1フォルマントの周波数帯域と第2フォルマントの周波数帯域とを含む周波数帯域である場合の例を説明する。具体的には、注目帯域が、500Hz以上且つ3000Hz以下の周波数帯域である場合の例を説明する。
なお、第1取得処理は、音声信号減衰部31とは異なる機能部によって実行されてもよい。
参照期間設定部34は、音声信号減衰部31から出力された減衰音声信号に対して、参照期間を設定する(第1設定処理)。参照期間は、雑音低減処理の対象の期間である。本実施形態では、参照期間として、所定の時間幅を有する期間が設定される。参照期間設定部34は、参照期間を類似期間検出部32に通知する。
なお、参照期間の時間幅は予め定められていなくてもよい。例えば、参照期間の時間幅は、撮像対象、カメラ1の動作モード、ユーザ操作、等に応じて決定されてもよい。
類似期間検出部32は、音声信号減衰部31から出力された減衰音声信号に対して、複数の比較期間を設定する(第2設定処理)。比較期間は、参照期間と同じ時間幅を有する期間であり、且つ、参照期間とは異なる期間である。
また、類似期間検出部32は、参照期間における減衰音声信号を各比較期間における減衰音声信号と比較する。そして、類似期間検出部32は、その比較結果に基づいて、複数の比較期間の中から、参照期間における減衰音声信号と類似した減衰音声信号の期間である複数の類似期間を検出する(検出処理)。例えば、参照期間における減衰音声信号との減衰音声信号の類似度が高い比較期間から順番にN個(Nは2以上の整数)の比較期間のそれぞれが、類似期間として検出される。
そして、類似期間検出部32は、各類似期間を少なくとも表す類似期間信号22を出力する。本実施形態では、類似期間信号22として、複数の類似期間にそれぞれ対応する複数の信号類似度の大小関係をさらに表す信号が、生成され、出力される。信号類似度は、
参照期間における減衰音声信号と類似期間における減衰音声信号との間の類似度である。
なお、第2設定処理は、類似期間検出部32とは異なる機能部によって実行されてもよい。
なお、類似期間の検出方法は上記方法に限らない。例えば、信号類似度が閾値以上である複数の比較期間のうち、参照期間に時間的に近い比較期間から順番にN個の比較期間のそれぞれが、類似期間として検出されてもよい。
なお、Nの値は、予め定められた固定値であってもよいし、ユーザによって設定されてもよい。例えば、Nの値は、撮像対象、カメラ1の動作モード、ユーザ操作、等に応じて決定されてもよい。
置換信号生成部33は、参照期間における入力音声信号と、複数の類似期間のそれぞれにおける入力音声信号と、に基づいて、置換信号23を生成する。置換信号23は、参照期間における出力音声信号として設定すべき音声信号である。参照期間における入力音声信号は、参照期間における減衰音声信号に対応する入力音声信号であり、類似期間における入力音声信号は、類似期間における減衰音声信号に対応する入力音声信号である。
音声信号置換部35は、参照期間における入力音声信号を置換信号23に置換することにより、出力音声信号24を生成する。
(従来の雑音低減処理)
従来の雑音低減処理の一例について説明する。詳細は以下で述べるが、従来の雑音低減処理では、減衰音声信号は生成されない。
図7(a)〜7(e)は、従来の雑音低減処理の一例を示す模式図である。図7(a)の上側には、被写体の音声に白色雑音(暗雑音)が重畳された入力音声信号の一例が示されている。図7(a)の下側には、参照期間における入力音声信号と各類似期間における入力音声信号とが、他の期間における入力音声信号から切り離されて図示されている。図7(b)は、置換信号の一例を示す。図7(c)は、参照期間における入力音声信号を置換信号に置き換えて得られる出力音声信号の一例を示す。図7(d)は、出力音声信号の他の例を示す。図7(e)は、被写体の音声に対して一時的にレンズ駆動雑音が重畳された入力音声信号の一例を示す。図7(a)〜7(e)において、横軸は時間位置を示し、縦軸は音声信号レベル(音声信号の信号レベル)を示す。図7(a)の上側,7(c),7(d),7(e)は、入力音声信号21や出力音声信号24の一部を拡大した拡大図である。図7(a)の上側,7(c),7(d),7(e)に示す音声信号は、0.2秒程度の音声信号である。図7(a)の上側の音声信号を局所的に観察すると、音声信号の繰り返し性が非常に高いことが分かる。以下で説明する従来の雑音低減処理は、音声信号が有する短時間での繰り返し性の高さに着目した処理である。短時間での繰り返し性の高さは、本実施形態でも着目される。
まず、図7(a)に示すように、入力音声信号に対して、参照期間100が設定される。参照期間における入力音声信号に第1フォルマントの周波数の1周期分の音声信号が含まれるように、参照期間の長さ(時間)が設定されていることが好ましい。即ち、参照期間の長さは、第1フォルマントの周波数の1周期以上であることが好ましい。例えば、成人が発する声の第1フォルマントの周波数は500Hz以上且つ1000Hz以下の周波数と言われているため、参照期間の長さは、2msec(=0.002sec=1÷500Hz)以上であることが好ましい。
次に、複数の比較期間が設定される。例えば、参照期間に対して時間的に前の期間と、参照期間に対して時間的に後の期間と、の少なくとも一方を含む複数の期間が、複数の比較期間として設定される。上述したように、比較期間の時間幅は、参照期間の時間幅と等
しい。
なお、比較期間と、当該比較期間に隣接する隣接期間(参照期間または比較期間)と、の間の時間差は、特に限定されない。上記時間差は、例えば、処理負荷、想定される音声の周波数、等を考慮して決定される。上記時間差は、音声信号レベルのサンプリングレートの1ビット分であることが好ましい。比較期間の一部が隣接期間の一部に重畳されていてもよいし、比較期間は隣接期間から離れていてもよい。
そして、参照期間100における入力音声信号を各比較期間における入力音声信号と比較することにより、複数の比較期間の中から複数の類似期間が検出される。図7(a)の例では、3つの類似期間101a,101b,101cが検出されている。
類似期間の検出方法の一例を以下に説明する。
なお、類似期間の検出方法は、以下の方法に限らない。
まず、比較期間毎に、参照期間における入力音声信号と比較期間における入力音声信号との間の類似度が算出される。類似度は、例えば、以下の式1を用いて算出される。
Figure 0006381366

参照期間及び比較期間は、M個(Mは2以上の整数)の離散時間位置を含む。Mの値は、参照期間(または比較期間)の長さを音声信号レベルのサンプリングレートで除算することにより、算出することができる。式1において、S(i)は比較期間のi番目(iは1以上且つM以下の整数)の離散時間位置における入力信号レベル(入力音声信号の信号レベル)であり、S(i)は参照期間のi番目の離散時間位置における入力信号レベルである。Dは、非類似度である。類似度は、例えば、非類似度Dの逆数である。
式1では、各離散時間位置におけるレベル差(参照期間における入力信号レベルと比較期間における入力信号レベルとの間の差の絶対値)の総和が、非類似度Dとして算出される。そのため、比較期間における入力音声信号が参照期間における入力音声信号に近いほど小さい値が、非類似度Dとして算出される。そして、比較期間における入力音声信号が参照期間における入力音声信号と完全に一致する場合に、非類似度Dとして0が算出される。
次に、類似度が高い比較期間から順番にN個(Nは3以上の整数)の比較期間のそれぞれが、類似期間として検出される。具体的には、非類似度Dが小さい比較期間から順番にN個の比較期間のそれぞれが、類似期間として検出される。
類似期間が検出された後、参照期間における入力音声信号と、各類似期間における入力音声信号と、を用いて、置換信号が生成される。置換信号は、例えば、以下の式2を用いて算出される。
Figure 0006381366

式2において、iとMは式1と同じである。Nは類似期間の総数であり、Kは類似期間
の番号である。Kは、1以上且つN以下の整数である。S(i)はi番目の離散時間位置における置換信号レベル(置換信号の信号レベル)であり、S(i)は参照期間のi番目の離散時間位置における入力信号レベルである。SCK(i)は、番号Kの類似期間のi番目の離散時間位置における入力信号レベルである。wは参照期間における入力音声信号の重みであり、wは番号Kの類似期間における入力音声信号の重みである。式2では、参照期間における入力音声信号と各類似期間における入力音声信号とを重みづけ加算することにより、置換信号が生成される。類似期間における音声信号の重みwとしては、例えば、参照期間における音声信号との音声信号の類似度が高いほど大きい重みが使用される。即ち、重みwとしては、非類似度Dが小さいほど大きい重みが使用される。
図7(b)の音声信号102は、参照期間100における入力音声信号と、類似期間101a,101b,101cにおける入力音声信号と、を用いて生成された置換信号である。図7(b)から、雑音が低減された音声信号が置換信号102として生成されていることがわかる。
なお、置換信号の生成方法は上記方法に限らない。例えば、重みw,wとして1を使用し、参照期間における入力音声信号と各類似期間における入力音声信号との平均の音声信号が、置換信号として生成されてもよい。また、重みwとして、参照期間と類似期間の間の時間差が小さいほど大きい重みが使用されてもよい。
次に、参照期間100における入力音声信号が、置換信号102に置換される。それにより、図7(c)の出力音声信号が生成される。図7(c)の出力音声信号では、参照期間100における暗雑音が低減されている。
図7(a)の例では、入力音声信号の全期間にわたって暗雑音が重畳されている。参照期間の時間位置を少しずつずらしながら上述した処理を繰り返し行うことにより、図7(d)の出力音声信号を生成することができる。図7(d)の出力音声信号では、入力音声信号の全期間にわたって暗雑音が低減されている。
なお、暗雑音以外の雑音についても、上述した処理により低減することができる。例えば、図7(e)の入力音声信号に重畳されている雑音(一部の期間103に重畳されているレンズ駆動雑音)も、上述した処理により低減することができる。具体的には、参照期間104aと参照期間104bを含む複数の参照期間を順番に設定して上述した処理を行うことにより、図7(e)の入力音声信号に重畳されている全てのレンズ駆動雑音を低減することができる。
しかしながら、上述した従来の雑音低減処理では、高精度に雑音を低減することができないことがある。以下、図8(a)〜8(d)を用いて、従来の雑音低減処理において生じる課題について説明する。
図8(a)は、被写体の音声を表す音声信号(被写体音声信号;雑音が重畳されていない音声信号)の一例を示す図である。図8(b)は、雑音を表す音声信号(雑音信号)の一例を示す図である。図8(c)は、図8(a)の被写体音声信号に図8(b)の雑音信号が重畳された音声信号を示す図である。図8(d)は、図8(a)の被写体信号に風雑音と暗雑音とが重畳された音声信号の一例を示す図である。以下では、簡略化のために被写体の音声を表す音声信号の周波数がFb[Hz]であるものとする。
図8(b)に示す雑音の周波数[Hz]及びパワー(大きさ)[dB]は、図7(a)の入力音声信号に重畳されている暗雑音に比べて大きい。そのため、図8(c)に示す音声信号が入力音声信号である場合、入力音声信号に対する雑音の影響が大きいため、類似期間として検出されるべき比較期間の信号類似度が低下し、類似期間の検出精度が低下してしまう。具体的には、被写体音声信号の繰り返し単位の比較期間が類似期間として検出され難くなる。このように、入力音声信号に重畳されている雑音の周波数及びパワーが大
きい場合、類似期間の検出精度が低下してしまう。その結果、雑音低減処理の処理精度が低下してしまう。
周波数及びパワーが大きい雑音は、例えば、手振れ防振機構の駆動雑音である。
図8(d)に示す音声信号(風雑音が重畳されている音声信号)が入力音声信号である場合にも、類似期間の検出精度が低下し、雑音低減処理の処理精度が低下してしまう。風雑音は、低周波成分を多く含む。一般的には、風雑音は、400Hz以下の周波数帯域に強いパワーを有すると言われている。低周波成分を多く含む雑音が入力音声信号に重畳されている場合にも、類似期間の高精度な検出が困難となる。その結果、類似期間の検出精度が低下し、雑音低減処理の処理精度が低下してしまう。
(本実施形態に係る雑音低減処理)
そこで、本実施形態では、入力音声信号に減衰処理を施すことにより、低周波成分を多く含む雑音、周波数及びパワーが大きい雑音、等が低減された減衰音声信号を取得(生成)する。そして、入力音声信号の代わりに減衰音声信号を用いて、類似期間を検出する。その後、上述した従来の雑音低減処理と同様に、入力音声信号を用いて置換信号及び出力音声信号を生成する。減衰音声信号を用いることにより、類似期間を高精度に検出することができる。その結果、音声に含まれている雑音を高精度に低減することができる。
本実施形態に係る雑音低減処理の一例について説明する。
図3(a)は、被写体音声信号の一例を示す図であり、図3(b)は、周波数及びパワーが大きい雑音を表す雑音信号の一例を示す図である。図3(c)は、入力音声信号の一例を示す図であり、図3(d)は、減衰音声信号の一例を示す図である。図3(c)の下側には、図3(a)の被写体音声信号に図3(b)の雑音信号が重畳された入力音声信号の一例が示されている。図3(c)の上側には、参照期間における入力音声信号と各類似期間における入力音声信号とが、他の期間における入力音声信号から切り離されて図示されている。図3(d)の減衰音声信号は、図3(c)の入力音声信号に減衰処理を施すことにより得られた音声信号である。
図4(a),4(b)は、各音声信号の周波数特性及び減衰処理の処理特性(フィルタ特性)の一例を示す図である。
図4(a),4(b)において、横軸は周波数を示し、縦軸はパワーを示す。
図4(a)において、実線61は、図3(a)の被写体音声信号の周波数特性を表し、破線62は、図3(b)の雑音信号の周波数特性を表す。図4(a),4(b)において、太実線63は、図3(c)の入力音声信号の周波数特性を表す。図4(b)において、一点鎖線64は、減衰処理のフィルタ特性を表し、実線65は、図3(d)の減衰音声信号の周波数特性を表す。
被写体音声信号の周波数特性61は、周波数帯域F1,F2,F3,F4にピークを有する。周波数帯域F1が第1フォルマントの周波数帯域であり、周波数帯域F2が第2フォルマントの周波数帯域であり、周波数帯域F3が第3フォルマントの周波数帯域であり、周波数帯域F4が第4フォルマントの周波数帯域である。
雑音信号の周波数特性62は、高周波数の側にある周波数帯域F4に、他の周波数帯域よりも強めの成分が存在している。このような成分は、類似期間の検出精度を低下させる。
本実施形態では、フィルタ特性64を有するフィルタを用いた減衰処理(フィルタ処理)を行うことにより、入力音声信号から、第1フォルマントの周波数帯域F1と第2フォルマントの周波数帯域F2とを含む周波数帯域の音声信号が抽出される。
そのため、減衰音声信号の周波数特性65では、周波数帯域F2よりも高い周波数の成分が入力音声信号の周波数特性63から低減されている。
このように、本実施形態では、減衰処理を行うことにより、類似期間の検出精度を低下させる成分が低減された減衰音声信号が得られる。
なお、図3(a)〜3(b)と図4(a),4(b)とを用いて、周波数及びパワーが大きい雑音を低減する減衰処理を説明したが、上記減衰処理と同様の方法で他の雑音(低周波成分を多く含む雑音、等)を低減することもできる。
図5は、本実施形態に係る雑音低減処理の流れの一例を示すフローチャートである。
以下、本実施形態に係る雑音低減処理の流れの一例について説明する。
まず、音声処理部16が、マイクロフォン12から入力音声信号を取得し、メモリ部17に記録する(S110)。例えば、図3(c)の入力音声信号が取得される。
次に、音声信号減衰部31が、S110で取得された入力音声信号に減衰処理を施すことにより、減衰音声信号を生成する(S111)。例えば、図3(d)の減衰音声信号が生成される。
そして、参照期間設定部34が、S111で生成された減衰音声信号に対して、参照期間を設定する(S112)。参照期間の情報は、類似期間検出部32と置換信号生成部33とに出力される。例えば、図3(d)の参照期間51が設定される。
次に、類似期間検出部32が、S111で生成された減衰音声信号を用いて、複数の類似期間を検出する(S113)。具体的には、入力音声信号の代わりに減衰音声信号を用いて従来の処理と同様の処理を行うことにより、複数の類似期間が検出される。例えば、図3(d)の3つの類似期間52a,52b,52cが検出される。類似期間検出部32は、検出した各類似期間を表す類似期間信号を置換信号生成部33に出力する。例えば、図3(d)の時刻t1,t2,t3を表す情報が、類似期間信号として出力される。
そして、置換信号生成部33が、S110で取得された入力音声信号から、S112で設定された参照期間における入力音声信号と、S113で検出された複数の類似期間における入力音声信号と、を抽出する(S114)。例えば、図3(c)の上側に示すように、参照期間51における入力音声信号41、類似期間52aにおける入力音声信号42a、類似期間52bにおける入力音声信号42b、及び、類似期間52cにおける入力音声信号42c、が抽出される。
次に、置換信号生成部33が、S114で抽出された入力音声信号を用いて、置換信号を生成する(S115)。置換信号は、従来の処理と同様の処理により生成される。置換信号生成部33は、生成した置換信号を音声信号置換部35に出力する。
そして、音声信号置換部35が、S112で設定された参照期間における入力音声信号をS115で生成された置換信号に置換することにより、出力音声信号を生成または更新する(S116)。1回目の処理では、S110で取得された入力音声信号の一部がS115で生成された置換信号に置換される。それにより、出力音声信号が生成される。2回目以降の処理では、前回のS116で生成された出力音声信号の一部がS115で生成された置換信号に置換される。それにより、出力音声信号が更新される。
次に、置換信号生成部33が、S116で得られた出力音声信号を、メモリ部17に記録する(S117)。1回目の処理では、S116で得られた出力音声信号がメモリ部17に新規保存され、2回目以降の処理では、メモリ部17に記録されている出力音声信号がS116で得られた出力音声信号に更新される。
そして、参照期間設定部34が、雑音を低減すべき期間であり、且つ、参照期間として設定されていない期間である、未処理期間が存在するかを判断する(S118)。未処理期間が存在する場合には、S112に処理が戻される。そして、S112において、未処理期間の少なくとも一部を含む参照期間が設定される。その後、S113〜S118の処
理が行われる。そして、未処理期間が存在しなくなるまで、S112〜S118の処理が繰り返し行われる。未処理期間が存在しなくなると、本フローが終了される。
なお、複数の参照期間の設定方法は特に限定されない。複数の参照期間は、例えば、時間位置を少しずつずらしながら順番に設定される。参照期間の一部が隣接参照期間の一部に重畳されていてもよいし、参照期間が隣接参照期間から離れていてもよい。参照期間の終了時間位置と隣接参照期間の開始時間位置とが一致するように、複数の参照期間が設定されてもよい。隣接参照期間は、参照期間に隣接する参照期間である。
S111では、類似期間の検出精度を低下させる成分が低減された減衰音声信号が得られる。減衰処理のフィルタ特性が図4(b)のフィルタ特性64である場合には、第1フォルマントの周波数帯域と第2フォルマントの周波数帯域とを含む注目帯域における音声信号(被写体音声信号及び雑音信号)を表す減衰音声信号が得られる。換言すれば、低周波数の側及び低周波数の側の音声信号(被写体音声信号及び雑音信号)を減衰させた減衰音声信号が得られる。そして、S113では、このような減衰音声信号を用いて複数の類似期間が検出される。それにより、複数の類似期間を高精度に検出することができる。具体的には、注目帯域における音声信号に着目して類似期間が検出されるため、高精度に類似期間を検出することができる。
ここで、減衰音声信号では、図4(b)の減衰音声信号の周波数特性65に示すように、非注目帯域(注目帯域以外の周波数帯域)における雑音信号だけでなく、非注目帯域における被写体音声信号も減衰している。そのため、図3(a)の被写体音声信号のうち、低周波数の側及び低周波数の側の音声信号は、図3(d)の減衰音声信号には含まれていない。そのため、図3(d)の減衰音声信号(参照期間51における減衰音声信号、及び、3つの類似期間52a,52b,52cのそれぞれにおける減衰音声信号)を用いて置換信号を生成すると、被写体の音声が劣化した置換信号が生成されてしまう。具体的には、低周波数の側及び低周波数の側の被写体音声信号を含まない置換信号が生成されてしまう。その結果、被写体の音声が劣化した出力音声信号が生成されてしまう。
本実施形態では、S115において、減衰されていない入力音声信号(全周波数帯域における音声信号)を用いて、置換信号が生成される。それにより、被写体の音声が劣化しておらず、且つ、雑音が高精度に低減された置換信号を生成することができる。その結果、雑音が高精度に低減された出力音声信号を生成することができる。
具体的には、ランダム性の高い雑音は、S115の処理(例えば、参照期間における入力音声信号と、各類似期間における入力音声信号と、を重みづけ合成する処理)によって低減することができる。例えば、風雑音はランダム性が非常に高いため、S115の処理によって低減することができる。そして、類似期間が高精度に検出されているため、S115の処理によって雑音を高精度に低減することができる。
また、繰り返し性の高い被写体音声信号は、S115の処理によって、低減されず、強調される。そして、入力音声信号では、全周波数帯域において音声信号が減衰されていないため、上述した被写体の音声の劣化を抑制することができる。
以上述べたように、本実施形態によれば、減衰音声信号を用いて複数の類似期間が検出される。それにより、複数の類似期間を高精度に検出することができる。そして、本実施形態によれば、入力音声信号(参照期間における入力音声信号、及び、複数の類似期間のそれぞれにおける入力音声信号)を用いて置換信号が生成される。それにより、雑音が高精度に低減され、且つ、被写体の音声をよく表す置換信号及び出力音声信号を生成することができる。
なお、注目帯域は、500Hz以上且つ3000Hz以下の周波数帯域に限らない。類似期間の検出精度に影響を与える雑音が小さい場合には、注目帯域が広いほど高精度に類
似範囲を検出することができる。そのため、類似期間の検出精度に影響を与える雑音として想定される雑音(想定雑音)の周波数に基づいて、注目帯域を決定することが好ましい。例えば、想定雑音が撮像レンズ11の駆動に伴うレンズ駆動雑音であり、且つ、当該レンズ駆動雑音が8000Hzの近傍に強い成分を有する場合には、500Hz以上且つ7000Hz以下の周波数帯域が注目帯域として設定されてもよい。7000Hz以下の周波数帯域が注目帯域として設定されてもよい。想定雑音が風雑音である場合には、500Hz以上の周波数帯域が注目帯域として設定されてもよい。
なお、注目帯域は固定値でなくてもよい。
例えば、音声処理装置や撮像装置が複数の動作モードを有しており、複数の動作モードにそれぞれ対応する複数の周波数帯域が予め定められていてもよい。そして、音声処理装置は、複数の周波数帯域の中から、設定されている動作モードに対応する周波数帯域を、注目帯域として選択する選択部を有していてもよい。
具体的には、複数の動作モードは、屋内での撮像時に設定すべき屋内撮像モード、屋外での撮像時に設定すべき屋外撮像モード、等を含む。そして、屋内撮像モードが設定されている場合には、風雑音が重畳されていないと判断され、3000Hz以下の周波数帯域が注目帯域として設定される。屋外撮像モードが設定されている場合には、風雑音が重畳されていると判断され、500Hz以上の周波数帯域が注目帯域として設定される。
また、撮像装置が有する光学レンズの複数の駆動状態にそれぞれ対応する複数の周波数帯域が予め定められていてもよい。そして、音声処理装置は、複数の周波数帯域の中から、光学レンズの駆動状態に対応する周波数帯域を、注目帯域として選択する選択部を有していてもよい。
なお、入力音声信号にレンズ駆動雑音が重畳されている場合には、撮像装置が有する光学レンズの駆動期間を、参照期間として設定すればよい。具体的には、カメラシステム制御部10からの駆動命令に応じてレンズ駆動部15が撮像レンズ11を駆動している期間を、参照期間として設定すればよい。
また、音声処理装置は、入力音声信号に基づいて注目帯域(または非注目帯域)を決定する決定部を有していてもよい。例えば、決定部は、入力音声信号における第1フォルマントの周波数を検出し、検出した周波数を含む周波数帯域を、注目帯域として決定する。
入力音声信号に基づく注目帯域の決定方法は特に限定されない。入力音声信号に基づく注目帯域は、例えば、入力音声信号を用いた周波数解析の結果に基づいて決定することができる。
具体的には、図6に示すように、音声処理部16が、周波数解析部37と注目帯域決定部36とをさらに有していてもよい。図6は、音声処理部16の機能構成の一例を示すブロック図である。図6において、図1と同じ機能部には図1と同じ符号を付し、その説明は省略する。
周波数解析部37は、入力音声信号21を周波数解析することにより、入力音声信号21(入力音声信号21が含む被写体音声信号)における第1フォルマントの周波数を検出する。例えば、周波数解析部37は、入力音声信号21をフーリエ変換し、フーリエ変換の結果に基づいて第1フォルマントの周波数を検出する。
なお、入力音声信号21(入力音声信号21が含む被写体音声信号)における特徴的な他の周波数をさらに含む複数の周波数が検出されてもよい。
注目帯域決定部36は、周波数解析部37で検出された1つ以上の周波数(検出周波数)を含む周波数帯域を注目帯域として決定する。1つ以上の検出周波数は、第1フォルマントの周波数を含む。
一般的には、成人が発する声の第1フォルマントの周波数帯域は、500Hz以上且つ1500Hz以下の周波数帯域と言われている。図6の構成によれば、被写体音声信号の
第1フォルマントの周波数が500Hz以上且つ1500Hz以下の周波数帯域の外側の周波数である場合にも、適切な検出帯域を設定することができ、適切な雑音低減処理を行うことができる。
なお、本実施形態では、音声処理装置としてカメラ1のような撮像装置を例示し、撮像装置が上述した雑音低減処理を実行する例を説明したが、これに限らない。撮像装置と異なる他の電子機器が上述した雑音低減処理を実行してもよい。
<その他の実施形態>
記憶装置に記録されたプログラムを読み込み実行することで前述した実施形態の機能を実現するシステムや装置のコンピュータ(又はCPU、MPU等のデバイス)によっても、本発明を実施することができる。また、例えば、記憶装置に記録されたプログラムを読み込み実行することで前述した実施形態の機能を実現するシステムや装置のコンピュータによって実行されるステップからなる方法によっても、本発明を実施することができる。この目的のために、上記プログラムは、例えば、ネットワークを通じて、又は、上記記憶装置となり得る様々なタイプの記録媒体(つまり、非一時的にデータを保持するコンピュータ読取可能な記録媒体)から、上記コンピュータに提供される。したがって、上記コンピュータ(CPU、MPU等のデバイスを含む)、上記方法、上記プログラム(プログラムコード、プログラムプロダクトを含む)、上記プログラムを非一時的に保持するコンピュータ読取可能な記録媒体は、いずれも本発明の範疇に含まれる。
1:カメラ 11:撮像レンズ 15:レンズ駆動部 16:音声処理部
31:音声信号減衰部 32:類似期間検出部 33:置換信号生成部
34:参照期間設定部 35:音声信号置換部

Claims (14)

  1. 1音声信号を取得する第1取得手段と、
    参照期間を設定する第1設定手段と、
    前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第2設定手段と、
    前記第1音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第1音声信号に施すことにより、第2音声信号を取得する第2取得手段と、
    前記参照期間における第2音声信号を各比較期間における第2音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第2音声信号と類似した第2音声信号の期間である複数の類似期間を検出する検出手段と、
    前記参照期間における第1音声信号と、前記複数の類似期間のそれぞれにおける第1音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成手段と、
    前記参照期間における第1音声信号を前記置換信号に置換する置換手段と、
    を有することを特徴とする音声処理装置。
  2. 前記減衰処理は、前記対象帯域の音声信号を抽出する抽出処理である
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記減衰処理は、前記対象帯域の音声信号を通過させるフィルタを用いたフィルタ処理である
    ことを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記対象帯域は、500Hz以上且つ1500Hz以下の周波数帯域を含む
    ことを特徴とする請求項1〜3のいずれか1項に記載の音声処理装置。
  5. 複数の動作モードにそれぞれ対応する複数の周波数帯域が予め定められており、
    前記音声処理装置は、前記複数の周波数帯域の中から、設定されている動作モードに対応する周波数帯域を、前記対象帯域として選択する選択手段、をさらに有する
    ことを特徴とする請求項1〜4のいずれか1項に記載の音声処理装置。
  6. 前記第1音声信号に基づいて前記対象帯域を決定する決定手段、をさらに有する
    ことを特徴とする請求項1〜4のいずれか1項に記載の音声処理装置。
  7. 前記決定手段は、前記第1音声信号を用いた周波数解析の結果に基づいて前記対象帯域を決定する
    ことを特徴とする請求項6に記載の音声処理装置。
  8. 前記決定手段は、前記第1音声信号における第1フォルマントの周波数を含む周波数帯域を、前記対象帯域として決定する
    ことを特徴とする請求項6または7に記載の音声処理装置。
  9. 前記生成手段は、前記参照期間における第1音声信号と、前記複数の類似期間のそれぞれにおける第1音声信号と、を重みづけ加算することにより、前記置換信号を生成する
    ことを特徴とする請求項1〜8のいずれか1項に記載の音声処理装置。
  10. 前記生成手段は、前記類似期間における第1音声信号の重みとして、前記参照期間における第2音声信号との第2音声信号の類似度が高いほど大きい重みを使用する
    ことを特徴とする請求項9に記載の音声処理装置。
  11. 前記検出手段は、前記参照期間における第2音声信号との第2音声信号の類似度が高い比較期間から順番にN個(Nは2以上の整数)の比較期間のそれぞれを、前記類似期間として検出する
    ことを特徴とする請求項1〜10のいずれか1項に記載の音声処理装置。
  12. 光学レンズと、
    前記光学レンズを駆動する駆動手段と、
    を有し、
    前記第1設定手段は、前記光学レンズの駆動期間を前記参照期間として設定する
    ことを特徴とする請求項1〜11のいずれか1項に記載の音声処理装置。
  13. 1音声信号を取得する第1取得ステップと、
    参照期間を設定する第1設定ステップと、
    前記参照期間と同じ時間幅を有する期間であって、前記参照期間とは異なる期間である、複数の比較期間を設定する第2設定ステップと、
    前記第1音声信号に対する処理において取得対象の周波数帯域である対象帯域以外の周波数帯域の音声信号を減衰させる減衰処理を前記第1音声信号に施すことにより、第2音声信号を取得する第2取得ステップと、
    前記参照期間における第2音声信号を各比較期間における第2音声信号と比較することにより、複数の比較期間の中から、前記参照期間における第2音声信号と類似した第2音声信号の期間である複数の類似期間を検出する検出ステップと、
    前記参照期間における第1音声信号と、前記複数の類似期間のそれぞれにおける第1音声信号と、に基づいて、前記参照期間における音声信号として設定すべき音声信号である置換信号を生成する生成ステップと、
    前記参照期間における第1音声信号を前記置換信号に置換する置換ステップと、
    を有することを特徴とする音声処理方法。
  14. 請求項13に記載の音声処理方法の各ステップをコンピュータに実行させることを特徴とするプログラム。
JP2014171649A 2014-08-26 2014-08-26 音声処理装置、音声処理方法、及び、プログラム Expired - Fee Related JP6381366B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014171649A JP6381366B2 (ja) 2014-08-26 2014-08-26 音声処理装置、音声処理方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014171649A JP6381366B2 (ja) 2014-08-26 2014-08-26 音声処理装置、音声処理方法、及び、プログラム

Publications (3)

Publication Number Publication Date
JP2016045456A JP2016045456A (ja) 2016-04-04
JP2016045456A5 JP2016045456A5 (ja) 2017-09-21
JP6381366B2 true JP6381366B2 (ja) 2018-08-29

Family

ID=55636043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014171649A Expired - Fee Related JP6381366B2 (ja) 2014-08-26 2014-08-26 音声処理装置、音声処理方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP6381366B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7473325B2 (ja) * 2019-11-12 2024-04-23 株式会社シーイーシー 音声情報生成装置、音声情報生成方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3798681B2 (ja) * 2001-11-14 2006-07-19 日本電信電話株式会社 音声スペクトル推定方法、その装置、そのプログラムおよびその記録媒体
JP5157837B2 (ja) * 2008-11-12 2013-03-06 ヤマハ株式会社 ピッチ検出装置およびプログラム
JP5158054B2 (ja) * 2009-10-28 2013-03-06 株式会社ニコン 録音装置、撮像装置、および、プログラム
JP2011129421A (ja) * 2009-12-18 2011-06-30 Dainippon Printing Co Ltd 有機el素子基板およびその製造方法ならびにディスプレイ装置
JP5963430B2 (ja) * 2011-12-01 2016-08-03 キヤノン株式会社 撮像装置、音声処理装置、及びそれらの制御方法

Also Published As

Publication number Publication date
JP2016045456A (ja) 2016-04-04

Similar Documents

Publication Publication Date Title
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US9495950B2 (en) Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
JP2008263498A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
JP2011066644A (ja) 撮像装置及びその制御方法
US8698911B2 (en) Sound recording device, imaging device, photographing device, optical device, and program
US9247347B2 (en) Noise suppression apparatus and control method thereof
JP2011101110A (ja) 撮像装置
JP6610725B2 (ja) 音処理装置および音処理プログラム
JP4952769B2 (ja) 撮像装置
US9282229B2 (en) Audio processing apparatus, audio processing method and imaging apparatus
JP6381366B2 (ja) 音声処理装置、音声処理方法、及び、プログラム
US9734840B2 (en) Signal processing device, imaging apparatus, and signal-processing program
US8855482B2 (en) Imaging apparatus and sound processing apparatus
WO2021192991A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7217471B2 (ja) 撮像装置
CN103297687B (zh) 音频处理设备及其控制方法
JP6381367B2 (ja) 音声処理装置、音声処理方法、及び、プログラム
JP5018860B2 (ja) 信号処理装置及び撮像装置
JP2013178458A (ja) 信号処理装置及び信号処理プログラム
JP2020086034A (ja) 情報処理装置、情報処理装置およびプログラム
JP6271851B2 (ja) 音声処理装置、撮像装置、及び、それらの制御方法、並びにプログラム
JP2019086724A (ja) 音声処理装置
JP2011095305A (ja) 録音装置、撮像装置、及びプログラム
JP2013178456A (ja) 信号処理装置、カメラおよび信号処理プログラム
JP2013183355A (ja) 撮像装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180731

R151 Written notification of patent or utility model registration

Ref document number: 6381366

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees