JP6061476B2

JP6061476B2 - 音声処理装置

Info

Publication number: JP6061476B2
Application number: JP2012046791A
Authority: JP
Inventors: 木村　正史; 正史木村
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-03-02
Filing date: 2012-03-02
Publication date: 2017-01-18
Anticipated expiration: 2032-03-02
Also published as: CN103297687A; CN103297687B; US20130230189A1; US9275624B2; JP2013182185A

Description

本発明は音声処理装置に関する。

従来、音声処理装置として、撮影した動画とともに音声を記録することができる撮像装置が知られている。

これらの撮像装置においては、光学系の駆動により発生する雑音が音声として記録されてしまう問題があり、様々な雑音低減技術が開発されている（例えば、特許文献１）。特許文献１においては、撮像装置のアイリスモータまたはシャッタモータが駆動した場合には、モータの駆動する直前の音声を用いて、雑音の発生する区間の音声を補間する技術が提案されている。

また、特許文献２においては、ハードディスクのヘッド退避音の隠蔽方法が開示されている。具体的には、ハードディスクのヘッド退避音が発生した箇所の音声信号を前後の信号から生成して隠蔽する。

また、非特許文献１においては、音声の伝送および復調に関連し、音声伝送においてパケットの喪失の隠蔽方法が開示されている。具体的にはパケット喪失した箇所の信号を、喪失以前の信号から予測して生成する。また、パケットが再度正常に得られたときには、当該正常パケットから前方１パケット分の信号を滑らかに繋がるように予測して補正する。

特開２００６−２０３３７６号公報特開２００８−０５３８０２号公報

ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１−Ａｐｐｅｎｄｉｘ I

しかしながら、特許文献１の技術を用いて雑音低減を行う場合、例えば、アイリスモータとシャッタモータとが連続して駆動してしまうと、例えばシャッタモータの駆動する区間の音声を補間するための、音声にアイリスモータの雑音が含まれてしまう場合がある。このような場合には、雑音区間に別の雑音が含まれてしまうことになり、結果として雑音低減効果が薄れてしまうことになる。

そこで本発明は、複数の雑音が連続して発生する場合であっても、雑音低減を効果的に実施することができる音声処理装置を提供することを目的とする。

本発明の音声処理装置は、音声信号を取得する取得手段と、前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の所定区間及び後方の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより前記音声信号に含まれる雑音を低減する音声処理手段とを有し、前記音声処理手段は、前記取得手段により取得された前記音声信号のうち前記雑音区間の前方の所定区間と後方の所定区間のいずれか一方の区間に雑音が含まれ、他方の区間に雑音が含まれていない場合は、前記他方の区間の音声信号を用い、前記一方の区間の音声信号を用いることなく前記補間用の信号を生成する。

本発明によれば、複数の雑音が連続して発生する場合であっても、雑音低減を効果的に実施することができる。

本実施例の撮像装置の概略図である。本実施例の撮像装置１および撮像レンズ２の機能ブロックを示す図である。本実施例の撮像装置１および撮像レンズ２の斜視図である。音声処理部２６の機能ブロックを示す図である。雑音判定部４６の動作を説明する図である。雑音判定部４６の信号の状態を示す図である。予測処理の説明をするための図である。本実施例の予測処理の説明をするための図である。本実施例の予測処理の説明をするための図である。本実施例の予測処理の説明をするための図である。本実施例の予測処理の動作を説明するためのフロー図である。本実施例の予測処理の説明をするための図である。本実施例の予測処理の説明をするための図である。本実施例の予測処理の説明をするための図である。本実施例の予測処理の説明をするための図である。

以下、図面を参照して本発明の実施形態について詳細に説明するが、本発明は以下の実施形態に限定されるものではない。

本実施例においては、周囲の音声を集音して得られた音声信号に雑音低減処理を施すことができる撮像装置について説明する。

図１は、本実施例の撮影装置の概略図である。図１において、撮像装置１は、撮像レンズ２を装着することができる。撮像装置１と撮像レンズ２とは、接点１０により電気的に接続可能であり、接続状態においては接点１０を通じて撮像装置１の不図示の制御部と、撮像レンズ２の不図示の制御部とが通信可能である。

撮像装置１は、被写体の光学像を電気信号に変換し画像信号を取得する例えば光電変換素子等の撮像素子６、周囲の音声の音波振動を電気信号に変換し音声信号を取得するマイク７を有する。また、撮像装置１は、いわゆるクイックリターンミラー機構１１、ＡＦセンサ等からなる焦点検出部１２を有する。

一方、撮像レンズ２は、レンズ鏡筒５、撮像レンズの光軸４に沿って並べられた複数または単数のレンズからなる撮像光学系３を有する。また、撮像レンズ２は、撮像光学系のレンズを駆動する光学系駆動部９を有する。

撮像装置１の不図示の制御部は、クイックリターンミラー機構１１を制御し、撮像レンズ２から入力された被写体の光学像の一部を焦点検出部１２に導き、焦点検出部１２により焦点検出を実行させる。またさらに露出検出を行わせても良い。そして、撮像装置１の制御部は、検出結果に基づいて、撮像レンズ２の制御部に対してレンズ駆動命令を送信する。撮像レンズ２の制御部は、レンズ駆動命令に基づいて光学系駆動部９を制御し、撮像光学系３の各レンズを駆動させる。また、撮像レンズ２の制御部は、露出検出結果に基づく駆動命令に応じて、撮像光学系の絞りを駆動させても良い。

また、本実施例の撮像装置１の制御部は、クイックリターンミラー機構１１を制御し、撮像素子６に光学像を結像させた状態で、撮像素子６により得られた画像信号の画像の状態を解析しながら撮像レンズ２の撮像光学系３を制御しても良い。すなわち、撮像素子６により得られた画像信号のエッジ部分が鮮鋭になるように撮像光学系３を徐々に駆動させる制御を行うこともできる。

本実施例の撮像装置１は、ユーザが不図示のレリーズ釦の操作と同期させて撮像素子６より被写体の画像信号を取得し、所定の画像処理を施して、不図示の記録媒体に記録することもできる。

次に、本実施例の撮像装置１の機能について説明する。
図２は、本実施例の撮像装置１および撮像レンズ２の機能ブロックを示す図である。
図２において、撮像装置１は、焦点検出部１２、露出検出部１３、撮像素子６、Ａ／Ｄ変換部２０、画像処理部２１、記録処理部２３、メモリ２４、カメラシステム制御部２５、マイク７、音声処理部２６、操作部２７、表示部２２を有する。一方、撮像レンズ２は、撮像光学系３、レンズシステム制御部２８、焦点レンズ駆動部９ａ、ブレ補正駆動部９ｂ、絞り駆動部９ｃを有する。

なお、各機能ブロックは、実際にハードウェアとして独立した構成であっても良いし、複数の機能が、単一のハードウェアによって構成されていても良い。たとえば、カメラシステム制御部２５は、ＣＰＵとメモリとからなるマイクロコンピュータである。このマイクロコンピュータにより他の機能ブロックの機能を実行させても良い。

撮像系は、被写体の光学像を撮影光学系３を介して撮像素子６の撮像面に結像する。エイミングなどの撮影予備動作中は、クイックリターンミラー機構１１に設けられたミラーにより、撮像素子６に対して光学像を導く代わりに、ファインダー側へ光学像を導くとともに、焦点検出部１２にも光束の一部を導く。焦点検出部１２の検出結果に基づいて、後述の制御系によって適切に撮影光学系３が調整されることで、適切な光量の物体光を撮像素子６に露光され、撮像素子６近傍で被写体像が結像されるようになる。

画像処理部２１は、Ａ／Ｄ変換部２０を介して撮像素子６から受けた画像信号を処理する。たとえば、ホワイトバランス回路、ガンマ補正回路、補間演算による高解像度化を行う補間演算回路等を有する。

音声処理系は、マイク７により得られた音声信号に対して、音声処理部２６によって適切な処理を施して録音用音声信号を生成する。録音用生成信号は後述する記録処理部により画像とリンクして、記録処理部２３に送信される。

記録処理部２３は、不図示の記録媒体に対して、画像信号と音声信号からなるストリームデータを記録するものであり、さらに、表示部２２に出力する画像を生成する。また、記録処理部２３は、予め定められた方法を用いて画像、動画、音声などの圧縮符号化処理を行う。本実施例においては、どのような圧縮符号化処理を用いても構わない。

カメラシステム制御部２５は、撮像装置１の各ブロックを制御するものである。たとえば、操作部２７からの入力に基づいて、撮像の際のタイミング信号などを生成して出力したり、撮像レンズ２の制御部に対して、レンズ駆動用の命令信号を出力したりする。また、カメラシステム制御部２５は後述する周囲音レベルの判別手段、周囲音と駆動音の比較手段としても機能する。焦点検出部１２は被写体の光学像の合焦状態を、露出検出部１３は被写体の輝度を、それぞれ検出する。レンズシステム制御部２８は前記カメラシステム制御部２５の信号に応じて適切にレンズを駆動させて光学系の調整を行う。

カメラシステム制御部２５は、例えば、操作部２７のシャッターレリーズボタンに対応する操作信号を検出して、撮像素子６の駆動、画像処理部２１の動作、記録処理部２３の圧縮処理などを制御する。さらに表示部２２によって光学ファインダー、液晶モニタ等に情報表示を行う情報表示装置の各セグメントの状態を制御する。

制御系の光学系の調整動作について説明する。カメラシステム制御部２５には焦点検出部１２および露出検出部１３が接続されており、これらの信号を元に適切な焦点位置、絞り位置を求める。カメラシステム制御部２５は、電気接点１０を介してレンズシステム制御部２８に指令を出し、レンズシステム制御部２８は焦点レンズ駆動部９ａおよび絞り駆動部９ｃを適切に制御する。さらにレンズシステム制御部２８には不図示の手ぶれ検出センサが接続されており、手ぶれ補正を行うモードにおいては、手ぶれ検出センサの信号を元にブレ補正駆動部９ｂを適切に制御する。

ここで、いわゆる動画撮影などの音声記録を伴う撮影について説明する。音声記録を伴う撮影においては、カメラ本体およびレンズのアクチュエータ駆動に伴う音（以下メカ駆動音）は不要な音であり雑音となる。またユーザーのボタン／ダイヤル操作や外装の擦れに伴う音（以下ユーザー操作音）も同様に不要な音であり雑音となる。以下、本実施例においては雑音とは、ホワイトノイズのような背景雑音ではなく前述したメカ駆動音、ユーザー操作音を指す。

図３を用いて、音声記録を伴う撮影における雑音の影響について説明する。図３はカメラの斜視図である。図３には、撮像装置１の操作ボタン３１ａおよび３１ｂ、外部の音声をマイク７に導くためのマイク開口部３２が示されている。

図３から明らかなように、マイク開口部３２に対して雑音源である、カメラの操作釦３１ａ／３１ｂおよび撮像装置１または撮像レンズ２内の駆動部（モータやアクチュエータなど）は近接している。

一般に被写体は対象が人物であれば、一般的に数メートルから数十メートル、撮像装置から遠い位置にいると考えられる。このような状況においては、雑音源が発生する雑音レベル小さくても、マイク７で取得される人物に対応する音声信号に対する雑音の影響は無視できない。

そこで本実施例の撮像装置１は、雑音の影響を低減するために、音声処理部２６により雑音低減処理が実行される。

図４を用いて音声処理部２６の動作について説明する。図４は、音声処理部２６の機能を説明する為の図である。音声処理部２６は、ゲイン調整部４１、フィルタ４２、Ａ／Ｄコンバータ４３、雑音処理部４４、フィルタ４５、雑音判定部４６を有する。また、雑音処理部４４は、予測処理または、フィルタ処理または、ＭＵＴＥ処理を実行することができる。

図４において、マイク７により得られた音声信号はゲイン調整部４１に供給される。ゲイン調整部４１はＡ／Ｄコンバータ４３のダイナミックレンジが十分に活用できるようにマイク７の信号レベルを調整する。つまり、マイク７の信号レベルが小さいときはゲインアップして信号を増幅し、マイク７の信号レベルが大きいときはゲインを下げて飽和を防ぐ。

フィルタ４２はＡ／Ｄコンバータ４３のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイクが特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。Ａ／Ｄコンバータ４３はゲイン調整部４１およびフィルタ４２で処理された音声信号をデジタル変換する。

雑音処理部４４は複数の雑音処理を実行することができる。図４の例では予測処理４４ａ，フィルタ処理４４ｂ，ＭＵＴＥ処理４４ｃを実行することができるものとするが、さらに他の処理を実行できでもよい。なお、音声処理部２６は、カメラシステム制御部２５により制御され、雑音処理部４４がいずれの雑音処理を実行するかについても、カメラシステム制御部２５により制御される。なお、これら複数の雑音処理は選択的に又は組み合わせて動作させることが出来る。

本実施例のフィルタ処理４４ｂは、音声信号の低域通過や帯域通過など適切な周波数の音声を通過させる処理を行うことによって、雑音を除去するものである。

本実施例のＭＵＴＥ処理４４ｃは、雑音の含まれる区間の音声信号を無音又は所定の音声信号などに置き換えることによって雑音を除去するものである。
本実施例の予測処理４４ａについては、後述する。

フィルタ４５は雑音処理を行った後に必要であれば適当なフィルタ処理を施すためのフィルタである。不要であればスルーすることも出来る。

雑音判定部４６は、被写体音以外の雑音が存在するか否かを判断する。ここで、雑音判定部４６の構成の一例を図５に示す。

具体的には、雑音が含まれるか否かを判定する区間の音声信号をバッファから読み出し、適当な帯域通過フィルタを施す。なお、この帯域通過フィルタは音声信号が少なく、本件で対象としているメカ駆動音、ユーザー操作音が顕著な領域を通過させるようなものである。例えば、一般的には音声信号よりも高い周波数帯域（５ｋＨｚ〜１０ｋＨｚ程度）を通過させるような帯域通過フィルタを使用する。

次に、帯域通過フィルタ透過後の信号を差分処理によって背景雑音によるＤＣ成分を除去する。帯域通過フィルタの特性によっては差分処理を省略しても良い。さらに、差分処理が実行された音声信号の絶対値を取得し、これらを平滑化させることで、信号のエンベロープを検出する。最後に、得られた信号のエンベロープが閾値を超えているか否かを閾値判断することによって、雑音の有無を判断する。閾値は実験的に求めた値などを予め設定しておく。

図６は雑音判定部４６の雑音判定処理の各工程における波形の具体例を示した図である。図６（ａ）は取得音声を、図６（ｂ）は帯域通過フィルタ通過後の波形を、図６（ｃ）は差分処理後の波形を、図６（ｄ）は絶対値処理後の波形を、図６（ｅ）は平滑化処理後の波形を夫々示している。図６（ａ）に示した波形は人の声に雑音が重畳した場合を示している。人の声に対して雑音は高周波成分を多く含んでいる。図６（ｂ）から明らかなように、適当な帯域通過フィルタを施すことで雑音部分を効果的に取得できている。図６の例では、図６（ｃ）に示すように、差分処理を行うことで、変化が大きい箇所を強調している。さらに図６（ｄ），（ｅ）に示すように絶対値処理、平滑化処理を施すことで雑音部分にパワーを持つ波形を生成している。そして、図６（ｅ）に示した雑音検出閾値を超えた場合は雑音が発生しているものと判定することが可能となる。

なお、本実施例においては、撮像装置１のカメラシステム制御部２５により、撮像レンズ２のレンズシステム制御部２８に対してレンズ駆動信号を送信した場合、カメラシステム制御部２５は、レンズの駆動によって雑音が発生する期間を把握することができる。したがって、カメラシステム制御部２５によってレンズ駆動信号が送信された場合には、その信号の送信時間または、レンズ駆動信号が示すレンズ駆動時間によって雑音の発生する期間を特定することができる。そのため、カメラシステム制御部２５は、レンズ駆動信号に基づいて、音声処理部２６の雑音処理部４４による雑音低減を行う区間を制御することができる。

次に、雑音判定部による雑音の有無の判定結果と、前述の音声処理部２６の動作の関係について説明する。

本実施例の撮像装置１においては、カメラシステム制御部２５は、雑音判定部４６の判定結果に応じて、雑音処理部４４の動作を切り替えている。

まず、雑音判定部４６の判定の結果、雑音が発生していないと判定された区間の音声信号に対しては、雑音処理部４４はどの雑音処理も実行しないように設定する。さらにフィルタ４５も同様に動作させないように制御する。このときは、Ａ／Ｄコンバータ４３が変換した信号そのものが録音用音声信号としてカメラシステム制御部２５に送出される。

また、雑音が局所的に存在する場合は、カメラシステム制御部２５からの指令に基づいて音声に対して雑音処理を施す。

次に図７〜図１４を用いて本実施例の信号処理について説明する。
まず、音声処理部２６が実行する予測処理について説明する。
予測処理は、例えば、「ＩＴＵ−ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７１１−ＡｐｐｅｎｄｉｘＩ」に開示されている信号処理技術を用いている。この技術では、雑音の含まれる区間（雑音発生区間）の信号の近傍の所定区間（参照区間）の信号に基づいて、演算処理により雑音発生区間と置換するための信号を生成する。これにより、雑音やパケットのロスが起きた区間の信号を補間することができる。この演算処理は、例えば、参照区間の信号のピッチ検出を行い、検出されたピッチで参照区間の信号を繰り返した信号を生成してもよい。すなわち、予測処理とは、雑音発生区間の信号をその近傍の所定区間の信号に基づいて生成された信号により置換することで、雑音発生区間の雑音を低減させた信号を取得する処理である。

図７は、予測処理を模式的に説明する図である。図７において５１は雑音の混入の無い信号区間を、５２は雑音が混入した区間を（雑音発生区間）、５３ａ，５３ｂは予測処理のための参照区間を、５４は予測処理後の信号を示している。

予測処理による信号の生成方法は例えば、特許文献１、特許文献２、非特許文献１の方法などが使用できる。すなわち、雑音発生区間の近傍の所定区間（参照区間）の信号に基づいて、雑音発生区間の信号を生成する方法であれば、公知のどのような処理を用いても良い。

図７に示すように、予測処理では、雑音発生区間５２が決定されると、その近傍の参照区間５３ａ，５３ｂの信号に基づいて生成された信号を、雑音発生区間５２の信号と置換する（予測生成された区間５４）ようにしている。

本実施例においては図７に示すように、通常の動作においては雑音区間５２の前後の参照区間５３ａ，５３ｂの信号に基づいて雑音区間の信号を生成する。

図８は、本実施例の処理を説明するための図である。図８はでは、図７と異なり、雑音が連続して発生し、参照区間の信号にも雑音が重畳されている場合の信号処理を説明する。

図８において５１は雑音の混入の無い信号区間を、５２ａ，５２ｂは雑音発生区間を示す。また、５３ａ，５３ｂは５２ａの雑音発生区間に対応する信号を生成するための参照区間を示す。また、５４ａは５２ａの予測処理後の信号を、５５ａ，５５ｂは５２ｂを予測処理するために用いる参照区間を、５４ｂは５２ｂの予測処理後の信号を示している。図８の例では雑音５２ａ，５２ｂが時間的に近接して発生したために、参照区間５３ｂに雑音が混入してしまっている。そのために、予測生成された信号５４ａは雑音５２ｂの影響を受けて、適切ではない信号になっている場合がある。同様に、参照区間５５ａに雑音の影響を受けた区間５４ａを用いた結果、予測生成された信号５４ｂも適切ではない信号になっている場合がある。

これは、例えば、撮像装置１のカメラシステム制御部２５の指示により焦点調整を行うために、焦点レンズ駆動部９ａを間欠的かつ時間的に近接させて動作させる場合などに発生する。また、メカ駆動音の発生に近接してユーザーが撮影装置を持ち替えてユーザー操作音が発生する場合などにも発生する。

図９は本発明を適用した場合の信号処理を模式的に説明する図である。
図９において５１は雑音の混入の無い信号区間を、５２ａ，５２ｂは雑音発生区間を示す。また、６３は５２ａを予測処理するために用いる参照区間を、５４ａは５２ａの予測処理後の信号を示している。また、６５は５２ｂを予測処理するために用いる参照区間を、５４ｂは５２ｂの予測処理後の信号を示している。
図９の信号は図８と同じく雑音５２ａ，５２ｂが時間的に近接して発生した例である。

図９において雑音区間５２ａを処理する際には、通常であれば、その前後が参照区間の候補となるが、図９の例では、雑音判定部４６で処理した結果、時間的に後方の参照区間候補への雑音の混入が検出される。その結果、時間的に後方にあった参照区間候補は使用せずに、雑音区間５２ａを処理する時には時間的に前方に位置する参照区間６３から信号５４ａを生成する。
一方、雑音区間５２ｂを処理する際には、同様にして参照区間６５から信号５４ｂを生成する。

以上に説明したように、予測処理を実行する際には、雑音発生区間の前後を参照区間とするが、参照区間内に他の雑音が発生している場合には、雑音が発生していない方の参照区間の音声信号に基づいて、予測音声信号を生成する。

そのため、雑音の混入の無い区間を参照するので生成された信号５４ａ，５４ｂは雑音区間５２ａ，５２ｂの影響を受けない。そのため高品位な音声を得ることが可能となる。

図１０は図９を用いて説明した予測処理による音声信号の波形を示す図である。
図１０（ａ）は処理前の波形を示す。
図１０（ｂ）は時間的に前方にある雑音を処理した後の波形を示す。
図１０（ｃ）は時間的に後方にある雑音を処理した後の波形を示す。

図１０（ａ）においては、参照区間の音声信号に基づいて生成された音声信号により、１つめの雑音を低減することを示している。図９で説明したように、２つめの雑音が１つめの雑音を低減するための参照区間に含まれているため、２つめの雑音を含む区間を参照区間としない処理を示している。

図１０（ｂ）においては、２つめの雑音を低減することを示している。図９で説明したように、２つめの雑音の参照区間のうち雑音の含まれていない参照区間の音声信号に基づいて２つめの雑音を低減する処理を示している。

ここで、本実施例の撮像装置１の音声処理部２６による処理手順について図１１を用いて説明する。ここでは、雑音発生区間の信号を置換するための信号を生成するための、参照区間を、雑音の前後または、前方のみまたは、後方のみを、参照区間に雑音が含まれるか否かに応じて切替えている。

本実施例の撮像装置１のカメラシステム制御部２５は、音声信号処理部２６において、雑音判定部４６により、マイク７により得られた音声信号を解析させ、雑音の有無を検知させ、雑音発生区間を判定させる。

そして、カメラシステム制御部２５は、雑音発生区間の前後の区間を参照区間とする（Ｓ１１０１）。

次に、カメラシステム制御部２５は、Ｓ１１０１で参照区間に決定した区間に別の雑音発生が含まれるか否かを判定する（Ｓ１１０２）。

そして、参照区間に別の雑音が含まれない場合（Ｓ１１０２でＮｏ）には、カメラシステム制御部２５は、通常の処理として、雑音発生区間の前後両方の参照区間の音声信号を用いて、雑音低減処理のための音声信号を生成するように音声処理部２６を制御する（Ｓ１１１０）。

また、参照区間に別の雑音が含まれる場合（Ｓ１１０２でＹｅｓ）には、カメラシステム制御部２５は、参照区間のうち別の雑音の含まれている区間を特定する（Ｓ１１０３）。

雑音発生区間の後方の参照区間に別の雑音が含まれている場合（Ｓ１１０３でＮｏ）には、前方の参照区間に基づいて、雑音発生区間の音声信号を補間するための信号を生成するように音声処理部２６を制御する（Ｓ１１２０）。一方、雑音発生区間の前方の参照区間に別の雑音が含まれている場合（Ｓ１１０３でＹｅｓ）には、後方の参照区間に基づいて、雑音発生区間の音声信号を補間するための信号を生成するように音声処理部２６を制御する（Ｓ１１３０）。

そして、カメラシステム制御部２５は、Ｓ１１１０、Ｓ１１２０、Ｓ１１３０で生成された補間用の音声信号を用いて雑音発生区間の音声信号を置換するように、音声信号処理部２６を制御する（Ｓ１１４０）。
このような処理を繰り返し実行することにより、本実施例の撮像装置１は、雑音を低減しているのである。

このように、本実施例の撮像装置１は、音声信号に含まれる雑音を低減することができる。雑音を低減する処理は、雑音の含まれる区間（雑音発生区間）の音声信号の近傍の所定の区間（参照区間）の音声信号に基づいて、雑音発生区間の音声信号を補間する為の信号を生成する。そして、生成した信号で、雑音発生区間の音声信号を補間することにより雑音を低減する。

このとき、参照区間の音声信号に対して別の雑音が含まれる場合には、雑音の含まれない参照区間の音声信号に基づいて雑音発生区間の音声信号を補間する為の信号を生成するように音声信号処理部２６を制御する。

そのため、本実施例の撮像装置１は、雑音発生区間の音声信号を補間する為の信号を生成する際に、他の雑音の影響を少なくすることができるのである。

なお、本実施例の撮像装置は、図９、図１０を用いて説明したような、雑音低減処理の他、図１２から図１６に示すような、他の雑音低減処理を実行することもできる。

図１２、図１３は、他の雑音低減処理について説明する為の図である。図１２において５１は雑音の混入の無い信号区間を、５２ａ，５２ｂは雑音区間を示す。また、６３は５２ａを予測処理するために用いる参照区間を、５４ａは５２ａの予測処理後の信号を示す。６５ａ，６５ｂは５２ｂを予測処理するために用いる参照区間を、５４ｂは５２ｂの予測処理後の信号を示す。

図１２の信号は図８および図９と同じく雑音５２ａ，５２ｂが時間的に近接して発生した例である。図１２において雑音区間５２ａ（第１の区間）を処理する際にはその前後が参照区間の候補となるが、時間的に後方の参照区間に別の雑音が含まれることになる。

そこで、カメラシステム制御部２５は、雑音区間５２ａを補間するための信号５４ａを、時間的に前方に位置する参照区間６３に基づいて生成する。ここまでは図９と同様の処理である。

次に、雑音区間５２ｂ（第２の区間）の音声信号を処理する際には、既に処理を行った区間５４ａについては、雑音低減処理が行われた後であるため、雑音の混入が無い区間として取り扱う。そのため、音声信号処理部４６は、雑音区間５２ｂを補間するための音声信号を、参照区間６５ａ，６５ｂの音声信号に基づいて生成する。

このような処理によっても、雑音を含む音声信号を使用せずに雑音発生区間５２ａ、５２ｂの音声信号を補間するための音声信号を生成することができ、他の雑音の影響を少なくすることができるのである。

図１３は図１２を用いて説明した波形を処理した例を示す図である。
図１３（ａ）は処理前の波形を示す。
図１３（ｂ）は時間的に前方にある雑音を処理した後の波形を示す。
図１３（ｃ）は時間的に後方にある雑音を処理した後の波形を示す。

図１３（ａ）においては、参照区間の音声信号に基づいて生成された音声信号により、１つめの雑音を低減することを示している。図１２で説明したように、２つめの雑音が１つめの雑音を低減するための参照区間に含まれているため、２つめの雑音を含む区間を参照区間とせずに、雑音発生区間の前方の参照区間の音声信号に基づいて処理を行うこと示している。

図１３（ｂ）においては、２つめの雑音を低減することを示している。図１２で説明したように、２つめの雑音の参照区間のうち１つめの雑音の含まれていた区間のも参照区間として、雑音発生区間の前後の参照区間の音声信号に基づいて、２つめの雑音を低減する処理を示している。

図１２、図１３の処理は、連続した雑音を含む音声信号の雑音低減処理を行う場合には、第１の雑音発生区間の雑音を低減する場合には、第１の雑音発生区間の近傍の所定区間の音声信号に基づいて生成された信号で、第１の雑音発生区間の音声を補間する。このとき、参照区間の音声信号に別の雑音が含まれる場合には、別の雑音が含まれていない参照区間の音声信号に基づいて生成された信号で、第１の雑音発生区間の音声を補間する。そして、第２の雑音発生区間の雑音を低減する場合には、第２の雑音発生区間の近傍の所定区間の音声信号に基づいて生成された信号で、第２の雑音発生区間の音声を補間する。このとき、参照区間の一部が第１の雑音発生区間と重なる場合であっても、第１の雑音発生区間の雑音低減処理が実行された後であれば、その参照区間の音声信号に基づいて、第２の雑音発生区間の音声を補間する信号を生成する。

つまり、第１の雑音発生区間の補間後の音声信号を用いて、第２の雑音発生区間の音声信号を補間するための信号を生成するのである。

さらに他の雑音低減処理について説明する。図１４、図１５は、他の雑音低減処理について説明する為の図である。図１４において５１は雑音の混入の無い信号区間を、５２ａ，５２ｂは雑音区間を示す。また、６３は５２ａを予測処理するために用いる参照区間を、５４ａは５２ａの予測処理により補間された区間を示す。また、６５ａ，６５ｂは５２ｂを予測処理するために用いる参照区間を示す。また、５４ｂは５２ｂの予測処理により補間された区間を示す。また、６７ａ，６７ｂは５４ａを予測処理するために用いる参照区間を示す。また、５４ｃは５４ａの予測処理により補間された区間を示す。

図１４の信号は図８、図９および図１２と同じく雑音５２ａ，５２ｂが時間的に近接して発生した例である。図１４において雑音区間５２ａを処理する際にはその前後が参照区間の候補となるが、時間的に後方の参照区間には別の雑音が含まれることになる。

次に、雑音区間５２ｂの音声信号を処理する際には、既に処理を行った区間５４ａについては、雑音低減処理が行われた後であるため、雑音の混入が無い区間として取り扱う。そのため、音声信号処理部４６は、雑音区間５２ｂを補間するための音声信号を、参照区間６５ａ，６５ｂの音声信号に基づいて生成する。ここまでは図１２と同様の処理である。

図１４においては、信号５４ａにより補間された区間の音声信号をさらに補間する処理を行う。すなわち、信号５４ａは、雑音発生区間５２ａの時間的に前方の参照区間の音声信号に基づいて生成された信号であり、後方の参照区間の音声信号を使用していない。そのため、再度、雑音発生区間５２ｂの補間後の音声信号を含む後方の参照区間６７ｂの音声信号と、前方の参照区間６７ａの音声信号に基づいて、補間信号５４ｃを生成するのである。
このような処理によって、さらに雑音低減後の音声信号の音質を向上させることができる。

なお、さらに予測処理を繰り返して信号の差が小さくなるまで処理を行っても良い。図１４の例では信号５４ａと５４ｃの差が十分小さければその信号を採用する。大きい場合は５４ｃを用いて再度５４ｂを処理した後に５４ｃを処理する。

図１５は図１４を用いて説明した波形を処理した例を示す図である。
図１５（ａ）は処理前の波形を示す。
図１５（ｂ）は時間的に前方にある雑音を処理した後の波形を示す。
図１５（ｃ）は時間的に後方にある雑音を処理した後の波形を示す。
図１５（ｄ）は時間的に前方にある雑音を再度処理した後の波形を示す。
図１５（ｅ）は１回目の時間的に前方にある雑音を処理による信号の変化（図１５（ａ）と図１５（ｂ）の波形の差）を示す。

図１５（ａ）においては、参照区間の音声信号に基づいて生成された音声信号により、１つめの雑音を低減することを示している。図１４で説明したように、２つめの雑音が１つめの雑音を低減するための参照区間に含まれているため、２つめの雑音を含む区間を参照区間とせずに、雑音発生区間の前方の参照区間の音声信号に基づいて処理を行うこと示している。

図１５（ｂ）においては、２つめの雑音を低減することを示している。図１４で説明したように、２つめの雑音の参照区間のうち１つめの雑音の含まれていた区間のも参照区間として、雑音発生区間の前後の参照区間の音声信号に基づいて、２つめの雑音を低減する処理を示している。

図１５（ｃ）においては、さらに、１つめの雑音の発生していた区間の音声信号をその区間の前後の参照区間の音声信号に基づいて生成された信号で補間することを示している。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。

本実施例においては、撮像装置を一例として説明したが、音声信号を処理することができる装置であればどのような装置であっても良い。例えば、コンピュータ、携帯電話、ゲーム機などの音声を取り扱うことができる装置であればどのような装置であっても良い。また、コンピュータに上述した処理を実行させる為のプログラムも本発明の思想に含まれる。

（他の実施形態）
上述の実施形態は、システム或は装置のコンピュータ（或いはＣＰＵ、ＭＰＵ等）によりソフトウェア的に実現することも可能である。従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。

なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線／無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、ＭＯ、ＣＤ、ＤＶＤ等の光／光磁気記憶媒体、不揮発性の半導体メモリなどがある。

有線／無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル（プログラムファイル）をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。

また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。また、上述の実施形態を実現するためのコンピュータプログラムは、すでにコンピュータ上で稼働するＯＳの機能を利用するものであってもよい。さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボード等のファームウェアで構成してもよいし、拡張ボード等が備えるＣＰＵで実行するようにしてもよい。

Claims

音声信号を取得する取得手段と、
前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の所定区間及び後方の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより前記音声信号に含まれる雑音を低減する音声処理手段とを有し、
前記音声処理手段は、前記取得手段により取得された前記音声信号のうち前記雑音区間の前方の所定区間と後方の所定区間のいずれか一方の区間に雑音が含まれ、他方の区間に雑音が含まれていない場合は、前記他方の区間の音声信号を用い、前記一方の区間の音声信号を用いることなく前記補間用の信号を生成することを特徴とする音声処理装置。
音声信号を取得する取得手段と、
前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の第１の所定区間及び後方の第２の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより前記音声信号に含まれる雑音を低減する音声処理手段とを有し、
前記音声処理手段は、前記第１の所定区間に雑音が含まれ、前記第２の所定区間に雑音が含まれない場合、前記第２の所定区間の音声信号を用い、前記第１の所定区間の音声信号を用いることなく前記補間用の信号を生成し、前記第２の所定区間に雑音が含まれ、前記第１の所定区間に雑音が含まれない場合、前記第１の所定区間の音声信号を用い、前記第２の所定区間の音声信号を用いることなく前記補間用の信号を生成することを特徴とする音声処理装置。
前記取得手段により取得された前記音声信号のうち前記雑音区間を判定する判定手段を有することを特徴とする請求項１または２に記載の音声処理装置。
被写体の光学像を取得して光電変換素子に入力する光学手段と、
前記光学手段の駆動を制御する制御手段とを有し、
前記判定手段は、前記制御手段により前記光学手段を駆動する指示に基づいて、前記雑音区間を判定することを特徴とする請求項３に記載の音声処理装置。
音声信号を取得する取得手段を有する音声処理装置を制御する方法であって、
前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の所定区間および後方の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより、前記音声信号に含まれる雑音を低減する音声処理ステップを有し、
前記音声処理ステップは、前記取得手段により取得された前記音声信号のうち前記雑音区間の前方の所定区間と後方の所定区間のいずれか一方の区間に雑音が含まれ、他方の区間に雑音が含まれていない場合は、前記他方の区間の音声信号を用い、前記一方の区間の音声信号を用いること無く前記補間用の信号を生成することを特徴とする音声処理装置の制御方法。
音声信号を取得する取得手段を有する音声処理装置を制御する方法であって、
前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の第１の所定区間および後方の第２の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより、前記音声信号に含まれる雑音を低減する音声処理ステップを有し、
前記音声処理ステップは、前記第１の所定区間に雑音が含まれ、前記第２の所定区間に雑音が含まれない場合、前記第２の所定区間の音声信号を用い、前記第１の所定区間の音声信号を用いることなく前記補間用の信号を生成し、前記第２の所定区間に雑音が含まれ、前記第１の所定区間に雑音が含まれない場合、前記第１の所定区間の音声信号を用い、前記第２の所定区間の音声信号を用いることなく前記補間用の信号を生成することを特徴とする音声処理装置の制御方法。
コンピュータを請求項１から４のいずれか１項に記載の各手段として動作させるためのプログラム。