JP6061476B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP6061476B2
JP6061476B2 JP2012046791A JP2012046791A JP6061476B2 JP 6061476 B2 JP6061476 B2 JP 6061476B2 JP 2012046791 A JP2012046791 A JP 2012046791A JP 2012046791 A JP2012046791 A JP 2012046791A JP 6061476 B2 JP6061476 B2 JP 6061476B2
Authority
JP
Japan
Prior art keywords
noise
signal
section
voice
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012046791A
Other languages
English (en)
Other versions
JP2013182185A (ja
Inventor
木村 正史
正史 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2012046791A priority Critical patent/JP6061476B2/ja
Priority to US13/779,605 priority patent/US9275624B2/en
Priority to CN201310067156.7A priority patent/CN103297687B/zh
Publication of JP2013182185A publication Critical patent/JP2013182185A/ja
Application granted granted Critical
Publication of JP6061476B2 publication Critical patent/JP6061476B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)
  • Camera Bodies And Camera Details Or Accessories (AREA)

Description

本発明は音声処理装置に関する。
従来、音声処理装置として、撮影した動画とともに音声を記録することができる撮像装置が知られている。
これらの撮像装置においては、光学系の駆動により発生する雑音が音声として記録されてしまう問題があり、様々な雑音低減技術が開発されている(例えば、特許文献1)。特許文献1においては、撮像装置のアイリスモータまたはシャッタモータが駆動した場合には、モータの駆動する直前の音声を用いて、雑音の発生する区間の音声を補間する技術が提案されている。
また、特許文献2においては、ハードディスクのヘッド退避音の隠蔽方法が開示されている。具体的には、ハードディスクのヘッド退避音が発生した箇所の音声信号を前後の信号から生成して隠蔽する。
また、非特許文献1においては、音声の伝送および復調に関連し、音声伝送においてパケットの喪失の隠蔽方法が開示されている。具体的にはパケット喪失した箇所の信号を、喪失以前の信号から予測して生成する。また、パケットが再度正常に得られたときには、当該正常パケットから前方1パケット分の信号を滑らかに繋がるように予測して補正する。
特開2006−203376号公報 特開2008−053802号公報
ITU−T Recommendation G.711−Appendix I
しかしながら、特許文献1の技術を用いて雑音低減を行う場合、例えば、アイリスモータとシャッタモータとが連続して駆動してしまうと、例えばシャッタモータの駆動する区間の音声を補間するための、音声にアイリスモータの雑音が含まれてしまう場合がある。このような場合には、雑音区間に別の雑音が含まれてしまうことになり、結果として雑音低減効果が薄れてしまうことになる。
そこで本発明は、複数の雑音が連続して発生する場合であっても、雑音低減を効果的に実施することができる音声処理装置を提供することを目的とする。
本発明の音声処理装置は、音声信号を取得する取得手段と、前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の所定区間及び後方の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより前記音声信号に含まれる雑音を低減する音声処理手段とを有し、前記音声処理手段は、前記取得手段により取得された前記音声信号のうち前記雑音区間の前方の所定区間と後方の所定区間のいずれか一方の区間に雑音が含まれ、他方の区間に雑音が含まれていない場合は、前記他方の区間の音声信号を用い、前記一方の区間の音声信号を用いることなく前記補間用の信号を生成する。
本発明によれば、複数の雑音が連続して発生する場合であっても、雑音低減を効果的に実施することができる。
本実施例の撮像装置の概略図である。 本実施例の撮像装置1および撮像レンズ2の機能ブロックを示す図である。 本実施例の撮像装置1および撮像レンズ2の斜視図である。 音声処理部26の機能ブロックを示す図である。 雑音判定部46の動作を説明する図である。 雑音判定部46の信号の状態を示す図である。 予測処理の説明をするための図である。 本実施例の予測処理の説明をするための図である。 本実施例の予測処理の説明をするための図である。 本実施例の予測処理の説明をするための図である。 本実施例の予測処理の動作を説明するためのフロー図である。 本実施例の予測処理の説明をするための図である。 本実施例の予測処理の説明をするための図である。 本実施例の予測処理の説明をするための図である。 本実施例の予測処理の説明をするための図である。
以下、図面を参照して本発明の実施形態について詳細に説明するが、本発明は以下の実施形態に限定されるものではない。
本実施例においては、周囲の音声を集音して得られた音声信号に雑音低減処理を施すことができる撮像装置について説明する。
図1は、本実施例の撮影装置の概略図である。図1において、撮像装置1は、撮像レンズ2を装着することができる。撮像装置1と撮像レンズ2とは、接点10により電気的に接続可能であり、接続状態においては接点10を通じて撮像装置1の不図示の制御部と、撮像レンズ2の不図示の制御部とが通信可能である。
撮像装置1は、被写体の光学像を電気信号に変換し画像信号を取得する例えば光電変換素子等の撮像素子6、周囲の音声の音波振動を電気信号に変換し音声信号を取得するマイク7を有する。また、撮像装置1は、いわゆるクイックリターンミラー機構11、AFセンサ等からなる焦点検出部12を有する。
一方、撮像レンズ2は、レンズ鏡筒5、撮像レンズの光軸4に沿って並べられた複数または単数のレンズからなる撮像光学系3を有する。また、撮像レンズ2は、撮像光学系のレンズを駆動する光学系駆動部9を有する。
撮像装置1の不図示の制御部は、クイックリターンミラー機構11を制御し、撮像レンズ2から入力された被写体の光学像の一部を焦点検出部12に導き、焦点検出部12により焦点検出を実行させる。またさらに露出検出を行わせても良い。そして、撮像装置1の制御部は、検出結果に基づいて、撮像レンズ2の制御部に対してレンズ駆動命令を送信する。撮像レンズ2の制御部は、レンズ駆動命令に基づいて光学系駆動部9を制御し、撮像光学系3の各レンズを駆動させる。また、撮像レンズ2の制御部は、露出検出結果に基づく駆動命令に応じて、撮像光学系の絞りを駆動させても良い。
また、本実施例の撮像装置1の制御部は、クイックリターンミラー機構11を制御し、撮像素子6に光学像を結像させた状態で、撮像素子6により得られた画像信号の画像の状態を解析しながら撮像レンズ2の撮像光学系3を制御しても良い。すなわち、撮像素子6により得られた画像信号のエッジ部分が鮮鋭になるように撮像光学系3を徐々に駆動させる制御を行うこともできる。
本実施例の撮像装置1は、ユーザが不図示のレリーズ釦の操作と同期させて撮像素子6より被写体の画像信号を取得し、所定の画像処理を施して、不図示の記録媒体に記録することもできる。
次に、本実施例の撮像装置1の機能について説明する。
図2は、本実施例の撮像装置1および撮像レンズ2の機能ブロックを示す図である。
図2において、撮像装置1は、焦点検出部12、露出検出部13、撮像素子6、A/D変換部20、画像処理部21、記録処理部23、メモリ24、カメラシステム制御部25、マイク7、音声処理部26、操作部27、表示部22を有する。一方、撮像レンズ2は、撮像光学系3、レンズシステム制御部28、焦点レンズ駆動部9a、ブレ補正駆動部9b、絞り駆動部9cを有する。
なお、各機能ブロックは、実際にハードウェアとして独立した構成であっても良いし、複数の機能が、単一のハードウェアによって構成されていても良い。たとえば、カメラシステム制御部25は、CPUとメモリとからなるマイクロコンピュータである。このマイクロコンピュータにより他の機能ブロックの機能を実行させても良い。
撮像系は、被写体の光学像を撮影光学系3を介して撮像素子6の撮像面に結像する。エイミングなどの撮影予備動作中は、クイックリターンミラー機構11に設けられたミラーにより、撮像素子6に対して光学像を導く代わりに、ファインダー側へ光学像を導くとともに、焦点検出部12にも光束の一部を導く。焦点検出部12の検出結果に基づいて、後述の制御系によって適切に撮影光学系3が調整されることで、適切な光量の物体光を撮像素子6に露光され、撮像素子6近傍で被写体像が結像されるようになる。
画像処理部21は、A/D変換部20を介して撮像素子6から受けた画像信号を処理する。たとえば、ホワイトバランス回路、ガンマ補正回路、補間演算による高解像度化を行う補間演算回路等を有する。
音声処理系は、マイク7により得られた音声信号に対して、音声処理部26によって適切な処理を施して録音用音声信号を生成する。録音用生成信号は後述する記録処理部により画像とリンクして、記録処理部23に送信される。
記録処理部23は、不図示の記録媒体に対して、画像信号と音声信号からなるストリームデータを記録するものであり、さらに、表示部22に出力する画像を生成する。また、記録処理部23は、予め定められた方法を用いて画像、動画、音声などの圧縮符号化処理を行う。本実施例においては、どのような圧縮符号化処理を用いても構わない。
カメラシステム制御部25は、撮像装置1の各ブロックを制御するものである。たとえば、操作部27からの入力に基づいて、撮像の際のタイミング信号などを生成して出力したり、撮像レンズ2の制御部に対して、レンズ駆動用の命令信号を出力したりする。また、カメラシステム制御部25は後述する周囲音レベルの判別手段、周囲音と駆動音の比較手段としても機能する。焦点検出部12は被写体の光学像の合焦状態を、露出検出部13は被写体の輝度を、それぞれ検出する。レンズシステム制御部28は前記カメラシステム制御部25の信号に応じて適切にレンズを駆動させて光学系の調整を行う。
カメラシステム制御部25は、例えば、操作部27のシャッターレリーズボタンに対応する操作信号を検出して、撮像素子6の駆動、画像処理部21の動作、記録処理部23の圧縮処理などを制御する。さらに表示部22によって光学ファインダー、液晶モニタ等に情報表示を行う情報表示装置の各セグメントの状態を制御する。
制御系の光学系の調整動作について説明する。カメラシステム制御部25には焦点検出部12および露出検出部13が接続されており、これらの信号を元に適切な焦点位置、絞り位置を求める。カメラシステム制御部25は、電気接点10を介してレンズシステム制御部28に指令を出し、レンズシステム制御部28は焦点レンズ駆動部9aおよび絞り駆動部9cを適切に制御する。さらにレンズシステム制御部28には不図示の手ぶれ検出センサが接続されており、手ぶれ補正を行うモードにおいては、手ぶれ検出センサの信号を元にブレ補正駆動部9bを適切に制御する。
ここで、いわゆる動画撮影などの音声記録を伴う撮影について説明する。音声記録を伴う撮影においては、カメラ本体およびレンズのアクチュエータ駆動に伴う音(以下 メカ駆動音)は不要な音であり雑音となる。またユーザーのボタン/ダイヤル操作や外装の擦れに伴う音(以下 ユーザー操作音)も同様に不要な音であり雑音となる。以下、本実施例においては雑音とは、ホワイトノイズのような背景雑音ではなく前述したメカ駆動音、ユーザー操作音を指す。
図3を用いて、音声記録を伴う撮影における雑音の影響について説明する。図3はカメラの斜視図である。図3には、撮像装置1の操作ボタン31aおよび31b、外部の音声をマイク7に導くためのマイク開口部32が示されている。
図3から明らかなように、マイク開口部32に対して雑音源である、カメラの操作釦31a/31bおよび撮像装置1または撮像レンズ2内の駆動部(モータやアクチュエータなど)は近接している。
一般に被写体は対象が人物であれば、一般的に数メートルから数十メートル、撮像装置から遠い位置にいると考えられる。このような状況においては、雑音源が発生する雑音レベル小さくても、マイク7で取得される人物に対応する音声信号に対する雑音の影響は無視できない。
そこで本実施例の撮像装置1は、雑音の影響を低減するために、音声処理部26により雑音低減処理が実行される。
図4を用いて音声処理部26の動作について説明する。図4は、音声処理部26の機能を説明する為の図である。音声処理部26は、ゲイン調整部41、フィルタ42、A/Dコンバータ43、雑音処理部44、フィルタ45、雑音判定部46を有する。また、雑音処理部44は、予測処理または、フィルタ処理または、MUTE処理を実行することができる。
図4において、マイク7により得られた音声信号はゲイン調整部41に供給される。ゲイン調整部41はA/Dコンバータ43のダイナミックレンジが十分に活用できるようにマイク7の信号レベルを調整する。つまり、マイク7の信号レベルが小さいときはゲインアップして信号を増幅し、マイク7の信号レベルが大きいときはゲインを下げて飽和を防ぐ。
フィルタ42はA/Dコンバータ43のサンプリング周波数を考慮して適切なカットオフ周波数をもつ低域通過フィルタなどで構成される。マイクが特定の周波数を発する素子の近傍にある場合などは前述の低域通過フィルタに加えて適当なノッチフィルタを含む場合もある。A/Dコンバータ43はゲイン調整部41およびフィルタ42で処理された音声信号をデジタル変換する。
雑音処理部44は複数の雑音処理を実行することができる。図4の例では予測処理44a,フィルタ処理44b,MUTE処理44cを実行することができるものとするが、さらに他の処理を実行できでもよい。なお、音声処理部26は、カメラシステム制御部25により制御され、雑音処理部44がいずれの雑音処理を実行するかについても、カメラシステム制御部25により制御される。なお、これら複数の雑音処理は選択的に又は組み合わせて動作させることが出来る。
本実施例のフィルタ処理44bは、音声信号の低域通過や帯域通過など適切な周波数の音声を通過させる処理を行うことによって、雑音を除去するものである。
本実施例のMUTE処理44cは、雑音の含まれる区間の音声信号を無音又は所定の音声信号などに置き換えることによって雑音を除去するものである。
本実施例の予測処理44aについては、後述する。
フィルタ45は雑音処理を行った後に必要であれば適当なフィルタ処理を施すためのフィルタである。不要であればスルーすることも出来る。
雑音判定部46は、被写体音以外の雑音が存在するか否かを判断する。ここで、雑音判定部46の構成の一例を図5に示す。
具体的には、雑音が含まれるか否かを判定する区間の音声信号をバッファから読み出し、適当な帯域通過フィルタを施す。なお、この帯域通過フィルタは音声信号が少なく、本件で対象としているメカ駆動音、ユーザー操作音が顕著な領域を通過させるようなものである。例えば、一般的には音声信号よりも高い周波数帯域(5kHz〜10kHz程度)を通過させるような帯域通過フィルタを使用する。
次に、帯域通過フィルタ透過後の信号を差分処理によって背景雑音によるDC成分を除去する。帯域通過フィルタの特性によっては差分処理を省略しても良い。さらに、差分処理が実行された音声信号の絶対値を取得し、これらを平滑化させることで、信号のエンベロープを検出する。最後に、得られた信号のエンベロープが閾値を超えているか否かを閾値判断することによって、雑音の有無を判断する。閾値は実験的に求めた値などを予め設定しておく。
図6は雑音判定部46の雑音判定処理の各工程における波形の具体例を示した図である。図6(a)は取得音声を、図6(b)は帯域通過フィルタ通過後の波形を、図6(c)は差分処理後の波形を、図6(d)は絶対値処理後の波形を、図6(e)は平滑化処理後の波形を夫々示している。図6(a)に示した波形は人の声に雑音が重畳した場合を示している。人の声に対して雑音は高周波成分を多く含んでいる。図6(b)から明らかなように、適当な帯域通過フィルタを施すことで雑音部分を効果的に取得できている。図6の例では、図6(c)に示すように、差分処理を行うことで、変化が大きい箇所を強調している。さらに図6(d),(e)に示すように絶対値処理、平滑化処理を施すことで雑音部分にパワーを持つ波形を生成している。そして、図6(e)に示した雑音検出閾値を超えた場合は雑音が発生しているものと判定することが可能となる。
なお、本実施例においては、撮像装置1のカメラシステム制御部25により、撮像レンズ2のレンズシステム制御部28に対してレンズ駆動信号を送信した場合、カメラシステム制御部25は、レンズの駆動によって雑音が発生する期間を把握することができる。したがって、カメラシステム制御部25によってレンズ駆動信号が送信された場合には、その信号の送信時間または、レンズ駆動信号が示すレンズ駆動時間によって雑音の発生する期間を特定することができる。そのため、カメラシステム制御部25は、レンズ駆動信号に基づいて、音声処理部26の雑音処理部44による雑音低減を行う区間を制御することができる。
次に、雑音判定部による雑音の有無の判定結果と、前述の音声処理部26の動作の関係について説明する。
本実施例の撮像装置1においては、カメラシステム制御部25は、雑音判定部46の判定結果に応じて、雑音処理部44の動作を切り替えている。
まず、雑音判定部46の判定の結果、雑音が発生していないと判定された区間の音声信号に対しては、雑音処理部44はどの雑音処理も実行しないように設定する。さらにフィルタ45も同様に動作させないように制御する。このときは、A/Dコンバータ43が変換した信号そのものが録音用音声信号としてカメラシステム制御部25に送出される。
また、雑音が局所的に存在する場合は、カメラシステム制御部25からの指令に基づいて音声に対して雑音処理を施す。
次に図7〜図14を用いて本実施例の信号処理について説明する。
まず、音声処理部26が実行する予測処理について説明する。
予測処理は、例えば、「ITU−T Recommendation G.711−Appendix I」に開示されている信号処理技術を用いている。この技術では、雑音の含まれる区間(雑音発生区間)の信号の近傍の所定区間(参照区間)の信号に基づいて、演算処理により雑音発生区間と置換するための信号を生成する。これにより、雑音やパケットのロスが起きた区間の信号を補間することができる。この演算処理は、例えば、参照区間の信号のピッチ検出を行い、検出されたピッチで参照区間の信号を繰り返した信号を生成してもよい。すなわち、予測処理とは、雑音発生区間の信号をその近傍の所定区間の信号に基づいて生成された信号により置換することで、雑音発生区間の雑音を低減させた信号を取得する処理である。
図7は、予測処理を模式的に説明する図である。図7において51は雑音の混入の無い信号区間を、52は雑音が混入した区間を(雑音発生区間)、53a,53bは予測処理のための参照区間を、54は予測処理後の信号を示している。
予測処理による信号の生成方法は例えば、特許文献1、特許文献2、非特許文献1の方法などが使用できる。すなわち、雑音発生区間の近傍の所定区間(参照区間)の信号に基づいて、雑音発生区間の信号を生成する方法であれば、公知のどのような処理を用いても良い。
図7に示すように、予測処理では、雑音発生区間52が決定されると、その近傍の参照区間53a,53bの信号に基づいて生成された信号を、雑音発生区間52の信号と置換する(予測生成された区間54)ようにしている。
本実施例においては図7に示すように、通常の動作においては雑音区間52の前後の参照区間53a,53bの信号に基づいて雑音区間の信号を生成する。
図8は、本実施例の処理を説明するための図である。図8はでは、図7と異なり、雑音が連続して発生し、参照区間の信号にも雑音が重畳されている場合の信号処理を説明する。
図8において51は雑音の混入の無い信号区間を、52a,52bは雑音発生区間を示す。また、53a,53bは52aの雑音発生区間に対応する信号を生成するための参照区間を示す。また、54aは52aの予測処理後の信号を、55a,55bは52bを予測処理するために用いる参照区間を、54bは52bの予測処理後の信号を示している。図8の例では雑音52a,52bが時間的に近接して発生したために、参照区間53bに雑音が混入してしまっている。そのために、予測生成された信号54aは雑音52bの影響を受けて、適切ではない信号になっている場合がある。同様に、参照区間55aに雑音の影響を受けた区間54aを用いた結果、予測生成された信号54bも適切ではない信号になっている場合がある。
これは、例えば、撮像装置1のカメラシステム制御部25の指示により焦点調整を行うために、焦点レンズ駆動部9aを間欠的かつ時間的に近接させて動作させる場合などに発生する。また、メカ駆動音の発生に近接してユーザーが撮影装置を持ち替えてユーザー操作音が発生する場合などにも発生する。
図9は本発明を適用した場合の信号処理を模式的に説明する図である。
図9において51は雑音の混入の無い信号区間を、52a,52bは雑音発生区間を示す。また、63は52aを予測処理するために用いる参照区間を、54aは52aの予測処理後の信号を示している。また、65は52bを予測処理するために用いる参照区間を、54bは52bの予測処理後の信号を示している。
図9の信号は図8と同じく雑音52a,52bが時間的に近接して発生した例である。
図9において雑音区間52aを処理する際には、通常であれば、その前後が参照区間の候補となるが、図9の例では、雑音判定部46で処理した結果、時間的に後方の参照区間候補への雑音の混入が検出される。その結果、時間的に後方にあった参照区間候補は使用せずに、雑音区間52aを処理する時には時間的に前方に位置する参照区間63から信号54aを生成する。
一方、雑音区間52bを処理する際には、同様にして参照区間65から信号54bを生成する。
以上に説明したように、予測処理を実行する際には、雑音発生区間の前後を参照区間とするが、参照区間内に他の雑音が発生している場合には、雑音が発生していない方の参照区間の音声信号に基づいて、予測音声信号を生成する。
そのため、雑音の混入の無い区間を参照するので生成された信号54a,54bは雑音区間52a,52bの影響を受けない。そのため高品位な音声を得ることが可能となる。
図10は図9を用いて説明した予測処理による音声信号の波形を示す図である。
図10(a)は処理前の波形を示す。
図10(b)は時間的に前方にある雑音を処理した後の波形を示す。
図10(c)は時間的に後方にある雑音を処理した後の波形を示す。
図10(a)においては、参照区間の音声信号に基づいて生成された音声信号により、1つめの雑音を低減することを示している。図9で説明したように、2つめの雑音が1つめの雑音を低減するための参照区間に含まれているため、2つめの雑音を含む区間を参照区間としない処理を示している。
図10(b)においては、2つめの雑音を低減することを示している。図9で説明したように、2つめの雑音の参照区間のうち雑音の含まれていない参照区間の音声信号に基づいて2つめの雑音を低減する処理を示している。
ここで、本実施例の撮像装置1の音声処理部26による処理手順について図11を用いて説明する。ここでは、雑音発生区間の信号を置換するための信号を生成するための、参照区間を、雑音の前後または、前方のみまたは、後方のみを、参照区間に雑音が含まれるか否かに応じて切替えている。
本実施例の撮像装置1のカメラシステム制御部25は、音声信号処理部26において、雑音判定部46により、マイク7により得られた音声信号を解析させ、雑音の有無を検知させ、雑音発生区間を判定させる。
そして、カメラシステム制御部25は、雑音発生区間の前後の区間を参照区間とする(S1101)。
次に、カメラシステム制御部25は、S1101で参照区間に決定した区間に別の雑音発生が含まれるか否かを判定する(S1102)。
そして、参照区間に別の雑音が含まれない場合(S1102でNo)には、カメラシステム制御部25は、通常の処理として、雑音発生区間の前後両方の参照区間の音声信号を用いて、雑音低減処理のための音声信号を生成するように音声処理部26を制御する(S1110)。
また、参照区間に別の雑音が含まれる場合(S1102でYes)には、カメラシステム制御部25は、参照区間のうち別の雑音の含まれている区間を特定する(S1103)。
雑音発生区間の後方の参照区間に別の雑音が含まれている場合(S1103でNo)には、前方の参照区間に基づいて、雑音発生区間の音声信号を補間するための信号を生成するように音声処理部26を制御する(S1120)。一方、雑音発生区間の前方の参照区間に別の雑音が含まれている場合(S1103でYes)には、後方の参照区間に基づいて、雑音発生区間の音声信号を補間するための信号を生成するように音声処理部26を制御する(S1130)。
そして、カメラシステム制御部25は、S1110、S1120、S1130で生成された補間用の音声信号を用いて雑音発生区間の音声信号を置換するように、音声信号処理部26を制御する(S1140)。
このような処理を繰り返し実行することにより、本実施例の撮像装置1は、雑音を低減しているのである。
このように、本実施例の撮像装置1は、音声信号に含まれる雑音を低減することができる。雑音を低減する処理は、雑音の含まれる区間(雑音発生区間)の音声信号の近傍の所定の区間(参照区間)の音声信号に基づいて、雑音発生区間の音声信号を補間する為の信号を生成する。そして、生成した信号で、雑音発生区間の音声信号を補間することにより雑音を低減する。
このとき、参照区間の音声信号に対して別の雑音が含まれる場合には、雑音の含まれない参照区間の音声信号に基づいて雑音発生区間の音声信号を補間する為の信号を生成するように音声信号処理部26を制御する。
そのため、本実施例の撮像装置1は、雑音発生区間の音声信号を補間する為の信号を生成する際に、他の雑音の影響を少なくすることができるのである。
なお、本実施例の撮像装置は、図9、図10を用いて説明したような、雑音低減処理の他、図12から図16に示すような、他の雑音低減処理を実行することもできる。
図12、図13は、他の雑音低減処理について説明する為の図である。図12において51は雑音の混入の無い信号区間を、52a,52bは雑音区間を示す。また、63は52aを予測処理するために用いる参照区間を、54aは52aの予測処理後の信号を示す。65a,65bは52bを予測処理するために用いる参照区間を、54bは52bの予測処理後の信号を示す。
図12の信号は図8および図9と同じく雑音52a,52bが時間的に近接して発生した例である。図12において雑音区間52a(第1の区間)を処理する際にはその前後が参照区間の候補となるが、時間的に後方の参照区間に別の雑音が含まれることになる。
そこで、カメラシステム制御部25は、雑音区間52aを補間するための信号54aを、時間的に前方に位置する参照区間63に基づいて生成する。ここまでは図9と同様の処理である。
次に、雑音区間52b(第2の区間)の音声信号を処理する際には、既に処理を行った区間54aについては、雑音低減処理が行われた後であるため、雑音の混入が無い区間として取り扱う。そのため、音声信号処理部46は、雑音区間52bを補間するための音声信号を、参照区間65a,65bの音声信号に基づいて生成する。
このような処理によっても、雑音を含む音声信号を使用せずに雑音発生区間52a、52bの音声信号を補間するための音声信号を生成することができ、他の雑音の影響を少なくすることができるのである。
図13は図12を用いて説明した波形を処理した例を示す図である。
図13(a)は処理前の波形を示す。
図13(b)は時間的に前方にある雑音を処理した後の波形を示す。
図13(c)は時間的に後方にある雑音を処理した後の波形を示す。
図13(a)においては、参照区間の音声信号に基づいて生成された音声信号により、1つめの雑音を低減することを示している。図12で説明したように、2つめの雑音が1つめの雑音を低減するための参照区間に含まれているため、2つめの雑音を含む区間を参照区間とせずに、雑音発生区間の前方の参照区間の音声信号に基づいて処理を行うこと示している。
図13(b)においては、2つめの雑音を低減することを示している。図12で説明したように、2つめの雑音の参照区間のうち1つめの雑音の含まれていた区間のも参照区間として、雑音発生区間の前後の参照区間の音声信号に基づいて、2つめの雑音を低減する処理を示している。
図12、図13の処理は、連続した雑音を含む音声信号の雑音低減処理を行う場合には、第1の雑音発生区間の雑音を低減する場合には、第1の雑音発生区間の近傍の所定区間の音声信号に基づいて生成された信号で、第1の雑音発生区間の音声を補間する。このとき、参照区間の音声信号に別の雑音が含まれる場合には、別の雑音が含まれていない参照区間の音声信号に基づいて生成された信号で、第1の雑音発生区間の音声を補間する。そして、第2の雑音発生区間の雑音を低減する場合には、第2の雑音発生区間の近傍の所定区間の音声信号に基づいて生成された信号で、第2の雑音発生区間の音声を補間する。このとき、参照区間の一部が第1の雑音発生区間と重なる場合であっても、第1の雑音発生区間の雑音低減処理が実行された後であれば、その参照区間の音声信号に基づいて、第2の雑音発生区間の音声を補間する信号を生成する。
つまり、第1の雑音発生区間の補間後の音声信号を用いて、第2の雑音発生区間の音声信号を補間するための信号を生成するのである。
さらに他の雑音低減処理について説明する。図14、図15は、他の雑音低減処理について説明する為の図である。図14において51は雑音の混入の無い信号区間を、52a,52bは雑音区間を示す。また、63は52aを予測処理するために用いる参照区間を、54aは52aの予測処理により補間された区間を示す。また、65a,65bは52bを予測処理するために用いる参照区間を示す。また、54bは52bの予測処理により補間された区間を示す。また、67a,67bは54aを予測処理するために用いる参照区間を示す。また、54cは54aの予測処理により補間された区間を示す。
図14の信号は図8、図9および図12と同じく雑音52a,52bが時間的に近接して発生した例である。図14において雑音区間52aを処理する際にはその前後が参照区間の候補となるが、時間的に後方の参照区間には別の雑音が含まれることになる。
そこで、カメラシステム制御部25は、雑音区間52aを補間するための信号54aを、時間的に前方に位置する参照区間63に基づいて生成する。ここまでは図9と同様の処理である。
次に、雑音区間52bの音声信号を処理する際には、既に処理を行った区間54aについては、雑音低減処理が行われた後であるため、雑音の混入が無い区間として取り扱う。そのため、音声信号処理部46は、雑音区間52bを補間するための音声信号を、参照区間65a,65bの音声信号に基づいて生成する。ここまでは図12と同様の処理である。
図14においては、信号54aにより補間された区間の音声信号をさらに補間する処理を行う。すなわち、信号54aは、雑音発生区間52aの時間的に前方の参照区間の音声信号に基づいて生成された信号であり、後方の参照区間の音声信号を使用していない。そのため、再度、雑音発生区間52bの補間後の音声信号を含む後方の参照区間67bの音声信号と、前方の参照区間67aの音声信号に基づいて、補間信号54cを生成するのである。
このような処理によって、さらに雑音低減後の音声信号の音質を向上させることができる。
なお、さらに予測処理を繰り返して信号の差が小さくなるまで処理を行っても良い。図14の例では信号54aと54cの差が十分小さければその信号を採用する。大きい場合は54cを用いて再度54bを処理した後に54cを処理する。
図15は図14を用いて説明した波形を処理した例を示す図である。
図15(a)は処理前の波形を示す。
図15(b)は時間的に前方にある雑音を処理した後の波形を示す。
図15(c)は時間的に後方にある雑音を処理した後の波形を示す。
図15(d)は時間的に前方にある雑音を再度処理した後の波形を示す。
図15(e)は1回目の時間的に前方にある雑音を処理による信号の変化(図15(a)と図15(b)の波形の差)を示す。
図15(a)においては、参照区間の音声信号に基づいて生成された音声信号により、1つめの雑音を低減することを示している。図14で説明したように、2つめの雑音が1つめの雑音を低減するための参照区間に含まれているため、2つめの雑音を含む区間を参照区間とせずに、雑音発生区間の前方の参照区間の音声信号に基づいて処理を行うこと示している。
図15(b)においては、2つめの雑音を低減することを示している。図14で説明したように、2つめの雑音の参照区間のうち1つめの雑音の含まれていた区間のも参照区間として、雑音発生区間の前後の参照区間の音声信号に基づいて、2つめの雑音を低減する処理を示している。
図15(c)においては、さらに、1つめの雑音の発生していた区間の音声信号をその区間の前後の参照区間の音声信号に基づいて生成された信号で補間することを示している。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
本実施例においては、撮像装置を一例として説明したが、音声信号を処理することができる装置であればどのような装置であっても良い。例えば、コンピュータ、携帯電話、ゲーム機などの音声を取り扱うことができる装置であればどのような装置であっても良い。また、コンピュータに上述した処理を実行させる為のプログラムも本発明の思想に含まれる。
(他の実施形態)
上述の実施形態は、システム或は装置のコンピュータ(或いはCPU、MPU等)によりソフトウェア的に実現することも可能である。従って、上述の実施形態をコンピュータで実現するために、該コンピュータに供給されるコンピュータプログラム自体も本発明を実現するものである。つまり、上述の実施形態の機能を実現するためのコンピュータプログラム自体も本発明の一つである。
なお、上述の実施形態を実現するためのコンピュータプログラムは、コンピュータで読み取り可能であれば、どのような形態であってもよい。例えば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等で構成することができるが、これらに限るものではない。上述の実施形態を実現するためのコンピュータプログラムは、記憶媒体又は有線/無線通信によりコンピュータに供給される。プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記憶媒体、MO、CD、DVD等の光/光磁気記憶媒体、不揮発性の半導体メモリなどがある。
有線/無線通信を用いたコンピュータプログラムの供給方法としては、コンピュータネットワーク上のサーバを利用する方法がある。この場合、本発明を形成するコンピュータプログラムとなりうるデータファイル(プログラムファイル)をサーバに記憶しておく。プログラムファイルとしては、実行形式のものであっても、ソースコードであっても良い。そして、このサーバにアクセスしたクライアントコンピュータに、プログラムファイルをダウンロードすることによって供給する。この場合、プログラムファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに分散して配置することも可能である。つまり、上述の実施形態を実現するためのプログラムファイルをクライアントコンピュータに提供するサーバ装置も本発明の一つである。
また、上述の実施形態を実現するためのコンピュータプログラムを暗号化して格納した記憶媒体を配布し、所定の条件を満たしたユーザに、暗号化を解く鍵情報を供給し、ユーザの有するコンピュータへのインストールを許可してもよい。鍵情報は、例えばインターネットを介してホームページからダウンロードさせることによって供給することができる。また、上述の実施形態を実現するためのコンピュータプログラムは、すでにコンピュータ上で稼働するOSの機能を利用するものであってもよい。さらに、上述の実施形態を実現するためのコンピュータプログラムは、その一部をコンピュータに装着される拡張ボード等のファームウェアで構成してもよいし、拡張ボード等が備えるCPUで実行するようにしてもよい。

Claims (7)

  1. 音声信号を取得する取得手段と、
    前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の所定区間及び後方の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより前記音声信号に含まれる雑音を低減する音声処理手段とを有し、
    前記音声処理手段は、前記取得手段により取得された前記音声信号のうち前記雑音区間の前方の所定区間と後方の所定区間のいずれか一方の区間に雑音が含まれ、他方の区間に雑音が含まれていない場合は、前記他方の区間の音声信号を用い、前記一方の区間の音声信号を用いることなく前記補間用の信号を生成することを特徴とする音声処理装置。
  2. 音声信号を取得する取得手段と、
    前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の第1の所定区間及び後方の第2の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより前記音声信号に含まれる雑音を低減する音声処理手段とを有し、
    前記音声処理手段は、前記第1の所定区間に雑音が含まれ、前記第2の所定区間に雑音が含まれない場合、前記第2の所定区間の音声信号を用い、前記第1の所定区間の音声信号を用いることなく前記補間用の信号を生成し、前記第2の所定区間に雑音が含まれ、前記第1の所定区間に雑音が含まれない場合、前記第1の所定区間の音声信号を用い、前記第2の所定区間の音声信号を用いることなく前記補間用の信号を生成することを特徴とする音声処理装置。
  3. 前記取得手段により取得された前記音声信号のうち前記雑音区間を判定する判定手段を有することを特徴とする請求項1または2に記載の音声処理装置。
  4. 被写体の光学像を取得して光電変換素子に入力する光学手段と、
    前記光学手段の駆動を制御する制御手段とを有し、
    前記判定手段は、前記制御手段により前記光学手段を駆動する指示に基づいて、前記雑音区間判定することを特徴とする請求項3に記載の音声処理装置。
  5. 音声信号を取得する取得手段を有する音声処理装置を制御する方法であって、
    前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の所定区間および後方の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより、前記音声信号に含まれる雑音を低減する音声処理ステップを有し、
    前記音声処理ステップは、前記取得手段により取得された前記音声信号のうち前記雑音区間の前方の所定区間と後方の所定区間のいずれか一方の区間に雑音が含まれ、他方の区間に雑音が含まれていない場合は、前記他方の区間の音声信号を用い、前記一方の区間の音声信号を用いること無く前記補間用の信号を生成することを特徴とする音声処理装置の制御方法。
  6. 音声信号を取得する取得手段を有する音声処理装置を制御する方法であって、
    前記取得手段により取得された前記音声信号のうち雑音の含まれる雑音区間の前方の第1の所定区間および後方の第2の所定区間の音声信号を用いて補間用の信号を生成し、前記補間用の信号によって前記雑音区間の音声信号を補間することにより、前記音声信号に含まれる雑音を低減する音声処理ステップを有し、
    前記音声処理ステップは、前記第1の所定区間に雑音が含まれ、前記第2の所定区間に雑音が含まれない場合、前記第2の所定区間の音声信号を用い、前記第1の所定区間の音声信号を用いることなく前記補間用の信号を生成し、前記第2の所定区間に雑音が含まれ、前記第1の所定区間に雑音が含まれない場合、前記第1の所定区間の音声信号を用い、前記第2の所定区間の音声信号を用いることなく前記補間用の信号を生成することを特徴とする音声処理装置の制御方法。
  7. コンピュータを請求項1から4のいずれか1項に記載の各手段として動作させるためのプログラム。
JP2012046791A 2012-03-02 2012-03-02 音声処理装置 Active JP6061476B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012046791A JP6061476B2 (ja) 2012-03-02 2012-03-02 音声処理装置
US13/779,605 US9275624B2 (en) 2012-03-02 2013-02-27 Audio processing apparatus
CN201310067156.7A CN103297687B (zh) 2012-03-02 2013-03-04 音频处理设备及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012046791A JP6061476B2 (ja) 2012-03-02 2012-03-02 音声処理装置

Publications (2)

Publication Number Publication Date
JP2013182185A JP2013182185A (ja) 2013-09-12
JP6061476B2 true JP6061476B2 (ja) 2017-01-18

Family

ID=49042855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012046791A Active JP6061476B2 (ja) 2012-03-02 2012-03-02 音声処理装置

Country Status (3)

Country Link
US (1) US9275624B2 (ja)
JP (1) JP6061476B2 (ja)
CN (1) CN103297687B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012203040A (ja) * 2011-03-23 2012-10-22 Canon Inc 音声信号処理装置、及びその制御方法
US9667857B2 (en) * 2014-10-09 2017-05-30 Panasonic Intellectual Property Management Co., Ltd. Imaging apparatus with adjustable noise level reduction
JP2021115429A (ja) * 2020-01-27 2021-08-10 国立大学法人大阪大学 信号計測システム、計測信号処理装置及びプログラム
JP7566552B2 (ja) 2020-09-25 2024-10-15 キヤノン株式会社 音声処理装置、制御方法、およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3596978B2 (ja) * 1996-05-14 2004-12-02 株式会社ルネサステクノロジ 音声再生装置
JP4466384B2 (ja) 2005-01-19 2010-05-26 カシオ計算機株式会社 電子カメラ、ノイズ低減装置及びノイズ低減方法
US7596231B2 (en) * 2005-05-23 2009-09-29 Hewlett-Packard Development Company, L.P. Reducing noise in an audio signal
JP2008053802A (ja) 2006-08-22 2008-03-06 Sony Corp 記録装置、ノイズ除去方法、ノイズ除去装置
JP5351644B2 (ja) 2009-07-27 2013-11-27 キヤノン株式会社 音声記録装置及び方法、ならびに撮像装置
JP5538918B2 (ja) * 2010-01-19 2014-07-02 キヤノン株式会社 音声信号処理装置、音声信号処理システム
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法

Also Published As

Publication number Publication date
CN103297687A (zh) 2013-09-11
CN103297687B (zh) 2016-10-05
US20130230189A1 (en) 2013-09-05
US9275624B2 (en) 2016-03-01
JP2013182185A (ja) 2013-09-12

Similar Documents

Publication Publication Date Title
JP5594133B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP5529635B2 (ja) 音声信号処理装置および音声信号処理方法
JP5351644B2 (ja) 音声記録装置及び方法、ならびに撮像装置
US8698911B2 (en) Sound recording device, imaging device, photographing device, optical device, and program
JP6061476B2 (ja) 音声処理装置
JP6610725B2 (ja) 音処理装置および音処理プログラム
JP5963430B2 (ja) 撮像装置、音声処理装置、及びそれらの制御方法
JP5278477B2 (ja) 信号処理装置、撮像装置、および、信号処理プログラム
US9288370B2 (en) Imaging apparatus and audio processing apparatus
JP5932399B2 (ja) 撮像装置及び音声処理装置
JP5839795B2 (ja) 撮像装置および情報処理システム
JP5158054B2 (ja) 録音装置、撮像装置、および、プログラム
JP6144945B2 (ja) 信号処理装置及び方法
JP2012185445A (ja) 信号処理装置、撮像装置、及び、プログラム
JP5473786B2 (ja) 音声信号処理装置、及びその制御方法
JP2012165219A (ja) 撮像装置
JP5736839B2 (ja) 信号処理装置、撮像装置、及びプログラム
JP2018207316A (ja) 音声処理装置及びその制御方法
JP6731772B2 (ja) 電子機器及び制御方法
JP2016054462A (ja) 電子機器及び制御方法
JP2013178456A (ja) 信号処理装置、カメラおよび信号処理プログラム
JP2016018082A (ja) 音声処理装置及び方法、並びに撮像装置
JP2017204715A (ja) 電子機器及び制御方法
JP2016053697A (ja) 電子機器及び制御方法
JP2013222179A (ja) 録音ノイズ低減装置および光学機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161213

R151 Written notification of patent or utility model registration

Ref document number: 6061476

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151