JP2019016851A - 音声処理装置、音声処理方法、及びプログラム - Google Patents

音声処理装置、音声処理方法、及びプログラム Download PDF

Info

Publication number
JP2019016851A
JP2019016851A JP2017131073A JP2017131073A JP2019016851A JP 2019016851 A JP2019016851 A JP 2019016851A JP 2017131073 A JP2017131073 A JP 2017131073A JP 2017131073 A JP2017131073 A JP 2017131073A JP 2019016851 A JP2019016851 A JP 2019016851A
Authority
JP
Japan
Prior art keywords
wind noise
phase component
audio
signal
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017131073A
Other languages
English (en)
Inventor
友仁 井上
Tomohito Inoue
友仁 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017131073A priority Critical patent/JP2019016851A/ja
Priority to US16/022,393 priority patent/US10425731B2/en
Publication of JP2019016851A publication Critical patent/JP2019016851A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/18Automatic control in untuned amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/18Automatic control in untuned amplifiers
    • H03G5/22Automatic control in untuned amplifiers having semiconductor devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Abstract

【課題】音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減する。
【解決手段】複数の音声信号を入力する音声入力部と、入力される音声信号の風雑音を低減する風雑音低減部205、206と入力される複数の音声信号Rch−in、Lch−inの同位相成分R+Lと逆位相成分R−Lとの差分に基づいて風雑音低減部での風雑音の低減レベルを制御し、入力される複数の音声信号の同位相成分R+Lの大きさに基づいて風雑音低減部での風雑音の低減レベルを変化させる速さを制御する。
【選択図】図2

Description

本発明は、音声処理装置、音声処理方法、及びプログラムに関する。
音声信号を処理する装置として、画像信号を記録するとともに音声信号を記録する撮像装置がある。画像信号とともに音声信号を記録する撮像装置では、記録する音声信号の風雑音を低減する機能を持つものがある。風雑音は低い周波数成分が支配的であるので、風雑音の低減処理は、音声信号の低周波数成分を低減するハイパスフィルタで実現されることが多い。音声信号に対して常にハイパスフィルタの処理を施すと、音質への影響が大きいため、風雑音の検出レベルに応じてハイパスフィルタのカットオフ周波数を制御するものがあった(例えば、特許文献1)。
特開平6−269084号公報
従来の風雑音の低減処理においては、風雑音が大きい場合、ハイパスフィルタのカットオフ周波数を高くして、音声信号のより高い周波数成分まで低減させる。ハイパスフィルタのカットオフ周波数が高く設定された状態で、風雑音が小さくなった場合には、ハイパスフィルタのカットオフ周波数を低い周波数に戻すが、音質の変化を抑えるために長い時間をかけてゆっくりとカットオフ周波数を下げていた。そのため、ハイパスフィルタのカットオフ周波数を低い周波数に戻している間の音声信号が、風雑音の低減処理の影響を受け続けてしまうという課題があった。本発明は、音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減することを目的とする。
本発明に係る音声処理装置は、複数の音声信号を入力する音声入力手段と、入力される前記複数の音声信号の風雑音を低減する低減手段と、前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減手段での前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減手段での前記風雑音の低減レベルを変化させる速さを制御する制御手段とを有することを特徴とする。
本発明によれば、音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減することができる。
本発明の実施形態における撮像装置の構成例を示す図である。 本実施形態における音声処理部の構成例を示す図である。 本実施形態におけるカットオフ周波数の制御タイミングの例を示すタイミングチャートである。 本実施形態における風雑音の大きさに対するカットオフ周波数の段数の対応を示す図である。 本実施形態におけるカットオフ周波数の制御処理の例を示すフローチャートである。 本実施形態における音声処理部の他の構成例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。
図1は、本発明の一実施形態における撮像装置100の構成例を示すブロック図である。本実施形態における撮像装置100は、音声信号を処理、録音することが可能である。撮像装置100は、撮像部101、音声入力部102、音声処理部103、メモリ104、表示制御部105、表示部106、及び符号化処理部107を有する。また、撮像装置100は、記録再生部108、記録媒体109、制御部110、操作部111、音声出力部112、スピーカ113、及び外部出力部114を有する。
撮像部101は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換処理や画像調整処理等を行い、画像データを生成する。音声入力部102は、内蔵又は音声端子を介して接続された複数のマイクにより、撮像装置100の周辺の音声を集音し、アナログデジタル変換処理や音声処理等を行い、音声データを生成する。音声処理部103は、音声入力部102により得られた音声データに対して音声信号処理を行う。
メモリ104は、撮像部101により得られた画像データや、音声処理部104で処理された音声データを一時的に記憶する。表示制御部105は、撮像部101により得られた画像データに係る映像や、撮像装置100の操作画面やメニュー画面等を表示部106や、不図示の映像端子を介して外部の表示装置に表示させる。符号化処理部107は、メモリ104に一時的に記憶された画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成する。
記録再生部108は、符号化処理部107で生成された圧縮画像データや圧縮音声データ等を記録媒体109に記録したり、記録媒体109に記録された圧縮画像データ、圧縮音声データ、各種データ、及びプログラム等を読み出したりする。ここで、記録媒体109は、圧縮画像データや圧縮音声データ等を記録することができればよく、磁気ディスク、光学式ディスク、半導体メモリ等の任意の方式の記録媒体を含む。
制御部110は、撮像装置100の各機能部に制御信号を送信することで撮像装置100の各機能部を制御する。制御部110は、例えば、各種制御を実行するためのCPU(Central Processing Unit)やメモリ等からなる。操作部111は、ボタンやダイヤル等の操作部材を有し、ユーザの操作に応じて指示信号を制御部110に送信する。
音声出力部112は、記録再生部108により再生された圧縮音声データや、制御部110により出力される音声データをスピーカ113や音声端子等に出力する。外部出力部114は、記録再生部108により再生された圧縮映像データや圧縮音声データ等を外部機器に出力する。データバス115は、音声データや画像データ等の各種データ、各種制御信号を撮像装置100の各機能部に供給する。
本実施形態における撮像装置100の動作について説明する。
撮像装置100は、ユーザが操作部111を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部から撮像装置100が有する各機能部に電源を供給する。撮像装置100に電源が供給されると、制御部110は、例えば、操作部111のモード切り換えスイッチが、動画記録モードや再生モード等のどのモードであるかを操作部111からの指示信号により確認する。
動画記録モードでは、撮像装置100は、撮像部101により得られた画像データと音声入力部102により得られた音声データとを1つのファイルとして保存することができる。また、再生モードでは、撮像装置100は、記録媒体109に記録された圧縮画像データを記録再生部108により再生して表示部106に表示させることができる。
動画記録モードでの動作について説明する。動画記録モードでは、まず、制御部110は、撮影待機状態に移行させるように制御信号を撮像装置100の各機能部に送信し、以下のような動作をさせる。撮像部101は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換処理や画像調整処理等を行い、画像データを生成する。そして、撮像部101により得られた画像データが表示制御部105に送信され、表示制御部105は、画像データに係る映像を表示部106に表示させる。ユーザは、このようにして表示された映像を見ながら撮影の準備を行う。
また、音声入力部102は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を生成する。音声処理部103は、音声入力部102により得られたデジタル音声信号に対して任意の信号処理を施し、マルチチャンネルの音声データを生成する。本実施形態では、例えば、音声処理部103は、2チャンネルのステレオ音声データを出力する。そして、音声処理部103により得られた音声データが音声出力部112に送信され、音声出力部112は、接続されたスピーカ113や不図示のイヤホンから音声として出力させる。ユーザは、このようにして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整を行うこともできる。
次に、ユーザが操作部111の記録ボタン等を操作することにより撮影開始の指示信号が制御部110に送信されると、制御部110は、撮像装置100の各機能部に撮影開始の制御信号を送信し、以下のような動作をさせる。撮像部101は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換処理や画像調整処理等を行い、画像データを生成する。そして、撮像部101により得られた画像データが表示制御部105に送信され、表示制御部105は、画像データに係る映像を表示部106に表示させる。また、撮像部101により得られた画像データは、メモリ104に送信され記憶される。
音声入力部102は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、複数のデジタル音声信号を得る。音声処理部103は、音声入力部102により得られたデジタル音声信号に対して任意の信号処理を施し、マルチチャンネルの音声データを生成する。そして、音声処理部103により得られた音声データは、メモリ104に送信され記憶される。
符号化処理部107は、メモリ104に一時的に記憶された画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成する。そして、制御部110は、これらの圧縮画像データ及び圧縮音声データを合成してデータストリームを形成し、記録再生部108に出力する。記録再生部108は、UDF(Universal Disk Format)、FAT(File Allocation Tables)等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体109に書き込んでいく。以上の動作を、撮影中(撮影開始の制御信号の送信から撮影終了の制御信号の送信までの期間)は継続する。
そして、ユーザが操作部111の記録ボタン等を操作することにより撮影終了の指示信号が制御部110に送信されると、制御部110は、撮像装置100の各機能部に撮影終了の制御信号を送信し、以下のような動作をさせる。撮像部101及び音声入力部102は、それぞれ画像データ及び音声データの生成を停止する。符号化処理部107は、メモリ104に記憶されている残りの画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成し終えたら動作を停止する。
制御部110は、符号化処理部107により生成された、これらの残りの圧縮画像データ及び圧縮音声データを合成してデータストリームを形成し、記録再生部108に出力する。記録再生部108は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体109に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて記録動作を停止させる。制御部110は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置100の各機能部に送信して、撮像装置100は撮影待機状態に戻る。
次に、再生モードでの動作について説明する。再生モードでは、制御部110は、再生状態に移行させるように制御信号を撮像装置100の各機能部に送信し、以下のような動作をさせる。記録再生部108は、ユーザの操作部111に対する操作等に応じて、記録媒体109に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録媒体109から読み出す。そして、記録再生部108は、読み出した圧縮画像データ及び圧縮音声データを符号化処理部107に送る。
符号化処理部107は、圧縮画像データ及び圧縮音声データを復号して、それぞれ表示制御部105及び音声処理部103に送信する。音声処理部103は、送られてきたデジタル音声信号に対して任意の信号処理を施し、得られた音声データを音声出力部112に送信する。表示制御部105は、復号された画像データに係る映像を表示部106に表示させる。また、音声出力部112は、復号された音声データに係る音声をスピーカ113や取付けられた外部スピーカ等から出力させる。
以上のようにして、本実施形態における撮像装置100は、画像及び音声の記録や再生を行う。
次に、本実施形態における音声処理部103で行われる音声信号処理について、図2を用いて説明する。図2は、本実施形態における音声処理部103の構成例を示す図である。本実施形態における音声処理部103は、同位相成分生成部201、逆位相成分生成部202、同位相成分検出部203、風雑音検出部204、風雑音低減部205、206、及び制御部207を有する。
音声処理部103は、異なるマイクによりそれぞれ得られた、ステレオ音声の右チャンネル(Rch)の音声信号Rch−inと左チャンネル(Lch)の音声信号Lch−inとの2つの音声信号(音声データ)が入力される。そして、音声処理部103は、入力される音声信号(音声データ)に対して処理を施し、Rchの音声信号Rch−outとLchの音声信号Lch−outとの2つの音声信号(音声データ)を出力する。
同位相成分生成部201は、入力された2つの音声信号Rch−in、Lch−inを加算してチャンネル間の同位相成分(R+L)を生成する。同位相成分生成部201は、演算部211、ローパスフィルタ212、及び変換処理部213を有する。演算部211は、2つの音声信号Rch−in、Lch−inを加算する。ローパスフィルタ(LPF)212は、演算部211の出力における低周波数成分を抽出する。変換処理部(ABS)213は、ローパスフィルタ212の出力に対して絶対値変換処理を施す。ここで、ローパスフィルタ212は、音声信号の風雑音を検出するために帯域を制限することを目的としているため、ローパスフィルタ212のカットオフ周波数は、例えば100Hz〜200Hz程度の設定が好ましい。逆位相成分生成部202が有するローパスフィルタ222も同様である。
逆位相成分生成部202は、入力された2つの音声信号Rch−inとLch−inの一方から他方を減算してチャンネル間の逆位相成分を生成する。ここでは、Rch−inからLch−inを減算して逆位相成分(R−L)を生成する。逆位相成分生成部202は、演算部221、ローパスフィルタ222、及び変換処理部223を有する。ここでは、演算部221は、Rchの音声信号Rch−inからLchの音声信号Lch−inを減算する。ローパスフィルタ(LPF)222は、演算部221の出力における低周波数成分を抽出する。変換処理部(ABS)223は、ローパスフィルタ222の出力に対して絶対値変換処理を施す。
同位相成分検出部203は、同位相成分生成部201により生成された同位相成分(R+L)の積分値を検出する。風雑音検出部204は、同位相成分生成部201により生成された同位相成分(R+L)と逆位相成分生成部202により生成された逆位相成分(R−L)との差分の積分値を音声信号に含まれる風雑音の大きさとして検出する。同位相成分検出部203は第1の検出手段の一例であり、風雑音検出部204は第2の検出手段の一例である。
風雑音検出部204は、増幅部241、演算部242、及び検出部243を有する。増幅部241は、同位相成分(R+L)に対してゲインを印加し、同位相成分(R+L)と逆位相成分(R−L)とのバランスを調整する。演算部242は、逆位相成分(R−L)から、同位相成分(R+L)を減算して差分を検出する。ここでは、演算部242は、逆位相成分(R−L)から同位相成分(R+L)を減算する。検出部243は、演算部242から出力される同位相成分(R+L)と逆位相成分(R−L)の差分の積分値を検出する。
風雑音低減部205は、入力された音声信号Rch−inにハイパスフィルタ処理を行い、カットオフ周波数よりも低い周波数の信号レベルを減衰させることにより、音声信号の風雑音を低減させた音声信号Rch−outを出力する。風雑音低減部206は、入力された音声信号Lch−inにハイパスフィルタ処理を行い、カットオフ周波数よりも低い周波数の信号レベルを減衰させることにより、音声信号の風雑音を低減させた音声信号Lch−outを出力する。風雑音低減部205、206は、例えばハイパスフィルタにより実現される。
制御部207は、同位相成分検出部203及び風雑音検出部204の検出結果に基づいて、風雑音低減部205、206による風雑音の低減処理を制御する。制御部207は、風雑音検出部204の検出結果、すなわち風雑音の大きさに基づいて、風雑音低減部205、206による風雑音の低減レベルの強度、例えばハイパスフィルタ処理におけるカットオフ周波数を制御する。また、制御部207は、同位相成分検出部203の検出結果、すなわち同位相成分(R+L)に基づいて、風雑音低減部205、206による風雑音の低減レベルの強度を変化させるときの速さを制御する。具体的には、風雑音が大きい状態から、風雑音が小さい状態になったときに、風雑音低減部205、206のカットオフ周波数を下げるときの速さを制御する。
次に、音声処理部103による風雑音の低減処理について説明する。なお、以下では、風雑音低減部205、206はハイパスフィルタであるとし、風雑音の低減レベルの制御はハイパスフィルタのカットオフ周波数を制御するものとして説明する。撮像装置においては、本体の大きさ等の制約から、音声信号Rch−inを得るためのRchマイクと音声信号Lch−inを得るためのLchマイクはお互いの近傍に配置されることが多い。
そのため、Lch及びRchに、風雑音ではない通常の音声信号が入力された場合、2つの音声信号Rch−in、Lch−inの位相差は小さい。つまり、チャンネル間の逆位相成分(R−L)はほとんど検出されないため、風雑音検出部204において風雑音は検出されない。それに対して、Lch及びRchに風の音が入力された場合、風の音はチャンネル間で相関が低いため、2つの音声信号Rch−in、Lch−inの位相差は大きい。したがって、チャンネル間の逆位相成分(R−L)が検出され、風雑音検出部204において風雑音が検出される。
ここで、風雑音検出部204における増幅部241は、同位相成分(R+L)と逆位相成分(R−L)とのバランスを取るために、同位相成分に対してゲインを印加する。風の音が入力された場合に風雑音検出部204で風雑音が検出できるように、例えば増幅部241では、マイクやマイクを格納するマイク室の風雑音に対する感度にもよるが、概ね−6dB程度のゲインを印加させるのが好ましい。また、風雑音検出部204における検出部243は演算部242の出力信号を積分するが、ユーザがマイク室の近傍をタッチした音等による誤検出を防ぐために、検出部243の積分時間は例えば500ms程度にするのが好ましい。そのため、検出部243は、演算部242からの出力を積分した結果を500ms毎に出力する。
検出部243の積分時間毎に風雑音検出部204での検出結果が制御部207に送られ、制御部207は、風雑音検出部204の検出結果に応じて風雑音低減部205、206のカットオフ周波数を設定する。制御部207は、風雑音が大きい場合にはカットオフ周波数を高く設定し、風雑音が小さい(風雑音が検出されない)場合にはカットオフ周波数を低く設定する。風雑音低減部205、206のカットオフ周波数は、ハイパスフィルタの構成や次数にもよるが、例えば風雑音検出部204での検出結果に応じて50Hz〜300Hzの間で動作させる。撮像装置やマイク室の構成にもよるが、風速3メートル程度の風が当たると、音声信号は非常に聞き取りにくくなってしまうため、カットオフ周波数が300Hz程度になるように設定すると好適である。
具体的には、本実施形態では、風雑音の大きさに応じて、風雑音低減部205、206のカットオフ周波数を50Hz〜300Hzの間で20段階に設定する。制御部207は、風雑音の大きさに対応した風雑音低減部205、206のカットオフ周波数のテーブルを有しており、検出部243により検出された風雑音の大きさに対応したカットオフ周波数(の段数)を、目標周波数として設定する。このとき、風雑音の大きさが大きいほど、カットオフ周波数を高くする。
図4は、検出部243により検出された風雑音の大きさに対応した、風雑音低減部205、206のカットオフ周波数の段数の対応を示す図である。図4において、段数401が小さいほど、風雑音低減部205、206のカットオフ周波数が低い。風雑音の大きさが最も小さいとき(下限値)に段数“0”が設定される。段数“0”に対応したカットオフ周波数は50Hzである。また、風雑音の大きさが最も大きいとき(上限値)に段数“19”が設定される。段数“19”に対応したカットオフ周波数は300Hzである。そして、段数“0”と“19”の間で、風雑音の大きさに対応した段数が予め設定されている。制御部207は、図4に示すテーブルを記憶している。
また、402〜404は、それぞれ、現在設定されているカットオフ周波数の段数から、次の段数に変更する際の変更間隔(更新間隔)を示している。例えば、カットオフ周波数を上げる場合は、更新間隔402に示すように、現在設定されている段数にかかわらず、一律に1/60秒毎に1段階ずつ、目標の段数に達するまで、制御部207により風雑音低減部205、206のカットオフ周波数を変更する。
また、カットオフ周波数を下げる場合は、更新間隔403に示すように、現在設定されている段数に対応した更新間隔で、1段階ずつ、目標の段数に達するまで、制御部207により風雑音低減部205、206のカットオフ周波数を変更する。
例えば、風雑音の大きさが上限値で、カットオフ周波数の段数が“19”であるときに、風雑音の大きさが下限値であると検出された場合、カットオフ周波数の段数の目標値は“0”となる。そのため、制御部107は、段数が“16”になるまでは、0.5秒間隔で1段階ずつカットオフ周波数を更新する。その後、更新間隔403に示す時間間隔で、1段階ずつカットオフ周波数を更新し、段数“4”から段数“0”になるまでは、6秒間隔で1段階ずつカットオフ周波数を更新する。
このように、風雑音の大きさが大きな状態から小さな状態に変わり、それに合わせて風雑音低減部205、206のカットオフ周波数を下げる場合に、長い時間(数十秒程度)で変更することで音質の変化を目立たなくする。
また、本実施形態では、カットオフ周波数を下げる際、同位相成分の大きさが大きい場合には、更新間隔404に示すように、現在設定されている段数に関係無く、一律に25ミリ秒の一定間隔で、1段階ずつカットオフ周波数を更新する。即ち、最も高いカットオフ周波数から、最も低いカットオフ周波数に下げるまでの時間が0.5秒程度となるように、1段階あたりの更新間隔を設定している。このように、1段ずつカットオフ周波数を変更することにより音質の劣化を防止している。
図5は、風雑音低減部205、206のカットオフ周波数の制御処理の例を示すフローチャートである。図5に示す処理は、制御部207により動画の記録中に実行される。制御部207は、まず、風雑音検出部204により、新たに風雑音が検出されたか否かを判別する(S501)。前述のように、風雑音検出部204は、演算部242の出力を500msの期間積分して出力する。そのため、風雑音検出部204は、500ms毎に積分結果を風雑音の検出結果として制御部207に出力する。
新たに風雑音の検出結果が出力されていた場合、制御部207は、図4に示したテーブルに基づいて、検出された風雑音の大きさに対応した、風雑音低減部205、206のカットオフ周波数の目標値(目標段数)を設定する(S502)。そして、制御部207は、現在設定しているカットオフ周波数の段数が、目標値と一致しているか否かを判別する(S503)。一致していると制御部207が判別した場合、現在の段数のまま、カットオフ周波数を変更せずに、次の風雑音の検出タイミングまで待つ。
また、現在設定しているカットオフ周波数の段数が、目標値と一致していないと判別した場合、制御部207は、目標値が現在のカットオフ周波数よりも高く、カットオフ周波数を上げるか否かを判別する(S504)。カットオフ周波数を上げると判別した場合、制御部207は、風雑音低減部205、206のカットオフ周波数を、現在設定されているカットオフ周波数よりも1段だけ高いカットオフ周波数に変更する(S505)。そして、次の更新タイミングまで待機する(S506)。図4に示すように、カットオフ周波数を高くする場合は、1/60秒間待機する。
また、ステップS504において、目標値が現在のカットオフ周波数よりも高くないと判別した場合、制御部207は、カットオフ周波数を下げる処理を行うが、前述のように、同位相成分の大きさによりカットオフ周波数を下げる速さを変える。そのため、制御部207は、同位相成分検出部203からの出力に基づき、同位相成分の大きさが、閾値よりも大きいか否かを判別する(S507)。
同位相成分の大きさが閾値よりも大きいと制御部207が判別した場合、カットオフ周波数を目標値まで迅速に下げるため、カットオフ周波数の変更のための更新間隔をn秒に設定する(S508)。例えば、図4に示した例では、次の段数に変更するまでの間隔を25ミリ秒に設定する。また、同位相成分の大きさが閾値よりも大きくないと制御部207が判別した場合、制御部207は、現在の段数に応じた更新間隔を設定する(S511)。
そして、制御部207は、風雑音低減部205、206のカットオフ周波数を、設定された更新間隔に従って、現在設定されているカットオフ周波数よりも1段だけ低いカットオフ周波数に変更し(S509)、次の更新タイミングまで待機する(S510)。
図3(A)及び図3(B)は、風雑音の検出タイミングと風雑音低減部205、206のカットオフ周波数の制御タイミングを示すタイミングチャートである。図3(A)、(B)のどちらにおいても、時刻T1までは風雑音の大きさが下限値となっており、風雑音低減部205、206のカットオフ周波数は段数“0”に対応したカットオフ周波数となっている。時刻T1において、上限値の大きさの風雑音が検出されると、風雑音低減部205、206のカットオフ周波数は段数“19”に対応した、最も高い周波数に設定される。その後、時刻T2で、再び、風雑音の大きさが下限値に達する。このとき、本実施形態では、同位相成分検出部203の検出結果に応じて、風雑音低減部205、206のカットオフ周波数を、目標値である段数“0”まで下げる時間の長さを設定する。
同位相成分検出部203は、風雑音検出部204と同程度の積分時間を設けて同位相成分(R+L)の低周波数成分を積分し、検出結果を制御部207に送る。同位相成分検出部203の検出結果が閾値よりも大きくない場合、入力される音声が通常の音声ではなく暗騒音や環境音である可能性が高い。そのため、制御部207は、図3(A)に一例を示すように、例えば図4に示した更新間隔403に従って、次の段数に変更するための更新間隔を設定し、風雑音低減部205、206のカットオフ周波数を目標値まで下げる時間を長く設定する。これにより、暗騒音や環境音等による音質の変化が目立たないように、風雑音低減部205、206のカットオフ周波数を長い時間をかけてゆっくり下げることが可能となる。図3(A)には、時刻T2から時刻T4までの第1の時間でカットオフ周波数を低下させる例を示している。
この場合、カットオフ周波数を下げる時間は、音声信号の音質に違和感を抱きにくくするため、カットオフ周波数を最も高い周波数から最も低い周波数まで下げる時間を60秒程度に設定すると好適である。暗騒音や環境音は、ハイパスフィルタのカットオフ周波数を変化させることによる音質変化を認識しやすい音源であるため、60秒程度の時間をかけて音質を変化させることで違和感を低減させることができる。
また、同位相成分検出部203の検出結果が閾値よりも大きい場合、入力される音声の低域は通常の音声信号である可能性が高い。そのため、制御部207は、図3(B)に一例を示すように、例えば図4に示した更新間隔404に従い、次の段数に変更するための更新間隔を25ミリ秒に設定し、風雑音低減部205、206のカットオフ周波数を目標値まで下げる時間を短く設定する。これにより、入力される音声において低周波数成分が低減された状態が長く続かないように、風雑音低減部205、206のカットオフ周波数を短時間で速やかに目標値まで下げることが可能となり、風雑音の低減処理が音質へ与える影響を軽減することができる。図3(B)には、前述した第1の時間よりも短い時刻T2から時刻T3までの第2の時間の短期間で、カットオフ周波数を低下させる例を示している。
この場合、カットオフ周波数を下げる時間は、ハイパスフィルタによって低周波数成分が低減されている時間を最小限にとどめるため、カットオフ周波数を最も高い周波数から最も低い周波数まで下げる時間を0.5秒程度に設定すると好適である。通常の音声信号が入力されている場合、ハイパスフィルタのカットオフ周波数を変化させることによる音質変化を低減するよりも、ハイパスフィルタで低周波数成分が低減されていることの方が問題である。そのため、0.5秒程度の短時間でカットオフ周波数を下げることで、入力される音声信号において低周波成分が低減される時間を短くし、低周波数成分がカットされない音声信号をより長く記録することができる。
このように本実施形態では、風雑音検出部204により検出される風雑音の大きさに基づいて、制御部207は、風雑音低減部205、206による風雑音の低減レベルの強度を制御する。そして、風雑音低減部205、206による風雑音の低減レベルを低下させる場合、制御部207は、同位相成分検出部203の検出結果に基づいて、風雑音の低減レベルを変化させる速さを制御する。制御部207は、同位相成分検出部203の検出結果が閾値よりも大きくない場合、音質の変化を抑えるために、風雑音の低減レベルを長い時間をかけてゆっくり低下させる。また、制御部207は、同位相成分検出部203の検出結果が閾値よりも大きい場合、入力される音声が通常の音声である可能性が高いため、風雑音の低減レベルを短い時間で速やかに低下させる。これにより、音質の変化を抑えつつ、風雑音の低減処理が音声信号の音質へ与える影響を軽減することができる。
なお、本実施形態では、図2のように、入力されたRchとLchの音声信号のそれぞれに対してハイパスフィルタの処理を行うことにより風雑音を低減する構成であったが、これ以外にも、例えば、音声処理部103を図6のように構成することも可能である。
図6は、音声処理部103の他の構成例を示す図である。図2と同様の構成は同一番号を付加してある。図6に示す音声処理部103では、演算部211により同位相成分(R+L)の信号が得られ、演算部221により逆位相成分(R−L)の信号が得られる。そして、風雑音低減部(例えばハイパスフィルタ)208により、逆位相成分(R−L)の信号に対してハイパスフィルタの処理を行うことにより風雑音を低減する。前述のように、風雑音のようにRchとLchの間で相関性が低い音声が含まれる場合に逆位相成分(R−L)の信号は大きくなる。そのため、風雑音低減部208により、逆位相成分(R−L)の信号の低周波数成分を減衰させることにより、風雑音を低減する。
また、制御部207は、図5に示した処理を行い、風雑音検出部204により検出された風雑音の大きさに基づいて風雑音低減部208のカットオフ周波数を設定する。また、制御部207は、同位相成分検出部203の出力に基づいて、カットオフ周波数を下げる場合の速さを制御する。
演算部209は、演算部211からの同位相成分(R+L)の信号と風雑音低減部208からの逆位相成分(R−L)の信号とを加算した信号の大きさを1/2に変換して、Rchの音声信号Rch−outとして出力する。また、演算部210は、演算部211からの同位相成分(R+L)の信号から、風雑音低減部208からの逆位相成分(R−L)の信号を減算した信号の大きさを1/2に変換して、Lchの音声信号Lch−outとして出力する。
(本発明の他の実施形態)
本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
102:音声入力部 103:音声処理部 201:同位相成分生成部 202:逆位相成分生成部 203:同位相成分検出部 204:風雑音検出部 205、206、208:風雑音低減部 207:制御部
メモリ104は、撮像部101により得られた画像データや、音声処理部103で処理された音声データを一時的に記憶する。表示制御部105は、撮像部101により得られた画像データに係る映像や、撮像装置100の操作画面やメニュー画面等を表示部106や、不図示の映像端子を介して外部の表示装置に表示させる。符号化処理部107は、メモリ104に一時的に記憶された画像データや音声データを読み出して所定の符号化処理を行い、圧縮画像データや圧縮音声データ等を生成する。
図3(A)及び図3(B)は、風雑音の検出タイミングと風雑音低減部205、206のカットオフ周波数の制御タイミングを示すタイミングチャートである。図3(A)、(B)のどちらにおいても、時刻T1までは風雑音の大きさが下限値となっており、風雑音低減部205、206のカットオフ周波数は段数“0”に対応したカットオフ周波数となっている。時刻Tにおいて、上限値の大きさの風雑音が検出されると、風雑音低減部205、206のカットオフ周波数は段数“19”に対応した、最も高い周波数に設定される。その後、時刻Tで、再び、風雑音の大きさが下限値に達する。このとき、本実施形態では、同位相成分検出部203の検出結果に応じて、風雑音低減部205、206のカットオフ周波数を、目標値である段数“0”まで下げる時間の長さを設定する。
この場合、カットオフ周波数を下げる時間は、ハイパスフィルタによって低周波数成分が低減されている時間を最小限にとどめるため、カットオフ周波数を最も高い周波数から最も低い周波数まで下げる時間を0.5秒程度に設定すると好適である。通常の音声信号が入力されている場合、ハイパスフィルタのカットオフ周波数を変化させることによる音質変化を低減するよりも、ハイパスフィルタで低周波数成分が低減されていることの方が問題である。そのため、0.5秒程度の短時間でカットオフ周波数を下げることで、入力される音声信号において低周波成分が低減される時間を短くし、低周波数成分がカットされない音声信号をより長く記録することができる。

Claims (13)

  1. 複数の音声信号を入力する音声入力手段と、
    入力される前記複数の音声信号の風雑音を低減する低減手段と、
    前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減手段での前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減手段での前記風雑音の低減レベルを変化させる速さを制御する制御手段とを有することを特徴とする音声処理装置。
  2. 前記制御手段は、前記低減手段での前記風雑音の低減レベルを低下させる際、前記複数の音声信号の同位相成分が閾値よりも大きくない場合、前記風雑音の低減レベルを第1の時間で低下させ、前記複数の音声信号の同位相成分が前記閾値よりも大きい場合、前記風雑音の低減レベルを前記第1の時間よりも短い第2の時間で低下させることを特徴とする請求項1記載の音声処理装置。
  3. 前記低減手段での前記風雑音の低減レベルが、前記複数の音声信号の同位相成分と逆位相成分との差分に応じて複数の段階で設定され、
    前記制御手段は、前記低減手段での前記風雑音の低減レベルを低下させる際、前記複数の音声信号の同位相成分が閾値よりも大きくない場合、設定されている段階に対応した第1の変更間隔で、1段階ずつ目標の段階まで前記風雑音の低減レベルを変更し、前記複数の音声信号の同位相成分が前記閾値よりも大きい場合、設定されている段階にかかわらず、前記第1の変更間隔よりも短い一定の第2の変更間隔で、1段階ずつ目標の段階まで前記風雑音の低減レベルを変更することを特徴とする請求項1記載の音声処理装置。
  4. 前記複数の音声信号の同位相成分の大きさを検出する第1の検出手段と、
    前記複数の音声信号の同位相成分と逆位相成分との差分を検出する第2の検出手段とを有し、
    前記制御手段は、前記第1の検出手段及び前記第2の検出手段の検出結果に応じて前記低減手段の制御を行うことを特徴とする請求項1〜3の何れか1項に記載の音声処理装置。
  5. 前記第1の検出手段は、前記複数の音声信号の同位相成分の低周波数成分の大きさを検出することを特徴とする請求項4記載の音声処理装置。
  6. 前記低減手段は、ハイパスフィルタであり、
    前記制御手段は、前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記ハイパスフィルタのカットオフ周波数を制御することを特徴とする請求項1〜5の何れか1項に記載の音声処理装置。
  7. 前記制御手段は、前記複数の音声信号の同位相成分と逆位相成分との差分が大きくなるに伴って、前記ハイパスフィルタのカットオフ周波数を高く設定することを特徴とする請求項6記載の音声処理装置。
  8. 右チャンネルと左チャンネルを含む音声信号を入力する入力手段と、
    前記入力手段により入力された前記音声信号にハイパスフィルタの処理を行うことにより前記音声信号の風雑音を低減する低減手段と、
    前記入力手段により入力された前記右チャンネルの音声信号と前記左チャンネルの音声信号とを加算した信号と、前記右チャンネルと左チャンネルの一方の音声信号から他方の音声信号を減算した信号との差分に基づいて前記低減手段における前記ハイパスフィルタのカットオフ周波数を設定し、前記加算した信号の大きさに基づいて前記低減手段における前記ハイパスフィルタのカットオフ周波数を低下させるときの速さを制御する制御手段とを有することを特徴とする音声処理装置。
  9. 前記制御手段は、前記減算した信号が前記加算した信号よりも大きいほど前記カットオフ周波数を高く設定し、前記加算した信号の大きさが閾値よりも大きい場合には、前記ハイパスフィルタのカットオフ周波数を第1のカットオフ周波数から第2のカットオフ周波数まで低下させる時間を第1の時間とし、前記加算した信号の大きさが前記閾値よりも大きくない場合には、前記ハイパスフィルタのカットオフ周波数を前記第1のカットオフ周波数から前記第2のカットオフ周波数まで低下させる時間を前記第1の時間よりも長い第2の時間とすることを特徴とする請求項8記載の音声処理装置。
  10. 前記低減手段は、前記右チャンネルの音声信号と前記左チャンネルの音声信号に対してそれぞれ前記ハイパスフィルタの処理を行うことを特徴とする請求項8記載の音声処理装置。
  11. 前記低減手段は、前記減算した信号に対して前記ハイパスフィルタの処理を行い、前記ハイパスフィルタの処理を行った信号を前記加算した信号に加算することにより風雑音が低減された前記一方のチャンネルの音声信号を出力し、前記ハイパスフィルタの処理を行った信号を前記加算した信号から減算することにより風雑音が低減された前記他方のチャンネルの音声信号を出力することを特徴とする請求項8記載の音声処理装置。
  12. 複数の音声信号を入力する音声入力工程と、
    入力される前記複数の音声信号の風雑音を低減する低減工程と、
    前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減工程での前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減工程での前記風雑音の低減レベルを変化させる速さを制御する制御工程とを有することを特徴とする音声処理方法。
  13. 複数の音声信号を入力する音声入力ステップと、
    入力される前記複数の音声信号の風雑音を低減する低減ステップと、
    前記複数の音声信号の同位相成分と逆位相成分との差分に基づいて前記低減ステップでの前記風雑音の低減レベルを制御し、前記複数の音声信号の同位相成分の大きさに基づいて前記低減ステップでの前記風雑音の低減レベルを変化させる速さを制御する制御ステップとをコンピュータに実行させるためのプログラム。
JP2017131073A 2017-07-04 2017-07-04 音声処理装置、音声処理方法、及びプログラム Pending JP2019016851A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017131073A JP2019016851A (ja) 2017-07-04 2017-07-04 音声処理装置、音声処理方法、及びプログラム
US16/022,393 US10425731B2 (en) 2017-07-04 2018-06-28 Audio processing apparatus, audio processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017131073A JP2019016851A (ja) 2017-07-04 2017-07-04 音声処理装置、音声処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2019016851A true JP2019016851A (ja) 2019-01-31

Family

ID=64903544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017131073A Pending JP2019016851A (ja) 2017-07-04 2017-07-04 音声処理装置、音声処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US10425731B2 (ja)
JP (1) JP2019016851A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11217264B1 (en) * 2020-03-11 2022-01-04 Meta Platforms, Inc. Detection and removal of wind noise

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3186892B2 (ja) 1993-03-16 2001-07-11 ソニー株式会社 風雑音低減装置
US8068620B2 (en) * 2007-03-01 2011-11-29 Canon Kabushiki Kaisha Audio processing apparatus
JP6139835B2 (ja) * 2012-09-14 2017-05-31 ローム株式会社 風音低減回路およびそれを用いたオーディオ信号処理回路、電子機器

Also Published As

Publication number Publication date
US20190014411A1 (en) 2019-01-10
US10425731B2 (en) 2019-09-24

Similar Documents

Publication Publication Date Title
US9531338B2 (en) Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal
US9748914B2 (en) Transforming audio content for subjective fidelity
JP2010513972A (ja) 音声データを処理する装置及び方法
KR102409376B1 (ko) 디스플레이 장치 및 그 제어 방법
JP6637926B2 (ja) 音声処理装置及びその制御方法
US9300267B2 (en) Digital gain control device and method for controlling an analog amplifier with a digital processor to prevent clipping
JP2019016851A (ja) 音声処理装置、音声処理方法、及びプログラム
JP2018074220A (ja) 音声処理装置
JP2019161334A (ja) 音声処理装置
JP2019179944A (ja) 音声切替装置
JP5645373B2 (ja) 音声処理装置、音声処理方法
JP2019091988A (ja) 音声処理装置および音声処理方法
JP2018074219A (ja) 音声処理装置
JP5340127B2 (ja) 音声信号処理装置、音声信号処理装置の制御方法
WO2020255601A1 (ja) 出力音制御装置、および出力音制御方法、並びにプログラム
JP5317936B2 (ja) 音声信号処理装置
US20240015448A1 (en) Hearing-aid audio control method and system
US10313824B2 (en) Audio processing device for processing audio, audio processing method, and program
JP5495753B2 (ja) 撮像装置
JP2009200777A (ja) オーディオ信号の利得制御装置および利得制御方法
JP2019161333A (ja) 音声処理装置
JP2016009952A (ja) 音声信号処理装置
JP2018207318A (ja) 音声処理装置およびその制御方法、プログラム並びに記憶媒体
WO2023119764A1 (ja) 耳装着型デバイス、及び、再生方法
JP2019179945A (ja) 音声切替装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180516