JP2022180927A - 音声処理装置、制御方法、およびプログラム - Google Patents
音声処理装置、制御方法、およびプログラム Download PDFInfo
- Publication number
- JP2022180927A JP2022180927A JP2021087690A JP2021087690A JP2022180927A JP 2022180927 A JP2022180927 A JP 2022180927A JP 2021087690 A JP2021087690 A JP 2021087690A JP 2021087690 A JP2021087690 A JP 2021087690A JP 2022180927 A JP2022180927 A JP 2022180927A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- audio signal
- microphone
- short
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 212
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000003384 imaging method Methods 0.000 claims abstract description 111
- 230000005236 sound signal Effects 0.000 claims abstract description 97
- 230000009467 reduction Effects 0.000 claims abstract description 90
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 230000007613 environmental effect Effects 0.000 claims abstract description 13
- 230000001131 transforming effect Effects 0.000 claims abstract 6
- 238000011946 reduction process Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000007774 longterm Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 238000011410 subtraction method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims 2
- 238000001228 spectrum Methods 0.000 description 65
- 230000003287 optical effect Effects 0.000 description 52
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 229920002943 EPDM rubber Polymers 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- PWHULOQIROXLJO-UHFFFAOYSA-N Manganese Chemical compound [Mn] PWHULOQIROXLJO-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229920001971 elastomer Polymers 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910001416 lithium ion Inorganic materials 0.000 description 1
- 229910052748 manganese Inorganic materials 0.000 description 1
- 239000011572 manganese Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 229910001220 stainless steel Inorganic materials 0.000 description 1
- 239000010935 stainless steel Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02085—Periodic noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/01—Noise reduction using microphones having different directional characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2410/00—Microphones
- H04R2410/05—Noise reduction with a separate noise microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Abstract
【課題】効果的に短期的なノイズを低減することが可能な音声処理装置、制御方法及びプログラムを提供する。
【解決手段】撮像装置の音声処理装置は、環境音を取得するための第一のマイク(Lマイク、Rマイク)と、ノイズ源からの音を取得するための第二のマイク(ノイズマイク)と、第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、第二の音声信号から短期的なノイズを検出する検出手段と、検出手段が短期的なノイズを検出した場合、第二の音声信号に基づくことなく、第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、を有する。
【選択図】図3
【解決手段】撮像装置の音声処理装置は、環境音を取得するための第一のマイク(Lマイク、Rマイク)と、ノイズ源からの音を取得するための第二のマイク(ノイズマイク)と、第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、第二の音声信号から短期的なノイズを検出する検出手段と、検出手段が短期的なノイズを検出した場合、第二の音声信号に基づくことなく、第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、を有する。
【選択図】図3
Description
本発明は、音声データに含まれるノイズを低減可能な音声処理装置に関する。
音声処理装置の一例であるデジタルカメラは、動画データを記録する場合、周囲の音声も併せて記録することができる。また、デジタルカメラは、光学レンズを駆動することで、動画データの記録中に被写体に対してフォーカスを合わせるオートフォーカス機能を持つ。また、デジタルカメラは、動画の記録中に光学レンズを駆動してズームを行う機能を持つ。
このように、動画の記録中に光学レンズを駆動すると、動画とともに記録される音声に光学レンズの駆動音がノイズとして含まれることがある。そこで、従来、デジタルカメラは、光学レンズが駆動する際に発生する摺動音等をノイズとして収音した場合、そのノイズを低減して周囲の音声を記録することができる。特許文献1では、スペクトルサブトラクション法によってノイズを低減するデジタルカメラが開示されている。
しかし、特許文献1では、デジタルカメラは、周囲の音声を記録するマイクによって集音されたノイズからノイズパターンを作成するため、光学レンズの筐体内で発生する摺動音から正確なノイズパターンを取得できない可能性がある。この場合、デジタルカメラは、収音した音声に含まれるノイズ、特に駆動部の間欠的な駆動や、ギアの衝突時などに発生する短期的なノイズを効果的に低減できないおそれがあった。
そこで本発明は、効果的に短期的なノイズを低減することを目的とする。
本発明の音声処理装置は、環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、前記第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段前記第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段前記第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、前記第二の音声信号から短期的なノイズを検出する検出手段と、前記検出手段によって短期的なノイズが検出された場合、前記第二の音声信号に基づくことなく、前記第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、を有することを特徴とする。
本発明の音声処理装置は、効果的に短期的なノイズを低減することができる。
以下、図面を参照して本発明の実施例を詳細に説明する。
[第一の実施例]
<撮像装置100の外観図>
図1(a)、(b)に本発明を適用可能な音声処理装置の一例としての撮像装置100の外観図の一例を示す。図1(a)は撮像装置100の前面斜視図の一例である。図1(b)は撮像装置100の背面斜視図の一例である。図1において、レンズマウント301には不図示の光学レンズが装着される。
<撮像装置100の外観図>
図1(a)、(b)に本発明を適用可能な音声処理装置の一例としての撮像装置100の外観図の一例を示す。図1(a)は撮像装置100の前面斜視図の一例である。図1(b)は撮像装置100の背面斜視図の一例である。図1において、レンズマウント301には不図示の光学レンズが装着される。
表示部107は画像データおよび文字情報等を表示する。表示部107は撮像装置100の背面に設けられる。ファインダー外表示部43は、撮像装置100の上面に設けられた表示部である。ファインダー外表示部43は、シャッター速度、絞り値等の撮像装置100の設定値を表示する。接眼ファインダー16は覗き込み型のファインダーである。ユーザは接眼ファインダー16内のフォーカシングスクリーンを観察することで、被写体の光学像の焦点および構図を確認することができる。
レリーズスイッチ61はユーザが撮影指示を行うための操作部材である。モード切替スイッチ60はユーザが各種モードを切り替えるための操作部材である。メイン電子ダイヤル71は回転操作部材である。ユーザはこのメイン電子ダイヤル71を回すことで、シャッター速度、絞り値等の撮像装置100の設定値を変更することができる。レリーズスイッチ61、モード切替スイッチ60、メイン電子ダイヤル71は、操作部112に含まれる。
電源スイッチ72は撮像装置100の電源のオンおよびオフを切り替える操作部材である。サブ電子ダイヤル73は回転操作部材である。ユーザは、サブ電子ダイヤル73によって表示部107に表示された選択枠の移動および再生モードにおける画像送りなどを行える。十字キー74は上、下、左、右部分をそれぞれ押し込み可能な十字キー(4方向キー)である。撮像装置100は十字キー74の押された部分(方向)に応じた処理を実行する。電源スイッチ72、サブ電子ダイヤル73、十字キー74は操作部112に含まれる。
SETボタン75は押しボタンである。SETボタン75は、主に、ユーザが表示部107に表示された選択項目を決定するためなどに用いられる。LVボタン76はライブビュー(以下、LV)のオンおよびオフを切り替えるために使用されるボタンである。LVボタン76は、動画記録モードにおいては、動画撮影(記録)の開始および停止の指示に用いられる。拡大ボタン77は撮影モードのライブビュー表示において拡大モードのオンおよびオフ、並びに、拡大モード中の拡大率の変更を行うための押しボタンである。SETボタン75、LVボタン76、拡大ボタン77は操作部112に含まれる。
拡大ボタン77は、再生モードにおいては表示部107に表示された画像データの拡大率を増加させるためのボタンとして機能する。縮小ボタン78は、表示部107において拡大表示された画像データの拡大率を低減させるためのボタンである。再生ボタン79は、撮影モードと再生モードとを切り替える操作ボタンである。撮像装置100は撮影モード中にユーザが再生ボタン79を押すと、撮像装置100が再生モードに移行し、記録媒体110に記録された画像データを表示部107に表示する。縮小ボタン78、再生ボタン79は、操作部112に含まれる。
クイックリターンミラー12(以下、ミラー12)は、撮像装置100に装着された光学レンズから入射した光束を接眼ファインダー16側または撮像部101側のどちらかに入射するよう切り替えるためのミラーである。ミラー12は、露光、ライブビュー撮影、および動画撮影の際に、制御部111によって不図示のアクチュエータを制御されることによりアップダウンされる。ミラー12は通常時は接眼ファインダー16へと光束を入射させるように配されている。ミラー12は、撮影が行われる場合およびライブビュー表示の場合には、撮像部101に光束が入射するように上方に跳ね上がる(ミラーアップ)。またミラー12はその中央部がハーフミラーとなっている。ミラー12の中央部を透過した光束の一部は、焦点検出を行うための焦点検出部(不図示)に入射する。
通信端子10は、撮像装置100に装着された光学レンズ300と撮像装置100とが通信を行う為の通信端子である。端子カバー40は外部機器との接続ケーブルと撮像装置100とを接続する接続ケーブル等のコネクタ(不図示)を保護するカバーである。蓋41は記録媒体110を格納したスロットの蓋である。レンズマウント301は不図示の光学レンズ300を取り付けることができる取り付け部である。
Lマイク201aおよびRマイク201bはユーザの音声等を収音するためのマイクである。撮像装置100の背面から見て、左側にLマイク201aが、右側にRマイク201bが配置される。
<撮像装置100の構成>
図2は本実施例における撮像装置100の構成の一例を示すブロック図である。
図2は本実施例における撮像装置100の構成の一例を示すブロック図である。
光学レンズ300は、撮像装置100に着脱可能なレンズユニットである。例えば光学レンズ300はズームレンズまたはバリフォーカルレンズである。光学レンズ300は光学レンズ、光学レンズを駆動させるためのモータ、および後述する撮像装置100のレンズ制御部102と通信する通信部を有する。光学レンズ300は、通信部によって受信した制御信号に基づいて、光学レンズをモータによって移動させることで、被写体に対するフォーカスおよびズーミング、並びに、手ブレの補正ができる。
撮像部101は、光学レンズ300を経て撮像面に結像された被写体の光学像を電気信号に変換するための撮像素子、および撮像素子で生成された電気信号から画像データまたは動画データを生成して出力する画像処理部とを有する。撮像素子は、例えばCCD(Charge Coupled Device)、およびCMOS(Complementary Metal Oxide Semiconductor)である。本実施例では、撮像部101において静止画像データや動画データを含む画像データを生成して撮像部101から出力する一連の処理を「撮影」という。撮像装置100では、画像データは、DCF(Design rule for Camera File system)規格に従って、後述する記録媒体110に記録される。
レンズ制御部102は撮像部101から出力されたデータ、および後述する制御部111から出力された制御信号に基づいて、通信端子10を介して光学レンズ300に制御信号を送信し、光学レンズ300を制御する。
情報取得部103は、撮像装置100の傾きおよび撮像装置100の筐体内の温度などを検出する。例えば情報取得部103は撮像装置100の傾きを加速度センサまたはジャイロセンサによって検出する。また、例えば情報取得部103は撮像装置100の筐体内の温度を温度センサによって検出する。
音声入力部104は、マイクによって取得された音声から音声データを生成する。音声入力部104は、マイクによって撮像装置100の周辺の音声を取得し、取得された音声に対してアナログデジタル変換(A/D変換)、各種の音声処理を行い、音声データを生成する。本実施例では、音声入力部104はマイクを有する。音声入力部104の詳細な構成例については後述する。
揮発性メモリ105は、撮像部101において生成された画像データ、並びに音声入力部104によって生成された音声データを一時的に記録する。また、揮発性メモリ105は、表示部107に表示される画像データの一時的な記録領域、および制御部111の作業領域等としても使用される。
表示制御部106は、撮像部101から出力された画像データ、対話的な操作のための文字並びに、メニュー画面等を表示部107に表示するよう制御する。また、表示制御部106は静止画撮影および動画撮影の際、撮像部101から出力されたデジタルデータを逐次表示部107に表示するよう制御することで、表示部107を電子ビューファインダとして機能させることができる。例えば表示部107は、液晶ディスプレイまたは有機ELディスプレイである。また、表示制御部106は、撮像部101から出力された画像データおよび動画データ、対話的な操作のための文字、並びにメニュー画面等を、後述する外部出力部115を介して外部のディスプレイに表示させるよう制御することもできる。
符号化処理部108は、揮発性メモリ105に一時的に記録された画像データおよび音声データをそれぞれ符号化することができる。例えば、符号化処理部108は、画像データをJPEG規格またはRAW画像フォーマットに従って符号化およびデータ圧縮された動画データを生成することができる。例えば、符号化処理部108は、動画データをMPEG2規格またはH.264/MPEG4-AVC規格に従って符号化およびデータ圧縮された動画データを生成することができる。また例えば、符号化処理部108は、音声データをAC3AAC規格、ATRAC規格、またはADPCM方式に従って符号化およびデータ圧縮された音声データを生成することができる。また、符号化処理部108は、例えばリニアPCM方式に従って音声データをデータ圧縮しないように符号化してもよい。
記録制御部109は、データを記録媒体110に記録すること、および記録媒体110から読み出すことができる。例えば、記録制御部109は、符号化処理部108によって生成された静止画像データ、動画データ、および音声データを記録媒体110に記録すること、および記録媒体110から読み出すことができる。記録媒体110は例えばSDカード、CFカード、XQDメモリーカード、HDD(磁気ディスク)、光学式ディスク、および半導体メモリである。記録媒体110は、撮像装置100に着脱可能なように構成してもよいし、撮像装置100に内蔵されていてもよい。すなわち、記録制御部109は少なくとも記録媒体110にアクセスする手段を有していればよい。
制御部111は、入力された信号、および後述のプログラムに従ってデータバス116を介して撮像装置100の各構成要素を制御する。制御部111は、各種制御を実行するためのCPU、ROM、およびRAMを有する。なお、制御部111が撮像装置100全体を制御する代わりに、複数のハードウェアが分担して撮像装置全体を制御してもよい。制御部111が有するROMには、各構成要素を制御するためのプログラムが格納されている。また制御部111が有するRAMは演算処理等に利用される揮発性メモリである。
操作部112は、撮像装置100に対する指示をユーザから受け付けるためのユーザインタフェースである。操作部112は、例えば撮像装置100の電源をオン状態またはオフ状態にするための電源スイッチ72、撮影を指示するためのレリーズスイッチ61、画像データまたは動画データの再生を指示するための再生ボタン、およびモード切替スイッチ60等を有する。
操作部112はユーザの操作に応じて、制御信号を制御部111に出力する。また、表示部107に形成されるタッチパネルも操作部112に含めることができる。なお、レリーズスイッチ61は、SW1およびSW2を有する。レリーズスイッチ61が、いわゆる半押し状態となることにより、SW1がオンとなる。これにより、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理、EF(フラッシュプリ発光)処理等の撮像の準備動作を行うための準備指示を受け付ける。また、レリーズスイッチ61が、いわゆる全押し状態となることにより、SW2がオンとなる。このようなユーザ操作により、撮像動作を行うための撮像指示を受け付ける。また、操作部112は後述するスピーカ114から再生される音声データの音量を調整することができる操作部材(例えばボタン)を含む。
音声出力部113は、音声データをスピーカ114、および外部出力部115に出力することができる。音声出力部113に入力される音声データは、記録制御部109により記録媒体110から読み出された音声データ、不揮発性メモリ117から出力される音声データ、および符号化処理部から出力される音声データである。スピーカ114は、音声データを再生することができる電気音響変換器である。
外部出力部115は、画像データ、動画データ、および音声データなどを外部機器に出力することができる。外部出力部115は、例えば映像端子、マイク端子、およびヘッドホン端子等で構成される。
データバス116は、音声データ、動画データ、および画像データ等の各種データ、各種制御信号を撮像装置100の各ブロックへ伝達するためのデータバスである。
不揮発性メモリ117は不揮発性メモリであり、制御部111で実行される後述のプログラム等が格納される。また、不揮発性メモリ117には、音声データが記録されている。この音声データは例えば、被写体に合焦した場合に出力される合焦音、撮影を指示された場合に出力される電子シャッター音、撮像装置100を操作された場合に出力される操作音等の電子音の音声データである。
<撮像装置100の動作>
これから、本実施例の撮像装置100の動作について説明する。
これから、本実施例の撮像装置100の動作について説明する。
本実施例の撮像装置100は、ユーザが電源スイッチ72を操作して電源をオンされたことに応じて、不図示の電源から、撮像装置の各構成要素に電力を供給する。例えば電源はリチウムイオン電池またはアルカリマンガン乾電池等の電池である。
制御部111は、電力が供給されたことに応じてモード切替スイッチ60の状態に基づいて、例えば、撮影モードおよび再生モードのどのモードで動作するかを判断する。動画記録モードでは、制御部111は撮像部101から出力された動画データと音声入力部104から出力された音声データとを1つの音声付き動画データとして記録する。再生モードでは、制御部111は記録媒体110に記録された画像データまたは動画データを記録制御部109によって読み出し、表示部107に表示するよう制御する。
まず、動画記録モードについて説明する。動画記録モードでは、まず制御部111は、撮像装置100を撮影待機状態に移行させるように制御信号を撮像装置100の各構成要素に送信する。例えば、制御部111は、撮像部101および音声入力部104に以下のような動作をさせるよう制御する。
撮像部101は、光学レンズ300を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部101は動画データを表示制御部106に送信し、表示部107によって表示する。ユーザは表示部107に表示された動画データを見ながら撮影の準備を行うことができる。
音声入力部104は、複数のマイクから入力されたアナログ音声信号をそれぞれA/D変換し、複数のデジタル音声信号を生成する。そして音声入力部104はその複数のデジタル音声信号から複数のチャンネルの音声データを生成する。音声入力部104は生成された音声データを音声出力部113に送信し、スピーカ114から音声データを再生させる。ユーザは、スピーカ114から再生された音声データを聞きながら、音声付き動画データに記録される音声データの音量を操作部112によって調整することができる。
次に、ユーザによってLVボタン76が押下されたことに応じて、制御部111は、撮像装置100の各構成要素に撮影開始の指示信号を送信する。例えば、制御部111は、撮像部101、音声入力部104、符号化処理部108、および記録制御部109に以下のような動作をさせるよう制御する。
撮像部101は、光学レンズ300を経て撮像面に結像された被写体の光学像を電気信号に変換し、撮像素子で生成された電気信号から動画データを生成する。そして、撮像部101は動画データを表示制御部106に送信し、表示部107によって表示する。また、また撮像部101は生成された動画データを揮発性メモリ105へ送信する。
音声入力部104は、複数のマイクから入力されたアナログ音声信号をそれぞれA/D変換し、複数のデジタル音声信号を生成する。そして音声入力部104はその複数のデジタル音声信号からマルチチャンネルの音声データを生成する。そして、音声入力部104は生成された音声データを揮発性メモリ105へ送信する。
符号化処理部108は、揮発性メモリ105に一時的に記録された動画データおよび音声データを読み出してそれぞれ符号化する。制御部111は、符号化処理部108によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部109に出力する。記録制御部109は、UDFまたはFAT等のファイルシステムに従って、入力されたデータストリームを音声付き動画データとして記録媒体110に記録していく。
撮像装置100の各構成要素は以上の動作を動画撮影中において継続する。
そして、ユーザからLVボタン76が押下されたことに応じて、制御部111は、撮像装置100の各構成要素に撮影終了の指示信号を送信する。例えば、制御部111は撮像部101、音声入力部104、符号化処理部108、および記録制御部109に以下のような動作をさせるよう制御する。
撮像部101は、動画データの生成を停止する。音声入力部104は、音声データの生成を停止する。
符号化処理部108は、揮発性メモリ105に記録されている残りの動画データおよび音声データを読み出して符号化する。制御部111は、符号化処理部108によって符号化された動画データおよび音声データからデータストリームを生成し、記録制御部109に出力する。
記録制御部109は、UDFまたはFAT等のファイルシステムに従って、データストリームを音声付き動画データのファイルとして記録媒体110に記録していく。そして、記録制御部109は、データストリームの入力が停止したことに応じて、音声付き動画データを完成させる。音声付き動画データの完成をもって、撮像装置100の記録動作は停止する。
制御部111は、記録動作が停止したことに応じて、撮影待機状態に移行させるように制御信号を撮像装置100の各構成要素に送信する。これにより、制御部111は撮像装置100を撮影待機状態に戻るよう制御する。
次に、再生モードについて説明する。再生モードでは、制御部111は、再生状態に移行させるように制御信号を撮像装置100の各構成要素に送信する。例えば、制御部111は符号化処理部108、記録制御部109、表示制御部106、および音声出力部113に以下のような動作をさせるよう制御する。
記録制御部109は、記録媒体110に記録された音声付き動画データを読み出して読みだした音声付き動画データを符号化処理部108に送信する。
符号化処理部108は、音声付き動画データから画像データ、および音声データを復号化する。符号化処理部108は、復号化された動画データを表示制御部106へ、復号化された音声データを音声出力部113へ、それぞれ送信する。
表示制御部106は、復号化された画像データを表示部107によって表示する。音声出力部113は、復号化された音声データをスピーカ114によって再生する。
以上のように、本実施例の撮像装置100は画像データ、および音声データを記録および再生することができる。
本実施例では、音声入力部104は、マイクから入力された音声信号のレベルの調整処理等の音声処理を実行する。本実施例では、音声入力部104は動画記録が開始されたことに応じてこの音声処理を実行する。なお、この音声処理は、撮像装置100の電源がオンにされてから実行されてもよい。また、この音声処理は、撮影モードが選択されたことに応じて実行されてもよい。また、この音声処理は、動画記録モードおよび音声メモ機能等の音声の記録に関連するモードが選択されたことに応じて実行されてもよい。また、この音声処理は、音声信号の記録が開始したことに応じて実行されてもよい。
<音声入力部104の構成>
図3は本実施例における音声入力部104の詳細な構成の一例を示すブロック図である。
図3は本実施例における音声入力部104の詳細な構成の一例を示すブロック図である。
本実施例において、音声入力部104は、Lマイク201a、Rマイク201b、およびノイズマイク201cの3つのマイクを有する。Lマイク201aおよびRマイク201bはそれぞれ第一のマイクの一例である。本実施例では、撮像装置100は環境音をLマイク201aおよびRマイク201bによって収音し、Lマイク201aおよびRマイク201bから入力された音声信号をステレオ方式で記録する。例えば環境音は、ユーザの音声、動物の鳴き声、雨音、および楽曲等の撮像装置100の筐体外および光学レンズ300の筐体外において発生する音である。
また、ノイズマイク201cは第2のマイクの一例である。ノイズマイク201cは、撮像装置100の筐体内、および光学レンズ300の筐体内で発生する、所定の騒音源(ノイズ源)からの駆動音等の騒音(ノイズ)を取得するためのマイクである。ノイズ源は例えば、超音波モータ(Ultrasonic Motor、以下USM)およびステッピングモータ(Stepper Motor、以下STM)などの駆動部である。騒音(ノイズ)は例えば、USMおよびSTM等のモータの駆動によって発生する振動音である。例えば、モータは被写体に合焦するためのAF処理において駆動する。撮像装置100は撮像装置100の筐体内、および光学レンズ300の筐体内で発生する駆動音等の騒音(ノイズ)をノイズマイク201cによって取得し、取得したノイズの音声データを用いて、後述するノイズパラメータを生成する。なお、本実施例では、Lマイク201a、Rマイク201b、およびノイズマイク201cは無指向性のマイクである。本実施例における、Lマイク201a、Rマイク201b、およびノイズマイク201cの配置例は図4を用いて後述する。
Lマイク201a、Rマイク201b、およびノイズマイク201cは、それぞれ取得した音声からアナログ音声信号を生成し、A/D変換部202に入力する。ここで、Lマイク201aから入力される音声信号をLch、Rマイク201bから入力される音声信号をRch、およびノイズマイク201cから入力される音声信号をNchと記載する。
A/D変換部202は、Lマイク201a、Rマイク201b、およびノイズマイク201cから入力されたアナログ音声信号をデジタル音声信号に変換する。A/D変換部202は変換されたデジタル音声信号をFFT部203に出力する。本実施例においてA/D変換部202はサンプリング周波数を48kHz、およびビット深度を16bitとして標本化処理を実行することで、アナログ音声信号をデジタル音声信号に変換する。
FFT部203は、A/D変換部202から入力された時間領域のデジタル音声信号に高速フーリエ変換処理を施し、周波数領域のデジタル音声信号に変換する。本実施例において、周波数領域のデジタル音声信号は、0Hzから48kHzまでの周波数帯域において、1024ポイントの周波数スペクトルを有する。また、周波数領域のデジタル音声信号は、0Hzからナイキスト周波数である24kHzまでの周波数帯域においては、513ポイントの周波数スペクトルを有する。本実施例では、撮像装置100は、FFT部203から出力された音声データのうち、0Hzから24kHzまでの513ポイントの周波数スペクトルを利用して、ノイズ低減の処理を行う。
ここで、高速フーリエ変換されたLchの周波数スペクトルを、Lch_Before[0]~Lch_Before[512]の513ポイントの配列データで表す。これらの配列データを総称する場合、Lch_Beforeと記載する。また、高速フーリエ変換されたRchの周波数スペクトルを、Rch_Before[0]~Rch_Before[512]の513ポイントの配列データで表す。これらの配列データを総称する場合、Rch_Beforeと記載する。なお、Lch_Beforeおよび、Rch_Beforeはそれぞれ第1の周波数スペクトルデータの一例である。
また、高速フーリエ変換されたNchの周波数スペクトルを、Nch_Before[0]~Nch_Before[512]の513ポイントの配列データで表す。これらの配列データを総称する場合、Nch_Beforeと記載する。なお、Nch_Beforeは第2の周波数スペクトルデータの一例である。
切替部204はレンズ制御部102からの制御情報に基づいて、パスを切り替える。本実施例では、光学レンズ300が駆動している場合、切替部204は後述する減算処理部A207でノイズ低減処理が行われるようにパスを切り替える。また、光学レンズ300が駆動していない場合、切替部204は減算処理部A207でノイズ低減処理を行わないようにパスを切り替える。
ノイズデータ生成部A205は、Nch_Beforeに基づいて、Lch_BeforeおよびRch_Beforeに含まれるレンズ駆動に関するノイズを低減するためのデータを生成する。本実施例では、ノイズデータ生成部A205は、Lch_Before[0]~Lch_Before[512]に含まれるノイズをそれぞれ低減するためのNLA[0]~NLA[512]の配列データをノイズパラメータを用いて生成する。また、ノイズデータ生成部A205は、Rch_Before[0]~Rch_Before[512]に含まれるノイズをそれぞれ低減するためのNRA[0]~NRA[512]の配列データを生成する。
なお、NLA[0]~NLA[512]の配列データにおける周波数のポイントは、Lch_Before[0]~Lch_Before[512]の配列データにおける周波数のポイントと同じである。また、NRA[0]~NRA[512]の配列データにおける周波数のポイントは、Rch_Before[0]~Rch_Before[512]の配列データにおける周波数のポイントと同じである。
なお、NLA[0]~NLA[512]の配列データを総称する場合、NLAと記載する。また、NRA[0]~NRA[512]を総称する場合、NRAと記載する。NLAおよびNRAはそれぞれ第3の周波数スペクトルデータの一例である。
ノイズパラメータ記録部206には、ノイズデータ生成部A205がNch_BeforeからNLAおよびNRAを生成するためのノイズパラメータが記録されている。なお、本実施例ではノイズパラメータ記録部206には、ノイズデータ生成部A205において用いられるノイズパラメータである、レンズ種類ごとのレンズ駆動に関するノイズパラメータが記録されている。なお、本実施例では、ノイズデータ生成部A205は、音声データを記録している間では、ノイズパラメータを切り替えない。
また、ノイズパラメータ記録部206には、後述のノイズデータ生成部B208がNch_BeforeからをNLBおよびNRBを生成するためのノイズパラメータも記録されている。
ここで、Nch_BeforeからNLAを生成するためのノイズパラメータを総称する場合、PLxAと記載する。Nch_BeforeからNRAを生成するためのノイズパラメータを総称する場合、PRxAと記載する。
PLxAおよびPRxAはそれぞれNLAおよびNRAと同じ配列数を有する。例えば、PL1Aは、PL1A[0]~PL1A[512]の配列データである。また、PL1Aの周波数ポイントは、Lch_Beforeの周波数ポイントと同じである。また例えばPR1Aは、PR1A[0]~PR1A[512]の配列データである。PR1Aの周波数ポイントは、Rch_Beforeと同じ周波数ポイントである。ノイズパラメータは図10を用いて後述する。
なお、本実施例では、ノイズパラメータ記録部206には、ノイズパラメータとして513ポイントの周波数スペクトルそれぞれに対する係数がすべて記録されている。しかし、ノイズパラメータ記録部206には、513ポイントの全ての周波数に対する係数ではなく、少なくともノイズを低減するために必要な周波数ポイントの係数が記録されていればよい。例えば、ノイズパラメータ記録部206は、ノイズパラメータとして、典型的な可聴周波数と考えられている20Hz~20kHzの周波数スペクトルそれぞれに対する係数を記録し、他の周波数スペクトルの係数を記録しなくてもよい。また例えば、ノイズパラメータとして、係数の値がゼロである周波数スペクトルに対する係数はノイズパラメータ記録部206に記録されていなくてもよい。
減算処理部A207は、Lch_BeforeおよびRch_BeforeからNLAおよびNRAをそれぞれ減算する。本実施例では、減算処理部A207は、短期雑音(短期的なノイズ)および長期雑音(長期的なノイズ)にかかわらず、レベルの大きいノイズを低減する。
また、減算処理部A207はLch_BeforeからNLAを減算するL減算器A207a、およびRch_BeforeからNRAを減算するR減算器A207bを有する。L減算器A207aはLch_BeforeからNLAを減算し、Lch_A_After[0]~Lch_A_After[512]の513ポイントの配列データを出力する。R減算器A207bはRch_BeforeからNRAを減算し、Rch_A_After[0]~Rch_A_After[512]の513ポイントの配列データを出力する。本実施例では、減算処理部A207はスペクトルサブトラクション法によって減算処理を実行する。
ノイズデータ生成部B208は、Nch_Beforeに基づいて、Lch_A_AfterおよびRch_A_Afterに含まれるノイズを低減するためのデータを生成する。
本実施例では、ノイズデータ生成部B208はLch_A_After[0]~Lch_A_After[512]に含まれるノイズをそれぞれ低減するためのNLB[0]~NLB[512]の配列データをノイズパラメータを用いて生成する。また、ノイズデータ生成部B208は、Rch_A_After[0]~Rch_A_After[512]に含まれるノイズをそれぞれ低減するためのNRB[0]~NRB[512]の配列データをノイズパラメータを用いて生成する。
NLB[0]~NLB[512]の配列データにおける周波数のポイントは、Lch_A_After[0]~Lch_A_After[512]の配列データにおける周波数のポイントと同じである。また、NRB[0]~NRB[512]の配列データにおける周波数のポイントは、Rch_A_After[0]~Rch_A_After[512]の配列データにおける周波数のポイントと同じである。
なお、NLB[0]~NLB[512]の配列データを総称する場合、NLBと記載する。また、NRB[0]~NRB[512]を総称する場合、NRBと記載する。NLBおよびNRBは(それぞれ第4の周波数スペクトルデータ)の一例である。
なお、本実施例では、ノイズパラメータ記録部206には、ノイズデータ生成部B208において用いられるノイズパラメータである、ノイズの種類に応じた複数種類のノイズパラメータが記録されている。
ここで、Nch_BeforeからNLBを生成するためのノイズパラメータを総称する場合、PLxBと記載する。Nch_BeforeからNRBを生成するためのノイズパラメータを総称する場合、PRxBと記載する。
PLxBおよびPRxBはそれぞれNLBおよびNRBと同じ配列数を有する。例えば、PL1Bは、PL1B[0]~PL1B[512]の配列データである。また、PL1Bの周波数ポイントは、Lch_Beforeの周波数ポイントと同じである。また例えばPR1Bは、PR1B[0]~PR1B[512]の配列データである。PR1Bの周波数ポイントは、Rch_Beforeと同じ周波数ポイントである。ノイズパラメータは図10を用いて後述する。 なお、本実施例では、ノイズパラメータ記録部206には、ノイズパラメータとして513ポイントの周波数スペクトルそれぞれに対する係数がすべて記録されている。しかし、513ポイントの全ての周波数に対する係数ではなく、ノイズパラメータ記録部206には、少なくともノイズを低減するために必要な周波数ポイントの係数が記録されていればよい。例えば、ノイズパラメータ記録部206は、ノイズパラメータとして、典型的な可聴周波数と考えられている20Hz~20kHzの周波数スペクトルそれぞれに対する係数を記録し、他の周波数スペクトルの係数を記録しなくてもよい。また例えば、ノイズパラメータとして、係数の値がゼロである周波数スペクトルに対する係数はノイズパラメータ記録部206に記録されていなくてもよい。
減算処理部B209は、Lch_A_AfterおよびRch_A_AfterからNLBおよびNRBをそれぞれ減算する。例えば、減算処理部B209はLch_A_AFTERからNLBを減算するL減算器B209a、およびRch_BeforeからNRBを減算するR減算器B209bを有する。L減算器B209aはLch_BeforeからNLBを減算し、Lch_After[0]~Lch_After[512]の513ポイントの配列データを出力する。R減算器B209bはRch_BeforeからNRAを減算し、Rch_After[0]~Rch_After[512]の513ポイントの配列データを出力する。本実施例では、減算処理部B209はスペクトルサブトラクション法によって減算処理を実行する。
本実施例では、減算処理部B209は、レンズ駆動によって発生したノイズ以外のマイクのフロアノイズや電気的ノイズなどの恒常的に発生しているノイズの減算を行う。なお、本実施例では、ノイズデータ生成部B208は、Nch_Beforeに基づいてNLBおよびNRBを生成するが、ほかの方法でもよい。例えば、ノイズパラメータ記録部206にNLBおよびNRBが記録されており、減算処理部B209はノイズデータ生成部B208を介さずに、ノイズパラメータ記録部206から直接NLBおよびNRBを読み込んでもよい。なぜなら、マイクのフロアノイズや電気的ノイズなどの恒常的に発生しているため、Nch_Beforeに含まれるノイズを参照する必要性は低いからである。
短期雑音検出部210は、Nch_Beforeから短期雑音を検出する。短期雑音は、例えば、光学レンズ300内のギアがかみ合わさることによって発生する短期的なノイズである。他方、長期雑音は、例えば、光学レンズ300の筐体内における摺動音である。短期雑音検出部210がNch_Beforeからなお、短期雑音検出部210は、Lch_Before、またはRch_Beforeから短期雑音を検出してもよい。
短期雑音減算処理部211は、減算処理部A207から入力された音声信号に対して、特に短期雑音を低減するためのノイズ低減処理を行う。すなわち、本実施例では、レンズ駆動中において、減算処理部B209による処理の前に、減算処理部A207および短期雑音減算処理部211によってノイズ低減処理が行われる。
データバッファ212は、短期雑音減算処理部211を行うために用いられる、一時的にデータを格納するバッファ(メモリ)である。
なお、短期雑音検出部210、短期雑音減算処理部211、およびデータバッファ212の処理の詳細は後述する。
iFFT部213は、減算処理部B209から入力された周波数領域のデジタル音声信号を逆高速フーリエ変換(逆フーリエ変換)して時間領域のデジタル音声信号に変換する。
音声処理部214は、イコライザ、オートレベルコントローラ、およびステレオ感の強調処理等の時間領域のデジタル音声信号に対する音声処理を実行する。音声処理部214は、音声処理を行った音声データを揮発性メモリ105へ出力する。
なお、本実施例では撮像装置100は第一のマイクとして2つのマイクを有するが、撮像装置100は第一のマイクを1つのマイクまたは3つ以上のマイクとしてもよい。例えば撮像装置100は、音声入力部104に第一のマイクとして1つのマイクを有する場合、1つのマイクによって収音された音声データをモノラル方式で記録する。また例えば撮像装置100は、音声入力部104に第一のマイクとして3つ以上のマイクを有する場合、3つ以上のマイクによって収音された音声データをサラウンド方式で記録する。
なお、本実施例では、Lマイク201a、Rマイク201b、およびノイズマイク201cは無指向性のマイクとしたが、これらのマイクは指向性マイクであってもよい。
なお、本実施例では、減算処理部B209によって恒常的なノイズを低減したが、他の方法でもよい。例えば、減算処理部A207が減算処理部B209の機能も有する場合、減算処理部B209によるノイズ低減処理は行わなくともよい。
<音声入力部104のマイクの配置>
ここで、本実施例の音声入力部104のマイクの配置例を説明する。図4はLマイク201a、Rマイク201b、およびノイズマイク201cの配置例を示している。
ここで、本実施例の音声入力部104のマイクの配置例を説明する。図4はLマイク201a、Rマイク201b、およびノイズマイク201cの配置例を示している。
図4は、Lマイク201a、Rマイク201b、およびノイズマイク201cが取り付けられた撮像装置100の部分の断面図の一例である。この撮像装置100の部分は、外装部302、マイクブッシュ303、および固定部304により構成される。
外装部302は、マイクに環境音を入力するための穴(以下、マイク穴という)を有する。本実施例では、マイク穴はLマイク201a、およびRマイク201bの上方に形成される。一方、ノイズマイク201cは、撮像装置100の筐体内および光学レンズ300の筐体内において発生する駆動音を取得するために設けられており、環境音を取得する必要はない。したがって、本実施例では、外装部302にはノイズマイク201cの上方にマイク穴は形成されない。
撮像装置100の筐体内および光学レンズ300の筐体内において発生する駆動音は、マイク穴を介してLマイク201a、およびRマイク201bにより取得される。環境音が小さい状態で撮像装置100および光学レンズ300の筐体内において駆動音等が発生した場合、各マイクが取得する音声は、主としてこの駆動音となる。そのため、Lマイク201a、Rマイク201bからの音声レベルよりも、ノイズマイク201cからの音声レベルの方が大きい。つまり、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Lch≒Rch<Nch
また、環境音が大きくなると、ノイズマイク201cからの、撮像装置100または光学レンズ300で発生した駆動音の音声レベルよりも、Lマイク201a、Rマイク201bからの環境音の音声レベルの方が大きくなる。そのため、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Lch≒Rch>Nch
なお、本実施例では、外装部302に形成されるマイク穴の形状は楕円状であるが、円状または方形状等の他の形状でもよい。また、マイク201a上のマイク穴の形状とマイク201b上のマイク穴の形状とは、互いに異なっていてもよい。
Lch≒Rch<Nch
また、環境音が大きくなると、ノイズマイク201cからの、撮像装置100または光学レンズ300で発生した駆動音の音声レベルよりも、Lマイク201a、Rマイク201bからの環境音の音声レベルの方が大きくなる。そのため、この場合、各マイクから出力される音声信号のレベルの関係は、以下のようになる。
Lch≒Rch>Nch
なお、本実施例では、外装部302に形成されるマイク穴の形状は楕円状であるが、円状または方形状等の他の形状でもよい。また、マイク201a上のマイク穴の形状とマイク201b上のマイク穴の形状とは、互いに異なっていてもよい。
なお、本実施例では、ノイズマイク201cは、Lマイク201aとRマイク201bに近接するように配置される。また、本実施例では、ノイズマイク201cは、Lマイク201aとRマイク201bの間に配置される。これにより、撮像装置100の筐体内および光学レンズ300の筐体内において発生する駆動音等からノイズマイク201cによって生成される音声信号は、この駆動音等からLマイク201aおよびRマイク201bによって生成される音声信号と似た信号になる。
マイクブッシュ303は、Lマイク201a、Rマイク201b、およびノイズマイク201cを固定するための部材である。固定部304は、マイクブッシュ303を外装部302に固定する部材である。
なお、本実施例では、外装部302および固定部304はPC材等のモールド部材で構成される。また、外装部302および固定部304はアルミまたはステンレス等の金属部材で構成されてもよい。また、本実施例では、マイクブッシュ303は、エチレンプロピレンジエンゴム等のゴム材で構成される。
<FFT部203の処理方法>
図5を用いて、FFT部203で行われる処理を説明する。
図5を用いて、FFT部203で行われる処理を説明する。
図5(a)は、時間領域における音声信号の一例を示す。本実施例では、音声信号は、サンプリング周波数が48kHz、ビット深度が24bitで記録された信号である。
図5(b)はFFT部203で処理される音声信号のデータ長の単位の一例を示す。本実施例では、音声信号は1024サンプル単位でFFTが行われる。本実施例では、1024サンプルの音声信号を1フレームとする。FFT部203は、1フレーム分の音声信号をバッファリングしたことに応じて、FFTを行う。
また、本実施例では、音声入力部104は、重畳加算法を用いてノイズ低減処理を行う。例えば、音声入力部104は、512サンプル(半フレーム)ずつオーバーラップさせるようにノイズ低減処理を行う。
ここで、各フレームの記載方法について説明する。例えば、図5(b)において、時刻T501におけるFFT処理によって生成された、1フレームの音声信号をフレームデータ[t]とする。この場合、フレームデータ[t]の一つ前(直前)に生成されたフレームの音声信号をフレームデータ[t-1]、一つ後(直後)に生成されたフレームの音声信号をフレームデータ[t+1]と記載する。このように、ある時刻においてFFT処理されたフレームの音声信号を基準として、各フレームデータを記載する。また、フレームデータには、Lch、Rch、およびNchの音声信号が含まれ、チャンネルごとに、周波数スペクトルが配列データとして格納されている。例えば、具体的にチャンネルおよび周波数スペクトルを記載する場合、上述の例では、時刻T501における、Lchの周波数スペクトルがn番目の音声信号は、フレームデータL[t][n]と記載される。
<短期雑音の低減処理>
図6を用いて短期雑音検出部210および、短期雑音減算処理部211における短期雑音の低減処理について説明する。
図6を用いて短期雑音検出部210および、短期雑音減算処理部211における短期雑音の低減処理について説明する。
図6(a)は短期雑音の低減処理の一例を示すフローチャートである。ここでは1フレームのフレームデータの処理について説明する。
ステップS601では、光学レンズ300が駆動中か否かが判断される。例えば、切替部204において、レンズ制御部102から入力される制御情報に基づいて、光学レンズ300が駆動中か否かが判断される。切替部204は、光学レンズ300が駆動中であると判断された場合、Lch_BeforeおよびRch_Beforeが減算処理部A207に入力されるようにパスを切り替える。切替部204は、光学レンズ300が駆動中ではないと判断された場合、Lch_BeforeおよびRchBeforeが減算処理部B209に入力されるようにパスを切り替える。
ステップS602では、短期雑音検出部210は、1フレームのフレームデータに短期雑音が含まれるか否かを判断する。本実施例では短期雑音検出部210は、フレームデータN[t][0]~[512]から、1フレームにおける音の大きさN[t]_Powerを算出する。N[t]_Powerの値が所定の閾値未満である場合、本フローチャートの処理は終了する。一方、N[t]_Powerが所定の閾値以上である場合、ステップS603の処理が実行される。
なお、短期雑音検出部210は、N[t]_Powerを、特定の周波数帯域や、周波数ごとに重みづけして計算してもよい。また、短期雑音検出部210は、本実施例では周波数スペクトルから計算しているが、時間領域の音声信号の振幅値から算出してもよい。
ステップS603では、短期雑音検出部210は、短期雑音が継続的に検出されているか否かを判断する。すなわち、短期雑音検出部210は、所定数以上の連続したフレームに短期雑音が含まれるか否かを判断する。例えば、短期雑音検出部210は、5回連続して短期雑音が検出されたか否かを判断する。短期雑音が所定の回数以上連続して検出された場合、その雑音はもはや短期雑音ではなく長期雑音だと考えられるからである。短期雑音が所定の回数以上連続して検出されていない場合、ステップS604の処理が実行される。短期雑音が所定の回数以上連続して検出された場合、本フローチャートの処理は終了する。
ここで、短期雑音の検出にNch_Beforeが用いられる理由は次のとおりである。上述のように、ノイズマイク201cによって取得されるノイズは、Lマイク201aおよびRマイク201bによって取得されるノイズよりも大きい。加えて、Lマイク201a、およびRマイク201bの上方にはマイク穴が形成されており、ノイズマイク201cの上方にマイク穴は形成されない。つまり、ノイズマイク201cによって取得される環境音は、Lマイク201aおよびRマイク201bによって取得される環境音よりも小さい。すなわち、ノイズマイク201cによって取得された音声から生成された信号は、Lマイク201aおよびRマイク201bによって取得された音声から生成された信号よりも、環境音が小さくノイズが大きい信号である。このため、Nch_BeforeはLch_BeforeおよびRch_Beforeよりもノイズの検出に適した音声信号であるといえる。
短期雑音の検出の詳細な方法については、図7を用いて後述する。
ステップS604~ステップS606において、短期雑音減算処理部211は、短期雑音を低減するための処理を行う。ステップS604では、短期雑音減算処理部211は、低減処理Aを実行する。ステップS605では、短期雑音減算処理部211は、低減処理Bを実行する。ステップS606では、短期雑音減算処理部211は、低減処理Cを実行する。それぞれの低減処理の詳細については後述する。なお、本実施例では低減処理A~Cの3つの低減処理が実行されているが、いずれかの低減処理のみでもよい。また、低減処理A~Cの実行される順番はこの順番に限らず、任意の順番でよい。
ステップS607では、短期雑音減算処理部211は、フレームデータの処理が完了したことに応じて、フレームデータL[t]、およびフレームデータR[t]をデータバッファ212に保持(記録)する。以降、短期雑音減算処理部211は、これらのフレームデータを、それぞれフレームデータL[t-1]、およびフレームデータR[t-1]として扱う。
以上、短期雑音の低減処理について説明について説明した。これから、低減処理A~Cについて説明する。
まず、低減処理Aの処理について説明する。図6(b)は低減処理Aの一例を示すフローチャートである。
ステップS611では、短期雑音減算処理部211は、フレームデータ[t]がフレームデータ[t-1]よりも所定の値以上大きいか否かを判断する。例えば、短期雑音減算処理部211は、フレームデータL[t][n]の値が、フレームデータL[t-1][n-1]の値より閾値P1(例えば6dB)以上大きいか否かを判断する。フレームデータ[t]がフレームデータ[t-1]よりも所定の値以上大きいと判断された場合、ステップS612の処理が実行される。フレームデータ[t]がフレームデータ[t-1]よりも所定の値以上大きくはないと判断された場合、ステップS614の処理が実行される。なお、短期雑音減算処理部211は、フレームデータR[t]を用いてフレームデータL[t]がフレームデータL[t-1]よりも所定の値以上大きいか否かを判断してもよい。
ステップS612では、短期雑音減算処理部211は、フレームデータ[t]に対してノイズ低減処理を実行する。例えば、短期雑音減算処理部211は、下記の数式1に示すように、フレームデータL[t][n]の値をフレームデータL[t-1][n]に閾値P1を加えた値になるように計算する。
[数式1]L[t][n]←L[t-1][n]+P1
[数式1]L[t][n]←L[t-1][n]+P1
ステップS613では、短期雑音減算処理部211は、閾値P1を閾値P1よりも小さい値である値P1_Lowに変更する。例えば、閾値P1の初期値が6dBである場合、短期雑音減算処理部211は、値P1_Lowを3dBとして、閾値P1を変更する。つまり、本実施例では、この場合、閾値P1が6dBから3dBに変更される。
ステップS614では、短期雑音減算処理部211は、閾値P1を閾値P1よりも大きい値である値P1_Highに変更する。本実施例では、値P1_Highは値P1_Lowも大きい値である。なお、本実施例では、値P1_Highは閾値P1と同じ値であるとする。すなわち、本実施例では、ステップS612の処理において閾値P1が初期値である場合、閾値P1は変更されない。一方、ステップS612の処理において閾値P1が値P1_Lowに変更されていた場合、本ステップの処理によって閾値P1は初期値に戻る。
以上、低減処理Aの処理について説明した。本フローチャートの処理のタイミングチャートについては、図8を用いて後述する。
なお、本フローチャートの処理は、フレームデータR[t]についても同様である。
次に低減処理Bの処理について説明する。図6(c)は低減処理Bの一例を示すフローチャートである。
ステップS621では、短期雑音減算処理部211は、フレームデータ[t]を保持する。例えば、短期雑音減算処理部211は、フレームデータL[t]およびフレームデータR[t]をデータバッファ212に保持する。
ステップS622では、短期雑音減算処理部211は、フレームデータ[t]が、新たに入力されたフレームデータ[t+1]よりも所定の値以上小さいか否かを判断する。例えば、短期雑音減算処理部211は、フレームデータL[t][n]の値が、フレームデータL[t+1][n+1]の値より閾値P2(例えば3dB)以上大きいか否かを判断する。なお、短期雑音減算処理部211は、フレームデータR[t]を用いてフレームデータR[t]がフレームデータR[t+1]よりも所定の値以上大きいか否かを判断してもよい。フレームデータ[t]が、新たに入力されたフレームデータ[t+1]よりも所定の値以上小さいと判断された場合、ステップS623の処理が実行される。フレームデータ[t]が、新たに入力されたフレームデータ[t+1]よりも所定の値以上小さくはないと判断された場合、本フローチャートの処理は終了される。
ステップS623では、短期雑音減算処理部211は、フレームデータ[t]に対してノイズ低減処理を実行する。例えば、短期雑音減算処理部211は、下記の数式2に示すように、フレームデータL[t][n]の値をフレームデータL[t-1][n]になるように計算する。
[数式2] L[t][n]←L[t-1][n]
[数式2] L[t][n]←L[t-1][n]
以上、低減処理Bの処理について説明した。本フローチャートの処理のタイミングチャートについては、図8を用いて後述する。
なお、本フローチャートの処理は、フレームデータR[t]についても同様である。
このように、短期雑音減算処理部211は、短期雑音を低減する場合、複数の閾値を切り替えてノイズ低減を行う。
次に低減処理Cの処理について説明する。図6(d)は低減処理Cの一例を示すフローチャートである。
ステップS631では、短期雑音減算処理部211は、フレームデータ[t]の特定の周波数帯域における平均値を計算する。特定の周波数帯域はノイズが聴感上気づかれやすく、ノイズが発生しやすい周波数帯域である。本実施例では、特定の周波数帯域は1kHz~4kHzとする。また、フレームデータL[t]の特定の周波数帯域における平均値をL_ave[t]とする。
ステップS632では、短期雑音減算処理部211は、フレームデータ[t]の特定の周波数帯域における平均値がフレームデータ[t-1]の特定の周波数帯域における平均値よりも大きいか否かを判断する。例えば、短期雑音減算処理部211は、L_ave[t]がL_ave[t-1]よりも大きいか否かを判断する。フレームデータ[t]の特定の周波数帯域における平均値がフレームデータ[t-1]の特定の周波数帯域における平均値よりも大きいと判断された場合、ステップS633の処理が実行される。フレームデータ[t]の特定の周波数帯域における平均値がフレームデータ[t-1]の特定の周波数帯域における平均値よりも大きくはないと判断された場合、本フローチャートの処理は終了される。
ステップS633では、短期雑音減算処理部211は、フレームデータ[t]の特定の周波数帯域における平均値をフレームデータ[t-1]の特定の周波数帯域における平均値に近づけるようにノイズ低減処理を行う。例えば、本実施例では、短期雑音減算処理部211は、下記の数式3に示すように、L_ave[t]がL_ave[t-1]近づくように、フレームデータL[t][n]の値を計算する。
[数式3] L[t][n]←L[t][n]-(L_ave[t]-L_ave[t-1])
[数式3] L[t][n]←L[t][n]-(L_ave[t]-L_ave[t-1])
以上、低減処理Cの処理について説明した。本フローチャートの処理のタイミングチャートについては、図9を用いて後述する。
なお、本フローチャートの処理は、フレームデータR[t]についても同様である。
<短期雑音検出部210のタイミングチャート>
短期雑音検出部210における短期雑音の検出方法を図7のタイミングチャートを用いて説明する。
短期雑音検出部210における短期雑音の検出方法を図7のタイミングチャートを用いて説明する。
図7(a)はレンズ制御信号の一例を示す。レンズ制御信号はレンズ制御部102が光学レンズ300に駆動するよう指示する信号である。本実施例では、レンズ制御信号のレベルはHighとLowの2値で表される。レンズ制御信号のレベルがHighである場合、レンズ制御部102は光学レンズ300に駆動するよう指示している状態である。レンズ制御信号のレベルがLowである場合、レンズ制御部102は光学レンズ300に駆動を指示していない状態である。
図7(b)はN[t]_Powerの一例を示すグラフである。縦軸はN[t]_Powerの値を示すための軸である。横軸は時間軸である。短期雑音が発生した場合、N[t]_Powerの値が大きくなる。短期雑音検出部210は、光学レンズ300が駆動しており、N[t]_Powerが所定の値以上である場合、短期雑音が発生したことを検出する。例えば、時刻T701~T702、および時刻T703~T704において、N[t]_Powerが短期雑音検出閾値より大きい場合、短期雑音が発生したと判断する。ただし、短期雑音検出部210は、区間T705のように、一定期間N[t]_Powerが所定の値以上である場合、その区間を短期雑音が発生していない期間として扱う。
<短期雑音低減のタイミングチャート>
まず、低減処理Aおよび低減処理Bについて、図8のタイミングチャートを用いて説明する。その次に、低減処理Cについて、図9を用いて説明する。
まず、低減処理Aおよび低減処理Bについて、図8のタイミングチャートを用いて説明する。その次に、低減処理Cについて、図9を用いて説明する。
図8(a)はレンズ制御信号の一例である。図8(b)はN[t]_Powerの一例を示すグラフである。図8(a)および図8(b)は、それぞれ図7(a)および図7(b)の時刻T701~T702の期間におけるグラフと同様である。
図8(c)は低減処理Aが行われた周波数スペクトルの一例を示す図である。本実施例ではフレームデータL[t][n]の周波数スペクトルを示す。縦軸は周波数スペクトルのパワーの値を示す軸である。なお、その他の周波数におけるフレームデータL[t]、およびフレームデータR[t]についても同様の処理が行われる。
無地部811(斜線部および網掛け部を含む)が短期雑音減算処理部211から入力された周波数スペクトル(低減処理Aが行われる前の周波数スペクトル)、斜線部812が低減処理Aが行われたことによって生成された周波数スペクトルである。
縦軸は特徴的な周波数Nの時間t毎のL[t][n]を示す。
まず、区間T801において、短期雑音が検出された時刻tにおける周波数スペクトルのレベルは、時刻t-1における周波数スペクトルのレベルより閾値P1(=P1_High)以上に大きい。そのため、低減処理Aでは、時刻tにおける周波数スペクトルのレベルは、数式4に示すように、時刻t-1における周波数スペクトルのレベルよりP1(=P1_High)大きい周波数スペクトルになるように減衰される。斜線部812(網掛け部を含む)は、低減処理Aによって低減された周波数スペクトルを示す。なお、時刻tにおいて低減処理Aが実行されたことによって閾値P1の値はP1_Lowに変更される。
[数式4] L[t][n]←L[t-1][n]+P1_High
[数式4] L[t][n]←L[t-1][n]+P1_High
また、時刻t+1における周波数スペクトルのレベルは、時刻tにおける周波数スペクトルのレベルより閾値P1(=P1_Low)以上大きい。そのため、低減処理Aでは、時刻t+1における周波数スペクトルのレベルは、数式5に示すように、時刻tにおける周波数スペクトルのレベルよりP1(=P1_Low)大きい周波数スペクトルになるように減衰される。
[数式5] L[t][n]←L[t-1][n]+P1_Low
[数式5] L[t][n]←L[t-1][n]+P1_Low
上述の処理は区間T802、および区間T804についても同様である。
次に、区間T803では、短期雑音が検出された時刻tにおける周波数スペクトルのレベルは、時刻t-1における周波数スペクトルのレベルより閾値P1(=P1_High)以上大きくはない。そのため、時刻tにおける周波数スペクトルに対して低減処理Aは実行されない。ここで、低減処理Aが実行されなかったため、閾値P1の値は変更されない。
また、時刻t+1における周波数スペクトルのレベルは、時刻tにおける周波数スペクトルのレベルより閾値P1(=P1_High)以上大きい。そのため、低減処理Aでは、時刻t+1における周波数スペクトルのレベルは、数式6に示すように、時刻tにおける周波数スペクトルのレベルよりP1(=P1_High)大きい周波数スペクトルになるように減衰される。
[数式6] L[t][n]←L[t-1][n]+P1_High
[数式6] L[t][n]←L[t-1][n]+P1_High
図8(d)は低減処理Bが行われた周波数スペクトルの一例を示す図である。
網掛け部813は低減処理Bが行われたことによって生成された周波数スペクトルを示す。
網掛け部813は低減処理Bが行われたことによって生成された周波数スペクトルを示す。
まず、区間T801において、時刻t+1における周波数スペクトルのレベルは、短期雑音が検出された時刻tにおける周波数スペクトルより閾値P2以上小さくはない。そのため、時刻tにおける周波数スペクトルに対して低減処理Bは実行されない。
また、時刻t+2における周波数スペクトルのレベルは、時刻t+1における周波数スペクトルのレベルより閾値P2以上小さい。そのため、低減処理Bでは、時刻t+1における周波数スペクトルのレベルは、数式7に示すように、時刻tにおける周波数スペクトルのレベルになるように減衰される。網掛け部813は、低減処理Bによって低減された周波数スペクトルを示す。
[数式7] L[t+1][n]←L[t][n]
[数式7] L[t+1][n]←L[t][n]
上述の処理は区間T803、および区間T804についても同様である。
次に、区間T802では、時刻t+1における周波数スペクトルのレベルは、短期雑音が検出された時刻tにおける周波数スペクトルより閾値P2以上小さくはない。そのため、時刻tにおける周波数スペクトルに対して低減処理Bは実行されない。
また、時刻t+2における周波数スペクトルのレベルは、時刻t+1における周波数スペクトルのレベルより閾値P2以上小さくはない。そのため、時刻t+1における周波数スペクトルに対しても低減処理Bは実行されない。
以上、図8を用いて低減処理Aおよび低減処理Bについて説明した。次に低減処理Cについて説明する。
図9は時刻tおよび時刻t-1におけるフレームデータLの一例を示す図である。ここで、縦軸はレベル、横軸は周波数である。
ここでは、時刻tにおいて短期雑音が検出された場合について説明する。
図9(a)は短期雑音が検出される直前(時刻t-1)における周波数スペクトルのフレームデータL[t-1]の一例である。なお、短期雑音減算処理部211は、時刻t-1における特定の周波数帯域の平均値L_ave[t-1]を演算する。
図9(b)は短期雑音が検出された時刻(時刻t)における周波数スペクトルのフレームデータL[t-1]の一例である。
ここで、無地部(斜線部含む)が短期雑音減算処理部211に入力された周波数スペクトルのレベル、斜線部が低減処理Cが行われた周波数スペクトルのレベルを示す。短期雑音減算処理部211は、時刻tにおける、特定の周波数帯域の平均値L_ave[t]を演算する。ここで、短期雑音減算処理部211によって、L_ave[t]がL_ave[t-1]より大きいと判断される。
そのため、減算処理Cでは、平均値L_ave[t]が平均値L_ave[t-1]に近づくように処理が行われる。本実施例では、短期雑音減算処理部211は、数式8に示すように、平均値L_ave[t]と平均値L_ave[t-1]の比を計算し、その比に基づいて平均値L_ave[t]が平均値L_ave[t-1]に近づくように処理を行う。
[数式8] L[t][n]←L[t][n]×(L_ave[t-1]/L_ave[t])
[数式8] L[t][n]←L[t][n]×(L_ave[t-1]/L_ave[t])
以上、低減処理Cについて説明した。
このように、撮像装置100は、ノイズの変化量に基づいて、ノイズ低減された音声信号から、さらに短期雑音を低減することでより高品質な音声を生成することができる。
<ノイズパラメータ>
図10は本実施例におけるノイズパラメータ記録部206に記録されているノイズパラメータの一例である。ノイズパラメータは、撮像装置100の筐体内、および光学レンズ300の筐体内において発生した駆動音をノイズマイク201cが取得することにより生成した音声信号を補正するためのパラメータである。図10に示すように、本実施例では、ノイズパラメータ記録部206にはPLxA、PRxA、PLxBおよび、PRxBが記録されている。本実施例では、PLxA、PRxAとして駆動音の発生源は光学レンズ300の筐体内であるとして説明する。光学レンズ300の筐体内で発生した駆動音はレンズマウント301を介して撮像装置100の筐体内に伝達し、Lマイク201a、Rマイク201b、およびノイズマイク201cによって取得される。
図10は本実施例におけるノイズパラメータ記録部206に記録されているノイズパラメータの一例である。ノイズパラメータは、撮像装置100の筐体内、および光学レンズ300の筐体内において発生した駆動音をノイズマイク201cが取得することにより生成した音声信号を補正するためのパラメータである。図10に示すように、本実施例では、ノイズパラメータ記録部206にはPLxA、PRxA、PLxBおよび、PRxBが記録されている。本実施例では、PLxA、PRxAとして駆動音の発生源は光学レンズ300の筐体内であるとして説明する。光学レンズ300の筐体内で発生した駆動音はレンズマウント301を介して撮像装置100の筐体内に伝達し、Lマイク201a、Rマイク201b、およびノイズマイク201cによって取得される。
本実施例では、光学レンズ300の種類に対応した複数のノイズパラメータがノイズパラメータ記録部206に記録されている。これは光学レンズ300の種類によって、駆動音の周波数が異なるためである。撮像装置100は、これら複数のノイズパラメータのうちの光学レンズ300の種類に応じたノイズパラメータを用いてノイズデータを生成する。
また、駆動音の種類によって、駆動音の周波数が異なるため、本実施例では、撮像装置100は、駆動音(ノイズ)の種類に対応した複数のノイズパラメータを記録する。そして、これら複数のノイズパラメータのうちの何れかを用いてノイズデータを生成する。本実施例では、撮像装置100は、恒常的なノイズとしてホワイトノイズに対するノイズパラメータを記録する。また、撮像装置100は、例えば光学レンズ300内のギアがかみ合わさることによって発生する短期的なノイズに対するノイズパラメータを記録する。また、撮像装置100は、長期的なノイズとして、例えばレンズ300の筐体内における摺動音に対するノイズパラメータを記録する。
また、本実施例では、PLxB、PRxBとして撮像装置100は、恒常的なノイズに対するノイズパラメータを動画撮影の設定毎に記録する。恒常的なノイズは、例えば、ホワイトノイズ、マイクのフロアノイズや電気的ノイズである。恒常的なノイズは、解像度やホワイトバランス、色味、フレームレート等の動画撮影に関する設定に応じても変化するため、
なお、PLxAおよびPRxAの係数の値の平均値は、PLxBおよびPRxBの係数の値の平均値よりも大きい。これは、PLxAおよびPRxAによって低減されるノイズはPLxBおよびPRxBによって低減されるノイズよりも音量が大きく耳障りであるためである。
なお、PLxAおよびPRxAの係数の値の平均値は、PLxBおよびPRxBの係数の値の平均値よりも大きい。これは、PLxAおよびPRxAによって低減されるノイズはPLxBおよびPRxBによって低減されるノイズよりも音量が大きく耳障りであるためである。
[その他の実施例]
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記録媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。
Claims (17)
- 環境音を取得するための第一のマイクと、
ノイズ源からの音を取得するための第二のマイクと、
前記第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換手段と、
前記第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換手段と、
前記第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減手段と、
前記第二の音声信号から短期的なノイズを検出する検出手段と、
前記検出手段によって短期的なノイズが検出された場合、前記第二の音声信号に基づくことなく、前記第一の低減手段が出力した音声信号から短期的なノイズを低減する第二の低減手段と、
を有することを特徴とする音声処理装置。 - 前記第一の低減手段は、前記第一の音声信号から長期的なノイズおよび短期的なノイズを低減することを特徴とする請求項1に記載の音声処理装置。
- 前記第二の低減手段は、前記第一の低減手段が出力した音声信号の変化量が所定の閾値以上である場合、前記第一の低減手段が出力した音声信号から短期的なノイズを低減することを特徴とする請求項1または2に記載の音声処理装置。
- 前記第二の低減手段は、前記第一の低減手段が出力した音声信号から短期的なノイズを低減した場合、前記所定の閾値を小さくすることを特徴とする請求項3に記載の音声処理装置。
- 前記第二の低減手段は、ノイズ低減処理を行った直後に前記第一の低減手段が出力した音声信号が、前記第二の低減手段によってノイズ低減処理が行われた音声信号より所定の閾値以上、小さい場合、直前に前記第二の低減手段によってノイズ低減処理が行われた音声信号に基づいて、ノイズ低減処理をさらに行うことを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
- 前記第二の低減手段は、前記第一の低減手段が出力した音声信号の特定の周波数帯における平均値に基づいてノイズ低減処理を行うことを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。
- 前記第二の低減手段は、前記検出手段によって継続的にノイズが検出された場合、前記第一の低減手段からの音声信号から短期的なノイズを低減する処理を行わないことを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
- 前記検出手段は、前記第二の音声信号のレベルの変化量に基づいて、短期的なノイズを検出することを特徴とする請求項1から7のいずれか1項に記載の音声処理装置。
- 前記検出手段は、前記第二の音声信号のレベルが所定の閾値以上になったことに応じて、前記第二の音声信号に短期的なノイズが含まれるか否かを検出することを特徴とする請求項1から8のいずれか1項に記載の音声処理装置。
- 前記第二の低減手段からの音声信号から、恒常的なノイズを低減する第三の低減手段をさらに有することを特徴とする請求項1から9のいずれか1項に記載の音声処理装置。
- 前記第二の音声信号と、前記ノイズ源のノイズに係るパラメータとを用いてノイズデータを生成する生成手段をさらに有し、
前記第一の低減手段は、前記第一の音声信号から前記ノイズデータを減算することを特徴とする請求項1から10のいずれか1項に記載の音声処理装置。 - 前記生成手段は、第一の種類のノイズに対応した第一のパラメータと、第二の種類のノイズに対応した第二のパラメータとを含む、複数の前記パラメータの少なくとも何れかと前記第二の音声信号とを用いて、前記ノイズデータを生成することを特徴とする請求項11に記載の音声処理装置。
- 前記第一の低減手段は、スペクトルサブトラクション法を用いてノイズ低減し、
前記第二の低減手段は、重畳加算法を用いてノイズ低減することを特徴とする請求項1から12のいずれか1項に記載の音声処理装置。 - 駆動部へ駆動を指示する指示手段をさらに有し、
前記第二の低減手段は、前記指示手段によって前記駆動部へ駆動が指示されている間において、第一の音声信号からノイズを低減することを特徴とする請求項1から13のいずれか1項に記載の音声処理装置。 - 前記駆動部は撮像手段における駆動部であることを特徴とする請求項14に記載の音声処理装置。
- 環境音を取得するための第一のマイクと、ノイズ源からの音を取得するための第二のマイクと、を有する音声処理装置の制御方法であって、
前記第一のマイクから入力された音声信号をフーリエ変換して第一の音声信号を生成する第一の変換ステップと、
前記第二のマイクから入力された音声信号をフーリエ変換して第二の音声信号を生成する第二の変換ステップと、
前記第二の音声信号に基づき、第一の音声信号からノイズを低減する第一の低減ステップと、
前記第二の音声信号から短期的なノイズを検出する検出ステップと、
前記検出ステップおいて短期的なノイズが検出された場合、前記第二の音声信号に基づくことなく、前記第一の低減ステップにおいて生成された音声信号から短期的なノイズを低減する第二の低減ステップと、
を有することを特徴とする制御方法。 - コンピュータを請求項1から15のいずれか1項に記載の音声処理装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087690A JP2022180927A (ja) | 2021-05-25 | 2021-05-25 | 音声処理装置、制御方法、およびプログラム |
US17/740,089 US20220383891A1 (en) | 2021-05-25 | 2022-05-09 | Sound processing apparatus and control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021087690A JP2022180927A (ja) | 2021-05-25 | 2021-05-25 | 音声処理装置、制御方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022180927A true JP2022180927A (ja) | 2022-12-07 |
Family
ID=84194247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021087690A Pending JP2022180927A (ja) | 2021-05-25 | 2021-05-25 | 音声処理装置、制御方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220383891A1 (ja) |
JP (1) | JP2022180927A (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4196431B2 (ja) * | 1998-06-16 | 2008-12-17 | パナソニック株式会社 | 機器内蔵型マイクロホン装置及び撮像装置 |
US9392360B2 (en) * | 2007-12-11 | 2016-07-12 | Andrea Electronics Corporation | Steerable sensor array system with video input |
JP5741281B2 (ja) * | 2011-07-26 | 2015-07-01 | ソニー株式会社 | 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 |
US11657794B2 (en) * | 2020-08-27 | 2023-05-23 | Canon Kabushiki Kaisha | Audio processing apparatus for reducing noise using plurality of microphones, control method, and recording medium |
-
2021
- 2021-05-25 JP JP2021087690A patent/JP2022180927A/ja active Pending
-
2022
- 2022-05-09 US US17/740,089 patent/US20220383891A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220383891A1 (en) | 2022-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006279185A (ja) | 撮像装置、音声記録方法及びプログラム | |
CN101686323A (zh) | 摄像装置以及模式适当与否判定方法 | |
KR101760345B1 (ko) | 동영상 촬영 방법 및 동영상 촬영 장치 | |
JP6637926B2 (ja) | 音声処理装置及びその制御方法 | |
US11657794B2 (en) | Audio processing apparatus for reducing noise using plurality of microphones, control method, and recording medium | |
JP2011151481A (ja) | 音声信号処理装置、音声信号処理システム | |
JP2013017160A (ja) | カメラ本体およびカメラ本体に装着可能な交換レンズ | |
JP2006279757A (ja) | 撮像装置、音声記録方法及びプログラム | |
JP2005228400A (ja) | 音声記録装置及び音声記録方法 | |
JP2010193053A (ja) | 撮像装置及びノイズ低減方法 | |
JP2022180927A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022038611A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP6985821B2 (ja) | 音声処理装置及びその制御方法 | |
JP6929137B2 (ja) | 音声処理装置及びその制御方法 | |
JP2022183849A (ja) | 音声処理装置、制御方法、およびプログラム | |
US11729548B2 (en) | Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones | |
JP2022054318A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022054316A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022054317A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022054315A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022038610A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2022039940A (ja) | 音声処理装置、制御方法、およびプログラム | |
JP2023030453A (ja) | 音声処理装置、制御方法、及びプログラム | |
JP6931296B2 (ja) | 音声処理装置及びその制御方法 | |
JP6877246B2 (ja) | 音声処理装置及びその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20231213 |