JP5741281B2 - 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 - Google Patents

音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5741281B2
JP5741281B2 JP2011163045A JP2011163045A JP5741281B2 JP 5741281 B2 JP5741281 B2 JP 5741281B2 JP 2011163045 A JP2011163045 A JP 2011163045A JP 2011163045 A JP2011163045 A JP 2011163045A JP 5741281 B2 JP5741281 B2 JP 5741281B2
Authority
JP
Japan
Prior art keywords
audio signal
sound
pulse
feature amount
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011163045A
Other languages
English (en)
Other versions
JP2013025291A5 (ja
JP2013025291A (ja
Inventor
慶一 大迫
慶一 大迫
俊之 関矢
俊之 関矢
安部 素嗣
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2011163045A priority Critical patent/JP5741281B2/ja
Priority to US14/232,748 priority patent/US9495950B2/en
Priority to CN201280035699.4A priority patent/CN103688307A/zh
Priority to PCT/JP2012/063753 priority patent/WO2013015011A1/ja
Publication of JP2013025291A publication Critical patent/JP2013025291A/ja
Publication of JP2013025291A5 publication Critical patent/JP2013025291A5/ja
Application granted granted Critical
Publication of JP5741281B2 publication Critical patent/JP5741281B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)

Description

本開示は、音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体に関する。
外部音声を収音して記録する音声記録装置として、ビデオカメラや、動画撮像機能付きのデジタルカメラ、ICレコーダ等が知られている。これら装置を動作させるときには、装置本体から発生するパルス状の作動音が、記録音声に混入してしまう場合がある。
例えば、動画撮像機能を備えた撮像装置は、動画撮像中にマイクロホンにより装置周辺の外部音声を収音し、当該音声を動画とともに記録する。かかる動画撮像時には、撮像装置に筐体内で、ズーム駆動音、絞り駆動音、オートフォーカス駆動音、操作ボタンの押下音などのパルス状の作動音が発生する。特に、撮像光学系を駆動させる駆動装置(ズームモータ、絞り機構、フォーカスモータ等)の動作開始時又は終了時には、例えば、モータとギアが噛み合うときの「カチッ」というパルス状の機械駆動音が発生する。
かかるパルス状の作動音は、ユーザが録音を所望する外部音声に雑音として混入・記録されてしまうと、非常に耳障りである。このため、音声記録装置では、記録時にパルス状の作動音を低減するための静音対策や雑音除去対策が必要となる。
パルス状の機械駆動音を低減する方法として、これまでもいくつかの方法が提案されている。例えば、特許文献1には、駆動装置から発生する機械駆動音を低減する際に、低減処理の負荷を低減するために、駆動装置を制御するための駆動信号の送信に応じて、低減処理を実行することが提案されている。また、特許文献2には、レンズ駆動部を制御するための駆動信号(制御信号)に基づいて、レンズ駆動部からの雑音が大きい期間に対応する入力音声データを、当該期間の前後の音声データで補間することが提案されている。
特開2011−2723号公報 特開平8−124299号公報
しかしながら、上記特許文献1、2の技術では、駆動装置を制御するための駆動信号の送信タイミングに依存して雑音低減処理を行っているので、パルス状の雑音の低減精度が低く、原音の音質が劣化してしまう。即ち、実際の撮像装置等では、制御装置が駆動信号を送信してから駆動装置は動作するまでの間に遅延が生じる場合がある。しかも、特許文献1の方法では、機械駆動音が発生してからマイクロホンに到達するまでの時間を考慮していない。従って、特許文献1のように駆動信号の送信に応じて低減処理を行うと、実際の雑音区間と雑音低減処理区間とがずれてしまう。このため、非雑音区間でも低減処理を行うことになるので、原音の忠実性の著しい低下や、音質劣化を招いてしまう。
また、特許文献2の技術では、駆動信号に対する発生雑音の遅延を予め考慮して、駆動信号の送信から一定の遅延時間の経過後に、雑音低減処理を実行している。しかし、設定される遅延時間は固定値であり、実際の遅延時間がばらつく場合は考慮されていないので、雑音区間を正確に特定できない。従って、雑音低減処理区間を実際の雑音区間に正確に合わせることができないので、高精度の雑音低減処理を実現できず、音質劣化の恐れがある。
さらに、特許文献2では、駆動信号から得られるタイミングで、入力音声データと補間音声データのレベル(音量)によって、雑音低減処理を行うか否かを判定している。これにより、装置周囲の外部音声が大きい場合には、雑音が相対的に目立たなくなるため、低減処理を行わず、逆に、装置周囲が静かであり、雑音が目立つ場合には、低減処理を行って当該雑音を除去することができる。しかしながら、雑音が人間の耳に知覚される要因は音量だけではない。従って、特許文献2のように音量のみで雑音区間を判定する方法では、雑音区間の判定精度が不安定であり、雑音が知覚されない区間に低減処理を実行したり、逆に、雑音が知覚される区間で低減処理を実行しなかったりする可能性がある。
そこで、上記事情に鑑みて、駆動装置の駆動制御情報を用いずに、収音された音声信号のみから、パルス状の作動音が含まれる雑音区間を高精度に検出して、雑音低減精度を向上することが可能な手法が求められていた。
本開示によれば、収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する雑音判定部と、を備える、音声信号処理装置が提供される。
また、本開示によれば、外部音声を音声信号に変換する収音部と、前記収音部と同一の筐体に設けられ、パルス状の作動音を発生させる発音部と、前記収音部から出力された前記音声信号から、前記作動音を表す特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する雑音判定部と、前記雑音判定部により前記作動音が含まれると判定された場合に、前記音声信号に対して雑音低減処理を行う雑音低減部と、を備える、撮像装置が提供される。
また、本開示によれば、収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出することと、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定することと、を含む、音声信号処理方法が提供される。
また、本開示によれば、収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出することと、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定することと、をコンピュータに実行させるためのプログラムが提供される。
また、本開示によれば、収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出することと、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定することと、をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体が提供される。
上記構成により、収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量が抽出され、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かが判定される。これにより、音声信号から抽出される特徴量を用いて、パルス状の作動音の有無を高精度で判定できる。
以上説明したように本開示によれば、駆動装置の駆動制御情報を用いずに、収音された音声信号のみから、パルス状の作動音の雑音区間を高精度に検出して、雑音低減精度を向上することができる。
本開示の第1の実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成を示すブロック図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係るパルス機械音を含む音声信号の波形図である。 同実施形態に係るパルス機械音の判定方法を示す説明図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 本開示の第2の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係るパルス機械音の判定方法を示す説明図である。 本開示の第3の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 本開示の第4の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 本開示の第5の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 本開示の第6の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 本開示の第6の実施形態の変更例に係る音声信号処理装置の機能構成を示すブロック図である。 本開示の第7の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.第1の実施の形態
1.1.機械音低減方法の概要
1.2.音声信号処理装置の構成
1.2.1.音声信号処理装置のハードウェア構成
1.2.2.音声信号処理装置の機能構成
1.3.パルス機械音の判定方法の具体例
1.3.1.統計的識別法を用いた判定方法
1.3.2.テーブル判定を用いた判定方法
1.4.音声信号処理方法
1.5.効果
2.第2の実施の形態
2.1.音声信号処理装置の機能構成
2.2.パルス機械音の判定方法の具体例
2.2.1.統計的識別法を用いた判定方法
2.2.2.テーブル判定を用いた判定方法
2.3.効果
3.第3の実施の形態
3.1.音声信号処理装置の機能構成
3.2.パルス機械音の判定方法の具体例
3.2.1.統計的識別法を用いた判定方法
3.2.2.テーブル判定を用いた判定方法
3.3.効果
4.第4の実施の形態
4.1.音声信号処理装置の機能構成
4.2.効果
5.第5の実施の形態
5.1.音声信号処理装置の機能構成
5.2.音声信号処理方法
5.3.効果
6.第6の実施の形態
6.1.雑音判定方法の概要
6.2.音声信号処理装置の機能構成
6.3.音声信号処理装置の変更例
6.4.効果
7.第7の実施の形態
7.1.音声信号処理装置の機能構成
7.2.効果
8.まとめ
<1.第1の実施の形態>
[1.1.機械音低減方法の概要]
まず、本開示の第1の実施形態に係る音声信号処理装置及び方法を用いた機械音低減方法の概要について説明する。
本実施形態に係る音声信号処理装置及び方法は、音声記録装置又は音声再生装置において、当該装置の筐体内に設置された発音部(例えば駆動装置)から発生するパルス状の作動音(雑音)を低減する技術に関する。特に、本実施形態では、動画撮像機能を有する撮像装置において、動画を撮像しながら周辺音声を録音するときに、撮像装置に内蔵された駆動装置の動作開始時或いは動作終了時に発生するパルス状の機械駆動音を低減対象とする。
ここで、駆動装置は、撮像光学系を用いた撮像動作を行うために撮像装置に内蔵された駆動装置であり、例えば、ズームレンズを移動させるズームモータや、フォーカスレンズを移動させるフォーカスモータ、絞り機構又はシャッターを制御する駆動機構などを含む。これら駆動装置は、撮像装置の収音部と同一の筐体内に設けられる。また、パルス状の機械駆動音(以下、「パルス機械音」という。)は、例えば、上記各種の駆動装置が動作開始又は動作終了するときに発生する瞬間的な雑音(例えば、ズームモータの駆動音、フォーカスモータの駆動音、絞り機構の駆動音、シャッター音、操作ボタンの押下音など)である。例えば、パルス機械音は、ズームモータ等の動作開始時又は動作終了時に、モータとギアが噛み合うことにより発生する「カチッ」又は「パチッ」という音などである。
以下では、音声信号処理装置が、動画撮像機能を有するデジタルカメラであり、除去対象雑音であるパルス機械音が、該デジタルカメラにおける光学ズーム動作開始時に発生するズーム開始音である例について説明する。しかし、本開示の音声信号処理装置や、パルス機械音は、かかる例に限定されない。
デジタルカメラによる撮像及び録音中に、ユーザがズーム操作を行うと、該カメラの内部でズームモータが駆動して、ズームレンズを駆動させるギアと係合して、瞬間的に大きいパルス機械音(ズーム開始音)が発生する。すると、デジタルカメラのマイクロホンは、ユーザが録音を所望するカメラ周囲の外部音声(例えば、環境音、人の話し声など、マイクロホンに収音される任意の音声を含む。以下「所望音」又は「背景音」という。)のみならず、カメラ内部で発生したパルス機械音も収音してしまう。このため、所望音にパルス機械音が雑音として混入した状態で録音されてしまうので、当該録音された音声を再生したときに、所望音に混入したパルス機械音がユーザにとって耳障りとなる。例えば、パルス機械音は200Hz以下の筐体の振動を伴い、マイクロホン近傍で発生するため、所望音に比べて大きな音量で収音される。このようにパルス機械音と所望音で音量差があるため、所望音に機械音が混入していると、録音音声の再生時にパルス機械音が目立ってしまう。従って、動画及び音声の記録時又は再生時に、上記ズーム開始音等のパルス機械音を適切に除去した上で所望音のみを記録可能な技術が希求されていた。
従来の雑音低減技術では、上記特許文献1、2記載のように、駆動装置を制御するための駆動信号の送信タイミングによって、機械駆動音の発生区間(雑音区間)を推定し、当該雑音区間に対して雑音低減処理を施していた。しかし、駆動信号に対する実際に収録される雑音の遅延等が原因で、駆動信号の送信タイミングから雑音区間を正確に推定することは困難である。また、特許文献2記載のように音声信号のレベル(音量)のみから雑音の有無を判定する方法では、人間の耳が知覚する実際の雑音の発生区間を正確に検出することができなかった。
そこで、本実施形態では、撮像装置の収音部により収音された音声信号から、上記パルス機械音を表す特徴量を抽出し、駆動信号を用いずに当該特徴量のみを用いてパルス機械音の有無を判定して、パルス機械音が含まれる雑音区間を検出する。ここで、パルス機械音を表す特徴量は、(1)パルス機械音のパルス成分を表すパルス特徴量(第1の特徴量に相当する。)と、(2)パルス機械音の残響成分を表す残響特徴量(第2の特徴量に相当する。)を含むことが好ましい。このようにパルス機械音のパルス成分と残響成分を表す2種類の特徴量を用いることで、音声信号に含まれるパルス機械音を正確に検出することが可能となる。
さらに、上記(1)パルス特徴量は、(a)パルス機械音のパルス成分の振幅最大値Aと、(b)当該パルス成分のパルス幅Wを含むことが好ましく、(2)残響特徴量は、(c)パルス機械音の残響成分を表す狭帯域信号のパワーPを含むことが好ましい。かかる(a)振幅最大値A及び(b)パルス幅Wは、上記パルス特徴量の代表的なパラメータである。また、(c)パルス機械音の残響成分を表す狭帯域信号のパワーP(以下、「残響成分パワーP」という。)は、上記残響特徴量の代表的なパラメータである。なお、狭帯域信号は、音声信号のうち、パルス機械音の残響成分に特有の低周波数帯域(例えば200Hz以下)の信号であり、残響成分パワーPは、例えば、当該信号の所定区間における振幅(信号レベル)の積算値である。
本実施形態に係る音声信号処理装置の特徴量抽出部は、上記(a)パルス機械音のパルス成分の振幅最大値A、(b)当該パルス成分のパルス幅W、及び(c)残響成分パワーPという3つの特徴量を、音声信号から抽出する。そして、音声信号処理装置の雑音判定部は、抽出された3つの特徴量のベクトルx(A,W,P)と判定係数を用いて、音声信号にパルス機械音が含まれるか否かを総合的に判定する。なお、この判定に必要な判定係数は、予め事前学習又は事前設定によって得られている。このように、上記3つの特徴量(A,W,P)を用いることで、音声信号に含まれるパルス機械音を、更に正確に検出することが可能となる。以下に、本実施形態に係るパルス機械音の低減方法について詳述する。
[1.2.音声信号処理装置の構成]
[1.2.1.音声信号処理装置のハードウェア構成]
まず、図1を参照して、本実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成例について説明する。図1は、本実施形態に係る音声信号処理装置が適用されたデジタルカメラ1のハードウェア構成を示すブロック図である。
本実施形態に係るデジタルカメラ1は、例えば、動画撮像中に動画と共に音声も記録可能な撮像装置である。このデジタルカメラ1は、被写体を撮像して、当該撮像により得られた撮像画像(静止画又は動画のいずれでもよい。)をデジタル方式の画像データに変換し、音声とともに記録媒体に記録する。
図1に示すように、本実施形態に係るデジタルカメラ1は、概略的には、撮像部10と、画像信号処理部20と、表示部30と、記録媒体40と、収音部50と、音声信号処理部60と、制御部70と、操作部80とを備える。
撮像部10は、被写体を撮像して、撮像画像を表すアナログ画像信号を出力する。撮像部10は、撮像光学系11と、撮像素子12と、タイミングジェネレータ13と、駆動装置14とを備える。
撮像光学系11は、フォーカスレンズ、ズームレンズ、補正レンズ等の各種レンズや、不要な波長を除去する光学フィルタ、シャッター、絞り等の光学部品からなる。被写体から入射された光学像(被写体像)は、撮像光学系11における各光学部品を介して、撮像素子12の露光面に結像される。撮像素子12(イメージセンサ)は、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの固体撮像素子で構成される。この撮像素子12は、撮像光学系11から導かれた光学像を光電変換し、撮像画像を表す電気信号(アナログ画像信号)を出力する。
撮像光学系11には、該撮像光学系11の光学部品を駆動するための駆動装置14が機械的に接続されている。この駆動装置14は、例えば、ズームモータ15、フォーカスモータ16、絞り機構(図示せず。)などを含む。駆動装置14は、後述する制御部70の指示に従って、撮像光学系11の光学部品を駆動させ、ズームレンズ、フォーカスレンズを移動させたり、絞りを調整したりする。例えば、ズームモータ15は、ズームレンズをテレ/ワイド方向に移動させることで、画角を調整するズーム動作を行う。また、フォーカスモータ16は、フォーカスレンズを移動させることで、被写体に焦点を合わせるフォーカス動作を行う。
また、タイミングジェネレータ13(以下、TG13という。)は、制御部70の指示に従って、撮像素子12に必要な動作パルスを生成する。例えば、TG13は、垂直転送のための4相パルス、フィールドシフトパルス、水平転送のための2相パルス、シャッタパルスなどの各種パルスを生成し、撮像素子12に供給する。このTG13により撮像素子12を駆動させることで、被写体像が撮像される。また、TG13が、撮像素子12のシャッタースピードを調整することで、撮像画像の露光量や露光期間が制御される(電子シャッター機能)。上記の撮像素子12が出力した画像信号は画像信号処理部20に入力される。
画像信号処理部20は、マイクロコントローラなどの電子回路で構成され、撮像素子12から出力される画像信号に対して所定の画像処理を施し、当該画像処理後の画像信号を表示部30や制御部70に出力する。画像信号処理部20は、アナログ信号処理部21、アナログ/デジタル(A/D)変換部22、デジタル信号処理部23を備える。
アナログ信号処理部21は、画像信号を前処理する所謂アナログフロントエンドである。該アナログ信号処理部21は、例えば、撮像素子12から出力される画像信号に対して、CDS(correlated double sampling:相関2重サンプリング)処理、プログラマブルゲインアンプ(PGA)によるゲイン処理などを行う。A/D変換部22は、アナログ信号処理部21から入力されたアナログ画像信号をデジタル画像信号に変換して、デジタル信号処理部23に出力する。デジタル信号処理部23は、入力されたデジタル画像信号に対して、例えば、ノイズ除去、ホワイトバランス調整、色補正、エッジ強調、ガンマ補正等のデジタル信号処理を行って、表示部30や制御部70等に出力する。
表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機ELディスプレイなどの表示装置で構成される。表示部30は、制御部70による制御に従って、入力された各種の画像データを表示する。例えば、表示部30は、撮像中に画像信号処理部20からリアルタイムで入力される撮像画像(スルー画像)を表示する。これにより、ユーザは、デジタルカメラ1で撮像中のスルー画像を見ながら、デジタルカメラ1を操作することができる。また、記録媒体40に記録されている撮像画像を再生したときに、表示部30は、当該再生画像を表示する。これにより、ユーザは、記録媒体40に記録されている撮像画像の内容を確認することができる。
記録媒体40は、上記撮像画像のデータ、音声データ、それらのメタデータなどの各種のデータを記憶する。記録媒体40は、例えば、メモリカード等の半導体メモリ、又は、光ディスク、ハードディスク等のディスク状記録媒体などを使用できる。なお、光ディスクは、例えば、ブルーレイディスク(Blu−ray Disc)、DVD(Digital Versatile Disc)又はCD(Compact Disc)等を含む。なお、記録媒体40は、デジタルカメラ1に内蔵されてもよいし、デジタルカメラ1に着脱可能なリムーバブルメディアであってもよい。
収音部50は、デジタルカメラ1周辺の外部音声を収音する。本実施形態に係る収音部50は、1つの外部音声収録用のマイクロホン51からなるモノラルマイクロホンであるが、2つのマイクロホンからなるステレオマイクロホンで構成されてもよい。マイクロホン51は、外部音声を収音して得られた音声信号をそれぞれ出力する。かかる収音部50により、動画撮像中に外部音声を収音して、動画と共に記録できるようになる。かかるマイクロホン51は、外部音声(所望音)を収音するためにデジタルカメラ1の筐体に設けられているが、当該筐体内に設けられた発音部(上記駆動装置14)の機械駆動音も雑音として収音してしまう。
音声信号処理部60は、マイクロコントローラなどの電子回路で構成され、音声信号に対して所定の音声処理を施して、記録用の音声信号を出力する。この音声処理は、例えば、AD変換処理、雑音低減処理などを含む。本実施形態は、この音声信号処理部60による雑音低減処理を特徴としているが、その詳細説明は後述する。
制御部70は、マイクロコントローラなどの電子回路で構成され、デジタルカメラ1の全体の動作を制御する。制御部70は、例えば、CPU71、EEPROM(Electrically Erasable Programmable ROM)72、ROM(Read Only Memory)73、RAM(Random Access Memory)74を備える。かかる制御部70は、デジタルカメラ1内の各部を制御する。例えば、制御部70は、マイクロホン51により収音された音声信号から、駆動装置14で発生した機械音を雑音として低減するに、音声信号処理部60の動作を制御する。
制御部70におけるROM73には、CPU71に各種の制御処理を実行させるためのプログラムが格納されている。CPU71は、該プログラムに基づいて動作して、RAM74を用いながら、上記各制御のための必要な演算・制御処理を実行する。該プログラムは、デジタルカメラ1に内蔵された記憶装置(例えば、EEPROM72、ROM73等)に予め格納しておくことができる。また、当該プログラムは、ディスク状記録媒体、メモリカードなどのリムーバブル記録媒体に格納されて、デジタルカメラ1に提供されてもよいし、LAN、インターネット等のネットワークを介してデジタルカメラ1にダウンロードされてもよい。
ここで、制御部70による制御の具体例について説明する。制御部70は、上記撮像部10のTG13や駆動装置14を制御して、撮像部10による撮像処理を制御する。例えば、制御部70は、上記撮像光学系11の絞りの調整、撮像素子12の電子シャッタースピードの設定、アナログ信号処理部21のAGCのゲイン設定などにより、自動露光制御を行う(AE機能)。また、制御部70は、上記撮像光学系11のフォーカスレンズを移動させて、フォーカスポジションを変更することで、特定の被写体に対して撮像光学系11の焦点を自動的に合わせるオートフォーカス制御を行う(AF機能)。また、制御部70は、上記撮像光学系11のズームレンズを移動させて、ズームポジションを変更することで、撮像画像の画角を調整する。また、制御部70は、記録媒体40に対して撮像画像、メタデータなどの各種のデータを記録し、また、記録媒体40に記録されているデータを読み出して再生する。さらに、制御部70は、表示部30に表示するための各種の表示画像を生成し、表示部30を制御して該表示画像を表示させる。
操作部80、表示部30は、ユーザがデジタルカメラ1の動作を操作するためのユーザインターフェースとして機能する。操作部80は、ボタン、レバー等の各種の操作キー、又はタッチパネル等で構成され、例えば、ズームボタン、シャッターボタン、電源ボタンなどを含む。操作部80は、ユーザ操作に応じて、各種の撮像動作を指示するための指示情報を制御部70に出力する。
[1.2.2.音声信号処理装置の機能構成]
次に、図2を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図2は、本実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図2に示すように、音声信号処理装置100は、信号入力部110と、AD変換部120と、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160と、信号記録部170とを備える。信号入力部110は、上記図1のマイクロホン51を備える。また、AD変換部120、特徴量抽出部130、雑音判定部140、判定係数保持部150及び雑音低減部160は、上記図1の音声信号処理部60を構成する。信号記録部170は、上記図1の制御部70及び記録媒体40で構成される。
これら音声信号処理装置100の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声信号処理装置100のプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。当該プログラムは、コンピュータ読み取り可能な記録媒体(例えば、光ディスク、ハードディスク、半導体メモリ等)を介して音声信号処理装置100に提供されてもよいし、又は各種の通信手段を介して提供されてもよい。以下に、音声信号処理装置100の各部について説明する。
信号入力部110は、デジタルカメラ1の筐体に設置されたマイクロホン51で構成される。信号入力部110のマイクロホン51は、デジタルカメラ1の周囲の所望音(録音対象の音声)を収音し、当該外部音声を音声信号に変換して出力する。この音声信号には、所望音のみならず、デジタルカメラ1の駆動装置14で発生するパルス機械音やその他の機械駆動音などの雑音が混入する。
AD変換部120は、上記マイクロホン51から出力されたアナログ音声信号を、デジタル音声信号に変換する。当該デジタル音声信号は、特徴量抽出部130及び雑音低減部160に入力される。
特徴量抽出部130は、上記マイクロホン51から出力された音声信号から、上記パルス機械音を表す特徴量を抽出する。特徴量抽出部130は、上述した(1)パルス機械音のパルス成分を表すパルス特徴量を抽出するパルス特徴量抽出部、及び(2)パルス機械音の残響成分を表す残響特徴量を抽出する残響特徴量抽出部として機能する。具体的には、特徴量抽出部130は、パルス特徴量抽出部として、振幅最大値取得部131及びパルス幅計算部132を備え、残響特徴量抽出部として残響パワー計算部133を備える。
振幅最大値取得部131は、音声信号のパルス成分の振幅(信号レベル)の最大値を取得し、当該振幅最大値Aをパルス特徴量として出力する。パルス幅計算部132は、音声信号のパルス成分のパルス幅Wを計算し、当該パルス幅Wをパルス特徴量として出力する。残響パワー計算部133は、音声信号の残響成分を表す狭帯域信号のパワーPを計算し、当該残響パワーPを残響特徴量として出力する。
ここで、図3を参照して、パルス機械音について説明する。図3は、本実施形態に係るパルス機械音を含む音声信号の波形図である。
図3Aに示すように、デジタルカメラ1による録音中に駆動装置14が動作開始すると、駆動装置14からパルス機械音が発生し、外部音声(背景音)の音声信号にパルス機械音が雑音として混入する。パルス機械音は、振幅が瞬間的に立ち上がるパルス成分と、当該パルス成分に続く残響成分とを含む。
パルス機械音のパルス成分は、パルス機械音の発生当初に信号レベル(振幅)がパルス状に立ち上がる部分である。このパルス成分の信号レベル(振幅)の最大値が振幅最大値Aである(図3B参照。)。また、パルス幅Wは、パルス成分の時間幅であり、例えば、信号レベル(振幅)が上記振幅最大値Aから半分になるまでの時間幅である(図3C参照。)。
一方、パルス機械音の残響成分は、パルス成分に後続する特定の低周波数帯域の狭帯域信号からなる部分であり、パルス機械音の残響に応じた信号特性を有する。デジタルカメラ1の駆動装置14等から発生する駆動雑音は、デジタルカメラ1の本体の共振成分を多く含み、駆動装置14の動作開始時に上記パルス成分が発生した後に、当該パルス成分の共振成分等からなる残響成分が発生する。このようなパルス機械音の残響成分は、一般的な背景音とは異なる特定の周波数帯域、例えば200Hz以下の低周波数帯域にパワーが集中する。この残響成分を表す狭帯域信号のパワーが残響成分パワーPである。
このように、パルス機械音はパルス成分及び残響成分という特徴的な成分を含むため、これら2種類の成分を検出することができれば、パルス機械音の有無を正確に検出できる。そこで、特徴量抽出部130は、入力された音声信号から上記3つの特徴量(A,W,P)を計算する。この際、デジタル音声信号の1サンプルデータごとに特徴量を計算することは困難であるので、特徴量抽出部130は、所定量(例えば1フレーム)の音声信号のデータをバッファ(図示せず。)に保存し、当該1フレームの音声信号のデータの特徴量を計算する。ここで、音声信号の1フレームは、例えば、512サンプル又は1024サンプルなどであってよいが、かかる例に限定されず、任意のデータ数であってよい。
振幅最大値取得部131は、音声信号の1フレーム中のデータの信号レベル(振幅)の絶対値を計算し、その中から最大値を抽出することで、振幅最大値Aを求める。パルス機械音のパルス成分の音量が大きいほど、振幅最大値Aも大きくなる。パルス幅計算部132は、音声信号の信号レベル(振幅)が上記振幅最大値Aから例えば半分になるまでの時間幅を計算することで、パルス幅Wを求める。パルス機械音のパルス成分が急峻であるほど、パルス幅Wは小さくなる。
残響パワー計算部133は、特定の周波数帯域を通過させるバンドパスフィルタ(BPF)を用いて、パルス機械音の残響成分を表す狭帯域信号のパワーの値(残響成分パワーP)を計算する。例えば、残響パワー計算部133は、音声信号から200Hz以下の低周波数帯域の信号を取り出し、この信号の信号レベル値を積算することで、残響成分パワーPの値を求める。なお、残響パワー計算部133は、雑音の特性に応じて、当該200Hz以下の帯域とは異なる周波数帯域から残響成分パワーPを計算してもよい。また、残響パワー計算部133は、複数の周波数帯域から残響成分パワーPの値を計算してもよい。また、高速フーリエ変換(FFT)アルゴリズムを用いて、音声信号のパワースペクトルを算出することで、残響成分パワーPの値を計算してもよい。
上記のようにして、特徴量抽出部130により得られた3つの特徴量(振幅最大値A、パルス幅W、残響成分パワーP)は、雑音判定部140に入力される。
図2に戻り、雑音判定部140は、上記パルス機械音を表す特徴量(振幅最大値A、パルス幅W、残響成分パワーP)に基づいて、音声信号にパルス機械音が含まれるか否かを判定する。判定係数保持部150は、メモリ等の記憶装置で構成され、雑音判定部140によるパルス機械音の有無の判定に使用される判定係数を保持する。この判定係数は、デジタルカメラ1又は駆動装置14の特性、マイクロホン51と駆動装置14の位置関係等に応じて異なるため、機器ごとに発生するパルス機械音を予め学習・設定された判定係数が、判定係数保持部150に記憶される。
雑音判定部140は、特徴量抽出部130により得られた3つの特徴量からなる特徴量ベクトルx(A,W,P)と、判定係数保持部に保持された判定係数を用いて、音声信号におけるパルス機械音の有無を総合的に判定する。この雑音判定部140により、音声信号にパルス機械音が含まれているか否かが判定され、音声信号におけるパルス機械音が含まれている区間が特定される。この判定方法の詳細については後述する。
雑音低減部160は、上記雑音判定部140による判定結果に応じて、音声信号に対して雑音低減処理を行い、音声信号からパルス機械音等の雑音を除去する。具体的には、パルス機械音が含まれると判定された場合に、雑音低減部160は、当該パルス機械音が含まれる区間の音声信号に対して雑音低減処理を行う。一方、パルス機械音が含まれていないと判定された場合に、雑音低減部160は、雑音低減処理を行わない。このように、パルス機械音が含まれる場合にのみ、当該パルス機械音が含まれる区間(雑音区間)の音声信号に対して雑音低減処理を行うことで、雑音低減処理の処理効率を向上し、無駄な処理負荷を軽減できる。
この雑音低減部160による雑音低減処理方法としては、公知の任意の方法を用いることができるが、例えば次の処理方法がある。(1)雑音低減部160は、雑音区間の音量(信号レベル)を低減するゲインコントロールを行ってもよい。(2)また、雑音低減部160は、予め作成されたパルス機械音のモデル信号を、入力された実際の音声信号から減算してもよい。(3)また、雑音低減部160は、バンドストップフィルタにより、パルス機械音の周波数帯域(雑音帯域)を抑制してもよい。(4)また、雑音低減部160は、
パルス機械音が含まれる雑音区間の前後の音声信号から、当該雑音区間の背景音の信号波形を推定し、推定した信号を用いて、雑音区間の信号を補間してもよい。
信号記録部170は、上記雑音低減部160によりパルス機械音が低減されたデジタル音声信号を記録媒体(図示せず。)に記録する。記録媒体は、ハードディスク、磁気テープ等の磁気記録媒体、DVD、ブルーレイディスク等の光記録媒体、フラッシュメモリ、USBメモリ等の半導体メモリなど、任意の記録媒体であってよい。
[1.3.パルス機械音の判定方法の具体例]
次に、本実施形態に係る音声信号処理装置100の雑音判定部140によるパルス機械音の判定方法の具体例について説明する。以下では、統計的識別法を用いた判定方法と、テーブル判定を用いた判定方法を例示する。
[1.3.1.統計的識別法を用いた判定方法]
雑音判定部140は、線形識別器又は人工ニューラルネットワークなどを用いた統計的識別法により、音声信号におけるパルス機械音の有無を判定することができる。例えば、線形識別器を用いた統計的識別法では、以下の式(1)を用いて、判定値yとして上記特徴量の加重平均を計算する。
Figure 0005741281
ここで、iは、次元を表すインデックスであり、Iは、荷重係数ベクトルwの総次元数である。xは、特徴量ベクトルを表す(例えば、上記特徴量抽出部130により抽出された3つの特徴量ベクトルは、x=A、x=W、x=P、である。)。wは、予め設定される荷重(上記判定係数の一例)であり、wは判定の閾値を決める定数である。
雑音判定部140は、上記式(1)で求めた判定値yを用いて、音声信号の1フレーム中におけるパルス機械音の有無を判定する。例えば、雑音判定部140は、判定値yが所定の閾値y(例えば、y=0)以上であるか否かを判定する。この結果、雑音判定部140は、y≧yであれば、当該1フレーム中にパルス機械音が有ると判定し、y<yであれば、当該1フレーム中にパルス機械音が無いと判定する。
なお、荷重wや閾値yは、上記判定係数に相当し、判定係数保持部150に予め保持される。荷重wは、事前に収録された多数の学習用の雑音サンプルに基づいて作成される。例えば、当該多数の雑音サンプルに対して、雑音/非雑音の正解付与を行い、最急降下法又はニュートン法などの最適化法を用いることによって、雑音と非雑音の識別性能が最も高い荷重wを設定することができる。
[1.3.2.テーブル判定を用いた判定方法]
雑音判定部140は、予め設定された特徴量の閾値を表すテーブルを用いて、音声信号におけるパルス機械音の有無を判定することができる。雑音判定部140は、例えば図4に示すようなテーブル142を用いて、パルス機械音の有無を判定する。
図4に示すように、テーブル142には、各特徴量A、W、P、・・・の閾値A、W、P、・・・と、判定基準に関する情報が保存されている。例えば、振幅最大値Aの閾値Aは25000であり、実際の振幅最大値AがA超であれば、振幅最大値Aに関する判定が正(True)となるように設定されている。雑音判定部140は、特徴量抽出部130により計算された実際の振幅最大値A、パルス幅W、残響成分パワーPと、テーブル142に保持された閾値A、W、Pを比較し、各特徴量の項目について正否を判定する。図示の例では、振幅最大値A及び残響成分パワーPの項目が正(True)と判定され、パルス幅Wの項目が否(False)と判定されている。
さらに、雑音判定部140は、正判定の項目数zと、その閾値zを比較する。この結果、雑音判定部140は、z≧zであれば、音声信号の1フレーム中にパルス機械音が有ると判定し、z<zであれば、当該1フレーム中にパルス機械音が無いと判定する。例えばz=3である場合、図示の例では正と判定された項目数zが2であるので、音声信号の1フレーム中にパルス機械音が無いと判定される。
以上のような閾値A、W、P、・・・・や、正判定の項目数zの閾値z等は、上記判定係数に相当する。これらの判定係数や判定基準を含むテーブル142は、判定係数保持部150に予め保持される。テーブル142内の判定係数は、事前に収録された雑音サンプルに基づいて作成される。例えば、音声信号処理装置100の設計者は、実際のパルス機械音の特性等に応じて、これらの判定係数を任意に設定することができる。
[1.4.音声信号処理方法]
次に、図5を参照して、上記の音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図5は、本実施形態に係る音声信号処理方法を示すフローチャートである。
図5に示すように、本実施形態に係る音声信号処理装置100を具備するデジタルカメラ1による撮像及び録音中には、その周囲の外部音声がマイクロホン51により収音され、音声信号が出力される。すると、音声信号処理装置100のAD変換部120は、マイクロホン51から入力されたアナログ音声信号を、デジタル音声信号に変換する(S10)。
次いで、特徴量抽出部130は、S10でAD変換された入力音声信号を読み込み、バッファに蓄積する(S12)。そして、雑音判定処理の処理単位である1フレーム分の音声信号のデータがバッファに蓄積された後に(S14)、特徴量抽出部130は、当該1フレーム分の音声信号のデータから、パルス機械音を表す特徴量を算出する(S16)。具体的には、特徴量抽出部130は、パルス特徴量として、パルス機械音のパルス成分の振幅最大値A及びパルス幅Wを算出し、残響特徴量として、パルス機械音の残響成分パワーPを算出する。
さらに、雑音判定部140は、S16で得られた特徴量A、W、Pと、上記判定係数を用いて、入力音声信号の1フレーム中にパルス機械音が含まれるか否かを判定する(S18)。この結果、パルス機械音が含まれると判定された場合、雑音低減部160は、入力音声信号の当該1フレームに対して雑音低減処理を実行して、パルス機械音を含む雑音を除去する(S20)。その後、信号記録部170は、S20で雑音低減された音声信号を記録媒体に記録する(S22)。
一方、S18でパルス機械音が含まれないと判定された場合、雑音低減部160により入力音声信号の1フレームに対して雑音低減処理を実行することなく、信号記録部170は、当該入力音声信号の1フレームを記録媒体に記録する(S22)。
その後、デジタルカメラ1による撮像及び録音動作が終了(S24)するまで、入力音声信号の次の1フレームに対して、上記S10〜S22の処理が繰り返される。
[1.5.効果]
以上、本開示の第1の実施形態に係る音声信号処理装置100の構成と、これを用いた音声信号処理方法について説明した。本実施形態によれば、音声信号処理装置100は、マイクロホン51から入力された音声信号から、パルス機械音を表す3つの特徴量を抽出し、当該特徴量を用いてパルス機械音の有無を判定する。これにより、雑音発生源である駆動装置14の駆動制御情報を用いることなく、実際に収音された入力音声信号のみを用いて、パルス機械音の有無やその区間を正確に検出することができる。
そして、音声信号処理装置100は、音声信号のうち上記パルス機械音が検出された雑音区間のみに対して、雑音低減処理を施す。これにより、実際のパルス機械音が含まれる雑音区間に雑音低減処理区間を正確に合わせることができるので、非雑音区間で低減処理を行ったり、逆に、雑音区間で低減処理を行わなかったりすることがない。従って、音声信号の非雑音区間における音質劣化の恐れのない、高精度の雑音低減処理を実現でき、収音された外部音声(所望音)の忠実性を向上できる。
さらに、上記雑音判定処理では、音声信号の音量(信号レベル)に関する特徴量(振幅最大値A)だけでなく、パルス機械音のパルス幅Wや、パルス機械音の残響成分パワーPを用いることで、人間の耳に知覚されうるパルス機械音を高精度で検出できる。従って、雑音が人間の耳に知覚されない非雑音区間に対して雑音低減処理を実行したり、逆に、雑音が知覚される雑音区間に対して低減処理を実行しなかったりすることがない。よって、外部音声の所望音(背景音)の品質を劣化させることなく、耳障りなパルス機械音等の雑音のみを好適に除去することが可能となる。
加えて、雑音発生源である駆動装置14の駆動制御情報を使用しないので、音声信号処理装置100及びデジタルカメラ1のシステム構成を簡素化できる。また、当該駆動制御情報を使用せずに、記録された音声信号のデータのみから雑音(パルス機械音)を検出するので、音声信号記録装置による音声信号の記録時のみならず、音声信号再生装置による音声信号の再生時にも、雑音の有無の判定及び低減処理を実行できる。
<2.第2の実施の形態>
次に、本開示の第2の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第2の実施形態に係る音声信号処理装置は、残響特徴量(第2の特徴量)として、残響成分パワーPの代わりに、残響成分を表す信号の零交差回数Nを用いることを特徴としている。なお、第2の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[2.1.音声信号処理装置の機能構成]
まず、図6を参照して、第2の実施形態に係る音声信号処理装置100の機能構成について説明する。図6は、第2の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図6に示すように、音声信号処理装置100は、第1の実施形態と同様、信号入力部110と、AD変換部120と、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160と、信号記録部170とを備える。そして、特徴量抽出部130は、パルス特徴量抽出部として、第1の実施形態と同様に振幅最大値取得部131及びパルス幅計算部132を備えるが、残響特徴量抽出部として零交差回数計算部134を備えることを特徴としている。
零交差回数計算部134は、パルス機械音の残響成分を表す狭帯域信号の零交差回数Nを計算する。ここで、零交差回数Nは、当該狭帯域信号の零交差点(ゼロクロスポイント)の数である。零交差点は、音声信号の時間波形において信号値が正の値から負の値に、又は負の値から正の値に変化する点を示す。零交差点では、音声信号の信号値はゼロとなる。この零交差点の数が多いほど、音声信号がより高い周波数成分を有することになり、零交差点の数が少ないほど、音声信号がより低い周波数成分を有することになる。このように、零交差点の数は、音声信号に含まれる低周波数成分を示すパラメータとなる。
上記のように、パルス機械音の残響成分を表す狭帯域信号は、特有の低周波数帯域(例えば200Hz以下)の信号であり、通常の背景音とは周波数帯域が相違する。従って、所定区間における音声信号の零交差回数Nをカウントすれば、当該零交差回数Nにより、その区間にパルス機械音の残響成分が含まれるか否かを判定することができる。
そこで、零交差回数計算部134は、例えば、音声信号の所定区間(例えば1フレーム)から例えば200Hz以下の低周波数帯域の信号を取り出し、この信号の零交差点の数をカウントすることで、零交差回数Nを求める。そして、零交差回数計算部134は、当該零交差回数Nを残響特徴量(第2の特徴量)として雑音判定部140に出力する。
なお、零交差回数計算部134は、雑音の特性に応じて、上記200Hz以下の帯域とは異なる周波数帯域の信号の零交差回数Nを計算してもよい。また、零交差回数計算部134は、複数の周波数帯域の信号の零交差回数Nを計算してもよい。また、零交差回数計算部134は、上記零交差回数Nに代えて、零交差回数Nを音声信号の1フレーム中のサンプル数で除算した値を、残響特徴量として用いてもよい。
雑音判定部140は、上記パルス機械音を表す特徴量(振幅最大値A、パルス幅W、零交差回数N)に基づいて、音声信号にパルス機械音が含まれるか否かを判定する。このとき、雑音判定部140は、上記零交差回数計算部134により得られた零交差回数Nと、予め設定された零交差回数Nの閾値Nとを比較し、N>Nであれば、その区間における音声信号にパルス機械音の残響成分が存在すると判定する。
[2.2.パルス機械音の判定方法の具体例]
次に、第2の実施形態に係る音声信号処理装置100の雑音判定部140によるパルス機械音の判定方法の具体例について説明する。第2の実施形態でも、第1の実施形態と同様に、例えば、統計的識別法を用いた判定方法、又はテーブル判定を用いた判定方法等を用いることができる。
[2.2.1.統計的識別法を用いた判定方法]
雑音判定部140は、線形識別器又は人工ニューラルネットワークなどを用いた統計的識別法により、音声信号におけるパルス機械音の有無を判定することができる。例えば、線形識別器を用いた統計的識別法では、上述した式(1)を用いて、判定値yとして上記特徴量の加重平均を計算する。このとき、式(1)中のxとしては、上記特徴量抽出部130により抽出された3つの特徴量のベクトルである{x=(A,W,N)}を用いる。その他の点は、第1の実施形態と同様であるので、詳細説明を省略する。
[2.2.2.テーブル判定を用いた判定方法]
雑音判定部140は、予め設定された特徴量の閾値を表すテーブルを用いて、音声信号におけるパルス機械音の有無を判定することができる。雑音判定部140は、例えば図7に示すようなテーブル144を用いて、パルス機械音の有無を判定する。
図7に示すように、テーブル144には、各特徴量A、W、N、・・・の閾値A、W、N、・・・と、判定基準に関する情報が保存されている。例えば、零交差回数Nの閾値Nは50であり、実際の零交差回数NがN未満であれば、零交差回数Nに関する判定が正(True)となるように設定されている。雑音判定部140は、特徴量抽出部130により計算された実際の振幅最大値A、パルス幅W、零交差回数Nと、テーブル144に保持された閾値A、W、Nを比較し、各特徴量の項目について正否を判定する。図示の例では、振幅最大値A及び零交差回数Nの項目が正(True)と判定され、パルス幅Wの項目が否(False)と判定されている。
さらに、第1の実施形態と同様に、雑音判定部140は、正判定の項目数zと、その閾値zを比較し、その比較結果に基づいて、音声信号の1フレーム中にパルス機械音が含まれるか否かを判定する。なお、閾値A、W、N、・・・・や、正判定の項目数zの閾値z等は、パルス機械音の有無を判定するための判定係数に相当する。
[2.3.効果]
以上、本開示の第2の実施形態に係る音声信号処理装置100の構成と、これを用いた雑音判定方法について説明した。なお、音声信号処理装置100を用いた音声信号処理方法の手順は第1の実施形態と同様である(図5参照。)。
第2の実施形態によれば、残響特徴量として零交差回数Nを用いることで、パルス機械音の残響成分の有無を適切に判定できるので、音声信号にパルス機械音が含まれるか否かを正確に検出できる。従って、第2の実施形態でも、上述した第1の実施形態の効果と同様の効果が得られる。
<3.第3の実施の形態>
次に、本開示の第3の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第3の実施形態に係る音声信号処理装置は、上記3つの特徴量A、W、Pだけでなく、その他の追加特徴量(第3の特徴量)をも用いることを特徴としている。なお、第3の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[3.1.音声信号処理装置の機能構成]
まず、図8を参照して、第3の実施形態に係る音声信号処理装置100の機能構成について説明する。図8は、第3の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図8に示すように、音声信号処理装置100は、第1の実施形態と同様、信号入力部110と、AD変換部120と、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160と、信号記録部170とを備える。そして、特徴量抽出部130は、振幅最大値取得部131、パルス幅計算部132及び残響パワー計算部133に加えて、1又は2以上の追加特徴量計算部135−1〜N(Nは任意の自然数)を備えることを特徴としている。
追加特徴量計算部135−1〜N(以下、追加特徴量計算部135と総称する。)は、上記第1の実施形態で用いた基本特徴量(振幅最大値A、パルス幅W、残響成分パワーP)以外にも、追加特徴量Bをそれぞれ計算する。
ここで、追加特徴量Bは、例えば、(a)音声信号の二乗平均平方根(RMS:Root Mean Square)、(b)当該RMSの変化値、(c)上記パルス機械音の残響成分を表す狭帯域信号の振幅変化値、(d)当該狭帯域信号の零交差回数N、(e)零交差回数Nの変化値などである。追加特徴量計算部135は、これら各種の追加特徴量の一部のみを計算してもよいし、全部を計算してもよい。
(a)音声信号のRMSは、音声信号のある区間内の平均エネルギーを表し、パルス機械音のパルス成分を表すパルス特徴量に相当する。音声信号に雑音が含まれる場合には、RMSは、雑音やその近傍の音声信号のエネルギーを表すことになる。従って、音声信号にパルス機械音が含まれる場合には、そのパルス成分の区間のRMSが大きくなり、その前後のRMSが小さくなるので、当該RSMを用いて、パルス成分の有無を検出することができる。
(b)音声信号のRMSの変化値は、上記RMSの時間推移を表し、パルス機械音のパルス成分を表すパルス特徴量に相当する。このRMSの変化値によって、パルス機械音が含まれる区間とその前後の区間との間で音声信号のエネルギー変化を比較して、パルス機械音の有無をより正確に検出したり、パルス機械音のパルス成分の信号波形などを細かく分析したりすることができる。
(c)狭帯域信号の振幅変化値は、パルス機械音の残響成分の振幅の時間推移を表し、パルス機械音の残響成分を表す残響特徴量に相当する。この狭帯域信号の振幅変化値によって、パルス機械音の残響成分が含まれる区間とその前後の区間との間で音声信号の振幅変化を比較して、パルス機械音の有無をより正確に検出したり、パルス機械音の残響成分の信号波形などを細かく分析したりすることができる。
(d)狭帯域信号の零交差回数Nは、パルス機械音の残響成分のエネルギーを表し、パルス機械音の残響成分を表す残響特徴量に相当する。第2の実施形態で説明したように、零交差回数Nによって、パルス機械音の残響成分の有無をより正確に検出可能となる。
(e)零交差回数Nの変化値は、パルス機械音の残響成分を表す狭帯域信号の零交差回数Nの時間推移を表し、パルス機械音の残響成分を表す残響特徴量に相当する。この零交差回数Nの変化値によって、パルス機械音の残響成分が含まれる区間とその前後の区間との間で音声信号の零交差点の数を比較して、パルス機械音の有無をより正確に検出したり、パルス機械音の残響成分の信号波形などを細かく分析したりすることができる。
このように、追加特徴量計算部135は、各種の追加特徴量Bを算出し、算出した追加特徴量Bを雑音判定部140に出力する。雑音判定部140は、上記3つの基本特徴量(振幅最大値A、パルス幅W、残響成分パワーP)及び少なくとも1つの追加特徴量B(第1、第2及び第3の特徴量に相当する。)を用いて、パルス機械音の有無を判定する。
[3.2.パルス機械音の判定方法の具体例]
次に、第3の実施形態に係る音声信号処理装置100の雑音判定部140によるパルス機械音の判定方法の具体例について説明する。第3の実施形態でも、第1の実施形態と同様に、例えば、統計的識別法を用いた判定方法、又はテーブル判定を用いた判定方法等を用いることができる。
[3.2.1.統計的識別法を用いた判定方法]
統計的識別法を用いた判定方法では、上記式(1)中のxとして、上記3つの基本特徴量A、W、Pと、少なくとも1つの追加特徴量Bを含む4以上の特徴量のベクトルx=(A,W,P,B,B,・・・,B )を用いる。その他の点は、第1の実施形態と同様であるので、詳細説明を省略する。
なお、各々の特徴量の重要度や、パルス機械音の特性に応じて、式(1)における各特徴量の荷重wを変更してもよい。例えば、追加特徴量Bの荷重wよりも基本特徴量A、W、Pの荷重wを大きくしてもよい。また、複数の追加特徴量B、B、・・・、Bを用いる場合には、重要な追加特徴量B(例えば零交差回数N)ほど、荷重wを大きくしてもよい。これにより、パルス機械音の有無の判定精度を向上することができる。
[3.2.2.テーブル判定を用いた判定方法]
また、テーブル判定を用いた判定方法では、第1の実施形態と同様に、予め設定された特徴量の閾値を表すテーブル(図4参照。)を用いて、音声信号におけるパルス機械音の有無を判定する。このテーブルには、各特徴量A、W、P、B、B、・・・、Bの閾値A、W 、B1_0、B2_0、・・・、BN_0と、判定基準に関する情報が保存されている。雑音判定部140は、実際の特徴量A、W、P、B、B、・・・、Bと、テーブル142に保持された閾値A、W 、B1_0、B2_0、・・・、BN_0をそれぞれ比較し、各特徴量の項目について正否を判定する。さらに、雑音判定部140は、正判定の項目数zと、その閾値zを比較し、その比較結果に基づいて、音声信号の1フレーム中にパルス機械音が含まれるか否かを判定する。この判定方法は、第1の実施形態と同様であるので、詳細説明を省略する。
[3.3.効果]
以上、本開示の第3の実施形態に係る音声信号処理装置100の構成と、これを用いた雑音判定方法について説明した。なお、音声信号処理装置100を用いた音声信号処理方法の手順は第1の実施形態と同様である(図5参照。)。
第3の実施形態によれば、基本特徴量A、W、Pに加えて、追加特徴量Bを用いて、パルス機械音の有無を判定する。従って、第3の実施形態では、上述した第1の実施形態の効果に加え、パルス機械音の有無をより高精度で検出でき、パルス機械音の信号波形等もより正確に検出できる効果がある。
なお、上記第3の実施形態では、基本特徴量として残響成分パワーPを用い、追加特徴量として零交差回数Nを用いる例を説明したが、本技術はかかる例に限定されない。例えば、基本特徴量として、残響成分パワーPに代えて零交差回数N又はその変化値等を用い、追加特徴量として残響成分パワーP又はその変化値等を用いてもよい。
<4.第4の実施の形態>
次に、本開示の第4の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第4の実施形態に係る音声信号処理装置は、音声信号の複数の区間から複数の特徴量を抽出し、当該複数の特徴量に基づいて、パルス機械音の有無を判定することを特徴としている。この際、上記複数の特徴量を演算し(例えば、加算和又は平均値を計算し)、この演算値を新たな特徴量として用いて、パルス機械音の有無を判定してもよい。なお、第4の実施形態のその他の機能構成は、上記第1又は第3の実施形態と実質的に同一であるので、その詳細説明は省略する。
[4.1.音声信号処理装置の機能構成]
まず、図9を参照して、第4の実施形態に係る音声信号処理装置100の機能構成について説明する。図9は、第4の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図9に示すように、音声信号処理装置100は、第1の実施形態と同様、信号入力部110と、AD変換部120と、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160と、信号記録部170とを備える。さらに、音声信号処理装置100は、特徴量抽出部130及び雑音判定部140に接続された特徴量保持部152を備えることを特徴としている。
第4の実施形態では、特徴量抽出部130は、特徴量を計算するための音声信号の区間(フレーム)を任意の位置に設定可能である。そして、特徴量抽出部130は、音声信号の任意の位置にある複数の区間(複数のフレーム)からそれぞれ特徴量を算出し、雑音判定部140に出力する。雑音判定部140は、当該複数の特徴量を特徴量保持部152に保存する。特徴量保持部152は、半導体メモリ等の記憶装置からなり、特徴量抽出部130により算出された特徴量を一時的に保持する。特徴量抽出部130が特徴量を保持する期間は任意であり、記憶データ量を抑制するために、古い特徴量のデータを順次削除してもよい。
なお、特徴量抽出部130は、上記各種の特徴量(例えば、振幅最大値A、パルス幅W、残響成分パワーP及び追加特徴量B)の全てについて、音声信号の複数の区間から計算してもよい。或いは、特徴量抽出部130は、ある特徴量(例えば、振幅最大値A及びパルス幅W)については、音声信号の複数の区間から計算し、他の特徴量(例えば、残響成分パワーP及び追加特徴量B)については、音声信号の1つの区間から計算してもよい。
このようにして、音声信号の複数の区間(フレーム)からそれぞれ算出した特徴量は、特徴量保持部152に保持される。雑音判定部140は、音声信号の複数の区間から算出した特徴量を特徴量保持部152から読み出し、当該複数の特徴量に基づいて、パルス機械音の有無を判定する。この際、雑音判定部140は、当該複数の特徴量の加算和又は平均値等を演算し、当該演算値に基づいて、パルス機械音の有無を判定してもよい。
なお、第4の実施形態でも、第1の実施形態と同様に、雑音判定部140によりパルス機械音の有無を判定するために、例えば、統計的識別法を用いた判定方法、又はテーブル判定を用いた判定方法等を用いればよい。これらの判定方法は、上記第1又は第3の実施形態と同様であるので、詳細説明を省略する。
[4.2.効果]
以上、本開示の第4の実施形態に係る音声信号処理装置100の構成について説明した。なお、音声信号処理装置100を用いた音声信号処理方法の手順は第1の実施形態と同様である(図5参照。)。
第4の実施形態によれば、音声信号の複数の区間から算出した複数の特徴量を用いて、パルス機械音の有無を判定する。特に、これら複数の特徴量の加算和又は平均値等を演算することで、当該演算値を新たな特徴量とし、当該特徴量に基づいてパルス機械音の有無を判定することが好ましい。
これにより、判定の安定性を高めて、判定精度を向上できる。例えば、音声信号にパルス機械音以外の他の雑音が含まれるときや、背景音が変化するときなどには、音声信号の1つの区間からのみでは、適正な特徴量を算出できない場合もありうる。これに対し、本実施形態のように複数の区間の音声信号から複数の特徴量を算出して演算することにより、音声信号の異常値や特異値の影響を抑制できる。従って、適正な特徴量を安定的に算出できるので、パルス機械音の有無の判定精度を向上できる。
なお、上記第4の実施形態では、特徴量抽出部130の後段に特徴量保持部152を設け、計算後の特徴量を保持する構成であったが、本技術はかかる例に限定されない。例えば、特徴量抽出部130の前段に、AD変換後の音声信号の一定区間のデータを保持する信号保持部を設け、特徴量抽出部130は、当該信号保持部から音声信号の任意の区間のデータを読み出すことで、音声信号の複数の区間の特徴量を算出してもよい。これによっても、雑音判定部140は、音声信号の複数の区間の特徴量に基づいて、パルス機械音の有無を判定することが可能となる。
<5.第5の実施の形態>
次に、本開示の第5の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第5の実施形態に係る音声信号処理装置は、パルス機械音の発生源である駆動装置14の制御信号を取得し、駆動装置14の駆動期間中にだけ、上記特徴量抽出処理と雑音判定処理を行うことを特徴としている。なお、第5の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[5.1.音声信号処理装置の機能構成]
まず、図10を参照して、第5の実施形態に係る音声信号処理装置100の機能構成について説明する。図10は、第5の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図10に示すように、音声信号処理装置100は、第1の実施形態と同様、信号入力部110と、AD変換部120と、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160と、信号記録部170とを備える。さらに、音声信号処理装置100は、特徴量抽出部130に接続された制御信号取得部180を備えることを特徴としている。
パルス機械音の発生源である駆動装置14は、デジタルカメラ1の制御部70(図1参照。)が生成する制御信号により制御される。この制御信号は、駆動装置14の駆動を制御するための駆動制御情報に相当し、例えば、デジタルカメラ1のズームモータ15又はフォーカスモータ16等を駆動させるための制御信号である。この制御信号により、駆動装置14の駆動の有無を判断し、当該駆動装置14からパルス機械音が発生し得る期間を検出することができる。
駆動装置14が動作していないとき(非駆動期間)には、パルス機械音が発生することがないので、上述した特徴量抽出処理や雑音判定処理を実行する必要がない。一方、駆動装置14が動作しているとき(駆動期間)には、パルス機械音が発生するので、上述した特徴量抽出処理や雑音判定処理を実行する必要がある。そこで、制御信号を取得して駆動装置14の駆動期間を検出できれば、その駆動期間にのみこれらの処理を実行することで、演算量を節減することが可能となる。
そこで、第5の実施形態に係る音声信号処理装置100は、制御部70等から上記制御信号を取得して、当該制御信号に基づいて、駆動装置14の駆動期間にのみ前述した特徴量抽出処理及び雑音判定処理を実行する。詳細には、図10に示すように、音声信号処理装置100は、駆動装置14を制御するための制御信号を取得する制御信号取得部180を備える。この制御信号取得部180は、上記制御部70から送信された制御信号を受信して、特徴量抽出部130に出力する。
特徴量抽出部130は、不図示のバッファメモリ等の記憶部を具備しており、マイクロホン51から入力される音声信号をバッファリングしている。また、特徴量抽出部130は、制御信号取得部180により制御信号を取得したか否かを監視している。そして、特徴量抽出部130は、駆動装置14の駆動開始を表す制御信号が取得された場合に、バッファメモリに保存された音声信号を読み出して、上記各種の特徴量を算出する処理を実行開始し、その後、駆動装置14の駆動終了を表す制御信号が取得された場合に、当該処理の実行を終了する。このように、特徴量抽出部130は、制御信号を用いて、駆動装置14が駆動する期間を判断しており、当該駆動装置14の駆動期間にのみ特徴量抽出処理を実行する。同様に、雑音判定部140も、制御信号により駆動装置14の駆動期間を判断しており、当該駆動装置14の駆動期間にのみ、上記特徴量抽出部130から得られる特徴量を用いて、上述した雑音判定処理を実行する。
[5.2.音声信号処理方法]
次に、図11を参照して、第5の実施形態に係る音声信号処理装置100を用いた音声信号処理方法(機械音低減方法)について説明する。図11は、本実施形態に係る音声信号処理方法を示すフローチャートである。
図11に示すように、第5の実施形態に係る音声信号処理装置100は、まず、マイクロホン51から入力された音声信号をAD変換し(S10)、バッファに蓄積する(S12)。このS10〜S12の処理は第1の実施形態と同様である。
次いで、雑音判定処理の処理単位である1フレーム分の音声信号のデータがバッファに蓄積された後に(S14)、特徴量抽出部130は、雑音発生源である駆動装置14が動作中であるか否か、即ち、駆動期間であるか否かを判断する(S15)。例えば、S15にて、特徴量抽出部130は、デジタルカメラ1本体の制御部70から、駆動装置14の制御信号を受信しているか否かに基づいて、駆動期間であるか否かを判定する。制御信号を受信している期間は、駆動装置14が動作しており、駆動期間であり、一方、制御信号を受信していない期間は、駆動装置14が動作しておらず、駆動期間でないと判定する。
この結果、駆動装置14の駆動期間であると判定された場合には、第1の実施形態と同様に、特徴量抽出部130は、上記入力音声信号の1フレーム分の音声信号のデータから、パルス機械音を表す特徴量を算出し(S16)、雑音判定部140は、S16で得られた特徴量A、W、Pと、上記判定係数を用いて、当該1フレーム中にパルス機械音が含まれるか否かを判定する(S18)。この結果、パルス機械音が含まれると判定された場合、雑音低減部160は、入力音声信号の当該1フレームに対して雑音低減処理を実行して、パルス機械音を含む雑音を除去する(S20)。その後、信号記録部170は、S20で雑音低減された音声信号を記録媒体に記録する(S22)。
一方、S15で駆動装置14の駆動期間でないと判定された場合には、第1の実施形態とは異なり、雑音判定部140による特徴量の算出処理や、雑音判定部140によるパルス機械音の有無の判定処理を行わない。そして、信号記録部170は、入力音声信号をそのまま記録媒体に記録する(S22)。
その後、デジタルカメラ1による撮像及び録音動作が終了(S24)するまで、入力音声信号の次の1フレームに対して、上記S10〜S22の処理が繰り返される。
[5.3.効果]
以上、本開示の第5の実施形態に係る音声信号処理装置100の構成と、それを用いた音声信号処理方法について説明した。
第5の実施形態によれば、駆動装置14の制御情報を用いて、駆動装置14の駆動の有無を判定し、駆動装置14の動作期間にのみ、特徴量抽出処理及び雑音判定処理を実行する。これにより、駆動装置14の非駆動期間中には、これらの演算処理を行わなくてすむので、その分の演算量を節減することができる。特に、デジタルカメラ1の撮像動作期間中に、ズームモータ15等の駆動装置14が頻繁に動作することは稀であり、撮像動作期間全体のうち、駆動装置14の動作期間は僅かな時間に限られる。従って、上記の処理を駆動期間にのみ実施し、非駆動期間に実施しないことで、演算量を大幅に削減可能である。
また、駆動装置14の非駆動期間に上記処理を行うことで、パルス機械音が存在しないのに存在すると判定してしまう雑音判定エラーが生じる恐れがある。しかし、第5の実施形態によれば、かかる雑音判定エラーも低減できるので、原音に忠実な高品質な音声信号を記録することができる。
<6.第6の実施の形態>
次に、本開示の第6の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第6の実施形態に係る音声信号処理装置は、雑音発生源である駆動装置14の特性に応じて上記判定係数を変更し、当該判定係数及び特徴量を用いて、当該駆動装置14に特有のパルス機械音の有無を判定することを特徴としている。なお、第6の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[6.1.雑音判定方法の概要]
上記パルス機械音の特性は、当該パルス機械音を発生させる発音部(駆動装置14等)の特性に応じて変化する。例えば、一眼レフカメラ等では、カメラ本体に対して複数種類の交換式のレンズ装置(例えば、図1の撮像部10に相当する。)を着脱可能である。この場合、装着されるレンズ装置の特性(例えば、レンズを駆動させる駆動装置14の種類、配置等)に応じて、デジタルカメラ1で収音されるパルス機械音の特性が変化する。従って、デジタルカメラ1に実際に装着されたレンズ装置の特性に応じて、上述した雑音判定処理に用いる各種の係数、テーブル、特徴量の閾値等のパラメータ(以下「判定係数」という。)を設定することが好ましい。
そこで、第6の実施形態では、交換式のレンズ装置ごとに、当該各レンズ装置の特性に対応する判定係数を予め設定しておく。そして、実際の雑音判定処理では、デジタルカメラ1に装着されたレンズ装置に対応する判定係数を用いて、当該レンズ装置に特有の雑音(パルス機械音)が、入力音声信号に含まれるか否かを判定する。このように、雑音判定に用いる判定係数を変更可能とすることで、各レンズ装置に特有の雑音を高精度で検出可能となる。
ここで、判定係数は、パルス機械音の有無を判定するために用いられるパラメータである。例えば、判定係数は、上述した統計的識別法における数式(1)中の荷重w、w、閾値yや、テーブル判定方法におけるテーブル142(図4等参照。)中の各特徴量の閾値A、W、P・・・、判定の項目数zの閾値zなどを含む。各種のレンズ装置の駆動装置14から発生するパルス機械音を事前に分析し、この分析結果に応じて上記各種の判定係数を設定しておけば、レンズ装置ごとに適切な雑音低減処理を実現できる。
[6.2.音声信号処理装置の機能構成]
次に、図12を参照して、第6の実施形態に係る音声信号処理装置100の機能構成について説明する。図12は、第6の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図12に示すように、音声信号処理装置100は、第1の実施形態と同様、信号入力部110と、AD変換部120と、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160と、信号記録部170とを備える。さらに、音声信号処理装置100は、複数の判定係数の中から、デジタルカメラ1に接続されたレンズ装置に対応する判定係数を選択する判定係数選択部154を備えることを特徴としている。
判定係数選択部154は、各種のレンズ装置ごとに予め設定された複数の判定係数を保持する。この判定係数選択部154に保持されている判定係数は、当該各レンズ装置の駆動装置14の特性や、当該駆動装置14が発生するパルス機械音の特性に応じて、予め設定されている。パルス機械音のパルス成分の振幅最大値やパルス幅、残響成分の周波数帯域、零交差回数等は、レンズ装置ごとに相異なる。そこで、各レンズ装置で発生するパルス機械音に特有のパルス成分や残響成分の特性に合わせて、判定係数の値が設定される。また、判定係数選択部154は、これらの各レンズ装置に対応する判定係数を、当該各レンズ装置の識別情報に関連づけて保持している。
また、判定係数選択部154は、実際にデジタルカメラ1に接続された1つのレンズ装置を表す情報(接続レンズ情報)を、当該レンズ装置又は制御部70等から取得する。この接続レンズ情報は、レンズ装置の種類ごとに固有に付与される識別情報(例えば、レンズ装置の型番、名称等)である。判定係数選択部154は、当該接続レンズ情報に基づいて、デジタルカメラ1に接続されたレンズ装置を特定し、判定係数保持部150に保持されている複数の判定係数の中から、当該レンズ装置に対応する1つの判定係数を選択する。
そして、雑音判定部140は、判定係数選択部154により選択された判定係数と、特徴量抽出部130により得られた特徴量とを用いて、上記雑音判定処理を行い、当該レンズ装置に特有のパルス機械音の有無を判定する。この雑音判定処理では、上記第1の実施形態と同様に、例えば、統計的識別法を用いた判定方法、又はテーブル判定を用いた判定方法等を用いることができる。
このように図12に示す構成例では、音声信号処理装置100内の判定係数保持部150に、デジタルカメラ1に装着可能な複数種類の交換式レンズ装置にそれぞれ対応する複数の判定係数を予め保持しておく。そして、実際の雑音判定処理時には、判定係数保持部150内の複数の判定係数の中から、デジタルカメラ1に実際に装着された1つのレンズ装置に対応する判定係数を選択し、雑音判定処理に利用する。
[6.3.音声信号処理装置の変更例]
次に、図13を参照して、第6の実施形態に係る音声信号処理装置100の変更例について説明する。図13は、第6の実施形態に係る音声信号処理装置100の変更例を示すブロック図である。
図13に示す例では、音声信号処理装置100は、上記図12の例のような判定係数保持部150及び判定係数選択部154を備えておらず、雑音判定に必要な判定係数は、音声信号処理装置100内ではなく、各々の交換式レンズ装置156A〜156N内に保持されている。この各レンズ装置156A〜156Nに保持されている判定係数は、上記と同様に、当該各レンズ装置156A〜156Nの特性や、そのパルス機械音の特性等に応じて予め設定されている。
そして、デジタルカメラ1にレンズ装置156Aが接続されたときには、音声信号処理装置100の雑音判定部140は、当該レンズ装置156Aから、当該レンズ装置156Aに対応する判定係数を取得する。例えば、デジタルカメラ1の制御部70がレンズ装置156Aの識別情報とともに判定係数を取得し、雑音判定部140は、当該制御部70から送信された判定係数を受信する。さらに、雑音判定部140は、上記接続されたレンズ装置156Aから取得した判定係数と、特徴量抽出部130により得られた特徴量を用いて、当該レンズ装置156Aに特有のパルス機械音の有無を判定する。
このように、図13の構成例では、雑音判定に必要な判定係数を各々のレンズ装置156内に保持しておく。そして、実際の雑音判定処理時には、デジタルカメラ1に実際に接続されたレンズ装置156Aから判定係数を取得して、雑音判定処理に利用する。
[6.4.効果]
以上、本開示の第6の実施形態に係る音声信号処理装置100の構成について説明した。なお、音声信号処理装置100を用いた音声信号処理方法の手順は第1の実施形態と同様である(図5参照。)。
第6の実施形態によれば、デジタルカメラ1に接続される交換式のレンズ装置の特性に応じて、雑音判定処理に用いる判定係数を変更する。これにより、当該接続されたレンズ装置に特有のパルス機械音を高精度で判定及び検出できるので、雑音低減精度を大幅に向上できる。特に、一眼レフカメラなど、相異なる種類のレンズ装置を装着可能な機器では、レンズ装置ごとに異なるパルス機械音を適切に低減した上で、高品質の背景音を記録できる。
さらに、図12の示した例では、音声信号処理装置100自身の判定係数保持部150に、相異なる複数のレンズ装置に対応する判定係数を保持することで、これらレンズ装置の全てから発生するパルス機械音に柔軟に対応可能となる。また、判定係数保持部150に保持される判定係数を更新(追加、削除又は変更)することで、新たなタイプのレンズ装置にも対応可能なる。
さらに、図13の示した例では、各レンズ装置に適切な判定係数を保持させ、デジタルカメラ1に接続されたレンズ装置から判定係数を取得する。これにより、新たなタイプのレンズ装置156に対しても,既存のデジタルカメラ1に搭載された音声信号処理装置100の記憶部(ROM等)に保持された判定係数を書き替えることなく、図12と同様に、レンズ装置ごとに判定係数を変更することが可能にある。このように、図13の例では、既存のデジタルカメラ1の内部情報を更新せずとも、交換式レンズ装置156の追加、削除又は変更等に柔軟に対応できるという利点がある。
なお、上記説明では、デジタルカメラ1に交換式のレンズ装置を着脱する場合に、判定係数を変更する例について説明したが、本技術はかかる例に限定されない。例えば、音声信号処理装置が搭載される機器に、相異なる特性のパルス機械音を発生させる複数の発音部(複数の駆動装置14等)が存在する場合や、当該機器に当該複数の発音部を選択的に着脱する場合などにも、上記と同様にして判定係数を変更すればよい。
<7.第7の実施の形態>
次に、本開示の第7の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。上記では、音声信号処理装置100をデジタルカメラ1等の記録装置に設け、音声信号の記録時に雑音低減する例について説明した。これに対し、第7の実施形態では、音声信号処理装置を再生装置に設け、記録された音声信号の再生時に雑音低減することを特徴としている。なお、第7の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[7.1.音声信号処理装置の機能構成]
次に、図14を参照して、第7の実施形態に係る音声信号処理装置100の機能構成について説明する。図14は、第7の実施形態に係る音声信号処理装置100の機能構成を示すブロック図である。
図14に示すように、音声信号処理装置100は、信号記録部190及び信号再生部200を備える再生装置に適用され、信号記録部190から読み出された再生対象の音声信号に対して、特徴量抽出、雑音判定、雑音低減等の各種処理を実行することを特徴としている。音声信号処理装置100は、第1の実施形態と同様、特徴量抽出部130と、雑音判定部140と、判定係数保持部150と、雑音低減部160とを備える。さらに、音声信号処理装置100は、信号記録部190から、再生対象の音声信号を取得する信号取得部192を備える。
信号記録部190は、ハードディスク、光ディスク、半導体メモリ、テープ等の記録媒体(図示せず。)を具備している。この記録媒体には、上記デジタルカメラ1等による撮像・録音時に、音声信号のデータが記録されている。なお、ズームモータ15又はフォーカスモータ16等の制御信号は、音声信号に関連付けて保存される必要はない。
そして、信号記録部190は、不図示の制御部からの指示に基づき、再生対象の音声信号を記録媒体から読み出す。信号取得部192は、信号記録部190から、再生対象の音声信号のデータを取得して、特徴量抽出部130及び雑音低減部160に出力する。このとき、信号取得部192は、例えば、512サンプル又は1024サンプル程度の区間のデータを、1フレームとして取得する
その後、上記第1の実施形態と同様にして、特徴量抽出部130による特徴量の算出処理、雑音判定部140による雑音判定処理が行われる。この際、雑音判定に用いる判定係数は、判定係数保持部150に保持されていてもよいし、信号記録部190の記録媒体中に音声信号に関連づけて記録されていてもよい。
上記の判定結果、再生対象の音声信号にパルス機械音が含まれていると判定された場合には、雑音低減部160により、音声信号からパルス機械音が低減される。かかるパルス機械音の低減後の音声信号は、信号再生部200に出力される。信号再生部200は、例えば、スピーカ、又はヘッドホンア等の音声再生装置で構成され、上記雑音が低減された音声信号を再生する。
[7.2.効果]
以上、本開示の第7の実施形態に係る音声信号処理装置100の構成について説明した。なお、音声信号処理装置100を用いた音声信号処理方法の手順は第1の実施形態と同様である(図5参照。)。ただし、第7の実施形態では、音声再生時に雑音低減を行うため、図5のAD変換処理(S10)は不要であり、S22では音声信号を再生し、再生対象の全ての音声信号のデータの再生が終了するまで(S24)、S12〜S22の処理を繰り返す。
第7の実施形態によれば、音声信号の記録時(撮像時、録音時等)だけでなく,記録された音声信号を再生するときにも、再生対象の音声信号に含まれるパルス機械音を適切に低減することができる。
<8.まとめ>
以上、本開示の好適な実施形態に係る音声信号処理装置及び音声信号処理方法について説明した。本実施形態によれば、駆動装置14の動作開始又は終了時にパルス機械音が発生した場合であっても、マイクロホン51により収音された音声信号から、当該パルス機械音とその区間(雑音区間)を高精度で検出することができる。そして、検出された雑音区間に雑音低減処理を施すことにより,非雑音区間における音質劣化の恐れのない、高品質な音声を提供することができる。
この際、駆動装置14の制御信号を用いずとも、実際に入力された音声信号のみを用いてパルス機械音を検出できる。従って、実際にパルス機械音が含まれる雑音区間と、雑音低減処理区間とを正確に合わせて、雑音低減処理を実現できる。よって、上述した制御信号と雑音区間の間の遅延による雑音低減精度の低下、音質の劣化の問題を解消できる。
さらに、パルス機械音に特有の各種の特徴量(振幅最大値A、パルス幅W、残響成分パワーP、零交差回数N等)を組み合わせて、総合的にパルス機械音の有無を判定することにより、人間の耳に知覚されるパルス機械音を正確に検出できる。従って、人間の耳に雑音が知覚されない非雑音区間において低減処理を行ったり,雑音が知覚される雑音区間において低減処理を行わないといった不具合を解消でき、高精度の雑音低減処理を実現できる。
また、駆動装置14の駆動制御情報(制御信号)を使用せずに、音声信号のみからパルス機械音を判定できるので、音声信号処理装置100が適用される機器のシステム構成を簡素化できる。また、音声信号の収音・記録時のみならず、記録媒体に記録された音声信号の再生時にも、雑音の有無の判定及び低減処理を実行できる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では主に、音声信号処理装置としてデジタルカメラ1を例示し、動画撮像と共に録音する時に機械音を低減する例について説明したが、本技術はかかる例に限定されない。本技術の音声信号処理装置は、各種の音声信号記録装置又は音声信号再生装置等の電子機器に適用できる。例えば、音声信号処理装置は、記録再生装置(例えば、ブルーレイディスク/DVDレコーダ)、テレビジョン受像器、システムステレオ装置、撮像装置(例えば、デジタルカメラ、デジタルビデオカメラ)、携帯端末(例えば、携帯型音楽/映像プレーヤ、携帯型ゲーム機、ICレコーダ)、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ATM、キオスク端末など、任意の電子機器に適用できる。
なお、本技術は以下のような構成も取ることができる。
(1)収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出する特徴量抽出部と、
前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する雑音判定部と、
を備える、音声信号処理装置。
(2)前記発音部は、前記収音部と同一の筐体に設けられた駆動装置であり、
前記作動音は、前記駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音である、前記(1)に記載の音声信号処理装置。
(3)前記特徴量抽出部は、前記特徴量として、前記作動音のパルス成分を表す第1の特徴量と、前記作動音の残響成分を表す第2の特徴量とを抽出し、
前記雑音判定部は、前記第1及び第2の特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する、前記(1)又は(2)に記載の音声信号処理装置。
(4)前記第1の特徴量は、前記作動音のパルス成分の振幅最大値及びパルス幅を含み、
前記第2の特徴量は、前記作動音の残響成分を表す狭帯域信号のパワーを含む、前記(3)に記載の音声信号処理装置。
(5)前記第1の特徴量は、前記作動音のパルス成分の振幅最大値及びパルス幅を含み、
前記第2の特徴量は、前記作動音の残響成分を表す狭帯域信号の零交差回数を含む、前記(3)に記載の音声信号処理装置。
(6)前記特徴量抽出部は、前記特徴量として、前記音声信号のRMS、前記RMSの変化値、前記作動音の残響成分を表す狭帯域信号の振幅変化値、前記狭帯域信号の零交差回数、又は前記零交差回数の変化値のうち一部又は全部を含む第3の特徴量をさらに抽出し、
前記雑音判定部は、前記第1、第2及び第3の特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する、前記(3)〜(5)のいずれか一項に記載の音声信号処理装置。
(7)前記特徴量抽出部は、前記音声信号の複数の区間から複数の前記特徴量を抽出し、
前記雑音判定部は、前記複数の区間から抽出された前記複数の特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する、前記(1)〜(6)のいずれか一項に記載の音声信号処理装置。
(8)前記駆動装置を制御するための制御信号を取得する制御信号取得部をさらに含み、
前記制御信号に基づいて前記駆動装置の駆動期間を判断し、前記駆動装置の駆動期間中にのみ、前記特徴量抽出部による前記特徴量の抽出処理と、前記雑音判定部による判定処理を実行する、前記(2)に記載の音声信号処理装置。
(9)前記雑音判定部は、
前記発音部の特性に応じて設定された判定係数、及び前記特徴量を用いて、前記発音部に特有の前記作動音が前記音声信号に含まれるか否かを判定する、前記(1)〜(8)のいずれか一項に記載に記載の音声信号処理装置。
(10)前記音声信号処理装置は、撮像装置に設けられ、
前記発音部は、前記撮像装置の本体に着脱可能な交換式のレンズ装置であり、
前記音声信号処理装置は、
前記レンズ装置ごとに設定された複数の判定係数を保持する判定係数保持部と、
前記撮像装置に接続された前記レンズ装置を表す情報に基づいて、前記複数の判定係数の中から当該レンズ装置に対応する判定係数を選択する判定係数選択部と、
を更に備え、
前記雑音判定部は、
前記判定係数選択部により選択された前記判定係数、及び前記特徴量を用いて、前記撮像装置に接続された前記レンズ装置に特有の前記作動音が前記音声信号に含まれるか否かを判定する、前記(9)に記載に記載の音声信号処理装置。
(11)前記音声信号処理装置は、撮像装置に設けられ、
前記発音部は、前記撮像装置の本体に着脱可能な交換式のレンズ装置であり、
前記レンズ装置は、当該レンズ装置の特性に応じて設定された判定係数を保持しており、
前記雑音判定部は、前記撮像装置に接続された前記レンズ装置から前記判定係数を取得し、前記取得した判定係数及び前記特徴量を用いて、前記撮像装置に接続された前記レンズ装置に特有の前記作動音が前記音声信号に含まれるか否かを判定する、前記(9)に記載に記載の音声信号処理装置。
(12)前記音声信号処理装置は、前記音声信号を再生する再生装置に設けられ、
前記特徴量抽出部は、前記音声信号の再生時に前記音声信号から前記特徴量を抽出し、
前記雑音判定部は、前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する、前記(1)〜(9)のいずれか一項に記載に記載の音声信号処理装置。
(13)外部音声を音声信号に変換する収音部と、
前記収音部と同一の筐体に設けられ、パルス状の作動音を発生させる発音部と、
前記収音部から出力された前記音声信号から、前記作動音を表す特徴量を抽出する特徴量抽出部と、
前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定する雑音判定部と、
前記雑音判定部により前記作動音が含まれると判定された場合に、前記音声信号に対して雑音低減処理を行う雑音低減部と、
を備える、撮像装置。
(14)収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出することと、
前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定することと、
を含む、音声信号処理方法。
(15)収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出することと、
前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定することと、
をコンピュータに実行させるためのプログラム。
(16)収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた発音部から発生するパルス状の作動音を表す特徴量を抽出することと、
前記特徴量に基づいて、前記音声信号に前記作動音が含まれるか否かを判定することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
1 デジタルカメラ
2 筐体
3 レンズ部
10 撮像部
14 駆動装置
15 ズームモータ
16 フォーカスモータ
51 マイクロホン
60 音声信号処理部
70 制御部
100 音声信号処理装置
110 信号入力部
120 AD変換部
130 特徴量抽出部
131 振幅最大値取得部
132 パルス幅計算部
133 残響パワー計算部
134 零交差回数計算部
135 追加特徴量計算部
140 雑音判定部
142、144 テーブル
150 判定係数保持部
152 特徴量保持部
154 判定係数選択部
156 レンズ装置
160 雑音低減部
170、190 信号記録部
180 制御信号取得部
192 信号取得部
200 信号再生部

Claims (14)

  1. 収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音を表す特徴量を抽出する特徴量抽出部と、
    前記特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する雑音判定部と、
    を備え、
    前記特徴量抽出部は、前記特徴量として、前記パルス状の機械駆動音のパルス成分を表す第1の特徴量と、前記パルス状の機械駆動音の残響成分を表す第2の特徴量とを抽出し、
    前記雑音判定部は、前記第1及び第2の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する、音声信号処理装置。
  2. 前記第1の特徴量は、前記パルス状の機械駆動音のパルス成分の振幅最大値及びパルス幅を含み、
    前記第2の特徴量は、前記パルス状の機械駆動音の残響成分を表す狭帯域信号のパワーを含む、請求項に記載の音声信号処理装置。
  3. 前記第1の特徴量は、前記パルス状の機械駆動音のパルス成分の振幅最大値及びパルス幅を含み、
    前記第2の特徴量は、前記パルス状の機械駆動音の残響成分を表す狭帯域信号の零交差回数を含む、請求項に記載の音声信号処理装置。
  4. 前記特徴量抽出部は、前記特徴量として、前記音声信号のRMS、前記RMSの変化値、前記パルス状の機械駆動音の残響成分を表す狭帯域信号の振幅変化値、又は前記狭帯域信号の零交差回数の変化値のうち一部又は全部を含む第3の特徴量をさらに抽出し、
    前記雑音判定部は、前記第1、第2及び第3の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する、請求項のいずれか一項に記載の音声信号処理装置。
  5. 前記特徴量抽出部は、前記音声信号の複数の区間から複数の前記特徴量を抽出し、
    前記雑音判定部は、前記複数の区間から抽出された前記複数の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する、請求項1〜のいずれか一項に記載の音声信号処理装置。
  6. 前記駆動装置を制御するための制御信号を取得する制御信号取得部をさらに含み、
    前記制御信号に基づいて前記駆動装置の駆動期間を判断し、前記駆動装置の駆動期間中にのみ、前記特徴量抽出部による前記特徴量の抽出処理と、前記雑音判定部による判定処理を実行する、請求項に記載の音声信号処理装置。
  7. 前記雑音判定部は、
    前記駆動装置の特性に応じて設定された判定係数、及び前記特徴量を用いて、前記駆動装置に特有の前記パルス状の機械駆動音が前記音声信号に含まれるか否かを判定する、請求項1〜のいずれか一項に記載に記載の音声信号処理装置。
  8. 前記音声信号処理装置は、撮像装置に設けられ、
    前記駆動装置は、前記撮像装置の本体に着脱可能な交換式のレンズ装置であり、
    前記音声信号処理装置は、
    前記レンズ装置ごとに設定された複数の判定係数を保持する判定係数保持部と、
    前記撮像装置に接続された前記レンズ装置を表す情報に基づいて、前記複数の判定係数の中から当該レンズ装置に対応する判定係数を選択する判定係数選択部と、
    を更に備え、
    前記雑音判定部は、
    前記判定係数選択部により選択された前記判定係数、及び前記特徴量を用いて、前記撮像装置に接続された前記レンズ装置に特有の前記パルス状の機械駆動音が前記音声信号に含まれるか否かを判定する、請求項に記載に記載の音声信号処理装置。
  9. 前記音声信号処理装置は、撮像装置に設けられ、
    前記駆動装置は、前記撮像装置の本体に着脱可能な交換式のレンズ装置であり、
    前記レンズ装置は、当該レンズ装置の特性に応じて設定された判定係数を保持しており、
    前記雑音判定部は、前記撮像装置に接続された前記レンズ装置から前記判定係数を取得し、前記取得した判定係数及び前記特徴量を用いて、前記撮像装置に接続された前記レンズ装置に特有の前記パルス状の機械駆動音が前記音声信号に含まれるか否かを判定する、請求項に記載に記載の音声信号処理装置。
  10. 前記音声信号処理装置は、前記音声信号を再生する再生装置に設けられ、
    前記特徴量抽出部は、前記音声信号の再生時に前記音声信号から前記特徴量を抽出し、
    前記雑音判定部は、前記特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する、請求項1〜のいずれか一項に記載の音声信号処理装置。
  11. 外部音声を音声信号に変換する収音部と、
    前記収音部と同一の筐体に設けられ、動作開始時又は動作終了時にパルス状の機械駆動音を発生させる駆動装置と、
    前記収音部から出力された前記音声信号から、前記パルス状の機械駆動音を表す特徴量を抽出する特徴量抽出部と、
    前記特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する雑音判定部と、
    前記雑音判定部により前記パルス状の機械駆動音が含まれると判定された場合に、前記音声信号に対して雑音低減処理を行う雑音低減部と、
    を備え、
    前記特徴量抽出部は、前記特徴量として、前記パルス状の機械駆動音のパルス成分を表す第1の特徴量と、前記パルス状の機械駆動音の残響成分を表す第2の特徴量とを抽出し、
    前記雑音判定部は、前記第1及び第2の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定する、撮像装置。
  12. 収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音を表す特徴量として、前記パルス状の機械駆動音のパルス成分を表す第1の特徴量と、前記パルス状の機械駆動音の残響成分を表す第2の特徴量とを抽出することと、
    前記第1及び第2の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定することと、
    を含む、音声信号処理方法。
  13. 収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音を表す特徴量として、前記パルス状の機械駆動音のパルス成分を表す第1の特徴量と、前記パルス状の機械駆動音の残響成分を表す第2の特徴量とを抽出することと、
    前記第1及び第2の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定することと、
    をコンピュータに実行させるためのプログラム。
  14. 収音部により得られる音声信号から、前記収音部と同一の筐体に設けられた駆動装置の動作開始時又は動作終了時に発生するパルス状の機械駆動音を表す特徴量として、前記パルス状の機械駆動音のパルス成分を表す第1の特徴量と、前記パルス状の機械駆動音の残響成分を表す第2の特徴量とを抽出することと、
    前記第1及び第2の特徴量に基づいて、前記音声信号に前記パルス状の機械駆動音が含まれるか否かを判定することと、
    をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
JP2011163045A 2011-07-26 2011-07-26 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体 Expired - Fee Related JP5741281B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011163045A JP5741281B2 (ja) 2011-07-26 2011-07-26 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
US14/232,748 US9495950B2 (en) 2011-07-26 2012-05-29 Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
CN201280035699.4A CN103688307A (zh) 2011-07-26 2012-05-29 音频信号处理装置、成像装置、音频信号处理方法、程序和记录介质
PCT/JP2012/063753 WO2013015011A1 (ja) 2011-07-26 2012-05-29 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011163045A JP5741281B2 (ja) 2011-07-26 2011-07-26 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Publications (3)

Publication Number Publication Date
JP2013025291A JP2013025291A (ja) 2013-02-04
JP2013025291A5 JP2013025291A5 (ja) 2014-08-07
JP5741281B2 true JP5741281B2 (ja) 2015-07-01

Family

ID=47600871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011163045A Expired - Fee Related JP5741281B2 (ja) 2011-07-26 2011-07-26 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体

Country Status (4)

Country Link
US (1) US9495950B2 (ja)
JP (1) JP5741281B2 (ja)
CN (1) CN103688307A (ja)
WO (1) WO2013015011A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477217B2 (en) * 2014-03-06 2016-10-25 Haier Us Appliance Solutions, Inc. Using visual cues to improve appliance audio recognition
US9294139B1 (en) * 2014-11-13 2016-03-22 Molecular Devices, Llc System and methods for constructing a noise replica
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
JP2016218766A (ja) * 2015-05-21 2016-12-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
JP6731772B2 (ja) * 2016-04-08 2020-07-29 キヤノン株式会社 電子機器及び制御方法
US10573136B2 (en) 2017-08-31 2020-02-25 Microsoft Technology Licensing, Llc Calibrating a vibrational output device
JP7129331B2 (ja) * 2018-12-25 2022-09-01 株式会社コーエーテクモゲームス 情報処理装置、情報処理方法、及びプログラム
CN113059480B (zh) * 2019-12-31 2022-07-29 清华大学 一种化学机械抛光装置及其控制方法
CN112235693B (zh) * 2020-11-04 2021-12-21 北京声智科技有限公司 麦克风信号处理方法、装置、设备及计算机可读存储介质
JP2022180927A (ja) * 2021-05-25 2022-12-07 キヤノン株式会社 音声処理装置、制御方法、およびプログラム
CN115426582B (zh) * 2022-11-06 2023-04-07 江苏米笛声学科技有限公司 一种耳机音频处理方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08124299A (ja) 1994-10-27 1996-05-17 Canon Inc 記録再生装置
JP2003317368A (ja) * 2002-04-25 2003-11-07 Digion Inc パルス性ノイズのデジタル信号処理による検出および除去方法
US7508948B2 (en) * 2004-10-05 2009-03-24 Audience, Inc. Reverberation removal
JP4356670B2 (ja) * 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
EP2237271B1 (en) * 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
JP5279629B2 (ja) * 2009-06-19 2013-09-04 キヤノン株式会社 撮像装置
JP2011077604A (ja) * 2009-09-29 2011-04-14 Sony Corp ノイズ除去装置、レンズ装置、撮像装置、ノイズ除去方法
US8698911B2 (en) * 2009-10-28 2014-04-15 Nikon Corporation Sound recording device, imaging device, photographing device, optical device, and program
JP5428762B2 (ja) * 2009-10-30 2014-02-26 株式会社ニコン 撮影装置、および、プログラム
JP2011128391A (ja) * 2009-12-18 2011-06-30 Toshiba Corp 音声処理装置、音声処理プログラム、音声処理方法
JP2012009978A (ja) * 2010-06-23 2012-01-12 Panasonic Corp 撮像装置
JP2012027186A (ja) * 2010-07-22 2012-02-09 Sony Corp 音声信号処理装置、音声信号処理方法及びプログラム
US8830353B2 (en) * 2010-10-22 2014-09-09 Panasonic Corporation Camera body, and camera system

Also Published As

Publication number Publication date
WO2013015011A1 (ja) 2013-01-31
US20140169581A1 (en) 2014-06-19
JP2013025291A (ja) 2013-02-04
CN103688307A (zh) 2014-03-26
US9495950B2 (en) 2016-11-15

Similar Documents

Publication Publication Date Title
JP5741281B2 (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP5594133B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP4910293B2 (ja) 電子カメラ、ノイズ低減装置及びノイズ低減制御プログラム
JP2008263498A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
JP6610725B2 (ja) 音処理装置および音処理プログラム
US8687076B2 (en) Moving image photographing method and moving image photographing apparatus
JP5998483B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP5645393B2 (ja) 音声信号処理装置
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP6902961B2 (ja) 音声処理装置及びその制御方法
JP5018860B2 (ja) 信号処理装置及び撮像装置
US11729548B2 (en) Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones
US20220383891A1 (en) Sound processing apparatus and control method
JP6912969B2 (ja) 音声処理装置及びその制御方法
CN103297687A (zh) 音频处理设备及其控制方法
JP5736839B2 (ja) 信号処理装置、撮像装置、及びプログラム
US12027176B2 (en) Apparatus and method for reducing noise corresponding to a noise source using noise data
US20220383890A1 (en) Apparatus and method
JP2022054317A (ja) 音声処理装置、制御方法、およびプログラム
JP6271851B2 (ja) 音声処理装置、撮像装置、及び、それらの制御方法、並びにプログラム
JP2012173353A (ja) 信号処理装置、撮像装置、及びプログラム
JP2022038610A (ja) 音声処理装置、制御方法、およびプログラム
JP5246134B2 (ja) 信号処理装置及び撮像装置
JP2019075630A (ja) 撮像装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150413

R151 Written notification of patent or utility model registration

Ref document number: 5741281

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees