JP2014232267A

JP2014232267A - 信号処理装置、撮像装置、およびプログラム

Info

Publication number: JP2014232267A
Application number: JP2013114058A
Authority: JP
Inventors: 岡崎　光宏; Mitsuhiro Okazaki; 光宏岡崎
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2013-05-30
Filing date: 2013-05-30
Publication date: 2014-12-11

Abstract

【課題】ノイズを適切に低減すること。
【解決手段】時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第１の処理部と、前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第２の処理部と、前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する生成部と、を備える信号処理装置。
【選択図】図９

Description

本発明は、音信号に対して信号処理をする信号処理装置、撮像装置、およびプログラムに関する。

ノイズ低減処理は、例えば、動画を撮像すると共に音を録音するビデオカメラにおいて行われる。ビデオカメラでは、動画撮像時の録音データに、オートフォーカス駆動部などから発生する駆動音が混入し、録音された音の品質を損なう場合があるからである。これに関連し、オートフォーカス駆動部の駆動音を除去する撮像装置の発明が開示されている（例えば、特許文献１参照）。この撮像装置は、集音装置により集音された音情報から音声区間を検出する音声区間検出部と、その検出結果に基づいて、異なるノイズ低減処理を行うノイズ低減処理部とを備える。

特開２０１２−１７３３７１号公報

上記特許文献１記載の撮像装置では、ノイズを低減しきれずノイズが残ってしまう場合があった。

本発明の課題は、ノイズを適切に低減することである。

一態様の信号処理装置は、時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第１の処理部と、前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第２の処理部と、前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する生成部と、を備える。
また、一態様の撮像装置は、一態様の信号処理装置と、前記音信号の元となる音を集音する集音部と、駆動部と、前記音信号が記憶される記憶部と、を備え、前記ノイズ区間特定部は、前記駆動部が駆動されたタイミングに基づいて、前記集音部により集音された音信号に前記所定のノイズが含まれる区間を特定する。
また、一態様のプログラムは、コンピュータを、時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第１の処理部と、前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第２の処理部と、前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する生成部と、として機能させるためのプログラムである。

一態様によれば、ノイズを適切に低減することができる。

本発明の第１実施形態に係る信号処理装置の機能構成の一例を示す図である。音声を含む音信号の波形の一例を示す図である。音信号の一部を切り出して求めた自己相関関数の波形の一例を示す図である。ある音信号の波形と、自己相関関数のピーク値が閾値を超えたか否かを対比した図である。音信号に乗算される窓関数を示す図である。ノイズ低減部により減算が行われる前後の周波数スペクトルを示す図である。目的音抽出部が行うフィルタ処理のフィルタ特性の一例を示す図である。目的音抽出部が行うフィルタ処理のフィルタ特性の一例を示す図である。第１実施形態の信号処理装置により実行される処理の流れを示すフローチャートの一例である。本発明の第２実施形態に係る信号処理装置の機能構成の一例を示す図である。減算前後比演算部により算出される減算前後比の一例を示す図である。周波数特性調整部により決定される周波数特性の一例を示す図である。第２実施形態の信号処理装置により実行される処理の流れを示すフローチャートの一例である。第３実施形態に係る撮像装置１の機能構成の一例を示す図である。モータが駆動されたときの、ボディＣＰＵから出力される駆動制御信号、ズームエンコーダまたはＡＦエンコーダの出力するパルス信号、およびマイクの出力の時間変化を例示した図である。

以下、図面を参照し、本発明の信号処理装置、撮像装置、およびプログラムの実施形態について説明する。

＜第１実施形態＞
［概略、機能構成］
以下、本発明の第１実施形態に係る信号処理装置１００について説明する。図１は、本発明の第１実施形態に係る信号処理装置１００の機能構成の一例を示す図である。信号処理装置１００は、入力された音信号に対してノイズ低減処理を行って、出力信号を生成する。信号処理装置１００は、例えば、ＣＰＵ（Central Processing Unit）やプログラムメモリを有する各種コンピュータに、信号処理プログラムがインストールされることによって、信号処理装置１００として機能する。各種コンピュータには、パーソナルコンピュータやタブレット端末の他、携帯電話、撮像装置、録音装置等の各種機器に内蔵されたコンピュータが含まれる。

信号処理装置１００に入力される音信号は、例えば、マイクによって集音された音に基づいて生成されるものであり、音圧が経時変化する時系列信号である。また、音信号には、音信号に所定のノイズが含まれている期間を示す情報（以下、「所定ノイズ期間特定情報」）が付加されている。所定のノイズとは、その発生期間が既知のノイズであり、例えば、上記マイクを備える機器において、動作タイミングを特定可能な駆動部が駆動されることにより発生するノイズである。所定ノイズ期間特定情報は、音信号と時間的に同期したタイミング情報であってもよいし、音信号と非同期な情報（例えば、「音信号の再生時刻における何分何秒〜何分何秒まで」といった、期間を特定する情報）であってもよい。音信号および所定ノイズ期間特定情報は、例えば、信号処理装置１００の図示しない入力バッファに格納され、以下に説明する信号処理装置１００の機能部によって処理される。

なお、音信号と所定ノイズ期間特定情報は、マイクを備える機器から直接入力されるのではなく、ネットワークを介して接続された他のコンピュータから入力されてもよい。また、音信号と所定ノイズ期間特定情報は、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）、ＵＳＢ（Universal Serial Bus）メモリ、ＳＤカード等の可搬型記憶媒体が信号処理装置１００に装着されることにより入力されてもよい。また、信号処理装置１００が備えるマイクにより集音された音が音信号として扱われてもよい。この場合、所定ノイズ期間特定情報は、例えば、信号処理装置１００またはその周辺機器が有する駆動部が駆動されることにより発生するノイズの発生期間を特定する情報である。

以下、図１に示す各機能構成について説明する。信号処理装置１００は、例えば、信号分割部１１０と、ノイズ区間特定部１２０と、目的音区間特定部１３０と、ノイズ低減部１４０と、目的音抽出部１５０と、出力信号生成部１６０とを備える。これらの機能部の一部または全部は、例えば、信号処理装置１００のプログラムメモリに格納された信号処理プログラムを、ＣＰＵが実行することにより機能するソフトウェア機能部である。また、これらの機能部の一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェア機能部であってもよい。

信号分割部１１０は、音信号を、所定の窓サイズ（時間的長さ）を有する複数の「区間」に分割する。以下、「区間」と表記したときは、信号分割部１１０により分割された各区間を意味するものとする。信号分割部１１０は、互いにオーバーラップした区間に音信号を分割してもよい。また、信号分割部１１０は、必ずしも分割された信号の区間同士をオーバーラップさせる必要はない。すなわち、「区間」とは、所定の間隔を空けて設定されているような場合も、間隔を空けず且つオーバーラップもさせない場合も含む概念である。また、ある時間領域の所定区間を周波数変換し、周波数領域に変換された区間に対しても「区間」と表記されるものとする。本実施形態では、説明を簡略化するために、係るオーバーラップに関する説明を省略する。

［ノイズ区間の特定］
ノイズ区間特定部１２０は、前述した所定ノイズ期間特定情報を参照して、信号分割部１１０により分割された各区間に所定のノイズが含まれるか否かを判定し、音信号における所定のノイズが含まれる区間（以下、「所定ノイズ区間」）を特定する。ノイズ区間特定部１２０は、分割された区間内に所定のノイズの発生期間が少しでも含まれていれば、所定ノイズ区間と判定してもよいし、ある程度の割合以上の所定のノイズの発生期間が区間内に含まれる場合に、所定ノイズ区間と判定してもよい。

［目的音区間の特定］
目的音区間特定部１３０は、各区間について目的音が含まれるか否かを判定し、目的音が含まれる区間（以下、「目的音区間」）を特定する。本実施形態における目的音は、例えば、人が発した声（音声）である。また、目的音は、音声に限らず、鳥や動物の鳴き声、楽器により演奏された音などであってもよい。

例えば、目的音区間特定部１３０は、音信号の各区間に対して自己相関関数のピーク値を求め、ピーク値を閾値と比較することにより、目的音区間を特定する。図２は、音声を含む音信号の波形の一例を示す図である。また、図３は、音信号の一部を切り出して求めた自己相関関数の波形の一例を示す図である。音声などの目的音は、発音機構（例えば人の声帯）の振動数に対応した基本周波数、およびその倍音に対応した周波数帯域にピークが集中する性質（調波性）を有している。目的音区間特定部１３０は、この調波性を利用して、自己相関関数のピーク値の大きさに基づいて、目的音が区間に含まれているか否かを判定する。

図３におけるτ１およびτ２は、自己相関のラグであり、例えば、目的音を検出する対象の周波数帯域の下限と上限に対応する値に設定される。目的音が音声である場合、目的音区間特定部１３０は、周波数ｆ１（例えば５０［Ｈｚ］程度）から周波数ｆ２（例えば４００［Ｈｚ］程度）の範囲で目的音の検出を行う。τ１およびτ２は、サンプリング周波数をｆｓとすると、次式（１）、（２）により求められる。ここで、ｆ１＜ｆ２であるため、τ１＞τ２が成立する。
τ１＝ｆｓ／ｆ１ ‥（１）
τ２＝ｆｓ／ｆ２ ‥（２）

目的音区間特定部１３０は、各区間について、ラグτ１とτ２の間の自己相関関数のピーク値（図３におけるτ０に対応）を求め、ピーク値が閾値以上である場合に、目的音区間であると判定する。図４は、ある音信号の波形と、自己相関関数のピーク値が閾値を超えたか否かを対比した図である。図４（Ａ）に示す音信号は、前半に所定ノイズが含まれており、後半に目的音が含まれている。このような音信号に対して、音信号を分割した各区間について自己相関関数のピーク値が閾値以上であるか否かを判定した結果が、図４（Ｂ）となる。図４（Ｂ）は、自己相関関数のピーク値が閾値以上である区間をＨｉｇｈで、閾値未満である区間をＬｏｗで示している。

また、自己相関関数のピーク値をつけるラグτ０でサンプリング周波数ｆｓを除算することによって、音信号の基本周波数Ｆ０が求められる（次式（３）参照）。基本周波数Ｆ０は、後述する目的音抽出部１５０によるフィルタ処理においても用いられる。例えば、サンプリング周波数ｆｓが４８［ｋＨｚ］、ラグτ０が４００である場合、基本周波数Ｆ０は１２０［Ｈｚ］となる。なお、目的音区間特定部１３０は、自己相関関数を用いて目的音区間を特定するのではなく、他の手法により目的音区間を特定してもよい。
Ｆ０＝ｆｓ／τ０ ‥（３）

［ノイズ低減処理］
ノイズ低減部１４０は、音信号の各区間に対して周波数スペクトルを求め、周波数領域でノイズを低減する処理を行い、その後、時間領域の信号に戻す処理を行う（以下、ノイズ低減処理）。ノイズ低減部１４０は、例えば、ＦＦＴ（Fast Fourier Transform；高速フーリエ変換）処理によって、周波数領域毎の振幅情報と位相情報を求め、周波数スペクトルを得る。より具体的には、ノイズ低減部１４０は、サンプリング周波数（例えば、前述と同じように４８［ｋＨｚ］）ｆｓで求めた時間領域の音信号について、１フレーム４０９６サンプルのＦＦＴ処理を行う。この際に、ノイズ低減部１４０は、例えば、ハニングウィンドウ処理を行い、隣のフレームと１／２オーバーラップするようにしてＦＦＴ処理を行う。図５は、音信号に乗算される窓関数を示す図である。図５におけるＷ１〜Ｗ４は、各フレームに対応する窓関数を示している。なお、ノイズ低減部１４０は、ハミングウィンドウやガウスウィンドウ等、他の窓関数を使用した処理を行ってもよい。

周波数スペクトルを得ると、ノイズ低減部１４０は、音信号の周波数スペクトルから推定ノイズの周波数スペクトルを減算する（以下、スペクトル減算）。推定ノイズの周波数スペクトルは、前述した所定のノイズに対応する周波数スペクトルであり、周波数スペクトル全体を所望の間隔で区切った周波数ビン毎に振幅が記された情報である。

推定ノイズの周波数スペクトルは、予め実験等により得られたデータが用いられてもよいし、信号処理装置１００が学習処理によって更新してもよい。後者の場合、ノイズ低減部１４０は、所定ノイズ区間における音信号の周波数スペクトルと、所定ノイズ区間でも目的音区間でもない区間における音信号の周波数スペクトルとの比較に基づいて、推定ノイズの周波数スペクトルを更新する。所定のノイズが複数種類存在する場合、これに対応して推定ノイズも複数用意されてよい。図６（Ａ）は、ノイズ低減部１４０により減算が行われる前の周波数スペクトルを示し、図６（Ｂ）は、ノイズ低減部１４０により減算が行われた後の周波数スペクトルを示す。図６において、ｆ０〜ｆ７は、周波数ビンである。

但し、ノイズ低減部１４０は、減算後の周波数スペクトルと、所定のノイズ期間に含まれない期間（マイクを備える装置において動作部の動作が行われてない期間）の周波数スペクトルである環境音特徴スペクトルとの比較を行い、環境音特徴スペクトルを下回る減算後の周波数ビンについては、環境音特徴スペクトルのレベルに置き換える処理（以下、置き換え処理）を行ってもよい。環境音特徴スペクトルは、音信号が録音された環境において自然に発生する音に近い音を録音しているため、環境音特徴スペクトルを下回る水準までノイズを除去すると、かえって不自然な静寂期間を作り出してしまうからである。環境音特徴スペクトルは、所定のノイズも目的音も含まれない音信号の周波数スペクトルであり、後述するように、学習処理によって更新される。また、置き換え処理を行う際は、減算後の周波数スペクトルと時間的に近い環境音特徴スペクトルに置き換えることが好ましい。また、置き換え処理を行う際に、環境音特徴スペクトルに対して所定の値を乗算、加算等行ってから置き換えを行ってもよい。

ノイズ低減部１４０は、このようにノイズ低減処理を行うと、処理後の周波数スペクトルに対して、例えば、ＦＦＴで求めた位相を用いたＩＦＦＴ（Inverse FFT；逆高速フーリエ変換）処理を行い、周波数スペクトルを時間領域の音信号に戻す。また、ノイズ低減部１４０は、ＩＦＦＴを行った後、隣のフレームと１／２フレーム重なり合うように重ねあわせ処理を行う。

［目的音抽出処理］
目的音抽出部１５０は、例えば、デシメーションフィルタ等を用いて間引き処理を行い、次に、倍音成分を有する音を高いゲインで通過させるフィルタ処理を行い、次にインタポレーションフィルタ等を用いて補間処理を行う（以下、目的音抽出処理）。目的音抽出部１５０は、間引き処理によって、例えば、音信号の基本周波数Ｆ０の１０倍（１．２［ｋＨｚ］）を超える６［ｋＨｚ］以上の成分をカットすることができる。ここで、間引き後のサンプリング周波数は、確保しようとする周波数帯域（基本周波数Ｆ０の１０倍）の倍以上の周波数である必要がある（サンプリング定理）。目的音抽出部１５０は、例えば、元のサンプリング周波数ｆｓが４８［ｋＨｚ］であれば、これを１／４にした１２［ｋＨｚ］への間引き処理を行う。前述したように、基本周波数Ｆ０が１２０［Ｈｚ］であれば、間引き後のサンプリング周波数（１２［ｋＨｚ］）は、上記サンプリング定理を満たしている。また、目的音抽出部１５０は、フィルタ処理後の信号を、１２［ｋＨｚ］から４８［ｋＨｚ］に戻すように補間処理を行う。

図７は、目的音抽出部１５０が行うフィルタ処理のフィルタ特性の一例を示す図である。図７において、横軸は周波数であり、縦軸はフィルタ処理のゲインを示す。また、図７において、Ｆ０は対象区間における音信号の基本周波数であり、目的音区間特定部１３０による処理の過程で導出される。目的音抽出部１５０は、例えば、音信号に対してコンボリューション処理を行うことによって、図７に示すフィルタ特性を実現する。このようなフィルタは、一般的にＩＩＲ（Infinite Impulse Response；無限インパルス応答）フィルタで作成されるため、急峻な周波数選択性を実現することができるが、線形位相を保つことが難しいので、フィルタ処理後の波形に歪みが生じる場合がある。

目的音抽出部１５０は、図７に示すフィルタ特性とは逆の特性でフィルタ処理を行い、処理後の音信号を元の音信号から差し引く処理を行ってもよい。図８は、目的音抽出部１５０が行うフィルタ処理のフィルタ特性の一例を示す図である。このようなフィルタは、一般的にＦＩＲ（Finite Impulse Response；有限インパルス応答）フィルタで作成されるため、急峻な特性を実現するのは難しいが、線形位相を保つことが可能であり、目的音の劣化程度を小さくすることができる。

従って、周波数選択性を重視する場合（目的音以外の音を、より確実に低減したい場合）は、ＩＩＲフィルタを採用すると好適であり、目的音の品質を重視する場合（多少、他の音が混じってもよい場合）は、ＦＩＲフィルタを採用すると好適である。信号処理装置１００は、用途に適したいずれか一方のフィルタ処理のみを行ってもよいし、ユーザの選択に応じて、または環境に応じて自動的に、フィルタ処理の手法を切り替えてもよい。また、図７や図８に示す形状のフィルタ特性は、あくまで一例であり、周波数選択性をより急峻に、或いはより緩やかに変更することが可能である。

出力信号生成部１６０は、ノイズ低減部１４０による処理結果（以下、音信号Ａ）と、目的音抽出部１５０による処理結果（以下、音信号Ｂ）とに基づいて、出力信号を生成する。より具体的には、出力信号生成部１６０は、音信号Ａと音信号Ｂとを加算して、出力信号を生成する。なお、出力信号生成部１６０は、ノイズ低減部１４０や目的音抽出部１５０による各種処理によって生じ得るディレイを調整した上で、加算処理を行う。また、出力信号生成部１６０は、音信号Ａと音信号Ｂとをそのまま加算して出力信号を生成すると、元の音信号よりも音量が大きくなるため、音信号Ａと音信号Ｂにそれぞれ係数Ｃａ、Ｃｂを乗じてから加算を行ってもよい。係数Ｃａ、Ｃｂは任意に定めてよく、例えば、双方を０．５程度に設定してもよいし、目的音を強調したければ、係数ＣｂをＣａよりも大きく設定してもよい。なお、目的音抽出部１５０が後述するようにゼロ出力をする場合、係数Ｃａは１に設定されてよい。

このように、信号処理装置１００は、ノイズ低減処理が行われた音信号に、目的音の抽出処理が行われた音信号を加算して出力信号を生成することで、ノイズ低減処理による目的音の劣化を補うことができる。目的音の抽出処理が行われた音信号は、周波数領域における減算処理を経ていないため、目的音の品質が高いからである。この結果、信号処理装置１００は、ノイズを適切に低減しつつ、目的音の劣化を抑制することができる。

［処理フロー］
図９は、第１実施形態の信号処理装置１００により実行される処理の流れを示すフローチャートの一例である。本フローチャートの処理は、例えば、分割される全ての区間について繰り返し実行される。

まず、信号分割部１１０が、音信号から１つの区間を切り出して対象区間とする（ステップＳ２００）。次に、ノイズ区間特定部１２０が、対象区間が所定ノイズ区間かどうかを特定し（ステップＳ２０２）、目的音区間特定部１３０が、対象区間が目的音区間かどうかを特定する（ステップＳ２０４）。これらの特定された情報は、メモリなどに格納される。続いて、ノイズ低減部１４０がステップＳ２０６〜Ｓ２２０の処理を、目的音抽出部１５０がステップＳ２２２〜Ｓ２３２の処理を、並行して行う（必ずしも「同時に」行う必要は無い）。

ノイズ低減部１４０は、対象区間についてＦＦＴ処理を行い（ステップＳ２０６）、対象区間が所定ノイズ区間であるか否かを判定する（ステップＳ２０８）。対象区間が所定ノイズ区間である場合、ノイズ低減部１４０は、推定ノイズを更新し（ステップＳ２１０）、スペクトル減算を行い（ステップＳ２１２）、環境音特徴スペクトルへの置き換え処理を行う（ステップＳ２１４）。

対象区間が所定ノイズ区間でない場合、ノイズ低減部１４０は、対象区間が目的音区間であるか否かを判定する（ステップＳ２１６）。対象区間が目的音区間でない場合、ノイズ低減部１４０は、ステップＳ２１４で用いられる環境音特徴スペクトルを更新する（ステップＳ２１８）。ステップＳ２０６〜Ｓ２１８の処理を実行すると、ノイズ低減部１４０は、ＩＦＦＴを行い（ステップＳ２２０）、対象区間についての処理を終了する。

なお、ノイズ低減部１４０は、推定ノイズや環境音特徴スペクトルの更新に際して、過去に得られた値との移動平均を求めたり、異常値を検出して除外したり、共通部分を抽出して重み付けを大きくするなど、統計的に有意な値を得るための各種処理を行ってよい。

一方、目的音抽出部１５０は、対象区間が所定ノイズ区間であるか否かを判定し（ステップＳ２２２）、対象区間が所定ノイズ区間である場合は、対象区間が目的音区間であるか否かを判定する（ステップＳ２２４）。対象区間が所定ノイズ区間でない場合、または対象区間が目的音区間でない場合は、目的音抽出部１５０は、ゼロ出力をする（ステップＳ２３２）。対象区間が所定ノイズ区間でない場合は、スペクトル減算が行われないため目的音の劣化が小さいからであり、対象区間が目的音区間でない場合は、そもそも抽出すべき目的音が含まれていない可能性が高いからである。

対象区間が所定ノイズ区間であり、且つ目的音区間である場合、目的音抽出部１５０は、前述したように、間引き処理を行い（ステップＳ２２６）、ステップＳ２０４において導出される基本周波数Ｆ０を用いてフィルタ処理を行い（ステップＳ２２８）、補間処理を行う（ステップＳ２３０）。

こうしてノイズ低減部１４０と目的音抽出部１５０がそれぞれの処理を行うと、出力信号生成部１６０が、それぞれの処理結果を加算する処理を行い（ステップＳ２３４）、１つの区間に関する処理が終了する。なお、図９に示す処理に代えて、例えば、まず、ステップＳ２００〜Ｓ２０４の処理を全ての区間に対して行い、その後で、１つずつ取り出した区間に対してステップＳ２０６〜Ｓ２３４の処理を繰り返し行ってもよい。

以上説明した第１実施形態の信号処理装置１００によれば、ノイズ低減処理が行われた音信号に、目的音の抽出処理が行われた音信号を加算して出力信号が生成される。この結果、信号処理装置１００は、ノイズを適切に低減することができる。

また、第１実施形態の信号処理装置１００によれば、周波数領域でノイズ低減処理が行われた音信号に、時間領域で目的音の抽出処理が行われた音信号を加算して出力信号を生成するため、ノイズ低減処理による目的音の劣化を、時間領域で抽出された目的音で補うことができる。この結果、信号処理装置１００は、目的音の劣化を抑制することができる。

また、第１実施形態の信号処理装置１００によれば、目的音の一つである、音声の基本周波数Ｆ０の整数倍に対応する周波数成分を抽出する処理を時間領域で行っているため、基本周波数Ｆ０の整数倍に対応する周波数成分を周波数領域で抽出する場合と比較して、より適切に基本周波数Ｆ０の整数倍に近い周波数成分を抽出することができる。周波数領域で基本周波数Ｆ０の整数倍に対応する周波数を抽出する場合、周波数領域に変換された音信号は、周波数軸方向に対して離散的になっているため、基本周波数Ｆ０を整数倍（例えば２倍）した周波数に対応する周波数ビンが近くにない場合がある。これに対し、時間領域の処理では、周波数領域の処理と比較して小さい周波数ステップでピーク周波数を定義できるため、基本周波数Ｆ０の整数倍の周波数により近い周波数成分を抽出することができる。従って、第１実施形態の信号処理装置１００は、基本周波数Ｆ０の整数倍に近い周波数成分に基づいて、上述したフィルタ処理を適切に行うことができる。

また、第１実施形態の信号処理装置１００によれば、所定ノイズ区間であり、且つ目的音区間である区間について、目的音の抽出処理が行われた音信号を加算して出力信号を生成し、それ以外の区間については目的音の抽出処理を行わずに出力信号を生成するため、目的音の抽出処理によって処理負荷が増加するのを抑制することができる。

また、第１実施形態の信号処理装置１００によれば、目的音の抽出処理において、倍音成分を有する音を高いゲインで通過させるフィルタ処理を行うため、人が発した声、鳥や動物の鳴き声、楽器により演奏された音などを、目的音として高精度に抽出することができる。

また、第１実施形態の信号処理装置１００によれば、目的音の抽出処理においてＩＩＲフィルタを採用する場合、目的音以外の音を、より確実に低減することができる。また、第１実施形態の信号処理装置１００によれば、目的音の抽出処理においてＦＩＲフィルタを採用する場合、目的音の品質を向上させることができる。また、第１実施形態の信号処理装置１００によれば、目的音の抽出処理においてＩＩＲフィルタとＦＩＲフィルタを切り替え可能に構成される場合、ユーザの嗜好や環境に応じた適切なフィルタ処理を行うことができる。

＜第２実施形態＞
［機能構成］
以下、本発明の第２実施形態に係る信号処理装置１００Ａについて説明する。図１０は、本発明の第２実施形態に係る信号処理装置１００Ａの機能構成の一例を示す図である。第２実施形態に係る信号処理装置１００Ａでは、ノイズ低減部１４０が減算前後比演算部１４２を備え、目的音抽出部１５０が周波数特性調整部１５２を備える点で、第１実施形態の信号処理装置１００と異なる。その他の機能構成については、第１実施形態と同様であるため、図１と同様の名称および符号を付して説明を省略する。

ところで、目的音抽出処理によって抽出された目的音を、ノイズ低減処理後の音信号と加算すると、ノイズ低減処理後の音信号における目的音成分の残り具合によっては、加算後の目的音のボリュームが、元々の音信号と比較して過大または過小となる場合がある。第２実施形態に係る信号処理装置１００Ａは、このような事情を考慮し、目的音抽出処理によって抽出された目的音の成分を、ノイズ低減処理における処理結果に基づいて、周波数毎に調整する。以下、これについて説明する。

減算前後比演算部１４２は、ノイズ低減部１４０がスペクトル減算を行ったときに、減算前振幅と、減算後振幅とを比較して、減算後振幅を減算前振幅で除算した比率（減算前後比）を周波数ビン毎に算出する。例えば、減算前振幅が図６（Ａ）に示すものであり、減算後振幅が図６（Ｂ）に示すものであった場合、周波数ビン毎の減算前後比は、図１１に示すものとなる。図１１は、減算前後比演算部１４２により算出される減算前後比の一例を示す図である。減算前後比演算部１４２による演算結果は、周波数特性調整部１５２に提供される。

周波数特性調整部１５２は、例えば、目的音の基本周波数Ｆ０の整数倍に対応する周波数ビンにおける減算前後比を参照し、参照した値に基づき、フィルタ処理において基本周波数Ｆ０の整数倍の音を通過させる比率（ゲイン）を調整する。なお、「対応する」とは、基本周波数Ｆ０の整数倍の値と等しい、基本周波数Ｆ０の整数倍の値に最も近い、または基本周波数Ｆ０の整数倍の値の近傍の、周波数ビンを意味する。

より具体的には、周波数特性調整部１５２は、減算前後比が大きい（余りスペクトル減算されていない）周波数ビンについてはゲインを小さくし、減算前後比が小さい（大きくスペクトル減算されている）周波数ビンについてはゲインを大きくする傾向で、周波数特性を調整する。例えば、目的音の基本周波数Ｆ０が周波数ビンｆ２に対応し、周波数ビンｆ２の減算前振幅Ａ１＝６、減算後振幅Ａ２＝１．５であるものとすると、基本周波数Ｆ０に対応する減算前後比Ｒ＝０．２５となる。この場合、周波数特性調整部１５２は、周波数Ｆ０に対して、（１−Ｒ）＝０．７５を係数として乗算する周波数特性でフィルタ処理を行う。同様に、周波数特性調整部１５２は、Ｆ０の整数倍に対応する周波数ビンｆ４、ｆ６の周波数特性も求め、折れ線状の周波数特性を求める。図１２は、周波数特性調整部１５２により決定される周波数特性の一例を示す図である。なお、この際に、周波数特性調整部１５２は、間引き処理におけるサンプリング周波数変更情報を考慮して、周波数特性を調整する。

係る処理によって、第２実施形態に係る信号処理装置１００Ａは、目的音抽出処理において抽出した目的音を、周波数毎に、周波数領域のノイズ減算処置によって減少した分に相当する大きさに調整した上で、ノイズ低減処理の結果と加算することができる。この結果、第２実施形態に係る信号処理装置１００Ａは、処理後の目的音の大きさやバランス等を、処理前の目的音に近づけることができ、出力信号における目的音の品質を向上させることができる。

［処理フロー］
図１３は、第２実施形態の信号処理装置１００Ａにより実行される処理の流れを示すフローチャートの一例である。図１３のフローチャートの処理は、例えば、分割される全ての区間について繰り返し実行される。

ノイズ低減部１４０は、対象区間についてＦＦＴ処理を行い（ステップＳ２０６）、対象区間が所定ノイズ区間であるか否かを判定する（ステップＳ２０８）。対象区間が所定ノイズ区間である場合、ノイズ低減部１４０は、推定ノイズを更新し（ステップＳ２１０）、スペクトル減算を行い（ステップＳ２１２）、環境音特徴スペクトルへの置き換え処理を行う（ステップＳ２１４）。そして、減算前後比演算部１４２は、減算前後比を周波数ビン毎に算出する（ステップＳ２１５）。

一方、目的音抽出部１５０は、対象区間が所定ノイズ区間であるか否かを判定し（ステップＳ２２２）、対象区間が所定ノイズ区間である場合は、対象区間が目的音区間であるか否かを判定する（ステップＳ２２４）。対象区間が所定ノイズ区間でない場合、または対象区間が目的音区間でない場合は、目的音抽出部１５０は、ゼロ出力をする（ステップＳ２３２）。

対象区間が所定ノイズ区間であり、且つ目的音区間である場合、目的音抽出部１５０は、前述したように、間引き処理を行い（ステップＳ２２６）、ステップＳ２０４において導出される基本周波数Ｆ０を用いてフィルタ処理を行い（ステップＳ２２８）、ステップＳ２１５で算出された減算前後比を用いて周波数特性の調整を行い（ステップＳ２２９）、補間処理を行う（ステップＳ２３０）。

こうしてノイズ低減部１４０と目的音抽出部１５０がそれぞれの処理を行うと、出力信号生成部１６０が、それぞれの処理結果を加算する処理を行い（ステップＳ２３４）、１つの区間に関する処理が終了する。なお、図１３に示す処理に代えて、例えば、まず、ステップＳ２００〜Ｓ２０４の処理を全ての区間に対して行い、その後で、１つずつ取り出した区間に対してステップＳ２０６〜Ｓ２３４の処理を繰り返し行ってもよい。

以上説明した第２実施形態の信号処理装置１００Ａによれば、第１実施形態の信号処理装置１００と同様の効果を奏することができる他、スペクトル減算を行った際の振幅の減算前後比に基づいて、目的音抽出処理における周波数特性を調整するため、処理後の目的音の大きさやバランス等を、処理前の目的音に近づけることができ、出力信号における目的音の品質を向上させることができる。

なお、第２実施形態の信号処理装置１００Ａは、目的音の基本周波数Ｆ０の整数倍が、各周波数ビンの中心周波数から離れている場合、隣の周波数ビンの演算前後比を加味して周波数特性を調整してもよい。例えば、図１２において、目的音の基本周波数Ｆ０が、周波数ビンｆ２の中心周波数から見てｆ１側にある場合には、周波数ビンｆ２の減算前後比と、周波数ビンｆ１の演算前後比とに基づいて、基本周波数Ｆ０に対応する減算前後比を求めてもよい。この逆に、目的音の基本周波数Ｆ０が、周波数ビンｆ２の中心周波数から見てｆ３側にある場合には、周波数ビンｆ２の減算前後比と、周波数ビンｆ３の演算前後比とに基づいて、基本周波数Ｆ０に対応する減算前後比を求めてもよい。基本周波数Ｆ０の２倍、３倍、‥の周波数についても同様である。

＜第３実施形態＞
以下、本発明の第３実施形態に係る撮像装置１について説明する。撮像装置１は、例えば、動画像を撮像可能なデジタル一眼レフカメラである。図１４は、第３実施形態に係る撮像装置１の機能構成の一例を示す図である。第３実施形態に係る撮像装置１は、第１実施形態に係る信号処理装置１００または第２実施形態に係る信号処理装置１００Ａと同等の機能を有する信号処理部１００Ｂを備える。

［構成］
撮像装置１は、レンズ部１０と、本体部２０とを備える。レンズ部１０は、例えば、ズームエンコーダ１１と、ＡＦ（Auto Focus）エンコーダ１２と、モータ（モータ群）１３と、レンズＣＰＵ１４とを備える。ズームエンコーダ１１は、図示しないズームレンズの位置を表わすズームポジションを検出するための情報を、レンズＣＰＵ１４に出力する。ＡＦエンコーダ１２は、図示しないＡＦレンズの位置を表わすフォーカスポジションを検出するための情報を、レンズＣＰＵ１４に出力する。例えば、ズームエンコーダ１１およびＡＦエンコーダ１２は、ズームレンズやＡＦレンズが移動している場合にパルス信号を出力し、ズームレンズやＡＦレンズが移動を終了した場合にパルス信号の出力を停止する。また、ズームエンコーダ１１およびＡＦエンコーダ１２は、ズームレンズやＡＦレンズが移動している方向を検出可能な情報を出力してもよい。

モータ１３は、レンズＣＰＵ１４から入力される駆動制御信号に基づいて、ズームレンズやＡＦレンズの位置を制御する。レンズＣＰＵ１４は、ボディＣＰＵ２１から入力される駆動制御信号に基づいて、モータ１３を駆動する。

本体部２０は、ボディＣＰＵ２１と、撮像素子２２と、マルチセレクタ（十字キー）２３と、マイク３０と、Ａ／Ｄ変換部３１と、信号処理部１００Ｂと、動画記録部３２とを備える。ボディＣＰＵ２１は、例えば、ズームエンコーダ１１またはＡＦエンコーダ１２から入力されるズームレンズまたはＡＦレンズの位置、ユーザによる各種操作を受け付けるマルチセレクタ２３から入力される操作信号等に基づいて、ズームレンズまたはＡＦレンズの位置を制御する駆動制御信号を生成し、レンズＣＰＵ１４に出力する。なお、係る処理は、レンズＣＰＵ１４が行ってもよい。撮像素子２２は、受光面に結像した光学像を電気信号に変換し、赤色（Ｒ），緑色（Ｇ），青色（Ｂ）の各色に対応する画像信号を生成する。

マイク３０は、撮像装置１の周辺の音を集音する。マイク３０が集音した音は、Ａ／Ｄ変換部３１を介して、「音信号」として信号処理部１００Ｂに出力される。

信号処理部１００Ｂは、例えば、専用のＣＰＵを備え、ＣＰＵがプログラムを実行することにより、第１または第２実施形態における信号分割部１１０、ノイズ区間特定部１２０、目的音区間特定部１３０、ノイズ低減部１４０、目的音抽出部１５０、出力信号生成部１６０と同等の機能を実現する（図１または図１０参照）。前述したように、これらの機能部の一部は、ハードウェア機能部であってもよい。信号処理部１００Ｂが生成した出力信号は、撮像素子２２により撮像された動画と時間的に同期した信号として、動画記録部３２に格納される。なお、動画記録部３２は、撮像装置１に対して着脱可能に接続される記憶媒体であってよい。また、信号処理部１００Ｂは、ボディＣＰＵ２１により実現されてもよい。

［ノイズ区間の特定］
信号処理部１００Ｂのノイズ区間特定部１２０は、まず、モータ１３の駆動タイミングに基づいて、音信号に所定のノイズが含まれる期間に関する情報（所定ノイズ期間特定情報）を生成する。そして、ノイズ区間特定部１２０は、生成した所定ノイズ期間特定情報に基づき、信号分割部１１０により分割された各区間のうち、所定のノイズが含まれる区間（所定ノイズ区間）を特定する。

本実施形態における所定のノイズは、モータ１３によりズームレンズまたはＡＦレンズ等の動作部が駆動されることにより発生するノイズである。また、これに限らず、撮像装置１の信号処理部１００Ｂにおいて所定のノイズとして扱われるノイズは、防振用レンズ（ＶＲ（Vibration Reduction）レンズ）、シャッター機構、スイッチ、ポップアップ式の光源等の動作部が駆動または操作されることにより発生するノイズを含んでもよい。これらの駆動は、ユーザの操作により開始されることもあるし、自動的に開始されることもある。いずれの場合も、ボディＣＰＵ２１から駆動制御信号が出力されたタイミング等から、所定のノイズの発生期間を特定することができる。

音信号に所定のノイズが含まれる期間は、ボディＣＰＵ２１から出力される駆動制御信号、および、ズームエンコーダ１１またはＡＦエンコーダ１２の出力するパルス信号に基づいて特定される。図１５は、モータ１３が駆動されたときの、ボディＣＰＵ２１から出力される駆動制御信号、ズームエンコーダ１１またはＡＦエンコーダ１２（図中、単に「エンコーダ」と表記）の出力するパルス信号、およびマイク３０の出力の時間変化を例示した図である。図１５に示すように、駆動制御信号が出力されると、時刻ｔ１においてモータ１３が駆動されてノイズを発生させる。次に、時刻ｔ２においてズームレンズまたはＡＦレンズが移動を開始し、ズームエンコーダ１１またはＡＦエンコーダ１２がパルス信号の出力を開始する。レンズによっては、駆動系（ギヤ列等）のバックラッシュの影響で、駆動方向反転時に、駆動開始よりも遅れてパルス信号が出力される場合がある。このため、駆動制御信号を、音信号に所定のノイズが含まれる期間の開始時点とする方が、より正確に所定のノイズが含まれる期間を特定することができる。時刻ｔ３においてズームレンズまたはＡＦレンズが移動を終了すると、ズームエンコーダ１１またはＡＦエンコーダ１２がパルス信号の出力を停止する。

ノイズ区間特定部１２０は、駆動制御信号が出力された時刻ｔ１から、ズームエンコーダ１１またはＡＦエンコーダ１２がパルス信号の出力を停止した時刻ｔ３までを、所定のノイズが発生した期間とする。

所定ノイズ期間特定情報が生成された後の、音信号に対する処理は、第１実施形態または第２実施形態の処理と同様である。従って、以降の処理については、第１実施形態または第２実施形態の説明を援用し、説明を省略する。

以上説明した第３実施形態の撮像装置１によれば、マイクで集音した音に含まれるノイズを適切に低減しつつ、目的音の劣化を抑制することができる。また、信号処理部１００Ｂを撮像装置１が内蔵することで、パーソナルコンピュータ等に音信号を出力して信号処理を行わなくても、撮像装置１の内蔵する表示装置やスピーカにより、クリアな目的音の再生を行うことができる。

＜変形等＞
以上、本発明を実施するための形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。また、上述の実施例を適宜組み合わせたものも、本発明に含まれる。

例えば、本発明の信号処理装置は、撮像装置以外の機器（例えば、携帯電話、タブレット端末、録音装置、電子玩具等、マイクと駆動部を備える任意の機器）に適用することもできる。

また、音声を目的音とする場合、信号処理装置は、音信号と同期して撮像された動画像に人の顔画像が含まれるか否かに応じて、目的音区間であるか否かの判定手法を変更してもよい。例えば、信号処理装置は、動画像に人の顔画像が含まれる区間については、自己相関関数のピーク値に対する閾値を低下させ、目的音（音声）であると判定しやすくしてもよい。動画像に人の顔画像が含まれる場合、その人が声を発している可能性が高いからである。こうすることによって、その人が比較的小さい声で話している場合であっても、音声を高感度に抽出してクリアに再生することができる。

また、ユーザにより設定された撮像シーン、或いは、自動的に判別された撮像シーンによって、目的音抽出処理の有無や処理の方法を変更しても良い。例えば、撮像シーンが「風景」のように、人が存在する可能性の低いシーンである場合は、目的音抽出処理をオフにし、周波数領域におけるノイズ低減処理のみ行ってもよい。こうすれば、不要な目的音抽出処理を省略し、処理負荷を低減することができる。また、撮像シーンが「ポートレート」や「パーティー」のように、人が存在する可能性の高いシーンである場合は、目的音抽出部１５０による処理結果（音信号Ｂ）に乗算される係数Ｃｂを、通常時よりも高くしてもよい（例えば、通常時は０．５であるところを１にしてよい）。こうすれば、音声を高感度に抽出してクリアに再生することができる。

１‥撮像装置、１３‥モータ、２１‥ボディＣＰＵ、３０‥マイク、３２‥動画記録部、１００、１００Ａ‥信号処理装置、１００Ｂ‥信号処理部、１１０‥信号分割部、１２０‥ノイズ区間特定部、１３０‥目的音区間特定部、１４０‥ノイズ低減部、１４２‥減算前後比演算部、１５０‥目的音抽出部、１５２‥周波数特性調整部、１６０‥出力信号生成部

Claims

時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第１の処理部と、
前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第２の処理部と、
前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する生成部と、
を備える信号処理装置。
請求項１記載の信号処理装置であって、
前記音信号における目的音が含まれる区間を特定する目的音区間特定部とを備え、
前記生成部は、前記音信号における前記目的音が含まれる区間について、前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する、
信号処理装置。
請求項１または２記載の信号処理装置であって、
前記音信号における所定のノイズが含まれている区間を特定するノイズ区間特定部を備え、
前記生成部は、前記音信号における、前記目的音と前記所定のノイズとが含まれる区間について、前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する、
信号処理装置。
請求項１から３のうちいずれか１項記載の信号処理装置であって、
前記第２の処理部は、前記音信号における特定の周波数と、前記特定の周波数の整数倍の周波数とを高いゲインで通過させるフィルタ処理を行う、
信号処理装置。
請求項２記載の信号処理装置であって、
前記目的音区間特定部は、前記音信号に基づき自己相関関数を求め、前記自己相関関数の波形における特徴箇所に基づいて前記目的音が含まれる区間を特定し、
前記第２の処理部は、前記音信号における前記ピーク値に対応する特定の周波数と、前記特定の周波数の整数倍の周波数とを、高いゲインで通過させるフィルタ処理を行う、
信号処理装置。
請求項４または５項記載の信号処理装置であって、
前記第２の処理部は、前記音信号における特定の周波数と前記特定の周波数の整数倍の周波数とを低いゲインで通過させた結果を、前記音信号から差し引くことにより、前記音信号における特定の周波数と前記特定の周波数の整数倍の周波数とを、高いゲインで通過させるフィルタ処理を行う、
信号処理装置。
請求項４から６のうちいずれか１項記載の信号処理装置であって、
前記第１の処理部は、前記周波数スペクトルに対する減算処理を行い、
前記第２の処理部は、前記第１の処理部による減算処理の結果に基づいて、前記フィルタ処理における周波数特性を調整する、
信号処理装置。
請求項３記載の信号処理装置と、
音を集音する集音部と、
駆動部と、
前記集音部によって集音された音に基づく音信号が記憶される記憶部と、を備え、
前記ノイズ区間特定部は、前記駆動部が駆動されたタイミングに基づいて、前記集音部により集音された音信号に前記所定のノイズが含まれる区間を特定する、
撮像装置。
コンピュータを、
時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第１の処理部と、
前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第２の処理部と、
前記第１の処理部の処理結果と前記第２の処理部の処理結果とに基づいて出力信号を生成する生成部と、
として機能させるためのプログラム。