JP2014232267A - 信号処理装置、撮像装置、およびプログラム - Google Patents

信号処理装置、撮像装置、およびプログラム Download PDF

Info

Publication number
JP2014232267A
JP2014232267A JP2013114058A JP2013114058A JP2014232267A JP 2014232267 A JP2014232267 A JP 2014232267A JP 2013114058 A JP2013114058 A JP 2013114058A JP 2013114058 A JP2013114058 A JP 2013114058A JP 2014232267 A JP2014232267 A JP 2014232267A
Authority
JP
Japan
Prior art keywords
signal
sound
unit
processing
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013114058A
Other languages
English (en)
Inventor
岡崎 光宏
Mitsuhiro Okazaki
光宏 岡崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2013114058A priority Critical patent/JP2014232267A/ja
Publication of JP2014232267A publication Critical patent/JP2014232267A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ノイズを適切に低減すること。
【解決手段】時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第1の処理部と、前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第2の処理部と、前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する生成部と、を備える信号処理装置。
【選択図】図9

Description

本発明は、音信号に対して信号処理をする信号処理装置、撮像装置、およびプログラムに関する。
ノイズ低減処理は、例えば、動画を撮像すると共に音を録音するビデオカメラにおいて行われる。ビデオカメラでは、動画撮像時の録音データに、オートフォーカス駆動部などから発生する駆動音が混入し、録音された音の品質を損なう場合があるからである。これに関連し、オートフォーカス駆動部の駆動音を除去する撮像装置の発明が開示されている(例えば、特許文献1参照)。この撮像装置は、集音装置により集音された音情報から音声区間を検出する音声区間検出部と、その検出結果に基づいて、異なるノイズ低減処理を行うノイズ低減処理部とを備える。
特開2012−173371号公報
上記特許文献1記載の撮像装置では、ノイズを低減しきれずノイズが残ってしまう場合があった。
本発明の課題は、ノイズを適切に低減することである。
一態様の信号処理装置は、時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第1の処理部と、前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第2の処理部と、前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する生成部と、を備える。
また、一態様の撮像装置は、一態様の信号処理装置と、前記音信号の元となる音を集音する集音部と、駆動部と、前記音信号が記憶される記憶部と、を備え、前記ノイズ区間特定部は、前記駆動部が駆動されたタイミングに基づいて、前記集音部により集音された音信号に前記所定のノイズが含まれる区間を特定する。
また、一態様のプログラムは、コンピュータを、時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第1の処理部と、前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第2の処理部と、前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する生成部と、として機能させるためのプログラムである。
一態様によれば、ノイズを適切に低減することができる。
本発明の第1実施形態に係る信号処理装置の機能構成の一例を示す図である。 音声を含む音信号の波形の一例を示す図である。 音信号の一部を切り出して求めた自己相関関数の波形の一例を示す図である。 ある音信号の波形と、自己相関関数のピーク値が閾値を超えたか否かを対比した図である。 音信号に乗算される窓関数を示す図である。 ノイズ低減部により減算が行われる前後の周波数スペクトルを示す図である。 目的音抽出部が行うフィルタ処理のフィルタ特性の一例を示す図である。 目的音抽出部が行うフィルタ処理のフィルタ特性の一例を示す図である。 第1実施形態の信号処理装置により実行される処理の流れを示すフローチャートの一例である。 本発明の第2実施形態に係る信号処理装置の機能構成の一例を示す図である。 減算前後比演算部により算出される減算前後比の一例を示す図である。 周波数特性調整部により決定される周波数特性の一例を示す図である。 第2実施形態の信号処理装置により実行される処理の流れを示すフローチャートの一例である。 第3実施形態に係る撮像装置1の機能構成の一例を示す図である。 モータが駆動されたときの、ボディCPUから出力される駆動制御信号、ズームエンコーダまたはAFエンコーダの出力するパルス信号、およびマイクの出力の時間変化を例示した図である。
以下、図面を参照し、本発明の信号処理装置、撮像装置、およびプログラムの実施形態について説明する。
<第1実施形態>
[概略、機能構成]
以下、本発明の第1実施形態に係る信号処理装置100について説明する。図1は、本発明の第1実施形態に係る信号処理装置100の機能構成の一例を示す図である。信号処理装置100は、入力された音信号に対してノイズ低減処理を行って、出力信号を生成する。信号処理装置100は、例えば、CPU(Central Processing Unit)やプログラムメモリを有する各種コンピュータに、信号処理プログラムがインストールされることによって、信号処理装置100として機能する。各種コンピュータには、パーソナルコンピュータやタブレット端末の他、携帯電話、撮像装置、録音装置等の各種機器に内蔵されたコンピュータが含まれる。
信号処理装置100に入力される音信号は、例えば、マイクによって集音された音に基づいて生成されるものであり、音圧が経時変化する時系列信号である。また、音信号には、音信号に所定のノイズが含まれている期間を示す情報(以下、「所定ノイズ期間特定情報」)が付加されている。所定のノイズとは、その発生期間が既知のノイズであり、例えば、上記マイクを備える機器において、動作タイミングを特定可能な駆動部が駆動されることにより発生するノイズである。所定ノイズ期間特定情報は、音信号と時間的に同期したタイミング情報であってもよいし、音信号と非同期な情報(例えば、「音信号の再生時刻における何分何秒〜何分何秒まで」といった、期間を特定する情報)であってもよい。音信号および所定ノイズ期間特定情報は、例えば、信号処理装置100の図示しない入力バッファに格納され、以下に説明する信号処理装置100の機能部によって処理される。
なお、音信号と所定ノイズ期間特定情報は、マイクを備える機器から直接入力されるのではなく、ネットワークを介して接続された他のコンピュータから入力されてもよい。また、音信号と所定ノイズ期間特定情報は、CD(Compact Disc)やDVD(Digital Versatile Disc)、USB(Universal Serial Bus)メモリ、SDカード等の可搬型記憶媒体が信号処理装置100に装着されることにより入力されてもよい。また、信号処理装置100が備えるマイクにより集音された音が音信号として扱われてもよい。この場合、所定ノイズ期間特定情報は、例えば、信号処理装置100またはその周辺機器が有する駆動部が駆動されることにより発生するノイズの発生期間を特定する情報である。
以下、図1に示す各機能構成について説明する。信号処理装置100は、例えば、信号分割部110と、ノイズ区間特定部120と、目的音区間特定部130と、ノイズ低減部140と、目的音抽出部150と、出力信号生成部160とを備える。これらの機能部の一部または全部は、例えば、信号処理装置100のプログラムメモリに格納された信号処理プログラムを、CPUが実行することにより機能するソフトウェア機能部である。また、これらの機能部の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェア機能部であってもよい。
信号分割部110は、音信号を、所定の窓サイズ(時間的長さ)を有する複数の「区間」に分割する。以下、「区間」と表記したときは、信号分割部110により分割された各区間を意味するものとする。信号分割部110は、互いにオーバーラップした区間に音信号を分割してもよい。また、信号分割部110は、必ずしも分割された信号の区間同士をオーバーラップさせる必要はない。すなわち、「区間」とは、所定の間隔を空けて設定されているような場合も、間隔を空けず且つオーバーラップもさせない場合も含む概念である。また、ある時間領域の所定区間を周波数変換し、周波数領域に変換された区間に対しても「区間」と表記されるものとする。本実施形態では、説明を簡略化するために、係るオーバーラップに関する説明を省略する。
[ノイズ区間の特定]
ノイズ区間特定部120は、前述した所定ノイズ期間特定情報を参照して、信号分割部110により分割された各区間に所定のノイズが含まれるか否かを判定し、音信号における所定のノイズが含まれる区間(以下、「所定ノイズ区間」)を特定する。ノイズ区間特定部120は、分割された区間内に所定のノイズの発生期間が少しでも含まれていれば、所定ノイズ区間と判定してもよいし、ある程度の割合以上の所定のノイズの発生期間が区間内に含まれる場合に、所定ノイズ区間と判定してもよい。
[目的音区間の特定]
目的音区間特定部130は、各区間について目的音が含まれるか否かを判定し、目的音が含まれる区間(以下、「目的音区間」)を特定する。本実施形態における目的音は、例えば、人が発した声(音声)である。また、目的音は、音声に限らず、鳥や動物の鳴き声、楽器により演奏された音などであってもよい。
例えば、目的音区間特定部130は、音信号の各区間に対して自己相関関数のピーク値を求め、ピーク値を閾値と比較することにより、目的音区間を特定する。図2は、音声を含む音信号の波形の一例を示す図である。また、図3は、音信号の一部を切り出して求めた自己相関関数の波形の一例を示す図である。音声などの目的音は、発音機構(例えば人の声帯)の振動数に対応した基本周波数、およびその倍音に対応した周波数帯域にピークが集中する性質(調波性)を有している。目的音区間特定部130は、この調波性を利用して、自己相関関数のピーク値の大きさに基づいて、目的音が区間に含まれているか否かを判定する。
図3におけるτ1およびτ2は、自己相関のラグであり、例えば、目的音を検出する対象の周波数帯域の下限と上限に対応する値に設定される。目的音が音声である場合、目的音区間特定部130は、周波数f1(例えば50[Hz]程度)から周波数f2(例えば400[Hz]程度)の範囲で目的音の検出を行う。τ1およびτ2は、サンプリング周波数をfsとすると、次式(1)、(2)により求められる。ここで、f1<f2であるため、τ1>τ2が成立する。
τ1=fs/f1 ‥(1)
τ2=fs/f2 ‥(2)
目的音区間特定部130は、各区間について、ラグτ1とτ2の間の自己相関関数のピーク値(図3におけるτ0に対応)を求め、ピーク値が閾値以上である場合に、目的音区間であると判定する。図4は、ある音信号の波形と、自己相関関数のピーク値が閾値を超えたか否かを対比した図である。図4(A)に示す音信号は、前半に所定ノイズが含まれており、後半に目的音が含まれている。このような音信号に対して、音信号を分割した各区間について自己相関関数のピーク値が閾値以上であるか否かを判定した結果が、図4(B)となる。図4(B)は、自己相関関数のピーク値が閾値以上である区間をHighで、閾値未満である区間をLowで示している。
また、自己相関関数のピーク値をつけるラグτ0でサンプリング周波数fsを除算することによって、音信号の基本周波数F0が求められる(次式(3)参照)。基本周波数F0は、後述する目的音抽出部150によるフィルタ処理においても用いられる。例えば、サンプリング周波数fsが48[kHz]、ラグτ0が400である場合、基本周波数F0は120[Hz]となる。なお、目的音区間特定部130は、自己相関関数を用いて目的音区間を特定するのではなく、他の手法により目的音区間を特定してもよい。
F0=fs/τ0 ‥(3)
[ノイズ低減処理]
ノイズ低減部140は、音信号の各区間に対して周波数スペクトルを求め、周波数領域でノイズを低減する処理を行い、その後、時間領域の信号に戻す処理を行う(以下、ノイズ低減処理)。ノイズ低減部140は、例えば、FFT(Fast Fourier Transform;高速フーリエ変換)処理によって、周波数領域毎の振幅情報と位相情報を求め、周波数スペクトルを得る。より具体的には、ノイズ低減部140は、サンプリング周波数(例えば、前述と同じように48[kHz])fsで求めた時間領域の音信号について、1フレーム4096サンプルのFFT処理を行う。この際に、ノイズ低減部140は、例えば、ハニングウィンドウ処理を行い、隣のフレームと1/2オーバーラップするようにしてFFT処理を行う。図5は、音信号に乗算される窓関数を示す図である。図5におけるW1〜W4は、各フレームに対応する窓関数を示している。なお、ノイズ低減部140は、ハミングウィンドウやガウスウィンドウ等、他の窓関数を使用した処理を行ってもよい。
周波数スペクトルを得ると、ノイズ低減部140は、音信号の周波数スペクトルから推定ノイズの周波数スペクトルを減算する(以下、スペクトル減算)。推定ノイズの周波数スペクトルは、前述した所定のノイズに対応する周波数スペクトルであり、周波数スペクトル全体を所望の間隔で区切った周波数ビン毎に振幅が記された情報である。
推定ノイズの周波数スペクトルは、予め実験等により得られたデータが用いられてもよいし、信号処理装置100が学習処理によって更新してもよい。後者の場合、ノイズ低減部140は、所定ノイズ区間における音信号の周波数スペクトルと、所定ノイズ区間でも目的音区間でもない区間における音信号の周波数スペクトルとの比較に基づいて、推定ノイズの周波数スペクトルを更新する。所定のノイズが複数種類存在する場合、これに対応して推定ノイズも複数用意されてよい。図6(A)は、ノイズ低減部140により減算が行われる前の周波数スペクトルを示し、図6(B)は、ノイズ低減部140により減算が行われた後の周波数スペクトルを示す。図6において、f0〜f7は、周波数ビンである。
但し、ノイズ低減部140は、減算後の周波数スペクトルと、所定のノイズ期間に含まれない期間(マイクを備える装置において動作部の動作が行われてない期間)の周波数スペクトルである環境音特徴スペクトルとの比較を行い、環境音特徴スペクトルを下回る減算後の周波数ビンについては、環境音特徴スペクトルのレベルに置き換える処理(以下、置き換え処理)を行ってもよい。環境音特徴スペクトルは、音信号が録音された環境において自然に発生する音に近い音を録音しているため、環境音特徴スペクトルを下回る水準までノイズを除去すると、かえって不自然な静寂期間を作り出してしまうからである。環境音特徴スペクトルは、所定のノイズも目的音も含まれない音信号の周波数スペクトルであり、後述するように、学習処理によって更新される。また、置き換え処理を行う際は、減算後の周波数スペクトルと時間的に近い環境音特徴スペクトルに置き換えることが好ましい。また、置き換え処理を行う際に、環境音特徴スペクトルに対して所定の値を乗算、加算等行ってから置き換えを行ってもよい。
ノイズ低減部140は、このようにノイズ低減処理を行うと、処理後の周波数スペクトルに対して、例えば、FFTで求めた位相を用いたIFFT(Inverse FFT;逆高速フーリエ変換)処理を行い、周波数スペクトルを時間領域の音信号に戻す。また、ノイズ低減部140は、IFFTを行った後、隣のフレームと1/2フレーム重なり合うように重ねあわせ処理を行う。
[目的音抽出処理]
目的音抽出部150は、例えば、デシメーションフィルタ等を用いて間引き処理を行い、次に、倍音成分を有する音を高いゲインで通過させるフィルタ処理を行い、次にインタポレーションフィルタ等を用いて補間処理を行う(以下、目的音抽出処理)。目的音抽出部150は、間引き処理によって、例えば、音信号の基本周波数F0の10倍(1.2[kHz])を超える6[kHz]以上の成分をカットすることができる。ここで、間引き後のサンプリング周波数は、確保しようとする周波数帯域(基本周波数F0の10倍)の倍以上の周波数である必要がある(サンプリング定理)。目的音抽出部150は、例えば、元のサンプリング周波数fsが48[kHz]であれば、これを1/4にした12[kHz]への間引き処理を行う。前述したように、基本周波数F0が120[Hz]であれば、間引き後のサンプリング周波数(12[kHz])は、上記サンプリング定理を満たしている。また、目的音抽出部150は、フィルタ処理後の信号を、12[kHz]から48[kHz]に戻すように補間処理を行う。
図7は、目的音抽出部150が行うフィルタ処理のフィルタ特性の一例を示す図である。図7において、横軸は周波数であり、縦軸はフィルタ処理のゲインを示す。また、図7において、F0は対象区間における音信号の基本周波数であり、目的音区間特定部130による処理の過程で導出される。目的音抽出部150は、例えば、音信号に対してコンボリューション処理を行うことによって、図7に示すフィルタ特性を実現する。このようなフィルタは、一般的にIIR(Infinite Impulse Response;無限インパルス応答)フィルタで作成されるため、急峻な周波数選択性を実現することができるが、線形位相を保つことが難しいので、フィルタ処理後の波形に歪みが生じる場合がある。
目的音抽出部150は、図7に示すフィルタ特性とは逆の特性でフィルタ処理を行い、処理後の音信号を元の音信号から差し引く処理を行ってもよい。図8は、目的音抽出部150が行うフィルタ処理のフィルタ特性の一例を示す図である。このようなフィルタは、一般的にFIR(Finite Impulse Response;有限インパルス応答)フィルタで作成されるため、急峻な特性を実現するのは難しいが、線形位相を保つことが可能であり、目的音の劣化程度を小さくすることができる。
従って、周波数選択性を重視する場合(目的音以外の音を、より確実に低減したい場合)は、IIRフィルタを採用すると好適であり、目的音の品質を重視する場合(多少、他の音が混じってもよい場合)は、FIRフィルタを採用すると好適である。信号処理装置100は、用途に適したいずれか一方のフィルタ処理のみを行ってもよいし、ユーザの選択に応じて、または環境に応じて自動的に、フィルタ処理の手法を切り替えてもよい。また、図7や図8に示す形状のフィルタ特性は、あくまで一例であり、周波数選択性をより急峻に、或いはより緩やかに変更することが可能である。
出力信号生成部160は、ノイズ低減部140による処理結果(以下、音信号A)と、目的音抽出部150による処理結果(以下、音信号B)とに基づいて、出力信号を生成する。より具体的には、出力信号生成部160は、音信号Aと音信号Bとを加算して、出力信号を生成する。なお、出力信号生成部160は、ノイズ低減部140や目的音抽出部150による各種処理によって生じ得るディレイを調整した上で、加算処理を行う。また、出力信号生成部160は、音信号Aと音信号Bとをそのまま加算して出力信号を生成すると、元の音信号よりも音量が大きくなるため、音信号Aと音信号Bにそれぞれ係数Ca、Cbを乗じてから加算を行ってもよい。係数Ca、Cbは任意に定めてよく、例えば、双方を0.5程度に設定してもよいし、目的音を強調したければ、係数CbをCaよりも大きく設定してもよい。なお、目的音抽出部150が後述するようにゼロ出力をする場合、係数Caは1に設定されてよい。
このように、信号処理装置100は、ノイズ低減処理が行われた音信号に、目的音の抽出処理が行われた音信号を加算して出力信号を生成することで、ノイズ低減処理による目的音の劣化を補うことができる。目的音の抽出処理が行われた音信号は、周波数領域における減算処理を経ていないため、目的音の品質が高いからである。この結果、信号処理装置100は、ノイズを適切に低減しつつ、目的音の劣化を抑制することができる。
[処理フロー]
図9は、第1実施形態の信号処理装置100により実行される処理の流れを示すフローチャートの一例である。本フローチャートの処理は、例えば、分割される全ての区間について繰り返し実行される。
まず、信号分割部110が、音信号から1つの区間を切り出して対象区間とする(ステップS200)。次に、ノイズ区間特定部120が、対象区間が所定ノイズ区間かどうかを特定し(ステップS202)、目的音区間特定部130が、対象区間が目的音区間かどうかを特定する(ステップS204)。これらの特定された情報は、メモリなどに格納される。続いて、ノイズ低減部140がステップS206〜S220の処理を、目的音抽出部150がステップS222〜S232の処理を、並行して行う(必ずしも「同時に」行う必要は無い)。
ノイズ低減部140は、対象区間についてFFT処理を行い(ステップS206)、対象区間が所定ノイズ区間であるか否かを判定する(ステップS208)。対象区間が所定ノイズ区間である場合、ノイズ低減部140は、推定ノイズを更新し(ステップS210)、スペクトル減算を行い(ステップS212)、環境音特徴スペクトルへの置き換え処理を行う(ステップS214)。
対象区間が所定ノイズ区間でない場合、ノイズ低減部140は、対象区間が目的音区間であるか否かを判定する(ステップS216)。対象区間が目的音区間でない場合、ノイズ低減部140は、ステップS214で用いられる環境音特徴スペクトルを更新する(ステップS218)。ステップS206〜S218の処理を実行すると、ノイズ低減部140は、IFFTを行い(ステップS220)、対象区間についての処理を終了する。
なお、ノイズ低減部140は、推定ノイズや環境音特徴スペクトルの更新に際して、過去に得られた値との移動平均を求めたり、異常値を検出して除外したり、共通部分を抽出して重み付けを大きくするなど、統計的に有意な値を得るための各種処理を行ってよい。
一方、目的音抽出部150は、対象区間が所定ノイズ区間であるか否かを判定し(ステップS222)、対象区間が所定ノイズ区間である場合は、対象区間が目的音区間であるか否かを判定する(ステップS224)。対象区間が所定ノイズ区間でない場合、または対象区間が目的音区間でない場合は、目的音抽出部150は、ゼロ出力をする(ステップS232)。対象区間が所定ノイズ区間でない場合は、スペクトル減算が行われないため目的音の劣化が小さいからであり、対象区間が目的音区間でない場合は、そもそも抽出すべき目的音が含まれていない可能性が高いからである。
対象区間が所定ノイズ区間であり、且つ目的音区間である場合、目的音抽出部150は、前述したように、間引き処理を行い(ステップS226)、ステップS204において導出される基本周波数F0を用いてフィルタ処理を行い(ステップS228)、補間処理を行う(ステップS230)。
こうしてノイズ低減部140と目的音抽出部150がそれぞれの処理を行うと、出力信号生成部160が、それぞれの処理結果を加算する処理を行い(ステップS234)、1つの区間に関する処理が終了する。なお、図9に示す処理に代えて、例えば、まず、ステップS200〜S204の処理を全ての区間に対して行い、その後で、1つずつ取り出した区間に対してステップS206〜S234の処理を繰り返し行ってもよい。
以上説明した第1実施形態の信号処理装置100によれば、ノイズ低減処理が行われた音信号に、目的音の抽出処理が行われた音信号を加算して出力信号が生成される。この結果、信号処理装置100は、ノイズを適切に低減することができる。
また、第1実施形態の信号処理装置100によれば、周波数領域でノイズ低減処理が行われた音信号に、時間領域で目的音の抽出処理が行われた音信号を加算して出力信号を生成するため、ノイズ低減処理による目的音の劣化を、時間領域で抽出された目的音で補うことができる。この結果、信号処理装置100は、目的音の劣化を抑制することができる。
また、第1実施形態の信号処理装置100によれば、目的音の一つである、音声の基本周波数F0の整数倍に対応する周波数成分を抽出する処理を時間領域で行っているため、基本周波数F0の整数倍に対応する周波数成分を周波数領域で抽出する場合と比較して、より適切に基本周波数F0の整数倍に近い周波数成分を抽出することができる。周波数領域で基本周波数F0の整数倍に対応する周波数を抽出する場合、周波数領域に変換された音信号は、周波数軸方向に対して離散的になっているため、基本周波数F0を整数倍(例えば2倍)した周波数に対応する周波数ビンが近くにない場合がある。これに対し、時間領域の処理では、周波数領域の処理と比較して小さい周波数ステップでピーク周波数を定義できるため、基本周波数F0の整数倍の周波数により近い周波数成分を抽出することができる。従って、第1実施形態の信号処理装置100は、基本周波数F0の整数倍に近い周波数成分に基づいて、上述したフィルタ処理を適切に行うことができる。
また、第1実施形態の信号処理装置100によれば、所定ノイズ区間であり、且つ目的音区間である区間について、目的音の抽出処理が行われた音信号を加算して出力信号を生成し、それ以外の区間については目的音の抽出処理を行わずに出力信号を生成するため、目的音の抽出処理によって処理負荷が増加するのを抑制することができる。
また、第1実施形態の信号処理装置100によれば、目的音の抽出処理において、倍音成分を有する音を高いゲインで通過させるフィルタ処理を行うため、人が発した声、鳥や動物の鳴き声、楽器により演奏された音などを、目的音として高精度に抽出することができる。
また、第1実施形態の信号処理装置100によれば、目的音の抽出処理においてIIRフィルタを採用する場合、目的音以外の音を、より確実に低減することができる。また、第1実施形態の信号処理装置100によれば、目的音の抽出処理においてFIRフィルタを採用する場合、目的音の品質を向上させることができる。また、第1実施形態の信号処理装置100によれば、目的音の抽出処理においてIIRフィルタとFIRフィルタを切り替え可能に構成される場合、ユーザの嗜好や環境に応じた適切なフィルタ処理を行うことができる。
<第2実施形態>
[機能構成]
以下、本発明の第2実施形態に係る信号処理装置100Aについて説明する。図10は、本発明の第2実施形態に係る信号処理装置100Aの機能構成の一例を示す図である。第2実施形態に係る信号処理装置100Aでは、ノイズ低減部140が減算前後比演算部142を備え、目的音抽出部150が周波数特性調整部152を備える点で、第1実施形態の信号処理装置100と異なる。その他の機能構成については、第1実施形態と同様であるため、図1と同様の名称および符号を付して説明を省略する。
ところで、目的音抽出処理によって抽出された目的音を、ノイズ低減処理後の音信号と加算すると、ノイズ低減処理後の音信号における目的音成分の残り具合によっては、加算後の目的音のボリュームが、元々の音信号と比較して過大または過小となる場合がある。第2実施形態に係る信号処理装置100Aは、このような事情を考慮し、目的音抽出処理によって抽出された目的音の成分を、ノイズ低減処理における処理結果に基づいて、周波数毎に調整する。以下、これについて説明する。
減算前後比演算部142は、ノイズ低減部140がスペクトル減算を行ったときに、減算前振幅と、減算後振幅とを比較して、減算後振幅を減算前振幅で除算した比率(減算前後比)を周波数ビン毎に算出する。例えば、減算前振幅が図6(A)に示すものであり、減算後振幅が図6(B)に示すものであった場合、周波数ビン毎の減算前後比は、図11に示すものとなる。図11は、減算前後比演算部142により算出される減算前後比の一例を示す図である。減算前後比演算部142による演算結果は、周波数特性調整部152に提供される。
周波数特性調整部152は、例えば、目的音の基本周波数F0の整数倍に対応する周波数ビンにおける減算前後比を参照し、参照した値に基づき、フィルタ処理において基本周波数F0の整数倍の音を通過させる比率(ゲイン)を調整する。なお、「対応する」とは、基本周波数F0の整数倍の値と等しい、基本周波数F0の整数倍の値に最も近い、または基本周波数F0の整数倍の値の近傍の、周波数ビンを意味する。
より具体的には、周波数特性調整部152は、減算前後比が大きい(余りスペクトル減算されていない)周波数ビンについてはゲインを小さくし、減算前後比が小さい(大きくスペクトル減算されている)周波数ビンについてはゲインを大きくする傾向で、周波数特性を調整する。例えば、目的音の基本周波数F0が周波数ビンf2に対応し、周波数ビンf2の減算前振幅A1=6、減算後振幅A2=1.5であるものとすると、基本周波数F0に対応する減算前後比R=0.25となる。この場合、周波数特性調整部152は、周波数F0に対して、(1−R)=0.75を係数として乗算する周波数特性でフィルタ処理を行う。同様に、周波数特性調整部152は、F0の整数倍に対応する周波数ビンf4、f6の周波数特性も求め、折れ線状の周波数特性を求める。図12は、周波数特性調整部152により決定される周波数特性の一例を示す図である。なお、この際に、周波数特性調整部152は、間引き処理におけるサンプリング周波数変更情報を考慮して、周波数特性を調整する。
係る処理によって、第2実施形態に係る信号処理装置100Aは、目的音抽出処理において抽出した目的音を、周波数毎に、周波数領域のノイズ減算処置によって減少した分に相当する大きさに調整した上で、ノイズ低減処理の結果と加算することができる。この結果、第2実施形態に係る信号処理装置100Aは、処理後の目的音の大きさやバランス等を、処理前の目的音に近づけることができ、出力信号における目的音の品質を向上させることができる。
[処理フロー]
図13は、第2実施形態の信号処理装置100Aにより実行される処理の流れを示すフローチャートの一例である。図13のフローチャートの処理は、例えば、分割される全ての区間について繰り返し実行される。
まず、信号分割部110が、音信号から1つの区間を切り出して対象区間とする(ステップS200)。次に、ノイズ区間特定部120が、対象区間が所定ノイズ区間かどうかを特定し(ステップS202)、目的音区間特定部130が、対象区間が目的音区間かどうかを特定する(ステップS204)。これらの特定された情報は、メモリなどに格納される。続いて、ノイズ低減部140がステップS206〜S220の処理を、目的音抽出部150がステップS222〜S232の処理を、並行して行う(必ずしも「同時に」行う必要は無い)。
ノイズ低減部140は、対象区間についてFFT処理を行い(ステップS206)、対象区間が所定ノイズ区間であるか否かを判定する(ステップS208)。対象区間が所定ノイズ区間である場合、ノイズ低減部140は、推定ノイズを更新し(ステップS210)、スペクトル減算を行い(ステップS212)、環境音特徴スペクトルへの置き換え処理を行う(ステップS214)。そして、減算前後比演算部142は、減算前後比を周波数ビン毎に算出する(ステップS215)。
対象区間が所定ノイズ区間でない場合、ノイズ低減部140は、対象区間が目的音区間であるか否かを判定する(ステップS216)。対象区間が目的音区間でない場合、ノイズ低減部140は、ステップS214で用いられる環境音特徴スペクトルを更新する(ステップS218)。ステップS206〜S218の処理を実行すると、ノイズ低減部140は、IFFTを行い(ステップS220)、対象区間についての処理を終了する。
なお、ノイズ低減部140は、推定ノイズや環境音特徴スペクトルの更新に際して、過去に得られた値との移動平均を求めたり、異常値を検出して除外したり、共通部分を抽出して重み付けを大きくするなど、統計的に有意な値を得るための各種処理を行ってよい。
一方、目的音抽出部150は、対象区間が所定ノイズ区間であるか否かを判定し(ステップS222)、対象区間が所定ノイズ区間である場合は、対象区間が目的音区間であるか否かを判定する(ステップS224)。対象区間が所定ノイズ区間でない場合、または対象区間が目的音区間でない場合は、目的音抽出部150は、ゼロ出力をする(ステップS232)。
対象区間が所定ノイズ区間であり、且つ目的音区間である場合、目的音抽出部150は、前述したように、間引き処理を行い(ステップS226)、ステップS204において導出される基本周波数F0を用いてフィルタ処理を行い(ステップS228)、ステップS215で算出された減算前後比を用いて周波数特性の調整を行い(ステップS229)、補間処理を行う(ステップS230)。
こうしてノイズ低減部140と目的音抽出部150がそれぞれの処理を行うと、出力信号生成部160が、それぞれの処理結果を加算する処理を行い(ステップS234)、1つの区間に関する処理が終了する。なお、図13に示す処理に代えて、例えば、まず、ステップS200〜S204の処理を全ての区間に対して行い、その後で、1つずつ取り出した区間に対してステップS206〜S234の処理を繰り返し行ってもよい。
以上説明した第2実施形態の信号処理装置100Aによれば、第1実施形態の信号処理装置100と同様の効果を奏することができる他、スペクトル減算を行った際の振幅の減算前後比に基づいて、目的音抽出処理における周波数特性を調整するため、処理後の目的音の大きさやバランス等を、処理前の目的音に近づけることができ、出力信号における目的音の品質を向上させることができる。
なお、第2実施形態の信号処理装置100Aは、目的音の基本周波数F0の整数倍が、各周波数ビンの中心周波数から離れている場合、隣の周波数ビンの演算前後比を加味して周波数特性を調整してもよい。例えば、図12において、目的音の基本周波数F0が、周波数ビンf2の中心周波数から見てf1側にある場合には、周波数ビンf2の減算前後比と、周波数ビンf1の演算前後比とに基づいて、基本周波数F0に対応する減算前後比を求めてもよい。この逆に、目的音の基本周波数F0が、周波数ビンf2の中心周波数から見てf3側にある場合には、周波数ビンf2の減算前後比と、周波数ビンf3の演算前後比とに基づいて、基本周波数F0に対応する減算前後比を求めてもよい。基本周波数F0の2倍、3倍、‥の周波数についても同様である。
<第3実施形態>
以下、本発明の第3実施形態に係る撮像装置1について説明する。撮像装置1は、例えば、動画像を撮像可能なデジタル一眼レフカメラである。図14は、第3実施形態に係る撮像装置1の機能構成の一例を示す図である。第3実施形態に係る撮像装置1は、第1実施形態に係る信号処理装置100または第2実施形態に係る信号処理装置100Aと同等の機能を有する信号処理部100Bを備える。
[構成]
撮像装置1は、レンズ部10と、本体部20とを備える。レンズ部10は、例えば、ズームエンコーダ11と、AF(Auto Focus)エンコーダ12と、モータ(モータ群)13と、レンズCPU14とを備える。ズームエンコーダ11は、図示しないズームレンズの位置を表わすズームポジションを検出するための情報を、レンズCPU14に出力する。AFエンコーダ12は、図示しないAFレンズの位置を表わすフォーカスポジションを検出するための情報を、レンズCPU14に出力する。例えば、ズームエンコーダ11およびAFエンコーダ12は、ズームレンズやAFレンズが移動している場合にパルス信号を出力し、ズームレンズやAFレンズが移動を終了した場合にパルス信号の出力を停止する。また、ズームエンコーダ11およびAFエンコーダ12は、ズームレンズやAFレンズが移動している方向を検出可能な情報を出力してもよい。
モータ13は、レンズCPU14から入力される駆動制御信号に基づいて、ズームレンズやAFレンズの位置を制御する。レンズCPU14は、ボディCPU21から入力される駆動制御信号に基づいて、モータ13を駆動する。
本体部20は、ボディCPU21と、撮像素子22と、マルチセレクタ(十字キー)23と、マイク30と、A/D変換部31と、信号処理部100Bと、動画記録部32とを備える。ボディCPU21は、例えば、ズームエンコーダ11またはAFエンコーダ12から入力されるズームレンズまたはAFレンズの位置、ユーザによる各種操作を受け付けるマルチセレクタ23から入力される操作信号等に基づいて、ズームレンズまたはAFレンズの位置を制御する駆動制御信号を生成し、レンズCPU14に出力する。なお、係る処理は、レンズCPU14が行ってもよい。撮像素子22は、受光面に結像した光学像を電気信号に変換し、赤色(R),緑色(G),青色(B)の各色に対応する画像信号を生成する。
マイク30は、撮像装置1の周辺の音を集音する。マイク30が集音した音は、A/D変換部31を介して、「音信号」として信号処理部100Bに出力される。
信号処理部100Bは、例えば、専用のCPUを備え、CPUがプログラムを実行することにより、第1または第2実施形態における信号分割部110、ノイズ区間特定部120、目的音区間特定部130、ノイズ低減部140、目的音抽出部150、出力信号生成部160と同等の機能を実現する(図1または図10参照)。前述したように、これらの機能部の一部は、ハードウェア機能部であってもよい。信号処理部100Bが生成した出力信号は、撮像素子22により撮像された動画と時間的に同期した信号として、動画記録部32に格納される。なお、動画記録部32は、撮像装置1に対して着脱可能に接続される記憶媒体であってよい。また、信号処理部100Bは、ボディCPU21により実現されてもよい。
[ノイズ区間の特定]
信号処理部100Bのノイズ区間特定部120は、まず、モータ13の駆動タイミングに基づいて、音信号に所定のノイズが含まれる期間に関する情報(所定ノイズ期間特定情報)を生成する。そして、ノイズ区間特定部120は、生成した所定ノイズ期間特定情報に基づき、信号分割部110により分割された各区間のうち、所定のノイズが含まれる区間(所定ノイズ区間)を特定する。
本実施形態における所定のノイズは、モータ13によりズームレンズまたはAFレンズ等の動作部が駆動されることにより発生するノイズである。また、これに限らず、撮像装置1の信号処理部100Bにおいて所定のノイズとして扱われるノイズは、防振用レンズ(VR(Vibration Reduction)レンズ)、シャッター機構、スイッチ、ポップアップ式の光源等の動作部が駆動または操作されることにより発生するノイズを含んでもよい。これらの駆動は、ユーザの操作により開始されることもあるし、自動的に開始されることもある。いずれの場合も、ボディCPU21から駆動制御信号が出力されたタイミング等から、所定のノイズの発生期間を特定することができる。
音信号に所定のノイズが含まれる期間は、ボディCPU21から出力される駆動制御信号、および、ズームエンコーダ11またはAFエンコーダ12の出力するパルス信号に基づいて特定される。図15は、モータ13が駆動されたときの、ボディCPU21から出力される駆動制御信号、ズームエンコーダ11またはAFエンコーダ12(図中、単に「エンコーダ」と表記)の出力するパルス信号、およびマイク30の出力の時間変化を例示した図である。図15に示すように、駆動制御信号が出力されると、時刻t1においてモータ13が駆動されてノイズを発生させる。次に、時刻t2においてズームレンズまたはAFレンズが移動を開始し、ズームエンコーダ11またはAFエンコーダ12がパルス信号の出力を開始する。レンズによっては、駆動系(ギヤ列等)のバックラッシュの影響で、駆動方向反転時に、駆動開始よりも遅れてパルス信号が出力される場合がある。このため、駆動制御信号を、音信号に所定のノイズが含まれる期間の開始時点とする方が、より正確に所定のノイズが含まれる期間を特定することができる。時刻t3においてズームレンズまたはAFレンズが移動を終了すると、ズームエンコーダ11またはAFエンコーダ12がパルス信号の出力を停止する。
ノイズ区間特定部120は、駆動制御信号が出力された時刻t1から、ズームエンコーダ11またはAFエンコーダ12がパルス信号の出力を停止した時刻t3までを、所定のノイズが発生した期間とする。
所定ノイズ期間特定情報が生成された後の、音信号に対する処理は、第1実施形態または第2実施形態の処理と同様である。従って、以降の処理については、第1実施形態または第2実施形態の説明を援用し、説明を省略する。
以上説明した第3実施形態の撮像装置1によれば、マイクで集音した音に含まれるノイズを適切に低減しつつ、目的音の劣化を抑制することができる。また、信号処理部100Bを撮像装置1が内蔵することで、パーソナルコンピュータ等に音信号を出力して信号処理を行わなくても、撮像装置1の内蔵する表示装置やスピーカにより、クリアな目的音の再生を行うことができる。
<変形等>
以上、本発明を実施するための形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。また、上述の実施例を適宜組み合わせたものも、本発明に含まれる。
例えば、本発明の信号処理装置は、撮像装置以外の機器(例えば、携帯電話、タブレット端末、録音装置、電子玩具等、マイクと駆動部を備える任意の機器)に適用することもできる。
また、音声を目的音とする場合、信号処理装置は、音信号と同期して撮像された動画像に人の顔画像が含まれるか否かに応じて、目的音区間であるか否かの判定手法を変更してもよい。例えば、信号処理装置は、動画像に人の顔画像が含まれる区間については、自己相関関数のピーク値に対する閾値を低下させ、目的音(音声)であると判定しやすくしてもよい。動画像に人の顔画像が含まれる場合、その人が声を発している可能性が高いからである。こうすることによって、その人が比較的小さい声で話している場合であっても、音声を高感度に抽出してクリアに再生することができる。
また、ユーザにより設定された撮像シーン、或いは、自動的に判別された撮像シーンによって、目的音抽出処理の有無や処理の方法を変更しても良い。例えば、撮像シーンが「風景」のように、人が存在する可能性の低いシーンである場合は、目的音抽出処理をオフにし、周波数領域におけるノイズ低減処理のみ行ってもよい。こうすれば、不要な目的音抽出処理を省略し、処理負荷を低減することができる。また、撮像シーンが「ポートレート」や「パーティー」のように、人が存在する可能性の高いシーンである場合は、目的音抽出部150による処理結果(音信号B)に乗算される係数Cbを、通常時よりも高くしてもよい(例えば、通常時は0.5であるところを1にしてよい)。こうすれば、音声を高感度に抽出してクリアに再生することができる。
1‥撮像装置、13‥モータ、21‥ボディCPU、30‥マイク、32‥動画記録部、100、100A‥信号処理装置、100B‥信号処理部、110‥信号分割部、120‥ノイズ区間特定部、130‥目的音区間特定部、140‥ノイズ低減部、142‥減算前後比演算部、150‥目的音抽出部、152‥周波数特性調整部、160‥出力信号生成部

Claims (9)

  1. 時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第1の処理部と、
    前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第2の処理部と、
    前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する生成部と、
    を備える信号処理装置。
  2. 請求項1記載の信号処理装置であって、
    前記音信号における目的音が含まれる区間を特定する目的音区間特定部とを備え、
    前記生成部は、前記音信号における前記目的音が含まれる区間について、前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する、
    信号処理装置。
  3. 請求項1または2記載の信号処理装置であって、
    前記音信号における所定のノイズが含まれている区間を特定するノイズ区間特定部を備え、
    前記生成部は、前記音信号における、前記目的音と前記所定のノイズとが含まれる区間について、前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する、
    信号処理装置。
  4. 請求項1から3のうちいずれか1項記載の信号処理装置であって、
    前記第2の処理部は、前記音信号における特定の周波数と、前記特定の周波数の整数倍の周波数とを高いゲインで通過させるフィルタ処理を行う、
    信号処理装置。
  5. 請求項2記載の信号処理装置であって、
    前記目的音区間特定部は、前記音信号に基づき自己相関関数を求め、前記自己相関関数の波形における特徴箇所に基づいて前記目的音が含まれる区間を特定し、
    前記第2の処理部は、前記音信号における前記ピーク値に対応する特定の周波数と、前記特定の周波数の整数倍の周波数とを、高いゲインで通過させるフィルタ処理を行う、
    信号処理装置。
  6. 請求項4または5項記載の信号処理装置であって、
    前記第2の処理部は、前記音信号における特定の周波数と前記特定の周波数の整数倍の周波数とを低いゲインで通過させた結果を、前記音信号から差し引くことにより、前記音信号における特定の周波数と前記特定の周波数の整数倍の周波数とを、高いゲインで通過させるフィルタ処理を行う、
    信号処理装置。
  7. 請求項4から6のうちいずれか1項記載の信号処理装置であって、
    前記第1の処理部は、前記周波数スペクトルに対する減算処理を行い、
    前記第2の処理部は、前記第1の処理部による減算処理の結果に基づいて、前記フィルタ処理における周波数特性を調整する、
    信号処理装置。
  8. 請求項3記載の信号処理装置と、
    音を集音する集音部と、
    駆動部と、
    前記集音部によって集音された音に基づく音信号が記憶される記憶部と、を備え、
    前記ノイズ区間特定部は、前記駆動部が駆動されたタイミングに基づいて、前記集音部により集音された音信号に前記所定のノイズが含まれる区間を特定する、
    撮像装置。
  9. コンピュータを、
    時系列信号である音信号の所定区間に対する周波数スペクトルを求め、前記周波数スペクトルに対して処理を行う第1の処理部と、
    前記音信号の前記所定区間の少なくとも一部を含む区間に対して時間領域で処理を行う第2の処理部と、
    前記第1の処理部の処理結果と前記第2の処理部の処理結果とに基づいて出力信号を生成する生成部と、
    として機能させるためのプログラム。
JP2013114058A 2013-05-30 2013-05-30 信号処理装置、撮像装置、およびプログラム Pending JP2014232267A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013114058A JP2014232267A (ja) 2013-05-30 2013-05-30 信号処理装置、撮像装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013114058A JP2014232267A (ja) 2013-05-30 2013-05-30 信号処理装置、撮像装置、およびプログラム

Publications (1)

Publication Number Publication Date
JP2014232267A true JP2014232267A (ja) 2014-12-11

Family

ID=52125678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013114058A Pending JP2014232267A (ja) 2013-05-30 2013-05-30 信号処理装置、撮像装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP2014232267A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208167A1 (ja) * 2015-06-23 2016-12-29 日本電気株式会社 音源位置検出装置、音源位置検出方法、音源位置検出プログラムおよび記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208167A1 (ja) * 2015-06-23 2016-12-29 日本電気株式会社 音源位置検出装置、音源位置検出方法、音源位置検出プログラムおよび記憶媒体
JPWO2016208167A1 (ja) * 2015-06-23 2018-04-05 日本電気株式会社 音源位置検出装置、音源位置検出方法、音源位置検出プログラムおよび記憶媒体
GB2555278A (en) * 2015-06-23 2018-04-25 Nec Corp Sound source position detection device, sound source position detection method, sound source position detection program, and storage medium
US10845460B2 (en) 2015-06-23 2020-11-24 Nec Corporation Sound source position detection device, sound source position detection method, sound source position detection program, and recording medium
GB2555278B (en) * 2015-06-23 2021-07-07 Nec Corp Sound source position detection device, sound source position detection method, sound source position detection program, and recording medium

Similar Documents

Publication Publication Date Title
JP5529635B2 (ja) 音声信号処理装置および音声信号処理方法
US9495950B2 (en) Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
KR101739942B1 (ko) 오디오 노이즈 제거 방법 및 이를 적용한 영상 촬영 장치
JP2008263498A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
JP4816334B2 (ja) ノイズ低減装置、撮像装置、ノイズ低減方法およびプログラム
US10535363B2 (en) Audio processing apparatus and control method thereof
US20150271439A1 (en) Signal processing device, imaging device, and program
JP2008263483A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
JP5153389B2 (ja) 音響信号処理装置
JP2011077604A (ja) ノイズ除去装置、レンズ装置、撮像装置、ノイズ除去方法
JP5361398B2 (ja) 撮像装置
JP5349062B2 (ja) 音響処理装置及びそれを備えた電子機器並びに音響処理方法
US9734840B2 (en) Signal processing device, imaging apparatus, and signal-processing program
JP2014232267A (ja) 信号処理装置、撮像装置、およびプログラム
JPWO2022259589A5 (ja)
JP2012185445A (ja) 信号処理装置、撮像装置、及び、プログラム
JP5327735B2 (ja) 信号再生装置
JP5018860B2 (ja) 信号処理装置及び撮像装置
JP2018207313A (ja) 音声処理装置及びその制御方法
JP2018207316A (ja) 音声処理装置及びその制御方法
US11682377B2 (en) Sound processing apparatus, control method, and recording medium
JP2023077995A (ja) 撮影装置、制御方法、およびプログラム
JP6931296B2 (ja) 音声処理装置及びその制御方法
JP2023077339A (ja) 撮影装置、制御方法、およびプログラム
JP6886352B2 (ja) 音声処理装置及びその制御方法