JP5998483B2 - 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 - Google Patents

音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5998483B2
JP5998483B2 JP2012003265A JP2012003265A JP5998483B2 JP 5998483 B2 JP5998483 B2 JP 5998483B2 JP 2012003265 A JP2012003265 A JP 2012003265A JP 2012003265 A JP2012003265 A JP 2012003265A JP 5998483 B2 JP5998483 B2 JP 5998483B2
Authority
JP
Japan
Prior art keywords
signal
audio
spectrum
sound
spectrum signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012003265A
Other languages
English (en)
Other versions
JP2013142797A (ja
JP2013142797A5 (ja
Inventor
俊之 関矢
俊之 関矢
慶一 大迫
慶一 大迫
安部 素嗣
素嗣 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012003265A priority Critical patent/JP5998483B2/ja
Publication of JP2013142797A publication Critical patent/JP2013142797A/ja
Publication of JP2013142797A5 publication Critical patent/JP2013142797A5/ja
Application granted granted Critical
Publication of JP5998483B2 publication Critical patent/JP5998483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声信号処理装置、音声信号処理方法、プログラム及び記録媒体に関する。
動画撮像機能を有するカメラ又はICレコーダ等の録音装置は、音声を収音して音声信号を出力するマイクロホンを備えている。このマイクロホンによる録音音声には、ユーザが録音を所望する音(周囲の環境音や人の話し声等。以下、所望音という。)のみならず、種々の雑音が混入することがある。例えば、屋外での録音時には、風がマイクロホンに当たることにより風雑音が発生し、該風雑音が所望音とともに収音されてしまう。この風雑音対策としては種々の方法が提案されているが、シングルマイクロホンの場合は、ハイパスフィルタ(低域遮断フィルタ)を用いて風雑音を除去することが一般的である。
また、複数のマイクロホンで得られる音声信号を利用して風雑音を低減する方法として、特許文献1には、2つのマイクロホンからの入力音声信号をそれぞれ周波数変換し、これら2つの信号間の相関を利用して、風雑音を検出・低減する方法が開示されている。詳細には、この特許文献1の低減方法では、当該2つの信号の相関値を周波数帯域ごとに計算し、当該相関値を閾値と比較することで、風雑音の有無を判定する。そして、風雑音が有ると判定された場合に、人間の聴覚特性を表すラウドネスに応じて入力音声信号の減衰量を決定し、周波数帯域ごとに風雑音の低減処理を行う。つまり、ラウドネス曲線の音圧レベルが大きくなる周波数帯域では減衰量を大きくする一方、当該音圧レベルが小さくなる周波数帯域(1000〜4000Hz)では減衰量を小さくして、低減処理を行う。
特開2009−5133号公報
しかしながら、上記特許文献1の低減方法では、所望音の大きさを考慮せずに、ラウドネスのみにより減衰量が決定されるので、実際にマイクロホンで収音された所望音の特性を正しく反映することができず、所望音の不要な劣化をもたらすことがある。即ち、上記低減方法によれば、風雑音が検出されると、所望音の強さにかかわらず、同一の周波数帯域の入力音声信号に対して常に一定の利得を乗算して、入力音声信号を減衰させる。このため、所望音が抑揚(音量の強弱)を有する場合、風雑音が支配的になる、所望音の音量が小さい部分の信号は減衰され、所望音が支配的になる、所望音の音量が大きい部分の信号は減衰されない。従って、録音音声の再生時に、所望音が急に小さくなったり大きくなったりして、所望音の自然性が低下し、再生音の聞こえに違和感が生じる。
そこで、上記事情に鑑みれば、録音対象の所望音を劣化させることなく、風雑音等の雑音を適切に低減することが求められている。
本開示によれば、第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出する相関成分算出部と、前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出する全体成分算出部と、前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正する雑音低減部と、を備える、音声信号処理装置が提供される。
また、本開示によれば、第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出することと、前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出することと、前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正することと、を含む、音声信号処理方法が提供される。
また、本開示によれば、第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出することと、前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出することと、前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正することと、をコンピュータに実行させるためのプログラムが提供される。
また、本開示によれば、前記プログラムが記録された、コンピュータ読み取り可能な記録媒体が提供される。
また、本開示によれば、風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換する第1の周波数変換部と、前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換する第2の周波数変換部と、前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出するクロススペクトル算出部と、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出するパワースペクトル算出部と、前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する雑音低減部と、を備える、音声信号処理装置が提供される。
以上説明したように本開示によれば、録音対象の所望音を劣化させることなく、風雑音等の雑音を適切に低減することができる。
本開示の第1の実施形態に係る風雑音低減方法と従来の風雑音低減方法を概略的に示す模式図である。 2つの音声信号の時間波形と、両信号の相互相関係数を示す信号波形図である。 風雑音の周波数と、風雑音のスペクトル信号の相互相関係数との関係を示す図である。 所望音の周波数と、所望音のスペクトル信号の相互相関係数との関係を示す図である。 ウィナーフィルタの構成を示す模式図である。 同実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成を示すブロック図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係るクロススペクトル算出部の動作を示すフローチャートである。 同実施形態に係るパワースペクトル算出部の動作を示すフローチャートである。 同実施形態に係る雑音低減部の動作を示すフローチャートである。 本開示の第2の実施形態に係る実施形態に係るデジタルカメラを示す斜視図である。 同実施形態に係るスマートフォンを示す斜視図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る信号処理部の概略動作を示すフローチャートである。 同実施形態に係る信号処理部の詳細動作を示すフローチャートである。 本開示の第3の実施形態に係るマイクロホンに対する音源の位置を示す模式図である。 同実施形態に係る音源の位置に応じた相関係数の周波数特性を示す図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係るクロススペクトル補正部の概略動作を示すフローチャートである。 同実施形態に係るクロススペクトル補正部の詳細動作を示すフローチャートである。 本開示の第4の実施形態に係る風雑音の周波数と風雑音のスペクトル信号の相互相関係数との関係を示す図である。 カットオフ周波数を示す図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係るフィルタ制御部の概略動作を示すフローチャートである。 同実施形態に係るフィルタ制御部の詳細動作を示すフローチャートである。 同実施形態に係るフィルタ部の概略動作を示すフローチャートである。 本開示の第1の実施形態に係る算出方法により算出された低減係数と周波数との関係を示す図である。 本開示の第5の実施形態に係る低減係数の補正方法を示す図である。 同実施形態に係る雑音低減部の概略動作を示すフローチャートである。 図29のS156〜S160の詳細動作を示すフローチャートである。 本開示の第6の実施形態に係る音声信号処理装置のハードウェア構成を示すブロック図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る音声信号処理装置の録音装置の動作を示すフローチャートである。 同実施形態に係る音声信号処理装置の処理装置の動作を示すフローチャートである。 マイクロホンの暗騒音の周波数特性と相互相関係数を示す図である。 ファンノイズの周波数特性と相互相関係数を示す図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.第1の実施の形態
1.1.風雑音低減方法の概要
1.2.風雑音低減処理の原理
1.3.音声信号処理装置の構成
1.3.1.音声信号処理装置のハードウェア構成
1.3.2.音声信号処理装置の機能構成
1.4.音声信号処理方法
1.4.1.音声信号処理装置の全体動作
1.4.2.クロススペクトル算出部の動作
1.4.3.パワースペクトル算出部の動作
1.4.4.雑音低減部の動作
1.5.効果
2.第2の実施の形態
2.1.第2の実施形態の概要
2.2.音声信号処理装置の機能構成
2.3.数式の補足
2.4.音声信号処理方法
2.4.1.音声信号処理装置の全体動作
2.4.2.信号処理部の動作
2.5.効果
3.第3の実施の形態
3.1.第3の実施形態の概要
3.2.音声信号処理装置の機能構成
3.3.音声信号処理方法
3.3.1.音声信号処理装置の全体動作
3.3.2.クロススペクトル補正部の動作
3.4.効果
4.第4の実施の形態
4.1.第4の実施形態の概要
4.2.音声信号処理装置の機能構成
4.3.音声信号処理方法
4.3.1.音声信号処理装置の全体動作
4.3.2.フィルタ制御部の動作
4.3.3.フィルタの動作
4.4.効果
5.第5の実施の形態
5.1.第5の実施形態の概要
5.2.音声信号処理装置の機能構成
5.3.音声信号処理方法
5.3.1.音声信号処理装置の全体動作
5.3.2.雑音低減部の動作
5.4.効果
6.第6の実施の形態
6.1.音声信号処理装置のハードウェア構成
6.2.音声信号処理装置の機能構成
6.3.音声信号処理装置の動作
7.その他の適用例
<1.第1の実施の形態>
[1.1.風雑音低減方法の概要]
まず、本開示の第1の実施形態に係る音声信号処理装置及び方法による風雑音低減方法の概要について説明する。
本実施形態に係る音声信号処理装置及び方法は、音声記録装置又は音声再生装置において風雑音を低減する技術に関する。特に、本実施形態では、隣接した複数個のマイクロホンを有する録音機器において、録音機器のマイクロホンに風が当たることにより発生する風雑音を低減対象とする。以下では、音声信号処理装置が、例えば、動画撮像機能及び録音機能を有する撮像装置(小型のデジタルカメラ等)であり、複数のマイクロホンが左右2つのステレオマイクロホン(Lch、Rch)である例について説明する。しかし、本開示の音声信号処理装置及びマイクロホンは、かかる例に限定されない。
屋外において、デジタルカメラにより動画を撮像しながら周辺音声を録音するときには、マイクロホンに風が当たると、風雑音が発生する。一般的に、マイクロホンは、音波の音圧の変化を振動板の機械的な振動に変換し、該振動に基づき電気音響変換系を動作させる構造を有する。かかるマイクロホンで収音する際、風がマイクロホンの振動板に当たると、風雑音が発生する。なお、風雑音は、風により発生する雑音(ノイズ)であれば、上記マイクロホンの振動板に対して風が当たることより生じる雑音のみならず、任意の雑音を含む。
このような風雑音が発生する環境下では、デジタルカメラのマイクロホンは、所望音のみならず、風雑音をも収音してしまい、所望音に風雑音が雑音として混入した状態で録音されてしまう。ここで、所望音は、ユーザが録音を所望する音声(例えば、録音機器の周辺の環境音、人の話し声など、マイクロホンに収音される任意の音を含む。)である。かかる所望音に風雑音が雑音として混入した状態で録音されると、当該録音された音声を再生したときに、所望音に混入した風雑音がユーザにとって耳障りとなる。例えば、所望音は、1000〜4000Hzの周波数帯域に多く分布し、風雑音は、1000Hz以下の周波数帯域に多く分布する。このように風雑音と所望音の周波数帯域はずれているものの、所望音に風雑音が混入していると、録音音声の再生時に風雑音が聞き手にとって耳障りになってしまう。従って、音声記録時又は再生時に、所望音の音質を劣化させることなく、風雑音を適切に除去可能な技術が希求されていた。
そこで、本実施形態では、隣接する2つのマイクロホンを備えた音声記録装置で音声を集音したときに、両マイクロホンから入力される音声信号(以下、単に「入力音声信号」という場合もある。)の相関を利用して、風雑音を低減する。一般に、2つのマイクロホンで風雑音を収音した場合、両マイクロホンの入力信号の相関は低い。従って、当該2つの入力音声信号の相関値の大きさにより、風雑音の有無を判定することが可能である。例えば、上記特許文献1(特開2009−5133号公報)に記載の技術でも、2つのマイクロホンからの入力音声信号の相関値と閾値を比較して、周波数帯域ごとに風雑音の有無を判定し、風雑音が有ると判定された周波数帯域の入力音声信号を減衰させる低減処理を行っている。
しかし、当該特許文献1の低減方法では、周波数のラウドネス量に応じて入力音声信号の減衰量を決定しているが、所望音自体の強さを全く考慮せずに減衰量を決定し、低減処理を行っている。しかし、かかる低減方法では、実際のマイクロホンにより収音された所望音の特性を低減処理に正しく反映させることができず、所望音の自然性の劣化を引き起こす。
そこで、本実施形態では、2つのマイクロホンからの入力音声信号中の風雑音に関する相関のみならず、所望音に関する相関も考慮して、風雑音の低減処理を行う。即ち、本実施形態では、2つの入力音声信号間の風雑音の相関に加え、当該入力音声信号間の所望音の相関、及び各入力音声信号の所望音の強さも考慮して、所望音の特徴と風の特徴に応じた連続的な低減係数を算出し、当該低減係数を用いて雑音低減処理を行う。これにより、実際にマイクロホンにより収音された入力音声信号に応じた適切な低減量を得ることができる。従って、所望音の音質(自然性)を確保し、不要に所望音を劣化させることなく、風雑音を好適に低減することができる。
ここで、図1を参照して、本実施形態に係る風雑音低減方法と、上記特許文献1に係る従来の風雑音低減方法との相違について説明する。図1は、本実施形態に係る風雑音低減方法と従来の風雑音低減方法を概略的に示す模式図である。
従来の低減方法では、ある周波数帯域の2つの入力音声信号の相関値が小さいため風雑音が有ると判断されると、図1(a)に示すように、所望音の強さ(音量)にかかわらず、その周波数帯域の入力音声信号に対して一定の低減係数(利得)が乗算される。これにより、風雑音が有ると判定された区間(所望音が比較的小さい区間)では、風雑音とともに所望音が一定の割合で減衰され、風雑音が無いと判定された区間(所望音が比較的大きい区間)では、所望音が減衰されない。このため、マイクロホンにより収音される所望音が抑揚(音量の強弱)を有する場合、所望音が弱い区間のみが低減されてしまう。従って、録音音声の再生時に、所望音が急に大きくなったり小さくなったりして、所望音の連続性が不自然になり、ユーザは不自然な再生音声に違和感を覚える。
これに対し、本実施形態に係る低減方法では、図1(b)に示すように、風雑音の強さと所望音の強さを考慮して低減係数を算出し、当該低減係数を用いて低減処理がなされる。即ち、本実施形態では、周波数帯域ごとに、2つのマイクロホンの入力音声信号間の相関成分(所望音)のパワーと、各入力音声信号の全体成分(所望音及び風雑音)のパワーを求める。さらに、周波数帯域ごとに、当該全体成分のパワーに対する相関成分のパワーの比率を算出し、当該比率に応じた低減係数を算出する。かかる低減係数は、風雑音の強さのみならず所望音の強さも反映した値であり、所望音の強さに応じて変動する。そして、周波数帯域ごとに、当該低減係数を各入力音声信号に乗じて、当該信号を減衰させることで、風雑音を低減する。
このように、本実施形態では、入力音声の全体成分(所望音+風雑音)に占める相関成分(所望音)の割合に応じて、低減係数を決定する。これにより、当該比率が小さい区間(風雑音が相対的に大きい区間)では、風雑音を大きく低減することができる。当該比率が大きい区間(風雑音が相対的に小さい区間)でも、比率に応じ風雑音を低減することができる。所望音は多少劣化してしまうが、従来技術のように、所望音の抑揚が強調されることは少なくなる。従って、元々の所望音の抑揚をなるべく確保しつつ、風雑音を適切に低減することができる。よって、録音音声の再生時に、所望音の連続性が自然になり、上記従来の低減方法の場合のような違和感を解消できる。
なお、本実施形態では、録音機器の筐体に相互に隣接して配置された複数個のマイクロホンを用いるが、ここで、隣接とは、複数のマイクロホン間の距離が、例えば7cm程度以下、好ましくは5cm程度以下であることを意味する。風の成分が概ね1kHz以下の周波数成分を含み、その周波数成分を低減することを想定した場合、マイクロホン間の距離が上記距離の範囲内であれば、当該周波数成分を適切に低減できる。マイクロホン間の距離が所定距離以上(例えば10cm以上)離れすぎると、双方のマイクロホンで収音される所望音の相関性が低くなるので、上記距離の範囲内であることが好ましい。
また、以下では、録音機器に2つのマイクロホンを設置する例について説明するが、マイクロホンの設置数は3以上であってもよく、この場合には風雑音の低減性能をより向上できる。
[1.2.風雑音低減処理の原理]
次に、本実施形態に係る音声信号処理装置により風雑音を低減する原理について説明する。
[1.2.1.風雑音、所望音の相互相関]
一般に、風雑音は、空気の塊が録音機器の筺体などに当たることで発生する乱流により生じ、不規則な音声信号として観測される。そのため、風雑音は、異なる位置に配置された2つのマイクロホンにより、相互に無相関な音声信号として収音される。
図2は、隣接した2つのマイクロホン(ステレオマイクロホン)から出力されるLchの音声信号x及びRchの音声信号xの時間波形と、両信号x、xの相互相関係数を示す。図2において、2つのマイクロホンの間隔は2cmである。図2に示すように、風雑音のみを含む区間(波線で囲む区間)では、両信号x、xの相互相関係数はほぼゼロとなっており、両信号x、xの間には相関が無いことが分かる。
図3は、風雑音の周波数と、風雑音のスペクトル信号X、Xの相互相関係数との関係を示す。この図3は、2つのマイクロホンから入力された風雑音の音声信号x、x、を周波数変換して、風雑音のスペクトル信号X、Xを生成し、周波数ごとに両信号X、Xの相互相関係数を算出した結果を示している。図3においても、2つのマイクロホンの間隔は2cmである。図3に示すように、風雑音が強い1kHz以下の周波数帯域Bでは、両信号X、Xの相互相関係数がゼロに近い。従って、周波数ごとにみても、2つのマイクロホンで収音される風雑音の信号は、相互に無相関であることがわかる。ただし、200Hz前後の低い周波数帯域Bでは、2つのマイクロホンの間隔に比べて風雑音の波長が非常に大きくなるため、両信号X、Xの相関が高くなる。
一方、隣接した2つのマイクロホンで所望音を収音した場合について検討する。図4は、所望音の周波数と、所望音のスペクトル信号X、Xの相互相関係数との関係を示す。なお、図4の結果は、図2、3と同様に2つのマイクロホンの間隔が2cmである場合において、周波数ごとに、所望音のスペクトル信号X、Xの相互相関係数を算出した結果を示している。図4に示すように、風雑音の強い1kHz以下の周波数帯域では、両信号X、Xの相互相関係数は、ほぼ1となり、2つのマイクロホンで収音される所望音の信号は、相互に高い相関を有することがわかる。
以上の結果から、隣接した2つのマイクロホンにより風雑音を集音した場合には、当該マイクロホンから出力される2つの音声信号の相関はゼロであり、所望音を集音した場合には、当該マイクロホンから出力される2つの音声信号の相関は1であるとみなすことができる。
[1.2.2.低減係数の算出方法]
次に、風雑音を低減するための低減係数Gについて説明する。本実施形態では、2つのマイクロホンから出力された音声信号x、xをフーリエ変換して音声スペクトル信号X、Xを得て、周波数成分ごとに低減係数Gを求める。そして、音声スペクトル信号X、Xの各周波数成分に当該低減係数Gを乗算することで、周波数成分ごとに異なる減衰比率で音声スペクトル信号X、Xを減衰させて、風雑音を低減する。本実施形態に係る風雑音の低減処理の特徴は、上記低減係数Gの算出方法にある。以下に低減係数Gの算出方法について説明する。
なお、以下の説明において、「x」、「x(m)」は、マイクロホンから入力された音声信号(時間領域)を表す。「X」、「X(k)」、「X(k、m)」は、マイクロホンから入力された音声信号(時間領域)を周波数領域に変換した音声スペクトル信号を表す。「s」、「s(m)」は、マイクロホンから入力された所望音(時間領域)を表す。また、「S」、「S(k)」、「S(k、m)」は、所望音のスペクトル成分を表す。「w」、「w(m)」は、マイクロホンから入力された風雑音(時間領域)を表す。「W」、「W(k)」、「W(k、m)」は、風雑音のスペクトル成分を表す。また、「n」は時間インデックス(音声信号を所定時間毎にサンプリングしたときの各時間成分を表す指標)、「k」は周波数インデックス(音声スペクトル信号を所定の周波数帯域毎に分割したときの各周波数成分を表す指標)、「m」はサンプリングされた信号をあるまとまった数毎に束ねて扱う際のフレームインデックス(音声信号の各フレームを表す指標)である。以下では、説明の便宜上、周波数成分やフレームを明示する必要がない場合は、時間インデックスnや、周波数インデックスk、フレームインデックスmを適宜省略して表記する。
本実施形態に係る音声信号処理装置は、第1のマイクロホンから入力された音声信号xと、第2のマイクロホンから入力された音声信号xとの相関成分を表すパラメータとして、音声信号xと音声信号xとのクロススペクトルCLRを求める。この際、音声スペクトル信号Xの周波数成分X(k)ごとに、クロススペクトルCLR(k)を求める。クロススペクトルCLR(k)は、2つの音声信号x、xのスペクトルX、Xの周波数成分X(k)、X(k)を相互に掛け合わせた上で平均したものである。クロススペクトルCLR(k)が、大きな値を示すことは、その周波数帯域においては、2つの音声信号x、xの周波数成分同士の相関が大きい上に、両者の周波数成分の大きさも大きいということを意味する。
さらに、音声信号x、xの全体成分を表すパラメータとして、音声信号x、xのパワースペクトルP、Pを算出する。この際も、音声スペクトル信号X、Xの周波数成分X(k)、X(k)ごとに、パワースペクトルP(k)、P(k)を求める。パワースペクトルP、Pは、音声信号x、xのパワーを一定の周波数帯域毎に分割し、各周波数帯域のパワーを周波数の関数として表したものである。
そして、次の式(1)、(2)のように、周波数成分ごとにクロススペクトルCLR(k)をパワースペクトルP(k)、P(k)でそれぞれ除算して、周波数成分ごとの低減係数G(k)、G(k)を求める。この低減係数G(k)、G(k)は、「音声信号x、xの全体成分を表すパラメータ(P、P)」に対する「音声信号xと音声信号xの相関成分を表すパラメータ(CLR)」の比率に相当する。
(k)=CLR(k)/P(k) ・・・(1)
(k)=CLR(k)/P(k) ・・・(2)
さらに、次の式(3)、(4)のように、周波数成分ごとに低減係数G(k)、G(k)を音声スペクトル信号X(k)、X(k)にそれぞれ乗算して、X(k)、X(k)を減衰させ、風雑音が低減された音声スペクトル信号Y(k)、Y(k)を得る。その後、この信号Y(k)、Y(k)を時間領域に変換して、風雑音が低減された音声信号y、yを得る。
(k)=G(k)・X(k) ・・・(3)
(k)=G(k)・X(k) ・・・(4)
以上のように、本実施形態に係る音声信号処理装置は、低減係数G(k)を音声スペクトル信号X(k)に乗算することで、風雑音を低減する。上記低減係数Gの算出方法について詳述する。
所望音と風雑音を含む音声信号x(m)を周波数領域に変換した音声スペクトル信号X(k,m)は、所望音のスペクトル信号S(k,m)と、風雑音のスペクトル信号W(k,m)を用いて以下の式(10)、(11)で表される。
(k,m)=S(k,m)+W(k,m) ・・・(10)
(k,m)=S(k,m)+W(k,m) ・・・(11)
まず、クロススペクトルCLRの算出式について説明する。2つのマイクロホンから入力される音声信号xとxのクロススペクトルCLR(k)は、以下の式(13)で表される。CLR(k)は、周波数成分ごとに、一方の音声スペクトル信号X(k)と、他方の音声スペクトル信号X(k)の複素共役であるX (k)とを掛け合わせたものの期待値(平均値)である。実際には、CLR(k)として、X(k)とX (k)とを掛け合わせたものの時間平均を求めればよい。
ここで、所望音と風雑音の間には相関がないと仮定すると、式(13)の右辺第2項及び第3項がゼロとなるので、式(14)が得られる。さらに、上記のように風雑音の相互相関はゼロと見なすことができるので、式(14)の右辺第2項はゼロとなる。また。所望音の相互相関は1と見なすことができるので、式(15)のように簡略できる。この結果、式(13)〜(15)から式(16)が得られる。
Figure 0005998483
次に、パワースペクトルP、Pの算出式について説明する。音声信号xのパワースペクトルP(k)は、以下の式(17)で表される。さらに、所望音と風雑音の間には相関がないと仮定すると、式(17)の右辺第2項及び第3項がゼロとなるので、式(18)が得られる。また、音声信号xのパワースペクトルP(k)の算出式(19)も同様にして得られる。
Figure 0005998483
以上のようにして求めたクロススペクトルCLRをパワースペクトルP、Pでそれぞれ除算することで、以下の式(20)、(21)に示すように、周波数成分ごとに低減係数G、Gが算出される。
Figure 0005998483
上記式(20)、(21)に示す低減係数G、Gは、音声信号xから風雑音成分の信号wを除いた所望音成分の信号sを得るためのウィナーフィルタ(Wiener Filter)に相当する。このウィナーフィルタ形式の低減係数G、Gを用いることで、実際にマイクロホンから入力された音声信号xから風雑音成分の信号wを除去し、最適な所望音成分の信号sを推定することができる。ここで、最適とは、所望音の元信号と推定信号との間の複素スペクトルの二乗誤差が最小となるように、所望音成分の信号sを推定できることを意味する。以下に、このウィナーフィルタ形式の低減係数G、Gの意義について説明する。
[1.2.3.ウィナーフィルタ形式の低減係数の意義]
ウィナーフィルタは、元信号s(n)に対して二乗誤差{(s(n)−s’(n))}が最小となるような信号s’(n)を推定するためのフィルタである。具体的には、図5(a)に示すように、外部から元信号s(n)と無相関な雑音n(n)が元信号s(n)に対して加わり、x(n)のみが収音される場合を考える。この場合、s(n)のみを収音できないので、実際に収音された信号x(n)からs(n)を推定せざるを得ない。この際、元信号s(n)に対して信号波形上の二乗距離(二乗誤差)を最小にする推定信号s’(n)を求めるためのフィルタが、ウィナーフィルタである。
本実施形態では、マイクロホンから入力された音声信号xをフレーム化して周波数変換した音声スペクトル信号Xを、周波数成分ごとに処理する。そこで、上記図5(a)のウィナーフィルタは、図5(b)に示すように変形できる。なお、kは周波数インデックス、mはフレームインデックスである。
図5(b)に示すように、所望音のスペクトル信号S(k,m)に対して、外部から元信号S(k,m)と無相関な雑音のスペクトル信号N(k,m)が加わり、X(k,m)が観測される場合を考える。この場合も、信号X(k,m)から所望音の元信号S(k,m)を推定せざるを得ないので、元信号S(k,m)に対して複素スペクトル上で二乗誤差を最小にする推定信号S’(k,m)を求めることになる。つまり、以下の式(30)、(31)で示すG(k)を推定することになる。
Figure 0005998483
上記式(30)の右辺を展開すると、以下の式(32)が得られる。また、上記式(30)の右辺を最小にするG(k)を求めるためには、以下の式(33)を解けばよい。そこで、式(33)に式(32)を代入して整理すると、以下の式(34)が得られる。
Figure 0005998483
また、音声全体のスペクトルX(k,m)は、所望音のスペクトルS(k,m)と雑音のスペクトルN(k,m)の和である。そこで、上記式(34)に、X(k,m)=S(k,m)+N(k,m)を代入すると、以下の式(35)が得られる。ここで、所望音の元信号Sと雑音の信号Nは無相関であると仮定しているので、以下の式(36)、(37)が成り立つ。
Figure 0005998483
以上から、G(k)の算出式として、以下の式(38)を得ることができる。
Figure 0005998483
この式(38)は、上述したG(k)の算出式(20)、(21)と同一である。上記式(20)、(21)では、パワースペクトルP、Pに対するクロススペクトルCLRの比率として、低減係数G(k)、G(k)を求めた。これに対し、上記式(30)〜(38)のようにして、観測信号Xから元信号Sを推定するためのウィナーフィルタG(k)を求めた場合も、同様な式が得られる。
そもそもウィナーフィルタは、観測信号から、元信号に対する二乗誤差が最小となる推定信号を得るための推定方式である。つまり、元信号の推定方式として他にも様々な方式がある中で、ウィナーフィルタによる推定方式によれば、元信号と推定信号との距離が最小になるということである。
従って、本実施形態に係る低減係数Gが上記ウィナーフィルタ形式で記述される(式(20)、(21)参照。)ということは、風雑音以外の所望音の推定信号として、複素スペクトルの二乗距離において所望音の元信号に最も近い推定信号を得ることができることを意味する。従って、本実施形態に係るウィナーフィルタ形式の低減係数G、Gを用いることで、所望音の元信号に対して複素スペクトルの二乗誤差が最小となるように、所望音の推定信号を適切に推定することができる。
上記特許文献1の技術では、2つの入力音声信号の相関値から風雑音が有ると判定された場合に、常に一定の低減係数を音声スペクトルに乗算して、風雑音を低減していた。これに対し、本実施形態では、上記風雑音の強さW(k)や相関のみならず、所望音の強さS(k)や相関をも考慮して、ウィナーフィルタ形式の低減係数Gを算出する(式(20)、(21))。そして、当該低減係数Gを音声スペクトル信号Xに乗算して(式(3)、(4))、風雑音を低減する。係る低減方法により、所望音の劣化を抑制して、所望音の自然な抑揚を確保しつつ、風雑音を適切に低減することが可能になる。
[1.3.音声信号処理装置の構成]
[1.3.1.音声信号処理装置のハードウェア構成]
次に、図6を参照して、本実施形態に係る音声信号処理装置のハードウェア構成例について説明する。図6は、本実施形態に係る音声信号処理装置が適用されたデジタルカメラ1のハードウェア構成を示すブロック図である。
本実施形態に係るデジタルカメラ1は、例えば、動画撮像中に動画と共に音声も記録可能な撮像装置である。このデジタルカメラ1は、被写体を撮像して、当該撮像により得られた撮像画像(静止画又は動画のいずれでもよい。)をデジタル方式の画像データに変換し、音声とともに記録媒体に記録する。
図6に示すように、本実施形態に係るデジタルカメラ1は、概略的には、撮像部10と、画像処理部20と、表示部30と、記録媒体40と、収音部50と、音声処理部60と、制御部70と、操作部80とを備える。
撮像部10は、被写体を撮像して、撮像画像を表すアナログ画像信号を出力する。撮像部10は、撮像光学系11と、撮像素子12と、タイミングジェネレータ13と、駆動装置14とを備える。
撮像光学系11は、フォーカスレンズ、ズームレンズ、補正レンズ等の各種レンズや、不要な波長を除去する光学フィルタ、シャッター、絞り等の光学部品からなる。被写体から入射された光学像(被写体像)は、撮像光学系11における各光学部品を介して、撮像素子12の露光面に結像される。撮像素子12(イメージセンサ)は、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの固体撮像素子で構成される。この撮像素子12は、撮像光学系11から導かれた光学像を光電変換し、撮像画像を表す電気信号(アナログ画像信号)を出力する。
撮像光学系11には、該撮像光学系11の光学部品を駆動するための駆動装置14が機械的に接続されている。この駆動装置14は、例えば、ズームモータ15、フォーカスモータ16、絞り調整機構(図示せず。)などを含む。駆動装置14は、後述する制御部70の指示に従って、撮像光学系11の光学部品を駆動させ、ズームレンズ、フォーカスレンズを移動させたり、絞りを調整したりする。例えば、ズームモータ15は、ズームレンズをテレ/ワイド方向に移動させることで、画角を調整するズーム動作を行う。また、フォーカスモータ16は、フォーカスレンズを移動させることで、被写体に焦点を合わせるフォーカス動作を行う。
また、タイミングジェネレータ(TG)13は、制御部70の指示に従って、撮像素子12に必要な動作パルスを生成する。例えば、TG13は、垂直転送のための4相パルス、フィールドシフトパルス、水平転送のための2相パルス、シャッタパルスなどの各種パルスを生成し、撮像素子12に供給する。このTG13により撮像素子12を駆動させることで、被写体像が撮像される。また、TG13が、撮像素子12のシャッタースピードを調整することで、撮像画像の露光量や露光期間が制御される(電子シャッター機能)。上記の撮像素子12が出力した画像信号は画像処理部20に入力される。
画像処理部20は、マイクロコントローラなどの電子回路で構成され、撮像素子12から出力される画像信号に対して所定の画像処理を施し、当該画像処理後の画像信号を表示部30や制御部70に出力する。画像処理部20は、アナログ信号処理部21、アナログ/デジタル(A/D)変換部22、デジタル信号処理部23を備える。
アナログ信号処理部21は、画像信号を前処理する所謂アナログフロントエンドである。該アナログ信号処理部21は、例えば、撮像素子12から出力される画像信号に対して、CDS(correlated double sampling:相関2重サンプリング)処理、プログラマブルゲインアンプ(PGA)によるゲイン処理などを行う。A/D変換部22は、アナログ信号処理部21から入力されたアナログ画像信号をデジタル画像信号に変換して、デジタル信号処理部23に出力する。デジタル信号処理部23は、入力されたデジタル画像信号に対して、例えば、ノイズ除去、ホワイトバランス調整、色補正、エッジ強調、ガンマ補正等のデジタル信号処理を行って、表示部30や制御部70等に出力する。
表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機ELディスプレイなどの表示装置で構成される。表示部30は、制御部70による制御に従って、入力された各種の画像データを表示する。例えば、表示部30は、撮像中に画像処理部20からリアルタイムで入力される撮像画像(スルー画像)を表示する。これにより、ユーザは、デジタルカメラ1で撮像中のスルー画像を見ながら、デジタルカメラ1を操作することができる。また、記録媒体40に記録されている撮像画像を再生したときに、表示部30は、当該再生画像を表示する。これにより、ユーザは、記録媒体40に記録されている撮像画像の内容を確認することができる。
記録媒体40は、上記撮像画像のデータ、そのメタデータなどの各種のデータを記憶する。記録媒体40は、例えば、メモリカード等の半導体メモリ、又は、光ディスク、ハードディスク等のディスク状記録媒体などを使用できる。なお、光ディスクは、例えば、ブルーレイディスク(Blu−ray Disc)、DVD(Digital Versatile Disc)又はCD(Compact Disc)等を含む。なお、記録媒体40は、デジタルカメラ1に内蔵されてもよいし、デジタルカメラ1に着脱可能なリムーバブルメディアであってもよい。
収音部50は、デジタルカメラ1周辺の外部音声を収音する。本実施形態に係る収音部50は、2つの外部音声収録用のマイクロホン51L、51Rからなるステレオマイクロホンで構成される。マイクロホン51L、51Rは、デジタルカメラ1の同一の筐体に、相互に隣接して配置される。2つのマイクロホン51L、51Rは、外部音声を収音して得られた音声信号をそれぞれ出力する。かかる収音部50により、動画撮像中に外部音声を収音して、動画と共に記録できるようになる。
音声処理部60は、マイクロコントローラなどの電子回路で構成され、音声信号に対して所定の音声処理を施して、記録用の音声信号を出力する。この音声処理は、例えば、AD変換処理、雑音低減処理などを含む。本実施形態は、この音声処理部60による雑音低減処理を特徴としているが、その詳細説明は後述する。
制御部70は、マイクロコントローラなどの電子回路で構成され、デジタルカメラ1の全体の動作を制御する。制御部70は、例えば、CPU71、EEPROM(Electrically Erasable Programmable ROM)72、ROM(Read Only Memory)73、RAM(Random Access Memory)74を備える。かかる制御部70は、デジタルカメラ1内の各部を制御する。
制御部70におけるROM73には、CPU71に各種の制御処理を実行させるためのプログラムが格納されている。CPU71は、該プログラムに基づいて動作して、RAM74を用いながら、上記各制御のための必要な演算・制御処理を実行する。該プログラムは、デジタルカメラ1に内蔵された記憶装置(例えば、EEPROM72、ROM73等)に予め格納しておくことができる。また、当該プログラムは、ディスク状記録媒体、メモリカードなどのリムーバブル記録媒体に格納されて、デジタルカメラ1に提供されてもよいし、LAN、インターネット等のネットワークを介してデジタルカメラ1にダウンロードされてもよい。
ここで、制御部70による制御の具体例について説明する。制御部70は、上記撮像部10のTG13や駆動装置14を制御して、撮像部10による撮像処理を制御する。例えば、制御部70は、上記撮像光学系11の絞りの調整、撮像素子12の電子シャッタースピードの設定、アナログ信号処理部21のAGCのゲイン設定などにより、自動露光制御を行う(AE機能)。また、制御部70は、上記撮像光学系11のフォーカスレンズを移動させて、フォーカスポジションを変更することで、特定の被写体に対して撮像光学系11の焦点を自動的に合わせるオートフォーカス制御を行う(AF機能)。また、制御部70は、上記撮像光学系11のズームレンズを移動させて、ズームポジションを変更することで、撮像画像の画角を調整する。また、制御部70は、記録媒体40に対して撮像画像、メタデータなどの各種のデータを記録し、また、記録媒体40に記録されているデータを読み出して再生する。さらに、制御部70は、表示部30に表示するための各種の表示画像を生成し、表示部30を制御して該表示画像を表示させる。また、制御部70は、マイクロホン51L、51Rにより収音された音声信号から雑音を低減するために、音声処理部60の動作を制御する。
操作部80、表示部30は、ユーザがデジタルカメラ1の動作を操作するためのユーザインターフェースとして機能する。操作部80は、ボタン、レバー等の各種の操作キー、又はタッチパネル等で構成され、例えば、ズームボタン、シャッターボタン、電源ボタンなどを含む。操作部80は、ユーザ操作に応じて、各種の撮像動作を指示するための指示情報を制御部70に出力する。
[1.3.2.音声信号処理装置の機能構成]
次に、図7を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図7は、本実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図7に示すように、音声信号処理装置は、2つのマイクロホン51L、51Rと、音声処理部60を備える。音声処理部60は、2つの周波数変換部61L、61Rと、クロススペクトル算出部62と、2つのパワースペクトル算出部63L、63Rと、2つの雑音低減部64L、64Rと、2つの時間変換部65L、65Rとを備える。これら音声処理部60の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声処理部60の備えるプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
マイクロホン51L、51Rは、上述したステレオマイクロホンを構成する。マイクロホン51L(第1のマイクロホンに相当する。)は、Lチャンネルの音声を収音するためのマイクロホンであり、デジタルカメラ1の外部から伝わる外部音声を収音してLch用の音声信号x(第1の音声信号)を出力する。マイクロホン51R(第2のマイクロホンに相当する。)は、Rチャンネルの音声を収音するためのマイクロホンであり、上記外部音声を収音してRch用の音声信号x(第2の音声信号)を出力する。これらマイクロホン51L、51Rは、相互に隣接して配置されており、両マイクロホン51L、51Rの間隔は、例えば5cm以下である。
かかるマイクロホン51L、51R(以下、マイクロホン51と総称する。)は、デジタルカメラ1周辺の外部音声(環境音、人の話し声等の所望音)を録音するためのマイクロホンである。しかし、マイクロホン51に風が当たるときには、風雑音が発生して上記外部音声に混入する。従って、マイクロホン51L、51Rを通じて入力される音声信号x、xには、所望音成分のみならず、風雑音成分も含まれることとなる。そこで、音声信号x、xから風雑音等の雑音成分を除去するために、以下の各部が設けられている。
周波数変換部61L、61R(以下、周波数変換部61と総称する。)は、フレーム単位で、時間領域の音声信号x、xを、周波数領域の音声スペクトル信号X、Xに変換する機能を有する。ここで、スペクトルとは、周波数スペクトルを意味する。音声信号x、xの時間変化に追従するために、周波数変換部61は、例えば20〜30ms毎に周波数変換することが望ましい。
周波数変換部61L(第1の周波数変換部)には、Lch用のマイクロホン51Lから音声信号xが入力される。周波数変換部61Lは、音声信号xを所定時間のフレーム単位で分割し、当該分割された音声信号xをフーリエ変換することで、周波数ごとのパワーを示した音声スペクトル信号Xを生成する。同様に、周波数変換部61R(第2の周波数変換部)には、Rch用のマイクロホン51Rから音声信号xが入力される。周波数変換部61Rは、音声信号xを所定時間のフレーム単位で分割し、当該分割された音声信号xをフーリエ変換することで、周波数ごとのパワーを示した音声スペクトル信号Xを生成する。
クロススペクトル算出部62には、周波数変換部61Lから音声スペクトル信号Xが入力され、周波数変換部61Rから音声スペクトル信号Xが入力される。クロススペクトル算出部62は、音声スペクトル信号X及び音声スペクトル信号Xを演算することにより、音声信号xと音声信号xとのクロススペクトルCLRを算出する。クロススペクトル算出部62は、相関成分算出部の一例であり、音声信号xと音声信号xとの相関成分を表すパラメータとして、クロススペクトルCLRを算出する。かかるクロススペクトル算出部62は、上述した式(16)により、音声スペクトル信号X、Xの周波数成分ごとに、CLR(k)を算出する。なお、クロススペクトル算出部62によるクロススペクトルCLRの算出処理の詳細は後述する。
パワースペクトル算出部63L、63R(以下、パワースペクトル算出部63と総称する。)は、音声信号x、音声信号xのパワースペクトルP、Pを算出する機能を有する。パワースペクトル算出部63は、全体成分算出部の一例であり、音声信号x、音声信号xの全体成分を表すパラメータとして、パワースペクトルP、Pをそれぞれ算出する。
パワースペクトル算出部63L(第1のパワースペクトル算出部)には、周波数変換部61Lから音声スペクトル信号Xが入力される。パワースペクトル算出部63Lは、音声スペクトル信号Xを演算することにより、音声信号xのパワースペクトルPを算出する。同様に、パワースペクトル算出部63R(第2のパワースペクトル算出部)には、周波数変換部61Rから音声スペクトル信号Xが入力される。パワースペクトル算出部63Rは、音声スペクトル信号Xを演算することにより、音声信号xのパワースペクトルPを算出する。かかるパワースペクトル算出部63は、上述した式(18)、(19)により、音声スペクトル信号X、Xの周波数成分ごとに、パワースペクトルP(k)、P(k)を算出する。なお、クロススペクトル算出部63によるパワースペクトルP、Pの算出処理の詳細は後述する。
雑音低減部64L、64R(以下、雑音低減部64と総称する。)は、上記クロススペクトルCLR及びパワースペクトルP、Pから低減係数G、Gを算出し、当該低減係数G、Gを用いて音声スペクトル信号X、Xを補正して、風雑音を低減する機能を有する。
雑音低減部64L(第1の雑音低減部)には、周波数変換部61Lから音声スペクトル信号Xが入力され、クロススペクトル算出部62からクロススペクトルCLRが入力され、パワースペクトル算出部63LからパワースペクトルPが入力される。雑音低減部64Lは、Lchの音声信号xの風雑音を低減するための低減係数Gとして、Lchの音声信号xのパワースペクトルPに対するクロススペクトルCLRの比率を算出する(G=CLR/P)。同様に、雑音低減部64R(第2の雑音低減部)には、周波数変換部61Rから音声スペクトル信号Xが入力され、クロススペクトル算出部62からクロススペクトルCLRが入力され、パワースペクトル算出部63RからパワースペクトルPが入力される。雑音低減部64R(第2の雑音低減部)は、Rchの音声信号xの風雑音を低減するための低減係数Gとして、Rchの音声信号xのパワースペクトルPに対するクロススペクトルCLRの比率を算出する(G=CLR/P)。かかる雑音低減部64L、64Rは、上述した式(20)、(21)により、音声スペクトル信号X、Xの周波数成分ごとに、低減係数G、Gを算出する。
さらに、雑音低減部64Lは、周波数変換部61Lから入力される音声スペクトル信号Xに低減係数Gを乗算して、音声スペクトル信号Xを減衰させ、風雑音が低減された音声スペクトル信号Y(k)を出力する(上記式(3)を参照。)。同様に、雑音低減部64Rは、周波数変換部61Rから入力される音声スペクトル信号Xに低減係数Gを乗算して、音声スペクトル信号Xを減衰させ、風雑音が低減された音声スペクトル信号Yを出力する(上記式(4)を参照。)この際、雑音低減部64は、上述した式(3)、(4)のように、音声スペクトル信号X、Xの周波数成分ごとに、当該信号X(k)、X(k)に低減係数G、Gを乗算して、音声スペクトル信号Y、Yを生成する。なお、雑音低減部64による雑音低減処理の詳細は後述する。
時間変換部65L、65R(以下、時間変換部65と総称する。)は、周波数領域の音声スペクトル信号Y、Yを、時間領域の音声信号y、yに逆変換する機能を有する。時間変換部65L(第1の時間変換部)は、雑音低減部64Lから入力される音声スペクトル信号Yを逆フーリエ変換することで、フレーム単位ごとの音声信号yを生成する。同様に、時間変換部65R(第2の時間変換部)は、雑音低減部64Rから入力される音声スペクトル信号Yを逆フーリエ変換することで、フレーム単位ごとの音声信号yを生成する。かかる音声信号y、yは、音声信号x、xに含まれていた風雑音成分が適切に除去された後の所望音成分の音声信号である。
以上、本実施形態に係る音声信号処理装置の音声処理部60の機能構成について説明した。音声処理部60は、上記デジタルカメラ1による動画及び音声の記録中に、2つのマイクロホン51L、51Rから入力される音声信号x、xのクロススペクトルCLR及びパワースペクトルP、Pから、当該音声信号x、xの特性に応じた低減係数G、Gを算出する。そして、当該低減係数G、Gを利用して、外部音声から風雑音を適切に低減する。この際、所望音の強さ等に応じて変動する適切な低減係数G、Gを用いるので、所望音に強弱が有る場合であっても、所望音が自然な連続性を保つように信号を減衰させることができるので、所望音の音質劣化を抑制できる。
[1.4.音声信号処理方法]
次に、本実施形態に係る音声信号処理装置による音声信号処理方法(風雑音の低減方法)について説明する。
[1.4.1.音声信号処理装置の全体動作]
まず、上記図7で示した音声信号処理装置の全体動作について説明する。音声信号処理装置は、2つのマイクロホン51L、51Rからそれぞれ入力される音声信号x、xをフレームに分割し、フレーム単位で雑音低減処理を行う。m番目のフレームの音声信号x(m)、x(m)が入力されると、周波数変換部61L、61Rは、当該音声信号x(m)、x(m)をフーリエ変換して、m番目のフレームの音声スペクトル信号X、Xを周波数成分ごとに出力する。この音声スペクトル信号X、Xの周波数成分X(k,m)、X(k,m)は、信号X、Xを所定の帯域幅の周波数帯域に分割したものである。
周波数変換部61L、61Rから、m番目のフレームの音声スペクトル信号X、Xのk番目の周波数成分X(k,m)、X(k,m)が出力されると、クロススペクトル算出部62によりクロススペクトルCLR(k)が算出されると同時に、パワースペクトル算出部63L、63RによりパワースペクトルP(k)、P(k)が算出される。
そして、雑音低減部64Lにより、CLR(k)とP(k)から低減係数G(k)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算され、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が出力される。また、雑音低減部64Rにより、CLR(k)とP(k)から低減係数G(k)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算され、風雑音が低減された音声スペクトル信号のk番目の周波数成分Y(k,m)が出力される。
そして、時間変換部65L、65Rにより、上記音声スペクトル信号Y、Yのk番目の周波数成分Y(k,m)、Y(k,m)が逆フーリエ変換されて、時間領域の音声信号y(m)、y(m)がフレーム単位で出力される。
[1.4.2.クロススペクトル算出部の動作]
次に、図8を参照して、本実施形態に係るクロススペクトル算出部62の動作について説明する。図8は、本実施形態に係るクロススペクトル算出部62の動作を示すフローチャートである。
図8に示すように、まず、クロススペクトル算出部62は、周波数変換部61Lから音声スペクトル信号Xの各周波数成分X(k,m)を取得するとともに、周波数変換部61Rから音声スペクトル信号Xの各周波数成分X(k,m)を取得する(S10)。なお、mは、周波数変換するためにブロック化された音声信号xのフレームインデックス(フレーム番号)を示す。
次いで、クロススペクトル算出部62は、以下の式(40)に示すように、音声スペクトル信号X、音声スペクトル信号Xを演算して、周波数成分ごとにクロススペクトルc(k,m)を算出する(S12)。実際の計算では、Xの虚部を用いずに実部のみを用いてc(k,m)を算出してもよい。
c(k,m)=E[X(k,m)・X (k,m)]
=E[Re(X(k,m)・X (k,m))] ・・・(40)
その後、クロススペクトル算出部62は、周波数成分ごとに、S12で算出された現在のフレームのクロススペクトルc(k,m)と、過去に算出されたクロススペクトルCLR(k)との平均値を算出し、各周波数成分のクロススペクトルCLR(k)を更新する(S14)。ここで、過去に算出されたクロススペクトルCLR(k)とは、過去に入力されたフレームの音声信号x、xから上記と同様にして算出されたクロススペクトルCLR(k)の平均値である。
具体的には、クロススペクトル算出部62は、不図示の記憶部に記憶されている過去のCLR(k)を読み出し、以下の式(41)に示すように、平滑化係数r(0<r<1)を用いてCLR(k)とc(k,m)を平滑化することにより、CLR(k)を更新する。このように、現在のフレームのc(k,m)と過去のフレームのCLR(k)を平滑化することで、個々のフレームの音声スペクトルXの異常値の影響を抑制できるので、信頼性の高いクロススペクトルCLRを算出できる。
LR(k)=r・CLR(k)+(1−r)・c(k,m) ・・・(41)
[1.4.3.パワースペクトル算出部の動作]
次に、図9を参照して、本実施形態に係るパワースペクトル算出部63の動作について説明する。図9は、本実施形態に係るパワースペクトル算出部63の動作を示すフローチャートである。
図9に示すように、まず、パワースペクトル算出部63Lは、周波数変換部61Lから音声スペクトル信号Xの各周波数成分X(k,m)を取得し、パワースペクトル算出部63Rは、周波数変換部61Rから音声スペクトル信号Xの各周波数成分X(k,m)を取得する(S20)。
次いで、パワースペクトル算出部63L、63Rはそれぞれ、以下の式(42)、(43)に示すように、音声スペクトル信号X、Xを演算して、周波数成分ごとにパワースペクトルp(k,m)、p(k,m)を算出する(S22)。
(k,m)=X(k,m)・X (k,m) ・・・(42)
(k,m)=X(k,m)・X (k,m) ・・・(43)
その後、パワースペクトル算出部63L、63Rはそれぞれ、周波数成分ごとに、S22で算出された現在のフレームのパワースペクトルp(k,m)、p(k,m)と、過去に算出されたパワースペクトルP(k)、P(k)との平均値を算出し、各周波数成分のパワースペクトルP(k)、P(k)を更新する(S24)。ここで、過去に算出されたパワースペクトルP(k)、P(k)とは、過去に入力されたフレームの音声信号x、xから上記と同様にして算出されたパワースペクトルP(k)、P(k)の平均値である。
具体的には、パワースペクトル算出部63Lは、不図示の記憶部に記憶されている過去のP(k)を読み出し、以下の式(44)に示すように、平滑化係数r(0<r<1)を用いてP(k)とp(k,m)を平滑化することにより、P(k)を更新する。同様に、パワースペクトル算出部63Rは、不図示の記憶部に記憶されている過去のP(k)を読み出し、以下の式(45)に示すように、平滑化係数r(0<r<1)を用いてP(k)とp(k,m)を平滑化することにより、P(k)を更新する。このように、現在のフレームのp(k,m)、p(k,m)と過去のフレームのP(k)、P(k)を平滑化することで、個々のフレームの音声スペクトルXの異常値の影響を抑制できるので、信頼性の高いパワースペクトルP、Pを算出できる。
(k)=r・P(k)+(1−r)・p(k,m) ・・・(44)
(k)=r・P(k)+(1−r)・p(k,m) ・・・(45)
[1.4.4.雑音低減部の動作]
次に、図10を参照して、本実施形態に係る雑音低減部64の動作について説明する。図10は、本実施形態に係る雑音低減部64の動作を示すフローチャートである。
図10に示すように、まず、雑音低減部64Lは、周波数変換部61Lから音声スペクトル信号Xの各周波数成分X(k,m)を取得し、雑音低減部64Rは、周波数変換部61Lから音声スペクトル信号Xの各周波数成分X(k,m)を取得する(S30)。
さらに、雑音低減部64Lは、クロススペクトル算出部62から各周波数成分のクロススペクトルCLR(k)を取得するとともに、パワースペクトル算出部63Lから各周波数成分のパワースペクトルP(k)を取得する(S32)。同様に、雑音低減部64Rは、クロススペクトル算出部62から各周波数成分のクロススペクトルCLR(k)を取得するとともに、パワースペクトル算出部63Rから各周波数成分のパワースペクトルP(k)を取得する。
次いで、雑音低減部64Lは、以下の式(46)に示すように、周波数成分ごとに、CLR(k)をP(k)で除算して、音声スペクトル信号X(k)に含まれる風雑音成分を低減するための低減係数G(k)を算出する(S34)。同様に、雑音低減部64Rは、以下の式(47)に示すように、周波数成分ごとに、CLR(k)をP(k)で除算して、音声スペクトル信号X(k)に含まれる風雑音成分を低減するための低減係数G(k)を算出する(S34)。
(k)=CLR(k)/P(k) ・・・(46)
(k)=CLR(k)/P(k) ・・・(47)
その後、雑音低減部64Lは、以下の式(48)に示すように、各周波数成分の低減係数G(k)を音声スペクトル信号Xの各周波数成分X(k,m)に乗算して、X(k,m)を減衰させ、風雑音を低減する(S36)。これにより、風雑音が低減された音声スペクトル信号Yの各周波数成分Y(k,m)が得られる。同様に、雑音低減部64Rは、以下の式(49)に示すように、各周波数成分の低減係数G(k)を音声スペクトル信号Xの各周波数成分X(k,m)に乗算して、X(k,m)を減衰させ、風雑音を低減する。これにより、風雑音が低減された音声スペクトル信号Yの各周波数成分Y(k,m)が得られる。
(k,m)=G(k)・X(k,m) ・・・(48)
(k,m)=G(k)・X(k,m) ・・・(49)
以上の処理を、マイクロホン51L、51Rから入力される音声信号X、Xの全てのフレームについて繰り返すことにより、フレーム単位で風雑音が低減される。
[1.5.効果]
以上、本開示の第1の実施形態に係る音声信号処理装置及び方法について詳細に説明した。本実施形態によれば、2つのマイクロホンから入力される音声信号x、xをスペクトル信号X、Xに変換した上で、2つの音声信号x、x間の相関成分のパワー(クロススペクトルCLR)と、各音声信号x、xの全体成分のパワー(パワースペクトルP、P)を求める。そして、全体成分(パワースペクトルP、P)に対する相関成分(クロススペクトルCLR)の比率を、低減係数G、Gに設定する。
これにより、音声信号x、xの相関だけでなく、所望音の特性と風雑音の特性に応じて、低減係数G、Gを適切に設定できる。このため、当該低減係数G、Gを用いてスペクトル信号X、Xを補正することで、所望音の音質(自然な連続性)を劣化させることなく、風雑音を低減することができる。従って、マイクロホンにより収音される所望音が抑揚(音量の強弱)を有する場合であっても、録音音声の再生時に、所望音が急に大きくなったり小さくなったりせず、所望音を自然に再生できる。よって、ユーザは、録音音声を聴く際に、風雑音の煩わしさを感じたり、所望音の違和感を憶えたりすることがない。
<2.第2の実施の形態>
次に、本開示の第2の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第2の実施形態は、上記第1の実施形態と比べて、2つのマイクロホンの入力特性の相違を補正する機能を有する点で相違する。第2の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[2.1.第2の実施形態の概要]
まず、第2の実施形態に係る音声信号処理装置及び方法の概要について説明する。第2の実施形態に係る音声信号処理装置は、2つのマイクロホンの特性が異なる場合に、当該2つのマイクロホン51から入力される音声信号の振幅(利得)及び位相のずれを補正することを特徴とする。このように第2の実施形態に係る補正対象は、2つの音声信号間の振幅(利得)及び位相のずれである。
2つのマイクロホンの特性が異なる場合には、これら2つのマイクロホンからそれぞれ入力される音声信号の特性も相違する。従って、2つのマイクロホンで同一の所望音を収音した場合であっても、2つの入力音声信号の間で振幅又は位相がずれてしまう。そうすると、2つのマイクロホンにより収音される所望音の相互相関が低下し、相互相関係数が1にならないため、上記クロススペクトルCLRを算出する際に誤差が生じ、風雑音の低減処理に悪影響を及ぼす。従って、2つのマイクロホンの特性が異なる場合には、一方のマイクロホンからの入力音声信号の特性を、他方のマイクロホンからの入力音声信号の特性に合わせるように、一方若しくは双方の入力音声信号を補正することが好ましい。
2つのマイクロホンの特性が異なる場合としては、以下の(a)、(b)が挙げられる。
(a)そもそもマイクロホンの種類が異なるため、2つのマイクロホンからの入力音声信号間に振幅差又は位相差が生じる場合
(b)2つのマイクロホンの種類は同じであるが、2つのマイクロホンの配置が特殊であるため、2つのマイクロホンからの入力音声信号間に振幅差又は位相差が生じる場合
詳細には、上記(a)のマイクロホンの種類が異なる場合としては、例えば、以下の(a1)、(a2)の場合が挙げられる。
(a1)録音機器が同種(例えば同一の品番)の2つのマイクロホンを備えているが、2つのマイクロホンの素子の特性に誤差がある場合
(a2)録音機器が異種(品番、機能又は用途等が異なる)の2つのマイクロホンを備えており、2つのマイクロホンからの入力音声信号の特性が異なる場合(例えば、以下の例のように、通話用マイクロホンと動画撮像用マイクロホンを備える場合)
また、上記(b)のマイクロホンの配置が特殊な場合としては、例えば、以下の(b1)、(b2)の場合が挙げられる。
(b1)2つのマイクロホンが録音機器の筐体の異なる位置に配置されている場合
(b2)2つのマイクロホンが録音機器の筐体上で、所定距離以上離隔して配置されている場合
また、上記の(a1)〜(b2)等が組み合わされた場合にも、2つのマイクロホン間で入力音声信号の特性にずれが生じる。
以上のような理由による2つのマイクロホンの特性の相違は、実際の録音動作前に予め測定し、補正しておくことが可能である。そこで、2つのマイクロホンで同一の所望音を収音したときに、2つのマイクロホンから入力される音声信号の特性を比較し、双方の特性(振幅や位相)が一致するように一方の音声信号を補正するための補正係数hを求めておく。そして、実際の録音動作時には、当該補正係数hを用いて少なくとも一方の音声信号を補正した上で、上述した第1の実施形態の雑音低減処理を行えばよい。なお、実際の録音動作時に、2つのマイクロホンから入力される音声信号から補正係数hを動的に算出して、少なくとも一方の音声信号の補正に反映させてもよい。
ここで、上記マイクロホンの特性の相違に応じた補正処理について具体例を挙げて説明する。図11は、上記(a)のマイクロホンの種類が異なる場合を示し、図12は、上記(b)のマイクロホンの配置が特殊である場合を示す。
図11に示す例では、デジタルカメラ1の筐体2の上面2aに2つのマイクロホン51L、52L(例えばステレオマイクロホン)が隣接して設けられている。上記(a1)の場合のように、マイクロホン51Lとマイクロホン51Rは同種(同一の品番、機能及び用途)のマイクロホンであるが、各マイクロホン51L、51Rを構成する素子の誤差により、2つのマイクロホン51L、51R間で入力音声信号の特性が異なる場合がある。また、上記(a2)の場合のように、マイクロホン51Lとマイクロホン51Rが異なる種類のマイクロホンである場合には、当然ながら、両マイクロホン51L、51R間で入力音声信号の特性が異なる。
かかる場合には、風雑音が無い環境下で、デジタルカメラ1の正面に配置されたスピーカ(図示せず。)から、試験音を出力し、それぞれのマイクロホン51L、51Rを用いて当該試験音を収音し、音声信号x、xを測定する。この際、試験音は、デジタルカメラ1の正面側から同時にマイクロホン51L、51Rに到達するので、両信号x、xに位相差が生じない。そして、Rch用のマイクロホン51Rからの音声信号xの振幅特性が、Lch用のマイクロホン51Lからの音声信号xの振幅特性と一致するように、音声信号xの振幅(利得)を補正する補正係数hを求める。そして、デジタルカメラ1を用いた実際の撮像動作時に、補正係数hを用いて音声信号xを補正することで、音声信号xの振幅特性を音声信号xの振幅特性に一致させる。これにより、上記マイクロホン51L、51Rの特性の相違に起因する、音声信号xと音声信号xの振幅のずれを解消して、同一の所望音を録音したときのxとxの相互相関を最大化(相互相関係数を1に近づける)ことができる。
また、図12に示す例では、スマートフォン3の筐体4の正面4aに動画撮像用マイクロホン51Aが配置され、筐体4の背面4bに通話用マイクロホン51Bが配置されている。このように、機器の構造上の制約や、マイクロホンの機能・用途面の要求などにより、2つのマイクロホン51A、51Bを筐体4の同一の設置面に並べて配置せずに、異なる設置面に配置される場合(上記(b)の場合)がある。この場合には、所望音の音源からマイクロホン51A、51Bまでの距離や、マイクロホン51A、51Bに対する所望音の入力方向が相違するので、マイクロホン51Aからの入力音声信号xとマイクロホン51Bからの入力音声信号xとの間に位相差や振幅差が生じ得る。
かかる場合には、スマートフォン3の正面に配置されたスピーカ(図示せず。)から、試験音を出力し、それぞれのマイクロホン51A、51Bを用いて当該試験音を収音し、音声信号x、xを測定する。この際、試験音は、各マイクロホン51A、51Bに対し時間的にずれて到達するので、両信号x、xに位相差が生じる。そこで、マイクロホン51Bからの音声信号xの位相特性が、マイクロホン51Aからの音声信号xの位相特性と一致するように、音声信号xの位相を補正する補正係数hを求める。そして、スマートフォン3を用いた実際の録音撮像時に、補正係数hを用いて音声信号xを補正することで、音声信号xの位相特性を音声信号xの位相特性に一致させる。これにより、上記マイクロホン51A、51Bの特殊な配置に起因する、音声信号xと音声信号xの位相のずれを解消して、同一の所望音を録音したときのxとxの相互相関を最大化(相互相関係数を1に近づける)ことができる。
[2.2.音声信号処理装置の機能構成]
次に、図13を参照して、本実施形態に係るスマートフォン3に適用された音声信号処理装置の機能構成例について説明する。図13は、本実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
なお、以下では、図12に示した動画撮像用と通話用のマイクロホン51A、51Bを備えたスマートフォン3を例に挙げ、通話用のマイクロホン51Bを補助マイクロホンとして利用して、動画撮像用のマイクロホン51Aの音声信号xから風雑音を低減する例について説明する。
図13に示すように、音声信号処理装置は、2つのマイクロホン51A、51Bと、音声処理部60を備える。音声処理部60は、2つの周波数変換部61A、61Bと、クロススペクトル算出部62と、1つのパワースペクトル算出部63Aと、1つの雑音低減部64Aと、1つの時間変換部65Aと、信号補正部66とを備える。これら音声処理部60の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声処理部60の備えるプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
図13に示したように、第2の実施形態に係る音声信号処理装置は、第1の実施形態に係る音声信号処理装置と比べて、信号補正部66をさらに備える点と、一方のマイクロホン51Aの音声信号xのみに対して雑音低減処理を行う点で相違する。以下、各部について説明する。
マイクロホン51Aは、スマートフォン3の筐体4の正面4aに設けられた動画撮像用のマイクロホンであり、マイクロホン51Bは、筐体4の背面4bに設けられた通話用のマイクロホンである(図12参照。)。マイクロホン51Aは、外部音声を収音して、音声信号xを出力し、マイクロホン51Bは、外部音声を収音して、音声信号xを出力する。これら2つのマイクロホン51A、51Bは異なる種類のマイクロホン構成されており、両者の入力特性は異なる。そこで、本実施形態では、このマイクロホン51A、51Bの入力特性のずれを補正した上で、マイクロホン51Aからの入力音信号xに対して風雑音の低減処理を行う。
周波数変換部61A、61B(以下、周波数変換部61と総称する。)は、フレーム単位で、時間領域の音声信号x、xを、周波数領域の音声スペクトル信号X、Xに変換する機能を有する。この周波数変換部61A、61Bは、上記第1の実施形態の周波数変換部61L、61Rと同様であるので、詳細説明は省略する。
信号補正部66は、第2の実施形態の特徴的なユニットであり、2つのマイクロホン51A、51Bから入力される音声信号x、xの特性のずれを補正する機能を有する。マイクロホン51Aとマイクロホンとの間の入力特性の相違により、音声信号xに含まれる所望音と音声信号xに含まれる所望音との間に振幅差又は位相差が生じるときに、信号補正部66は、音声スペクトル信号X、Xの一方若しくは双方の補正処理を行う。
具体的には、信号補正部66は、周波数変換部61Aから音声スペクトル信号Xが入力され、周波数変換部61Bから音声スペクトル信号Xが入力される。信号補正部66は、音声スペクトル信号X、Xの差分に基づいて、上記振幅差又は位相差を補正するための補正係数hを算出し、補正係数hを用いて、一方の音声スペクトル信号Xを補正することで、一方の音声信号xの振幅又は位相を、他方の音声信号xの振幅又は位相に合わせる。この際、信号補正部66は、周波数成分ごとに、音声スペクトル信号Xと音声スペクトル信号Xとの間の二乗誤差を最小にするような補正係数h(k)を算出し、当該各補正係数h(k)を用いて一方の音声スペクトル信号Xの各周波数成分X(k)を補正して、補正後の音声スペクトル信号X’の各周波数成分X’(k)を得る。なお、信号補正部66による音声スペクトル信号Xの補正処理の詳細は後述する。
クロススペクトル算出部62は、周波数成分ごとに、音声スペクトル信号X及び音声スペクトル信号X’を演算することにより、音声信号xと音声信号xとのクロススペクトルCを算出する。このクロススペクトル算出部62は、音声スペクトル信号Xに代えて、信号補正部66による補正後の音声スペクトル信号X’を用いる点を除いては、上記第1の実施形態のクロススペクトル算出部62と同様であるので、詳細説明は省略する。
パワースペクトル算出部63Aは、周波数成分ごとに、音声信号xのパワースペクトルPを算出する機能を有する。このパワースペクトル算出部63Aは、上記第1の実施形態のパワースペクトル算出部63Lと同様であるので、詳細説明は省略する。
雑音低減部64Aは、周波数成分ごとに、上記クロススペクトルC及びパワースペクトルPから低減係数Gを算出し、当該低減係数Gを用いて音声スペクトル信号Xを補正して、風雑音を低減する機能を有する。この雑音低減部64Aは、上記第1の実施形態の雑音低減部64Lと同様であるので、詳細説明は省略する。雑音低減部64Aは、雑音低減後の音声スペクトル信号Yを出力する。
時間変換部65Aは、雑音低減部64Aにより雑音が低減された周波数領域の音声スペクトル信号Yを、時間領域の音声信号yに逆変換する機能を有する。この時間変換部65Aは、上記第1の実施形態の時間変換部65Lと同様であるので、詳細説明は省略する。時間変換部65Aから出力された音声信号yは、スマートフォン3で撮像された動画データに付随する音声データとして、任意の記録媒体に記録される。
以上、第2の実施形態に係る音声信号処理装置の音声処理部60の機能構成について説明した。第2の実施形態では、2つのマイクロホン51A、51Bの所望音の入力特性が相違する際に、信号補正部66によりその入力特性のずれを補正した上で、上述したクロススペクトルCとパワースペクトルPの比率を利用した雑音低減処理を行う。従って、Cを算出する前段階で、2つのマイクロホン51A、51Bの入力音声信号x、xに含まれる所望音の振幅及び位相のずれを補正して、当該所望音の相互相関係数を最大化して、ほぼ1にすることができる。よって、所望音(入力音声信号間の相関成分)を表すクロススペクトルCを正確に求めて、入力音声信号x中に含まれる所望音を正確に推定できるので、風雑音を適切に低減することができる。
[2.3.数式の補足]
次に、本実施形態に係るクロススペクトルC及びパワースペクトルPから低減係数Gを算出するための数式について補足説明する。
所望音と風雑音を含む音声信号x(m)を周波数領域に変換した音声スペクトル信号X(k,m)は、所望音のスペクトル信号S(k,m)と、風雑音のスペクトル信号W(k,m)を用いて以下の式(50)、(51)で表される。Xは動画撮像用のマイクロホン51Aから入力された音声信号xをフーリエ変換した音声スペクトル信号であり、Xは通話用のマイクロホン51Bから入力された音声信号xをフーリエ変換した音声スペクトル信号である。
(k,m)=S(k,m)+W(k,m) ・・・(50)
(k,m)=S(k,m)+W(k,m) ・・・(51)
上記第1の実施形態と同様に、2つの入力音声信号x、x間で風雑音の相互相関はゼロ、所望音と風雑音の相互相関はゼロであると仮定すると、2つのマイクロホンから入力される音声信号xとxのクロススペクトルC(k)は以下の式(52)で表される。
Figure 0005998483
ところが、動画撮像用マイクロホン51Aと通話用マイクロホン51Bとでは、マイクロホンの向きなどにより所望音の入力特性が等しくない場合、入力音声信号x、x間で所望音の相関が1とはならない。そのため、かかる場合には、上記式(16)が成立せず、次の式(53)のように、クロススペクトルC(k)は、所望音のパワースペクトルの推定値Pに一致しない。そこで、入力音声信号x、x間の所望音の入力特性のずれを補正して、当該信号x、x間で所望音の相関を1に近づけるために、以下の式(54)の誤差e(k)が最小となるような、補正係数h(k)を求める。この補正係数h(k)は、入力音声信号xの所望音と、入力音声信号xの所望音との二乗誤差を最小化する値に設定され、入力音声信号x、x間で所望音の相関が1になるような係数である。
Figure 0005998483
このとき、上記h(k)により補正した音声スペクトル信号xを用いて、クロススペクトルCを計算すると、以下の式(55)となる。そして、上記と同様に、2つの入力音声信号x、x間で風雑音の相互相関はゼロ、所望音と風雑音の相互相関はゼロであると仮定すると、式(55)の右辺の第2、3、4項は、h(k)が乗算されているが、ゼロになる。この結果、式(56)に示すように、入力音声信号xとxのクロススペクトルC(k)は、動画撮像用マイクロホン51Aからの入力音声信号xに含まれる所望音のパワースペクトルとして求められる。
Figure 0005998483
一方、動画撮像用マイクロホン51Aからの入力音声信号xのパワースペクトルPは、以下の式(57)で算出される。
Figure 0005998483
以上の結果から、第2の実施形態でも、上記第1の実施形態と同様に、次の式(58)に示すウィナーフィルタ形式の低減係数G(k)を得ることができる。従って、当該低減係数G(k)を用いて、動画撮像用のマイクロホン51Aから得た音声スペクトル信号Xに含まれる風雑音を低減することが可能になる。
Figure 0005998483
[2.4.音声信号処理方法]
次に、本実施形態に係る音声信号処理装置による音声信号処理方法(風雑音の低減方法)について説明する。
[2.4.1.音声信号処理装置の全体動作]
まず、上記図13で示した音声信号処理装置の全体動作について説明する。音声信号処理装置は、2つのマイクロホン51A、51Bからそれぞれ入力される音声信号x、xをフレームに分割し、フレーム単位で雑音低減処理を行う。m番目のフレームの音声信号x(m)、x(m)が入力されると、周波数変換部61A、61Bは、当該音声信号x(m)、x(m)をフーリエ変換して、m番目のフレームの音声スペクトル信号X、Xを周波数成分ごとに出力する。
周波数変換部61A、61Bから、m番目のフレームの音声スペクトル信号X、Xのk番目の周波数成分X(k,m)、X(k,m)が出力されると、信号補正部66は、X(k,m)とX(k,m)の差分が最小となるように補正係数h(k)を決定する。そして、信号補正部66は、補正係数h(k)を音声スペクトル信号X(k,m)に乗算して、音声スペクトル信号X’(k,m)を生成する。このX’(k,m)は、所望音の入力特性(振幅及び位相)が一方の音声スペクトル信号X(k,m)に一致するように、X(k,m)を補正したものである。
次いで、クロススペクトル算出部62により、音声スペクトル信号X(k,m)と、補正されたX’(k,m)とからクロススペクトルC(k,m)が算出されると同時に、パワースペクトル算出部63Aにより、音声スペクトル信号X(k,m)からパワースペクトルP(k,m)が算出される。
さらに、雑音低減部64Aにより、C(k,m)とP(k,m)から低減係数G(k,m)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算され、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が出力される。
そして、時間変換部65Aにより、上記音声スペクトル信号Yのk番目の周波数成分Y(k,m)が逆フーリエ変換されて、時間領域の音声信号y(m)がフレーム単位で出力される。
[2.4.2.信号処理部の動作]
次に、図14、図15を参照して、本実施形態に係る信号補正部66の動作について説明する。図14は、本実施形態に係る信号補正部66の概略動作を示すフローチャートである。図15は、本実施形態に係る信号補正部66の詳細動作を示すフローチャートである。
図14に示すように、まず、信号補正部66は、周波数変換部61Aから音声スペクトル信号Xの各周波数成分X(k,m)を取得するとともに、周波数変換部61Bから音声スペクトル信号Xの各周波数成分X(k,m)を取得する(S40)。
次いで、信号補正部66は、マイクロホン51A、51Bの入力特性のずれを補正するための補正係数h(k)を、周波数成分ごとに算出する(S42)。この際、信号補正部66は、音声スペクトル信号X(k,m)とX(k,m)との間で複素スペクトルの二乗誤差が最小となるように、補正係数h(k)を算出する(S42)。
その後、信号補正部66は、S42で求めた補正係数h(k)を用いて、通話用のマイクロホン51Bから入力された音声スペクトル信号X(k,m)を補正して、補正後の音声スペクトル信号X’(k,m)を出力する(S44)。
さらに図15を参照して、信号補正部66の詳細動作を説明する。図15に示すように、まず、信号補正部66は、上記音声スペクトル信号X(k,m)を取得するとともに、音声スペクトル信号X(k,m)を取得する(S50:上記S40に相当する。)。
次いで、信号補正部66は、2つのマイクロホン51A、51Bから得られる音声スペクトル信号X、Xの複素スペクトルの二乗誤差を最小化するように、信号Xを補正するための補正係数h(k)を算出する(S52、S54:上記S42に相当する。)。
具体的には、まず、信号補正部66は、以下の式(60)に示すように、周波数成分ごとに、音声スペクトル信号X(k,m)と音声スペクトル信号X(k,m)の誤差e(k)を算出する(S52)。ここで、誤差e(k)は、過去のフレームで求めた補正係数h(k)をX(k,m)に乗算した値と、X(k,m)との差分である。
e(k)=X(k,m)−h(k)・X(k,m) ・・・(60)
さらに、信号補正部66は、以下の式(61)に示すように、上記S52で得た誤差e(k)が小さくなるように、補正係数h(k)を更新する(S54)。ここで、X (k,m)は、音声スペクトル信号X(k,m)の複素共役である。また、μは、更新頻度を制御するための定数であり、例えば、μ=0.01などとすることができる。本実施形態では、μを固定値とするが、風雑音が大きい場合には、μをより小さい値にして、音声スペクトル信号Xに対する風雑音の影響を除去することが望ましい。
h(k)=h(k)+μ・e(k)・X (k,m) ・・・(61)
その後、信号補正部66は、以下の式(62)に示すように、S54で得た補正係数h(k)を音声スペクトル信号Xの各周波数成分X(k,m)に乗算することで、X(k,m)に対するX(k,m)の所望音の特性のずれ(振幅差及び位相差)を補正する(S56:上記S44に相当する。)。これにより、マイクロホン51A、51B間の入力特性のずれを補正した音声スペクトル信号X’(k,m)が得られる。
X’(k,m)=h(k)・X(k,m) ・・・(62)
以上、第2の実施形態に係る特徴である信号補正部66の動作について説明した。なお、その他の各部(クロススペクトル算出部62、パワースペクトル算出部63A、雑音低減部64A等)の動作は、上記第1の実施形態と実質的に同一であってもよいので、詳細説明は省略する(図8〜図10参照。)。
[2.5.効果]
以上、本開示の第2の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第2の実施形態によれば、上記第1の実施形態の効果に加え、次の効果を得ることができる。
即ち、第2の実施形態では、2つのマイクロホン51A、51Bの入力特性が相違する場合であっても、信号補正部66により2つの入力音声信号x、xに含まれる所望音の特性のずれ(振幅差又は位相差)を補正する。これにより、2つの音声信号x、xの所望音の相互相関を高めて相互相関係数Corr(k)を1に近づけることができるので、2つの音声信号x、xから所望音を正確に推定可能になる。従って、上記ウィナーフィルタ形式の低減係数Gを好適に適用して、入力音声から風雑音を適切に低減し、所望音を劣化させることなく抽出することができる。
また、2つの音声スペクトル信号X、Xの二乗誤差を最小にするような補正係数hを算出し、補正係数hを用いて少なくとも一方の音声スペクトル信号Xを補正する。これにより、所望音の相互相関を高めるための補正係数hを適切に求めて、所望音の推定精度を向上することができる。
<3.第3の実施の形態>
次に、本開示の第3の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第3の実施形態は、上記第1の実施形態と比べて、所望音の音源の位置による入力信号の位相差を補正する機能を有する点で相違する。第3の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[3.1.第3の実施形態の概要]
まず、第3の実施形態に係る音声信号処理装置及び方法の概要について説明する。第3の実施形態に係る音声信号処理装置は、2つのマイクロホンに対する所望音の音源の相対位置により、2つのマイクロホンに入力される所望音に位相差が生じる場合に、当該2つのマイクロホン51から入力される音声信号の位相のずれを補正することを特徴とする。このように第3の実施形態に係る補正対象は、2つの音声信号間の所望音の位相のずれである。
第3の実施形態では、2つのマイクロホンの入力特性が同一であることを前提として、録音対象の所望音の音源が移動していること、又は、当該音源が録音装置の正面以外にあることを想定して、2つの音声信号の所望音の位相差を補正する。かかる補正処理は、2つのマイクロホンを用いた録音動作中に動的に実行可能である。
上述した第1の実施形態では、2つのマイクロホン51L、51Rからの入力音声信号x、xに含まれる所望音の相互相関は1であることを想定して、低減係数Gを求め、風雑音を低減していた。
ところが、一方のマイクロホン51Lの入力音声信号xに含まれる所望音と、他方のマイクロホン51Rの入力音声信号xに含まれる所望音との間に、位相差が生じる場合がある。
例えば、図16に示すように、デジタルカメラ1で子供5を撮像するとき、所望音の音源(子供5)が、デジタルカメラ1の正面に対して右方向にいる場合、所望音(子供5の声)は、Lch用のマイクロホン51Lでは、Rch用のマイクロホン51Rよりも若干遅れて入力される。従って、マイクロホン51Lの入力音声信号xの所望音は、マイクロホン51Rの入力音声信号xの所望音はよりも位相が遅れ、2つの音声信号x、x間に位相差が生じる。この結果、入力音声信号xと入力音声信号xとの間の相互相関は低下し、1よりも小さくなる。この現象は、2つのマイクロホン51L、51Rの間隔が大きくなると顕著になる。また、図16に示すように、所望音の音源(子供5)が、マイクロホン51L、51Rに対して相対的に移動する場合には、録音中に上記位相差は随時変化するので、当該位相差を動的に補正することが必要になる。
そこで、第3の実施形態では、所望音の音源が録音装置の正面以外にある場合や音源が移動している場合に、2つマイクロホン51L、51Rの音声信号x、x間に生じる所望音の位相差を補正する。この補正処理では、望ましくは、位相が進んでいる一方の音声信号(図16の例ではRch用マイクロホン51Rの音声信号x)が、他方の音声信号(Lch用マイクロホン51Lの音声信号x)に一致するように、当該一方の音声信号に位相遅れを付与する。これにより、2つの音声信号x、xの位相差を補正して、当該音声信号x、x中の所望音の相互相関係数を1に近づけることができる。
ここで、図17を参照して、所望音の相関について詳述する。所望音の相互相関係数は、マイクロホン51L、51Rと所望音の音源との相対位置、つまり、所望音がマイクロホン51L、51Rに到達する際の到来方向に依存する。図17(a)に示すように、所望音の音源(子供5)が、マイクロホン51L、51Rの正面にあり、所望音が0度方向(2つのマイクロホン51L、51Rの正面方向)から到来する場合、音声信号x、x中の所望音の相互相関係数は、常にほぼ1である。これに対し、図17(b)に示すように、所望音の音源(子供5)が、マイクロホン51L、51Rの正面からずれた位置にあり、所望音が正面方向に対して30度ずれた方向から到来する場合、音声信号x、x中の所望音の相互相関係数は、周波数が大きくなるにつれて、1より低下する。なお、図17の相互相関係数は、マイクロホン51L、51Rの間隔を2cmとした例である。
上述した第1の実施形態では、入力音声信号x、xに含まれる所望音の相互相関は1であると仮定して、風雑音の低減処理を行った。しかし、図17に示したように所望音の音源の位置が正面からずれるに従って、所望音の相互相関が1より低下するため、何らの対策も施さないと、雑音低減処理により所望音を劣化させてしまうことなる。そこで、第3の実施形態では、マイクロホン51L、51Rに対する所望音の音源の位置に応じて、2つの入力音声信号x、x間の所望音の相互相関を最大化(相互相関係数を1に近づける)ように補正することで、雑音低減処理による所望音の劣化を防ぐ。
[3.2.音声信号処理装置の機能構成]
次に、図18を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図18は、本実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図18に示すように、音声信号処理装置は、2つのマイクロホン51L、51Rと、音声処理部60を備える。音声処理部60は、2つの周波数変換部61L、61Rと、クロススペクトル算出部62と、2つのパワースペクトル算出部63L、63Rと、2つの雑音低減部64L、65Lと、2つの時間変換部65L、65Rと、クロススペクトル補正部67とを備える。これら音声処理部60の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声処理部60の備えるプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
図18に示したように、第3の実施形態に係る音声信号処理装置は、第1の実施形態に係る音声信号処理装置と比べて、クロススペクトル補正部67をさらに備える点で相違する。以下、各部について説明する。
マイクロホン51L、51Rは、上述したステレオマイクロホンを構成する。このマイクロホン51L、51は、上記第1の実施形態のマイクロホン51L、51と同様であるので、詳細説明は省略する。
周波数変換部61L、61Rは、フレーム単位で、時間領域の音声信号x、xを、周波数領域の音声スペクトル信号X、Xに変換する機能を有する。この周波数変換部61L、61Rは、上記第1の実施形態の周波数変換部61L、61Rと同様であるので、詳細説明は省略する。
クロススペクトル算出部62は、周波数成分ごとに、音声スペクトル信号X及び音声スペクトル信号Xを演算することにより、音声信号xと音声信号xとのクロススペクトルCLRを算出する。このクロススペクトル算出部62は、上記第1の実施形態のクロススペクトル算出部62と同様であるので、詳細説明は省略する。
クロススペクトル補正部67は、第3の実施形態の特徴的なユニットであり、所望音の音源の位置に応じて2つの音声信号x、xの位相差を補正するために、クロススペクトルCLRを補正する機能を有する。マイクロホン51L、61Rと所望音の音源との相対位置により、音声信号xに含まれる所望音と音声信号xに含まれる所望音との間に位相差が生じるときに、クロススペクトル補正部67は、上記音声スペクトル信号X、Xの相互相関に基づいて、クロススペクトル算出部62により算出されたクロススペクトルCLRを補正して、C’LRを生成する。
具体的には、クロススペクトル補正部67には、クロススペクトル算出部62からクロススペクトルCLRが入力され、パワースペクトル算出部63L、63RからパワースペクトルP、Pが入力される。クロススペクトル補正部67は、音声スペクトル信号Xに含まれる所望音と音声スペクトル信号Xに含まれる所望音との相互相関係数を最大化するように、補正係数Aを算出し、当該補正係数Aを用いてクロススペクトルCLRを補正する。このために、まず、クロススペクトル補正部67は、音声スペクトル信号Xの全体成分(全ての周波数成分:k=0〜L−1)と音声スペクトル信号Xの全体成分との相互相関係数が閾値Thより大きいか否かに基づき、音声信号x、xに風雑音が含まれない区間を検出する。ここで、音声スペクトル信号Xの全体成分とは、当該信号Xの全ての周波数成分(k=0〜L−1)を意味し、音声スペクトル信号Xの全体成分も同様である。当該全体成分の相互相関係数が閾値Thより大きければ、両信号X、Xの相関が高いので、所望音を含み、風雑音を含まない区間であると推定できる。
さらに、クロススペクトル補正部67は、上記検出された区間の音声スペクトル信号X、Xを用いて、XとXの二乗誤差が最小となるような補正係数Aを算出する。これにより、Xに含まれる所望音とXに含まれる所望音との相互相関係数を最大化するような補正係数Aを算出できる。その後、クロススペクトル補正部67は、補正係数Aを用いてクロススペクトルCLRを補正して、クロススペクトルC’LRを生成する。なお、かかるクロススペクトル補正部67によるクロススペクトルCLRの補正処理の詳細については後述する。
パワースペクトル算出部63L、63Rは、周波数成分ごとに、音声信号x、xのパワースペクトルP、Pを算出する機能を有する。このパワースペクトル算出部63L、63Rは、上記第1の実施形態のパワースペクトル算出部63L、63Rと同様であるので、詳細説明は省略する。
雑音低減部64L、64Rは、周波数成分ごとに、上記補正されたクロススペクトルC’LR及びパワースペクトルP、Pから低減係数G、Gを算出し、当該低減係数G、Gを用いて音声スペクトル信号X、Xを補正して、風雑音を低減する機能を有する。この雑音低減部64L、64Rは、クロススペクトル補正部67により補正されたクロススペクトルC’LRを用いて低減係数G、Gを算出する点を除いては、上記第1の実施形態の雑音低減部64L、64Rと同様であるので、詳細説明は省略する。かかる雑音低減部64L、64Rは、雑音低減後の音声スペクトル信号Y、Yを出力する。
時間変換部65L、65Rは、雑音低減部64L、65Rにより雑音が低減された周波数領域の音声スペクトル信号Y、Yを、時間領域の音声信号y、yに逆変換する機能を有する。この時間変換部65L、65Rは、上記第1の実施形態の時間変換部65L、65Rと同様であるので、詳細説明は省略する。時間変換部65L、65Rから出力された音声信号y、yは、デジタルカメラ1で撮像された動画データに付随する音声データとして、任意の記録媒体に記録される。
以上、第3の実施形態に係る音声信号処理装置の音声処理部60の機能構成について説明した。第3の実施形態では、所望音の音源の位置に応じて、2つのマイクロホン51L、51Rの入力音声信号x、xに位相差が生じる場合に、その位相差を解消するために、クロススペクトル補正部67によりクロススペクトルCLRを補正する。この際、クロススペクトル補正部67は、周波数成分ごとに、2つの音声信号x、xの所望音の相互相関を最大化するような補正係数Aを求め、当該補正係数Aを用いてCLRを補正する。これにより、音声信号x、xの所望音の相互相関係数を最大化して、ほぼ1にすることができる。よって、所望音(入力音声信号間の相関成分)を正確に推定できるので、風雑音を適切に低減することができる。
[3.3.音声信号処理方法]
次に、本実施形態に係る音声信号処理装置による音声信号処理方法(風雑音の低減方法)について説明する。
[3.3.1.音声信号処理装置の全体動作]
まず、上記図18で示した音声信号処理装置の全体動作について説明する。音声信号処理装置は、2つのマイクロホン51L、51Rからそれぞれ入力される音声信号x、xをフレームに分割し、フレーム単位で雑音低減処理を行う。m番目のフレームの音声信号x(m)、x(m)が入力されると、周波数変換部61L、61Rは、当該音声信号x(m)、x(m)をフーリエ変換して、m番目のフレームの音声スペクトル信号X、Xを周波数成分ごとに出力する。
周波数変換部61L、61Rから、m番目のフレームの音声スペクトル信号X、Xのk番目の周波数成分X(k,m)、X(k,m)が出力されると、クロススペクトル算出部62により、音声スペクトル信号X(k,m)、X(k,m)からクロススペクトルCLR(k)が算出される。これと同時に、パワースペクトル算出部63Lにより、音声スペクトル信号X(k,m)からパワースペクトルP(k)が算出され、パワースペクトル算出部63Rにより、音声スペクトル信号X(k,m)からパワースペクトルP(k)が算出される。
次いで、クロススペクトル補正部67により、クロススペクトル算出部62により算出されたクロススペクトルCLR(k)が補正され、クロススペクトルC’LR(k)が生成される。この際、クロススペクトル補正部67は、周波数成分ごとに、音声スペクトル信号X(k,m)とX(k,m)の差分を最小化するように補正係数A(k)を算出し、当該補正係数Aを用いてクロススペクトルCLR(k)を補正して、C’LR(k)を生成する。
さらに、雑音低減部64Lにより、C’LR(k)とP(k)から低減係数G(k)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算される。この結果、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が、雑音低減部64Lから時間変換部65Lに出力される。また、雑音低減部64Rにより、C’LR(k)とP(k,m)から低減係数G(k)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算される。この結果、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が、雑音低減部64Rから時間変換部65Rに出力される。
そして、時間変換部65Lにより、上記音声スペクトル信号Yのk番目の周波数成分Y(k,m)が逆フーリエ変換されて、時間領域の音声信号y(m)がフレーム単位で出力される。また、時間変換部65Rにより、上記音声スペクトル信号Yのk番目の周波数成分Y(k,m)が逆フーリエ変換されて、時間領域の音声信号y(m)がフレーム単位で出力される。
[3.3.2.クロススペクトル補正部の動作]
次に、図19、図20を参照して、本実施形態に係るクロススペクトル補正部67の動作について説明する。図19は、本実施形態に係るクロススペクトル補正部67の概略動作を示すフローチャートである。図20は、本実施形態に係るクロススペクトル補正部67の詳細動作を示すフローチャートである。
図19に示すように、まず、クロススペクトル補正部67は、周波数変換部61Lから音声スペクトル信号Xの各周波数成分X(k,m)を取得するとともに、周波数変換部61Rから音声スペクトル信号Xの各周波数成分X(k,m)を取得する(S60)。
次いで、クロススペクトル補正部67は、m番目のフレームの音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)と、Xの全ての周波数成分X(0〜L−1,m)との相互相関に基づいて、音声信号x(m)、x(m)のうち所望音のみが含まれている区間を検出する(S62)。
さらに、クロススペクトル補正部67は、当該検出された区間において、周波数成分ごとに、音声スペクトル信号X(k,m)の所望音とX(k,m)の所望音との相互相関を最大化する補正係数A(k)を算出する(S64)。そして、クロススペクトル補正部67は、当該補正係数AをクロススペクトルCLR(k)に乗算して、CLR(k)を補正し、当該補正後のC’LR(k)を雑音低減部64L、64Rに出力する(S66)。
さらに図20を参照して、クロススペクトル補正部67の詳細動作を説明する。図20に示すように、まず、クロススペクトル補正部67は、上記音声スペクトル信号X(k,m)を取得するとともに、音声スペクトル信号X(k,m)を取得する(S70:上記S60に相当する。)。さらに、クロススペクトル補正部67は、上記クロススペクトルCLR(k)、パワースペクトルP(k)及びP(k)を取得する(S72)。
次いで、クロススペクトル補正部67は、m番目のフレームの音声スペクトル信号X(k,m)の全体成分と音声スペクトル信号X(k,m)の全体成分との相互相関に基づいて、m番目のフレームが、風雑音を含まずに所望音のみを含む区間であるか否かを判定する(S74、S76)。
m番目のフレームに風雑音が含まれる場合には、X(k,m)とX(k,m)の相互相関が低下するため、補正係数A(k)を正しく算出できない。そこで、風雑音をできるだけ含まず、所望音のみを含む区間(例えばフレーム)において、補正係数A(k)を算出することが好ましい。そこで、本実施形態では、処理対象であるm番目のフレームが所望音のみを含む区間であるか否かを判定する。もしm番目のフレームが風雑音のみを含む場合は、X(k,m)全体とX(k,m)全体との相互相関係数CorrTotalが小さくなるので、当該相互相関係数CorrTotalの大小により、m番目のフレームが所望音のみを含む区間であるか否かを判定できる(S72、S74)。この結果、所望音のみが存在する区間であれば、当該m番目のフレームのX(k,m)とX(k,m)を用いて補正係数A(k)を算出する(S78)。
具体的には、まず、クロススペクトル補正部67は、以下の式(70)により、m番目のフレームの音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)と音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)との相互相関係数CorrTotalを算出する(S74)。
Figure 0005998483
次いで、クロススペクトル補正部67は、S74で求めたCorrTotalが、所定の閾値Thよりも大きいか否かを判定する(S76)。CorrTotal>Thであれば、クロススペクトル補正部67は、XとXの相互相関が高いので、m番目のフレームの音声信号xに風雑音が含まれないと判定し、補正係数A(k)の算出処理(S78)に進む。
S78では、クロススペクトル補正部67は、以下の式(71)により、m番目のフレームの周波数成分ごとに、XとXの二乗誤差が最小となる係数g(k)を算出し、当該g(k)を補正係数a(k,m)とする(S78)。式(71)における「E」は、例えば、フレームmを含み、フレームmより以前で、CorrTotal>Thとなった複数のフレームにおける時間平均を示す。
Figure 0005998483
さらにクロススペクトル補正部67は、不図示の記憶部に記憶されている過去の補正係数A(k)を読み出し、以下の式(72)により、平滑化係数r(0<r<1)を用いて、A(k)と、S78で求めた現在のフレームのa(k,m)を平滑化することにより、A(k)を更新する(S80)。このように、現在のフレームのa(k,m)と過去のフレームのA(k)を平滑化することで、個々のフレームの音声スペクトルXの異常値の影響を抑制できるので、信頼性の高い補正係数A(k,m)を算出できる。なお、1フレームのX(k,m)とX(k,m)のみを用いて補正係数A(k)を算出することも可能であるが、過去のフレームから算出した補正係数A(k)をも用いて補正係数A(k)を算出することで、補正係数A(k)の精度を向上できる。
(k)=r・A(k)+(1−r)・a(k,m) ・・・(72)
そして、クロススペクトル補正部67は、S80で得た補正係数A(k,m)を用いて、周波数成分ごとにクロススペクトルC’LR(k)を再計算する(S82)。具体的には、クロススペクトル補正部67は、以下の式(73)に従い、CLR(k)(=X(k,m)・X (k,m))に補正係数A(k)を乗算した値の期待値(平均値)を算出し、補正後のクロススペクトルC’LR(k)を得る。
Figure 0005998483
一方、上記S76にて、CorrTotal≦Thであれば、XとXの相互相関が低いので、クロススペクトル補正部67は、m番目のフレームの音声信号xに風雑音が含まれると判定する。この場合、クロススペクトル補正部67は、上記の補正係数A(k)の更新処理(S78、S80)を行わずに、過去のフレームから算出した補正係数A(k)を用いて、補正後のクロススペクトルC’LR(k)を得る(S82)。
以上、第3の実施形態に係る特徴であるクロススペクトル補正部67の動作について説明した。なお、その他の各部(クロススペクトル算出部62、パワースペクトル算出部63L、63R、雑音低減部64L、64R等)の動作は、上記第1の実施形態と実質的に同一であってもよいので、詳細説明は省略する(図8〜図10参照。)。
[3.4.効果]
以上、本開示の第3の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第3の実施形態によれば、上記第1の実施形態の効果に加え、次の効果を得ることができる。
即ち、第3の実施形態では、所望音の音源の位置により、2つのマイクロホン51L、51Rからの入力音声信号x、xの所望音に位相差が生じる場合であっても、当該所望音の相互相関を最大化する補正係数Aを用いて、クロススペクトルCLRを補正する。これにより、2つの音声信号x、xの所望音の相互相関を高めて相互相関係数Corr(k)を1に近づけることができるので、2つの音声信号x、xから所望音を正確に推定可能になる。従って、ウィナーフィルタ形式の低減係数Gを好適に適用して、入力音声から風雑音を適切に低減し、所望音を劣化させることなく抽出することができる。
また、2つの音声スペクトル信号X、Xの相互相関係数Corr(k)を最大化するような補正係数Aを算出し、補正係数Aを用いてクロススペクトルCLRを補正する。これにより、所望音の相互相関を高めるための補正係数Aを適切に求めて、所望音の推定精度を向上することができる。
さらに、各フレームの音声スペクトル信号XとXの全ての周波数成分の相互相関CorrTotalに基づいて、そのフレームに風雑音が含まれない区間(フレーム)を検出し、風雑音が含まれず所望音のみが含まれる区間のXとXから補正係数Aを算出する。これにより、所望音の相互相関を高めるための補正係数Aを適切に求めて、所望音の推定精度を更に向上させることができる。
<4.第4の実施の形態>
次に、本開示の第4の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第4の実施形態は、上記第1の実施形態と比べて、雑音低減部の後段にハイパスフィルタを設け、このイパスフィルタのカットオフ周波数を制御する点で相違する。第4の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[4.1.第4の実施形態の概要]
まず、第4の実施形態に係る音声信号処理装置及び方法の概要について説明する。第4の実施形態では、雑音低減部64の後段に、所定のカットオフ周波数Fc以下の低域周波数成分を除去するハイパスフィルタ(High Pass Filter:HPF)を設け、雑音低減部64から出力された音声スペクトル信号Yに残留した風雑音を低減する。
さらに、ハイパスフィルタのカットオフ周波数Fcを制御するためのフィルタ制御部を設ける。このフィルタ制御部は、クロススペクトルCLR、パワースペクトルP、Pを利用して、音声スペクトル信号X、Xの相互相関に基づいて、カットオフ周波数を動的に制御する。これにより、入力音声信号x、xに含まれる風雑音の状態に応じて柔軟にカットオフ周波数Fcを制御することができる。従って、風雑音が強い場合は、カットオフ周波数Fcを大きくして、風雑音をより低減することができ、風雑音が弱い場合は、カットオフ周波数Fcを小さくして、所望音の劣化を抑制することができる。以下に、このカットオフ周波数Fcの制御について、より詳細に説明する。
上述したように、基本的には、2つのマイクロホン51L、51Rの入力音声信号x、x間で、風雑音の相互相関はゼロに近くなる。しかし、図21に示すように、マイクロホン51L、51Rの間隔や風雑音の波長によっては、所定の周波数(図の例では約250Hz)以下では、風雑音の相互相関が大きくなる場合がある。この場合、上記雑音低減部64は、当該周波数以下の低周波数帯域の風雑音を適切に低減することができない。
そこで、第4の実施形態では、相互相関が高くなる風雑音を含む低周波数領域の上限の周波数を検出し、当該低周波数領域の上限の周波数をカットオフ周波数Fcとするハイパスフィルタにより、当該低域周波数以下の風雑音を除去する。
ここで、図22を参照して、カットオフ周波数Fcの検出・設定方法の概要を説明する。図22は、カットオフ周波数Fcにより低周波数帯域が除去された音声スペクトル信号Yを示す。
上記の雑音低減部64により風雑音を適切に低減できない低周波数帯域は、風雑音のみが含まれている区間の音声スペクトル信号X、X間の相互相関に基づいて、検出することが可能である。当該低周波数帯域は、音声信号に風雑音のみが含まれていると判定された区間において、X、Xの相互相関が高い値となる1kHz以下の周波数帯域である。
そこで、本実施形態では、当該区間の音声スペクトル信号X、Xの相互相関係数に基づいて、風雑音の周波数特性に応じた適切なカットオフ周波数Fcを設定する。例えば、雑音低減部64により風雑音を適切に低減できている場合には、図22の破線の周波数特性で示すように、ハイパスフィルタのカットオフ周波数Fcを小さい値Fcに設定する。これにより、周波数Fc超の所望音を除去しないので、所望音の音質劣化を小さくすることができる。一方、雑音低減部64による風雑音の低減が不十分である場合には、図22の実線の周波数特性で示すように、ハイパスフィルタのカットオフ周波数Fcを大きい値Fcに設定する。これにより、周波数Fc以下の風雑音をも除去して、X、X間の相互相関を有する低周波数帯域の風雑音を適切に低減することができる。
[4.2.音声信号処理装置の機能構成]
次に、図23を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図23は、本実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図23に示すように、音声信号処理装置は、2つのマイクロホン51L、51Rと、音声処理部60を備える。音声処理部60は、2つの周波数変換部61L、61Rと、クロススペクトル算出部62と、2つのパワースペクトル算出部63L、63Rと、2つの雑音低減部64L、64Rと、2つの時間変換部65L、65Rと、2つのフィルタ部68L、68Rと、フィルタ制御部69とを備える。これら音声処理部60の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声処理部60の備えるプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
図23に示したように、第4の実施形態に係る音声信号処理装置は、第1の実施形態に係る音声信号処理装置と比べて、フィルタ部68L、68R及びフィルタ制御部69をさらに備える点で相違する。以下、各部について説明する。
マイクロホン51L、51R、周波数変換部61L、61R、クロススペクトル算出部62、パワースペクトル算出部63L、63R、雑音低減部64L、64Rは、上記第1の実施形態の各部と同様であるので、詳細説明は省略する。
フィルタ部68L、68R(以下、フィルタ部68と総称する。)はそれぞれ、雑音低減部64L、65Lの後段に設けられるハイパスフィルタ(低域除去フィルタ)である。このフィルタ部68L、68Rは、雑音低減部64L、64Rから出力された音声スペクトル信号Y、Yの低周波数帯域を除去して、音声スペクトル信号Z、Zを出力する。
具体的には、フィルタ部68Lは、周波数成分ごとに、フィルタ制御部69により設定されたカットオフ周波数Fcに応じてフィルタ係数H(k)を生成し、当該H(k)をLchの音声スペクトル信号Yに乗算する。これにより、音声スペクトル信号Yうちカットオフ周波数Fc以下の低周波数帯域が除去され、当該低周波数帯域に含まれる風雑音が低減される。同様に、フィルタ部68Rは、周波数成分ごとに、フィルタ制御部69により設定されたカットオフ周波数Fcに応じてフィルタ係数H(k)を生成し、当該H(k)をRchの音声スペクトル信号Yに乗算する。これにより、音声スペクトル信号Yうちカットオフ周波数Fc以下の低周波数帯域が除去され、当該低周波数帯域に含まれる風雑音が低減される。
フィルタ制御部69は、音声スペクトル信号Xと音声スペクトル信号Xとの相互相関に基づいて、フィルタ部68L、68Rのカットオフ周波数Fcを動的に制御する機能を有する。具体的には、フィルタ制御部69は、入力音声信号xとxのうち風雑音のみが含まれる区間を検出して、当該区間の音声スペクトル信号Xと音声スペクトル信号Xとの相互相関係数Corrを周波数成分ごとに求める。この際、フィルタ制御部69は、クロススペクトルCLR、パワースペクトルP、Pを利用して相互相関係数Corrを求める。そして、フィルタ制御部69は、当該相互相関係数Corrが閾値th以下となる周波数成分のうち最も低い周波数成分に対応する周波数を、カットオフ周波数Fcとして設定する。
例えば、図21に示すように、本来、2つのマイクロホン51L、51Rで収音される風雑音は相互相関が低く、その相互相関係数Corrはゼロに近い。ところが、250Hz以下の低周波数帯域では、マイクロホン51L、51Rの間隔や風雑音の波長によっては、風雑音の相互相関係数Corrが大きくなり1に近づく場合がある。この場合、周波数が0から大きくなるにつれ、風雑音の相互相関係数Corrは、一定値(例えば0.5)以上の値から徐々に低下して、ある周波数で閾値th以下となる。このように風雑音の相互相関係数Corrが閾値th以下にまで低下すれば、その周波数以上の帯域の風雑音は、上記雑音低減部64により除去可能である。そこで、風雑音の相互相関係数Corrが最初に閾値th以下となるときの周波数をカットオフ周波数Fcとして設定し、当該カットオフ周波数Fc以下の低周波数帯域の風雑音をフィルタ部68により除去することが好ましい。そこで、フィルタ制御部69は、風雑音のみが含まれる区間において、音声スペクトル信号X、Xの相互相関係数Corr(k)が高い値から閾値th以下にまで低下するときの周波数を、カットオフ周波数Fcとして設定する。
フィルタ制御部69は、設定したカットオフ周波数Fcをフィルタ部68L、68Rにそれぞれ出力する。なお、本実施形態では、Lch用のフィルタ部68LとRch用のフィルタ部68Rとが同一のカットオフ周波数Fcを用いるが、各チャンネルの音声スペクトル信号X、Xに応じて、相異なるカットオフ周波数Fcを用いてもよい。
時間変換部65L、65Rは、フィルタ部68L、68Rを通過した音声スペクトル信号Z、Zを、時間領域の音声信号z、zに逆変換する機能を有する。この時間変換部65L、65Rは、上記第1の実施形態の時間変換部65L、65Rと同様であるので、詳細説明は省略する。時間変換部65L、65Rから出力された音声信号z、zは、デジタルカメラ1で撮像された動画データに付随する音声データとして、任意の記録媒体に記録される。
以上、第4の実施形態に係る音声信号処理装置の音声処理部60の機能構成について説明した。第4の実施形態では、フィルタ制御部69により、音声スペクトル信号X、Xの相互相関(クロススペクトルCLR、パワースペクトルP、P)を利用して、フィルタ部68のカットオフ周波数Fcを動的に制御する。これにより、実際の音声信号x、xに含まれる風雑音の周波数特性に応じて、適切なカットオフ周波数Fcを設定できる。これにより、フィルタ部68L、68Rは、カットオフ周波数Fc以下の周波数成分を除去して、雑音低減部64により低減されずに残留している低周波数帯域の風雑音を適切に除去することができる。
[4.3.音声信号処理方法]
次に、本実施形態に係る音声信号処理装置による音声信号処理方法(風雑音の低減方法)について説明する。
[4.3.1.音声信号処理装置の全体動作]
まず、上記図23で示した音声信号処理装置の全体動作について説明する。音声信号処理装置は、2つのマイクロホン51L、51Rからそれぞれ入力される音声信号x、xをフレームに分割し、フレーム単位で雑音低減処理を行う。m番目のフレームの音声信号x(m)、x(m)が入力されると、周波数変換部61L、61Rは、当該音声信号x(m)、x(m)をフーリエ変換して、m番目のフレームの音声スペクトル信号X、Xを周波数成分ごとに出力する。
周波数変換部61L、61Rから、m番目のフレームの音声スペクトル信号X、Xのk番目の周波数成分X(k,m)、X(k,m)が出力されると、クロススペクトル算出部62により、音声スペクトル信号X(k,m)、X(k,m)からクロススペクトルCLR(k)が算出される。これと同時に、パワースペクトル算出部63Lにより、音声スペクトル信号X(k,m)からパワースペクトルP(k)が算出され、パワースペクトル算出部63Rにより、音声スペクトル信号X(k,m)からパワースペクトルP(k)が算出される。
次いで、雑音低減部64Lにより、CLR(k)とP(k)から低減係数G(k)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算される。この結果、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が、雑音低減部64Lからフィルタ部68Lに出力される。また、雑音低減部64Rにより、CLR(k)とP(k)から低減係数G(k)が算出されて、音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算される。この結果、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が、雑音低減部64Rからフィルタ部68Lに出力される。
さらに、フィルタ制御部69により、周波数成分ごとに、CLR(k)、P(k)及びP(k)から相互相関係数Corr(k)が算出され、Corr(k)に基づいてカットオフ周波数Fcが設定される。そして、フィルタ部68Lにより、上記音声スペクトル信号Yうちのカットオフ周波数Fc以下の周波数成分が除去されて、Z(k,m)が出力される。同時に、フィルタ部68Rにより、上記音声スペクトル信号Yうちのカットオフ周波数Fc以下の周波数成分が除去されて、Z(k,m)が出力される。
そして、時間変換部65Lにより、上記音声スペクトル信号Zのk番目の周波数成分Z(k,m)が逆フーリエ変換されて、時間領域の音声信号z(m)がフレーム単位で出力される。また、時間変換部65Rにより、上記音声スペクトル信号Zのk番目の周波数成分Z(k,m)が逆フーリエ変換されて、時間領域の音声信号z(m)がフレーム単位で出力される。
[4.3.2.フィルタ制御部の動作]
次に、図24、図25を参照して、本実施形態に係るフィルタ制御部69の動作について説明する。図24は、本実施形態に係るフィルタ制御部69の概略動作を示すフローチャートである。図25は、本実施形態に係るフィルタ制御部69の詳細動作を示すフローチャートである。
図24に示すように、まず、フィルタ制御部69は、クロススペクトル算出部62からクロススペクトルCLR(k)を取得し、パワースペクトル算出部63L、63RからパワースペクトルP(k)及びP(k)を取得する(S100)。次いで、フィルタ制御部69は、周波数成分ごとに、音声スペクトル信号XとXの相互相関係数Corr(k)を算出する(S102)。
次いで、フィルタ制御部69は、相互相関係数Corrに基づいて、入力音声信号x、xに風雑音が含まれているか否かを検出する(S104)。例えば、入力音声信号x、x全体の相互相関係数CorrTotalが閾値Th以下であり、かつ、入力音声信号x、xの低周波数帯域の相互相関係数Corr(k)が閾値th以上であれば、入力音声信号x、xの低周波数帯域に風雑音が含まれると判断される。
その後、フィルタ制御部69は、相互相関係数Corrの周波数特性に基づいて、フィルタ部68のカットオフ周波数Fcを設定する(S106)。例えば、図22に示したように、フィルタ制御部69は、周波数がゼロから大きくなるにつれて低下する相互相関係数Corr(k)が最初に閾値th以下になったときの周波数をカットオフ周波数Fcに設定する。
さらに、図25を参照して、フィルタ制御部69の詳細動作を説明する。図25に示すように、まず、フィルタ制御部69は、上記クロススペクトルCLR(k)、パワースペクトルP(k)及びP(k)を取得する(S110)。
次いで、フィルタ制御部69は、以下の式(80)により、周波数成分ごとに、音声スペクトル信号XとXの相互相関係数Corr(k)を算出する(S112)。
Figure 0005998483
次いで、フィルタ制御部69は、m番目のフレームの音声スペクトル信号X(k,m)の全体成分と音声スペクトル信号X(k,m)の全体成分との相互相関に基づいて、m番目のフレームが、所望音を含まずに風雑音のみを含む区間であるか否かを判定する(S114、S116)。
m番目のフレームに風雑音が含まれない場合には、低周波数帯域の風雑音を低減するためのカットオフ周波数Fcを正しく算出できない。そこで、所望音をできるだけ含まず、風雑音のみを含む区間(例えばフレーム)において、カットオフ周波数Fcを算出し、過去のFcを更新することが好ましい。そこで、本実施形態では、処理対象であるm番目のフレームが風雑音のみを含む区間であるか否かを判定する。もしm番目のフレームが風雑音のみを含む場合は、X(k,m)全体とX(k,m)全体との相互相関係数CorrTotalが小さくなるので、当該相互相関係数CorrTotalの大小により、m番目のフレームが風雑音のみを含む区間であるか否かを判定できる(S114、S116)。この結果、風雑音のみを含む区間であれば、当該m番目のフレームのX(k,m)とX(k,m)を用いてカットオフ周波数Fcを更新する(S118)。
具体的には、まず、フィルタ制御部69は、以下の式(81)により、m番目のフレームの音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)と音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)との相互相関係数CorrTotalを算出する(S114)。
Figure 0005998483
次いで、フィルタ制御部69は、S114で求めたCorrTotalが、所定の閾値Th以下であるか否かを判定する(S116)。CorrTotal≦Thであれば、フィルタ制御部69は、XとXの相互相関が低いので、m番目のフレームの音声信号xに風雑音が含まれると判定し、カットオフ周波数Fcの算出処理(S118)を行う。一方、CorrTotal>Thであれば、フィルタ制御部69は、XとXの相互相関が高いので、m番目のフレームの音声信号xに風雑音が含まれないと判定し、カットオフ周波数Fcの算出処理(S118)を行わずに、m番目のフレームの処理を終了する。
S118では、フィルタ制御部69は、S112で算出した各周波数成分の相互相関係数Corr(k)に基づいて、カットオフ周波数Fcを算出する(S118、S120)。詳細には、フィルタ制御部69は、以下の式(82)により、相互相関係数Corr(k)が最初に閾値th以下となる周波数成分の周波数インデックスkcutを求める(S118)。つまり、フィルタ制御部69は、m番目のフレームの音声スペクトル信号Xの各周波数成分のうち、相互相関係数Corr(k)が閾値以下となる周波数成分のうち、周波数帯域が最も低い周波数成分の周波数インデックスkcutを求める。例えば、フィルタ制御部69は、m番目のフレームの音声スペクトル信号Xの各周波数成分の周波数インデックスk=0〜L−1の中から、相互相関係数Corr(k)が閾値th以下となるすべての周波数成分(k=k〜kM−1)を抽出し、そのうちで周波数インデックスkの最小値kをkcutとする。
Figure 0005998483
そして、フィルタ制御部69は、S118で求めた周波数インデックスkcutの周波数成分に対応する離散周波数を、カットオフ周波数Fcとして設定する(S120)。なお、当該周波数インデックスkcutの周波数帯域の下限又は上限の周波数などを、カットオフ周波数Fcとして設定してもよい。
[4.3.3.フィルタ部の動作]
次に、図26を参照して、本実施形態に係るフィルタ部68の動作について説明する。図26は、本実施形態に係るフィルタ部68の概略動作を示すフローチャートである。なお、以下では、Lch用のフィルタ部68Lの動作を説明するが、Rch用のフィルタ部68Rの動作も同様である。
図26に示すように、まず、フィルタ部68Lは、雑音低減部64Lから、音声スペクトル信号Y(k)を取得する(S130)。音声スペクトル信号Y(k)は、雑音低減部64Lにより上述の雑音低減処理が施された音声スペクトル信号である。さらに、フィルタ部68Lは、フィルタ制御部69からカットオフ周波数Fcを取得する(S132)。
次いで、フィルタ部68Lは、カットオフ周波数Fc以下の周波数成分を除去するためのハイパスフィルタH(k)を算出する(S134)。ハイパスフィルタの算出方法としては、例えば、窓関数法、等リップル法、チェビシェブフィルタ、バタワースフィルタなど、公知の任意の方法を用いることができる。
その後、フィルタ部68Lは、以下の式(83)により、ハイパスフィルタH(k)を音声スペクトル信号Y(k)に乗算して、音声スペクトル信号Z(k)を生成する。この音声スペクトル信号Zは、音声スペクトル信号Yのうちのカットオフ周波数Fc以下の低周波成分を除去した音声スペクトル信号であり、図22に示した低周波数帯域の風雑音が除去されている。
(k)=H(k)・Y(k) ・・・(83)
[4.4.効果]
以上、本開示の第4の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第4の実施形態によれば、上記第1の実施形態の効果に加え、次の効果を得ることができる。
即ち、第4の実施形態によれば、上記第1の実施形態に係る雑音低減部64により低減しきれずに残留している低周波数帯域の風雑音をも、適切なカットオフ周波数Fcのハイパスフィルタを用いて好適に低減することができる。さらに、フィルタ制御部69は、実際に入力される音声スペクトル信号X、Xの各周波数成分の相互相関係数Corr(k)に基づいて、カットオフ周波数Fcを動的に制御し、実際の音声信号x、xに含まれる風雑音の周波数特性に応じた適切なカットオフ周波数Fcを設定する。
このようにフィルタ制御部69は、当該相互相関係数Corr(k)から、雑音低減部64により風雑音を適切に低減できていない周波数帯域を特定し、当該周波数帯域に合わせてカットオフ周波数Fcを設定する。これにより、風雑音低減部64による低減処理が適切に行われている場合には、カットオフ周波数Fcを比較的小さい値に設定することで、ハイパスフィルタにより所望音の低周波数成分を除去しないようにして、所望音の劣化を抑制することができる。一方、風雑音低減部64による低減処理が不十分な場合には、カットオフ周波数Fcを比較的大きな値に設定することで、風雑音低減部64により低減できない低周波数帯域の風雑音を十分に低減することができる。
また、低周波数帯域において相互相関係数Corr(k)が閾値th以下に低下する最小の周波数を、カットオフ周波数Fcに設定することで、低周波数帯域の所望音を不必要に劣化させることなく、低周波数帯域の風雑音を適切に低減することができる。
さらに、各フレームの音声スペクトル信号XとXの全ての周波数成分CorrTotalの相互相関に基づいて、そのフレームに風雑音が含まれる区間(フレーム)を検出し、所望音が含まれず風雑音のみが含まれる区間のXとXのCorrTotalから、カットオフ周波数Fcを算出する。これにより、風雑音の周波数特性に合わせてカットオフ周波数Fcを適切に求めて、低周波数帯域の所望音の推定精度を更に向上させることができる。
<5.第5の実施の形態>
次に、本開示の第5の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第5の実施形態は、上記第1の実施形態と比べて、雑音低減部による低減係数の算出方法が相違する。第5の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[5.1.第5の実施形態の概要]
まず、第5の実施形態に係る音声信号処理装置及び方法の概要について説明する。上記第4の実施形態では、ハイパスフィルタ(フィルタ部68)により、雑音低減部64から出力された音声スペクトル信号Yに残留している低周波数帯域の風雑音を低減していた。しかし、ハイパスフィルタを用いた場合には、カットオフ周波数Fc以下の風雑音のみならず、所望音も同様に低減されるため、低周波数帯域の所望音が劣化してしまう。
そこで、第5の実施形態では、ハイパスフィルタを用いずに、雑音低減部64により、風雑音の特徴に応じて、上記のようにして求めた低減係数G(=CLR/P)(「第1の低減係数」に相当する。)をより適切な低減係数G’に補正する。即ち、雑音低減部64は、風雑音のみが存在する区間を検出し、その区間の音声スペクトル信号Xから風雑音の特徴Qを求め、当該風雑音の特徴Qを用いて、風雑音を低減するための低減係数Gを補正して低減係数G’を得る。そして、雑音低減部64は、当該補正後の低減係数G’を用いて音声スペクトル信号Xを補正することで、風雑音を低減する。これにより、上記ハイパスフィルタを用いたときのような低周波数帯域における所望音の劣化を抑え、風雑音をより好適に低減できるようになる。
ここで、図27を参照して、上記第1の実施形態に係る算出方法により算出された低減係数Gの改善点について検討する。図27は、第1の実施形態に係る算出方法により算出された低減係数Gと周波数との関係を示す図である。図27(A)は、入力音声に所望音のみが存在するときの低減係数G(「所望音のみが含まれる区間に対応する低減係数」に相当する。)の周波数特性を示す。図27(B)は、入力音声に所望音及び風雑音が存在するときの低減係数G(所望音と風雑音が含まれる区間に対応する低減係数に相当する。)の周波数特性を示す。図27(C)は、入力音声に風雑音のみが存在するときの低減係数G(「風雑音のみが含まれる区間に対応する第2の低減係数」に相当する。)の周波数特性を示す。
図27(A)に示すように、入力音声に所望音のみが存在するときは、低減係数Gはほぼ1となる。従って、雑音低減部64により低減係数Gを用いて音声スペクトル信号Xを補正した場合でも、出力信号Yは入力信号Xとほぼ同一となる。
一方、図27(B)に示すように、入力音声に所望音及び風雑音が存在するときは、低周波数帯域において、低減係数Gは1より小さくなる。これは風雑音を低減するためである。また、図27(C)に示すように、入力音声に風雑音のみが存在するときは、低周波数帯域において、低減係数Gは高い値となり、1に近い値をとってしまう。このように低減係数Gを用いた場合、低周波数帯域では、風雑音のみが含まれている場合でも、十分な低減効果を得ることができない。このことから、図27(B)に示すように、所望音と風雑音が含まれる区間でも、低周波数帯域に対しては、風雑音を十分に除去することができない。この理由は、所望音が原因で相関が大きいのか、或いは、風雑音が原因で相関が大きいのかの区別がつかず、ただ相関があるという点で、Gが1に近い値をとるからである。
そこで、第5の実施形態では、低周波数帯域に関して、第1の実施形態で算出された低減係数G(第1の低減係数)から、図27(C)に示す風雑音のみを含む区間の低減係数G(第2の低減係数)を減算する補正を行うことで、低減係数Gを低減係数G’に補正する(G’=G−G)。これにより、低周波数帯域における風雑音の影響が低減された、より適切な低減係数G’を得ることができる。
この低減係数G’の補正について、図28を参照してより詳細に説明する。図28は、本実施形態に係る低減係数Gの補正方法を示す図である。図28において、実線は、所望音及び風雑音を含む区間の入力音声信号xから算出された低減係数G(=CLR/P)を示す。破線は、風雑音のみを含む区間の入力音声信号xから算出された低減係数G(=CLR/P)を示す。
図28に示すように、まず、周波数帯域を例えば3つの帯域(低域F、中域F、高域F)に区分する。図示の例では、低域Fは約200Hz以下、中域Fは約200Hz〜約700Hz、高域Fは約700Hz以上の周波数帯域である。
次いで、低域F及び中域Fでは、所望音及び風雑音を含む場合の低減係数Gから、風雑音のみを含む場合の低減係数Gを減算して、低減係数G’を求める。この低減係数G’は、図28の両矢印で示す差分の値となる。そして、雑音低減部64は、かかる低減係数G’を低域F及び中域Fの音声スペクトル信号Xに乗算する。これにより、中域Fにおいては、当該差分の分だけ所望音を残しつつ、風雑音をさらに低減することができる。また、低域Fにおいては、GとGはほぼ同一であり、両者の差分の低減係数G’はほぼゼロとなるので、風雑音を十分に低減することができる。
一方、高域Fでは、2つのマイクロホン51間の風雑音の相互相関が十分に小さくなり、低減係数Gは適正値となる。従って、特に風雑音の影響を補正しなくても、第1の実施形態に係る算出方法で得られた低減係数Gを用いて、風雑音を適切に低減できる。そこで、雑音低減部64は、高域Fでは、GからGを減算することなく、そのままの低減係数Gを音声スペクトル信号Xに乗算する。これにより、高域Fの所望音を劣化させることなく、高域Fの風雑音を適切に低減できる。
[5.2.音声信号処理装置の機能構成]
次に、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。
第5の実施形態に係る音声信号処理装置の機能構成は、雑音低減部64による低減係数Gの補正機能を除いては、第1の実施形態に係る音声信号処理装置の機能構成(図7参照。)と略同一であるので、詳細説明は省略する。
第5の実施形態に係る雑音低減部64は、上記第1の実施形態のような低減係数Gの算出処理のみならず、低減係数Gの補正処理を行う。この補正処理により、風雑音の周波数特性に応じて低減係数Gから低減係数G’が算出される。
具体的には、雑音低減部64L、64Rは、周波数成分ごとに、上記クロススペクトルCLR及びパワースペクトルP、Pから低減係数G、Gを算出する。そして、雑音低減部64L、64Rは、周波数成分ごとに、低減係数G、Gを補正して、低減係数G’、G’を算出する。そして、雑音低減部64L、64Rは、当該低減係数G’、G’を用いて音声スペクトル信号X、Xを補正して、風雑音を低減する。なお、かかる雑音低減部64による低減係数Gの補正処理の詳細については後述する。
以上、第5の実施形態に係る音声信号処理装置の音声処理部60の機能構成について説明した。第5の実施形態では、雑音低減部64により、実際の音声信号x、xに含まれる風雑音の周波数特性に応じて、低減係数Gを適切な低減係数G’に補正する。これにより、低周波数帯域において、風雑音の相互相関係数がゼロにならない場合であっても、所望音の劣化を抑制しつつ、風雑音を適切に低減できる。
[5.3.音声信号処理方法]
次に、本実施形態に係る音声信号処理装置による音声信号処理方法(風雑音の低減方法)について説明する。
[5.3.1.音声信号処理装置の全体動作]
まず、本実施形態に係る音声信号処理装置の全体動作について説明する。音声信号処理装置は、2つのマイクロホン51L、51Rからそれぞれ入力される音声信号x、xをフレームに分割し、フレーム単位で雑音低減処理を行う。m番目のフレームの音声信号x(m)、x(m)が入力されると、周波数変換部61L、61Rは、当該音声信号x(m)、x(m)をフーリエ変換して、m番目のフレームの音声スペクトル信号X、Xを周波数成分ごとに出力する。
周波数変換部61L、61Rから、m番目のフレームの音声スペクトル信号X、Xのk番目の周波数成分X(k,m)、X(k,m)が出力されると、クロススペクトル算出部62により、音声スペクトル信号X(k,m)、X(k,m)からクロススペクトルCLR(k)が算出される。これと同時に、パワースペクトル算出部63Lにより、音声スペクトル信号X(k,m)からパワースペクトルP(k)が算出され、パワースペクトル算出部63Rにより、音声スペクトル信号X(k,m)からパワースペクトルP(k)が算出される。
次いで、雑音低減部64Lにより、CLR(k)とP(k)から低減係数G(k)が算出され、風雑音の特徴Q(k)に基づいて、低減係数G(k)が低減係数G’(k)に補正される。そして、雑音低減部64Lにより、低減係数G’(k)が音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算される。この結果、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が、雑音低減部64Lから時間変換部65Lに出力される。また、雑音低減部64Rにより、CLR(k)とP(k)から低減係数G(k)が算出され、風雑音の特徴Q(k)に基づいて、低減係数G(k)が低減係数G’(k)に補正される。そして、雑音低減部64Rにより、低減係数G’(k)が音声スペクトル信号Xのk番目の周波数成分X(k,m)に乗算される。この結果、風雑音が低減された音声スペクトル信号Yのk番目の周波数成分Y(k,m)が、雑音低減部64Rから時間変換部65Rに出力される。
その後、時間変換部65Lにより、上記音声スペクトル信号Yのk番目の周波数成分Y(k,m)が逆フーリエ変換されて、時間領域の音声信号y(m)がフレーム単位で出力される。また、時間変換部65Rにより、上記音声スペクトル信号Yのk番目の周波数成分Y(k,m)が逆フーリエ変換されて、時間領域の音声信号y(m)がフレーム単位で出力される。
[5.3.2.雑音低減部の動作]
次に、図29、図30を参照して、本実施形態に係る雑音低減部64の動作について説明する。図29は、本実施形態に係る雑音低減部64の概略動作を示すフローチャートである。図30は、図29のS156〜S160の詳細動作を示すフローチャートである。
図29に示すように、まず、雑音低減部64L、64Lはそれぞれ、周波数変換部61L、61Rから音声スペクトル信号X、Xの各周波数成分X(k,m)、X(k,m)を取得する(S150)。さらに、雑音低減部64L、64Rはそれぞれ、クロススペクトル算出部62から各周波数成分のクロススペクトルCLR(k)を取得するとともに、パワースペクトル算出部63Lから各周波数成分のパワースペクトルP(k)、P(k)、を取得する(S152)。
次いで、雑音低減部64L、64Rはそれぞれ、上述した式(46)に示すように、周波数成分ごとに、CLR(k)をP(k)、P(k)で除算して、低減係数G(k,m)、G(k,m)を算出する(S154)。
さらに、雑音低減部64L、64Rは、風雑音のみ存在する区間(フレーム)を検出し、(S156)、当該区間の音声スペクトル信号X(k,m)、X(k,m)から、風雑音の周波数特性の特徴Qを算出する(S158)。次いで、雑音低減部64L、64Rは、風雑音の特徴Qに基づいて、S154で求めた低減係数G(k)、G(k)を補正して、低減係数G’(k)、G’(k)を得る(S160)。ここで、風雑音の特徴Qは、例えば。図27(C)に示したような風雑音の低減係数Gの周波数特性である。なお、これらS156〜S160の詳細は後述する(図30参照。)。
その後、雑音低減部64Lは、以下の式(90)に示すように、各周波数成分の低減係数G’(k)を音声スペクトル信号Xの各周波数成分X(k,m)に乗算して、X(k,m)を減衰させ、風雑音を低減する(S162)。これにより、風雑音が低減された音声スペクトル信号Yの各周波数成分Y(k,m)が得られる。同様に、雑音低減部64Rは、以下の式(91)に示すように、各周波数成分の低減係数G’(k)を音声スペクトル信号Xの各周波数成分X(k,m)に乗算して、X(k,m)を減衰させ、風雑音を低減する。これにより、風雑音が低減された音声スペクトル信号Yの各周波数成分Y(k,m)が得られる。
(k,m)=G’(k)・X(k,m) ・・・(90)
(k,m)=G’(k)・X(k,m) ・・・(91)
以上の処理を、マイクロホン51L、51Rから入力される音声信号X、Xの全てのフレームについて繰り返すことにより、フレーム単位で風雑音が低減される。
次いで、図30を参照して、図29のS156〜S160の詳細について説明する。なお、以下では、Lch用の雑音低減部64Lの動作を説明するが、Rch用の雑音低減部64Rの動作も同様である。
図30に示すように、まず、雑音低減部64Lは、上記の式(80)により、周波数成分ごとに、音声スペクトル信号XとXの相互相関係数Corr(k)を算出する(S170)。
次いで、雑音低減部64Lは、m番目のフレームの音声スペクトル信号X(k,m)の全体成分と音声スペクトル信号X(k,m)の全体成分との相互相関に基づいて、m番目のフレームが、所望音を含まずに風雑音のみを含む区間であるか否かを判定する(S172、S174)。
m番目のフレームに風雑音の風雑音の特徴Qを求めるためには、m番目のフレームに風雑音のみが含まれ、所望音が含まれていないことが好ましい。そこで、本実施形態では、処理対象であるm番目のフレームが風雑音のみを含む区間であるか否かを判定する。もしm番目のフレームが風雑音のみを含む場合は、X(k,m)全体とX(k,m)全体との相互相関係数CorrTotalが小さくなるので、当該相互相関係数CorrTotalの大小により、m番目のフレームが風雑音のみを含む区間であるか否かを判定できる(S172、S174)。
具体的には、まず、雑音低減部64Lは、上記の式(81)により、m番目のフレームの音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)と音声スペクトル信号Xの全ての周波数成分X(0〜L−1,m)との相互相関係数CorrTotalを算出する(S172)。
次いで、雑音低減部64Lは、S172で求めたCorrTotalが、所定の閾値Th以下であるか否かを判定する(S174)。CorrTotal≦Thであれば、雑音低減部64Lは、XとXの相互相関が低いので、m番目のフレームの音声信号xに風雑音が含まれると判定し、風雑音の低減係数GL_Wの算出及び更新処理(S176)を行う。一方、CorrTotal>Thであれば、雑音低減部64Lは、XとXの相互相関が高いので、m番目のフレームの音声信号xに風雑音が含まれないと判定し、GL_Wの算出及び更新処理(S176)を行わずに、m番目のフレームの処理を終了する。
次いで、当該m番目のフレームに風雑音のみが含まれる場合、雑音低減部64Lは、風雑音の低減係数GL_Wの算出及び更新処理を行う(S176)。具体的には、雑音低減部64Lは、周波数成分ごとに、上記S154で新たに算出したm番目のフレームの低減係数G(k,m)と、過去に算出されたGL_W(k)との平均値を算出し、各周波数成分の風雑音の低減係数GL_W(k)を更新する。ここで、過去に算出されたGL_W(k)とは、過去に入力されたフレームの音声信号x、xから上記と同様にして算出されたGL_W(k)の平均値である。また、低減係数G(k,m)は、S154にて風雑音のみを含む音声信号xから算出された低減係数であるので、風雑音の周波数特性を反映したものである。
具体的にS176では、雑音低減部64Lは、不図示の記憶部に記憶されている過去のGL_W(k)を読み出し、以下の式(92)に示すように、平滑化係数r(0<r<1)を用いてG(k,m)とGL_W(k)を平滑化することにより、GL_W(k)を更新する。このように、現在のフレームのG(k,m)と過去のフレームのGL_W(k)を平滑化することで、個々のフレームの音声スペクトルXの異常値の影響を抑制できるので、信頼性の高い低減係数GL_W(k)を算出できる。
L_W(k)=r・GL_W(k)+(1−r)・G(k,m) ・・・(92)
次いで、雑音低減部64Lは、処理対象の周波数成分の周波数インデックスkが閾値kTh未満であるか否かにより、低減係数G’の算出方法を変更する(S178)。ここで、周波数インデックスkの閾値kThは、低減係数Gの補正対象となる低周波数帯域の上限(例えば、図28の中域Fと高域Fの境界)を表す周波数インデックスである。
閾値kTh未満の周波数インデックスkの周波数成分に関しては、雑音低減部64Lは、以下の式(93)により、S154で求めた低減係数G(k)(即ち、m番目のフレームのG(k,m))からGL_W(k)を減算する補正処理を行う(S180)。かかる補正により、風雑音の周波数特性に応じて補正された低減係数G’(k)が得られる(S180)。
G’(k)=G(k)−GL_W(k) ・・・(93)
一方、閾値kTh以上の周波数インデックスkの周波数成分に関しては、雑音低減部64Lは、以下の式(94)により、S154で求めた低減係数G(k)を補正することなく、当該G(k)をそのまま低減係数G’(k)とする(S182)。
G’(k)=G(k) ・・・(94)
このように、閾値kTh未満の低周波数帯域においては、風雑音の周波特性を表す低減係数GL_W(k)を用いて低減係数G(k)を補正して、低減係数G’(k)を得る。一方、閾値kTh以上の高周波数帯域においては、GL_W(k)を用いてG(k)を補正せずに、G(k)をそのままG’
(k)として使用する。
この結果、図29のS162にて、閾値kTh未満の低周波数成分に関しては、GL_W(k)によりG(k)を補正した低減係数G’(k)を、音声スペクトル信号Xに乗算して、雑音低減処理がなされる。一方、閾値kTh以上の高周波数成分に関しては、低減係数G(k)を補正することなくそのまま、音声スペクトル信号Xに乗算して、雑音低減処理がなされる。
[5.4.効果]
以上、本開示の第5の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第5の実施形態によれば、上記第1及び第4の実施形態の効果に加え、次の効果を得ることができる。
即ち、第5の実施形態によれば、上記第1の実施形態に係る雑音低減部64により低減しきれずに残留している低周波数帯域の風雑音を好適に低減できるとともに、当該低周波数帯域の所望音の劣化を極力抑制することができる。つまり、図28に示したように、風雑音の相互相関が高い低周波数帯域(低域F及び中域F)に関しては、低減係数Gを用いて低減処理を行うと十分に風雑音を低減できないので、低減係数Gから風雑音の低減係数Gを減算して、低減係数G’を得る。一方、風雑音の相互相関が低い高周波数帯域(高域F)に関しては、低減係数Gを用いて好適に風雑音を低減できるので、低減係数Gを補正せずにそのまま低減係数G’として用いる。
これにより、実際の音声信号x、xに含まれる風雑音の周波数特性に応じて、低減係数Gを適切な低減係数G’に補正することができる。従って、低減係数G’を用いて音声スペクトル信号Xに含まれる風雑音を低減することで、低周波数帯域における所望音の劣化を抑制しつつ、低周波数帯域における風雑音も好適に低減できる。
<6.第6の実施の形態>
次に、本開示の第6の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。上述した第1〜第5の実施形態では、同一の録音装置(例えばデジタルカメラ1又はスマートフォン3等)の内部で、風雑音を低減する音声信号処理を行っていた。これに対し、第6の実施形態では、複数の装置間で連携して上記と同様の音声信号処理を行う例(クラウド形式の音声信号処理装置)について説明する。
[6.1.音声信号処理装置のハードウェア構成]
まず、図31を参照して、本実施形態に係る音声信号処理装置のハードウェア構成について説明する。図31は、本実施形態に係る音声信号処理装置のハードウェア構成を示すブロック図である。
図31に示すように、音声信号処理装置は、録音装置200と、処理装置300とから構成される。録音装置200と処理装置300は、物理的に異なる装置であり、別の場所に配置されてもよい。録音装置200と処理装置300は、有線又は無線を問わない任意の通信回線(例えば、インターネット、LAN等)で接続され、音声データを送受信可能に構成される。また、録音装置200と処理装置300は、半導体メモリ等の任意の記録媒体を介して音声データを授受可能に構成されてもよい。
録音装置200は、少なくとも2つのマイクロホンを備え、外部音声を収音する機能を有する装置であり、例えば、上記デジタルカメラ1、スマートフォン3、携帯電話、携帯型音声レコーダ、音声携帯型ゲーム機などである。処理装置300は、外部機器に対する通信機能を有するコンピュータ装置であり、例えば、パーソナルコンピュータ、サーバ装置、デジタル家電などである。
図31に示すように、録音装置200は、CPU202、ROM204、RAM206、音声入力装置208、音声出力装置210、画像入力装置212、画像出力装置214、データ保持装置216及び通信装置218を備える。
CPU202は、録音装置200の各部を制御する機能を有する。また、CPU202は、上記の風雑音を低減する音声信号処理を行うこともできる。音声入力装置208は、外部音声を収音して音声データを入力する。この音声入力装置208は、上記2つのマイクロホン51等で構成され、外部音声を収音して音声信号x、xの音声データを出力する。画像入力装置212は、撮像素子等からなり、被写体を撮像して得た動画データを入力する。
データ保持装置216は、音声入力装置208から入力された音声信号x、xの音声データや、通信装置218により受信された音声データを保存する。通信装置218は、音声入力装置208から入力された音声信号x、xの音声データや、データ保持装置216に保存されている音声データを、ネットワークを介して処理装置300に送信する。また、通信装置218は、処理装置300からネットワークを介して音声データを受信する。音声出力装置210は、スピーカ等で構成され、音声入力装置208から入力された音声信号x、xの音声データや、データ保持装置216に保存されている音声データを、音声として出力する。
また、図31に示すように、処理装置100は、CPU302、ROM304、RAM306、音声出力装置308、画像出力装置310、データ保持装置312及び通信装置314を備える。
CPU302は、処理装置300の各部を制御する機能を有する。また、CPU302は、上記のように風雑音を低減する雑音低減処理を行うこともできる。通信装置314は、録音装置200からネットワークを介して音声データを受信する。また、通信装置314は、CPU302により雑音低減処理が施された音声データや、データ保持装置312に保存されている音声データを、ネットワークを介して録音装置200に送信する。データ保持装置312は、通信装置314により受信された音声データや、CPU302により雑音低減処理が施された音声データを保存する。音声出力装置308は、スピーカ等で構成され、通信装置314により受信された音声データや、CPU302により雑音低減処理が施された音声データを、音声として出力する。
[6.2.音声信号処理装置の機能構成]
次に、図32を参照して、本実施形態に係る音声信号処理装置の機能構成例について説明する。図32は、本実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図32に示すように、音声信号処理装置は、2つの周波数変換部61L、61Rと、クロススペクトル算出部62と、2つのパワースペクトル算出部63L、63Rと、2つの雑音低減部64L、64Rと、2つの時間変換部65L、65Rと、データ保持装置70、72とを備える。これら各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、上記録音装置200又は処理装置300プロセッサ(CPU202、CPU302等)が、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
図32に示したように、第6の実施形態に係る音声信号処理装置は、第1の実施形態に係る音声信号処理装置と比べて、データ保持装置70、72を備え、マイクロホン51を備えていない点で相違する。第6の実施形態に係る音声信号処理装置の機能構成は、録音装置200と処理装置300により分散処理する点を除いては、第1の実施形態に係る音声信号処理装置の機能構成(図7参照。)と略同一であるので、詳細説明は省略する。
データ保持装置70は、上記録音装置200のデータ保持装置216に相当する。また、データ保持装置72は、上記処理装置300のデータ保持装置312に相当する。録音装置200の画像入力装置208から入力された音声信号x、xからなる音声データは、データ保持装置70に保存される。処理装置300は、録音装置200のデータ保持装置70にアクセスし、当該データ保持装置70に保存された音声データを処理し、処理後の音声データを処理装置300自身のデータ保持装置72(又は録音装置200のデータ保持装置70)に保存する。この際、処理装置300は、録音装置200のデータ保持装置70に保存された音声データを取得し、周波数変換部61L、61Rにより、当該音声データの音声信号x、xを周波数変換する。その後、周波数変換部61、クロススペクトル算出部62、パワースペクトル算出部63、雑音低減部64及び時間変換部65により、第1の実施形態と同様の雑音低減処理が成されて、風雑音が低減された音声信号y、yが生成される。この音声信号y、yは、処理装置300自身のデータ保持装置72(又は録音装置200のデータ保持装置70)に保存される。
[6.3.音声信号処理方法]
次に、図33、図34を参照して、本実施形態に係る音声信号処理装置による音声信号処理方法について説明する。図33は、本実施形態に係る音声信号処理装置の録音装置200の動作を示すフローチャートである。図34は、本実施形態に係る音声信号処理装置の処理装置300の動作を示すフローチャートである。
図33に示すように、録音装置200は、音声信号入力装置20を用いて外部音声を収音し、音声信号x、xの音声データを取得する(S200)。次いで、録音装置200は、通信装置218及びネットワーク等の通信手段を利用して、処理装置300に音声データを転送する(S202)。さらに、処理装置300により音声データの風雑音が低減される処理がなされた後に、録音装置200は、当該風雑音が低減された音声データを、処理装置300から通信手段を利用して取得する(S204)。次いで、録音装置200は、当該音声データを動画データとミキシングして、データ保持装置216に保存する(S206)。
図34に示すように、処理装置300は、通信装置314及びネットワーク等の通信手段を利用して、録音装置200から音声データを取得する(S300)。次いで、処理装置300は、当該音声データの風雑音を低減する処理を行い、当該風雑音が低減された音声データをデータ保持装置312に保存する(S302)。その後、処理装置300は、当該風雑音が低減された音声データを、通信装置314及びネットワーク等の通信手段を利用して、録音装置300に送信する(S304)。
以上のように、本実施形態では、音声を収音する録音装置200内で雑音低減処理を行うのではなく、音声データを別の場所にある処理装置300に転送し、当該処理装置300より雑音低減処理を行う。このとき、処理装置300は、マイクロホンからの入力音声ではなく、データ保持装置312に保持されたデータを逐次読み出しながら、雑音低減処理を行う。そして、処理装置300は、雑音低減処理後の音声データを録音装置200に戻し、録音装置200は、当該音声データを動画データとともにデータ保持装置216に保存する。このように、複数の機器で雑音低減処理を協同することで、処理負荷を分散できるとともに、録音装置200の処理能力を抑制して低コスト化を図ることができる。
<7.その他の適用例>
次に、上記第1〜第6の実施形態に係る音声信号処理装置及び方法を、風雑音以外の雑音に適用する例について説明する。
まず、図35を参照して、上記音声信号処理装置及び方法をマイクロホンの暗騒音に適用する例について説明する。図35は、マイクロホンの暗騒音の周波数特性と相互相関係数を示す図である。
マイクロホンの暗騒音(マイクロホンそのものが有するノイズ)は、各々のマイクロホンでそれぞれ異なる。このため、図35に示すように、2つのマイクロホン間の暗騒音の相互相関はほぼ無相関であり、暗騒音が雑音として収音されたときには、暗騒音の相互相関係数はほぼゼロになる。従って、上述した風雑音の低減処理を行うと、暗騒音等のマイクロホンそのものが有するノイズも合わせて低減することができる。
次に、図36を参照して、上記音声信号処理装置及び方法を、録音空間全体に存在しているノイズ(例えばファンノイズ)に適用する例について説明する。図36は、ファンノイズの周波数特性と相互相関係数を示す図である。
録音空間全体に存在しているノイズとは、例えば、録音空間に設置されたファンから発生するノイズ(ファンノイズ)などである。図36に示すように、このファンノイズ等も2つのマイクロホン間で比較的相関が小さく、特に4kHz以上の周波数帯域では、ほぼ無相関となる。従って、上述した風雑音の低減処理を行うと、ファンノイズ等の録音空間全体に存在しているノイズも合わせて低減することができる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、音声信号処理装置としてデジタルカメラ1やスマートフォン3を例示し、動画撮像と共に録音する時に機械音を低減する例について説明したが、本発明はかかる例に限定されない。本開示の音声信号処理装置は、録音機能を有する機器であれば、任意の機器に適用できる。音声信号処理装置は、例えば、記録再生装置(例えば、ブルーレイディスク/DVDレコーダ)、テレビジョン受像器、システムステレオ装置、撮像装置(例えば、デジタルカメラ、デジタルビデオカメラ)、携帯端末(例えば、携帯型音楽/映像プレーヤ、携帯型ゲーム機、ICレコーダ)、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ATM、キオスク端末など、任意の電子機器に適用できる。
また、上記実施形態では、風雑音以外にも、2つのマイクロホンからの音声信号の相互相関がほぼ無相関となる雑音として、マイクロホンの暗騒音と、録音空間全体に存在しているノイズ(例えばファンノイズ)の例を挙げた。しかし、本開示は、2つのマイクロホンからの音声信号の相互相関がほぼ無相関となる雑音であれば、任意の雑音に適用できる。
なお、本技術は以下のような構成も取ることができる。
(1)第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出する相関成分算出部と、
前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出する全体成分算出部と、
前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正する雑音低減部と、
を備える、音声信号処理装置。
(2)前記第1の音声信号を第1の音声スペクトル信号に変換する第1の周波数変換部と、
前記第2の音声信号を第2の音声スペクトル信号に変換する第2の周波数変換部と、
をさらに備え、
前記第1のマイクロホン、前記第2のマイクロホンは、風雑音を含む外部音声を収音して前記第1の音声信号、前記第2の音声信号をそれぞれ出力し、
前記相関成分算出部は、前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを、前記相関成分を表すパラメータとして算出するクロススペクトル算出部を含み、
前記全体成分算出部は、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを、前記全体成分を表すパラメータとして算出するパワースペクトル算出部を含み、
前記雑音低減部は、前記クロススペクトルと前記パワースペクトルとの比率を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する、前記(1)に記載の音声信号処理装置。
(3)前記第1のマイクロホンと前記第2のマイクロホンとの間の入力特性の相違により、前記第1の音声信号に含まれる所望音と前記第2の音声信号に含まれる前記所望音との間に振幅差又は位相差が生じるときに、前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との差分に基づいて、前記第2の音声スペクトル信号を補正する信号補正部を更に備え、
前記クロススペクトル算出部は、前記信号補正部により補正された前記第2の音声スペクトル信号と、前記第1の音声スペクトル信号から、前記クロススペクトルを算出する、前記(2)に記載の音声信号処理装置。
(4)前記信号補正部は、前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との二乗誤差を最小にするような補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記第2の音声スペクトル信号を周波数成分ごとに補正する、前記(3)に記載の音声信号処理装置。
(5)前記第1及び第2のマイクロホンに対する所望音の音源の相対位置により、前記第1の音声信号に含まれる前記所望音と前記第2の音声信号に含まれる前記所望音との間に位相差が生じるときに、前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関に基づいて、前記クロススペクトル算出部により算出された前記クロススペクトルを補正するクロススペクトル補正部を更に備え、
前記雑音低減部は、前記クロススペクトル補正部により補正された前記クロススペクトルと前記パワースペクトルとの比率を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する、前記(2)から(4)のいずれか一項に記載の音声信号処理装置。
(6)前記クロススペクトル補正部は、前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を最大化するような補正係数を算出し、前記補正係数を用いて前記クロススペクトルを補正する、請求項5に記載の音声信号処理装置。
(7)前記クロススペクトル補正部は、前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれない区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を最大化するような前記補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記クロススペクトルを周波数成分ごとに補正する、前記(5)に記載の音声信号処理装置。
(8)前記雑音低減部から出力された前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、カットオフ周波数以下の周波数成分を除去するフィルタ部と、
前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関に基づいて、前記カットオフ周波数を制御するフィルタ制御部と、
を更に備える、前記(2)から(7)のいずれか一項に記載の音声信号処理装置。
(9)前記フィルタ制御部は、
前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を周波数成分ごとに算出し、
当該相互相関係数が閾値以下となる周波数成分のうち最も低い周波数成分に対応する周波数を、前記カットオフ周波数として設定する、前記(8)に記載の音声信号処理装置。
(10)前記フィルタ制御部は、
前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数に基づいて、前記カットオフ周波数を設定する、前記(9)に記載の音声信号処理装置。
(11)前記雑音低減部は、
前記クロススペクトルと前記パワースペクトルとの比率に基づいて第1の低減係数を算出し、前記第1の低減係数を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正し、
前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、
当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音の周波数特性を求め、前記風雑音の周波数特性に基づいて、前記第1の低減係数を補正する、前記(2)から(10)のいずれか一項に記載の音声信号処理装置。
(12)前記雑音低減部は、
前記風雑音が含まれる区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音のみが含まれる区間に対応する第2の低減係数を算出し、
前記風雑音を収音したときに前記第1の音声信号と前記第2の音声信号の間で前記風雑音に相互相関が発生する周波数帯域において、前記第1の低減係数から前記第2の低減係数を減算することで、前記第1の低減係数を補正する、前記(11)に記載の音声信号処理装置。
(13)第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出することと、
前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出することと、
前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正することと、
を含む、音声信号処理装置。
(14)第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出することと、
前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出することと、
前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正することと、
をコンピュータに実行させるためのプログラム。
(15)第1のマイクロホンから出力された第1の音声信号と、前記第1のマイクロホンと同一の筐体に設けられた第2のマイクロホンから出力された第2の音声信号との相関成分を表すパラメータを算出することと、
前記第1の音声信号又は前記第2の音声信号の全体成分を表すパラメータを算出することと、
前記相関成分を表すパラメータと前記全体成分を表すパラメータとの比率に基づいて、前記第1の音声信号又は前記第2の音声信号を補正することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
(16)風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換する第1の周波数変換部と、
前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換する第2の周波数変換部と、
前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出するクロススペクトル算出部と、
前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出するパワースペクトル算出部と、
前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する雑音低減部と、
を備える、音声信号処理装置。
1 デジタルカメラ
2、4 筐体
3 スマートフォン
51、51L、51R、51A、51B マイクロホン
60 音声処理部
61、61L、61R、61A、61B 周波数変換部
62 クロススペクトル算出部
63、63L、63R、63A パワースペクトル算出部
64、64L、64R、64A 雑音低減部
65、65L、65R、65A 時間変換部
66 信号補正部
67 クロススペクトル補正部
68、68L、68R フィルタ部
69 フィルタ制御部

Claims (15)

  1. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換する第1の周波数変換部と、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換する第2の周波数変換部と、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出するクロススペクトル算出部と、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出するパワースペクトル算出部と、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて第1の低減係数を算出し、前記第1の低減係数を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する雑音低減部と、
    を備え、
    前記雑音低減部は、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、
    当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音の周波数特性を求め、前記風雑音の周波数特性に基づいて、前記第1の低減係数を補正する、音声信号処理装置。
  2. 前記雑音低減部は、
    前記風雑音が含まれる区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音のみが含まれる区間に対応する第2の低減係数を算出し、
    前記風雑音を収音したときに前記第1の音声信号と前記第2の音声信号の間で前記風雑音に相互相関が発生する周波数帯域において、前記第1の低減係数から前記第2の低減係数を減算することで、前記第1の低減係数を補正する、請求項1に記載の音声信号処理装置。
  3. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換する第1の周波数変換部と、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換する第2の周波数変換部と、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出するクロススペクトル算出部と、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出するパワースペクトル算出部と、
    前記第1及び第2のマイクロホンに対する所望音の音源の相対位置により、前記第1の音声信号に含まれる前記所望音と前記第2の音声信号に含まれる前記所望音との間に位相差が生じるときに、前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれない区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を最大化するような補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記クロススペクトルを周波数成分ごとに補正するクロススペクトル補正部と、
    前記クロススペクトル補正部により補正された前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する雑音低減部と、
    を備える、音声信号処理装置。
  4. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換する第1の周波数変換部と、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換する第2の周波数変換部と、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出するクロススペクトル算出部と、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出するパワースペクトル算出部と、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減する雑音低減部と、
    前記雑音低減部から出力された前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、カットオフ周波数以下の周波数成分を除去するフィルタ部と、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を周波数成分ごとに算出し、当該相互相関係数が閾値以下となる周波数成分のうち最も低い周波数成分に対応する周波数を、前記カットオフ周波数として設定する、フィルタ制御部と、
    を備える、音声信号処理装置。
  5. 前記第1のマイクロホンと前記第2のマイクロホンとの間の入力特性の相違により、前記第1の音声信号に含まれる所望音と前記第2の音声信号に含まれる前記所望音との間に振幅差又は位相差が生じるときに、前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との差分に基づいて、前記第2の音声スペクトル信号を補正する信号補正部を更に備え、
    前記クロススペクトル算出部は、前記信号補正部により補正された前記第2の音声スペクトル信号と、前記第1の音声スペクトル信号から、前記クロススペクトルを算出する、請求項1〜4のいずれか1項に記載の音声信号処理装置。
  6. 前記信号補正部は、前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との二乗誤差を最小にするような補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記第2の音声スペクトル信号を周波数成分ごとに補正する、請求項5に記載の音声信号処理装置。
  7. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて第1の低減係数を算出し、前記第1の低減係数を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音の周波数特性を求め、前記風雑音の周波数特性に基づいて、前記第1の低減係数を補正することと、
    を含む、音声信号処理方法。
  8. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記第1及び第2のマイクロホンに対する所望音の音源の相対位置により、前記第1の音声信号に含まれる前記所望音と前記第2の音声信号に含まれる前記所望音との間に位相差が生じるときに、前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれない区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を最大化するような補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記クロススペクトルを周波数成分ごとに補正することと、
    前記補正されたクロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    を含む、音声信号処理方法。
  9. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    前記風雑音が低減された前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、カットオフ周波数以下の周波数成分を除去することと、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を周波数成分ごとに算出し、当該相互相関係数が閾値以下となる周波数成分のうち最も低い周波数成分に対応する周波数を、前記カットオフ周波数として設定することと、
    を含む、音声信号処理方法。
  10. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて第1の低減係数を算出し、前記第1の低減係数を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音の周波数特性を求め、前記風雑音の周波数特性に基づいて、前記第1の低減係数を補正することと、
    をコンピュータに実行させるためのプログラム。
  11. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記第1及び第2のマイクロホンに対する所望音の音源の相対位置により、前記第1の音声信号に含まれる前記所望音と前記第2の音声信号に含まれる前記所望音との間に位相差が生じるときに、前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれない区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を最大化するような補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記クロススペクトルを周波数成分ごとに補正することと、
    前記補正されたクロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    をコンピュータに実行させるためのプログラム。
  12. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    前記風雑音が低減された前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、カットオフ周波数以下の周波数成分を除去することと、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を周波数成分ごとに算出し、当該相互相関係数が閾値以下となる周波数成分のうち最も低い周波数成分に対応する周波数を、前記カットオフ周波数として設定することと、
    をコンピュータに実行させるためのプログラム。
  13. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて第1の低減係数を算出し、前記第1の低減係数を用いて、前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号から、前記風雑音の周波数特性を求め、前記風雑音の周波数特性に基づいて、前記第1の低減係数を補正することと、
    をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
  14. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記第1及び第2のマイクロホンに対する所望音の音源の相対位置により、前記第1の音声信号に含まれる前記所望音と前記第2の音声信号に含まれる前記所望音との間に位相差が生じるときに、前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれない区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を最大化するような補正係数を周波数成分ごとに算出し、前記補正係数を用いて前記クロススペクトルを周波数成分ごとに補正することと、
    前記補正されたクロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
  15. 風雑音を含む外部音声を収音する第1のマイクロホンから出力された第1の音声信号を、第1の音声スペクトル信号に変換することと、
    前記第1のマイクロホンと同一の筐体に設けられて前記外部音声を収音する第2のマイクロホンから出力された第2の音声信号を、第2の音声スペクトル信号に変換することと、
    前記第1の音声スペクトル信号及び前記第2の音声スペクトル信号から、前記第1の音声信号と前記第2の音声信号とのクロススペクトルを算出することと、
    前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、前記第1の音声信号又は前記第2の音声信号のパワースペクトルを算出することと、
    前記クロススペクトルと前記パワースペクトルとの比率に基づいて低減係数を算出し、前記低減係数を用いて前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号を補正することにより、前記風雑音を低減することと、
    前記風雑音が低減された前記第1の音声スペクトル信号又は前記第2の音声スペクトル信号から、カットオフ周波数以下の周波数成分を除去することと、
    前記第1の音声スペクトル信号の全ての周波数成分と前記第2の音声スペクトル信号の全ての周波数成分との相互相関係数に基づいて、前記風雑音が含まれる区間を検出し、当該区間の前記第1の音声スペクトル信号と前記第2の音声スペクトル信号との相互相関係数を周波数成分ごとに算出し、当該相互相関係数が閾値以下となる周波数成分のうち最も低い周波数成分に対応する周波数を、前記カットオフ周波数として設定することと、
    をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
JP2012003265A 2012-01-11 2012-01-11 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 Active JP5998483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012003265A JP5998483B2 (ja) 2012-01-11 2012-01-11 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012003265A JP5998483B2 (ja) 2012-01-11 2012-01-11 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Publications (3)

Publication Number Publication Date
JP2013142797A JP2013142797A (ja) 2013-07-22
JP2013142797A5 JP2013142797A5 (ja) 2015-01-22
JP5998483B2 true JP5998483B2 (ja) 2016-09-28

Family

ID=49039379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012003265A Active JP5998483B2 (ja) 2012-01-11 2012-01-11 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5998483B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6520276B2 (ja) 2015-03-24 2019-05-29 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP6567456B2 (ja) * 2016-04-05 2019-08-28 日本電信電話株式会社 レベル差補正装置、レベル差補正プログラム、および記録媒体
JP6985821B2 (ja) * 2017-06-05 2021-12-22 キヤノン株式会社 音声処理装置及びその制御方法
US11758336B2 (en) 2018-10-31 2023-09-12 Cochlear Limited Combinatory directional processing of sound signals
US11217269B2 (en) * 2020-01-24 2022-01-04 Continental Automotive Systems, Inc. Method and apparatus for wind noise attenuation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06303690A (ja) * 1993-04-16 1994-10-28 Matsushita Electric Ind Co Ltd マイクロホン装置
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム

Also Published As

Publication number Publication date
JP2013142797A (ja) 2013-07-22

Similar Documents

Publication Publication Date Title
JP5594133B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
US9495950B2 (en) Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
JP4934968B2 (ja) カメラ装置、カメラ制御プログラム及び記録音声制御方法
JP5998483B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
US20150125011A1 (en) Audio signal processing device, audio signal processing method, program, and recording medium
JP2008263498A (ja) 風雑音低減装置、音響信号録音装置及び撮像装置
US20150271439A1 (en) Signal processing device, imaging device, and program
JP6637926B2 (ja) 音声処理装置及びその制御方法
US11657794B2 (en) Audio processing apparatus for reducing noise using plurality of microphones, control method, and recording medium
JP5349062B2 (ja) 音響処理装置及びそれを備えた電子機器並びに音響処理方法
JP5903631B2 (ja) ノイズキャンセル装置
JP5267808B2 (ja) 音響出力システム及び音響出力方法
JP2009296219A (ja) 判定装置及びそれを備えた電子機器並びに判定方法
JP2000278581A (ja) ビデオカメラ
US11729548B2 (en) Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP2018066963A (ja) 音声処理装置
US20220383891A1 (en) Sound processing apparatus and control method
JP2018207313A (ja) 音声処理装置及びその制御方法
JP2018207316A (ja) 音声処理装置及びその制御方法
JP2022039940A (ja) 音声処理装置、制御方法、およびプログラム
JP2022054316A (ja) 音声処理装置、制御方法、およびプログラム
JP2022054317A (ja) 音声処理装置、制御方法、およびプログラム
JP2022054318A (ja) 音声処理装置、制御方法、およびプログラム
JP2023030453A (ja) 音声処理装置、制御方法、及びプログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160815

R151 Written notification of patent or utility model registration

Ref document number: 5998483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250