JP2019086724A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2019086724A
JP2019086724A JP2017216858A JP2017216858A JP2019086724A JP 2019086724 A JP2019086724 A JP 2019086724A JP 2017216858 A JP2017216858 A JP 2017216858A JP 2017216858 A JP2017216858 A JP 2017216858A JP 2019086724 A JP2019086724 A JP 2019086724A
Authority
JP
Japan
Prior art keywords
comparison
frequency
signal
area
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017216858A
Other languages
English (en)
Inventor
文裕 梶村
Fumihiro Kajimura
文裕 梶村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017216858A priority Critical patent/JP2019086724A/ja
Publication of JP2019086724A publication Critical patent/JP2019086724A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】演算量を抑えつつ精度のよい雑音低減処理を行う。【解決手段】実時間領域における入力音声信号を所定のフレームごとに周波数領域信号に変換する。実時間領域における入力音声信号に対し雑音低減対象である一定の大きさの参照領域を設定する。周波数領域信号に対して参照領域と、その他の位置から参照領域と同じ大きさを切り出した比較領域との類似度を比較し類似領域を抽出する。抽出された類似領域における実時間領域の入力音声信号、及びその近傍の入力音声信号を含む領域を拡大類似領域とし、実時間領域において参照領域と拡大類似領域内から参照領域と同じ大きさを切り出した実時間比較領域との類似度を比較し実時間類似領域を抽出し、この実時間類似領域を用いて重みづけ加算を行い、参照領域を置換すべき信号を生成する。【選択図】 図1

Description

本発明は音声処理装置に関する。
従来、音声処理装置として、撮影した動画とともに音声を記録することができる撮像装置が知られている。
これらの撮像装置においては、光学系の駆動により発生する雑音が音声として記録されてしまう問題があり、様々な雑音低減技術が開発されている。特許文献1では、音声の繰り返し性に注目し、雑音低減処理の対象とする参照区間を設定し、その他の音声信号範囲に適応される比較領域から参照区間と類似する領域を比較抽出し、加算平均することで雑音を低減する手法が開示されている。特許文献1では、取得した音声信号について時間領域で類似度を求める手法と、音声信号を周波数/時間領域に変換して、周波数/時間領域で類似度を求めて加算平均した後に、時間領域に逆変換する手法の二つが開示されている。
特開2014−194463号公報
しかしながら、特許文献1の技術を用いて雑音低減を行う場合、次のような課題がある。時間領域で類似度の高い領域を抽出する際、音声信号が時間的に長く、比較する範囲が広い場合は、演算量が膨大になる。一方、周波数/時間領域に変換して類似度の高い領域を抽出する場合、位相の類似度も加味すると、類似領域として抽出される領域が少なく、精度のよい雑音低減が困難である。
そこで、本発明の目的は、演算量を抑えつつ精度のよい雑音低減処理が可能な音声処理装置を提供することである。
上記目的を達成するために本発明は、音声取得手段により取得した入力音声信号と、実時間領域における前記入力音声信号を所定のフレームごとに周波数領域信号に変換し周波数/時間領域信号を取得する周波数/時間領域変換手段と、実時間領域における前記入力音声信号に対し雑音低減対象である一定の大きさの参照領域を設定する参照領域制御手段と、前記周波数/時間領域信号に対して参照領域と、その他の位置から参照領域と同じ大きさを切り出した比較領域との類似度を比較し類似領域を抽出する第1の比較抽出手段と、前記第1の比較抽出手段により抽出された類似領域における実時間領域の入力音声信号、及びその近傍の入力音声信号を含む領域を拡大類似領域とする拡大類似領域制御手段と、実時間領域において前記参照領域と、前記拡大類似領域内から参照領域と同じ大きさを切り出した実時間比較領域との類似度を比較し実時間類似領域を抽出する第2の比較抽出手段と、前記第2の比較抽出手段から得られた実時間類似領域を用いて重みづけ加算を行い、参照領域を置換すべき信号を生成する置換信号生成手段と、前記置換信号生成手段から得られる信号によって参照領域を置き換える音声信号置換手段と、前記入力音声信号、及び周波数/時間領域信号を記録する記録手段で音声処理装置を構成する。
演算量を抑えつつ精度のよい雑音低減処理を行うことができる。
第1の実施例における撮像装置の音声処理部を表すブロック図。 第1の実施例における撮像装置を表す斜視図とブロック図。 第1の実施例における雑音低減処理の動作を説明する音声の模式図。 第1の実施例における雑音低減処理のフローを示すフローチャート。 その他の例における雑音低減処理の動作を説明する音声の模式図。 従来の実時間領域での雑音低減処理の動作を説明する音声の模式図。 従来の雑音低減処理の動作を説明する長時間の音声信号の模式図。 従来の周波数/時間領域での雑音低減処理の動作を説明する音声の模式図。
以下、図面を参照して本発明の実施形態について詳細に説明するが、本発明は以下の実施形態に限定されるものではない。
以下、図面を参照して、本発明における雑音低減の音声処理機能を有する撮像装置について説明する。
図2(a)は本実施例における撮像装置であるカメラ1の斜視図、図2(b)はカメラの構成を示すブロック図であり、図1は音声処理部を説明するブロック図である。図2において、1は撮像装置であるカメラを、10はカメラの制御を司るカメラシステム制御部を、11は撮影レンズを、12は音声取得手段であるマイクを、13は撮像素子を、14は画像処理部を、15はレンズ駆動部を、16は音声処理装置である音声処理部を、17は記録手段であるメモリ部を、18は操作部を、19は画像表示部を示す。
撮影レンズ11を通過した光線は、撮像素子13近傍位置で結像をし、撮像素子13において適正な時間露光される。画像処理部14は内部にA/D変換器、ホワイトバランス回路、ガンマ補正回路、補間演算回路等を有しており、撮像素子13で露光し光電変換された信号に補正処理等を行い画像として生成する。生成された画像はカメラシステム制御部10を介し、メモリ部17に記録される。レンズ駆動部15はカメラシステム制御部の命令により、撮影レンズ11内の不図示のフォーカスレンズ群、絞り機構、手振れ防振機構などを駆動させ、撮影レンズの光学状態を調整する。
さらに、撮像素子13を連続的に露光し、一定のフレームレートで読み出しを行うことで、動画撮影を可能とする。一方、マイク12では動画撮影時における被写体の音声信号を取得する。取得された入力音声は音声処理部16にてA/D変換がなされ、本発明の要部である雑音低減処理が施されたあと、カメラシステム制御部10を介してメモリ部17に、動画とともに記録される。音声処理部16の雑音低減処理の詳細については後述する。
カメラシステム制御部10は撮像の際のタイミング信号など外部操作に応答して各処理部を制御する。例えば、操作部18に不図示の含まれる電源釦やレリーズ釦18aの押下が検出されると、撮像素子13の駆動、画像処理部14及び音声処理部16の動作、メモリ手段17の圧縮処理などを制御する。さらに画像表示部19に情報表示を行う。
次に、音声の類似性に着目した参照領域との比較抽出により類似領域抽出による雑音低減処理方法と、その課題について述べる。
まず図6を用いて実時間領域でのみ、参照領域との比較抽出を行う場合について述べる。図6は実時間における雑音低減処理を説明する図で、図6(a)は被写体音声に白色の暗雑音が重畳された時の音声信号及び選択された類似領域信号を、図6(b)は生成された置換信号を、図6(c)は参照領域が置換信号で置換された後の音声信号を、図6(d)は雑音低減処理が施された出力音声信号を示している。横軸は時間、縦軸は信号レベルである。図6(a)、(c)、(d)の信号は全体で0.2s程度の時間の信号を示している(すなわち動画ファイルから得られた音声信号のごく一部を拡大した図)。
図6(a)を見ると分かるように音声信号は局所的に観察すると、非常に繰り返し性が高いことが分かる。本発明は、このような音声の持つ短時間での繰り返し性の良さに着目している。図6(a)に示すように入力音声信号は、参照領域制御手段により雑音除去したい範囲として、ある所定の分割時間の参照領域100を設定する。図6(a)では、説明のために参照領域100の信号を切り出して示している。参照領域の長さである分割時間は、一般的な成人の声の第1フォルマントともよばれる基本周波数500〜1500Hzを十分に包括するように2msec以上に設定される。
図6(a)における基本周波数の幅は範囲103であり、この範囲の類似した波形が何度も繰り返されている。よって参照領域100は、少なくともこの範囲103が含まれる長さに設定される。
比較抽出手段では、参照領域100と設定された各比較領域の類似度の比較が行われる。参照領域制御手段により参照領域100が設定された時、その他の領域が比較抽出手段で比較される領域とされ、参照領域100と同じ時間幅で少しずつ時間のずれた信号が各比較領域として設定される。比較領域は少しずつ時間的にずれながら、隣接するお互いの比較領域は重複して設定される。隣接する比較領域の時間ずれ量は、望ましくは取得された音声のサンプリングレートでの1ビット分であるが、演算負荷及び着目する周波数の観点から、適当な時間ずれ量が設定される。比較抽出手段において、音声信号である参照領域と比較領域の類似度は以下の式1で計算する。
式1においてiは参照領域内の音声信号の離散時間を示しており、SC(i)は離散音声信号SCにおける時間i番目の値である。Mは分割された音声信号の離散時間長であり、分割時間(sec)/サンプリングレートで求められる。SRは参照領域信号を、SCは比較領域信号を表している。式1では参照領域と比較領域の各時間の差を積算しており、参照領域と比較領域の類似度が上がるにつれ小さい値をとり、同一であれば数1は0になる。各比較領域に対して類似度を求め、類似度が高いものから予め定められた数を選択する。
図6(a)の101a、101b、101cは類似度が高いとして選択された類似領域信号である。参照領域100と同様に、説明のために類似領域の信号を切り出して示している。
選択された比較抽出結果である類似領域信号を用いて、置換信号が置換信号生成手段において、式2で算出される。
SOは置換信号を、SRは参照領域の信号を、SCkは比較領域の信号をそれぞれ示している。Pは選択された比較領域の数である。i,Mに関しては式1と同じである。またkは選ばれた比較領域の番号に対応しており、1からPの整数値をとる。SC1は1番目の比較領域、SCPはP番目の比較領域という意味である。w0、wkはフィルタの重みであり、類似度が高いものに重みを付けて加重平均とする等のために用いる。なお、w0、wkを全て1に設定し、加算した信号数で割りこみ平均をとってもよい。図6(b)の102は置換信号生成手段により生成された置換信号を表している。参照領域100に含まれていた雑音レベルが低減されていることを示している。
生成された置換信号102は、音声信号置換手段36において参照領域100の音声信号と置換され、出力音声が出力される。図6(c)において、図6(a)の音声信号に対して、参照領域100の信号が置換信号102で置換されていることを表している。
図6(a)に示すように、暗雑音は全領域に重畳されているので、参照領域を少しずつずらしながら上記の処理を繰り返し行うことで、図6(d)に示すように全領域の雑音低減がなされる。
しかし、上述した雑音低減処理においては、次のような課題がある。参照領域との類似領域を抽出する比較領域を広くとれば、類似性の高い領域が抽出される確率は高くなる。例えば、被写体があるタイミングで「お」と発音した後、数秒後に再度「お」と発音した音声信号において、最初の「お」と後の「お」の音声信号は、類似している。図7は、同じ被写体の数秒間発話している音声信号であり、音声110と112は「お」と発音しており、音声111は「あ」と発音している音声信号である。音声110,111、112については、下に拡大した音声を示している。
図7に示すように音声110は音声111とは類似していないが、時間的に離れた音声112と非常に類似していることがわかる。このように、時間的に離れた範囲においても、参照領域と類似した音声領域は多数存在する。つまり、取得した音声信号全範囲に対し順次比較領域として、比較出手段により類似度を計算し類似領域を抽出すれば、より類似度の高い類似領域を取得することができ、置換音声信号の音声低減の効果が高まる。しかし、音声信号全範囲に対し類似度の計算を行うと、演算量が非常に大きくなってしまう。
次に、図8を用いて周波数/時間領域で、参照領域との比較抽出を行う場合について述べる。
図8(a)は、図6で(a)で示した実時間の音声信号の一部領域を切り出してフーリエ変換により周波数領域に変換したグラフで、横軸に周波数、縦軸に各周波数のゲインを示している。点線230は雑音の混入していない場合の被写体音だけの信号を周波数領域変換したもので、実線231は雑音を含む被写体音の信号を周波数領域変換したものである。点線230で示すように、人の声である被写体音には、その信号を特徴づける周波数/時間領域にピーク220、221、222が存在し、その他の周波数のゲインは相対的に低い。
さらに、この音声信号に白色性の高い雑音が混入した場合、ピーク220、221、222のゲインはあまり変わらないが、その他の周波数のゲインは増加していることがわかる。この周波数変化した信号を、実時間の音声信号から切り出す位置を順次ずらしながら得ることで、周波数/時間領域の信号を得ることができる。図8(b)は、実時間領域の音声信号を、所定のフレームを切り出す位置を順次ずらしていく様子を示したものである。期間311が周波数変換を行う際に切り出す所定のフレーム長である。
この期間の音声信号を離散フーリエ変換により周波数変換を行い、図8(a)のような周波数領域の信号を得る。そして、時間312だけずらした位置から期間311と同じ期間の信号を切り出し、同様に周波数変換を行っていく。これを順次繰り返していくことで、周波数/時間領域信号を得ることができる。
図8(c)は被写体音の含まれる音声信号を適当な時間区間で周波数領域変換した周波数/時間領域音声信号を模式的に示したものである。図8(c)の横軸は時間で有り、縦軸は周波数である。図8(c)に点線で示した格子は、1つのデータを模式的に示している。すなわち横方向の1マスの大きさは、周波数/時間領域変換時の実時間から音声信号を切り出した1フレーム分であり、隣のフレームは順次切り出し位置をずらしたずらし量分だけ時間が異なっている。
縦方向の1マスの大きさは、周波数領域変換時の周波数分解能に対応しており、例えば音声信号のサンプリング周波数がFs,離散フーリエ変換の次数をNとすると、周波数分解能f0はFs/2Nで表される。なお、周波数領域変換を音声信号の1フレームには、少なくとも被写体音性の基本周波数である500〜1500Hzの音声信号が含まれていることが望ましい。図8(c)では、説明のために図8(a)で示す分解能よりも荒く表現している。図8(c)では位相を省略してゲインのみ図示している。また、図を分かりやすくするために、図8(a)で示したように、被写体音声のピークのみを示した。
すなわち図8(c)の線220、221、222は図8(a)のピーク220、221、222と対応している。また、その他の線223〜228は別の発音音声のピークを示している。つまり、期間210は同じ被写体が同じ発音、例えば「お」と発音している期間であり、ピーク220、221、222が続いている。期間211は期間210とは別の言葉を発音している期間であり、期間210とは異なる周波数にピーク223、224、224が存在している。さらに、期間212は、別の時間に期間210と同じ言葉を発音している期間で、ピーク226、227,228の周波数は、期間210のピーク220、221、222とそれぞれ一致する。
図8(c)において、1点鎖線で示した範囲200は実時間の参照領域の信号を含んでおり、周波数参照領域として設定される。周波数参照領域200は、4x20のマスで構成されており、各マス目をXr(i,j)の形式で表現する。iは横方向すなわち時間軸方向のマス目を示しており、jは縦方向すなわち周波数方向のマス目を示している。この設定された参照領域200に対し、時間方向、つまり横方向に同じサイズの範囲をずらした領域を周波数比較領域とし、二つの領域の相関値の算出により比較抽出を行う。範囲201、202、203は周波数比較領域の例である。
ここで参照領域200に対して比較領域201を設定した場合を考える。この時参照領域200と比較領域201の類似度を以下の式3で計算する。
式3においてi,jは参照領域内に設けられた時間、周波数方向のローカル座標である。図8(a)においてはNが4、Mが20に設定されており、Xrは参照領域の信号を、Xc1は比較領域の信号をそれぞれ示している。さらに||はノルムを計算する演算子である。式3は比較領域200内の各部の信号に対して、参照領域200と対応する位置との差を積算していることになる。すなわち比較領域201と参照領域200が同一のものであれば数1はゼロとなり、類似度が下がるに従って大きな値をとる。
比較領域201は参照領域200と同じ発音の期間210内にあるので、ピーク220、221、222を有しており、雑音の周波数以外での類似度は高くなり、類似領域として抽出される。そして、期間210とは異なる発音の期間211で比較領域202を設定されると、ピークの周波数が異なるため、式3の類似度は低くなり類似領域として抽出されにくい。一方、期間212は期間210とは異なる期間であるが同じ被写体の同じ発音であるために、同じピークを有しているので、期間212の比較領域203は参照領域200との類似度が高く、類似領域として抽出される。
このように、周波数/時間領域においても、参照領域と比較領域との類似度を計算することで、類似領域を抽出することができる。式1を用いて求めた実時間音声信号における類似度の算出に比べて、式3の周波数/時間領域での類似度の算出の演算量は、サンプリング周波数や周波数/時間領域変換のパラメータにもよるが、大幅に少なくなる。よって、比較領域を取得した音声信号全体に設定し比較抽出を行う場合において、実時間領域で比較抽出を行う場合に比べると、演算量がかなり少なくなるので、比較領域を広くとる場合は、周波数/時間領域での比較抽出が有効である。
なお周波数/時間領域変換のパラメータとは、離散フーリエ変換の標本数Nや切り出しフレームのずらし量などであり、図8(b)では、切り出しフレームのずらし量を1/2フレームとしている。
しかしながら、周波数/時間領域での比較抽出を行う場合は、以下のような課題がある。
図8(d)(e)(f)は参照領域200の実時間の音声信号及び、類似度の高い比較領域201,203の実時間の音声信号を表している。図8(d)の参照領域信号と、図8(e)(f)の比較領域信号は音声信号の形状は類似しているが、位相がずれていることを示している。これは、周波数/時間領域の音声信号は、時間領域の音声信号を所定のフレームずつずらして切り出しながら周波数領域変換を行うからであり、フレーム切り出し時のずらし量が、被写体音声の基本周波数と必ずしも一致しないからである。この比較領域の実時間の音声信号をそのまま数2に適応して加算し置換信号を生成しようとしても、位相がずれているため適正な置換信号を得ることができない。
つまり、雑音低減処理の精度が低下してしまう。また、周波数/時間領域での比較抽出処理時に、上述の方法はゲインだけに着目して行ったが、位相の類似度も加味して比較抽出を行うことも考えられる。しかし、ピークの周波数のゲイン及び位相の両方の類似度が高い比較領域は、ゲインのみが類似度している比較領域に比べて抽出される数が少なくなる。その結果、雑音低減処理の精度が低下する。
そこで、本実施形態では周波数/時間領域で比較抽出を行って選択された類似領域について、その類似領域の同期する時間の実時間信号の前後を拡大した領域について、比較領域を設定し時間領域における比較抽出動作を再度行う。これにより、実時間領域の参照領域と位相も含めて類似した類似領域を取得することができ、演算量を抑えつつも、精度のよい雑音低減処理を行うことができる。
次に、図1を用いて雑音低減の処理について述べる。音声信号の取得を伴う動画撮影時において、被写体の音声以外に、撮影レンズ光学系の調整に伴うレンズ駆動音や、マイク12の性能による白色雑音である暗雑音などの雑音が重畳される。本発明では、音声処理部によりこれらの雑音の低減処理を行う。図1は音声処理装置の動作を説明するブロック図であるが、データの流れを分かりやすくするために処理手段は四角、データは角を丸めた四角で図示した。
図1において21は入力音声を、22は周波数/時間領域変換手段による周波数/時間領域信号を、23は周波数/時間領域比較抽出手段で抽出された周波数/時間領域類似領域を、24は時間領域比較抽出手段での時間領域比較抽出結果を、25は置換信号生成手段で生成された置換信号を、26は出力音声を示している。そして、31は周波数/時間領域変換手段を、32は第1の比較抽出手段である周波数/時間領域比較抽出手段を、33は参照領域制御手段を、34は拡大類似領域制御手段を、35は第2の比較抽出手段である時間領域比較抽出手段を、36は置換信号生成手段を、37は音声信号置換手段を表している。これらは図2の音声処理部16に包括されている。
図2のマイク12から取得されてA/D変換された入力音声信号21は周波数/時間領域変換手段により所定のフレームごとに分割されて周波数/時間領域信号に変換され、周波数スペクトルの時間変化を表す周波数/時間領域信号が取得される。参照領域制御手段は雑音低減をしたい音声信号領域を所定の長さに切り出して参照領域として設定する。まず参照領域制御手段は実時間領域について参照領域を設定し、その時間に同期した周波数/時間領域信号を周波数/時間領域の参照領域とし、その他の領域を順次比較領域として周波数/時間領域比較抽出手段32により、数3を用いて比較抽出を行う。
そして類似度が高いとして抽出された範囲が周波数/時間領域類似領域23として出力される。そして、拡大類似領域制御手段34により、周波数/時間領域類似領域23と同期する実時間領域信号の前後を拡大された範囲を拡大類似領域として時間領域比較抽出手段35に送られる。この拡大類似領域制御手段34により設定された拡大類似領域が、実時間領域で再度比較抽出を行う比較領域である。
そして、時間領域比較抽出手段35により、参照領域制御手段33により設定された参照領域と、拡大類似領域を比較領域に対し実時間時間での比較抽出が行われる。実時間での比較抽出は数1を用いて行われ、参照領域と位相の一致した実時間で類似度が高い領域が時間領域比較抽出結果24として出力される。拡大類似領域は前後の音声信号が拡大されているので、この範囲に順次比較領域を設定することで、実時間領域の参照領域と位相の一致した類似領域を抽出することができる。
詳細については、後述する。置換信号生成手段36では、複数抽出された時間領域比較抽出結果24を用いて、数2に基づき重み付け加算処理を行い、置換信号25を生成する。そして、音声信号置換手段37により生成された置換信号25を用いて、参照領域の音声信号が置換信号に置き換えられ、雑音低減された音声が出力音声26として出力される。
図1、3、4を用いて、本発明の具体的な雑音低減処理について説明する。図3は雑音低減処理を説明するための実時間領域の音声信号及び周波数/時間領域の音声信号を模式的に表している。図3(a)は入力音声21である実時間領域の被写体音声信号を、図3(b)は入力音声21を周波数領域変換手段31で変換した周波数/時間領域信号を示しており、図8(c)と同様に、被写体音の特徴的なピークだけを示している。図3(c)は図3(a)の実時間領域における参照領域のみを表した音声信号を示している。
図3(d)は周波数/時間領域比較抽出手段23により抽出された類似領域に基づき、拡大類似領域制御手段34により設定された実時間領域での比較領域の説明する音声信号である。さらに、図4は雑音低減処理の動作を説明するフローチャートである。
図3の音声信号を例に、雑音低減処理のフローについて説明する。フローが開始するとステップS101では、マイク12により図3(a)に示すような音声信号を入力音声21とし取得し、メモリ部17に記録される。
ステップS102では、取得した入力音声21の全範囲に対し、周波数領域変換手段31により周波数/時間領域の音声信号に変換し、得られた周波数/時間領域信号がメモリ部17に記録される。ステップS103では、参照領域制御手段33により実時間領域における雑音低減を行う範囲を参照領域として設定する。図3(a)では範囲40が参照領域として設定されている。図3(c)は図3(a)に示した参照領域40を拡大して示したものである。
ステップS104では、ステップS103で設定した参照領域と時間的に同期した範囲の周波数/時間領域信号22における参照領域が決定される。図3(b)では周波数/時間領域信号における図3(a)の参照領域40と時間的に同期した範囲を領域50として示している。
次にステップ105では、周波数/時間領域比較抽出手段32により参照領域50を用い、その他の領域内における参照領域と同じ大きさのある領域を比較領域として比較抽出を行う。比較領域は時間方向つまり横方向にずらして設定されながら、比較抽出処理が行われる。そして、複数の類似度の高い領域が周波数/時間領域類似領域23として抽出される。図3(b)において、参照領域50のピーク60、61、62と同様のピーク63、64、65が存在する範囲51が周波数/時間領域類似領域として抽出されている。
ステップS106では、拡大類似領域制御手段34により周波数/時間領域類似領域23と同期する実時間領域信号の前後を拡大された範囲を拡大類似領域として設定される。図3(d)の範囲41は、図3(b)の周波数/時間領域類似領域50に時間的に同期した時間領域の音声信号であり、図3(d)ではその近傍の音声信号も示している。範囲41の時間的な幅は、図3(c)で拡大表示した参照領域40の幅と一致する。拡大類似領域制御手段34は、範囲41の前後の領域である範囲42、43を含めた範囲44を拡大類似領域として設定する。
図3(d)で示す範囲41は図3(c)で示す参照領域40と類似性は持っているが、位相が合っていない。しかし、範囲41の前後を拡大すると参照領域41と位相の一致する範囲が含まれることとなる。そこで、時間領域において拡大類似領域制御手段34により拡大した類似領域に対して、参照領域40との比較抽出を行うことで、位相が一致類似度の高い実時間類似領域を得ることができる。なお、前後を拡大する範囲42及び43の長さは、短すぎると一致する位相が抽出されないことがあるので、拡大領域は少なくとも被写体音声の基本周波数の1周期を含む期間であることが望ましい。
ステップS107では、時間領域比較抽出手段35により、実時間領域において拡大類似領域に対し比較領域を設定し、参照領域40との比較抽出を行う。そして、類似度の高い領域を時間領域類似領域24として抽出する。これをステップS105で得られた複数の類似領域に対して行うことで、複数の時間領域類似領域24を得ることができる。図3(d)では、設定された拡大類似領域44に対し時間領域での比較抽出が行われ、時間領域類似領域として範囲45が抽出されている。範囲45は参照領域40と類似度が高く、位相も一致している。また、時間領域比較抽出手段35は、拡大類似領域44についてのみ比較抽出を行うので、入力音声全体に対して実時間領域の比較抽出を行う場合に比べて、演算量を抑えることができる。
次に、ステップ108では置換信号生成手段36により、ステップS107で抽出された複数の時間領域類似領域24を用いて、数2に示すように重み付け加算を行い、置換信号25を生成する。
ステップS109では、音声信号置換手段37により、時間領域信号に対し設定した参照領域の範囲の音声信号を、ステップ108で生成した置換信号25と置換する。ステップS110では、置換を行い雑音低減した音声を出力音声26として出力し、メモリ部17に記録する。ステップS111では、音声信号に対し雑音低減処理を施す範囲があるかを判断し、まだ雑音低減処理が必要な範囲があればステップS103に戻り、雑音低減処理を所望する範囲に参照領域を設定し、ループを繰り返す。全ての雑音低減処理対象の音声信号について、上記の処理が終了すればフローを終了する。
以上述べたように、本発明は周波数/時間領域で比較抽出を行って選択された周波数/時間領域類似領域を抽出する。そして、その類似領域の同期する時間の実時間信号の前後を拡大した領域について、比較領域を設定し時間領域における比較抽出動作を再度行う。これにより、実時間領域の参照領域と位相も含めて類似した類似領域を取得することができ、演算量を抑えつつも、高品位な雑音低減処理を行うことができる。
本実施例では、周波数/時間領域比較抽出手段32において、周波数領域変換手段31で変換した全周波数帯域について、式3の類似度の算出を行ったが、特定の周波数帯域に制限をして比較抽出を行ってもよい。上述したように本実施例の類似度の算出は、人の声のピークを利用して比較抽出を行っているので、人の声の周波数帯域に着目して、特定周波数帯域のみについて比較抽出を行うが考えられる。一般的に成人で、第1フォルマントは500〜1500Hz、第2フォルマントは1500〜3000Hzとされ、さらに高い周波数に第3、第4、第5フォルマントと続いて存在しているといわれている。この各フォルマントの周波数が、図3で示したピークに概ね相当する。
そこで、例えば主張フォルマントと呼ばれる第1、第2フォルマントを含む周波数帯域を、比較抽出を行う特定周波数帯域として設定してもよい。例えば、第1、第2フォルマントを含む周波数帯域(500〜3000Hz)が、図3(b)の範囲66に示す縦軸でいう上から9マス目から19マス目だとすると、式4のようにiを9〜19の範囲で類似度の算出を行えばよい。
なお、楽器音などの繰り返し性がよく、人の声の周波数帯域と異なる場合などは、特定周波数を別の帯域に設定することが望ましい。図3(b)では、説明のためにマス目のサイズ、マス数を模式的に表現しているが、実際の周波数/時間領域信号の縦軸の1マスである周波数分解能f0であり、上述したようにはFs/2Nで表される(サンプング周波数Fs、離散フーリエ変換の次数N)。
例えば、サンプリング周波数Fsを44100Hz、離散フーリエ変換の次数Nを512点の場合、f0は約86であり、縦のマス数はN/2である256マスとなる。つまり、比較抽出を行う特定周波数帯域を500〜3000Hzとすると、縦軸マス目の256マスのうち4マス目(約430Hz)から35マス目(3014Hz)の信号のみを用いて類似度を算出すればよく、演算量の大幅な削減が見込める。
また、このように特定周波数についてのみ類似度算出の比較抽出処理を行う場合は、周波数/時間領域信号の比較抽出に用いない特定周波数以外の帯域の信号を、メモリ部17に記録しなくてもよい。これは、周波数/時間領域信号は、周波数/時間領域類似信号を求める為だけにしか使用されず、その後に周波数逆変換により時間領域の音声信号に変換されないからである。このようにすることで、メモリ部17の記録容量を削減することができる。また、レンズの駆動雑音などのように特徴的な周波数を有する雑音に対しては、その特徴周波数を省いた周波数帯域を用いて比較抽出を行うことが考えられる。
図5はある周波数にパワーの強いノイズが重畳した時の被写体音の周波数/時間領域信号の例である。編みかけ部は周波数帯域301にパワーの強いノイズが重畳していることを示している。ピーク61、64を含むピークは、編みかけ部301により埋もれている。このような雑音が重畳している場合、ノイズの影響により類似度の算出の精度が落ちることが考えられる。そこで、数3においてパワーの強いノイズの特徴帯域301を除いた周波数の信号を用いて類似度を算出することで、パワーの強いノイズの影響を低減することができる。
図5に示す帯域301は、数3のiの10〜14マス目に相当する。そこで、類似度の算出の際にiは10〜14を省いて類似度を算出すればよい。このようなある周波数に帯域に強いパワーを持つ雑音として、撮影レンズ光学系の調整に伴うレンズ駆動部雑音があげられる。レンズ駆動部のアクチュエータ、機構によっては特定の帯域にノイズが発生しやすい。その他に、低周波帯域に強いパワーを持ち、マイクに風が当たることにより発生する風雑音などがあげられる。上述のような処理を行うことで、類似領域抽出の精度向上だけでなく、演算量を低減することもできる。
また、レンズ駆動部の駆動雑音などであれば、レンズ駆動の度に同様の雑音が発生するので、予めメモリ部17に雑音低減処理の対象である駆動雑音の周波数帯域を記録しておいてもよい。
本実施例では、入力音声21の全範囲を周波数領域変換し、周波数/時間領域において比較抽出を行い、抽出された類似領域の近傍を含む実時間領域の信号で再度比較抽出を行ったが、演算量を見積もり、処理を変更してもよい。例えば、入力音声21が短い場合などは、図6を用いて説明したような実時間領域での比較抽出のみの演算量が、周波数領域変換や周波数/時間領域での比較抽出をする場合よりも少ない場合がある。演算量は、入力音声21の実時間の長さと周波数/時間領域変換の変換パラメータ等により見積もることができるので、2種類の処理の見積もった演算量を用いて、雑音低減処理を切替えてもよい。
周波数/時間領域変換のパラメータである離散フーリエ変換の標本数Nや切り出しフレームのずらし量は、基本的には変更しないので入力音声21の長さに閾値を設けて置き、処理を切替えればよい。例えば、実時間領域の音声信号でのみ比較抽出を行うか、上述した周波数/時間領域信号で比較抽出を行った後、実時間領域の拡大類似領域について比較抽出を行うかを切替える比較抽出切換え手段を有しておく。そして、比較抽出切換え手段は、入力音声の実時間の長さが閾値時間Tth(秒)以下ならば、実時間領域の音声信号でのみ比較抽出を行うように処理を切替える。
なお、上述した特定周波数のみで周波数/時間領域での比較抽出を行う場合など演算量を加味した方がより望ましい。なお、周波数/時間領域変換のパラメータは基本的に変更しないと述べたが、パラメータを変更するような処理構成においては、それぞれの処理の単位時間当たりの演算量を見積もる。そして、演算量が周波数/時間領域での比較抽出を行った方が少なくなる時間を閾値時間Tth(秒)として定めてもよい。
本実施例では、音声入力手段を有する撮像装置を例にして述べたが、その他の音声入力手段及び音声処理部を有する電子機器についても本手法は有効である。また、撮像装置で取得された雑音処理前の音声入力信号を動画データとして動画撮影時に記録しておき、音声処理部を有する外部演算処理装置に動画データを送信する。そして、外部演算処理装置内で上述の雑音低減処理を行うことも可能である。
21 入力音声 31 周波数領域変換手段
23 周波数/時間領域比較抽出手段 34 拡大類似領域制御手段

Claims (9)

  1. 音声取得手段により取得した入力音声信号と、
    実時間領域における前記入力音声信号を所定のフレームごとに周波数領域信号に変換し周波数/時間領域信号を取得する周波数/時間領域変換手段と、
    実時間領域における前記入力音声信号に対し雑音低減対象である一定の大きさの参照領域を設定する参照領域制御手段と、
    前記周波数/時間領域信号に対して参照領域と、その他の位置から参照領域と同じ大きさを切り出した比較領域との類似度を比較し類似領域を抽出する第1の比較抽出手段と、
    前記第1の比較抽出手段により抽出された類似領域における実時間領域の入力音声信号、及びその近傍の入力音声信号を含む領域を拡大類似領域とする拡大類似領域制御手段と、
    実時間領域において前記参照領域と、前記拡大類似領域内から参照領域と同じ大きさを切り出した実時間比較領域との類似度を比較し実時間類似領域を抽出する第2の比較抽出手段と、
    前記第2の比較抽出手段から得られた実時間類似領域を用いて重みづけ加算を行い、参照領域を置換すべき信号を生成する置換信号生成手段と、
    前記置換信号生成手段から得られる信号によって参照領域を置き換える音声信号置換手段と、
    前記入力音声信号、及び周波数/時間領域信号を記録する記録手段
    を有することを特徴とする音声処理装置。
  2. 前記第1の比較抽出手段が特定周波数帯域のみについて比較を行うことを特徴とする請求項1に記載の音声処理装置。
  3. 前記特定周波数帯域が被写体音の音声周波数帯域に基づき帯域が設定されることを特徴とする請求項2に記載の音声処理装置。
  4. 前記周波数/時間領域信号の情報は前記特定周波数帯域についてのみ前記記録手段に記録することを特徴とする請求項2または3に記載の音声処理装置
  5. 前記第1の比較抽出手段は、前記参照領域を時間方向にずらし比較して類似領域を抽出することを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
  6. 前記記録手段に予め保存された低減対象の雑音信号の特徴周波数情報を有し、
    前記第1の比較抽出手段が、前記雑音信号の特徴周波数の帯域を省いて比較抽出を行うことを特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。
  7. 前記周波数/時間領域変換手段における音声信号の前記フレームの長さが、被写体音声の基本周波数の少なくとも1周期を含むことを特徴とする請求項1乃至6のいずれか1項に記載の音声処理装置。
  8. 前記拡大類似領域は前記第1の比較抽出手段の領域から前後に被写体音声の基本周波数の少なくとも1周期を拡大した領域であることを特徴とする請求項1乃至7のいずれか1項に記載の音声処理装置。
  9. 前記入力音声信号の実時間の長さと前記周波数/時間領域変換手段の変換パラメータに基づき、実時間領域でのみ比較抽出を行うかを判断する比較抽出切換え手段を有することを特徴とする請求項1乃至8のいずれか1項に記載の音声処理装置。
JP2017216858A 2017-11-10 2017-11-10 音声処理装置 Pending JP2019086724A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017216858A JP2019086724A (ja) 2017-11-10 2017-11-10 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017216858A JP2019086724A (ja) 2017-11-10 2017-11-10 音声処理装置

Publications (1)

Publication Number Publication Date
JP2019086724A true JP2019086724A (ja) 2019-06-06

Family

ID=66763088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017216858A Pending JP2019086724A (ja) 2017-11-10 2017-11-10 音声処理装置

Country Status (1)

Country Link
JP (1) JP2019086724A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11825267B2 (en) 2021-05-21 2023-11-21 Denso Corporation Microphone

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11825267B2 (en) 2021-05-21 2023-11-21 Denso Corporation Microphone

Similar Documents

Publication Publication Date Title
US8320583B2 (en) Noise reducing device and noise determining method
JP4539385B2 (ja) 撮像装置、撮像制御プログラム
JP2010249940A (ja) ノイズ低減装置、ノイズ低減方法
JP2011071702A (ja) 収音処理装置、収音処理方法、及びプログラム
JP2007316254A (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JP6078461B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP4816334B2 (ja) ノイズ低減装置、撮像装置、ノイズ低減方法およびプログラム
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP2018205547A (ja) 音声処理装置及びその制御方法
US9282229B2 (en) Audio processing apparatus, audio processing method and imaging apparatus
JP2019086724A (ja) 音声処理装置
JP2011095567A (ja) 撮像装置
JP6347536B2 (ja) 音合成方法及び音合成装置
JP2007310298A (ja) 帯域外信号生成装置及び周波数帯域拡張装置
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal
JP2009244723A (ja) 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP3555490B2 (ja) 声質変換システム
JP2003044077A (ja) 音声特徴量抽出方法と装置及びプログラム
JP2006047639A (ja) 雑音除去装置
JP2006349848A (ja) 帯域拡張装置及び不足帯域信号生成器
JP6144945B2 (ja) 信号処理装置及び方法
JP2006243215A (ja) 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム
JP6381367B2 (ja) 音声処理装置、音声処理方法、及び、プログラム
JP2018207316A (ja) 音声処理装置及びその制御方法
JP2018207313A (ja) 音声処理装置及びその制御方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20191125