JP2016051091A - 音声処理装置及び方法 - Google Patents

音声処理装置及び方法 Download PDF

Info

Publication number
JP2016051091A
JP2016051091A JP2014176736A JP2014176736A JP2016051091A JP 2016051091 A JP2016051091 A JP 2016051091A JP 2014176736 A JP2014176736 A JP 2014176736A JP 2014176736 A JP2014176736 A JP 2014176736A JP 2016051091 A JP2016051091 A JP 2016051091A
Authority
JP
Japan
Prior art keywords
spectrum
noise
unit
fourier transform
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014176736A
Other languages
English (en)
Inventor
太郎 松野
Taro Matsuno
太郎 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014176736A priority Critical patent/JP2016051091A/ja
Publication of JP2016051091A publication Critical patent/JP2016051091A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ズーム騒音に他の騒音が重なる場合にも適切に騒音を低減する。【解決手段】音声処理装置は、入力音声信号をフーリエ変換するフーリエ変換手段と、騒音の無いフレームか騒音中のフレームかを検出するタイミング検出手段と、騒音の無いフレームの音量が所定値を超えているか否かを判定する音量判定手段と、所定値以上の音量の場合に、騒音の無いフレームのスペクトルをフロアレベルに補正するスペクトル補正手段と、騒音中のフレームのスペクトルに対してリミットをかけるスペクトルリミット手段と、スペクトル補正手段及びスペクトルリミット手段の出力から騒音スペクトルを推定する騒音スペクトル推定手段と、騒音スペクトルをフーリエ変換手段から出力されるスペクトルから減算する騒音低減手段と、騒音低減手段から出力される音声スペクトルを逆フーリエ変換する逆フーリエ変換手段とを有する。【選択図】 図1

Description

本発明は、入力音声信号に含まれる騒音を低減する音声処理装置及び方法に関する。
従来、音声の騒音低減方法として、特定の周波数領域において騒音の周波数成分(騒音スペクトル)を入力音声信号から差し引くことにより、入力音声信号に含まれる騒音を低減するスペクトルサブトラクト法(SS法)が知られている。ここで、特定の周波数領域にて差し引く騒音スペクトルは、正しく騒音を測定できる環境で予め測定しておいた値を用いる方法が一般的である。
特許文献1には、騒音スペクトルをリアルタイムに推定し、騒音を低減する方法が記載されている。
特開2012−249108号公報
上記従来例による騒音低減方法では、周囲音により騒音を正しく推定出来なかった場合、予め決められた騒音スペクトルを用いて騒音低減を行う。しかし、予め決められた騒音スペクトルでは、実際の騒音スペクトルと大きく異なる場合が多い。そのため、予め決められた騒音スペクトルを用いて騒音を低減させたとしても、騒音成分の残りによるミュージカルノイズの発生や、特定の周波数領域における過剰な減算による周囲音の劣化等の問題がある。
そこで、本発明は、騒音低減の精度を向上させるようにすることを目的とする。
本発明に係る音声処理装置は、入力音声信号をフーリエ変換するフーリエ変換手段と、騒音の無いフレームか騒音中のフレームかを検出するタイミング検出手段と、前記騒音の無いフレームの音量が所定値以上か否かを判定する音量判定手段と、前記音量判定手段によって前記所定値以上の音量が判定された場合に、前記フーリエ変換手段から出力される、前記騒音の無いフレームのスペクトルをフロアレベルに補正するスペクトル補正手段と、前記フーリエ変換手段から出力される、前記騒音中のフレームのスペクトルに対してリミットをかけるスペクトルリミット手段と、前記スペクトル補正手段から得られる前記騒音の無いフレームのスペクトルと、前記スペクトルリミット手段より得られる前記騒音中のフレームのスペクトルから騒音スペクトルを推定する騒音スペクトル推定手段と、前記騒音スペクトル推定手段により推定された前記騒音スペクトルをフーリエ変換手段から出力されるスペクトルから減算することにより騒音の低減を行う騒音低減手段と、前記騒音低減手段から出力される音声スペクトルを逆フーリエ変換する逆フーリエ変換手段とを有することを特徴とする。
本発明によれば、騒音低減の精度が向上する。
本発明の実施例1の概略構成ブロック図である。 実施例1における騒音低減処理部の概略構成ブロック図である。 実施例1におけるスペクトル補正部の動作説明図である。 実施例1におけるスペクトルリミット部の動作説明図である。 本発明の実施例2の概略構成ブロック図である。 実施例2における騒音低減処理部の概略構成ブロック図である。
以下、図面を参照して、本発明の実施例を詳細に説明する。
図1は、本発明の実施例1の騒音低減機能付き音声処理装置100の概略構成ブロック図を示す。音声処理装置100は、操作部101、制御部102、撮像部103、音声入力部104、騒音低減処理部105、音声出力部106、映像出力部107、メモリ108及びメモリバス109から構成される。以下、各構成要素について説明する。以下に説明する多くの構成要素はメモリバス109に接続され、メモリ108に対してデータのやり取りを行なってデータ処理を行なっている。
メモリ108は高速でランダムアクセス可能なダイナミックRAMである。メモリ108内は音声データ領域、画像データ領域及び制御信号領域がある。また、音声データ領域に記憶された音声データ、及び、画像データ領域に記憶された画像データ、タイミング信号領域のタイミング信号はそれぞれ、フレームごとにどの時刻のデータであるかを識別できるように管理されている。
メモリバス109は各構成要素からのメモリアクセス要求を調停し、時分割でメモリ108へのデータ読み書きが行なえるよう制御している。
操作部101は、ユーザが操作するボタン、タッチパネル及びズームレバー等を備えており、これらのデバイスをユーザが操作した結果は、制御部102へ供給される。
制御部102は音声処理装置100を制御する、いわゆるCPUである。制御部102は、操作部101に対するユーザの操作により、撮像に関する動作、例えば、レンズのズーム動作等を制御する。制御部102は、操作部101で行われた操作のタイミング信号をメモリ108及びメモリバス109を通じて各ブロックに供給することができる。タイミング信号は、例えば、操作部101においてユーザがズーム動作を選択した場合、ズーム動作の開始時間、ズーム動作中の時間情報(ズーム開始からの経過時間等)及びズーム動作の終了時間等の情報を示す信号である。制御部102は、ユーザが選択した動作に関わる様々な情報を各ブロックに供給出来る。例えば、操作部101においてユーザがズーム操作を選択した場合、制御部102は、そのズーム動作の方向及びズーム動作に関わるモータの回転速度等も各ブロックに供給する。
撮像部103は、ズーム機能を備えたレンズ、絞り及び撮像センサにより構成される。撮像部103は、撮像センサによりレンズを通して受光した光を画像信号に変換し、A/D変換し、メモリ108の画像データ領域に画像データとして記憶する。
音声入力部104は、例えば、マイクのような集音装置とアナログデジタル変換器(A/D変換器)のようなデバイスから構成される。音声入力部104は、入力音声信号をある周波数、例えば48KHzでサンプリングしたデジタル音声信号を、メモリ108の音声データ領域へ音声データとして記憶する。
騒音低減処理部105は、いわゆる演算装置であり、演算に必要となる値を記憶するための記憶部も有している。騒音低減処理部105は、メモリ108の音声データ領域に記憶された音声データと、メモリ108のタイミング信号領域に記憶されたタイミング信号を読み出す。騒音低減処理部105は、読み出したタイミング信号により、ズーム動作による騒音が存在しない(例えば、ズーム動作中ではない)と判断した場合、読み出した音声データに騒音低減処理を行わず、メモリ108の音声データ領域に書き戻す。以下、ズーム動作による騒音を「ズーム騒音」と呼ぶ。読み出したタイミング信号により、ズーム騒音が存在する(例えば、ズーム動作中である)と判断した場合、騒音低減処理部105は、一定区間のフレーム毎に分割して騒音低減処理を行う。そして、騒音低減処理部105は、騒音低減処理を行った音声データをメモリ108の音声データ領域に音声データとして書き戻す。騒音低減処理部105の構成と動作は後述する。
音声出力部106は、いわゆるスピーカ、又は音声出力用の端子であり、メモリ108の音声データ領域に記憶された音声データを読み出して、D/A変換し、アナログ音声信号として出力する。
映像出力部107は、いわゆる表示パネルであり、メモリ108の画像データ領域に記憶された画像データを読み出して表示する。
図2を参照して、騒音低減処理部105の構成と動作概要を説明する。
信号入力制御部201は、騒音低減処理部105への音声信号入力を制御するインターフェースである。信号入力制御部201は、メモリ108の音声データ領域に記憶されている音声データを読み出し、読み出した音声データを、ある一定区間毎にフレーム分割し、フーリエ変換部203又は信号出力制御部211に供給する。信号入力制御部201は、タイミング検出部202からの騒音判定信号に従い、フレーム分割した音声データの供給先を変更する。騒音判定信号は、音声処理装置100のズームが動作中か否かを示す信号であり、タイミング検出部202の動作は後述する。騒音判定信号がズーム動作中(又はズーム騒音中)でないことを示す場合、信号入力制御部201は、騒音判定信号と読み出した音声データを信号出力制御部211に供給し、読み出した音声データをフーリエ変換部203に供給する。また、騒音判定信号がズーム動作中(又はズーム騒音中)を示す場合、信号入力制御部201は、騒音判定信号を信号出力制御部211に供給し、読み出した音声データをフーリエ変換部203に供給する。
タイミング検出部202は、メモリ108に記憶されたタイミング信号を読み出し、騒音の有無を判定する。そして、タイミング検出部202は、騒音の有無及び、騒音の続いているフレーム数等を示す騒音判定信号を信号入力制御部201、切替え部204、騒音スペクトル推定部208及び信号出力制御部211に供給する。
フーリエ変換部203は、信号入力制御部201からのフレーム分割された音声データに対してハニング窓を掛け、離散フーリエ変換(DFT)を行い、周波数順に並び替え、周波数毎の位相情報と振幅絶対値(入力信号スペクトル)を算出する。フーリエ変換部203は、算出した入力信号スペクトルを切替え部204と騒音低減部209に供給する。フーリエ変換部203は、算出した周波数毎の位相情報を逆フーリエ変換部210に供給する。
切替え部204は、タイミング検出部202から供給される騒音判定信号により、フーリエ変換部203から供給される入力信号スペクトルの供給先を切り替える。騒音判定信号がズーム動作中ではないことを示す場合、切替え部204は、入力信号スペクトルの供給先を音量判定部205とスペクトル補正部206とするように切り替わる。騒音判定信号がズーム動作中を示す場合、切替え部204は、入力信号スペクトルの供給先をスペクトルリミット部207とするように切り替わる。
音量判定部205は、切替え部204から供給される入力信号スペクトルに対して音量が所定値よりも大きいか否かを判定し、その判定結果をスペクトル補正部206に供給する。
スペクトル補正部206は、切替え部204から供給される入力信号スペクトルに対し、音量判定部205から供給される音量判定結果に基づき補正をかけるか否かを判断する。音量判定部205の判定結果が、入力信号スペクトルの音量が所定値以上であると示す場合、すなわち、音量が大きいと判定された場合、スペクトル補正部206は、入力信号スペクトルを予め決められたフロアレベルの値に置き替えるような補正を行う。音量判定部205による判定結果が、入力信号スペクトルの音量が所定値未満であると示す場合、すなわち、音量が小さいと判定された場合、スペクトル補正部206は、入力信号スペクトルに対し補正を行わない。スペクトル補正部206は、入力信号スペクトルへの処理結果(補正しなかった場合も含む)のスペクトルを、騒音スペクトル推定部208に供給する。
スペクトルリミット部207は、切替え部204からの入力信号スペクトルに対して、周波数毎にリミットをかける。リミットとは、ある上限値を超えた場合は、強制的にその上限値に戻すような動作をいう。スペクトルリミット部207は、リミットをかけた入力信号スペクトルを、騒音スペクトル推定部208に供給する。
騒音スペクトル推定部208は、スペクトル補正部206から供給されるスペクトルと、スペクトルリミット部207から供給されるスペクトルとの差分から騒音スペクトルを推定する。騒音スペクトル推定部208は、推定した騒音スペクトルを騒音低減部209に供給する。騒音スペクトル推定部208は、スペクトル補正部206から供給されるスペクトルを、スペクトルリミット部207からスペクトルが供給されるまで保持しておくこともできる。騒音スペクトル推定部208は、推定した騒音スペクトルを騒音が続いている間、保持でき、タイミング検出部202からの騒音判定信号を受けて、保持する騒音スペクトルを騒音低減部209に供給できる。
騒音低減部209は、フーリエ変換部203から供給された入力信号スペクトルから、騒音スペクトル推定部208から供給された騒音スペクトルを特定の周波数領域で減算することにより、騒音低減処理を行う。騒音低減部209は、騒音低減処理後のスペクトルを逆フーリエ変換部210に供給する。
逆フーリエ変換部210は、騒音低減部209から供給される騒音低減スペクトルに対して、フーリエ変換部203から供給される位相情報を用いて、逆離散フーリエ変換とオーバーラップ処理を行い、騒音低減したデジタル音声信号を得る。逆フーリエ変換部210は、騒音低減したデジタル音声信号を信号出力制御部211に供給する。逆フーリエ変換部210は、逆フーリエ変換した演算結果を、オーバーラップ処理のため次フレームの演算時まで保持する。
信号出力制御部211は、騒音低減処理部105が信号を出力する際の制御を行うインターフェースである。信号出力制御部211は、逆フーリエ変換部210又は信号入力制御部201から供給されるフレーム分割された音声データをメモリバス109に出力する。信号出力制御部211は、逆フーリエ変換部210と信号入力制御部201のどちらから供給された音声信号を出力するかを、タイミング検出部202から供給された騒音判定信号を参照して決定する。騒音判定信号がズーム動作中ではないことを示す場合、信号出力制御部211は、信号入力制御部201から供給された音声データをメモリバス109に出力する。騒音判定信号がズーム動作中を示す場合、信号出力制御部211は、逆フーリエ変換部210から供給される音声データをメモリバス109に出力する。
音声処理装置100の騒音低減動作を説明する。説明例として、音声処理装置100の騒音低減機能は、主に動画撮影中に得られる音声データに混在してしまうズーム動作による駆動音を、騒音として低減する。
まず、操作部101によってユーザが動画撮影を開始する。制御部102は操作部101からの信号を受けて、各ブロックへ動画撮影のための信号を供給し、各ブロックはそれを受けて動画撮影を開始する。例えば、撮像部103は画像データをメモリ108の画像データ領域に記憶し、音声入力部104は音声データをメモリ108の音声データ領域に記憶する。
動画撮影中に、ユーザが操作部101を操作し、ズーム動作を選択したとする。制御部102は、操作部101からのズーム動作選択の操作信号を受けて、メモリ108を通して撮像部103にズーム動作の制御信号を供給する。また、制御部102は、ズーム動作が選択されたタイミング信号をメモリ108のタイミング信号領域に記憶する。
撮像部103は、ズーム動作の制御信号を受けてズーム動作を行う。ズーム動作では、モータ及びレンズ鏡筒等が回転するので、その動作音が0騒音となり、本来ユーザが集音したい音声と重なって音声入力部104により取り込まれる。この騒音をズーム騒音と呼ぶ。音声入力部104は、このように取り込んだズーム騒音と所望音声を含む音声信号を、メモリ108の音声データ領域にズーム動作前の音声データにつづく音声データとして記憶する。
騒音低減処理部105は、メモリ108の音声データ領域に記憶された音声データを読み出す。ズームが動作していない時に集音された音声データに関しては、騒音低減処理部105は、騒音低減処理を行わず、読み出した音声データと同一の音声データをメモリ108の音声データ領域に書き戻す。ズームが動作している時に集音された音声データに関しては、騒音低減処理部105は、騒音低減処理を行い、騒音低減後の音声データをメモリ108の音声データ領域に記憶する。騒音低減処理部105は、ズームが動作している時に集音された音声データか、動作していない時に集音された音声データかを、制御部102がメモリ108に記憶するズーム動作のタイミング信号を参照して識別する。騒音低減処理部105の動作については後述する。
動画再生時には、音声出力部106が、メモリ108の音声データ領域に記憶されている騒音低減されている音声データを読み出して、音声を出力する。また、映像出力部107が、メモリ108の画像データ領域に記憶されている画像データを読み出して、動画として出力する。
図1及び図2を参照して、騒音低減処理部105の騒音低減処理を説明する。説明例として、音声入力部104のA/D変換におけるサンプリング周波数は48KHzとする。信号入力制御部201のフレーム分割単位は、1024点とする。フーリエ変換部203と逆フーリエ変換部210の離散フーリエ変換点数(周波数分解能)は、1024点とする。つまり、フーリエ変換部203の離散フーリエ変換結果は、512点のスペクトルで、24KHzまでの周波数成分を表すことになる。
信号入力制御部201は、メモリ108の音声データ領域に記憶されている音声データをメモリバス109を通して読み出し、ある一定区間、例えば1024サンプル毎の音声データx[n](ただし、n=0,1,…,1023)にフレーム分割する。このときの添え字tは、音声データのフレーム番号を示す。ズーム騒音が存在しないと判定されるフレームの信号は、常にt=0(x[n])とする。ズーム騒音が存在すると判定された最初のフレームの信号をt=1(x[n])とし、その後、ズーム騒音の存在するフレームが続いていく場合はt=2,3,4,…(x[n],x[n],x[n]...)のように1ずつ添え字tが増加していく。ズーム騒音の存在しないフレームになると、t=0(x[n])にリセットされる。
タイミング検出部202は、メモリ108のタイミング信号領域に記憶されているズーム動作のタイミング信号を読み出し、騒音判定信号を信号入力制御部201、切替え部204、騒音スペクトル推定部208及び信号出力制御部211に供給する。
入力音声にズーム騒音は存在しないと判定されたフレームx[n]に対する一連の動作を説明する。
信号入力制御部201は、タイミング検出部202から供給された騒音判定信号がズーム動作中ではないことを示す場合、分割した音声データx[n]をフーリエ変換部203と信号出力制御部211に供給する。
フーリエ変換部203は、信号入力制御部201から供給された1024点の音声データx[n]に対してハニング窓w[n]をかけ、離散フーリエ変換を行う。このとき、離散フーリエ変換点数をN(=1024)、離散フーリエ変換結果をX[n]とすると、ハニング窓を掛け、離散フーリエ変換を行う式は、式(1)となる。すなわち、
Figure 2016051091
ただし、n=0,1,2,...,N−1である。離散フーリエ変換し、周波数順に並べ替えた演算結果をX[n]とすると、フーリエ変換部203は、前半の512点までの演算結果X[m](m=0,1,2,...,511)を切替え部204と騒音低減部209に供給する。
切替え部204は、タイミング検出部202からの、ズーム動作中ではないことを示す騒音判定信号に従い、フーリエ変換部203により生成される512点の入力信号スペクトルX[m]を音量判定部205とスペクトル補正部206に供給する。
音量判定部205は、切替え部204から供給された入力信号スペクトルX[m]に対して音量を判定する。音量判定方法として例えば、入力信号スペクトルX[m]のRMS(Root Means Square)値と所定値Treshとを比較する方法を採用する。ただし、本発明はこの音量判定方法に限定されず、入力信号スペクトルX[m]の音量に係る数値を判定する方法であれば、なんでもよい。
音量判定部205は、入力信号スペクトルX[m]に対しRMS値を算出する。入力信号スペクトルのRMS値は、以下の式(2)で与えられる。すなわち、
Figure 2016051091
音量判定部205は、算出したRMS値を所定値Threshと比較する。所定値Threshは実験的に定められる値である。
式(2)の結果が所定値Thresh以下である場合、音量判定部205は、スペクトル補正部206に対して音量判定結果として0を供給する。逆に、式(2)の結果が所定値Threshを越える場合、音量判定部205は、スペクトル補正部206に対して音量判定結果として1を供給する。
スペクトル補正部206は、音量判定部205から供給される音量判定結果が0の場合、入力信号スペクトルX[m]に対する補正を行わない。音量判定結果が1の場合、スペクトル補正部206は、入力信号スペクトルX[m]に対して、音声入力部104から得られる音声データにズーム騒音が発生していないときの特性に近くなるような補正を行う。本実施例では、ズーム騒音が発生していないときに、音声入力部104から得られる音声データの振幅スペクトルF[m]を予め測定しておく。スペクトル補正部206の補正は、入力信号スペクトルを予め測定しておいた音声入力部104の振幅スペクトルF[m]に置き替える処理である。
音量判定部205から供給される音量判定結果が0の場合、スペクトル補正部206の出力Y[m]は、下記式(3)
[m]=X[m] (3)
で与えられる。ただし、m=0,1,2,...,511である。音量判定部205から供給される音量判定結果が1の場合、スペクトル補正部206の出力Y[m]は、下記式(4)
[m]=F[m] (4)
で与えられる。ただし、m=0,1,2,...,511である。音量判定部205から供給される音量判定結果が1の場合の波形例を図3に示す。スペクトル補正部206は、処理結果Y[m]を騒音スペクトル推定部208に供給する。
騒音スペクトル推定部208は、タイミング検出部202から供給される騒音判定信号に従い、スペクトル補正部206から供給されたスペクトルY[m]を次のフレームまで保持する。騒音スペクトル推定部208は、スペクトル補正部206からの出力と、スペクトルリミット部207からの出力を用いて騒音スペクトルを推定する。そのために、騒音スペクトル推定部208は、入力音声に騒音が存在しないと判定された場合、スペクトル補正部206から供給されたスペクトルY[m]を次のフレームまで保持し、出力は行わない。
入力音声にズーム騒音が存在しない場合、騒音スペクトル推定部208は騒音低減部209に騒音スペクトルを供給しないので、このとき、騒音低減部209は、騒音低減演算を行わない。騒音低減部209は、フーリエ変換部203の演算結果X[m](m=0,1,2,...,511)をナイキスト周波数を中心として折り返してX[n](n=0,1,2,...,1023)に拡張し、逆フーリエ変換部210に供給する。
逆フーリエ変換部210は、騒音低減部209から供給される音声スペクトルデータX[n]を、下記式(5)に従い離散逆フーリエ変換する。すなわち、
Figure 2016051091
ただし、n=0,1,2,...,N−1である。逆フーリエ変換部210による離散逆フーリエ変換で得られた演算結果を時間順に並び替えたものをZ[n]とする。逆フーリエ変換部210は、次のフレームのオーバーラップ処理のために、時間順に並び替えた結果の後半部分Z[n](n=512,513,514,...,1023)を保持する。
信号出力制御部211は、信号入力制御部201からの分割された音声データの前半部分x[m](m=0,1,2,...,511)を、信号出力制御部211からの出力OUT[m]としてメモリ108の音声データ領域に書き出す。
次に、入力音声にズーム騒音が存在すると最初に判定されたフレームx[n]に対する一連の動作を説明する。
信号入力制御部201は、タイミング検出部202から供給された騒音判定信号がズーム動作中を示す場合、分割した音声データx[n]をフーリエ変換部203に供給する。
フーリエ変換部203は、信号入力制御部201から供給される1024点の音声データx[n]に対して、ハニング窓w[n]をかけ、離散フーリエ変換を行う。このとき、離散フーリエ変換点数をN、離散フーリエ変換結果をX[n]とすると、フーリエ変換部203における変換式は、
Figure 2016051091
となる。ただし、n=0,1,2,...,N−1である。離散フーリエ変換し周波数順に並べ替えた演算結果X[n]に対して、フーリエ変換部203は、前半の512点までの演算結果X[m](m=0,1,2,...,511)を、切替え部204と騒音低減部209に供給する。
切替え部204は、タイミング検出部202からのズーム動作中を示す騒音判定信号に従い、フーリエ変換部203から供給される512点の入力信号スペクトルX[m]をスペクトルリミット部207に供給する。
スペクトルリミット部207は、入力信号スペクトルに対して周波数毎にリミット値Limit_THと大小比較を行う。リミット値Limit_THを超えていない周波数に対して、スペクトルリミット部207は、切替え部204を通して供給された入力信号スペクトルX1[m]の値をそのまま出力Y[m]とする。すなわち、
[m]=X[m] (7)
ただし、m=0,1,2,...,511である。他方、リミット値Limit_THを超えている周波数に対して、スペクトルリミット部207は、リミット値Limit_THを出力Y[m]とする。すなわち、
[m]=Limit_TH (8)
ただし、m=0,1,2,...,511である。波形例を図4に示す。スペクトルリミット部207は、このように決定された出力Y[m]を騒音スペクトル推定部208に供給する。
騒音スペクトル推定部208は、スペクトル補正部206からのスペクトルY[m]と、スペクトルリミット部207からのスペクトルY[m]とから、下記式(9)に従い騒音スペクトルS[m]を推定する。すなわち、
S[m]=Y[m]−Y[m] (9)
ただし、m=0,1,2,...,511である。騒音スペクトル推定部208は、推定した騒音スペクトルS[m]を騒音低減部209に供給する。また、騒音スペクトル推定部208は、得られた騒音スペクトルS[m]を保持する。
騒音低減部209は、下記式(10)に示すように、フーリエ変換部203から供給される入力信号スペクトルX[m]から騒音スペクトル推定部208から供給される騒音スペクトルS[m]を減算する。すなわち、
NC[m]=X[m]−S[m] (10)
ただし、m=0,1,2,...,511である。このとき、騒音低減後の音質を調整するために、騒音低減部209は、下記式(11)に示すように、騒音スペクトルS[m]に係数γを乗算しても良い。すなわち、
NC[m]=X[m]−S[m]×γ (11)
ただし、m=0,1,2,...,511である。騒音低減部209は、騒音低減結果NC[m]を、ナイキスト周波数を中心として折り返してNC[n](n=0,1,2,...,1023)に拡張し、逆フーリエ変換部210に供給する。
逆フーリエ変換部210は、騒音低減部209から供給されるNC[n]に対して、下記式(12)に従い、離散逆フーリエ変換とオーバーラップ処理を行う。すなわち、
Figure 2016051091
ただし、n=0,1,2,...,N−1である。離散逆フーリエ変換で得られた演算結果に対して時間順に並び替えたものを、Z[n]と表記している。逆フーリエ変換部210は、時間順に並び替えた結果の後半部分Z[p](p=512,513,514,...,1023)を、オーバーラップ処理用に保持する。前半部分Z[m]に対しては、逆フーリエ変換部210は、前のフレームのオーバーラップ処理用のデータZ[p]を用いて、下記式(13)に示すオーバーラップ処理を行う。すなわち、
OUT[m]=Z[m]+Z[p] (13)
ただし、m=0,1,2,...,511、p=512,513,...,1023である。逆フーリエ変換部210は、このように決定した騒音低減結果OUT[m]を信号出力制御部211に供給する。
信号出力制御部211は、逆フーリエ変換部210から供給された騒音低減結果OUT[m]をメモリ108の音声データ領域にメモリバス109を通して書き出す。
入力音声にズーム騒音が続けて存在するフレームx[n](t=2,3,4,...)に対する騒音低減動作を説明する。
信号入力制御部201は、タイミング検出部202から供給された騒音判定信号がズーム動作中を示す場合、分割した音声データx[n]をフーリエ変換部203へ供給する。
フーリエ変換部203は、信号入力制御部201から供給される1024点の音声データx[n]に対してハニング窓w[n]をかけ、離散フーリエ変換を行う。このとき、離散フーリエ変換点数をN、離散フーリエ変換結果をX[n]とすると、ハニング窓w[n]をかけ、離散フーリエ変換を行う式は式(14)となる。すなわち、
Figure 2016051091
ただし、n=0,1,2,...,N−1である。離散フーリエ変換し、周波数順に並べ替えた演算結果をX[n]とすると、フーリエ変換部203は、前半の512点までの演算結果X[m](m=0,1,2,...,511)を騒音低減部209に供給する。
騒音スペクトル推定部208は、タイミング検出部202から供給される騒音判定信号に従い、ズーム動作中と最初に判定されたフレームへの動作で推定し保持した騒音スペクトルS[m]を騒音低減部209に供給する。
騒音低減部209は、下記式(15)に示すように、フーリエ変換部203から供給される入力信号スペクトルX[m]から、騒音スペクトル推定部208から供給される騒音スペクトルS[m]を減算する。すなわち、
NC[m]=X[m]−S[m] (15)
ただし、m=0,1,2,...,511である。このとき、騒音低減後の音質を調整するために、騒音低減部209は、下記式(16)に示すように、騒音スペクトルS[m]に係数γを乗算しても良い。すなわち、
NC[m]=X[m]−S[m]×γ (16)
ただし、m=0,1,2,...,511である。
騒音低減部209は、騒音低減結果NC[m]を、ナイキスト周波数を中心として折り返してNC[n](n=0,1,2,...,1023)に拡張し、逆フーリエ変換部210に供給する。
逆フーリエ変換部210は、騒音低減部209から供給されたNC[n]に対して、下記式(17)に従い、離散逆フーリエ変換とオーバーラップ処理を行う。すなわち、
Figure 2016051091
ただし、n=0,1,2,...,N−1である。離散逆フーリエ変換で得られた演算結果に対して時間順に並び替えたものを、Z[n]と表記している。
逆フーリエ変換部210は、時間順に並び替えた結果の後半部分Z[p](p=512,513,514,...,1023)を、次フレームのオーバーラップ処理用に保持する。前半部分Z[m]に対しては、逆フーリエ変換部210は、前のフレームのオーバーラップ処理用のデータZt−1[p]を用いて、下記式(18)に示すオーバーラップ処理を行う。すなわち、
OUT[m]=Z[m]+Zt−1[p] (18)
ただし、m=0,1,2,...,511、p=512,513,...,1023である。
逆フーリエ変換部210は、このように得られた騒音低減結果OUT[m]を信号出力制御部211に供給する。
信号出力制御部211は、逆フーリエ変換部210から供給された騒音低減結果OUTt[m]をメモリ108の音声データ領域にメモリバス109を通して書き出す。
本実施例では、ズーム非動作の時に取り込まれた音声に対して、信号入力制御部201で読み出した後、信号出力制御部211で結合してメモリ108の音声データ領域に音声データとして書き戻したが、本発明はこれに限定されない。例えば、ズームの非動作時に取り込まれた音声データを、騒音低減処理部105がメモリ108から読み出さないようにしてもよい。また、騒音低減処理部105において、フーリエ変換部203による離散フーリエ変換と逆フーリエ変換部210による離散逆フーリエ変換の代わりに、元の音声データが劣化無く書き戻されるような処理を採用してもよい。
入力音声にズーム騒音以外の周囲音が入った場合にズーム騒音の無いフレームとズーム騒音のあるフレームのスペクトルを補正し騒音スペクトルの推定精度を上げることで、騒音低減後の音声を改善できる。
図5は、本発明の実施例2の概略構成ブロック図を示す。図5に示す音声処理装置500は、操作部501、制御部502、撮像部503、音声入力部504、騒音低減処理部505、音声出力部506、映像出力部507、メモリ508及びメモリバス509からなる。騒音低減処理部505以外の要素の構成と機能は、音声処理装置100の対応する要素のそれと同じであるので、詳細な説明を省略する。音声処理装置500が騒音低減処理を行う場合の、騒音低減処理部505以外の要素の動作も、音声処理装置100の対応する要素のそれと同じであるので、詳細な説明を省略する。
騒音低減処理部505は、いわゆる演算装置であり、演算に必要となる値を記憶するための記憶部も有している。騒音低減処理部505は、メモリ508の音声データ領域に記憶された音声データと、メモリ508のタイミング信号領域に記憶されたタイミング信号を読み出す。騒音低減処理部505は、読み出したタイミング信号により、ズーム騒音が存在しない(例えば、ズーム動作中ではない)と判断した場合、読み出した音声データに騒音低減処理を行わず、メモリ508の音声データ領域に書き戻す。読み出したタイミング信号により、ズーム騒音が存在する(例えば、ズーム動作中)と判断した場合、騒音低減処理部505は、一定区間のフレーム毎に分割して騒音低減処理を行う。そして、騒音低減処理部505は、騒音低減処理を行った音声データをメモリ508の音声データ領域に音声データとして書き戻す。
図6は、騒音低減処理部505の概略構成ブロック図を示す。図6を参照して、騒音低減処理部505の構成と動作を詳細に説明する。なお、信号入力制御部601、タイミング検出部602及びフーリエ変換部603はそれぞれ、信号入力制御部201、タイミング検出部202及びフーリエ変換部203と対応しており、同等の機能を奏するので、説明を省略する。また、騒音低減部609、逆フーリエ変換部610及び信号出力制御部611はそれぞれ、騒音低減部209、逆フーリエ変換部210及び信号出力制御部211と対応しており、同等の機能を奏するので、説明を省略する。
切替え部604は、タイミング検出部602から供給される騒音判定信号により、フーリエ変換部603から供給される入力信号スペクトルの供給先を切り替える。騒音判定信号がズーム騒音の不在を示す場合、切替え部604は、入力信号スペクトルを、音量判定部605、補正判定演算部612及びスペクトル補正部606に供給する。騒音判定信号がズーム騒音の存在を示す場合、切替え部604は、入力信号スペクトルを補正判定演算部612及びスペクトルリミット部607に供給する。
音量判定部605は、切替え部604から供給される入力信号スペクトルに対して音量が所定値よりも大きいか否かを判定し、その判定結果をスペクトル補正部606に供給する。
補正判定演算部612は、ズーム騒音が不在の場合の入力信号スペクトルとズーム騒音が存在する場合の入力信号スペクトルとから、入力信号スペクトルに対する補正の要否を判定する。そして、補正判定演算部612は、判定演算の結果を示す補正判定信号をスペクトル補正部606とスペクトルリミット部607に供給する。
スペクトル補正部606は、切替え部604から供給される入力信号スペクトルに対し補正を行う。その際、補正の要否は、音量判定部605から供給される音量判定結果と、補正判定演算部612から供給される補正判定結果に基づき制御される。詳細は後述する。
スペクトルリミット部607は、切替え部604からの入力信号スペクトルに対して、周波数毎にリミットをかける。リミットとは、ある上限値を超えた場合は、強制的にその上限値に戻すような動作をいう。リミットの要否は、補正判定演算部612から供給される補正判定結果により制御される。スペクトルリミット部607は、リミットをかけた入力信号スペクトルを騒音スペクトル推定部608に供給する。
騒音スペクトル推定部608は、スペクトル補正部606から供給されるスペクトルと、スペクトルリミット部607から供給されるスペクトルとの差分から騒音スペクトルを推定する。騒音スペクトル推定部608は、推定した騒音スペクトルを騒音低減部609に供給する。騒音スペクトル推定部608は、スペクトル補正部606から供給されるスペクトルをスペクトルリミット部607からスペクトルが供給されるまで保持する。また、騒音スペクトル推定部608は、推定した騒音スペクトルを騒音が続いている間、保持することもできる。更には、騒音スペクトル推定部608は、タイミング検出部602からの騒音判定信号に従い、保持する騒音スペクトルを騒音低減部609に供給する。
騒音低減処理部505の騒音低減処理動作を具体的に説明する。説明例として、音声入力部504のA/D変換におけるサンプリング周波数は48KHzとする。信号入力制御部601のフレーム分割単位は、1024点とする。フーリエ変換部603と逆フーリエ変換部610の離散フーリエ変換点数(周波数分解能)は、1024点とする。つまり、フーリエ変換部603の離散フーリエ変換結果は、512点のスペクトルで、24KHzまでの周波数成分を表すことになる。
信号入力制御部601は、メモリ508の音声データ領域に記憶されている音声データをメモリバス509を通して読み出し、ある一定区間、例えば1024サンプル毎の音声データx[n](ただし、n=0,1,2,…,1023)にフレーム分割する。このときの添え字tは、音声データのフレーム番号を示す。ズーム騒音が存在しないと判定されるフレームの信号は、常にt=0(x[n])とする。ズーム騒音が存在すると判定された最初のフレームの信号をt=1(x[n])とする。この後、ズーム動作による騒音の存在するフレームが続いていく場合は、t=2,3,4,…(x[n],x[n],x[n]...)のように1ずつ添え字tが増加していく。ズーム騒音の存在しないフレームになると、t=0(x[n])にリセットされる。
タイミング検出部602は、メモリ508のタイミング信号領域に記憶されているズーム動作のタイミング信号を読み出し、騒音判定信号を信号入力制御部601、切替え部604、騒音スペクトル推定部608及び信号出力制御部611に供給する。
入力音声にズーム騒音が存在しないと判定されたフレームx[n]に対する一連の動作を説明する。
信号入力制御部601は、タイミング検出部602から供給された騒音判定信号がズーム動作中でないことを示す場合、分割した音声データx[n]をフーリエ変換部603と信号出力制御部611に供給する。
フーリエ変換部603は、信号入力制御部601から供給された1024点の音声データx[n]に対してハニング窓w[n]をかけ、離散フーリエ変換を行う。このとき、離散フーリエ変換点数をN(=1024)、離散フーリエ変換結果をX[n]とすると、ハニング窓を掛け、離散フーリエ変換を行う式は、下記式(19)
Figure 2016051091
となる。ただし、n=0,1,2,…,N−1である。離散フーリエ変換し、周波数順に並べ替えた演算結果をX[n]とすると、フーリエ変換部603は、前半の512点までの演算結果X[m](m=0,1,2,...,511)を切替え部604と騒音低減部609に供給する。
切替え部604は、タイミング検出部602からの、ズーム動作中ではないことを示す騒音判定信号に従い、フーリエ変換部603からの512点の入力信号スペクトルX[m]を音量判定部605、補正判定演算部612及びスペクトル補正部606に供給する。
音量判定部605は、切替え部604から供給される入力信号スペクトルX[m]に対して音量を判定する。音量判定方法として例えば、入力信号スペクトルX[m]のRMS(Root Means Square)値と第1の所定値とを比較する方法を採用する。ただし、本発明はこの音量判定方法に限定されず、入力信号スペクトルX[m]の音量に係る数値を判定する方法であれば、なんでもよい。
音量判定部605は先ず、入力信号スペクトルX[m]に対しRMS値を算出する。騒音成分の集中する周波数帯が事前に分かっている場合、RMS値の算出に際し、周波数領域で重み付けを行ってもよい。例えば、騒音成分がm=0〜511(周波数として、0Hz〜24000Hz)のうちの、m〜mの周波数帯に集中することが分かっていた場合、音量判定に用いるRMS値は下記式(20)、
Figure 2016051091
で与えられる。音量判定部605は次に、算出したRMS値と第1の所定値Treshの大きさを比較する。第1の所定値Treshは、実験的に定められる値である。
式(20)の結果が所定値Thresh以下である場合、音量判定部605は、スペクトル補正部606に対して音量判定結果として0を供給する。逆に、式(20)の結果が所定値Threshを越える場合、音量判定部605は、スペクトル補正部606に対して音量判定結果として1を供給する。
スペクトル補正部606は、切替え部604から供給される入力信号スペクトルX[m]と、補正判定演算部612から供給される補正判定結果を、次のフレームの処理まで保持する。スペクトル補正部606は、音量判定部605からの音量判定結果と補正判定演算部612からの補正判定結果とに基づき補正の要否を決定するので、補正判定演算部612からの補正判定信号がない段階では、何も出力しない。
騒音低減部609は、入力音声にズーム騒音が存在しない場合、騒音スペクトル推定部608の出力が存在しないので、騒音低減演算を行わない。このとき、騒音低減部609は、フーリエ変換部603の演算結果X[m](m=0,1,2,...,511)をナイキスト周波数を中心として折り返し、X[n](n=0,1,2,...,1023)に拡張して逆フーリエ変換部610に供給する。
逆フーリエ変換部610は、騒音低減部609から供給される音声スペクトルデータX[n]を、下記式(21)に従い離散逆フーリエ変換する。すなわち、
Figure 2016051091
ただし、n=0,1,2,…,N−1である。逆フーリエ変換部610による離散逆フーリエ変換で得られた演算結果を時間順に並び替えたものをZ[n]とする。逆フーリエ変換部610は、次のフレームのオーバーラップ処理のために、時間順に並び替えた結果の後半部分Z[p](p=512,513,...,1023)を保持する。
信号出力制御部611は、信号入力制御部601からの分割された音声データの前半部分x[m](m=0,1,2,...,511)を、信号出力制御部611からの出力OUT[m]としてメモリ508の音声データ領域に書き出す。
次に、入力音声にズーム騒音が存在すると最初に判定されたフレームx[n]に対する一連の動作を説明する。
信号入力制御部601は、タイミング検出部602から供給された騒音判定信号がズーム騒音の存在を示す場合、分割した音声データx[n]をフーリエ変換部203に供給する。
フーリエ変換部603は、信号入力制御部601から供給される1024点の音声データx[n]に対して、ハニング窓w[n]をかけ、離散フーリエ変換を行う。このとき、離散フーリエ変換点数をN、離散フーリエ変換結果をX[n]とすると、フーリエ変換部603における変換式は、下記式(22)
Figure 2016051091
となる。ただし、n=0,1,2,…,N−1である。離散フーリエ変換し周波数順に並べ替えた演算結果X[n]に対して、フーリエ変換部603は、前半の512点までの演算結果X[m](m=0,1,2,...,511)を、切替え部604と騒音低減部609に供給する。
切替え部604は、タイミング検出部602からのズーム騒音の存在を示す騒音判定信号に従い、フーリエ変換部603から供給される512点の入力信号スペクトルX[m]を補正判定演算部612及びスペクトルリミット部607に供給する。
補正判定演算部612は、前のフレーム(ズーム騒音が無いと判断されたフレーム)の処理時に供給された入力信号スペクトルX[m]と、現フレームの入力信号スペクトルX[m]とから、入力信号スペクトルX[m]に対する補正の要否を判定する。手順として、補正判定演算部612はまず、式(23)〜(27)によりX[m]とX[m]の相関値S_valueを求める。そして、補正判定演算部612は、その相関値S_valueと第2の所定値S_threshの大きさを比較する。第2の所定値S_threshは、実験的に定められる1.0以下の値である。
補正判定演算部612は、式(23),(24)に従い、X[m]且つX[m]で存在しているスペクトルの面積S_minを求める。すなわち、
Figure 2016051091
Figure 2016051091
ただし、m=0,1,2,…,511である。
次に、補正判定演算部612は、式(25),(26)に従い、X[m]又はX[m]で存在しているスペクトルの面積S_maxを求める。すなわち、
Figure 2016051091
Figure 2016051091
ただし、m=0,1,2,…,511である。
補正判定演算部612は、式(27)に従い、S_minとS_maxの比から、X0[m]とX1[m]の相関値S_valueを求める。すなわち、
S_value=S_min/S_max (27)
である。
相関値S_valueが閾値S_Thresh以上のとき、X0[m]とX[m]の相関が高く、従って、ズーム騒音の存在するフレームと、ズーム騒音の存在しないフレームにおいて似たような周囲音が入っていると判断できる。このとき、補正判定演算部612は、スペクトル補正部606とスペクトルリミット部607に対して補正判定結果として0(補正不要)を供給する。
相関値S_valueが閾値S_Thresh未満のとき、X[m]とX[m]の相関が低く、従って、ズーム騒音の存在するフレームと、ズーム騒音の存在しないフレームにおいて全く別の周囲音が入っていると判断できる。このとき、補正判定演算部612は、スペクトル補正部606とスペクトルリミット部607に対して補正判定結果として1(補正必要)を供給する。
スペクトル補正部606は、音量判定部605からの音量判定結果(0/1)と補正判定演算部612からの補正判定結果(0/1)の論値積が0の場合に、補正を行わず、論理積が1の場合に補正を行う。適用する補正は、前のフレーム(ズーム騒音が無いと判断されたフレーム)の処理時に供給された入力信号スペクトルX[m]に対し、音声入力部504から得られる音声データにズーム騒音が発生していないときの特性に近づける処理である。本実施例では、ズーム動作による騒音が発生していないときに、音声入力部504から得られる音声データの振幅スペクトルF[m]を予め測定しておく。スペクトル補正部606の補正は、入力信号スペクトルX[m]をこの振幅スペクトルF[m]に置き替える処理である。
音量判定部605から供給される音量判定結果(0/1)と、補正判定演算部612から供給される補正判定結果(0/1)の論理積が0の場合、スペクトル補正部606の出力Y[m]は、下記式(28)で与えられる。すなわち、
[m]=X[m] (28)
ただし、m=0,1,2,…,511である。音量判定部605から供給される音量判定結果と補正判定演算部612から供給される補正判定結果の論理積が1の場合、スペクトル補正部606の出力Y[m]は、下記式(29)で与えられる。すなわち、
[m]=F[m] (29)
ただし、m=0,1,2,…,511である。スペクトル補正部606は、このように得られた補正結果Y[m]を騒音スペクトル推定部608に供給する。
スペクトルリミット部607は、補正判定演算部612から供給される補正判定結果が0の場合、両フレームの相関が大きいので、入力信号スペクトルX[m]に対してリミットをかけない。逆に、補正判定結果が1の場合、両フレームの相関が小さいので、スペクトルリミット部607は、入力信号スペクトルX[m]に対してリミットをかける。
リミットをかける場合、スペクトルリミット部607は、入力信号スペクトルX[m]に対して周波数毎にリミット値Limit_THとその大小を比較する。そして、スペクトルリミット部607は、リミット値Limit_THを超えていない周波数に対しては、式(30)に示すように、切替え部604からの入力信号スペクトルX[m]の値をスペクトルリミット部607の出力Y[m]とする。すなわち、
[m]=X[m] (30)
ただし、m=0,1,2,…,511である。他方、リミット値Limit_THを超えている周波数に対しては、式(31)に示すように、リミット値Limit_THをスペクトルリミット部607の出力Y[m]とする。すなわち、
[m]=Limit_TH (31)
ただし、m=0,1,2,…,511である。スペクトルリミット部607は、このように得られた出力Y[m]を騒音スペクトル推定部608に供給する。
騒音スペクトル推定部608は、スペクトル補正部606からのスペクトルY[m]と、スペクトルリミット部607からのスペクトルY[m]とから、下記式(32)に従い騒音スペクトルS[m]を推定する。すなわち、
S[m]=Y[m]−Y[m] (32)
ただし、m=0,1,2,…,511である。騒音スペクトル推定部608は、このように推定した騒音スペクトルS[m]を騒音低減部609に供給する。また、騒音スペクトル推定部608は、得られた騒音スペクトルS[m]を保持する。
騒音低減部609は、下記式(33)に示すように、フーリエ変換部603から供給される入力信号スペクトルX[m]から騒音スペクトル推定部608から供給される騒音スペクトルS[m]を減算する。すなわち、
NC[m]=X[m]−S[m] (33)
ただし、m=0,1,2,…,511である。このとき、騒音低減後の音質を調整するために、騒音低減部609は、下記式(34)に示すように、騒音スペクトルS[m]に係数γを乗算しても良い。すなわち、
NC[m]=X[m]−S[m]×γ (34)
ただし、m=0,1,2,…,511である。
騒音低減部609は、このように得られた騒音低減結果NC[m]を、ナイキスト周波数を中心として折り返してNC[n](n=0,1,2,...,1023)に拡張し、逆フーリエ変換部610に供給する。
逆フーリエ変換部610は、騒音低減部609から供給されるNC[n]に対して、下記式(35)に従い、離散逆フーリエ変換とオーバーラップ処理を行う。すなわち、
Figure 2016051091
ただし、n=0,1,2,…,N−1である。離散逆フーリエ変換で得られた演算結果に対して時間順に並び替えたものを、Z[n]と表記している。
逆フーリエ変換部610は、時間順に並び替えた結果の後半部分Z[p](p=512,513,514,...,1023)を、オーバーラップ処理用に保持する。前半部分Z[m]に対しては、逆フーリエ変換部610は、前のフレームのオーバーラップ処理用のデータZ[p]を用いて、下記式(36)に示すオーバーラップ処理を行う。すなわち、
OUT[m]=Z[m]+Z[p] (36)
ただし、m=0,1,2,...,511、p=512,513,...,1023である。
逆フーリエ変換部610は、このように得られた騒音低減結果OUT[m]を信号出力制御部611に供給する。
信号出力制御部611は、逆フーリエ変換部610から供給された騒音低減結果OUT[m]をメモリ508の音声データ領域にメモリバス509を通して書き出す。
入力音声にズーム騒音が続けて存在するフレームx[n](t=2,3,4,...)に対する騒音低減動作を説明する。
信号入力制御部601は、タイミング検出部602から供給された騒音判定信号がズーム騒音の存在を示す場合、分割した音声データx[n]をフーリエ変換部603へ供給する。
フーリエ変換部603は、信号入力制御部601から供給される1024点の音声データx[n]に対してハニング窓w[n]をかけ、離散フーリエ変換を行う。このとき、離散フーリエ変換点数をN、離散フーリエ変換結果をX[n]とすると、ハニング窓w[n]をかけ、離散フーリエ変換を行う式は式(37)となる。すなわち、
Figure 2016051091
ただし、n=0,1,2,…,N−1である。離散フーリエ変換し、周波数順に並べ替えた演算結果をX[n]とすると、フーリエ変換部603は、前半の512点までの演算結果X[m](m=0,1,2,...,511)を騒音低減部609に供給する。
騒音スペクトル推定部608は、タイミング検出部602から供給される騒音判定信号に従い、ズーム騒音が存在すると最初に判定されたフレームへの動作で推定し保持した騒音スペクトルS[m]を騒音低減部609に供給する。
騒音低減部609は、下記式(38)に示すように、フーリエ変換部603から供給される入力信号スペクトルX[m]から、騒音スペクトル推定部608から供給される騒音スペクトルS[m]を減算する。すなわち、
NC[m]=X[m]−S[m] (38)
ただし、m=0,1,2,...,511である。このとき、騒音低減後の音質を調整するために、騒音低減部609は、下記式(39)に示すように、騒音スペクトルS[m]に係数γを乗算しても良い。すなわち、
NC[m]=X[m]−S[m]×γ (39)
ただし、m=0,1,2,...,511である。
騒音低減部609は、このように得られた騒音低減結果NC[m]を、ナイキスト周波数を中心として折り返してNC[n](n=0,1,2,...,1023)に拡張し、逆フーリエ変換部610に供給する。
逆フーリエ変換部610は、騒音低減部609から供給されたNC[n]に対して、下記式(40)に従い、離散逆フーリエ変換とオーバーラップ処理を行う。すなわち、
Figure 2016051091
ただし、n=0,1,2,…,N−1である。散逆フーリエ変換で得られた演算結果に対して時間順に並び替えたものを、Z[n]と表記している。
逆フーリエ変換部610は、時間順に並び替えた結果の後半部分Z[p](p=512,513,514,...,1023)を、次フレームのオーバーラップ処理用に保持する。前半部分Z[m]に対しては、逆フーリエ変換部610は、前のフレームのオーバーラップ処理用のデータZt−1[p]を用いて、下記式(41)に示すオーバーラップ処理を行う。すなわち、
OUT[m]=Z[m]+Zt−1[p] (41)
ただし、m=0,1,2,...,511、p=512,513,...,1023である。
逆フーリエ変換部610は、このように得られた騒音低減結果OUT[m]を信号出力制御部611に供給する。
信号出力制御部611は、逆フーリエ変換部610から供給された騒音低減結果OUTt[m]をメモリ508の音声データ領域にメモリバス509を通して書き出す。
本実施例では、ズーム非動作の時に取り込まれた音声に対して、信号入力制御部601で読み出した後、信号出力制御部611で結合してメモリ508の音声データ領域に音声データとして書き戻したが、本発明はこれに限定されない。例えば、ズームの非動作時に取り込まれた音声データを、騒音低減処理部505がメモリ508から読み出さないようにしてもよい。また、騒音低減処理部505において、フーリエ変換部603による離散フーリエ変換と逆フーリエ変換部610による離散逆フーリエ変換の代わりに、元の音声データが劣化無く書き戻されるような処理を採用してもよい。
入力音声にズーム騒音以外の周囲音が入った場合にズーム騒音の無いフレームとズーム騒音のあるフレームのスペクトルを補正し騒音スペクトルの推定精度を上げることで、騒音低減後の音声を改善できる。

Claims (6)

  1. 入力音声信号をフーリエ変換するフーリエ変換手段と、
    騒音の無いフレームか騒音中のフレームかを検出するタイミング検出手段と、
    前記騒音の無いフレームの音量が所定値以上か否かを判定する音量判定手段と、
    前記音量判定手段によって前記所定値以上の音量が判定された場合に、前記フーリエ変換手段から出力される、前記騒音の無いフレームのスペクトルをフロアレベルに補正するスペクトル補正手段と、
    前記フーリエ変換手段から出力される、前記騒音中のフレームのスペクトルに対してリミットをかけるスペクトルリミット手段と、
    前記スペクトル補正手段から得られる前記騒音の無いフレームのスペクトルと、前記スペクトルリミット手段より得られる前記騒音中のフレームのスペクトルから騒音スペクトルを推定する騒音スペクトル推定手段と、
    前記騒音スペクトル推定手段により推定された前記騒音スペクトルをフーリエ変換手段から出力されるスペクトルから減算することにより騒音の低減を行う騒音低減手段と、
    前記騒音低減手段から出力される音声スペクトルを逆フーリエ変換する逆フーリエ変換手段
    とを有することを特徴とする音声処理装置。
  2. 前記音量判定手段は、前記騒音の無いフレームのスペクトルに対し、周波数帯で重み付けを行って、音量が所定値を超えているか否かを判定することを特徴とする請求項1に記載の音声処理装置。
  3. 更に、前記騒音の無いフレームのスペクトルと、前記騒音中のフレームのスペクトルとから補正の要否を示す補正判定信号を出力する補正判定演算手段を有し、
    前記スペクトル補正手段は、前記音量判定手段及び前記補正判定演算手段の判定結果に従い補正の要否を制御され、
    前記スペクトルリミット手段は、前記音量判定手段及び前記補正判定演算手段の判定結果に従い補正の要否を制御される
    ことを特徴とする請求項1又は2に記載の音声処理装置。
  4. 更に、前記タイミング検出手段の出力に従い、前記フーリエ変換手段から出力されるスペクトルの内、前記騒音の無いフレームのスペクトルを前記スペクトル補正手段に供給し、前記騒音中のフレームのスペクトルを前記スペクトルリミット手段に供給する切替え手段を有することを特徴とする請求項1から3の何れか1項に記載の音声処理装置。
  5. 撮像装置に組み込まれていることを特徴とする請求項1から4の何れか1項に記載の音声処理装置。
  6. 入力音声信号をフーリエ変換するフーリエ変換ステップと、
    前記入力音声信号を分割する各フレームにおいて騒音の無いフレームか騒音中のフレームかを検出するタイミング検出ステップと、
    前記騒音の無いフレームの音量が所定値以上か否かを判定する音量判定ステップと、
    前記音量判定ステップにおいて前記所定値以上の音量が判定された場合に、前記フーリエ変換ステップで得られる、前記騒音の無いフレームのスペクトルをフロアレベルに補正するスペクトル補正ステップと
    前記フーリエ変換ステップで得られる、前記騒音中のフレームのスペクトルに対してリミットをかけるスペクトルリミットステップと、
    前記スペクトル補正ステップで処理された前記騒音の無いフレームのスペクトルと、前記スペクトルリミットで処理された前記騒音中のフレームのスペクトルから騒音スペクトルを推定する騒音スペクトル推定ステップと、
    前記騒音スペクトルをフーリエ変換ステップで得られるスペクトルから減算することにより騒音の低減を行う騒音低減ステップと、
    前記騒音低減ステップで騒音低減された音声スペクトルを逆フーリエ変換する逆フーリエ変換ステップ
    とを有することを特徴とする音声処理方法。
JP2014176736A 2014-09-01 2014-09-01 音声処理装置及び方法 Pending JP2016051091A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014176736A JP2016051091A (ja) 2014-09-01 2014-09-01 音声処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014176736A JP2016051091A (ja) 2014-09-01 2014-09-01 音声処理装置及び方法

Publications (1)

Publication Number Publication Date
JP2016051091A true JP2016051091A (ja) 2016-04-11

Family

ID=55658627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014176736A Pending JP2016051091A (ja) 2014-09-01 2014-09-01 音声処理装置及び方法

Country Status (1)

Country Link
JP (1) JP2016051091A (ja)

Similar Documents

Publication Publication Date Title
US7065487B2 (en) Speech recognition method, program and apparatus using multiple acoustic models
JP5092974B2 (ja) 伝達特性推定装置、雑音抑圧装置、伝達特性推定方法及びコンピュータプログラム
US8391471B2 (en) Echo suppressing apparatus, echo suppressing system, echo suppressing method and recording medium
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
CN107409256B (zh) 声场校正装置、声场校正方法和计算机可读介质
JP6300464B2 (ja) 音声処理装置
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
CN113170260B (zh) 音频处理方法、装置、存储介质及电子设备
EP2579255B1 (en) Audio signal processing
US20150271439A1 (en) Signal processing device, imaging device, and program
JPWO2012070670A1 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP4952769B2 (ja) 撮像装置
US9734840B2 (en) Signal processing device, imaging apparatus, and signal-processing program
JP2016051091A (ja) 音声処理装置及び方法
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP2022038611A5 (ja)
CN111627412B (zh) 音频变速方法、装置、电子设备和计算机可读存储介质
JP2012185445A (ja) 信号処理装置、撮像装置、及び、プログラム
CN110265048B (zh) 回声消除方法、装置、设备及存储介质
JP2014026032A (ja) 信号処理装置、撮像装置、及び、プログラム
JP6381367B2 (ja) 音声処理装置、音声処理方法、及び、プログラム
JP2013178458A (ja) 信号処理装置及び信号処理プログラム
JP5473786B2 (ja) 音声信号処理装置、及びその制御方法
JP2023077339A (ja) 撮影装置、制御方法、およびプログラム
JP2018066963A (ja) 音声処理装置