JP3963850B2 - 音声区間検出装置 - Google Patents
音声区間検出装置 Download PDFInfo
- Publication number
- JP3963850B2 JP3963850B2 JP2003064643A JP2003064643A JP3963850B2 JP 3963850 B2 JP3963850 B2 JP 3963850B2 JP 2003064643 A JP2003064643 A JP 2003064643A JP 2003064643 A JP2003064643 A JP 2003064643A JP 3963850 B2 JP3963850 B2 JP 3963850B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency distribution
- flatness
- noise
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
Description
【発明の属する技術分野】
本発明は、音声区間検出装置に関し、特に音声区間または雑音区間を検出する音声区間検出装置に関する。
【0002】
【従来の技術】
近年、携帯電話機をはじめとする移動体通信の加入者数は、爆発的に増加している。また、携帯電話機の高機能化が進んでおり、モバイル分野におけるマルチメディアサービスへの発展が期待されている。
【0003】
移動体通信などの音声処理の技術として、VOX(Voice Operated Transmitter)、ノイズキャンセラがある。VOXとは、音声の有無に応じて送信信号出力のON/OFFを行う技術のことで(例えば、音声を検出したときのみ信号を発信し、装置周辺が無音の時は信号を発信しないなど)、送信部の省電力化を図ることができる。また、ノイズキャンセラは、装置周辺の雑音を抑圧して、通話中に音声を聴こえやすくする技術のことである。
【0004】
これらVOXやノイズキャンセラでは、通話中に音声が存在する区間(音声区間)または雑音区間を検出する必要がある。音声区間の検出としては、例えば、入力信号の電力を算出し、電力の大きい区間を音声区間として扱うこともあるが、単純な電力の比較だけでは誤検出が多くなる。
【0005】
この対策として、従来、入力音声を一定の時間毎に、電力と周波数特性形状とを抽出し、前フレームの電力及び周波数特性形状から現フレームへの変化量を計測し、判定部でしきい値と比較することで音声の有無を検出する技術が提案されている(例えば、特許文献1)。
【0006】
また、入力信号の極性反転回数(零交差数)を計測し、このピッチ情報を判定部でしきい値と比較することで音声の有無を検出する技術が提案されている(例えば、特許文献2)。
【0007】
【特許文献1】
特開昭60−200300号公報(第3頁−第6頁,第5図)
【特許文献2】
特開平1−286643号公報(第3頁−第4頁,第1図)
【0008】
【発明が解決しようとする課題】
しかし、上記のような従来技術(特開昭60−200300号公報)では、環境騒音が大きい場合や音声が小さい場合などには、雑音区間と音声区間との音声特徴量の差が小さくなり、音声区間と無音区間を精度よく判定することは困難であった。また、従来技術(特開平1−286643号公報)では、入力信号に低周波の雑音が含まれる場合、極性反転回数は低周波の雑音の電力に応じて変化してしまうので、音声区間と無音区間を精度よく判定することは困難であった。
【0009】
本発明はこのような点に鑑みてなされたものであり、音声区間を高精度に検出して、通話品質の向上を図った音声区間検出装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明では上記課題を解決するために、図1に示すような、音声区間の検出を行う音声区間検出装置10において、入力信号の周波数分布を算出する周波数分布算出部11と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部12と、周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声/雑音判定部13と、を有し、平坦さ算出部12は、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする、ことを特徴とする音声区間検出装置10が提供される。
【0011】
ここで、周波数分布算出部11は、入力信号の周波数分布を算出する。平坦さ算出部12は、周波数分布から周波数分布の平坦さを算出する。音声/雑音判定部13は、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する。また、平坦さ算出部12は、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする。
【0012】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。図1は音声区間検出装置の原理図である。音声区間検出装置10は、信号中の音声が存在する区間である音声区間を検出する装置である。
【0013】
周波数分布算出部11は、入力信号(音声、雑音を含む)から電力の周波数分布を算出する。平坦さ算出部12は、電力の周波数分布から周波数分布の平坦さ(平坦度合い)を算出する。なお、周波数分布とは、信号の周波数軸上における電力の分布状態のことを指す。
【0014】
音声/雑音判定部13は、周波数分布の平坦さと、しきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する。ここで、周波数分布の平坦さが強い(周波数分布が平坦に近い)場合は、その部分は雑音とみなすことができ、周波数分布の平坦さが弱い(周波数分布が平坦でない)場合は、その部分は音声とみなすことができる。
【0015】
音声区間検出装置10では、入力信号の電力の周波数分布の平坦さにもとづき、測定区間が音声であるか雑音であるかを判定することで、高精度の音声区間の検出を行うものである。
【0016】
次に周波数分布算出部11について説明する。周波数分布算出部11は、入力信号の各フレームに対して、周波数帯域毎の電力(電力の周波数分布)を求める。この場合、フレーム毎に周波数分析を行う方法と、バンドパスフィルタ(帯域通過フィルタ)を利用して1フレームを帯域分割し、分割された帯域毎の信号から電力を算出する方法とがある(どちらを用いてもよい)。まず、周波数分析を行う方法について説明する。
【0017】
周波数分析によって、電力の周波数分布を算出する方法としては、高速フーリエ変換(FFT:Fast Fourier Transform)やウェーブレット(Wavelet)変換を用いることができる。以下、FFTの場合について説明する。
【0018】
時系列の信号にフーリエ変換を施すと、周波数領域に変換されて、該当周波数に対するスペクトルが求まる。ここで、時系列の入力データ(1フレーム)xをFFTして、周波数空間上のデータXに変換したとする。kを周波数、Nを全周波数帯域数とすると、X={X[k]|k=1、2、…、N}と表せる。また、周波数kに対応する電力をP[k]とする。
【0019】
図2は電力P[k]を示す図である。FFT後のX[k]は、複素数値を含む関数であるから、リアルパート(実数領域)とイマジナリパート(複素数領域)からなり、X[k]は実軸Reと虚軸Im上の複素平面上にプロットすることができる。このとき、X[k]の原点からの距離の2乗が、X[k]の電力P[k]となる。したがって、周波数kに対応する電力P[k]は、次式から求められる。
【0020】
【数1】
【0021】
次にバンドパスフィルタにより入力信号を帯域分割して電力を算出する場合について説明する。図3は帯域分割による電力算出の概念を示す図である。入力信号の1フレームに対し、複数のバンドパスフィルタで複数の周波数帯域に分割する。例えば、周波数帯域をN分割するものとして(図中のiは帯域分割番号であり、1≦i≦N)、周波数帯域k1〜kNのN個のバンドパスフィルタでフィルタリングを施し、フィルタ出力としてそれぞれの信号xbpf[i]を取り出す。そして、分割後の各周波数帯域の電力P[k]を求めることで、電力の周波数分布を取得する。
【0022】
バンドパスフィルタには、FIR(Finite Impulse Response)フィルタを用いる。ここで、入力信号をx[n]、各帯域に分割するバンドパスフィルタ係数(フィルタの特性を決める係数)をbpf[i][j]とすると、帯域分割後の信号xbpf[i][n]は次式で表せる。なお、iは帯域分割番号、jはサンプリング番号であり、nは時間に対応する添え字である。
【0023】
【数2】
【0024】
図4は式(2)の内容を説明するための図である。図に示す波形に対し、信号x[n]のサンプリング番号jが0のときの信号の値は、x[n−0]=0である。また、j=1のときの信号の値はx[n−1]=−1であり、j=2のときの信号の値はx[n−2]=1、…である。
【0025】
さらに、バンドパスフィルタ係数bpf[i][j]に対し、j=0のときbpf[i][0]=1、j=1のときbpf[i][1]=1、j=2のときbpf[i][2]=0、…とする。
【0026】
FIRフィルタの出力xbpf[i][n]は、サンプリングポイントの信号値にフィルタ係数を乗算した値の総和であるから、一般式は式(2)となり、ここの例の場合では、図中に示すような計算が行われることになる。
【0027】
なお、バンドパスフィルタの周波数特性を決める場合には、以下の式(3)で求めることができる。
【0028】
【数3】
【0029】
ただし、式(3)中のreal[i][k]とimag[i][k]は、式(4a)、(4b)で示される。
【0030】
【数4】
【0031】
図5はバンドパスフィルタの周波数特性の例を示す図である。縦軸は利得、横軸は周波数であり、実線が1つのバンドパスフィルタの特性を示している。バンドパスフィルタはi個用いるので、点線で示すバンドパスフィルタと合わせてフィルタリングを行うことになる。
【0032】
一方、バンドパスフィルタによって取り出した帯域毎の電力P[k]は、iをkに置き換えたxbpf[k][n](k=1、2、…、N:Nは全周波数帯域数)の自乗和であるから式(5)で求めることができる。
【0033】
【数5】
【0034】
以上、周波数分析による算出方法とバンドパスフィルタを利用した算出方法とを説明した。いずれかの方法で求めた電力の周波数分布の例を図6に示す。
次に平坦さ算出部12について説明する。平坦さ算出部12は、周波数分布算出部11で求めた電力の周波数分布から周波数分布の平坦さを算出する。平坦さの算出には以降に示す〔1〕〜〔11〕の求め方があり、いずれを選んでもよい。また、平坦さを算出するための帯域は、1フレーム中のすべての帯域を対象にしても、または1フレーム中の特定箇所の帯域を対象にしてもかまわない。
〔1〕周波数分布の平均を求め、周波数分布(周波数分布の電力)と平均値との差分の総和を、周波数分布の平坦さとする。図7は周波数分布と平均値との差分の総和から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1を示している。また、周波数分布R1の電力の平均値をPmとする。なお、横軸上のLは周波数帯域の下限値、Mは周波数帯域の上限値である。
【0035】
周波数分布と平均値との差分をd[k]とする。例えば、周波数k1のときの差分d[k1]は|P[k1]−Pm|である。同様に周波数k2のときの差分d[k2]は|P[k2]−Pm|であり、周波数k3のときの差分d[k3]は|P[k3]−Pm|である。したがって、LからMの間の信号X1に対する、周波数分布R1と平均値Pmとの差分の総和は、図に示す斜線部の面積とほぼ等しい(離散値による総和なので)ことがわかる。そして、この面積を信号X1の平坦さFLT1とする。
【0036】
上記のことを式で表すと平均値Pmは、以下の式(6)で求まる。Lは周波数帯域の下限値、Mは周波数帯域の上限値、aveは平均算出を示す。また、周波数分布の平坦さを求める式は式(7)となる。
【0037】
【数6】
【0038】
【数7】
【0039】
このような周波数分布の平坦さを計算することで、音声区間と雑音区間との判別を行うことができる。以下、周波数分布の平坦さ及び音声/雑音区間の関係について説明する。一般に音声はスペクトル包絡やピッチ構造を有し、周波数分布が一様でないことが知られている。
【0040】
スペクトル包絡とは、声の音色を示すもので、声道(声帯から口までの器官)の形状により生じる性質である。声道の形状に応じて音色が変わるのは、形状に対応した伝達特性が変わることで、声道での共鳴の仕方が変わり、周波数的にエネルギーの強弱が生じるからである。
【0041】
また、ピッチ構造とは、声の高さを示すもので、声帯の振動周期により生じる性質である。ピッチ構造が時間的に変化することでアクセントやイントネーションなどの声の性質を付与することになる。一方、環境雑音は、白色雑音やピンク雑音などで近似されることが多いように、比較的周波数分布が一様であることが知られている。
【0042】
したがって、ある区間における周波数分布を測定したとき、音声が存在する区間の周波数分布は平坦になりにくく、雑音が存在する区間の周波数分布は平坦になりやすいといえる。本発明では、音声と雑音に対するこれらの特徴を利用して、音声区間の検出を行うものである。
【0043】
図8は信号の周波数分布を示す図である。横軸は周波数k、縦軸は電力P[k]である。信号X2の電力の周波数分布R2を示している。また、周波数分布R2の電力の平均値をPm2とする。信号X2の周波数帯域毎の電力P[k]は、平均値Pm2の近傍に集中して存在している(信号X2は雑音とみなせる)。そして、信号X2の周波数分布における周波数分布と平均値の差分の総和は、図中の斜線部の面積となり、この面積を信号X2の平坦さFLT2とする。
【0044】
ここで図7で上述した信号X1の平坦さFLT1と、図8の信号X2の平坦さFLT2とを比較すれば、あきらかにFLT1>FLT2である。したがって、この場合、FLT1を求めた際の信号X1は音声であり、FLT2を求めた際の信号X2は雑音として判別することができる。
【0045】
このように、算出した平坦さFLTの値(ここの例では面積)が大きいほど平坦さが弱く(周波数分布が平坦でない)、平坦さFLTの値が小さいほど平坦さが強い(周波数分布が平坦である)ので、周波数分布の平坦さを求めて比較することで、音声区間の検出を行うことが可能になる(なお、実際には、周波数分布の平坦さと、あらかじめ設定してあるしきい値とを音声/雑音判定部13で比較することで音声区間を判別することになる)。
〔2〕周波数分布の平均を求め、周波数分布と平均値との差分の自乗和を、周波数分布の平坦さとする。図9は周波数分布と平均値との差分の自乗和から、平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1を示している。周波数分布と平均値との差分の自乗和を求めるということは、平均値から周波数分布へ向かうベクトルの長さを求めることである。
【0046】
例えば、周波数k1のとき、平均値m1、周波数分布上の電力P[m1]とし、周波数k2のとき、平均値m2(=m1)、周波数分布上の電力P[m2]とする。そして、m1をx軸、m2をy軸方向にとって、(m1、m2)と(P[m1]、P[m2])をプロットすると、図のようなベクトルvとなり、ベクトルvの距離は((P[m1]−m1)2+(P[m2]−m2)2)1/2となる。これらのことを全周波数帯域数のNまで繰り返してベクトルの距離の総和を求め、これを平坦さFLTとする。上記のことを式で表すと以下の式(8)となる。なお、式(8)ではルートは除いてある(大小関係がわかればよいので)。また、このように算出した平坦さは、音声区間の平坦さをFLTv、雑音区間の平坦さをFLTnとすればFLTv>FLTnである。
【0047】
【数8】
【0048】
〔3〕周波数分布の平均を求め、周波数分布と平均値との差分の最大値を、周波数分布の平坦さとする。図10は周波数分布と平均値との差分の最大値から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1及び信号X2の電力の周波数分布R2を示している。
【0049】
図の場合、周波数分布R1では、信号X1の周波数分布R1と平均値との差分の最大値は、周波数kaのときMAXaである。また、周波数分布R2では、信号X2の周波数分布R2と平均値との差分の最大値は、周波数kbのときMAXbである。そして、これらMAXa、MAXbを周波数分布の平坦さFLTとする。上記のことを式で表すと以下の式(9)となる。なお、このように算出した平坦さは、音声区間の平坦さをFLTv、雑音区間の平坦さをFLTnとすればFLTv>FLTnである。
【0050】
【数9】
【0051】
〔4〕周波数分布の最大を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする。図11は周波数分布と最大値との差分の総和から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1及び信号X2の電力の周波数分布R2を示している。また、PMAX1、PMAX2は、それぞれの最大値である。
【0052】
上述の〔1〕〜〔3〕までは周波数分布の平均値を基準にして平坦さを求めたが、〔4〕は周波数分布の最大値を基準にして平坦さを求めるものである(以下の〔5〕、〔6〕も同様)。
【0053】
周波数分布と最大値との差分の総和は、図に示す斜線部の面積であり、この面積を平坦さFLTとする。電力の周波数分布の最大値PMAXは以下の式(10)で求め、周波数分布と最大値との差分の総和である平坦さFLTは以下の式(11)で求まる。なお、このように算出した平坦さは、音声区間の平坦さをFLTv、雑音区間の平坦さをFLTnとすればFLTv>FLTnである。
【0054】
【数10】
【0055】
【数11】
【0056】
〔5〕周波数分布の最大を求め、周波数分布と最大値との差分の自乗和を、周波数分布の平坦さとする。〔2〕では周波数分布と平均値との差分の自乗和を、周波数分布の平坦さとしたが、〔5〕では平均値を最大値としたものであり、考え方は〔2〕と同様なので概要説明は省略する。〔5〕によって平坦さを求める際の式は以下の式(12)となる。
【0057】
【数12】
【0058】
〔6〕周波数分布の最大を求め、周波数分布と周波数分布の最大値との差分の最大値を、周波数分布の平坦さとする。〔3〕では、周波数分布と平均値との差分の最大値を、周波数分布の平坦さとしたが、〔6〕では平均値を最大値としたものであり、考え方は〔3〕と同様なので概要説明は省略する。〔6〕によって平坦さを求める際の式は以下の式(13)となる。
【0059】
【数13】
【0060】
〔7〕周波数分布の隣接帯域間の差分の総和を、周波数分布の平坦さとする。図12は周波数分布の隣接帯域間の差分の総和から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1を示している。
【0061】
例えば、周波数k1と周波数k2の電力差分はd1、周波数k2と周波数k3の電力差分はd2、周波数k3と周波数k4の電力差分はd3というように、隣接帯域間の差分を求め、この差分の総和を平坦さFLTとする。このことを式で表すと以下の式(14)となる。
【0062】
なお、このように算出した平坦さは、音声区間の平坦さをFLTv、雑音区間の平坦さをFLTnとすればFLTv>FLTnである(音声は周波数の電力変動が大きく、雑音は周波数の電力変動が小さいので、〔7〕により算出した平坦さで音声/雑音の判別を行うことができる)。
【0063】
【数14】
【0064】
〔8〕周波数分布の隣接帯域間の差分の最大値を、周波数分布の平坦さとする。図13は周波数分布の隣接帯域間の差分の最大値から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1を示している。
【0065】
例えば、周波数k5と周波数k6の差分dmaxが、全周波数帯域における最大値であり、これを平坦さFLTとする。このことを式で表すと以下の式(15)となる。なお、このように算出した平坦さは、音声区間の平坦さをFLTv、雑音区間の平坦さをFLTnとすればFLTv>FLTnである。
【0066】
【数15】
【0067】
〔9〕周波数分布の平坦さを周波数分布の平均で除算する、またはフレームの平均電力で除算して、除算(正規化)した結果を平坦さとする。〔9〕では、上述の〔1〕〜〔8〕で求めた平坦さを、さらに周波数分布の平均値またはフレームの平均電力で除算して、除算した値を平坦さとするものである。
【0068】
音声には、大きい音(声)、小さい音があるので、例えば、〔8〕のような隣接帯域間の差分の最大値を周波数分布の平坦さとすると、大きい音声の隣接帯域間の差分の最大値の方が、小さい音声のそれよりも大きくなる。平坦さの算出と全体の音量とは関係ないので、平坦さを算出する際に音量に依存しないようにするには、〔1〕〜〔8〕で求めた平坦さを、その平坦さを求めたときの音の大きさ(周波数分布の平均値またはフレームの平均電力)で除算して正規化すれば、音の大きさによらない処理ができ、さらに高精度に平坦さを算出することが可能になる。
〔10〕周波数分布から平均値を求め、この平均値に定数を乗算または加算した値をしきい値とし、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとする。図14は周波数分布の平均値から求めたしきい値を用いて平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数k、縦軸は電力P[k]であり、信号X1の電力の周波数分布R1と信号X2の周波数分布R2を示している。
【0069】
周波数分布R1の平均値をPm1とし、電力Pm1に定数を乗算または加算して生成したしきい値をth1とする。また、周波数分布R2の平均値をPm2とし、電力Pm2に定数を乗算または加算して生成したしきい値をth2とする。
【0070】
周波数分布R1に対し、しきい値th1が図の位置にあるとする。この場合、しきい値th1と周波数帯域の電力との比較を行い、電力がしきい値th1を上回る帯域数を数え、この個数を信号X1の周波数分布R1の平坦さFLT1とする。
【0071】
また、周波数分布R2に対し、しきい値th2が図の位置にあるとする。この場合、しきい値th2と周波数帯域の電力との比較を行い、電力がしきい値th2を上回る帯域数を数え、この個数を信号X2の周波数分布R2の平坦さFLT2とする。
【0072】
図からわかるように、FLT1<FLT2である。すなわち、しきい値を上回る帯域数が多いほど周波数分布の平坦さは強く、その信号は雑音とみなすことができる(〔1〕〜〔9〕の場合は、音声区間の平坦さをFLTv、雑音区間の平坦さをFLTnとすればFLTv>FLTnであったが、〔10〕の場合はFLTv<FLTnとなることに注意)。
【0073】
これらのことを式で表すと以下の式(16)で平坦さが求まる。式中のcountとは、括弧内の条件を満たした事象を数える手段を表す。また、しきい値を求める式は式(17a)、(17b)である。なお、COEFFは乗算用定数、CONSTは加算用定数である。
【0074】
【数16】
【0075】
【数17】
【0076】
〔11〕周波数分布から最大値を求め、この最大値に定数を乗算または加算した値をしきい値とし、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとする。〔10〕では周波数分布から平均値を求め、この平均値からしきい値を生成したが、〔11〕では周波数分布からを最大値を求め、この最大値からしきい値を生成して、しきい値を超える帯域数を周波数分布の平坦さとするものであり、考え方は〔10〕と同様なので概要説明は省略する。〔11〕によって平坦さを求める際の式は以下の式(18)となり、しきい値の算出式は式(19a)、(19b)となる。
【0077】
【数18】
【0078】
【数19】
【0079】
次に音声/雑音判定部13について説明する。音声/雑音判定部13では、平坦さ算出部12によって上述の〔1〕〜〔11〕のいずれかから求めた周波数分布の平坦さに対し、あらかじめ用意しておいたしきい値との比較を行うことで、その区間における信号が音声であるか雑音であるかを判定し、判定に応じたフラグを出力する。
【0080】
図15は音声区間、雑音区間の判定処理例を示す図である。縦軸は電力、横軸はフレーム(時間)である。音声/雑音判定部13は、しきい値THによって、図に示すように音声区間、雑音区間を判別する。
【0081】
次に音声区間検出装置を適用した具体的な装置例について説明する。図16はVOX装置の構成を示す図である。VOX装置20は、区間毎に入力信号を分析し、音声の有無を判定し、判定結果に応じて送信出力のON/OFFを行うことで送信部の省電力化を図る装置である。なお、この装置では電力の周波数分布を求めるためにFFTを用い、式(7)で周波数分布の平坦さを求め、かつ正規化を行っている例を示す。
【0082】
VOX装置20は、マイク21、A/D部22、音声区間検出部23(図1の音声区間検出装置10に該当)、エンコーダ24、送信部25から構成される。音声区間検出部23は、FFT部23a、電力スペクトル算出部23b、平均値算出部23c、差分算出部23d、差分総和算出部23e、正規化部23f、音声/雑音判定部23gから構成される。なお、FFT部23a、電力スペクトル算出部23bは、図1の周波数分布算出部11に該当し、平均値算出部23c、差分算出部23d、差分総和算出部23e、正規化部23fは、図1の平坦さ算出部12に該当し、音声/雑音判定部23gは、図1の音声/雑音判定部13に該当する。
〔S1〕マイク21から入力された音声がA/D部22にてディジタル信号に変換され、入力が得られる。
〔S2〕FFT部23aは、FFTを用いて、一定時間(フレーム)毎に入力信号を周波数分析する。
〔S3〕電力スペクトル算出部23bは、各フレーム毎に得られた入力信号の周波数分析結果から電力を求めることで電力スペクトル(周波数分布)を得る。
〔S4〕平均値算出部23cは、電力スペクトルの平均を算出する(式(6)により)。
〔S5〕差分算出部23dは、電力スペクトルから電力スペクトルの平均の差分を算出し、差分総和算出部23eは、差分の総和を算出して平坦さを求める(式(7)により)。
〔S6〕正規化部23fは、平坦さを電力スペクトルの平均で除算して正規化する。
〔S7〕音声/雑音判定部23gは、各フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームが音声であるか雑音であるかを判定し、判定結果(フラグ)を出力する。例えば、受信した平坦さがしきい値以上では音声フラグを、しきい値以下では雑音フラグを出力する。
〔S8〕エンコーダ24は、入力信号に対して音声符号化を行い、符号データを出力する。
〔S9〕送信部25は、エンコーダ24より得られる符号データと、音声/雑音判定部23gより得られる判定フラグを受け取り、音声フラグの場合、判定フラグと符号データを送信し、雑音フラグの場合、判定フラグのみを送信する。
【0083】
一般に、携帯電話機では、信号を送信するために大きな電力を消費するが、上記のVOX装置20を用いることで、雑音判定時には符号データを送信しないので、電力消費を抑えることができる。
【0084】
また、VOX装置20を用いることで、高精度の音声/雑音の判定を行うため、音声が含まれるフレームで雑音のフレームであると誤判定して、そのフレームの音声情報を送信しないなどといった現象を起すことがない。これにより、音切れの原因をなくすことができ、通話品質(音質)の向上を図ることが可能になる。
【0085】
次にノイズキャンセラ装置について説明する。図17はノイズキャンセラ装置の構成を示す図である。ノイズキャンセラとは、入力信号から雑音成分を抑圧することで、音声の明瞭度の向上を図る機能である。この機能は、雑音学習と雑音抑圧(n−1ステップ目で検出した雑音成分を用いて、nステップ目の信号に含まれる雑音を除去すること)の切り換えに利用される。なお、この装置では電力の周波数分布を求めるためにバンドパスフィルタによる帯域分割を行い、式(12)で周波数分布の平坦さを求める場合の例を示す。
【0086】
ノイズキャンセラ装置30は、信号受信部31、デコーダ32、雑音区間検出部33(図1の音声区間検出装置10に該当)、(雑音)抑圧量算出部34、雑音抑圧部35、D/A部36、スピーカ37から構成される。
【0087】
また、雑音区間検出部33は、帯域分割部33a、狭帯域別フレームパワー算出部33b、最大値算出部33c、差分算出部33d、自乗和算出部33e、音声/雑音判定部33fから構成される。雑音抑圧量算出部34は、狭帯域雑音パワー推定部34a、抑圧量算出部34bから構成される。雑音抑圧部35は、抑圧部35a−1〜35a−n、加算器35bから構成される。
【0088】
なお、帯域分割部33a、狭帯域別フレームパワー算出部33bは、図1の周波数分布算出部11に該当し、最大値算出部33c、差分算出部33d、自乗和算出部33eは、図1の平坦さ算出部12に該当し、音声/雑音判定部33fは、図1の音声/雑音判定部13に該当する。
〔S11〕デコーダ32は、信号受信部31から得られる符号化データを復号し、雑音区間検出部33へ送信する。
〔S12〕帯域分割部33aは、フレーム毎に各帯域に分割し、狭帯域別フレームパワー算出部33bは、帯域毎のフレームパワー(周波数分布)を算出する。
〔S13〕最大値算出部33cは、フレームパワーの最大値を算出する(式(10)により)。差分算出部33dは、フレームパワーからフレームパワーの最大値の差分の絶対値を求め、自乗和算出部33eは、絶対値の自乗和を求め平坦さとして出力する(式(12)により)。
〔S14〕音声/雑音判定部33fは、フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームが音声であるか雑音であるかを判定し、判定フラグを出力する。
〔S15〕狭帯域雑音パワー推定部34aは、判定フラグが雑音の場合にのみ、各帯域の雑音のパワーを推定し、狭帯域雑音パワーを得る。推定の方法として、例えば、過去に雑音と判定されたフレームでの帯域毎のフレームパワーを平均する方法などがある。
〔S16〕抑圧量算出部34bは、狭帯域雑音パワー推定部34aで得られた狭帯域雑音パワーと、狭帯域別フレームパワー算出部33bからの各帯域のフレームパワーとを比較し、帯域毎の抑圧量を算出する。例えば、各帯域において、狭帯域雑音パワーよりフレームパワーの方が小さかった場合には、抑圧量を15dBとし、それ以外の場合には0dB(抑圧なし)とする。
〔S17〕抑圧部35a−1〜35a−nは、帯域毎に、帯域分割部33aで得られた入力の帯域分割信号に抑圧量算出部34bで得られた抑圧量をかけることで、入力信号のうち、雑音の成分のみを抑圧する。
〔S18〕加算器35bは、帯域毎の雑音抑圧後の信号を足し合わせる。
〔S19〕D/A部36は、加算器35bより得られるディジタル信号をアナログ信号に変換し、スピーカ37は音声を出力する。
【0089】
以上説明したように、ノイズキャンセラ装置30では、高精度の音声/雑音の判定処理を行うので、例えば、音声が含まれるフレームで雑音のフレームであると誤判定して、そのフレームの音声を抑圧してしまうなどといった現象を起すことがない。また、雑音学習の精度を落とすことがないので、雑音抑圧の性能も向上することができ、音声時に抑圧しすぎたり、音切れが発生したり、雑音が残留したりするようなことを防止できるので、通話品質の向上を図ることが可能になる。
【0090】
図18はノイズキャンセラ装置の構成を示す図である。この例のノイズキャンセラ装置40は、電力の周波数分布を求めるためにFFTを使用し、式(15)で周波数分布の平坦さを求めている。
【0091】
ノイズキャンセラ装置40は、信号受信部41、デコーダ42、雑音区間検出部43(図1の音声区間検出装置10に該当)、(雑音)抑圧量算出部44、雑音抑圧部45、D/A部46、スピーカ47から構成される。
【0092】
また、雑音区間検出部43は、FFT部43a、電力スペクトル算出部43b、隣接帯域間差分算出部43c、最大値算出部43d、音声/雑音判定部43eから構成される。雑音抑圧量算出部44は、雑音電力スペクトル推定部44a、抑圧量算出部44bから構成される。雑音抑圧部45は、抑圧部45a、IFFT(Inverse Fast Fourier Transform)部45bから構成される。
【0093】
なお、FFT部43a、電力スペクトル算出部43bは、図1の周波数分布算出部11に該当し、隣接帯域間差分算出部43c、最大値算出部43dは、図1の平坦さ算出部12に該当し、音声/雑音判定部43eは、図1の音声/雑音判定部13に該当する。
〔S21〕デコーダ42は、信号受信部41から得られる符号化データを復号し、雑音区間検出部43へ送信する。
〔S22〕FFT部43aは、FFTを用いてフレーム毎に入力信号を周波数分析する。電力スペクトル算出部43bは、フレーム毎に得られた入力信号の周波数分析結果から電力を求めることで電力スペクトルを求める。
〔S23〕隣接帯域間差分算出部43cは、電力スペクトルから隣接帯域間の差分を求め、最大値算出部43dは、差分の最大値を求め、これを平坦さとして出力する(式(15)により)。
〔S24〕音声/雑音判定部43eは、フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームが音声であるか雑音であるかを判定し、判定フラグを出力する。
〔S25〕雑音電力スペクトル推定部44aは、音声/雑音判定部43eから得られる判定フラグが雑音の場合に、雑音の電力スペクトルの推定を更新する。
〔S26〕抑圧量算出部44bは、雑音の電力スペクトルと該当フレームの電力スペクトルとを比較することで、各帯域の抑圧量を算出する。
〔S27〕抑圧部45aは、FFT部43aで得られた周波数分析された入力信号に、抑圧量算出部44bで得られた抑圧量をかけることで、入力信号のうち、雑音の成分のみを抑圧する。IFFT部45bは、抑圧後のフーリエ変換対に逆フーリエ変換を施す。
〔S28〕D/A部46は、IFFT部45bより得られるディジタル信号をアナログ信号に変換し、スピーカ47は音声を出力する。
【0094】
次にトーン検出装置について説明する。図19はトーン検出装置の構成を示す図である。トーン検出機能とは、トーン信号を検出した場合には、受信信号に加工を加えず、そのまま出力し、トーン信号を検出しなかった場合にのみ、ノイズキャンセラ等の音声信号処理を行うことで、DTMF(DualTone-Multiple Frequency)やFAX信号を透過させるための機能である。なお、この装置では電力の周波数分布を求めるためにFFTを使用し、式(18)で周波数分布の平坦さを求める場合の例を示す。
【0095】
トーン検出装置50は、信号受信部51、デコーダ52、トーン信号検出部53、信号出力部54、D/A部55、スピーカ56から構成される。トーン信号検出部53は、FFT部53a、電力スペクトル算出部53b、最大値算出部53c、しきい値決定部53d、帯域数カウント部53e、トーン判定部53fから構成される。信号出力部54は、ノイズキャンセル部54a、IFFT部54b、スイッチ54cから構成される。
【0096】
なお、FFT部53a、電力スペクトル算出部53bは、図1の周波数分布算出部11に該当し、最大値算出部53c、しきい値決定部53d、帯域数カウント部53eは、図1の平坦さ算出部12に該当し、トーン判定部53fは、図1の音声/雑音判定部13に該当する。
〔S31〕デコーダ52は、信号受信部51から得られる符号化データを復号し、トーン信号検出部53へ送信する。
〔S32〕FFT部53aは、FFTを用いてフレーム毎に入力信号を周波数分析する。電力スペクトル算出部53bは、フレーム毎に得られた入力信号の周波数分析結果から電力を求めることで電力スペクトルを求める。
〔S33〕最大値算出部53cは、電力スペクトルの最大値を求める(式(10)により)。しきい値決定部53dは最大値にもとづきしきい値を算出する(式(19a)、(19b)のいずれかにより)。帯域数カウント部53eは、電力スペクトルとしきい値とを比較して帯域数をカウントし、カウント結果を平坦さとして出力する(式(18)により)。
〔S34〕トーン判定部53fは、フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームがトーン信号であるか否かを判定し、判定フラグを出力する。
〔S35〕ノイズキャンセル部54aは、FFT部53aによるフレーム毎に得られた入力信号の周波数分析結果に、音声処理としてノイズキャンセル処理を施し、雑音を抑圧する。IFFT部54bは、雑音抑圧後のフーリエ変換対に逆フーリエ変換を施す。
〔S36〕スイッチ部54cは、判定フラグがトーン信号の場合には、デコーダ52からの出力を選択し、判定フラグがトーン信号でない場合には、IFFT部54bからの出力を選択する。
〔S37〕D/A部55は、スイッチ54cより得られるディジタル信号をアナログ信号に変換し、スピーカ56は音声を出力する。
【0097】
図20はトーン信号区間の判定処理を示す図である。縦軸は電力、横軸はフレームである。図からわかるように入力信号がトーン信号の場合は明らかに周波数分布の平坦さが弱くなるので、精度よくトーン信号を検出することが可能になる。
【0098】
次にエコーキャンセラ装置について説明する。図21はエコーキャンセラ装置の構成を示す図である。エコーキャンセル機能とは、受信信号に電気信号や音声の出力が入力機器に拾われて起こるエコー発生やハウリングの現象を防止する機能のことである。
【0099】
エコーキャンセラ装置60は、マイク61、A/D部62、エコーキャンセル部63、入力音声区間検出部64(図1の音声区間検出装置10に該当)、出力音声区間検出部65(図1の音声区間検出装置10に該当)、符号化部66、復号化部67、D/A部68、スピーカ69から構成される。また、エコーキャンセル部63は、エコーキャンセラ63a、状態制御部63bから構成され、入力音声区間検出部64は、電力スペクトル算出部64a、区間検出部64bから構成され、出力音声区間検出部65は、電力スペクトル算出部65a、区間検出部65bから構成される。
【0100】
なお、入力音声区間検出部64の電力スペクトル算出部64aは、図1の周波数分布算出部11に該当し、区間検出部64bは図1の平坦さ算出部12及び音声/雑音判定部13に該当する。また、出力音声区間検出部65の電力スペクトル算出部65aは、図1の周波数分布算出部11に該当し、区間検出部65bは図1の平坦さ算出部12及び音声/雑音判定部13に該当する。
〔S41〕マイク61から入力された音声がA/D部62にてディジタル信号に変換され、エコーキャンセラ63a及び電力スペクトル算出部64aに入力される。
〔S42〕電力スペクトル算出部64aは、FFTを行って入力音より電力スペクトルを算出し、区間検出部64bに電力スペクトルを送信する。
〔S43〕区間検出部64bは、電力スペクトルより、その平坦さを算出し、現フレームが音声区間であるか否かを判定し、入力音に対する判定フラグ(入力音フラグ)を状態制御部63bへ送信する。
〔S44〕復号化部67は、受信信号(符号データ)を復号化し、電力スペクトル算出部65a、エコーキャンセラ63a、D/A部68へ送信する。なお、D/A部68は、出力音をアナログ音にして、スピーカ69は、アナログ音を出力する。
〔S45〕電力スペクトル算出部65aは、出力音より電力スペクトルを算出し、区間検出部65bに電力スペクトルを送信する。
〔S46〕区間検出部65bは、電力スペクトルより、その平坦さを算出し、現フレームが音声区間であるか否かを判定し、出力音に対する判定フラグ(出力音フラグ)を状態制御部63bへ送信する。
〔S47〕状態制御部63bは、入力音及び出力音の判定フラグから入出力の状態を検知し、図22に示すテーブルT1にしたがって、制御信号をエコーキャンセラ63aに送信する。
〔S48〕エコーキャンセラ63aは、制御信号(減算)がONの場合、出力音にエコー経路特性をかけることで疑似エコー信号を作成し、入力音から疑似エコー信号を減算する。また、制御信号(学習)がONの場合、エコーキャンセル後の信号から、推定したエコー経路を更新する(更新されたエコー経路は、次ステップで入力音からエコーを取り除く場合の疑似エコー信号の生成に用いられる)。
〔S49〕エコーキャンセル後の信号は、符号化部66によって符号化され送信される。
【0101】
以上説明したように、エコーキャンセラ装置60は、入出力の状態を高精度に検知し、検知した状態に合せて減算・学習の制御を行うので、検知に失敗して、異音や音切れを発生したりするようなことがなく、通話品質の向上を図ることが可能になる。
【0102】
以上説明したように、本発明によれば、フレームが音声であるか雑音であるかを判定するための物理量として、周波数分布の平坦さを利用した。これにより、簡単な計算で精度よく音声区間・雑音区間の検出が可能になる。また、電力の周波数分布にもとづき、音声/雑音区間検出を行うので、特に、入力音声の電力が小さい場合や、入力雑音の電力が大きい場合でも誤検出しにくく、効果が大きい。さらに、ノイズキャンセラなどのように、信号の周波数変換を含む音声信号処理に利用する場合には、あらたに時間−周波数変換を行う必要がないので、制御構成を簡略化することができる。
【0104】
なお、上記の説明では、音声区間検出装置10をVOX装置、ノイズキャンセラ、トーン検出装置、エコーキャンセラ装置に適用した例を示したが、これらに限らず、その他の音声処理を行う多様な装置について幅広く適用可能である。
【0105】
(付記1) 音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声/雑音判定部と、
を有することを特徴とする音声区間検出装置。
【0106】
(付記2) 前記周波数分布算出部は、フレーム毎の入力信号に対する周波数分析、またはバンドパスフィルタで入力信号を帯域分割し、分割された帯域毎の信号からフレーム毎の電力算出のいずれかを行って、前記周波数分布を算出することを特徴とする付記1記載の音声区間検出装置。
【0107】
(付記3) 前記平坦さ算出部は、前記周波数分布の平均を求め、前記周波数分布と平均値との差分の総和を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0108】
(付記4) 前記平坦さ算出部は、前記周波数分布の平均を求め、前記周波数分布と平均値との差分の自乗和を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0109】
(付記5) 前記平坦さ算出部は、前記周波数分布の平均を求め、前記周波数分布と平均値との差分の最大値を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0110】
(付記6) 前記平坦さ算出部は、前記周波数分布の最大を求め、前記周波数分布と最大値との差分の総和を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0111】
(付記7) 前記平坦さ算出部は、前記周波数分布の最大を求め、前記周波数分布と最大値との差分の自乗和を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0112】
(付記8) 前記平坦さ算出部は、前記周波数分布の最大を求め、前記周波数分布と最大値との差分の最大値を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0113】
(付記9) 前記平坦さ算出部は、前記周波数分布の隣接帯域間の差分の総和を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0114】
(付記10) 前記平坦さ算出部は、前記周波数分布の隣接帯域間の差分の最大値を、前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0115】
(付記11) 前記平坦さ算出部は、前記周波数分布の平坦さを周波数分布の平均で除算して正規化することを特徴とする付記1記載の音声区間検出装置。
(付記12) 前記平坦さ算出部は、前記周波数分布の平坦さをフレームの平均電力で除算して正規化することを特徴とする付記1記載の音声区間検出装置。
【0116】
(付記13) 前記平坦さ算出部は、前記周波数分布から平均値を求め、前記平均値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0117】
(付記14) 前記平坦さ算出部は、前記周波数分布から最大値を求め、前記最大値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記1記載の音声区間検出装置。
【0118】
(付記15) 音声の有無に応じて送信信号出力のON/OFFを行うVOX装置において、
入力信号の周波数分布を算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、音声区間を検出した場合は音声フラグを、雑音区間を検出した場合は雑音フラグを出力する音声/雑音判定部と、から構成される音声区間検出部と、
入力信号をエンコードして、符号化データを生成するエンコーダと、
前記音声フラグを受信した場合は、前記符号化データと前記音声フラグとを送信し、前記雑音フラグを受信した場合は、前記雑音フラグのみ送信する送信部と、
を有することを特徴とするVOX装置。
【0119】
(付記16) 信号中の雑音成分を抑圧するノイズキャンセラ装置において、
入力信号をバンドパスフィルタを用いて帯域分割し、周波数分布を帯域毎に算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、雑音区間を検出した場合は雑音フラグを出力する音声/雑音判定部と、から構成される雑音区間検出部と、
前記雑音フラグを受信した場合、入力信号の帯域毎の雑音パワーを推定し、前記雑音パワーと帯域毎のフレームパワーとにもとづき抑圧量を算出する抑圧量算出部と、
入力信号を帯域毎に前記抑圧量に応じて抑圧することで、入力信号のうち雑音成分のみ抑圧する雑音抑圧部と、
を有することを特徴とするノイズキャンセラ装置。
【0120】
(付記17) 信号中の雑音成分を抑圧するノイズキャンセラ装置において、
入力信号の周波数分析を行って、周波数分布を算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、雑音区間を検出した場合は雑音フラグを出力する音声/雑音判定部と、から構成される雑音区間検出部と、
前記雑音フラグを受信した場合、入力信号の雑音の雑音電力スペクトルを推定し、前記雑音電力スペクトルとフレーム電力スペクトルとにもとづき抑圧量を算出する抑圧量算出部と、
入力信号を前記抑圧量に応じて抑圧することで、入力信号のうち雑音成分のみ抑圧する雑音抑圧部と、
を有することを特徴とするノイズキャンセラ装置。
【0121】
(付記18) トーン信号を検出するトーン検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、トーン信号の有無を判定し、トーン信号を検出した場合はトーン検出フラグを出力するトーン判定部と、から構成されるトーン信号検出部と、
入力信号をデコードして、復号化データを生成するデコーダと、
前記トーン検出フラグを受信した場合は、前記復号化データを出力し、前記トーン検出フラグを受信しなかった場合は、前記復号化データに音声処理を施して出力する信号出力部と、
を有することを特徴とするトーン検出装置。
【0122】
(付記19) エコーの発生を抑止するエコーキャンセラ装置において、
入力音の周波数分布を算出する入力音周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する入力音平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力音の音声区間を検出した場合は入力音フラグを出力する入力音判定部と、から構成される入力音声区間検出部と、
出力音の周波数分布を算出する出力音周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する出力音平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、出力音の音声区間を検出した場合は出力音フラグを出力する出力音判定部と、から構成される出力音声区間検出部と、
前記入力音フラグと前記出力音フラグから入出力状態を認識し、入出力状態に応じて、出力音にエコー経路特性を乗算することで疑似エコー信号を生成して入力音から前記疑似エコー信号を減算する減算処理、またはエコー経路を更新する学習処理を行うエコーキャンセル部と、
を有することを特徴とするエコーキャンセラ装置。
【0123】
(付記20) 音声区間の検出を行う音声区間検出方法において、
入力信号の周波数分布を算出し、
周波数分布から周波数分布の平坦さを算出し、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出することを特徴とする音声区間検出方法。
【0124】
(付記21) 前記周波数分布を算出する際は、フレーム毎の入力信号に対する周波数分析、またはバンドパスフィルタで入力信号を帯域分割して分割された帯域毎の信号からフレーム毎による電力算出、のいずれかを行うことを特徴とする付記20記載の音声区間検出方法。
【0125】
(付記22) 前記周波数分布の平坦さを算出する際は、前記周波数分布の平均を求めた後に、前記周波数分布と平均値との差分の総和、前記周波数分布と平均値との差分の自乗和、前記周波数分布と平均値との差分の最大値、のいずれかを求めることを特徴とする付記20記載の音声区間検出方法。
【0126】
(付記23) 前記周波数分布の平坦さを算出する際は、前記周波数分布の最大を求めた後に、前記周波数分布と最大値との差分の総和、前記周波数分布と最大値との差分の自乗和、前記周波数分布と最大値との差分の最大値、のいずれかを求めることを特徴とする付記20記載の音声区間検出方法。
【0127】
(付記24) 前記周波数分布の平坦さを算出する際は、前記周波数分布の隣接帯域間の差分の総和、前記周波数分布の隣接帯域間の差分の最大値、のいずれかを求めることを特徴とする付記20記載の音声区間検出方法。
【0128】
(付記25) 前記周波数分布の平坦さを周波数分布の平均で除算、またはフレームの平均電力で除算して正規化することを特徴とする付記20記載の音声区間検出方法。
【0129】
(付記26) 前記周波数分布の平坦さを算出する際は、前記周波数分布から平均値を求め、前記平均値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記20記載の音声区間検出方法。
【0130】
(付記27) 前記周波数分布の平坦さを算出する際は、前記周波数分布から最大値を求め、前記最大値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記20記載の音声区間検出方法。
【0131】
【発明の効果】
以上説明したように、本発明の音声区間検出装置は、入力信号の周波数分布を算出し、周波数分布の平坦さを算出し、この場合、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする。そして、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する構成とした。これにより、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとして、音声/雑音の判定を行うため、音声区間を高精度に検出することができ、通話品質の向上を図ることが可能になる。
また、本発明の音声区間検出装置は、入力信号の周波数分布を算出し、周波数分布の平坦さを算出し、この場合、周波数分布の隣接帯域間の差分の総和を、周波数分布の平坦さとする。そして、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する構成とした。これにより、周波数分布の隣接帯域間の差分の総和を、周波数分布の平坦さとして、音声/雑音の判定を行うため、音声区間を高精度に検出することができ、通話品質の向上を図ることが可能になる。
さらに、本発明の音声区間検出装置は、入力信号の周波数分布を算出し、周波数分布の平坦さを算出し、この場合、周波数分布から平均値を求め、平均値からしきい値を生成し、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとする。そして、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する構成とした。これにより、周波数分布から平均値を求め、平均値からしきい値を生成し、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとして、音声/雑音の判定を行うため、音声区間を高精度に検出することができ、通話品質の向上を図ることが可能になる。
【図面の簡単な説明】
【図1】 音声区間検出装置の原理図である。
【図2】 電力P[k]を示す図である。
【図3】 帯域分割による電力算出の概念を示す図である。
【図4】 式(2)の内容を説明するための図である。
【図5】 バンドパスフィルタの周波数特性の例を示す図である。
【図6】 電力の周波数分布の例を示す図である。
【図7】 周波数分布と平均値との差分の総和から平坦さを求める際の概要を説明するための図である。
【図8】 信号の周波数分布を示す図である。
【図9】 周波数分布と平均値との差分の自乗和から、平坦さを求める際の概要を説明するための図である。
【図10】 周波数分布と平均値との差分の最大値から平坦さを求める際の概要を説明するための図である。
【図11】 周波数分布と最大値との差分の総和から平坦さを求める際の概要を説明するための図である。
【図12】 周波数分布の隣接帯域間の差分の総和から平坦さを求める際の概要を説明するための図である。
【図13】 周波数分布の隣接帯域間の差分の最大値から平坦さを求める際の概要を説明するための図である。
【図14】 周波数分布の平均値から求めたしきい値を用いて平坦さを求める際の概要を説明するための図である。
【図15】 音声区間、雑音区間の判定処理例を示す図である。
【図16】 VOX装置の構成を示す図である。
【図17】 ノイズキャンセラ装置の構成を示す図である。
【図18】 ノイズキャンセラ装置の構成を示す図である。
【図19】 トーン検出装置の構成を示す図である。
【図20】 トーン信号区間の判定処理を示す図である。
【図21】 エコーキャンセラ装置の構成を示す図である。
【図22】 制御テーブルを示す図である。
【符号の説明】
10 音声区間検出装置
11 周波数分布算出部
12 平坦さ算出部
13 音声/雑音判定部
Claims (3)
- 音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声/雑音判定部と、
を有し、
前記平坦さ算出部は、前記周波数分布の最大値を求め、前記周波数分布と最大値との差分の総和を、前記周波数分布の平坦さとする、
ことを特徴とする音声区間検出装置。 - 音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声/雑音判定部と、
を有し、
前記平坦さ算出部は、前記周波数分布の隣接帯域間の差分の総和を、前記周波数分布の平坦さとする、
ことを特徴とする音声区間検出装置。 - 音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声/雑音判定部と、
を有し、
前記平坦さ算出部は、前記周波数分布から平均値を求め、前記平均値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとする、
ことを特徴とする音声区間検出装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003064643A JP3963850B2 (ja) | 2003-03-11 | 2003-03-11 | 音声区間検出装置 |
US10/785,238 US20050108004A1 (en) | 2003-03-11 | 2004-02-24 | Voice activity detector based on spectral flatness of input signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003064643A JP3963850B2 (ja) | 2003-03-11 | 2003-03-11 | 音声区間検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004272052A JP2004272052A (ja) | 2004-09-30 |
JP3963850B2 true JP3963850B2 (ja) | 2007-08-22 |
Family
ID=33125885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003064643A Expired - Fee Related JP3963850B2 (ja) | 2003-03-11 | 2003-03-11 | 音声区間検出装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050108004A1 (ja) |
JP (1) | JP3963850B2 (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060018457A1 (en) * | 2004-06-25 | 2006-01-26 | Takahiro Unno | Voice activity detectors and methods |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
EP1681670A1 (en) * | 2005-01-14 | 2006-07-19 | Dialog Semiconductor GmbH | Voice activation |
EP1814106B1 (en) | 2005-01-14 | 2009-09-16 | Panasonic Corporation | Audio switching device and audio switching method |
US7231348B1 (en) * | 2005-03-24 | 2007-06-12 | Mindspeed Technologies, Inc. | Tone detection algorithm for a voice activity detector |
JP4940588B2 (ja) * | 2005-07-27 | 2012-05-30 | ソニー株式会社 | ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法 |
US8126706B2 (en) * | 2005-12-09 | 2012-02-28 | Acoustic Technologies, Inc. | Music detector for echo cancellation and noise reduction |
US8204754B2 (en) * | 2006-02-10 | 2012-06-19 | Telefonaktiebolaget L M Ericsson (Publ) | System and method for an improved voice detector |
JP4935329B2 (ja) * | 2006-12-01 | 2012-05-23 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
JP4607908B2 (ja) * | 2007-01-12 | 2011-01-05 | 株式会社レイトロン | 音声区間検出装置および音声区間検出方法 |
CN101627428A (zh) * | 2007-03-06 | 2010-01-13 | 日本电气株式会社 | 抑制杂音的方法、装置以及程序 |
JP5034734B2 (ja) * | 2007-07-13 | 2012-09-26 | ヤマハ株式会社 | 音処理装置およびプログラム |
US20090154726A1 (en) * | 2007-08-22 | 2009-06-18 | Step Labs Inc. | System and Method for Noise Activity Detection |
JP5006768B2 (ja) * | 2007-11-21 | 2012-08-22 | 日本電信電話株式会社 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
DE102008039329A1 (de) * | 2008-01-25 | 2009-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts |
KR20090110244A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
WO2009130388A1 (en) * | 2008-04-25 | 2009-10-29 | Nokia Corporation | Calibrating multiple microphones |
US8244528B2 (en) | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
US8275136B2 (en) * | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US9037474B2 (en) | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
CN101359472B (zh) * | 2008-09-26 | 2011-07-20 | 炬力集成电路设计有限公司 | 一种人声判别的方法和装置 |
JP5131149B2 (ja) * | 2008-10-24 | 2013-01-30 | ヤマハ株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
JP4869420B2 (ja) * | 2010-03-25 | 2012-02-08 | 株式会社東芝 | 音情報判定装置、及び音情報判定方法 |
JP5156043B2 (ja) * | 2010-03-26 | 2013-03-06 | 株式会社東芝 | 音声判別装置 |
KR20140026229A (ko) * | 2010-04-22 | 2014-03-05 | 퀄컴 인코포레이티드 | 음성 액티비티 검출 |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
JP5874344B2 (ja) | 2010-11-24 | 2016-03-02 | 株式会社Jvcケンウッド | 音声判定装置、音声判定方法、および音声判定プログラム |
JP5649488B2 (ja) * | 2011-03-11 | 2015-01-07 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
GB2493030B (en) * | 2011-07-22 | 2014-01-15 | Mikko Pekka Vainiala | Method of sound analysis and associated sound synthesis |
GB2493029B (en) | 2011-07-22 | 2013-10-23 | Mikko Pekka Vainiala | Method and apparatus for impulse response measurement and simulation |
US8781821B2 (en) * | 2012-04-30 | 2014-07-15 | Zanavox | Voiced interval command interpretation |
CN103198835B (zh) * | 2013-04-03 | 2015-04-01 | 工业和信息化部电信传输研究所 | 一种基于移动终端的噪声抑制算法再收敛时间测量方法 |
EP2985762A4 (en) * | 2013-04-11 | 2016-11-23 | Nec Corp | SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM |
US9832299B2 (en) * | 2013-07-17 | 2017-11-28 | Empire Technology Development Llc | Background noise reduction in voice communication |
US9940972B2 (en) * | 2013-08-15 | 2018-04-10 | Cellular South, Inc. | Video to data |
US10218954B2 (en) * | 2013-08-15 | 2019-02-26 | Cellular South, Inc. | Video to data |
WO2015141260A1 (ja) * | 2014-03-17 | 2015-09-24 | 株式会社河合楽器製作所 | 手書き音楽記号認識装置およびプログラム |
US9721580B2 (en) * | 2014-03-31 | 2017-08-01 | Google Inc. | Situation dependent transient suppression |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
US9749733B1 (en) * | 2016-04-07 | 2017-08-29 | Harman Intenational Industries, Incorporated | Approach for detecting alert signals in changing environments |
CN107305774B (zh) | 2016-04-22 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
JP6759927B2 (ja) * | 2016-09-23 | 2020-09-23 | 富士通株式会社 | 発話評価装置、発話評価方法、および発話評価プログラム |
US10475471B2 (en) * | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
GB2554943A (en) * | 2016-10-16 | 2018-04-18 | Sentimoto Ltd | Voice activity detection method and apparatus |
JP6416446B1 (ja) * | 2017-03-10 | 2018-10-31 | 株式会社Bonx | 通信システム、通信システムに用いられるapiサーバ、ヘッドセット、及び携帯通信端末 |
JP6904198B2 (ja) * | 2017-09-25 | 2021-07-14 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
US10186247B1 (en) * | 2018-03-13 | 2019-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to extract a pitch-independent timbre attribute from a media signal |
CN110390942A (zh) * | 2019-06-28 | 2019-10-29 | 平安科技(深圳)有限公司 | 基于婴儿哭声的情绪检测方法及其装置 |
CN114582371B (zh) * | 2022-04-29 | 2022-07-08 | 北京百瑞互联技术有限公司 | 基于谱平坦度的啸叫检测及抑制方法、系统、介质及设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US5537509A (en) * | 1990-12-06 | 1996-07-16 | Hughes Electronics | Comfort noise generation for digital communication systems |
EP0786874B1 (en) * | 1991-09-30 | 2000-08-16 | Sony Corporation | Method and apparatus for audio data compression |
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
US5307405A (en) * | 1992-09-25 | 1994-04-26 | Qualcomm Incorporated | Network echo canceller |
US5536902A (en) * | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
US5479522A (en) * | 1993-09-17 | 1995-12-26 | Audiologic, Inc. | Binaural hearing aid |
JP3182032B2 (ja) * | 1993-12-10 | 2001-07-03 | 株式会社日立国際電気 | 音声符号化通信方式及びその装置 |
US5581658A (en) * | 1993-12-14 | 1996-12-03 | Infobase Systems, Inc. | Adaptive system for broadcast program identification and reporting |
JP3568255B2 (ja) * | 1994-10-28 | 2004-09-22 | 富士通株式会社 | 音声符号化装置及びその方法 |
US5666466A (en) * | 1994-12-27 | 1997-09-09 | Rutgers, The State University Of New Jersey | Method and apparatus for speaker recognition using selected spectral information |
US5774849A (en) * | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
US5920834A (en) * | 1997-01-31 | 1999-07-06 | Qualcomm Incorporated | Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system |
US6144937A (en) * | 1997-07-23 | 2000-11-07 | Texas Instruments Incorporated | Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information |
US6084967A (en) * | 1997-10-29 | 2000-07-04 | Motorola, Inc. | Radio telecommunication device and method of authenticating a user with a voice authentication token |
US6385548B2 (en) * | 1997-12-12 | 2002-05-07 | Motorola, Inc. | Apparatus and method for detecting and characterizing signals in a communication system |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
US7031916B2 (en) * | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
US6999520B2 (en) * | 2002-01-24 | 2006-02-14 | Tioga Technologies | Efficient FFT implementation for asymmetric digital subscriber line (ADSL) |
US6714605B2 (en) * | 2002-04-22 | 2004-03-30 | Cognio, Inc. | System and method for real-time spectrum analysis in a communication device |
-
2003
- 2003-03-11 JP JP2003064643A patent/JP3963850B2/ja not_active Expired - Fee Related
-
2004
- 2004-02-24 US US10/785,238 patent/US20050108004A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050108004A1 (en) | 2005-05-19 |
JP2004272052A (ja) | 2004-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3963850B2 (ja) | 音声区間検出装置 | |
JP4307557B2 (ja) | 音声活性度検出器 | |
EP0790599B1 (en) | A noise suppressor and method for suppressing background noise in noisy speech, and a mobile station | |
EP2643834B1 (en) | Device and method for producing an audio signal | |
EP2643981B1 (en) | A device comprising a plurality of audio sensors and a method of operating the same | |
JP4836720B2 (ja) | ノイズサプレス装置 | |
JP3224132B2 (ja) | 音声活動検出装置 | |
US20070232257A1 (en) | Noise suppressor | |
US8571231B2 (en) | Suppressing noise in an audio signal | |
EP2008379B1 (en) | Adjustable noise suppression system | |
EP2546831B1 (en) | Noise suppression device | |
US20040078199A1 (en) | Method for auditory based noise reduction and an apparatus for auditory based noise reduction | |
CN111554315B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
JP4018571B2 (ja) | 音声強調装置 | |
JP2014122939A (ja) | 音声処理装置および方法、並びにプログラム | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
JP2000330597A (ja) | 雑音抑圧装置 | |
JP2001159899A (ja) | 騒音抑圧装置 | |
JP2003058186A (ja) | 雑音抑圧方法および雑音抑圧装置 | |
JP5466581B2 (ja) | 反響消去方法、反響消去装置及び反響消去プログラム | |
JP2002258899A (ja) | 雑音抑圧方法および雑音抑圧装置 | |
JP3310225B2 (ja) | 雑音レベル時間変動率計算方法及び装置と雑音低減方法及び装置 | |
KR20180047316A (ko) | Ptt 기반 음성 명료성 향상 장치 및 방법 | |
EP2063420A1 (en) | Method and assembly to enhance the intelligibility of speech | |
US20130226568A1 (en) | Audio signals by estimations and use of human voice attributes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3963850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110601 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120601 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120601 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130601 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130601 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |