JP3963850B2

JP3963850B2 - 音声区間検出装置

Info

Publication number: JP3963850B2
Application number: JP2003064643A
Authority: JP
Inventors: 猛大谷; 政直鈴木; 恭士大田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-03-11
Filing date: 2003-03-11
Publication date: 2007-08-22
Anticipated expiration: 2023-03-11
Also published as: US20050108004A1; JP2004272052A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声区間検出装置に関し、特に音声区間または雑音区間を検出する音声区間検出装置に関する。
【０００２】
【従来の技術】
近年、携帯電話機をはじめとする移動体通信の加入者数は、爆発的に増加している。また、携帯電話機の高機能化が進んでおり、モバイル分野におけるマルチメディアサービスへの発展が期待されている。
【０００３】
移動体通信などの音声処理の技術として、ＶＯＸ（Voice Operated Transmitter）、ノイズキャンセラがある。ＶＯＸとは、音声の有無に応じて送信信号出力のＯＮ／ＯＦＦを行う技術のことで（例えば、音声を検出したときのみ信号を発信し、装置周辺が無音の時は信号を発信しないなど）、送信部の省電力化を図ることができる。また、ノイズキャンセラは、装置周辺の雑音を抑圧して、通話中に音声を聴こえやすくする技術のことである。
【０００４】
これらＶＯＸやノイズキャンセラでは、通話中に音声が存在する区間（音声区間）または雑音区間を検出する必要がある。音声区間の検出としては、例えば、入力信号の電力を算出し、電力の大きい区間を音声区間として扱うこともあるが、単純な電力の比較だけでは誤検出が多くなる。
【０００５】
この対策として、従来、入力音声を一定の時間毎に、電力と周波数特性形状とを抽出し、前フレームの電力及び周波数特性形状から現フレームへの変化量を計測し、判定部でしきい値と比較することで音声の有無を検出する技術が提案されている（例えば、特許文献１）。
【０００６】
また、入力信号の極性反転回数（零交差数）を計測し、このピッチ情報を判定部でしきい値と比較することで音声の有無を検出する技術が提案されている（例えば、特許文献２）。
【０００７】
【特許文献１】
特開昭６０−２００３００号公報（第３頁−第６頁，第５図）
【特許文献２】
特開平１−２８６６４３号公報（第３頁−第４頁，第１図）
【０００８】
【発明が解決しようとする課題】
しかし、上記のような従来技術（特開昭６０−２００３００号公報）では、環境騒音が大きい場合や音声が小さい場合などには、雑音区間と音声区間との音声特徴量の差が小さくなり、音声区間と無音区間を精度よく判定することは困難であった。また、従来技術（特開平１−２８６６４３号公報）では、入力信号に低周波の雑音が含まれる場合、極性反転回数は低周波の雑音の電力に応じて変化してしまうので、音声区間と無音区間を精度よく判定することは困難であった。
【０００９】
本発明はこのような点に鑑みてなされたものであり、音声区間を高精度に検出して、通話品質の向上を図った音声区間検出装置を提供することを目的とする。
【００１０】
【課題を解決するための手段】
本発明では上記課題を解決するために、図１に示すような、音声区間の検出を行う音声区間検出装置１０において、入力信号の周波数分布を算出する周波数分布算出部１１と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部１２と、周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声／雑音判定部１３と、を有し、平坦さ算出部１２は、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする、ことを特徴とする音声区間検出装置１０が提供される。
【００１１】
ここで、周波数分布算出部１１は、入力信号の周波数分布を算出する。平坦さ算出部１２は、周波数分布から周波数分布の平坦さを算出する。音声／雑音判定部１３は、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する。また、平坦さ算出部１２は、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする。
【００１２】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。図１は音声区間検出装置の原理図である。音声区間検出装置１０は、信号中の音声が存在する区間である音声区間を検出する装置である。
【００１３】
周波数分布算出部１１は、入力信号（音声、雑音を含む）から電力の周波数分布を算出する。平坦さ算出部１２は、電力の周波数分布から周波数分布の平坦さ（平坦度合い）を算出する。なお、周波数分布とは、信号の周波数軸上における電力の分布状態のことを指す。
【００１４】
音声／雑音判定部１３は、周波数分布の平坦さと、しきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する。ここで、周波数分布の平坦さが強い（周波数分布が平坦に近い）場合は、その部分は雑音とみなすことができ、周波数分布の平坦さが弱い（周波数分布が平坦でない）場合は、その部分は音声とみなすことができる。
【００１５】
音声区間検出装置１０では、入力信号の電力の周波数分布の平坦さにもとづき、測定区間が音声であるか雑音であるかを判定することで、高精度の音声区間の検出を行うものである。
【００１６】
次に周波数分布算出部１１について説明する。周波数分布算出部１１は、入力信号の各フレームに対して、周波数帯域毎の電力（電力の周波数分布）を求める。この場合、フレーム毎に周波数分析を行う方法と、バンドパスフィルタ（帯域通過フィルタ）を利用して１フレームを帯域分割し、分割された帯域毎の信号から電力を算出する方法とがある（どちらを用いてもよい）。まず、周波数分析を行う方法について説明する。
【００１７】
周波数分析によって、電力の周波数分布を算出する方法としては、高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）やウェーブレット（Wavelet）変換を用いることができる。以下、ＦＦＴの場合について説明する。
【００１８】
時系列の信号にフーリエ変換を施すと、周波数領域に変換されて、該当周波数に対するスペクトルが求まる。ここで、時系列の入力データ（１フレーム）ｘをＦＦＴして、周波数空間上のデータＸに変換したとする。ｋを周波数、Ｎを全周波数帯域数とすると、Ｘ＝｛Ｘ[ｋ]｜ｋ＝１、２、…、Ｎ｝と表せる。また、周波数ｋに対応する電力をＰ[ｋ]とする。
【００１９】
図２は電力Ｐ[ｋ]を示す図である。ＦＦＴ後のＸ[ｋ]は、複素数値を含む関数であるから、リアルパート（実数領域）とイマジナリパート（複素数領域）からなり、Ｘ[ｋ]は実軸Ｒｅと虚軸Ｉｍ上の複素平面上にプロットすることができる。このとき、Ｘ[ｋ]の原点からの距離の２乗が、Ｘ[ｋ]の電力Ｐ[ｋ]となる。したがって、周波数ｋに対応する電力Ｐ[ｋ]は、次式から求められる。
【００２０】
【数１】

【００２１】
次にバンドパスフィルタにより入力信号を帯域分割して電力を算出する場合について説明する。図３は帯域分割による電力算出の概念を示す図である。入力信号の１フレームに対し、複数のバンドパスフィルタで複数の周波数帯域に分割する。例えば、周波数帯域をＮ分割するものとして（図中のｉは帯域分割番号であり、１≦ｉ≦Ｎ）、周波数帯域ｋ１〜ｋＮのＮ個のバンドパスフィルタでフィルタリングを施し、フィルタ出力としてそれぞれの信号ｘ_bpf[ｉ]を取り出す。そして、分割後の各周波数帯域の電力Ｐ[ｋ]を求めることで、電力の周波数分布を取得する。
【００２２】
バンドパスフィルタには、ＦＩＲ（Finite Impulse Response）フィルタを用いる。ここで、入力信号をｘ[ｎ]、各帯域に分割するバンドパスフィルタ係数（フィルタの特性を決める係数）をｂｐｆ[ｉ][ｊ]とすると、帯域分割後の信号ｘ_bpf[ｉ][ｎ]は次式で表せる。なお、ｉは帯域分割番号、ｊはサンプリング番号であり、ｎは時間に対応する添え字である。
【００２３】
【数２】

【００２４】
図４は式（２）の内容を説明するための図である。図に示す波形に対し、信号ｘ［ｎ］のサンプリング番号ｊが０のときの信号の値は、ｘ［ｎ−０］＝０である。また、ｊ＝１のときの信号の値はｘ［ｎ−１］＝−１であり、ｊ＝２のときの信号の値はｘ［ｎ−２］＝１、…である。
【００２５】
さらに、バンドパスフィルタ係数ｂｐｆ[ｉ][ｊ]に対し、ｊ＝０のときｂｐｆ[ｉ][０]＝１、ｊ＝１のときｂｐｆ[ｉ][１]＝１、ｊ＝２のときｂｐｆ[ｉ][２]＝０、…とする。
【００２６】
ＦＩＲフィルタの出力ｘ_bpf[ｉ][ｎ]は、サンプリングポイントの信号値にフィルタ係数を乗算した値の総和であるから、一般式は式（２）となり、ここの例の場合では、図中に示すような計算が行われることになる。
【００２７】
なお、バンドパスフィルタの周波数特性を決める場合には、以下の式（３）で求めることができる。
【００２８】
【数３】

【００２９】
ただし、式（３）中のreal[ｉ][ｋ]とimag[ｉ][ｋ]は、式（４ａ）、（４ｂ）で示される。
【００３０】
【数４】

【００３１】
図５はバンドパスフィルタの周波数特性の例を示す図である。縦軸は利得、横軸は周波数であり、実線が１つのバンドパスフィルタの特性を示している。バンドパスフィルタはｉ個用いるので、点線で示すバンドパスフィルタと合わせてフィルタリングを行うことになる。
【００３２】
一方、バンドパスフィルタによって取り出した帯域毎の電力Ｐ[ｋ]は、ｉをｋに置き換えたｘ_bpf[ｋ][ｎ]（ｋ＝１、２、…、Ｎ：Ｎは全周波数帯域数）の自乗和であるから式（５）で求めることができる。
【００３３】
【数５】

【００３４】
以上、周波数分析による算出方法とバンドパスフィルタを利用した算出方法とを説明した。いずれかの方法で求めた電力の周波数分布の例を図６に示す。
次に平坦さ算出部１２について説明する。平坦さ算出部１２は、周波数分布算出部１１で求めた電力の周波数分布から周波数分布の平坦さを算出する。平坦さの算出には以降に示す〔１〕〜〔１１〕の求め方があり、いずれを選んでもよい。また、平坦さを算出するための帯域は、１フレーム中のすべての帯域を対象にしても、または１フレーム中の特定箇所の帯域を対象にしてもかまわない。
〔１〕周波数分布の平均を求め、周波数分布（周波数分布の電力）と平均値との差分の総和を、周波数分布の平坦さとする。図７は周波数分布と平均値との差分の総和から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１を示している。また、周波数分布Ｒ１の電力の平均値をＰｍとする。なお、横軸上のＬは周波数帯域の下限値、Ｍは周波数帯域の上限値である。
【００３５】
周波数分布と平均値との差分をｄ[ｋ]とする。例えば、周波数ｋ１のときの差分ｄ[ｋ１]は｜Ｐ[ｋ１]−Ｐｍ｜である。同様に周波数ｋ２のときの差分ｄ[ｋ２]は｜Ｐ[ｋ２]−Ｐｍ｜であり、周波数ｋ３のときの差分ｄ[ｋ３]は｜Ｐ[ｋ３]−Ｐｍ｜である。したがって、ＬからＭの間の信号Ｘ１に対する、周波数分布Ｒ１と平均値Ｐｍとの差分の総和は、図に示す斜線部の面積とほぼ等しい（離散値による総和なので）ことがわかる。そして、この面積を信号Ｘ１の平坦さＦＬＴ１とする。
【００３６】
上記のことを式で表すと平均値Ｐｍは、以下の式（６）で求まる。Ｌは周波数帯域の下限値、Ｍは周波数帯域の上限値、ａｖｅは平均算出を示す。また、周波数分布の平坦さを求める式は式（７）となる。
【００３７】
【数６】

【００３８】
【数７】

【００３９】
このような周波数分布の平坦さを計算することで、音声区間と雑音区間との判別を行うことができる。以下、周波数分布の平坦さ及び音声／雑音区間の関係について説明する。一般に音声はスペクトル包絡やピッチ構造を有し、周波数分布が一様でないことが知られている。
【００４０】
スペクトル包絡とは、声の音色を示すもので、声道（声帯から口までの器官）の形状により生じる性質である。声道の形状に応じて音色が変わるのは、形状に対応した伝達特性が変わることで、声道での共鳴の仕方が変わり、周波数的にエネルギーの強弱が生じるからである。
【００４１】
また、ピッチ構造とは、声の高さを示すもので、声帯の振動周期により生じる性質である。ピッチ構造が時間的に変化することでアクセントやイントネーションなどの声の性質を付与することになる。一方、環境雑音は、白色雑音やピンク雑音などで近似されることが多いように、比較的周波数分布が一様であることが知られている。
【００４２】
したがって、ある区間における周波数分布を測定したとき、音声が存在する区間の周波数分布は平坦になりにくく、雑音が存在する区間の周波数分布は平坦になりやすいといえる。本発明では、音声と雑音に対するこれらの特徴を利用して、音声区間の検出を行うものである。
【００４３】
図８は信号の周波数分布を示す図である。横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]である。信号Ｘ２の電力の周波数分布Ｒ２を示している。また、周波数分布Ｒ２の電力の平均値をＰｍ２とする。信号Ｘ２の周波数帯域毎の電力Ｐ[ｋ]は、平均値Ｐｍ２の近傍に集中して存在している（信号Ｘ２は雑音とみなせる）。そして、信号Ｘ２の周波数分布における周波数分布と平均値の差分の総和は、図中の斜線部の面積となり、この面積を信号Ｘ２の平坦さＦＬＴ２とする。
【００４４】
ここで図７で上述した信号Ｘ１の平坦さＦＬＴ１と、図８の信号Ｘ２の平坦さＦＬＴ２とを比較すれば、あきらかにＦＬＴ１＞ＦＬＴ２である。したがって、この場合、ＦＬＴ１を求めた際の信号Ｘ１は音声であり、ＦＬＴ２を求めた際の信号Ｘ２は雑音として判別することができる。
【００４５】
このように、算出した平坦さＦＬＴの値（ここの例では面積）が大きいほど平坦さが弱く（周波数分布が平坦でない）、平坦さＦＬＴの値が小さいほど平坦さが強い（周波数分布が平坦である）ので、周波数分布の平坦さを求めて比較することで、音声区間の検出を行うことが可能になる（なお、実際には、周波数分布の平坦さと、あらかじめ設定してあるしきい値とを音声／雑音判定部１３で比較することで音声区間を判別することになる）。
〔２〕周波数分布の平均を求め、周波数分布と平均値との差分の自乗和を、周波数分布の平坦さとする。図９は周波数分布と平均値との差分の自乗和から、平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１を示している。周波数分布と平均値との差分の自乗和を求めるということは、平均値から周波数分布へ向かうベクトルの長さを求めることである。
【００４６】
例えば、周波数ｋ１のとき、平均値ｍ１、周波数分布上の電力Ｐ[ｍ１]とし、周波数ｋ２のとき、平均値ｍ２（＝ｍ１）、周波数分布上の電力Ｐ[ｍ２]とする。そして、ｍ１をｘ軸、ｍ２をｙ軸方向にとって、（ｍ１、ｍ２）と（Ｐ[ｍ１]、Ｐ[ｍ２]）をプロットすると、図のようなベクトルｖとなり、ベクトルｖの距離は（（Ｐ[ｍ１]−ｍ１）²＋（Ｐ[ｍ２]−ｍ２）²）^1/2となる。これらのことを全周波数帯域数のＮまで繰り返してベクトルの距離の総和を求め、これを平坦さＦＬＴとする。上記のことを式で表すと以下の式（８）となる。なお、式（８）ではルートは除いてある（大小関係がわかればよいので）。また、このように算出した平坦さは、音声区間の平坦さをＦＬＴｖ、雑音区間の平坦さをＦＬＴｎとすればＦＬＴｖ＞ＦＬＴｎである。
【００４７】
【数８】

【００４８】
〔３〕周波数分布の平均を求め、周波数分布と平均値との差分の最大値を、周波数分布の平坦さとする。図１０は周波数分布と平均値との差分の最大値から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１及び信号Ｘ２の電力の周波数分布Ｒ２を示している。
【００４９】
図の場合、周波数分布Ｒ１では、信号Ｘ１の周波数分布Ｒ１と平均値との差分の最大値は、周波数ｋａのときＭＡＸａである。また、周波数分布Ｒ２では、信号Ｘ２の周波数分布Ｒ２と平均値との差分の最大値は、周波数ｋｂのときＭＡＸｂである。そして、これらＭＡＸａ、ＭＡＸｂを周波数分布の平坦さＦＬＴとする。上記のことを式で表すと以下の式（９）となる。なお、このように算出した平坦さは、音声区間の平坦さをＦＬＴｖ、雑音区間の平坦さをＦＬＴｎとすればＦＬＴｖ＞ＦＬＴｎである。
【００５０】
【数９】

【００５１】
〔４〕周波数分布の最大を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする。図１１は周波数分布と最大値との差分の総和から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１及び信号Ｘ２の電力の周波数分布Ｒ２を示している。また、Ｐ_MAX1、Ｐ_MAX2は、それぞれの最大値である。
【００５２】
上述の〔１〕〜〔３〕までは周波数分布の平均値を基準にして平坦さを求めたが、〔４〕は周波数分布の最大値を基準にして平坦さを求めるものである（以下の〔５〕、〔６〕も同様）。
【００５３】
周波数分布と最大値との差分の総和は、図に示す斜線部の面積であり、この面積を平坦さＦＬＴとする。電力の周波数分布の最大値Ｐ_MAXは以下の式（１０）で求め、周波数分布と最大値との差分の総和である平坦さＦＬＴは以下の式（１１）で求まる。なお、このように算出した平坦さは、音声区間の平坦さをＦＬＴｖ、雑音区間の平坦さをＦＬＴｎとすればＦＬＴｖ＞ＦＬＴｎである。
【００５４】
【数１０】

【００５５】
【数１１】

【００５６】
〔５〕周波数分布の最大を求め、周波数分布と最大値との差分の自乗和を、周波数分布の平坦さとする。〔２〕では周波数分布と平均値との差分の自乗和を、周波数分布の平坦さとしたが、〔５〕では平均値を最大値としたものであり、考え方は〔２〕と同様なので概要説明は省略する。〔５〕によって平坦さを求める際の式は以下の式（１２）となる。
【００５７】
【数１２】

【００５８】
〔６〕周波数分布の最大を求め、周波数分布と周波数分布の最大値との差分の最大値を、周波数分布の平坦さとする。〔３〕では、周波数分布と平均値との差分の最大値を、周波数分布の平坦さとしたが、〔６〕では平均値を最大値としたものであり、考え方は〔３〕と同様なので概要説明は省略する。〔６〕によって平坦さを求める際の式は以下の式（１３）となる。
【００５９】
【数１３】

【００６０】
〔７〕周波数分布の隣接帯域間の差分の総和を、周波数分布の平坦さとする。図１２は周波数分布の隣接帯域間の差分の総和から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１を示している。
【００６１】
例えば、周波数ｋ１と周波数ｋ２の電力差分はｄ１、周波数ｋ２と周波数ｋ３の電力差分はｄ２、周波数ｋ３と周波数ｋ４の電力差分はｄ３というように、隣接帯域間の差分を求め、この差分の総和を平坦さＦＬＴとする。このことを式で表すと以下の式（１４）となる。
【００６２】
なお、このように算出した平坦さは、音声区間の平坦さをＦＬＴｖ、雑音区間の平坦さをＦＬＴｎとすればＦＬＴｖ＞ＦＬＴｎである（音声は周波数の電力変動が大きく、雑音は周波数の電力変動が小さいので、〔７〕により算出した平坦さで音声／雑音の判別を行うことができる）。
【００６３】
【数１４】

【００６４】
〔８〕周波数分布の隣接帯域間の差分の最大値を、周波数分布の平坦さとする。図１３は周波数分布の隣接帯域間の差分の最大値から平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１を示している。
【００６５】
例えば、周波数ｋ５と周波数ｋ６の差分ｄｍａｘが、全周波数帯域における最大値であり、これを平坦さＦＬＴとする。このことを式で表すと以下の式（１５）となる。なお、このように算出した平坦さは、音声区間の平坦さをＦＬＴｖ、雑音区間の平坦さをＦＬＴｎとすればＦＬＴｖ＞ＦＬＴｎである。
【００６６】
【数１５】

【００６７】
〔９〕周波数分布の平坦さを周波数分布の平均で除算する、またはフレームの平均電力で除算して、除算（正規化）した結果を平坦さとする。〔９〕では、上述の〔１〕〜〔８〕で求めた平坦さを、さらに周波数分布の平均値またはフレームの平均電力で除算して、除算した値を平坦さとするものである。
【００６８】
音声には、大きい音（声）、小さい音があるので、例えば、〔８〕のような隣接帯域間の差分の最大値を周波数分布の平坦さとすると、大きい音声の隣接帯域間の差分の最大値の方が、小さい音声のそれよりも大きくなる。平坦さの算出と全体の音量とは関係ないので、平坦さを算出する際に音量に依存しないようにするには、〔１〕〜〔８〕で求めた平坦さを、その平坦さを求めたときの音の大きさ（周波数分布の平均値またはフレームの平均電力）で除算して正規化すれば、音の大きさによらない処理ができ、さらに高精度に平坦さを算出することが可能になる。
〔１０〕周波数分布から平均値を求め、この平均値に定数を乗算または加算した値をしきい値とし、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとする。図１４は周波数分布の平均値から求めたしきい値を用いて平坦さを求める際の概要を説明するための図である。グラフの横軸は周波数ｋ、縦軸は電力Ｐ[ｋ]であり、信号Ｘ１の電力の周波数分布Ｒ１と信号Ｘ２の周波数分布Ｒ２を示している。
【００６９】
周波数分布Ｒ１の平均値をＰｍ１とし、電力Ｐｍ１に定数を乗算または加算して生成したしきい値をｔｈ１とする。また、周波数分布Ｒ２の平均値をＰｍ２とし、電力Ｐｍ２に定数を乗算または加算して生成したしきい値をｔｈ２とする。
【００７０】
周波数分布Ｒ１に対し、しきい値ｔｈ１が図の位置にあるとする。この場合、しきい値ｔｈ１と周波数帯域の電力との比較を行い、電力がしきい値ｔｈ１を上回る帯域数を数え、この個数を信号Ｘ１の周波数分布Ｒ１の平坦さＦＬＴ１とする。
【００７１】
また、周波数分布Ｒ２に対し、しきい値ｔｈ２が図の位置にあるとする。この場合、しきい値ｔｈ２と周波数帯域の電力との比較を行い、電力がしきい値ｔｈ２を上回る帯域数を数え、この個数を信号Ｘ２の周波数分布Ｒ２の平坦さＦＬＴ２とする。
【００７２】
図からわかるように、ＦＬＴ１＜ＦＬＴ２である。すなわち、しきい値を上回る帯域数が多いほど周波数分布の平坦さは強く、その信号は雑音とみなすことができる（〔１〕〜〔９〕の場合は、音声区間の平坦さをＦＬＴｖ、雑音区間の平坦さをＦＬＴｎとすればＦＬＴｖ＞ＦＬＴｎであったが、〔１０〕の場合はＦＬＴｖ＜ＦＬＴｎとなることに注意）。
【００７３】
これらのことを式で表すと以下の式（１６）で平坦さが求まる。式中のｃｏｕｎｔとは、括弧内の条件を満たした事象を数える手段を表す。また、しきい値を求める式は式（１７ａ）、（１７ｂ）である。なお、COEFFは乗算用定数、CONSTは加算用定数である。
【００７４】
【数１６】

【００７５】
【数１７】

【００７６】
〔１１〕周波数分布から最大値を求め、この最大値に定数を乗算または加算した値をしきい値とし、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとする。〔１０〕では周波数分布から平均値を求め、この平均値からしきい値を生成したが、〔１１〕では周波数分布からを最大値を求め、この最大値からしきい値を生成して、しきい値を超える帯域数を周波数分布の平坦さとするものであり、考え方は〔１０〕と同様なので概要説明は省略する。〔１１〕によって平坦さを求める際の式は以下の式（１８）となり、しきい値の算出式は式（１９ａ）、（１９ｂ）となる。
【００７７】
【数１８】

【００７８】
【数１９】

【００７９】
次に音声／雑音判定部１３について説明する。音声／雑音判定部１３では、平坦さ算出部１２によって上述の〔１〕〜〔１１〕のいずれかから求めた周波数分布の平坦さに対し、あらかじめ用意しておいたしきい値との比較を行うことで、その区間における信号が音声であるか雑音であるかを判定し、判定に応じたフラグを出力する。
【００８０】
図１５は音声区間、雑音区間の判定処理例を示す図である。縦軸は電力、横軸はフレーム（時間）である。音声／雑音判定部１３は、しきい値ＴＨによって、図に示すように音声区間、雑音区間を判別する。
【００８１】
次に音声区間検出装置を適用した具体的な装置例について説明する。図１６はＶＯＸ装置の構成を示す図である。ＶＯＸ装置２０は、区間毎に入力信号を分析し、音声の有無を判定し、判定結果に応じて送信出力のＯＮ／ＯＦＦを行うことで送信部の省電力化を図る装置である。なお、この装置では電力の周波数分布を求めるためにＦＦＴを用い、式（７）で周波数分布の平坦さを求め、かつ正規化を行っている例を示す。
【００８２】
ＶＯＸ装置２０は、マイク２１、Ａ／Ｄ部２２、音声区間検出部２３（図１の音声区間検出装置１０に該当）、エンコーダ２４、送信部２５から構成される。音声区間検出部２３は、ＦＦＴ部２３ａ、電力スペクトル算出部２３ｂ、平均値算出部２３ｃ、差分算出部２３ｄ、差分総和算出部２３ｅ、正規化部２３ｆ、音声／雑音判定部２３ｇから構成される。なお、ＦＦＴ部２３ａ、電力スペクトル算出部２３ｂは、図１の周波数分布算出部１１に該当し、平均値算出部２３ｃ、差分算出部２３ｄ、差分総和算出部２３ｅ、正規化部２３ｆは、図１の平坦さ算出部１２に該当し、音声／雑音判定部２３ｇは、図１の音声／雑音判定部１３に該当する。
〔Ｓ１〕マイク２１から入力された音声がＡ／Ｄ部２２にてディジタル信号に変換され、入力が得られる。
〔Ｓ２〕ＦＦＴ部２３ａは、ＦＦＴを用いて、一定時間（フレーム）毎に入力信号を周波数分析する。
〔Ｓ３〕電力スペクトル算出部２３ｂは、各フレーム毎に得られた入力信号の周波数分析結果から電力を求めることで電力スペクトル（周波数分布）を得る。
〔Ｓ４〕平均値算出部２３ｃは、電力スペクトルの平均を算出する（式（６）により）。
〔Ｓ５〕差分算出部２３ｄは、電力スペクトルから電力スペクトルの平均の差分を算出し、差分総和算出部２３ｅは、差分の総和を算出して平坦さを求める（式（７）により）。
〔Ｓ６〕正規化部２３ｆは、平坦さを電力スペクトルの平均で除算して正規化する。
〔Ｓ７〕音声／雑音判定部２３ｇは、各フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームが音声であるか雑音であるかを判定し、判定結果（フラグ）を出力する。例えば、受信した平坦さがしきい値以上では音声フラグを、しきい値以下では雑音フラグを出力する。
〔Ｓ８〕エンコーダ２４は、入力信号に対して音声符号化を行い、符号データを出力する。
〔Ｓ９〕送信部２５は、エンコーダ２４より得られる符号データと、音声／雑音判定部２３ｇより得られる判定フラグを受け取り、音声フラグの場合、判定フラグと符号データを送信し、雑音フラグの場合、判定フラグのみを送信する。
【００８３】
一般に、携帯電話機では、信号を送信するために大きな電力を消費するが、上記のＶＯＸ装置２０を用いることで、雑音判定時には符号データを送信しないので、電力消費を抑えることができる。
【００８４】
また、ＶＯＸ装置２０を用いることで、高精度の音声／雑音の判定を行うため、音声が含まれるフレームで雑音のフレームであると誤判定して、そのフレームの音声情報を送信しないなどといった現象を起すことがない。これにより、音切れの原因をなくすことができ、通話品質（音質）の向上を図ることが可能になる。
【００８５】
次にノイズキャンセラ装置について説明する。図１７はノイズキャンセラ装置の構成を示す図である。ノイズキャンセラとは、入力信号から雑音成分を抑圧することで、音声の明瞭度の向上を図る機能である。この機能は、雑音学習と雑音抑圧（ｎ−１ステップ目で検出した雑音成分を用いて、ｎステップ目の信号に含まれる雑音を除去すること）の切り換えに利用される。なお、この装置では電力の周波数分布を求めるためにバンドパスフィルタによる帯域分割を行い、式（１２）で周波数分布の平坦さを求める場合の例を示す。
【００８６】
ノイズキャンセラ装置３０は、信号受信部３１、デコーダ３２、雑音区間検出部３３（図１の音声区間検出装置１０に該当）、（雑音）抑圧量算出部３４、雑音抑圧部３５、Ｄ／Ａ部３６、スピーカ３７から構成される。
【００８７】
また、雑音区間検出部３３は、帯域分割部３３ａ、狭帯域別フレームパワー算出部３３ｂ、最大値算出部３３ｃ、差分算出部３３ｄ、自乗和算出部３３ｅ、音声／雑音判定部３３ｆから構成される。雑音抑圧量算出部３４は、狭帯域雑音パワー推定部３４ａ、抑圧量算出部３４ｂから構成される。雑音抑圧部３５は、抑圧部３５ａ−１〜３５ａ−ｎ、加算器３５ｂから構成される。
【００８８】
なお、帯域分割部３３ａ、狭帯域別フレームパワー算出部３３ｂは、図１の周波数分布算出部１１に該当し、最大値算出部３３ｃ、差分算出部３３ｄ、自乗和算出部３３ｅは、図１の平坦さ算出部１２に該当し、音声／雑音判定部３３ｆは、図１の音声／雑音判定部１３に該当する。
〔Ｓ１１〕デコーダ３２は、信号受信部３１から得られる符号化データを復号し、雑音区間検出部３３へ送信する。
〔Ｓ１２〕帯域分割部３３ａは、フレーム毎に各帯域に分割し、狭帯域別フレームパワー算出部３３ｂは、帯域毎のフレームパワー（周波数分布）を算出する。
〔Ｓ１３〕最大値算出部３３ｃは、フレームパワーの最大値を算出する（式（１０）により）。差分算出部３３ｄは、フレームパワーからフレームパワーの最大値の差分の絶対値を求め、自乗和算出部３３ｅは、絶対値の自乗和を求め平坦さとして出力する（式（１２）により）。
〔Ｓ１４〕音声／雑音判定部３３ｆは、フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームが音声であるか雑音であるかを判定し、判定フラグを出力する。
〔Ｓ１５〕狭帯域雑音パワー推定部３４ａは、判定フラグが雑音の場合にのみ、各帯域の雑音のパワーを推定し、狭帯域雑音パワーを得る。推定の方法として、例えば、過去に雑音と判定されたフレームでの帯域毎のフレームパワーを平均する方法などがある。
〔Ｓ１６〕抑圧量算出部３４ｂは、狭帯域雑音パワー推定部３４ａで得られた狭帯域雑音パワーと、狭帯域別フレームパワー算出部３３ｂからの各帯域のフレームパワーとを比較し、帯域毎の抑圧量を算出する。例えば、各帯域において、狭帯域雑音パワーよりフレームパワーの方が小さかった場合には、抑圧量を１５ｄＢとし、それ以外の場合には０ｄＢ（抑圧なし）とする。
〔Ｓ１７〕抑圧部３５ａ−１〜３５ａ−ｎは、帯域毎に、帯域分割部３３ａで得られた入力の帯域分割信号に抑圧量算出部３４ｂで得られた抑圧量をかけることで、入力信号のうち、雑音の成分のみを抑圧する。
〔Ｓ１８〕加算器３５ｂは、帯域毎の雑音抑圧後の信号を足し合わせる。
〔Ｓ１９〕Ｄ／Ａ部３６は、加算器３５ｂより得られるディジタル信号をアナログ信号に変換し、スピーカ３７は音声を出力する。
【００８９】
以上説明したように、ノイズキャンセラ装置３０では、高精度の音声／雑音の判定処理を行うので、例えば、音声が含まれるフレームで雑音のフレームであると誤判定して、そのフレームの音声を抑圧してしまうなどといった現象を起すことがない。また、雑音学習の精度を落とすことがないので、雑音抑圧の性能も向上することができ、音声時に抑圧しすぎたり、音切れが発生したり、雑音が残留したりするようなことを防止できるので、通話品質の向上を図ることが可能になる。
【００９０】
図１８はノイズキャンセラ装置の構成を示す図である。この例のノイズキャンセラ装置４０は、電力の周波数分布を求めるためにＦＦＴを使用し、式（１５）で周波数分布の平坦さを求めている。
【００９１】
ノイズキャンセラ装置４０は、信号受信部４１、デコーダ４２、雑音区間検出部４３（図１の音声区間検出装置１０に該当）、（雑音）抑圧量算出部４４、雑音抑圧部４５、Ｄ／Ａ部４６、スピーカ４７から構成される。
【００９２】
また、雑音区間検出部４３は、ＦＦＴ部４３ａ、電力スペクトル算出部４３ｂ、隣接帯域間差分算出部４３ｃ、最大値算出部４３ｄ、音声／雑音判定部４３ｅから構成される。雑音抑圧量算出部４４は、雑音電力スペクトル推定部４４ａ、抑圧量算出部４４ｂから構成される。雑音抑圧部４５は、抑圧部４５ａ、ＩＦＦＴ（Inverse Fast Fourier Transform）部４５ｂから構成される。
【００９３】
なお、ＦＦＴ部４３ａ、電力スペクトル算出部４３ｂは、図１の周波数分布算出部１１に該当し、隣接帯域間差分算出部４３ｃ、最大値算出部４３ｄは、図１の平坦さ算出部１２に該当し、音声／雑音判定部４３ｅは、図１の音声／雑音判定部１３に該当する。
〔Ｓ２１〕デコーダ４２は、信号受信部４１から得られる符号化データを復号し、雑音区間検出部４３へ送信する。
〔Ｓ２２〕ＦＦＴ部４３ａは、ＦＦＴを用いてフレーム毎に入力信号を周波数分析する。電力スペクトル算出部４３ｂは、フレーム毎に得られた入力信号の周波数分析結果から電力を求めることで電力スペクトルを求める。
〔Ｓ２３〕隣接帯域間差分算出部４３ｃは、電力スペクトルから隣接帯域間の差分を求め、最大値算出部４３ｄは、差分の最大値を求め、これを平坦さとして出力する（式（１５）により）。
〔Ｓ２４〕音声／雑音判定部４３ｅは、フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームが音声であるか雑音であるかを判定し、判定フラグを出力する。
〔Ｓ２５〕雑音電力スペクトル推定部４４ａは、音声／雑音判定部４３ｅから得られる判定フラグが雑音の場合に、雑音の電力スペクトルの推定を更新する。
〔Ｓ２６〕抑圧量算出部４４ｂは、雑音の電力スペクトルと該当フレームの電力スペクトルとを比較することで、各帯域の抑圧量を算出する。
〔Ｓ２７〕抑圧部４５ａは、ＦＦＴ部４３ａで得られた周波数分析された入力信号に、抑圧量算出部４４ｂで得られた抑圧量をかけることで、入力信号のうち、雑音の成分のみを抑圧する。ＩＦＦＴ部４５ｂは、抑圧後のフーリエ変換対に逆フーリエ変換を施す。
〔Ｓ２８〕Ｄ／Ａ部４６は、ＩＦＦＴ部４５ｂより得られるディジタル信号をアナログ信号に変換し、スピーカ４７は音声を出力する。
【００９４】
次にトーン検出装置について説明する。図１９はトーン検出装置の構成を示す図である。トーン検出機能とは、トーン信号を検出した場合には、受信信号に加工を加えず、そのまま出力し、トーン信号を検出しなかった場合にのみ、ノイズキャンセラ等の音声信号処理を行うことで、ＤＴＭＦ（DualTone-Multiple Frequency）やＦＡＸ信号を透過させるための機能である。なお、この装置では電力の周波数分布を求めるためにＦＦＴを使用し、式（１８）で周波数分布の平坦さを求める場合の例を示す。
【００９５】
トーン検出装置５０は、信号受信部５１、デコーダ５２、トーン信号検出部５３、信号出力部５４、Ｄ／Ａ部５５、スピーカ５６から構成される。トーン信号検出部５３は、ＦＦＴ部５３ａ、電力スペクトル算出部５３ｂ、最大値算出部５３ｃ、しきい値決定部５３ｄ、帯域数カウント部５３ｅ、トーン判定部５３ｆから構成される。信号出力部５４は、ノイズキャンセル部５４ａ、ＩＦＦＴ部５４ｂ、スイッチ５４ｃから構成される。
【００９６】
なお、ＦＦＴ部５３ａ、電力スペクトル算出部５３ｂは、図１の周波数分布算出部１１に該当し、最大値算出部５３ｃ、しきい値決定部５３ｄ、帯域数カウント部５３ｅは、図１の平坦さ算出部１２に該当し、トーン判定部５３ｆは、図１の音声／雑音判定部１３に該当する。
〔Ｓ３１〕デコーダ５２は、信号受信部５１から得られる符号化データを復号し、トーン信号検出部５３へ送信する。
〔Ｓ３２〕ＦＦＴ部５３ａは、ＦＦＴを用いてフレーム毎に入力信号を周波数分析する。電力スペクトル算出部５３ｂは、フレーム毎に得られた入力信号の周波数分析結果から電力を求めることで電力スペクトルを求める。
〔Ｓ３３〕最大値算出部５３ｃは、電力スペクトルの最大値を求める（式（１０）により）。しきい値決定部５３ｄは最大値にもとづきしきい値を算出する（式（１９ａ）、（１９ｂ）のいずれかにより）。帯域数カウント部５３ｅは、電力スペクトルとしきい値とを比較して帯域数をカウントし、カウント結果を平坦さとして出力する（式（１８）により）。
〔Ｓ３４〕トーン判定部５３ｆは、フレーム毎に得られる平坦さと、あらかじめ用意しておいたしきい値とを比較することで、該当フレームがトーン信号であるか否かを判定し、判定フラグを出力する。
〔Ｓ３５〕ノイズキャンセル部５４ａは、ＦＦＴ部５３ａによるフレーム毎に得られた入力信号の周波数分析結果に、音声処理としてノイズキャンセル処理を施し、雑音を抑圧する。ＩＦＦＴ部５４ｂは、雑音抑圧後のフーリエ変換対に逆フーリエ変換を施す。
〔Ｓ３６〕スイッチ部５４ｃは、判定フラグがトーン信号の場合には、デコーダ５２からの出力を選択し、判定フラグがトーン信号でない場合には、ＩＦＦＴ部５４ｂからの出力を選択する。
〔Ｓ３７〕Ｄ／Ａ部５５は、スイッチ５４ｃより得られるディジタル信号をアナログ信号に変換し、スピーカ５６は音声を出力する。
【００９７】
図２０はトーン信号区間の判定処理を示す図である。縦軸は電力、横軸はフレームである。図からわかるように入力信号がトーン信号の場合は明らかに周波数分布の平坦さが弱くなるので、精度よくトーン信号を検出することが可能になる。
【００９８】
次にエコーキャンセラ装置について説明する。図２１はエコーキャンセラ装置の構成を示す図である。エコーキャンセル機能とは、受信信号に電気信号や音声の出力が入力機器に拾われて起こるエコー発生やハウリングの現象を防止する機能のことである。
【００９９】
エコーキャンセラ装置６０は、マイク６１、Ａ／Ｄ部６２、エコーキャンセル部６３、入力音声区間検出部６４（図１の音声区間検出装置１０に該当）、出力音声区間検出部６５（図１の音声区間検出装置１０に該当）、符号化部６６、復号化部６７、Ｄ／Ａ部６８、スピーカ６９から構成される。また、エコーキャンセル部６３は、エコーキャンセラ６３ａ、状態制御部６３ｂから構成され、入力音声区間検出部６４は、電力スペクトル算出部６４ａ、区間検出部６４ｂから構成され、出力音声区間検出部６５は、電力スペクトル算出部６５ａ、区間検出部６５ｂから構成される。
【０１００】
なお、入力音声区間検出部６４の電力スペクトル算出部６４ａは、図１の周波数分布算出部１１に該当し、区間検出部６４ｂは図１の平坦さ算出部１２及び音声／雑音判定部１３に該当する。また、出力音声区間検出部６５の電力スペクトル算出部６５ａは、図１の周波数分布算出部１１に該当し、区間検出部６５ｂは図１の平坦さ算出部１２及び音声／雑音判定部１３に該当する。
〔Ｓ４１〕マイク６１から入力された音声がＡ／Ｄ部６２にてディジタル信号に変換され、エコーキャンセラ６３ａ及び電力スペクトル算出部６４ａに入力される。
〔Ｓ４２〕電力スペクトル算出部６４ａは、ＦＦＴを行って入力音より電力スペクトルを算出し、区間検出部６４ｂに電力スペクトルを送信する。
〔Ｓ４３〕区間検出部６４ｂは、電力スペクトルより、その平坦さを算出し、現フレームが音声区間であるか否かを判定し、入力音に対する判定フラグ（入力音フラグ）を状態制御部６３ｂへ送信する。
〔Ｓ４４〕復号化部６７は、受信信号（符号データ）を復号化し、電力スペクトル算出部６５ａ、エコーキャンセラ６３ａ、Ｄ／Ａ部６８へ送信する。なお、Ｄ／Ａ部６８は、出力音をアナログ音にして、スピーカ６９は、アナログ音を出力する。
〔Ｓ４５〕電力スペクトル算出部６５ａは、出力音より電力スペクトルを算出し、区間検出部６５ｂに電力スペクトルを送信する。
〔Ｓ４６〕区間検出部６５ｂは、電力スペクトルより、その平坦さを算出し、現フレームが音声区間であるか否かを判定し、出力音に対する判定フラグ（出力音フラグ）を状態制御部６３ｂへ送信する。
〔Ｓ４７〕状態制御部６３ｂは、入力音及び出力音の判定フラグから入出力の状態を検知し、図２２に示すテーブルＴ１にしたがって、制御信号をエコーキャンセラ６３ａに送信する。
〔Ｓ４８〕エコーキャンセラ６３ａは、制御信号（減算）がＯＮの場合、出力音にエコー経路特性をかけることで疑似エコー信号を作成し、入力音から疑似エコー信号を減算する。また、制御信号（学習）がＯＮの場合、エコーキャンセル後の信号から、推定したエコー経路を更新する（更新されたエコー経路は、次ステップで入力音からエコーを取り除く場合の疑似エコー信号の生成に用いられる）。
〔Ｓ４９〕エコーキャンセル後の信号は、符号化部６６によって符号化され送信される。
【０１０１】
以上説明したように、エコーキャンセラ装置６０は、入出力の状態を高精度に検知し、検知した状態に合せて減算・学習の制御を行うので、検知に失敗して、異音や音切れを発生したりするようなことがなく、通話品質の向上を図ることが可能になる。
【０１０２】
以上説明したように、本発明によれば、フレームが音声であるか雑音であるかを判定するための物理量として、周波数分布の平坦さを利用した。これにより、簡単な計算で精度よく音声区間・雑音区間の検出が可能になる。また、電力の周波数分布にもとづき、音声／雑音区間検出を行うので、特に、入力音声の電力が小さい場合や、入力雑音の電力が大きい場合でも誤検出しにくく、効果が大きい。さらに、ノイズキャンセラなどのように、信号の周波数変換を含む音声信号処理に利用する場合には、あらたに時間−周波数変換を行う必要がないので、制御構成を簡略化することができる。
【０１０４】
なお、上記の説明では、音声区間検出装置１０をＶＯＸ装置、ノイズキャンセラ、トーン検出装置、エコーキャンセラ装置に適用した例を示したが、これらに限らず、その他の音声処理を行う多様な装置について幅広く適用可能である。
【０１０５】
（付記１）音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声／雑音判定部と、
を有することを特徴とする音声区間検出装置。
【０１０６】
（付記２）前記周波数分布算出部は、フレーム毎の入力信号に対する周波数分析、またはバンドパスフィルタで入力信号を帯域分割し、分割された帯域毎の信号からフレーム毎の電力算出のいずれかを行って、前記周波数分布を算出することを特徴とする付記１記載の音声区間検出装置。
【０１０７】
（付記３）前記平坦さ算出部は、前記周波数分布の平均を求め、前記周波数分布と平均値との差分の総和を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１０８】
（付記４）前記平坦さ算出部は、前記周波数分布の平均を求め、前記周波数分布と平均値との差分の自乗和を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１０９】
（付記５）前記平坦さ算出部は、前記周波数分布の平均を求め、前記周波数分布と平均値との差分の最大値を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１０】
（付記６）前記平坦さ算出部は、前記周波数分布の最大を求め、前記周波数分布と最大値との差分の総和を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１１】
（付記７）前記平坦さ算出部は、前記周波数分布の最大を求め、前記周波数分布と最大値との差分の自乗和を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１２】
（付記８）前記平坦さ算出部は、前記周波数分布の最大を求め、前記周波数分布と最大値との差分の最大値を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１３】
（付記９）前記平坦さ算出部は、前記周波数分布の隣接帯域間の差分の総和を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１４】
（付記１０）前記平坦さ算出部は、前記周波数分布の隣接帯域間の差分の最大値を、前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１５】
（付記１１）前記平坦さ算出部は、前記周波数分布の平坦さを周波数分布の平均で除算して正規化することを特徴とする付記１記載の音声区間検出装置。
（付記１２）前記平坦さ算出部は、前記周波数分布の平坦さをフレームの平均電力で除算して正規化することを特徴とする付記１記載の音声区間検出装置。
【０１１６】
（付記１３）前記平坦さ算出部は、前記周波数分布から平均値を求め、前記平均値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１７】
（付記１４）前記平坦さ算出部は、前記周波数分布から最大値を求め、前記最大値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記１記載の音声区間検出装置。
【０１１８】
（付記１５）音声の有無に応じて送信信号出力のＯＮ／ＯＦＦを行うＶＯＸ装置において、
入力信号の周波数分布を算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、音声区間を検出した場合は音声フラグを、雑音区間を検出した場合は雑音フラグを出力する音声／雑音判定部と、から構成される音声区間検出部と、
入力信号をエンコードして、符号化データを生成するエンコーダと、
前記音声フラグを受信した場合は、前記符号化データと前記音声フラグとを送信し、前記雑音フラグを受信した場合は、前記雑音フラグのみ送信する送信部と、
を有することを特徴とするＶＯＸ装置。
【０１１９】
（付記１６）信号中の雑音成分を抑圧するノイズキャンセラ装置において、
入力信号をバンドパスフィルタを用いて帯域分割し、周波数分布を帯域毎に算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、雑音区間を検出した場合は雑音フラグを出力する音声／雑音判定部と、から構成される雑音区間検出部と、
前記雑音フラグを受信した場合、入力信号の帯域毎の雑音パワーを推定し、前記雑音パワーと帯域毎のフレームパワーとにもとづき抑圧量を算出する抑圧量算出部と、
入力信号を帯域毎に前記抑圧量に応じて抑圧することで、入力信号のうち雑音成分のみ抑圧する雑音抑圧部と、
を有することを特徴とするノイズキャンセラ装置。
【０１２０】
（付記１７）信号中の雑音成分を抑圧するノイズキャンセラ装置において、
入力信号の周波数分析を行って、周波数分布を算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、雑音区間を検出した場合は雑音フラグを出力する音声／雑音判定部と、から構成される雑音区間検出部と、
前記雑音フラグを受信した場合、入力信号の雑音の雑音電力スペクトルを推定し、前記雑音電力スペクトルとフレーム電力スペクトルとにもとづき抑圧量を算出する抑圧量算出部と、
入力信号を前記抑圧量に応じて抑圧することで、入力信号のうち雑音成分のみ抑圧する雑音抑圧部と、
を有することを特徴とするノイズキャンセラ装置。
【０１２１】
（付記１８）トーン信号を検出するトーン検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、トーン信号の有無を判定し、トーン信号を検出した場合はトーン検出フラグを出力するトーン判定部と、から構成されるトーン信号検出部と、
入力信号をデコードして、復号化データを生成するデコーダと、
前記トーン検出フラグを受信した場合は、前記復号化データを出力し、前記トーン検出フラグを受信しなかった場合は、前記復号化データに音声処理を施して出力する信号出力部と、
を有することを特徴とするトーン検出装置。
【０１２２】
（付記１９）エコーの発生を抑止するエコーキャンセラ装置において、
入力音の周波数分布を算出する入力音周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する入力音平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力音の音声区間を検出した場合は入力音フラグを出力する入力音判定部と、から構成される入力音声区間検出部と、
出力音の周波数分布を算出する出力音周波数分布算出部と、周波数分布から周波数分布の平坦さを算出する出力音平坦さ算出部と、周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、出力音の音声区間を検出した場合は出力音フラグを出力する出力音判定部と、から構成される出力音声区間検出部と、
前記入力音フラグと前記出力音フラグから入出力状態を認識し、入出力状態に応じて、出力音にエコー経路特性を乗算することで疑似エコー信号を生成して入力音から前記疑似エコー信号を減算する減算処理、またはエコー経路を更新する学習処理を行うエコーキャンセル部と、
を有することを特徴とするエコーキャンセラ装置。
【０１２３】
（付記２０）音声区間の検出を行う音声区間検出方法において、
入力信号の周波数分布を算出し、
周波数分布から周波数分布の平坦さを算出し、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出することを特徴とする音声区間検出方法。
【０１２４】
（付記２１）前記周波数分布を算出する際は、フレーム毎の入力信号に対する周波数分析、またはバンドパスフィルタで入力信号を帯域分割して分割された帯域毎の信号からフレーム毎による電力算出、のいずれかを行うことを特徴とする付記２０記載の音声区間検出方法。
【０１２５】
（付記２２）前記周波数分布の平坦さを算出する際は、前記周波数分布の平均を求めた後に、前記周波数分布と平均値との差分の総和、前記周波数分布と平均値との差分の自乗和、前記周波数分布と平均値との差分の最大値、のいずれかを求めることを特徴とする付記２０記載の音声区間検出方法。
【０１２６】
（付記２３）前記周波数分布の平坦さを算出する際は、前記周波数分布の最大を求めた後に、前記周波数分布と最大値との差分の総和、前記周波数分布と最大値との差分の自乗和、前記周波数分布と最大値との差分の最大値、のいずれかを求めることを特徴とする付記２０記載の音声区間検出方法。
【０１２７】
（付記２４）前記周波数分布の平坦さを算出する際は、前記周波数分布の隣接帯域間の差分の総和、前記周波数分布の隣接帯域間の差分の最大値、のいずれかを求めることを特徴とする付記２０記載の音声区間検出方法。
【０１２８】
（付記２５）前記周波数分布の平坦さを周波数分布の平均で除算、またはフレームの平均電力で除算して正規化することを特徴とする付記２０記載の音声区間検出方法。
【０１２９】
（付記２６）前記周波数分布の平坦さを算出する際は、前記周波数分布から平均値を求め、前記平均値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記２０記載の音声区間検出方法。
【０１３０】
（付記２７）前記周波数分布の平坦さを算出する際は、前記周波数分布から最大値を求め、前記最大値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとすることを特徴とする付記２０記載の音声区間検出方法。
【０１３１】
【発明の効果】
以上説明したように、本発明の音声区間検出装置は、入力信号の周波数分布を算出し、周波数分布の平坦さを算出し、この場合、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとする。そして、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する構成とした。これにより、周波数分布の最大値を求め、周波数分布と最大値との差分の総和を、周波数分布の平坦さとして、音声／雑音の判定を行うため、音声区間を高精度に検出することができ、通話品質の向上を図ることが可能になる。
また、本発明の音声区間検出装置は、入力信号の周波数分布を算出し、周波数分布の平坦さを算出し、この場合、周波数分布の隣接帯域間の差分の総和を、周波数分布の平坦さとする。そして、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する構成とした。これにより、周波数分布の隣接帯域間の差分の総和を、周波数分布の平坦さとして、音声／雑音の判定を行うため、音声区間を高精度に検出することができ、通話品質の向上を図ることが可能になる。
さらに、本発明の音声区間検出装置は、入力信号の周波数分布を算出し、周波数分布の平坦さを算出し、この場合、周波数分布から平均値を求め、平均値からしきい値を生成し、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとする。そして、周波数分布の平坦さとしきい値とを比較して、音声か雑音かを判定し、入力信号の音声区間を検出する構成とした。これにより、周波数分布から平均値を求め、平均値からしきい値を生成し、周波数分布のうちしきい値を超える帯域数を周波数分布の平坦さとして、音声／雑音の判定を行うため、音声区間を高精度に検出することができ、通話品質の向上を図ることが可能になる。
【図面の簡単な説明】
【図１】音声区間検出装置の原理図である。
【図２】電力Ｐ[ｋ]を示す図である。
【図３】帯域分割による電力算出の概念を示す図である。
【図４】式（２）の内容を説明するための図である。
【図５】バンドパスフィルタの周波数特性の例を示す図である。
【図６】電力の周波数分布の例を示す図である。
【図７】周波数分布と平均値との差分の総和から平坦さを求める際の概要を説明するための図である。
【図８】信号の周波数分布を示す図である。
【図９】周波数分布と平均値との差分の自乗和から、平坦さを求める際の概要を説明するための図である。
【図１０】周波数分布と平均値との差分の最大値から平坦さを求める際の概要を説明するための図である。
【図１１】周波数分布と最大値との差分の総和から平坦さを求める際の概要を説明するための図である。
【図１２】周波数分布の隣接帯域間の差分の総和から平坦さを求める際の概要を説明するための図である。
【図１３】周波数分布の隣接帯域間の差分の最大値から平坦さを求める際の概要を説明するための図である。
【図１４】周波数分布の平均値から求めたしきい値を用いて平坦さを求める際の概要を説明するための図である。
【図１５】音声区間、雑音区間の判定処理例を示す図である。
【図１６】ＶＯＸ装置の構成を示す図である。
【図１７】ノイズキャンセラ装置の構成を示す図である。
【図１８】ノイズキャンセラ装置の構成を示す図である。
【図１９】トーン検出装置の構成を示す図である。
【図２０】トーン信号区間の判定処理を示す図である。
【図２１】エコーキャンセラ装置の構成を示す図である。
【図２２】制御テーブルを示す図である。
【符号の説明】
１０音声区間検出装置
１１周波数分布算出部
１２平坦さ算出部
１３音声／雑音判定部

Claims

音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声／雑音判定部と、
を有し、
前記平坦さ算出部は、前記周波数分布の最大値を求め、前記周波数分布と最大値との差分の総和を、前記周波数分布の平坦さとする、
ことを特徴とする音声区間検出装置。
音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声／雑音判定部と、
を有し、
前記平坦さ算出部は、前記周波数分布の隣接帯域間の差分の総和を、前記周波数分布の平坦さとする、
ことを特徴とする音声区間検出装置。
音声区間の検出を行う音声区間検出装置において、
入力信号の周波数分布を算出する周波数分布算出部と、
周波数分布から周波数分布の平坦さを算出する平坦さ算出部と、
周波数分布の平坦さとしきい値とを比較して、音声と雑音の判定を行い、入力信号の音声区間を検出する音声／雑音判定部と、
を有し、
前記平坦さ算出部は、前記周波数分布から平均値を求め、前記平均値からしきい値を生成し、前記周波数分布のうち前記しきい値を超える帯域数を前記周波数分布の平坦さとする、
ことを特徴とする音声区間検出装置。