JP2001166783A

JP2001166783A - 音声区間検出方法

Info

Publication number: JP2001166783A
Application number: JP35140199A
Authority: JP
Inventors: Kazuyoshi Okura; 計美大倉
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1999-12-10
Filing date: 1999-12-10
Publication date: 2001-06-22

Abstract

(57)【要約】【課題】入力音声信号中の音声区間を検出する際に非
定常雑音による誤検出を防止することを目的とする。【解決手段】入力信号をフレーム単位で分析して現在
のフレームが音声区間か否かを判定する音声区間検出方
法において、基準パワー（SP）及び、現在のフレーム内
に存在する全サンプルのパワーの絶対値での最大値と基
準パワー（SP）との差（Std）に基づく偏差（Var）とに
よって音声検出用閾値（Th）を求め、該音声検出用閾値
（Th）と現在のフレーム内に存在する全サンプルの振幅
の絶対値または全サンプルのパワーの最大値との比較に
よって現在のフレームが音声区間か否かを判定すること
で、音声区間Ｃを検出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声信号より
音声区間を検出する音声区間検出方法に関する。

【０００２】

【従来の技術】従来、音声認識装置等において、入力信
号における音声の区間を検出する方法の１つとして、以
下のような方法が知られている。

【０００３】即ち、マイク等より入力されたアナログの
入力信号をデジタル信号に変換し、これを図２に示すよ
うにフレーム単位で分析し、信号のパワーが所定の閾値
を超えたか否かで音声区間を検出するものである。具体
的には、図２に示すように、例えば、雑音区間の平均パ
ワー（MN）を求め、これに一定の値（α）を乗じて音声
区間検出閾値（Th）とし、入力信号のパワー前記閾値
（Th）を超えた部分から音声が始まり、そして前記閾値
を下回った状態が一定時間継続すれば音声が終了したも
のと判断し、このようにして、図２に示すような音声区
間Ａが検出される。

【０００４】

【発明が解決しようとする課題】ところで、音声入力用
のマイクの置かれている環境において、定常的に存在す
る雑音（以下、定常雑音）については、前記各フレーム
におけるパワーの値にあまり変動はないが、突発的に発
生する非定常な雑音（以下、非定常雑音）の場合、各フ
レーム毎にパワーの値がかなり異なった値となってしま
い、パワーの値の分散が大きくなっている。

【０００５】このような場合、雑音区間の平均パワー
（MN）に乗じる前記値（α）を大きくして音声区間検出
閾値（Th）を高くしないと、例えば図１に示すように、
雑音区間内のパワーの大きな部分を含めて音声区間（図
中の音声区間Ｂ）として誤判定してしまう恐れがある
が、然し乍ら、単純に雑音区間の平均パワー（MN）に乗
じる前記値（α）を大きくすると、今度は音声区間が音
声区間検出閾値（Th）に埋もれてしまい、音声区間であ
るにもかかわらず、これを雑音区間であるとして誤判定
してしまう恐れがあった。

【０００６】

【課題を解決するための手段】上記の課題を解決するた
め本発明では、入力信号をフレーム単位で分析して現在
のフレームが音声区間か否かを判定する音声区間検出方
法において、基準パワー（SP）と、現在のフレーム内に
存在する全サンプルのパワーの絶対値での最大値と基準
パワー（SP）との差（Std）に基づく偏差（Var）とによ
って音声検出用閾値（Th）を求め、該音声検出用閾値
（Th）に基づいて音声区間を検出することを特徴とす
る。

【０００７】また、本発明では、入力信号をフレーム単
位で分析して現在のフレームが音声区間か否かを判定す
る音声区間検出方法において、基準パワー（SP）及び、
現在のフレーム内に存在する全サンプルのパワーの絶対
値での最大値と基準パワー（SP）との差（Std）に基づ
く偏差（Var）とによって音声検出用閾値（Th）を求
め、該音声検出用閾値（Th）と現在のフレーム内に存在
する全サンプルの振幅の絶対値または全サンプルのパワ
ーの最大値との比較によって現在のフレームが音声区間
か否かを判定することを特徴とする。

【０００８】また、本発明では、前記基準パワー（SP）
は、現在のフレームよりも以前のフレームのパワーの平
均であることを特徴とする。

【０００９】また、本発明では、前記基準パワー（SP）
は、現在のフレームのパワーであること特徴とする。

【００１０】また、本発明では、前記音声検出用閾値
（Th）は、下記式によって求められることを特徴とす
る。

【００１１】

【数２】

【００１２】但し、［α］は音声検出用閾値（Th）を調
整するための所定の値である。

【００１３】

【発明の実施の形態】以下、本発明の音声区間検出方法
について詳述する。

【００１４】先ず、［t］番目のフレーム（以下、フレ
ーム［t］）のパワーをMN(t)とすると、フレーム［t］
のパワーMN(t)は、フレーム［t］内に存在する全サンプ
ルのパワーの絶対値の平均であり、下記の式１によって
求められる。

【００１５】

【数３】

【００１６】尚、上記式１において、Nは１フレーム中
のサンプル総数であり、１フレームが２５６サンプルで
構成されていればN=256である。また、x(t,i)は第tフレ
ームの［i］番目のサンプルのパワー値である。

【００１７】次に、フレーム［t］の基準パワーをSP(t)
とすると、基準パワーSP(t)は下記の式２によって求め
られる。

【００１８】

【数４】

【００１９】尚、上記式２において、Aは基準パワーSP
(t)の値を調整するための定数であり、０≦A＜１である
（ただし、t=0のときはA=0とする）。

【００２０】また、フレーム［t］のパワーの絶対値で
の最大値｜x(t,max)｜と、過去のフレーム［t-c］（cは
正の整数）の基準パワーSP(t-c)との差をStd(t)とする
と、パワー差Std(t)は下記式３によって求められる。

【００２１】

【数５】

【００２２】尚、上記式３に変えて、下記式３’の如
く、フレーム［t］のパワーの絶対値での最大値｜x(t,m
ax)｜と、フレーム［t］内に存在する全サンプルのパワ
ーの平均に基づいて求めた基準パワーSP(t)との差を求
める式としてもよい。

【００２３】

【数６】

【００２４】さらに、フレーム［t］の偏差（ばらつ
き）をVar(t)とすると、偏差Var(t)は下記式４によって
求められる。

【００２５】

【数７】

【００２６】尚、Aは前記と同様に偏差Var(t)の値を調
整するための定数であり、0≦A＜1である（ただし、t=0
のときはA=0とする）。

【００２７】そして、音声区間検出閾値Th(t)は下記式
５によって求められる。

【００２８】

【数８】

【００２９】判定対象となる現在のフレームをフレーム
［T］とし、当該フレーム［T］が音声区間か否かを判定
するには、前記の如くして求められた音声区間検出閾値
Th(t)を用い、下記の式６に示す判定基準に従って音声
区間か否かを判定する。

【００３０】

【数９】

【００３１】尚、上記式６において、｜x(T,max)｜は現
在のフレーム［T］のパワーの絶対値での最大値であ
り、αは従来の音声区間検出方法と同様に音声区間検出
閾値Thを調整するための所定の値である。そして、前記
式５で求めた音声区間検出閾値Th(t)は、直前のフレー
ム［T-1］で求めた音声区間検出閾値Th(t=T-1)を用いる
と、パワーが緩やかに変化する信号の場合に音声区間の
検出が正しく行えない恐れがあるため、現在のフレーム
［T］よりも数フレーム前のフレームにおいて求めた音
声区間検出閾値Th(t=T-n)［nは正の整数］を使用するこ
とが望ましい。

【００３２】上記の如き方法の場合、例えば図１の音声
区間Ｃが検出されることになり、雑音区間内のパワーの
大きな部分の影響を受け難いものとなる。

【００３３】尚、上記の例では、図２に示すように先の
フレームの終わり部分と次のフレームの先頭部分が少し
オーバーラップするように各フレームを設定している
が、これに限られず、オーバーラップしないようにフレ
ームを設定しても良い。

【００３４】

【発明の効果】以上、詳述した如く本発明に依れば、入
力信号をフレーム単位で分析して現在のフレームが音声
区間か否かを判定する音声区間検出方法において、基準
パワー（SP）と、現在のフレーム内に存在する全サンプ
ルのパワーの絶対値での最大値と基準パワー（SP）との
差（Std）に基づく偏差（Var）とによって音声検出用閾
値（Th）を求め、該音声検出用閾値（Th）に基づいて音
声区間を検出するようにしたので、従来の音声区間検出
方法と比較して、より正確な音声区間の検出が可能とな
る。

【図面の簡単な説明】

【図１】音声区間の検出方法を説明するための図であ
る。

【図２】音声区間の検出方法を説明するための図であ
る。

Claims

【特許請求の範囲】

【請求項１】入力信号をフレーム単位で分析して現在
のフレームが音声区間か否かを判定する音声区間検出方
法において、基準パワー（SP）と、現在のフレーム内に存在する全サ
ンプルのパワーの絶対値での最大値と基準パワー（SP）
との差（Std）に基づく偏差（Var）とによって音声検出
用閾値（Th）を求め、該音声検出用閾値（Th）に基づい
て音声区間を検出することを特徴とする音声区間検出方
法。
【請求項２】入力信号をフレーム単位で分析して現在
のフレームが音声区間か否かを判定する音声区間検出方
法において、基準パワー（SP）及び、現在のフレーム内に存在する全
サンプルのパワーの絶対値での最大値と基準パワー（S
P）との差（Std）に基づく偏差（Var）とによって音声
検出用閾値（Th）を求め、該音声検出用閾値（Th）と現
在のフレーム内に存在する全サンプルの振幅の絶対値ま
たは全サンプルのパワーの最大値との比較によって現在
のフレームが音声区間か否かを判定することを特徴とす
る音声区間検出方法。
【請求項３】前記基準パワー（SP）は、現在のフレー
ムよりも以前のフレームのパワーの平均であることを特
徴とする請求項１乃至請求項２記載の音声区間検出方
法。
【請求項４】前記基準パワー（SP）は、現在のフレー
ムのパワーであること特徴とする請求項１乃至請求項２
記載の音声区間検出方法。
【請求項５】前記音声検出用閾値（Th）は、下記式に
よって求められることを特徴とする請求項１乃至請求項
４記載の音声検出方法。【数１】但し、［α］は音声検出用閾値（Th）を調整するための
所定の値である。