JPH0844386A

JPH0844386A - 単語認識のための始点、終点の検出方法

Info

Publication number: JPH0844386A
Application number: JP7162697A
Authority: JP
Inventors: Thomas Hoermann; トーマス・ヘールマン; Gregor Rozinaj; グレゴール・ロツィナ
Original assignee: Alcatel NV
Current assignee: Alcatel Lucent NV
Priority date: 1994-06-28
Filing date: 1995-06-28
Publication date: 1996-02-16
Also published as: ES2164725T3; AU2328495A; AU697062B2; EP0690436B1; FI953176A0; EP0690436A2; ATE208081T1; US5794195A; FI953176A; EP0690436A3; DE59509771D1; DE4422545A1

Abstract

(57)【要約】【目的】本発明は、周囲雑音に関係なくスピーチの単
語の始点、終点を検出する方法を提供することを目的と
する。【構成】スピーチ信号がブロックに分割され、特徴ベ
クトルが信号エネルギの関数とブロックの線形予測コー
ディングＬＰＣのセプストラム係数と平均ＬＰＣのセプ
ストラム係数との間の二次偏差の関数との少なくとも２
つの特徴から形成され、平均特徴ベクトルが、無スピー
チインターバルを含むブロックの予め定められた数Ｉか
ら計算され、新しい無スピーチのインターバルが発生し
たときに更新され、特徴ベクトルと平均特徴ベクトル
が、閾値と比較して、無スピーチインターバルとスピー
チが存在するか否かの情報を提供する検査量ｕを決定す
るために使用されて始点及び終点を検出することを特徴
とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、スピーチの認識のため
にスピーチと無スピーチインターバルの両方を認識する
ための方法に関する。本発明は、特にスピーチの認識中
の単語の始点及び終点の検出に関する。

【０００２】

【従来の技術】単語の始点及び終点の検出は、スピーチ
の認識のための、及び高い認識率のための、解決されな
ければならない重要な問題である。基本は始点及び終点
の検出であるので、エネルギは予め決められた時間のイ
ンターバルに対して計算される。計算されたエネルギが
同じく予め決められた閾値を越えるならば、スピーチ、
即ち単語が存在する。エネルギが閾値よりも低いなら
ば、無スピーチインターバルが存在する。従って、この
エネルギの比較は、単語の始まり及び終りが位置する位
置を指示する。

【０００３】しかし、これらの方法は、雑音がないか、
或いは単に非常に均一な雑音が、背景の雑音として生じ
る場合に限り信頼できる操作をする。しかし、閾値は非
常に均一な雑音が存在するならば、調節可能でなければ
ならない。閾値は均一な大きい背景雑音に対して上げら
れ、その結果無スピーチインターバルはスピーチとして
認識されない。

【０００４】しかしながら、特に信号対雑音比が非常に
小さい場合、スピーチとスピーチのインターバルとの間
のエネルギの差が非常に小さいために問題が生じる。こ
れらの問題のために、例えばゼロの通過率のような他の
特徴を使用した、より良いスピーチ／インターバルの検
出を行なう“スピーチ伝達中の周囲の雑音を減らす適応
システム”が開発された（Werner Reich氏の論文の、
“Adaptive Systems toReduce Ambient Noise during S
peech Transmission ”、フレデリカナ大学、カールス
ルーエ市、１９８５年２月、７６乃至９５頁より）。

【０００５】更に、平均出力とゼロ通過率の両方を使っ
て、特徴ベクトルを作り、特徴の統計値を用い、それを
閾値と比較することも開示されている（総合調査の最終
報告、Recognition and Processing of Spoken Speech
with Simple Syntax and Semantics for Information a
nd Guidance Systems ”、２．２章−インターバル検出
機、フレデリカナ大学、カールスルーエ市、１９８９年
１１月２４日）。

【０００６】

【発明が解決しようとする課題】これらの方法の両方を
実行するには、多くの計算が必要とされる。本発明は、
周囲雑音に関係なく、単語の始点、終点を検出する始
点、終点の検出方法を提供することを目的とする。

【０００７】

【課題を解決するための手段】本発明は、検出された始
点がスピーチの始まりを示し、同時に無スピーチインタ
ーバルの最後を示し、検出された終点がスピーチの最後
を示し、同時に無スピーチインターバルの開始を示すス
ピーチ信号における単語の始点及び終点の検出方法にお
いて、スピーチ信号がブロックに分割され、現在の特徴
ベクトルが、少なくとも２つの現在の特徴から形成さ
れ、その第１のものが信号エネルギの関数であり、少な
くとも第２のものが、現在のブロックの線形予測コーデ
ィングＬＰＣのセプストラム係数と平均ＬＰＣのセプス
トラム係数との間の二次偏差の関数であり、平均特徴ベ
クトルが、無スピーチインターバルを含むブロックの予
め定められた数Ｉから計算され、各新しい無スピーチの
インターバルが発生したときに更新され、現在の特徴ベ
クトル及び平均特徴ベクトルが、閾値と比較して、無ス
ピーチインターバルか或いはスピーチが存在するか否か
に関する情報を提供する検査量ｕを決定するために使用
されて始点及び終点を検出することを特徴とする。

【０００８】本発明はまた、スピーチ信号がブロックに
分割され、現在の特徴ベクトルが、第１のものが信号エ
ネルギの関数であり、第２のものがＬＰＣのセプストラ
ム係数の関数である２以上の現在の特徴から形成され、
分布関数が現在の特徴の関数によって計算され、分布関
数の最大関数ＤＭＡＸが、無スピーチインターバルか或
いはスピーチの何れかが検出された始点と終点との間に
おける発生の尺度であることを特徴とする。

【０００９】

【発明の効果】本発明の１つの利点は、頻繁に変化する
周囲雑音にだけでなく、信号対雑音比が非常に小さい、
一定した等しい周囲雑音に関しても、高い単語認識率に
対して必要な始点、終点の正確な検出を行うことができ
る。

【００１０】別の利点は、本発明の方法が、現在まで使
用されてきた方法よりも少ない計算しか必要としないこ
と、及び必要な記憶空間が著しく小さくできることであ
る。別の有効な構成は、請求項２乃至５、７、及び８の
従属請求項において認められ得る。

【００１１】信号対雑音比が小さくても、第２の特徴の
より高い評価によってより良好な始点、終点の検出が行
われ、それによって認識率がより一層高くなることも特
徴である。

【００１２】

【実施例】次は、全体でＮ＝２の異なった特徴が特徴ベ
クトルを決定する、構成例（図示されていない）を説明
する。この構成例において、ブロック当りの走査値の数
はＬ＝１６０である。記憶装置内に入れられる特徴の数
は、Ｉ＝１６に等しい。現在のブロックに対する特徴の
ベクトルｉ＝０、１、２…は、次の式（１）で示され
る。

【００１３】

【数８】

【００１４】特徴のベクトルｃ（ｉ）は、次のように構
成されるＺＣＲ（ｉ）を具備する。好ましくは、Ｋ＝１
０のＬＰＣ（線形予測コーディング(Linear −Predicti
ve−Coding) ）のセプストラム係数が、各ブロック毎に
計算される。経験によって示されるように、この場合、
Ｋ＝１０は良く適した数であるが、より大きいもの及び
より小さいものも選択できる。ＬＰＣのセプストラム係
数は、ここで次のように短縮される。

【００１５】ＣＥＰ（ｎ）ここでｎ＝０…Ｋ−１，Ｋ＝１０（２）時間的により早く決定される後者の値のＬＰＣのセプス
トラム係数は、記憶装置に記憶される。記憶装置は、言
葉の間のインターバル中に決定されるＨ＝４の後者の値
を記憶する。従ってその結果は次の通りになる。

【００１６】ＣＥＰ（ｍ，ｎ）ここでＭ＝０…Ｈ−１，Ｈ＝４ｎ＝０…Ｈ−１，Ｋ＝１０（３）インターバル信号を計算する平均ＬＰＣのセプストラム
係数は、記憶装置内に記憶された値を使って計算される
ことができる。

【００１７】

【数９】

【００１８】従って、特徴ベクトルｃ（ｉ）の特徴ＺＣ
Ｒ（ｉ）は、次のように計算される。

【００１９】

【数１０】

【００２０】従って、ＺＣＲ（ｉ）は、現在のブロック
ｉのＬＰＣのセプストラム係数から、平均のＬＰＣセプ
ストラム係数を引いて、２乗したものである。式（５）
において、ＣＥＰ（ｎ，ｉ）ｉ＝現在のブロックｎ＝０……Ｋ−１，Ｋ＝１０（５ａ）特徴ベクトルｃ（ｉ）の第２の特徴ＢＭＷ（ｉ）は、信
号エネルギの関数である。より正確に言うと、ＢＭＷ
（ｉ）は、平均出力であり、次の式（６）のように計算
される。

【００２１】

【数１１】

【００２２】ここでＬ＝１６０でｉは電流ブロックに等
しい。

【００２３】更に、この方法は、特徴の平均値ｍｐに対
する評価値を計算する。それは、先に説明されたよう
に、Ｉの関数、即ち記憶装置内に記憶された特徴の数と
して決められる。この場合、ｐはそれがインターバルの
認識であることを示す。

【００２４】

【数１２】

【００２５】解かれると、次の式（８）が得られる。

【００２６】

【数１３】

【００２７】変数ｍｗ１及びｍｗ２が短縮型として採用
され、次の式（９）のようになる。

【００２８】

【数１４】

【００２９】共分散マトリックスＳｐは、これらの評価
値から計算される。共分散マトリックスの要素は、特徴
の平均値からの平均二次偏差、及び特徴の偏差とそれら
の平均値との間の統計的依存値を生成する。

【００３０】共分散マトリックスは、次のように決定す
ることができる。

【００３１】

【数１５】

【００３２】

【数１６】

【００３３】採用された変数ＤＩＦＭ１及びＤＩＦＭ２
を使うと、次のように示すことができる。

【００３４】

【数１７】

【００３５】ここでマトリックス要素Ｓ₁₁、Ｓ₁₂、
Ｓ₂₁、及びＳ₂₂を入れて、次のように計算される。

【００３６】

【数１８】

【００３７】Ｓ₁₂＝Ｓ₂₁が適用される。逆共分散マトリ
ックスＳｐ^-1は、定数ＤＥＴを使って、次のように計算
される。

【００３８】

【数１９】

【００３９】検査量ｕは、平均インターバル値ｍｐから
の電流特徴ベクトルｃ（ｉ）の変差の尺度である先の計
算によって決定される。マハラノビス（Mahalano-bis）
距離が、検査量ｕを決定するために決定されなければな
らない。その結果は次の通りである。

【００４０】

【数２０】

【００４１】ここでＺ＝（ＺＲＣ（ｉ）−ｍｗ１）Ｐ＝
（ＢＭＷ（ｉ）−ｍｗ２）、および、

【数２１】

【００４２】それを予め決められた閾値と比較すること
によって、この検査量ｕはスピーチが存在するか否かを
決定するのために使用されることができる。例えば、検
査量ｕが閾値よりも大きいならば、それはスピーチであ
り、さもなければそれは無スピーチインターバルであ
る。閾値は信号エネルギによって予め適合された。

【００４３】インターバル検出機を始動するために、第
１のＩブロック、この場合Ｉ−１６は、無スピーチイン
ターバルとしてみなされて、特徴の統計に対してＩ＝１
６の特徴ベクトルの基数を確立する。実際の始点、終点
の検出は、後続するブロックで始まる。

【００４４】Ｉ＝１６のブロック及び２０ｍｓのブロッ
クの長さが選択される場合、初期化は０．３２秒続く。

【００４５】先に計算された検査量ｕは、全マハラノビ
ス距離に対して決定され、検査量の次の部分を示す。

【００４６】

【数２２】

【００４７】このマハラノビス距離は、スピーチと無ス
ピーチインターバルとの間の閾値との比較に使用され
る。

【００４８】請求項６記載の方法は、構成例によって次
でより詳細に説明される。

【００４９】この構成例において、入力信号は、例えば
２０ｍｓのブロックに分割される。ブロック内では、例
えばＬ＝１６０の走査値が決定される。好ましくはＫ＝
１０のＬＰＣのセプストラム係数が各ブロックに対して
計算される。１０よりも大きい或いは小さい値も選択で
きるので、Ｋ＝１０の値は何等限定を示すものではな
い。ＬＰＣのセプストラムの係数は、Ｋ＝０，１＝Ｋ−
１で、ｉが連続するブロック番号を示す時、ＣＥＰ
（Ｋ，ｉ）によって次のように明らかにされる。

【００５０】単語認識の始点、終点を検出するために、
少なくとも２つの特徴の現在の特徴ベクトルが形成され
る。第１の現在の特徴は、信号エネルギの関数であり、
ＰＣＭ（ｎ）が入力信号のパルス符合変調データである
時、次の式（２７）によって決定される。

【００５１】

【数２３】

【００５２】両方の特徴、ＭＶ（ｍ）並びにＣＥＰ
（Ｋ，ｉ）は、与えられたブロックが無スピーチインタ
ーバルである時、非常に類似している。しかし両方の特
徴はかなり異なっているべきであり、従って始点、終点
の検出は少なくとも第２の特徴によって向上し、それに
よって高い単語認識率を導くことができる。次の方法は
この目的に役立つ。

【００５３】ＣＥＰ（Ｋ，０）及びＭＶ（０）の値は、
次数ｉ＝０により第１のブロックのために決定される。
次のブロックに対するＣＥＰ（Ｋ，ｉ）の値は、次のよ
うに計算される。

【００５４】

【数２４】

【００５５】次のセプストラルの差は、各現在のブロッ
クｉに対する結果である。

【００５６】

【数２５】

【００５７】最後の残りのブロックのＮ＝１６のセプス
トラルの差は、記憶装置に記憶される。最後のＮ＝１６
のエネルギ値はＭＶ（ｉ）もまた、この記憶装置に記憶
される。

【００５８】従って、Ｎ＝１６は、始点、終点検出機を
始動するのに必要とされる。システムは、各連続する現
在のブロックに対して始点、終点の検出を行うことがで
きる。

【００５９】平均セプストラルインターバルＣＤ（ｉ）
は、全てのＮ＝１６のセプストラルインターバルを平均
したものである。

【００６０】

【数２６】

【００６１】これは、式（３１）のような最後のＮ＝１
６のセプストラルインターバルの分布ΔＣＤ（ｉ）を生
じる。またエネルギ差は、次の式によって得られる。

【００６２】

【数２７】

【００６３】上記の式から、最後のＮ＝１６のブロック
によって形成される、平均のエネルギ差も、次の式（３
３）で得られる。

【００６４】

【数２８】

【００６５】結果は次の通りである。分布関数ΔＭＶ
（ｉ）及びΔＣＤ（ｉ）は特に無スピーチインターバル
がある場合にほぼ一定の信号に対して非常に小さい。分
布関数はスピーチに対してより大きい値を出す。その結
果最大関数が形成される。 DMAX（ｉ）＝max{ΔCDｉ，ΔMVｉ} （３４）次のような場合、差を得ることができ、即ちΔＤＭＡＸ
（ｉ）が予め決められた値よりも大きいならば、検出さ
れた信号はスピーチである。その値よりも下であれば、
検出された信号は無スピーチ信号である。

【００６６】この方法を使用する時、音の大きさに差が
あったり、背景の雑音が変化しても、両方の分布値は増
大するが、それらは直ぐにより低い値に再び設定される
ことが示された。

【００６７】以下の説明において、請求項１の構成例
は、図１によって説明される。特徴のベクトルの特徴の
数はＮ＝２であり、走査値の数がＬ＝１６０であり、記
憶装置に記憶された値の数がＩ＝１６であると仮定す
る。与えられたスピーチ信号がブロックに分割されるこ
とも仮定される。入力データは、第１のステップＩにお
いて読取られ、現在のブロックのＬＰＣのセプストラム
係数が読取られ、信号エネルギの走査値が読取られる。
第２のステップIIにおいて、この構成例においてセプス
トラルインターバル及び平均値である現在のブロックｉ
の特徴が計算される。第１の決定要素ＥＩは、現在のブ
ロックｉの順序番号がＩよりも大きいか否かを決定す
る。この場合、ＩはＩ＝１６に対応する。

【００６８】ｉがＩよりも大きくなく、ＥＩよる決定が
ノーである場合、次の通路が特徴記憶装置を始動するの
に取られる。第３のステップIII は、現在のブロックｉ
が無スピーチインターバルを示すことを決定する。特徴
は第４のステップＩＶにおいて特徴の記憶装置内に書き
込まれる。次の第２の決定要素ＥIIは、現在のブロック
ｉがＩに等しいかどうかを決定する。ｉがＩに等しくな
く、ＥIIによる決定がノーである場合、第１のシーケン
スは「終了」で終り、次のブロックに対するシーケンス
はステップＩで再び始めることができる。現在のブロッ
クｉがＩに等しい場合、共分散マトリックス及びその行
列式は第５のステップＶにおいて計算される。これも、
第１の連続体の末尾「終了」に続く。

【００６９】第１の決定要素ＥＩが現在のブロックｉが
Ｉよりも大きいことを認め、ＥＩによる決定がイエスで
ある場合、検査量ｕは、６番目のステップＶＩでマハラ
ノビス距離を計算することによって形成される。第７の
ステップＶIIにおいて、検査量ｕは閾値と比較されて、
スピーチか或いは無スピーチインターバルが存在するか
を決定する。第３の決定要素ＥIII は無スピーチインタ
ーバルが存在するかどうかを決定する。無スピーチイン
ターバルが存在しない、従って決定がノーである場合、
第８のステップＶIII はスピーチが現在のブロック内に
存在することを示す。

【００７０】これも連続体を「終了」で終わる。無スピ
ーチインターバルが第３の決定要素ＥIII において存在
し、決定がイエスである場合、第９のステップＩＸは無
スピーチインターバルが存在することを示す。平均特徴
ベクトルは、現在の特徴ベクトルの助けを借りて更新さ
れる。共分散マトリックス及びその行列式は第１０のス
テップで計算される。これも「終了」で連続体を終え
る。

【００７１】以下において、単語認識のための始点、終
点を検出するための方法が、図２によって詳細に説明さ
れる。

【００７２】入力信号によるデータは、第１のステップ
１で読取られる。この場合、これらはＬＰＣのセプスト
ラム係数及び現在のブロックの平均信号エネルギであり
得る。第２のステップ２において、ＬＰＣのセプストラ
ム係数の分布並びに信号エネルギの分布は、夫々最後の
１６のブロックに対して計算される。更に、最大ＬＰＣ
セプストラムの分布関数及び平均信号エネルギの分布関
数から構成される最大関数ＤＭＡＸが形成される。次の
第１の決定要素Ｅ１は、現在のブロックが第１の１６の
現在のブロックの１つであるかどうかを決定する。肯定
的な決定、即ちイエス、の場合、第３のステップ３は最
後のブロックが無スピーチインターバルを示すことを決
定する。否定的な決定、即ちノー、の場合、第２の決定
要素Ｅ２は、先のブロックがスピーチであったか否かを
決定する。最後のブロック内にスピーチが存在する場
合、第３の決定要素Ｅ３は、スピーチが２秒よりも長い
かどうかを決定する。肯定的な決定の場合、検出された
終点の数を合計するカウンタも、第４のステップ４の期
間中にリセットされる。同様に、単語の長さを示すカウ
ンタがリセットされる。次の決定は、現在のブロックが
無スピーチインターバルを示すことである。

【００７３】第３の決定要素Ｅ３による否定的な決定の
際、第４の決定要素Ｅ４は、最大関数ＤＭＡＸが閾値よ
りも小さいか否かを決定する。最大関数ＤＭＡＸが閾値
よりも小さくない場合、スピーチは現在のブロック内に
存在する。しかし、その前に始点を合計するカウンタが
別のステップ４´でリセットされる。終点を合計するカ
ウンタも再設定される。しかし、単語の長さは現在のブ
ロックの長さによって長くされる。最大関数ＤＭＡＸが
閾値よりも小さい、決定はイエスである場合、終点を合
計するカウンタは第５のステップ５においてよりも大き
くされる。別の第５の決定要素Ｅ５は、無スピーチイン
ターバルの現在の時間は、無スピーチインターバル中に
明らかにされた時間を示す、数えられた終点の数よりも
長いか否かを決定する。否定的な決定の場合、上述の第
４のステップ４は継続し、無スピーチインターバルがブ
ロック内に存在することが決定される。第５の決定要素
Ｅ５による肯定的決定の場合、スピーチが現在のブロッ
ク内に存在することが決定される。

【００７４】先行のブロックがスピーチであったかどう
かを決定した第２の決定要素Ｅ２でスタートすると、否
定的決定の場合、別の決定が第６の決定要素Ｅ６によっ
て行われる。第６の決定要素Ｅ６は、最大関数ＤＭＡＸ
が閾値よりも大きいかどうかを決定する。否定の場合、
即ちノー、の時、終点を合計するカウンタ及び始点を合
計するカウンタの両方が、第６のステップＥ６でリセッ
トされる。更に、無スピーチインターバルがこの現在の
ブロック内に存在することが決定される。

【００７５】肯定、即ちイエス、の場合、始点を合計す
るカウンタは、第７のステップ７においてだけ増加され
る。次の第７の決定要素Ｅ７は、現在の単語、即ちスピ
ーチ、の時間が合計された始点の数よりも大きいかどう
かを決定する。肯定的な結果は、無スピーチインターバ
ルが存在することを決定する。

【００７６】否定的な結果の場合、処理は、第４のステ
ップに対応し且つ全てのカウンタをリセットする第８の
ステップ８に続く。次の決定は、スピーチが現在のブロ
ック内に存在することを示唆する。

【００７７】以下において、本発明の特別な構成が詳細
に説明される。

【００７８】請求項６の方法に関して、分布関数の計算
の結果が非常に正確でなければならないことに留意され
たい。特に値が小さい時、ピリオドの後ろの幾つかの場
所が非常に正確にされなければならない。しかしこの感
度を低めるために、好ましくは基数２の対数が分布関数
のために形成されることができる。

【００７９】次の式（３５）、（３６）に基づいて関数
が作られる。

【００８０】

【数２９】

【００８１】ここで、ΔＬＣＤ（ｉ）及びΔＬＥＤは、
インターバル（０．３１）によって決定されるというこ
とに留意されたい。

【００８２】スピーチか或いは無スピーチインターバル
が存在するか否かを決定するために、次の式に基いて最
大関数が計算される。 Δ DMAX(i)＝max{ΔLCD(i)，ΔLED(i)} （３７）それからそれは閾値と比較され、それに基いて、場合分
けされる。

【００８３】ΔＤＭＡＸ（ｉ）＜閾値ならば、無スピー
チインターバルがブロック内に存在する。

【００８４】その場合、ΔＤＭＡＸ（ｉ）＞閾値なら
ば、スピーチがブロック内に存在する。

【００８５】その場合、ΔＤＭＡＸ（ｉ）＝閾値なら
ば、そのため、これまでにブロック内で検出されたもの
によって、スピーチか或いは無スピーチインターバルの
何れかがブロック内に存在する。

【００８６】特に、逆の決定に対して指示が出されるの
で（図２の説明を参照）、この場合の相違は必ずしも適
用されない。閾値は一定に維持され、背景雑音の大きさ
とは無関係であるということが指摘されるべきである。
従って、請求項６の方法を適用する必要はない。この方
法は、例えば移動車両の中などでのスピーチの認識に特
に適している。

【００８７】請求項１乃至５の方法に関して、周囲の雑
音に応じて、特徴ベクトルの特徴の１つをより高く評価
することが有効であることに留意されたい。追加の平滑
機構も使用され得る。実時間は上述の方法の全てにおい
て実行される。

【図面の簡単な説明】

【図１】請求項１に記載された方法のフロー図。

【図２】請求項６に記載された方法のフロー図。

Claims

【特許請求の範囲】

【請求項１】検出された始点がスピーチの始まりを示
し、同時に無スピーチインターバルの最後を示し、検出
された終点がスピーチの最後を示し、同時に無スピーチ
インターバルの開始を示すスピーチ信号における単語の
始点及び終点の検出方法において、スピーチ信号がブロックに分割され、現在の特徴ベクトルが、少なくとも２つの現在の特徴か
ら形成され、その第１のものが信号エネルギの関数であ
り、少なくとも第２のものが、現在のブロックの線形予
測コーディングＬＰＣのセプストラム係数と平均ＬＰＣ
のセプストラム係数との間の二次偏差の関数であり、平均特徴ベクトルが、無スピーチインターバルを含むブ
ロックの予め定められた数Ｉから計算され、各新しい無
スピーチのインターバルが発生したときに更新され、現在の特徴ベクトル及び平均特徴ベクトルが、閾値と比
較して、無スピーチインターバルか或いはスピーチが存
在するか否かに関する情報を提供する検査量ｕを決定す
るために使用されて始点及び終点を検出することを特徴
とするスピーチ信号における単語の始点及び終点の検出
方法。
【請求項２】現在の特徴ベクトルｃ（ｉ）が、少なく
とも２つの現在の特徴から形成され、【数１】その第１のものＢＭＷ（ｉ）が信号エネルギの関数であ
り、【数２】その第２のものが、現在のＬＰＣのセプストラム係数と
平均ＬＰＣのセプストラム係数との間の二次偏差の関数
であり、【数３】平均特徴ベクトルは、次の式で計算され、【数４】それによって、検査量ｕを決定するために使用される共
分散マトリックスが次の式で計算され、【数５】無スピーチインターバル或いはスピーチが存在すること
に関する情報を与える請求項１記載の方法。
【請求項３】検査量ｕが、マハラノビス距離を計算す
ることによって決定される請求項１または２記載の方
法。
【請求項４】少なくとも第２の現在の特徴が、第１の
現在の特徴とは異なって加重される請求項１乃至３の何
れか１項記載の方法。
【請求項５】周囲雑音のレベルに従って、平滑機構お
よび／または適応的なオン及び／或いはオフ閾値が使用
される請求項１乃至４の何れか１項記載の方法。
【請求項６】スピーチ信号がブロックに分割され、現在の特徴ベクトルが、第１のものが信号エネルギの関
数であり、第２のものがＬＰＣのセプストラム係数の関
数である２以上の現在の特徴から形成され、分布関数が現在の特徴の関数によって計算され、分布関数の最大関数ＤＭＡＸが、無スピーチインターバ
ルか或いはスピーチの何れかが検出された始点と終点と
の間における発生の尺度であることを特徴とするスピー
チ信号の始点及び終点の検出方法。
【請求項７】第１の現在の特徴が信号エネルギの関数
であり、第２の特徴がＬＰＣのセプストラム係数の関数
であり、それぞれ次の式で表され、【数６】ＣＥＰ（ｋ，１）は短時間の平均であり、分布関数は次
の式で得られ、【数７】最大関数、ＤＭＡＸ（ｉ）＝ｍａｘ｛ΔＣＤ（ｉ），Δ
ＭＶ（ｉ）｝を決定するのに使用される請求項６記載の
方法。
【請求項８】 ΔＬＣＤ（ｉ）＝ｌｏｇ₂（ΔＣＤ
（ｉ））及びΔＬＭＶ（ｉ）＝ｌｏｇ₂（ΔＭＶ
（ｉ））によって与えられる対数の分布関数ΔＬＣＤ及
びΔＬＭＶが、無スピーチインターバル或いはスピーチ
が存在するか否かを決定するために、ＤＭＡＸ（ｉ）＝
ｍａｘ｛ΔＬＣＤ（ｉ），ΔＬＭＶ（ｉ）｝のとして定
められた最大関数ＤＭＡＸを決定するのに使用される請
求項７または８項記載の方法。
【請求項９】現在の特徴ベクトルが始点または終点を
検出するために形成され、耐雑音性を備えた少くとも第
２の特徴がこの特徴ベクトルに対して使用されるスピー
チ信号の単語の始点または終点を検出するためのプログ
ラム・モジュール。
【請求項１０】現在の特徴ベクトル、平均特徴ベクト
ル、及び検査量が、請求項１の方法に基いて始点または
終点を検出するように形成される請求項９記載のプログ
ラム・モジュール。