JPH0844386A - 単語認識のための始点、終点の検出方法 - Google Patents

単語認識のための始点、終点の検出方法

Info

Publication number
JPH0844386A
JPH0844386A JP7162697A JP16269795A JPH0844386A JP H0844386 A JPH0844386 A JP H0844386A JP 7162697 A JP7162697 A JP 7162697A JP 16269795 A JP16269795 A JP 16269795A JP H0844386 A JPH0844386 A JP H0844386A
Authority
JP
Japan
Prior art keywords
speech
function
feature vector
current
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7162697A
Other languages
English (en)
Inventor
Thomas Hoermann
トーマス・ヘールマン
Gregor Rozinaj
グレゴール・ロツィナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent NV
Original Assignee
Alcatel NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel NV filed Critical Alcatel NV
Publication of JPH0844386A publication Critical patent/JPH0844386A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Inspection Of Paper Currency And Valuable Securities (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Vehicle Body Suspensions (AREA)
  • Communication Control (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Character Discrimination (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Debugging And Monitoring (AREA)
  • Machine Translation (AREA)
  • Control Of Motors That Do Not Use Commutators (AREA)

Abstract

(57)【要約】 【目的】 本発明は、周囲雑音に関係なくスピーチの単
語の始点、終点を検出する方法を提供することを目的と
する。 【構成】 スピーチ信号がブロックに分割され、特徴ベ
クトルが信号エネルギの関数とブロックの線形予測コー
ディングLPCのセプストラム係数と平均LPCのセプ
ストラム係数との間の二次偏差の関数との少なくとも2
つの特徴から形成され、平均特徴ベクトルが、無スピー
チインターバルを含むブロックの予め定められた数Iか
ら計算され、新しい無スピーチのインターバルが発生し
たときに更新され、特徴ベクトルと平均特徴ベクトル
が、閾値と比較して、無スピーチインターバルとスピー
チが存在するか否かの情報を提供する検査量uを決定す
るために使用されて始点及び終点を検出することを特徴
とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、スピーチの認識のため
にスピーチと無スピーチインターバルの両方を認識する
ための方法に関する。本発明は、特にスピーチの認識中
の単語の始点及び終点の検出に関する。
【0002】
【従来の技術】単語の始点及び終点の検出は、スピーチ
の認識のための、及び高い認識率のための、解決されな
ければならない重要な問題である。基本は始点及び終点
の検出であるので、エネルギは予め決められた時間のイ
ンターバルに対して計算される。計算されたエネルギが
同じく予め決められた閾値を越えるならば、スピーチ、
即ち単語が存在する。エネルギが閾値よりも低いなら
ば、無スピーチインターバルが存在する。従って、この
エネルギの比較は、単語の始まり及び終りが位置する位
置を指示する。
【0003】しかし、これらの方法は、雑音がないか、
或いは単に非常に均一な雑音が、背景の雑音として生じ
る場合に限り信頼できる操作をする。しかし、閾値は非
常に均一な雑音が存在するならば、調節可能でなければ
ならない。閾値は均一な大きい背景雑音に対して上げら
れ、その結果無スピーチインターバルはスピーチとして
認識されない。
【0004】しかしながら、特に信号対雑音比が非常に
小さい場合、スピーチとスピーチのインターバルとの間
のエネルギの差が非常に小さいために問題が生じる。こ
れらの問題のために、例えばゼロの通過率のような他の
特徴を使用した、より良いスピーチ/インターバルの検
出を行なう“スピーチ伝達中の周囲の雑音を減らす適応
システム”が開発された(Werner Reich氏の論文の、
“Adaptive Systems toReduce Ambient Noise during S
peech Transmission ”、フレデリカナ大学、カールス
ルーエ市、1985年2月、76乃至95頁より)。
【0005】更に、平均出力とゼロ通過率の両方を使っ
て、特徴ベクトルを作り、特徴の統計値を用い、それを
閾値と比較することも開示されている(総合調査の最終
報告、Recognition and Processing of Spoken Speech
with Simple Syntax and Semantics for Information a
nd Guidance Systems ”、2.2章−インターバル検出
機、フレデリカナ大学、カールスルーエ市、1989年
11月24日)。
【0006】
【発明が解決しようとする課題】これらの方法の両方を
実行するには、多くの計算が必要とされる。本発明は、
周囲雑音に関係なく、単語の始点、終点を検出する始
点、終点の検出方法を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明は、検出された始
点がスピーチの始まりを示し、同時に無スピーチインタ
ーバルの最後を示し、検出された終点がスピーチの最後
を示し、同時に無スピーチインターバルの開始を示すス
ピーチ信号における単語の始点及び終点の検出方法にお
いて、スピーチ信号がブロックに分割され、現在の特徴
ベクトルが、少なくとも2つの現在の特徴から形成さ
れ、その第1のものが信号エネルギの関数であり、少な
くとも第2のものが、現在のブロックの線形予測コーデ
ィングLPCのセプストラム係数と平均LPCのセプス
トラム係数との間の二次偏差の関数であり、平均特徴ベ
クトルが、無スピーチインターバルを含むブロックの予
め定められた数Iから計算され、各新しい無スピーチの
インターバルが発生したときに更新され、現在の特徴ベ
クトル及び平均特徴ベクトルが、閾値と比較して、無ス
ピーチインターバルか或いはスピーチが存在するか否か
に関する情報を提供する検査量uを決定するために使用
されて始点及び終点を検出することを特徴とする。
【0008】本発明はまた、スピーチ信号がブロックに
分割され、現在の特徴ベクトルが、第1のものが信号エ
ネルギの関数であり、第2のものがLPCのセプストラ
ム係数の関数である2以上の現在の特徴から形成され、
分布関数が現在の特徴の関数によって計算され、分布関
数の最大関数DMAXが、無スピーチインターバルか或
いはスピーチの何れかが検出された始点と終点との間に
おける発生の尺度であることを特徴とする。
【0009】
【発明の効果】本発明の1つの利点は、頻繁に変化する
周囲雑音にだけでなく、信号対雑音比が非常に小さい、
一定した等しい周囲雑音に関しても、高い単語認識率に
対して必要な始点、終点の正確な検出を行うことができ
る。
【0010】別の利点は、本発明の方法が、現在まで使
用されてきた方法よりも少ない計算しか必要としないこ
と、及び必要な記憶空間が著しく小さくできることであ
る。別の有効な構成は、請求項2乃至5、7、及び8の
従属請求項において認められ得る。
【0011】信号対雑音比が小さくても、第2の特徴の
より高い評価によってより良好な始点、終点の検出が行
われ、それによって認識率がより一層高くなることも特
徴である。
【0012】
【実施例】次は、全体でN=2の異なった特徴が特徴ベ
クトルを決定する、構成例(図示されていない)を説明
する。この構成例において、ブロック当りの走査値の数
はL=160である。記憶装置内に入れられる特徴の数
は、I=16に等しい。現在のブロックに対する特徴の
ベクトルi=0、1、2…は、次の式(1)で示され
る。
【0013】
【数8】
【0014】特徴のベクトルc(i)は、次のように構
成されるZCR(i)を具備する。好ましくは、K=1
0のLPC(線形予測コーディング(Linear −Predicti
ve−Coding) )のセプストラム係数が、各ブロック毎に
計算される。経験によって示されるように、この場合、
K=10は良く適した数であるが、より大きいもの及び
より小さいものも選択できる。LPCのセプストラム係
数は、ここで次のように短縮される。
【0015】CEP(n) ここでn=0…K−1,K=10 (2) 時間的により早く決定される後者の値のLPCのセプス
トラム係数は、記憶装置に記憶される。記憶装置は、言
葉の間のインターバル中に決定されるH=4の後者の値
を記憶する。従ってその結果は次の通りになる。
【0016】CEP(m,n) ここでM=0…H−1,H=4 n=0…H−1,K=10 (3) インターバル信号を計算する平均LPCのセプストラム
係数は、記憶装置内に記憶された値を使って計算される
ことができる。
【0017】
【数9】
【0018】従って、特徴ベクトルc(i)の特徴ZC
R(i)は、次のように計算される。
【0019】
【数10】
【0020】従って、ZCR(i)は、現在のブロック
iのLPCのセプストラム係数から、平均のLPCセプ
ストラム係数を引いて、2乗したものである。式(5)
において、 CEP(n,i) i=現在のブロック n=0……K−1,K=10 (5a) 特徴ベクトルc(i)の第2の特徴BMW(i)は、信
号エネルギの関数である。より正確に言うと、BMW
(i)は、平均出力であり、次の式(6)のように計算
される。
【0021】
【数11】
【0022】ここでL=160でiは電流ブロックに等
しい。
【0023】更に、この方法は、特徴の平均値mpに対
する評価値を計算する。それは、先に説明されたよう
に、Iの関数、即ち記憶装置内に記憶された特徴の数と
して決められる。この場合、pはそれがインターバルの
認識であることを示す。
【0024】
【数12】
【0025】解かれると、次の式(8)が得られる。
【0026】
【数13】
【0027】変数mw1及びmw2が短縮型として採用
され、次の式(9)のようになる。
【0028】
【数14】
【0029】共分散マトリックスSpは、これらの評価
値から計算される。共分散マトリックスの要素は、特徴
の平均値からの平均二次偏差、及び特徴の偏差とそれら
の平均値との間の統計的依存値を生成する。
【0030】共分散マトリックスは、次のように決定す
ることができる。
【0031】
【数15】
【0032】
【数16】
【0033】採用された変数DIFM1及びDIFM2
を使うと、次のように示すことができる。
【0034】
【数17】
【0035】ここでマトリックス要素S11、S12
21、及びS22を入れて、次のように計算される。
【0036】
【数18】
【0037】S12=S21が適用される。逆共分散マトリ
ックスSp-1は、定数DETを使って、次のように計算
される。
【0038】
【数19】
【0039】検査量uは、平均インターバル値mpから
の電流特徴ベクトルc(i)の変差の尺度である先の計
算によって決定される。マハラノビス(Mahalano-bis)
距離が、検査量uを決定するために決定されなければな
らない。その結果は次の通りである。
【0040】
【数20】
【0041】ここでZ=(ZRC(i)−mw1)P=
(BMW(i)−mw2)、および、
【数21】
【0042】それを予め決められた閾値と比較すること
によって、この検査量uはスピーチが存在するか否かを
決定するのために使用されることができる。例えば、検
査量uが閾値よりも大きいならば、それはスピーチであ
り、さもなければそれは無スピーチインターバルであ
る。閾値は信号エネルギによって予め適合された。
【0043】インターバル検出機を始動するために、第
1のIブロック、この場合I−16は、無スピーチイン
ターバルとしてみなされて、特徴の統計に対してI=1
6の特徴ベクトルの基数を確立する。実際の始点、終点
の検出は、後続するブロックで始まる。
【0044】I=16のブロック及び20msのブロッ
クの長さが選択される場合、初期化は0.32秒続く。
【0045】先に計算された検査量uは、全マハラノビ
ス距離に対して決定され、検査量の次の部分を示す。
【0046】
【数22】
【0047】このマハラノビス距離は、スピーチと無ス
ピーチインターバルとの間の閾値との比較に使用され
る。
【0048】請求項6記載の方法は、構成例によって次
でより詳細に説明される。
【0049】この構成例において、入力信号は、例えば
20msのブロックに分割される。ブロック内では、例
えばL=160の走査値が決定される。好ましくはK=
10のLPCのセプストラム係数が各ブロックに対して
計算される。10よりも大きい或いは小さい値も選択で
きるので、K=10の値は何等限定を示すものではな
い。LPCのセプストラムの係数は、K=0,1=K−
1で、iが連続するブロック番号を示す時、CEP
(K,i)によって次のように明らかにされる。
【0050】単語認識の始点、終点を検出するために、
少なくとも2つの特徴の現在の特徴ベクトルが形成され
る。第1の現在の特徴は、信号エネルギの関数であり、
PCM(n)が入力信号のパルス符合変調データである
時、次の式(27)によって決定される。
【0051】
【数23】
【0052】両方の特徴、MV(m)並びにCEP
(K,i)は、与えられたブロックが無スピーチインタ
ーバルである時、非常に類似している。しかし両方の特
徴はかなり異なっているべきであり、従って始点、終点
の検出は少なくとも第2の特徴によって向上し、それに
よって高い単語認識率を導くことができる。次の方法は
この目的に役立つ。
【0053】CEP(K,0)及びMV(0)の値は、
次数i=0により第1のブロックのために決定される。
次のブロックに対するCEP(K,i)の値は、次のよ
うに計算される。
【0054】
【数24】
【0055】次のセプストラルの差は、各現在のブロッ
クiに対する結果である。
【0056】
【数25】
【0057】最後の残りのブロックのN=16のセプス
トラルの差は、記憶装置に記憶される。最後のN=16
のエネルギ値はMV(i)もまた、この記憶装置に記憶
される。
【0058】従って、N=16は、始点、終点検出機を
始動するのに必要とされる。システムは、各連続する現
在のブロックに対して始点、終点の検出を行うことがで
きる。
【0059】平均セプストラルインターバルCD(i)
は、全てのN=16のセプストラルインターバルを平均
したものである。
【0060】
【数26】
【0061】これは、式(31)のような最後のN=1
6のセプストラルインターバルの分布ΔCD(i)を生
じる。またエネルギ差は、次の式によって得られる。
【0062】
【数27】
【0063】上記の式から、最後のN=16のブロック
によって形成される、平均のエネルギ差も、次の式(3
3)で得られる。
【0064】
【数28】
【0065】結果は次の通りである。分布関数ΔMV
(i)及びΔCD(i)は特に無スピーチインターバル
がある場合にほぼ一定の信号に対して非常に小さい。分
布関数はスピーチに対してより大きい値を出す。その結
果最大関数が形成される。 DMAX(i)=max{ΔCDi,ΔMVi} (34) 次のような場合、差を得ることができ、即ちΔDMAX
(i)が予め決められた値よりも大きいならば、検出さ
れた信号はスピーチである。その値よりも下であれば、
検出された信号は無スピーチ信号である。
【0066】この方法を使用する時、音の大きさに差が
あったり、背景の雑音が変化しても、両方の分布値は増
大するが、それらは直ぐにより低い値に再び設定される
ことが示された。
【0067】以下の説明において、請求項1の構成例
は、図1によって説明される。特徴のベクトルの特徴の
数はN=2であり、走査値の数がL=160であり、記
憶装置に記憶された値の数がI=16であると仮定す
る。与えられたスピーチ信号がブロックに分割されるこ
とも仮定される。入力データは、第1のステップIにお
いて読取られ、現在のブロックのLPCのセプストラム
係数が読取られ、信号エネルギの走査値が読取られる。
第2のステップIIにおいて、この構成例においてセプス
トラルインターバル及び平均値である現在のブロックi
の特徴が計算される。第1の決定要素EIは、現在のブ
ロックiの順序番号がIよりも大きいか否かを決定す
る。この場合、IはI=16に対応する。
【0068】iがIよりも大きくなく、EIよる決定が
ノーである場合、次の通路が特徴記憶装置を始動するの
に取られる。第3のステップIII は、現在のブロックi
が無スピーチインターバルを示すことを決定する。特徴
は第4のステップIVにおいて特徴の記憶装置内に書き
込まれる。次の第2の決定要素EIIは、現在のブロック
iがIに等しいかどうかを決定する。iがIに等しくな
く、EIIによる決定がノーである場合、第1のシーケン
スは「終了」で終り、次のブロックに対するシーケンス
はステップIで再び始めることができる。現在のブロッ
クiがIに等しい場合、共分散マトリックス及びその行
列式は第5のステップVにおいて計算される。これも、
第1の連続体の末尾「終了」に続く。
【0069】第1の決定要素EIが現在のブロックiが
Iよりも大きいことを認め、EIによる決定がイエスで
ある場合、検査量uは、6番目のステップVIでマハラ
ノビス距離を計算することによって形成される。第7の
ステップVIIにおいて、検査量uは閾値と比較されて、
スピーチか或いは無スピーチインターバルが存在するか
を決定する。第3の決定要素EIII は無スピーチインタ
ーバルが存在するかどうかを決定する。無スピーチイン
ターバルが存在しない、従って決定がノーである場合、
第8のステップVIII はスピーチが現在のブロック内に
存在することを示す。
【0070】これも連続体を「終了」で終わる。無スピ
ーチインターバルが第3の決定要素EIII において存在
し、決定がイエスである場合、第9のステップIXは無
スピーチインターバルが存在することを示す。平均特徴
ベクトルは、現在の特徴ベクトルの助けを借りて更新さ
れる。共分散マトリックス及びその行列式は第10のス
テップで計算される。これも「終了」で連続体を終え
る。
【0071】以下において、単語認識のための始点、終
点を検出するための方法が、図2によって詳細に説明さ
れる。
【0072】入力信号によるデータは、第1のステップ
1で読取られる。この場合、これらはLPCのセプスト
ラム係数及び現在のブロックの平均信号エネルギであり
得る。第2のステップ2において、LPCのセプストラ
ム係数の分布並びに信号エネルギの分布は、夫々最後の
16のブロックに対して計算される。更に、最大LPC
セプストラムの分布関数及び平均信号エネルギの分布関
数から構成される最大関数DMAXが形成される。次の
第1の決定要素E1は、現在のブロックが第1の16の
現在のブロックの1つであるかどうかを決定する。肯定
的な決定、即ちイエス、の場合、第3のステップ3は最
後のブロックが無スピーチインターバルを示すことを決
定する。否定的な決定、即ちノー、の場合、第2の決定
要素E2は、先のブロックがスピーチであったか否かを
決定する。最後のブロック内にスピーチが存在する場
合、第3の決定要素E3は、スピーチが2秒よりも長い
かどうかを決定する。肯定的な決定の場合、検出された
終点の数を合計するカウンタも、第4のステップ4の期
間中にリセットされる。同様に、単語の長さを示すカウ
ンタがリセットされる。次の決定は、現在のブロックが
無スピーチインターバルを示すことである。
【0073】第3の決定要素E3による否定的な決定の
際、第4の決定要素E4は、最大関数DMAXが閾値よ
りも小さいか否かを決定する。最大関数DMAXが閾値
よりも小さくない場合、スピーチは現在のブロック内に
存在する。しかし、その前に始点を合計するカウンタが
別のステップ4´でリセットされる。終点を合計するカ
ウンタも再設定される。しかし、単語の長さは現在のブ
ロックの長さによって長くされる。最大関数DMAXが
閾値よりも小さい、決定はイエスである場合、終点を合
計するカウンタは第5のステップ5においてよりも大き
くされる。別の第5の決定要素E5は、無スピーチイン
ターバルの現在の時間は、無スピーチインターバル中に
明らかにされた時間を示す、数えられた終点の数よりも
長いか否かを決定する。否定的な決定の場合、上述の第
4のステップ4は継続し、無スピーチインターバルがブ
ロック内に存在することが決定される。第5の決定要素
E5による肯定的決定の場合、スピーチが現在のブロッ
ク内に存在することが決定される。
【0074】先行のブロックがスピーチであったかどう
かを決定した第2の決定要素E2でスタートすると、否
定的決定の場合、別の決定が第6の決定要素E6によっ
て行われる。第6の決定要素E6は、最大関数DMAX
が閾値よりも大きいかどうかを決定する。否定の場合、
即ちノー、の時、終点を合計するカウンタ及び始点を合
計するカウンタの両方が、第6のステップE6でリセッ
トされる。更に、無スピーチインターバルがこの現在の
ブロック内に存在することが決定される。
【0075】肯定、即ちイエス、の場合、始点を合計す
るカウンタは、第7のステップ7においてだけ増加され
る。次の第7の決定要素E7は、現在の単語、即ちスピ
ーチ、の時間が合計された始点の数よりも大きいかどう
かを決定する。肯定的な結果は、無スピーチインターバ
ルが存在することを決定する。
【0076】否定的な結果の場合、処理は、第4のステ
ップに対応し且つ全てのカウンタをリセットする第8の
ステップ8に続く。次の決定は、スピーチが現在のブロ
ック内に存在することを示唆する。
【0077】以下において、本発明の特別な構成が詳細
に説明される。
【0078】請求項6の方法に関して、分布関数の計算
の結果が非常に正確でなければならないことに留意され
たい。特に値が小さい時、ピリオドの後ろの幾つかの場
所が非常に正確にされなければならない。しかしこの感
度を低めるために、好ましくは基数2の対数が分布関数
のために形成されることができる。
【0079】次の式(35)、(36)に基づいて関数
が作られる。
【0080】
【数29】
【0081】ここで、ΔLCD(i)及びΔLEDは、
インターバル(0.31)によって決定されるというこ
とに留意されたい。
【0082】スピーチか或いは無スピーチインターバル
が存在するか否かを決定するために、次の式に基いて最
大関数が計算される。 Δ DMAX(i)=max{ΔLCD(i),ΔLED(i)} (37) それからそれは閾値と比較され、それに基いて、場合分
けされる。
【0083】ΔDMAX(i)<閾値ならば、無スピー
チインターバルがブロック内に存在する。
【0084】その場合、ΔDMAX(i)>閾値なら
ば、スピーチがブロック内に存在する。
【0085】その場合、ΔDMAX(i)=閾値なら
ば、そのため、これまでにブロック内で検出されたもの
によって、スピーチか或いは無スピーチインターバルの
何れかがブロック内に存在する。
【0086】特に、逆の決定に対して指示が出されるの
で(図2の説明を参照)、この場合の相違は必ずしも適
用されない。閾値は一定に維持され、背景雑音の大きさ
とは無関係であるということが指摘されるべきである。
従って、請求項6の方法を適用する必要はない。この方
法は、例えば移動車両の中などでのスピーチの認識に特
に適している。
【0087】請求項1乃至5の方法に関して、周囲の雑
音に応じて、特徴ベクトルの特徴の1つをより高く評価
することが有効であることに留意されたい。追加の平滑
機構も使用され得る。実時間は上述の方法の全てにおい
て実行される。
【図面の簡単な説明】
【図1】請求項1に記載された方法のフロー図。
【図2】請求項6に記載された方法のフロー図。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 検出された始点がスピーチの始まりを示
    し、同時に無スピーチインターバルの最後を示し、検出
    された終点がスピーチの最後を示し、同時に無スピーチ
    インターバルの開始を示すスピーチ信号における単語の
    始点及び終点の検出方法において、 スピーチ信号がブロックに分割され、 現在の特徴ベクトルが、少なくとも2つの現在の特徴か
    ら形成され、その第1のものが信号エネルギの関数であ
    り、少なくとも第2のものが、現在のブロックの線形予
    測コーディングLPCのセプストラム係数と平均LPC
    のセプストラム係数との間の二次偏差の関数であり、 平均特徴ベクトルが、無スピーチインターバルを含むブ
    ロックの予め定められた数Iから計算され、各新しい無
    スピーチのインターバルが発生したときに更新され、 現在の特徴ベクトル及び平均特徴ベクトルが、閾値と比
    較して、無スピーチインターバルか或いはスピーチが存
    在するか否かに関する情報を提供する検査量uを決定す
    るために使用されて始点及び終点を検出することを特徴
    とするスピーチ信号における単語の始点及び終点の検出
    方法。
  2. 【請求項2】 現在の特徴ベクトルc(i)が、少なく
    とも2つの現在の特徴から形成され、 【数1】 その第1のものBMW(i)が信号エネルギの関数であ
    り、 【数2】 その第2のものが、現在のLPCのセプストラム係数と
    平均LPCのセプストラム係数との間の二次偏差の関数
    であり、 【数3】 平均特徴ベクトルは、次の式で計算され、 【数4】 それによって、検査量uを決定するために使用される共
    分散マトリックスが次の式で計算され、 【数5】 無スピーチインターバル或いはスピーチが存在すること
    に関する情報を与える請求項1記載の方法。
  3. 【請求項3】 検査量uが、マハラノビス距離を計算す
    ることによって決定される請求項1または2記載の方
    法。
  4. 【請求項4】 少なくとも第2の現在の特徴が、第1の
    現在の特徴とは異なって加重される請求項1乃至3の何
    れか1項記載の方法。
  5. 【請求項5】 周囲雑音のレベルに従って、平滑機構お
    よび/または適応的なオン及び/或いはオフ閾値が使用
    される請求項1乃至4の何れか1項記載の方法。
  6. 【請求項6】 スピーチ信号がブロックに分割され、 現在の特徴ベクトルが、第1のものが信号エネルギの関
    数であり、第2のものがLPCのセプストラム係数の関
    数である2以上の現在の特徴から形成され、 分布関数が現在の特徴の関数によって計算され、 分布関数の最大関数DMAXが、無スピーチインターバ
    ルか或いはスピーチの何れかが検出された始点と終点と
    の間における発生の尺度であることを特徴とするスピー
    チ信号の始点及び終点の検出方法。
  7. 【請求項7】 第1の現在の特徴が信号エネルギの関数
    であり、第2の特徴がLPCのセプストラム係数の関数
    であり、それぞれ次の式で表され、 【数6】 CEP(k,1)は短時間の平均であり、分布関数は次
    の式で得られ、 【数7】 最大関数、DMAX(i)=max{ΔCD(i),Δ
    MV(i)}を決定するのに使用される請求項6記載の
    方法。
  8. 【請求項8】 ΔLCD(i)=log2 (ΔCD
    (i))及びΔLMV(i)=log2 (ΔMV
    (i))によって与えられる対数の分布関数ΔLCD及
    びΔLMVが、無スピーチインターバル或いはスピーチ
    が存在するか否かを決定するために、DMAX(i)=
    max{ΔLCD(i),ΔLMV(i)}のとして定
    められた最大関数DMAXを決定するのに使用される請
    求項7または8項記載の方法。
  9. 【請求項9】 現在の特徴ベクトルが始点または終点を
    検出するために形成され、耐雑音性を備えた少くとも第
    2の特徴がこの特徴ベクトルに対して使用されるスピー
    チ信号の単語の始点または終点を検出するためのプログ
    ラム・モジュール。
  10. 【請求項10】 現在の特徴ベクトル、平均特徴ベクト
    ル、及び検査量が、請求項1の方法に基いて始点または
    終点を検出するように形成される請求項9記載のプログ
    ラム・モジュール。
JP7162697A 1994-06-28 1995-06-28 単語認識のための始点、終点の検出方法 Pending JPH0844386A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE4422545.8 1994-06-28
DE4422545A DE4422545A1 (de) 1994-06-28 1994-06-28 Start-/Endpunkt-Detektion zur Worterkennung

Publications (1)

Publication Number Publication Date
JPH0844386A true JPH0844386A (ja) 1996-02-16

Family

ID=6521670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7162697A Pending JPH0844386A (ja) 1994-06-28 1995-06-28 単語認識のための始点、終点の検出方法

Country Status (8)

Country Link
US (1) US5794195A (ja)
EP (1) EP0690436B1 (ja)
JP (1) JPH0844386A (ja)
AT (1) ATE208081T1 (ja)
AU (1) AU697062B2 (ja)
DE (2) DE4422545A1 (ja)
ES (1) ES2164725T3 (ja)
FI (1) FI953176A (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19624988A1 (de) * 1996-06-22 1998-01-02 Peter Dr Toma Verfahren zur automatischen Erkennung eines gesprochenen Textes
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
WO1998057271A1 (en) * 1997-06-09 1998-12-17 Logovista Corporation Automatic translation and retranslation system
US6167251A (en) * 1998-10-02 2000-12-26 Telespree Communications Keyless portable cellular phone system having remote voice recognition
US7274928B2 (en) * 1998-10-02 2007-09-25 Telespree Communications Portable cellular phone system having automatic initialization
US6711536B2 (en) 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
EP1304682A1 (en) * 2000-07-05 2003-04-23 Alcatel Distributed speech recognition system
EP1170728A1 (en) * 2000-07-05 2002-01-09 Alcatel System for adaptively reducing noise in speech signals
EP1175058A1 (en) * 2000-07-21 2002-01-23 Alcatel Processor system, and terminal, and network-unit, and method
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7197301B2 (en) * 2002-03-04 2007-03-27 Telespree Communications Method and apparatus for secure immediate wireless access in a telecommunications network
US8046581B2 (en) * 2002-03-04 2011-10-25 Telespree Communications Method and apparatus for secure immediate wireless access in a telecommunications network
GB2388947A (en) * 2002-05-22 2003-11-26 Domain Dynamics Ltd Method of voice authentication
WO2004015552A2 (en) * 2002-08-12 2004-02-19 Domain Dynamics Limited Method of authentication
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
KR100654183B1 (ko) * 2005-11-07 2006-12-08 한국전자통신연구원 음성 인식을 이용한 문자 입력 시스템 및 그 방법
WO2008058842A1 (en) * 2006-11-16 2008-05-22 International Business Machines Corporation Voice activity detection system and method
WO2008114448A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited 音声認識システム、音声認識プログラムおよび音声認識方法
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
DE102010033117A1 (de) * 2010-08-02 2012-02-02 Siemens Aktiengesellschaft Spracherkennungsverfahren
CN102254558B (zh) * 2011-07-01 2012-10-03 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法
US9099098B2 (en) * 2012-01-20 2015-08-04 Qualcomm Incorporated Voice activity detection in presence of background noise
US9595205B2 (en) 2012-12-18 2017-03-14 Neuron Fuel, Inc. Systems and methods for goal-based programming instruction
US10510264B2 (en) 2013-03-21 2019-12-17 Neuron Fuel, Inc. Systems and methods for customized lesson creation and application
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108172242B (zh) * 2018-01-08 2021-06-01 深圳市芯中芯科技有限公司 一种改进的蓝牙智能云音箱语音交互端点检测方法
CN108847218B (zh) * 2018-06-27 2020-07-21 苏州浪潮智能科技有限公司 一种自适应门限整定语音端点检测方法,设备及可读存储介质
CN110867197A (zh) * 2019-10-23 2020-03-06 吴杰 语音交互过程中实时打断语音机器人的方法及设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS603700A (ja) * 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
US4920568A (en) * 1985-07-16 1990-04-24 Sharp Kabushiki Kaisha Method of distinguishing voice from noise
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US5062137A (en) * 1989-07-27 1991-10-29 Matsushita Electric Industrial Co., Ltd. Method and apparatus for speech recognition
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
KR950013551B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 잡음신호예측장치
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal

Also Published As

Publication number Publication date
ES2164725T3 (es) 2002-03-01
AU2328495A (en) 1996-01-11
AU697062B2 (en) 1998-09-24
EP0690436B1 (de) 2001-10-31
FI953176A0 (fi) 1995-06-27
EP0690436A2 (de) 1996-01-03
ATE208081T1 (de) 2001-11-15
US5794195A (en) 1998-08-11
FI953176A (fi) 1995-12-29
EP0690436A3 (de) 1997-10-15
DE59509771D1 (de) 2001-12-06
DE4422545A1 (de) 1996-01-04

Similar Documents

Publication Publication Date Title
JPH0844386A (ja) 単語認識のための始点、終点の検出方法
US8311813B2 (en) Voice activity detection system and method
US8175876B2 (en) System and method for an endpoint detection of speech for improved speech recognition in noisy environments
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
EP1355296B1 (en) Keyword detection in a speech signal
US6535850B1 (en) Smart training and smart scoring in SD speech recognition system with user defined vocabulary
US9020816B2 (en) Hidden markov model for speech processing with training method
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
US20070088548A1 (en) Device, method, and computer program product for determining speech/non-speech
US20090076817A1 (en) Method and apparatus for recognizing speech
JPH09127972A (ja) 連結数字の認識のための発声識別立証
JP2006227628A (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
EP1576580B1 (en) Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
EP1023718B1 (en) Pattern recognition using multiple reference models
US20210134300A1 (en) Speech processing device, speech processing method and speech processing program
EP0831455A2 (en) Clustering-based signal segmentation
US5806031A (en) Method and recognizer for recognizing tonal acoustic sound signals
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
JP4755555B2 (ja) 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
JP2797861B2 (ja) 音声検出方法および音声検出装置
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
JP3868798B2 (ja) 音声認識装置
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP3026855B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040316

A977 Report on retrieval

Effective date: 20051226

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060607

A521 Written amendment

Effective date: 20060807

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061025