JPH0844386A - 単語認識のための始点、終点の検出方法 - Google Patents
単語認識のための始点、終点の検出方法Info
- Publication number
- JPH0844386A JPH0844386A JP7162697A JP16269795A JPH0844386A JP H0844386 A JPH0844386 A JP H0844386A JP 7162697 A JP7162697 A JP 7162697A JP 16269795 A JP16269795 A JP 16269795A JP H0844386 A JPH0844386 A JP H0844386A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- function
- feature vector
- current
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 28
- 238000005315 distribution function Methods 0.000 claims description 12
- GZPBVLUEICLBOA-UHFFFAOYSA-N 4-(dimethylamino)-3,5-dimethylphenol Chemical compound CN(C)C1=C(C)C=C(O)C=C1C GZPBVLUEICLBOA-UHFFFAOYSA-N 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract 1
- 230000002093 peripheral effect Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 101710161955 Mannitol-specific phosphotransferase enzyme IIA component Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Inspection Of Paper Currency And Valuable Securities (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
- Vehicle Body Suspensions (AREA)
- Communication Control (AREA)
- Radar Systems Or Details Thereof (AREA)
- Character Discrimination (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Debugging And Monitoring (AREA)
- Machine Translation (AREA)
- Control Of Motors That Do Not Use Commutators (AREA)
Abstract
語の始点、終点を検出する方法を提供することを目的と
する。 【構成】 スピーチ信号がブロックに分割され、特徴ベ
クトルが信号エネルギの関数とブロックの線形予測コー
ディングLPCのセプストラム係数と平均LPCのセプ
ストラム係数との間の二次偏差の関数との少なくとも2
つの特徴から形成され、平均特徴ベクトルが、無スピー
チインターバルを含むブロックの予め定められた数Iか
ら計算され、新しい無スピーチのインターバルが発生し
たときに更新され、特徴ベクトルと平均特徴ベクトル
が、閾値と比較して、無スピーチインターバルとスピー
チが存在するか否かの情報を提供する検査量uを決定す
るために使用されて始点及び終点を検出することを特徴
とする。
Description
にスピーチと無スピーチインターバルの両方を認識する
ための方法に関する。本発明は、特にスピーチの認識中
の単語の始点及び終点の検出に関する。
の認識のための、及び高い認識率のための、解決されな
ければならない重要な問題である。基本は始点及び終点
の検出であるので、エネルギは予め決められた時間のイ
ンターバルに対して計算される。計算されたエネルギが
同じく予め決められた閾値を越えるならば、スピーチ、
即ち単語が存在する。エネルギが閾値よりも低いなら
ば、無スピーチインターバルが存在する。従って、この
エネルギの比較は、単語の始まり及び終りが位置する位
置を指示する。
或いは単に非常に均一な雑音が、背景の雑音として生じ
る場合に限り信頼できる操作をする。しかし、閾値は非
常に均一な雑音が存在するならば、調節可能でなければ
ならない。閾値は均一な大きい背景雑音に対して上げら
れ、その結果無スピーチインターバルはスピーチとして
認識されない。
小さい場合、スピーチとスピーチのインターバルとの間
のエネルギの差が非常に小さいために問題が生じる。こ
れらの問題のために、例えばゼロの通過率のような他の
特徴を使用した、より良いスピーチ/インターバルの検
出を行なう“スピーチ伝達中の周囲の雑音を減らす適応
システム”が開発された(Werner Reich氏の論文の、
“Adaptive Systems toReduce Ambient Noise during S
peech Transmission ”、フレデリカナ大学、カールス
ルーエ市、1985年2月、76乃至95頁より)。
て、特徴ベクトルを作り、特徴の統計値を用い、それを
閾値と比較することも開示されている(総合調査の最終
報告、Recognition and Processing of Spoken Speech
with Simple Syntax and Semantics for Information a
nd Guidance Systems ”、2.2章−インターバル検出
機、フレデリカナ大学、カールスルーエ市、1989年
11月24日)。
実行するには、多くの計算が必要とされる。本発明は、
周囲雑音に関係なく、単語の始点、終点を検出する始
点、終点の検出方法を提供することを目的とする。
点がスピーチの始まりを示し、同時に無スピーチインタ
ーバルの最後を示し、検出された終点がスピーチの最後
を示し、同時に無スピーチインターバルの開始を示すス
ピーチ信号における単語の始点及び終点の検出方法にお
いて、スピーチ信号がブロックに分割され、現在の特徴
ベクトルが、少なくとも2つの現在の特徴から形成さ
れ、その第1のものが信号エネルギの関数であり、少な
くとも第2のものが、現在のブロックの線形予測コーデ
ィングLPCのセプストラム係数と平均LPCのセプス
トラム係数との間の二次偏差の関数であり、平均特徴ベ
クトルが、無スピーチインターバルを含むブロックの予
め定められた数Iから計算され、各新しい無スピーチの
インターバルが発生したときに更新され、現在の特徴ベ
クトル及び平均特徴ベクトルが、閾値と比較して、無ス
ピーチインターバルか或いはスピーチが存在するか否か
に関する情報を提供する検査量uを決定するために使用
されて始点及び終点を検出することを特徴とする。
分割され、現在の特徴ベクトルが、第1のものが信号エ
ネルギの関数であり、第2のものがLPCのセプストラ
ム係数の関数である2以上の現在の特徴から形成され、
分布関数が現在の特徴の関数によって計算され、分布関
数の最大関数DMAXが、無スピーチインターバルか或
いはスピーチの何れかが検出された始点と終点との間に
おける発生の尺度であることを特徴とする。
周囲雑音にだけでなく、信号対雑音比が非常に小さい、
一定した等しい周囲雑音に関しても、高い単語認識率に
対して必要な始点、終点の正確な検出を行うことができ
る。
用されてきた方法よりも少ない計算しか必要としないこ
と、及び必要な記憶空間が著しく小さくできることであ
る。別の有効な構成は、請求項2乃至5、7、及び8の
従属請求項において認められ得る。
より高い評価によってより良好な始点、終点の検出が行
われ、それによって認識率がより一層高くなることも特
徴である。
クトルを決定する、構成例(図示されていない)を説明
する。この構成例において、ブロック当りの走査値の数
はL=160である。記憶装置内に入れられる特徴の数
は、I=16に等しい。現在のブロックに対する特徴の
ベクトルi=0、1、2…は、次の式(1)で示され
る。
成されるZCR(i)を具備する。好ましくは、K=1
0のLPC(線形予測コーディング(Linear −Predicti
ve−Coding) )のセプストラム係数が、各ブロック毎に
計算される。経験によって示されるように、この場合、
K=10は良く適した数であるが、より大きいもの及び
より小さいものも選択できる。LPCのセプストラム係
数は、ここで次のように短縮される。
トラム係数は、記憶装置に記憶される。記憶装置は、言
葉の間のインターバル中に決定されるH=4の後者の値
を記憶する。従ってその結果は次の通りになる。
係数は、記憶装置内に記憶された値を使って計算される
ことができる。
R(i)は、次のように計算される。
iのLPCのセプストラム係数から、平均のLPCセプ
ストラム係数を引いて、2乗したものである。式(5)
において、 CEP(n,i) i=現在のブロック n=0……K−1,K=10 (5a) 特徴ベクトルc(i)の第2の特徴BMW(i)は、信
号エネルギの関数である。より正確に言うと、BMW
(i)は、平均出力であり、次の式(6)のように計算
される。
しい。
する評価値を計算する。それは、先に説明されたよう
に、Iの関数、即ち記憶装置内に記憶された特徴の数と
して決められる。この場合、pはそれがインターバルの
認識であることを示す。
され、次の式(9)のようになる。
値から計算される。共分散マトリックスの要素は、特徴
の平均値からの平均二次偏差、及び特徴の偏差とそれら
の平均値との間の統計的依存値を生成する。
ることができる。
を使うと、次のように示すことができる。
S21、及びS22を入れて、次のように計算される。
ックスSp-1は、定数DETを使って、次のように計算
される。
の電流特徴ベクトルc(i)の変差の尺度である先の計
算によって決定される。マハラノビス(Mahalano-bis)
距離が、検査量uを決定するために決定されなければな
らない。その結果は次の通りである。
(BMW(i)−mw2)、および、
によって、この検査量uはスピーチが存在するか否かを
決定するのために使用されることができる。例えば、検
査量uが閾値よりも大きいならば、それはスピーチであ
り、さもなければそれは無スピーチインターバルであ
る。閾値は信号エネルギによって予め適合された。
1のIブロック、この場合I−16は、無スピーチイン
ターバルとしてみなされて、特徴の統計に対してI=1
6の特徴ベクトルの基数を確立する。実際の始点、終点
の検出は、後続するブロックで始まる。
クの長さが選択される場合、初期化は0.32秒続く。
ス距離に対して決定され、検査量の次の部分を示す。
ピーチインターバルとの間の閾値との比較に使用され
る。
でより詳細に説明される。
20msのブロックに分割される。ブロック内では、例
えばL=160の走査値が決定される。好ましくはK=
10のLPCのセプストラム係数が各ブロックに対して
計算される。10よりも大きい或いは小さい値も選択で
きるので、K=10の値は何等限定を示すものではな
い。LPCのセプストラムの係数は、K=0,1=K−
1で、iが連続するブロック番号を示す時、CEP
(K,i)によって次のように明らかにされる。
少なくとも2つの特徴の現在の特徴ベクトルが形成され
る。第1の現在の特徴は、信号エネルギの関数であり、
PCM(n)が入力信号のパルス符合変調データである
時、次の式(27)によって決定される。
(K,i)は、与えられたブロックが無スピーチインタ
ーバルである時、非常に類似している。しかし両方の特
徴はかなり異なっているべきであり、従って始点、終点
の検出は少なくとも第2の特徴によって向上し、それに
よって高い単語認識率を導くことができる。次の方法は
この目的に役立つ。
次数i=0により第1のブロックのために決定される。
次のブロックに対するCEP(K,i)の値は、次のよ
うに計算される。
クiに対する結果である。
トラルの差は、記憶装置に記憶される。最後のN=16
のエネルギ値はMV(i)もまた、この記憶装置に記憶
される。
始動するのに必要とされる。システムは、各連続する現
在のブロックに対して始点、終点の検出を行うことがで
きる。
は、全てのN=16のセプストラルインターバルを平均
したものである。
6のセプストラルインターバルの分布ΔCD(i)を生
じる。またエネルギ差は、次の式によって得られる。
によって形成される、平均のエネルギ差も、次の式(3
3)で得られる。
(i)及びΔCD(i)は特に無スピーチインターバル
がある場合にほぼ一定の信号に対して非常に小さい。分
布関数はスピーチに対してより大きい値を出す。その結
果最大関数が形成される。 DMAX(i)=max{ΔCDi,ΔMVi} (34) 次のような場合、差を得ることができ、即ちΔDMAX
(i)が予め決められた値よりも大きいならば、検出さ
れた信号はスピーチである。その値よりも下であれば、
検出された信号は無スピーチ信号である。
あったり、背景の雑音が変化しても、両方の分布値は増
大するが、それらは直ぐにより低い値に再び設定される
ことが示された。
は、図1によって説明される。特徴のベクトルの特徴の
数はN=2であり、走査値の数がL=160であり、記
憶装置に記憶された値の数がI=16であると仮定す
る。与えられたスピーチ信号がブロックに分割されるこ
とも仮定される。入力データは、第1のステップIにお
いて読取られ、現在のブロックのLPCのセプストラム
係数が読取られ、信号エネルギの走査値が読取られる。
第2のステップIIにおいて、この構成例においてセプス
トラルインターバル及び平均値である現在のブロックi
の特徴が計算される。第1の決定要素EIは、現在のブ
ロックiの順序番号がIよりも大きいか否かを決定す
る。この場合、IはI=16に対応する。
ノーである場合、次の通路が特徴記憶装置を始動するの
に取られる。第3のステップIII は、現在のブロックi
が無スピーチインターバルを示すことを決定する。特徴
は第4のステップIVにおいて特徴の記憶装置内に書き
込まれる。次の第2の決定要素EIIは、現在のブロック
iがIに等しいかどうかを決定する。iがIに等しくな
く、EIIによる決定がノーである場合、第1のシーケン
スは「終了」で終り、次のブロックに対するシーケンス
はステップIで再び始めることができる。現在のブロッ
クiがIに等しい場合、共分散マトリックス及びその行
列式は第5のステップVにおいて計算される。これも、
第1の連続体の末尾「終了」に続く。
Iよりも大きいことを認め、EIによる決定がイエスで
ある場合、検査量uは、6番目のステップVIでマハラ
ノビス距離を計算することによって形成される。第7の
ステップVIIにおいて、検査量uは閾値と比較されて、
スピーチか或いは無スピーチインターバルが存在するか
を決定する。第3の決定要素EIII は無スピーチインタ
ーバルが存在するかどうかを決定する。無スピーチイン
ターバルが存在しない、従って決定がノーである場合、
第8のステップVIII はスピーチが現在のブロック内に
存在することを示す。
ーチインターバルが第3の決定要素EIII において存在
し、決定がイエスである場合、第9のステップIXは無
スピーチインターバルが存在することを示す。平均特徴
ベクトルは、現在の特徴ベクトルの助けを借りて更新さ
れる。共分散マトリックス及びその行列式は第10のス
テップで計算される。これも「終了」で連続体を終え
る。
点を検出するための方法が、図2によって詳細に説明さ
れる。
1で読取られる。この場合、これらはLPCのセプスト
ラム係数及び現在のブロックの平均信号エネルギであり
得る。第2のステップ2において、LPCのセプストラ
ム係数の分布並びに信号エネルギの分布は、夫々最後の
16のブロックに対して計算される。更に、最大LPC
セプストラムの分布関数及び平均信号エネルギの分布関
数から構成される最大関数DMAXが形成される。次の
第1の決定要素E1は、現在のブロックが第1の16の
現在のブロックの1つであるかどうかを決定する。肯定
的な決定、即ちイエス、の場合、第3のステップ3は最
後のブロックが無スピーチインターバルを示すことを決
定する。否定的な決定、即ちノー、の場合、第2の決定
要素E2は、先のブロックがスピーチであったか否かを
決定する。最後のブロック内にスピーチが存在する場
合、第3の決定要素E3は、スピーチが2秒よりも長い
かどうかを決定する。肯定的な決定の場合、検出された
終点の数を合計するカウンタも、第4のステップ4の期
間中にリセットされる。同様に、単語の長さを示すカウ
ンタがリセットされる。次の決定は、現在のブロックが
無スピーチインターバルを示すことである。
際、第4の決定要素E4は、最大関数DMAXが閾値よ
りも小さいか否かを決定する。最大関数DMAXが閾値
よりも小さくない場合、スピーチは現在のブロック内に
存在する。しかし、その前に始点を合計するカウンタが
別のステップ4´でリセットされる。終点を合計するカ
ウンタも再設定される。しかし、単語の長さは現在のブ
ロックの長さによって長くされる。最大関数DMAXが
閾値よりも小さい、決定はイエスである場合、終点を合
計するカウンタは第5のステップ5においてよりも大き
くされる。別の第5の決定要素E5は、無スピーチイン
ターバルの現在の時間は、無スピーチインターバル中に
明らかにされた時間を示す、数えられた終点の数よりも
長いか否かを決定する。否定的な決定の場合、上述の第
4のステップ4は継続し、無スピーチインターバルがブ
ロック内に存在することが決定される。第5の決定要素
E5による肯定的決定の場合、スピーチが現在のブロッ
ク内に存在することが決定される。
かを決定した第2の決定要素E2でスタートすると、否
定的決定の場合、別の決定が第6の決定要素E6によっ
て行われる。第6の決定要素E6は、最大関数DMAX
が閾値よりも大きいかどうかを決定する。否定の場合、
即ちノー、の時、終点を合計するカウンタ及び始点を合
計するカウンタの両方が、第6のステップE6でリセッ
トされる。更に、無スピーチインターバルがこの現在の
ブロック内に存在することが決定される。
るカウンタは、第7のステップ7においてだけ増加され
る。次の第7の決定要素E7は、現在の単語、即ちスピ
ーチ、の時間が合計された始点の数よりも大きいかどう
かを決定する。肯定的な結果は、無スピーチインターバ
ルが存在することを決定する。
ップに対応し且つ全てのカウンタをリセットする第8の
ステップ8に続く。次の決定は、スピーチが現在のブロ
ック内に存在することを示唆する。
に説明される。
の結果が非常に正確でなければならないことに留意され
たい。特に値が小さい時、ピリオドの後ろの幾つかの場
所が非常に正確にされなければならない。しかしこの感
度を低めるために、好ましくは基数2の対数が分布関数
のために形成されることができる。
が作られる。
インターバル(0.31)によって決定されるというこ
とに留意されたい。
が存在するか否かを決定するために、次の式に基いて最
大関数が計算される。 Δ DMAX(i)=max{ΔLCD(i),ΔLED(i)} (37) それからそれは閾値と比較され、それに基いて、場合分
けされる。
チインターバルがブロック内に存在する。
ば、スピーチがブロック内に存在する。
ば、そのため、これまでにブロック内で検出されたもの
によって、スピーチか或いは無スピーチインターバルの
何れかがブロック内に存在する。
で(図2の説明を参照)、この場合の相違は必ずしも適
用されない。閾値は一定に維持され、背景雑音の大きさ
とは無関係であるということが指摘されるべきである。
従って、請求項6の方法を適用する必要はない。この方
法は、例えば移動車両の中などでのスピーチの認識に特
に適している。
音に応じて、特徴ベクトルの特徴の1つをより高く評価
することが有効であることに留意されたい。追加の平滑
機構も使用され得る。実時間は上述の方法の全てにおい
て実行される。
Claims (10)
- 【請求項1】 検出された始点がスピーチの始まりを示
し、同時に無スピーチインターバルの最後を示し、検出
された終点がスピーチの最後を示し、同時に無スピーチ
インターバルの開始を示すスピーチ信号における単語の
始点及び終点の検出方法において、 スピーチ信号がブロックに分割され、 現在の特徴ベクトルが、少なくとも2つの現在の特徴か
ら形成され、その第1のものが信号エネルギの関数であ
り、少なくとも第2のものが、現在のブロックの線形予
測コーディングLPCのセプストラム係数と平均LPC
のセプストラム係数との間の二次偏差の関数であり、 平均特徴ベクトルが、無スピーチインターバルを含むブ
ロックの予め定められた数Iから計算され、各新しい無
スピーチのインターバルが発生したときに更新され、 現在の特徴ベクトル及び平均特徴ベクトルが、閾値と比
較して、無スピーチインターバルか或いはスピーチが存
在するか否かに関する情報を提供する検査量uを決定す
るために使用されて始点及び終点を検出することを特徴
とするスピーチ信号における単語の始点及び終点の検出
方法。 - 【請求項2】 現在の特徴ベクトルc(i)が、少なく
とも2つの現在の特徴から形成され、 【数1】 その第1のものBMW(i)が信号エネルギの関数であ
り、 【数2】 その第2のものが、現在のLPCのセプストラム係数と
平均LPCのセプストラム係数との間の二次偏差の関数
であり、 【数3】 平均特徴ベクトルは、次の式で計算され、 【数4】 それによって、検査量uを決定するために使用される共
分散マトリックスが次の式で計算され、 【数5】 無スピーチインターバル或いはスピーチが存在すること
に関する情報を与える請求項1記載の方法。 - 【請求項3】 検査量uが、マハラノビス距離を計算す
ることによって決定される請求項1または2記載の方
法。 - 【請求項4】 少なくとも第2の現在の特徴が、第1の
現在の特徴とは異なって加重される請求項1乃至3の何
れか1項記載の方法。 - 【請求項5】 周囲雑音のレベルに従って、平滑機構お
よび/または適応的なオン及び/或いはオフ閾値が使用
される請求項1乃至4の何れか1項記載の方法。 - 【請求項6】 スピーチ信号がブロックに分割され、 現在の特徴ベクトルが、第1のものが信号エネルギの関
数であり、第2のものがLPCのセプストラム係数の関
数である2以上の現在の特徴から形成され、 分布関数が現在の特徴の関数によって計算され、 分布関数の最大関数DMAXが、無スピーチインターバ
ルか或いはスピーチの何れかが検出された始点と終点と
の間における発生の尺度であることを特徴とするスピー
チ信号の始点及び終点の検出方法。 - 【請求項7】 第1の現在の特徴が信号エネルギの関数
であり、第2の特徴がLPCのセプストラム係数の関数
であり、それぞれ次の式で表され、 【数6】 CEP(k,1)は短時間の平均であり、分布関数は次
の式で得られ、 【数7】 最大関数、DMAX(i)=max{ΔCD(i),Δ
MV(i)}を決定するのに使用される請求項6記載の
方法。 - 【請求項8】 ΔLCD(i)=log2 (ΔCD
(i))及びΔLMV(i)=log2 (ΔMV
(i))によって与えられる対数の分布関数ΔLCD及
びΔLMVが、無スピーチインターバル或いはスピーチ
が存在するか否かを決定するために、DMAX(i)=
max{ΔLCD(i),ΔLMV(i)}のとして定
められた最大関数DMAXを決定するのに使用される請
求項7または8項記載の方法。 - 【請求項9】 現在の特徴ベクトルが始点または終点を
検出するために形成され、耐雑音性を備えた少くとも第
2の特徴がこの特徴ベクトルに対して使用されるスピー
チ信号の単語の始点または終点を検出するためのプログ
ラム・モジュール。 - 【請求項10】 現在の特徴ベクトル、平均特徴ベクト
ル、及び検査量が、請求項1の方法に基いて始点または
終点を検出するように形成される請求項9記載のプログ
ラム・モジュール。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4422545.8 | 1994-06-28 | ||
DE4422545A DE4422545A1 (de) | 1994-06-28 | 1994-06-28 | Start-/Endpunkt-Detektion zur Worterkennung |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0844386A true JPH0844386A (ja) | 1996-02-16 |
Family
ID=6521670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7162697A Pending JPH0844386A (ja) | 1994-06-28 | 1995-06-28 | 単語認識のための始点、終点の検出方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US5794195A (ja) |
EP (1) | EP0690436B1 (ja) |
JP (1) | JPH0844386A (ja) |
AT (1) | ATE208081T1 (ja) |
AU (1) | AU697062B2 (ja) |
DE (2) | DE4422545A1 (ja) |
ES (1) | ES2164725T3 (ja) |
FI (1) | FI953176A (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19624988A1 (de) * | 1996-06-22 | 1998-01-02 | Peter Dr Toma | Verfahren zur automatischen Erkennung eines gesprochenen Textes |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
WO1998057271A1 (en) * | 1997-06-09 | 1998-12-17 | Logovista Corporation | Automatic translation and retranslation system |
US6167251A (en) * | 1998-10-02 | 2000-12-26 | Telespree Communications | Keyless portable cellular phone system having remote voice recognition |
US7274928B2 (en) * | 1998-10-02 | 2007-09-25 | Telespree Communications | Portable cellular phone system having automatic initialization |
US6711536B2 (en) | 1998-10-20 | 2004-03-23 | Canon Kabushiki Kaisha | Speech processing apparatus and method |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
DE19939102C1 (de) * | 1999-08-18 | 2000-10-26 | Siemens Ag | Verfahren und Anordnung zum Erkennen von Sprache |
EP1304682A1 (en) * | 2000-07-05 | 2003-04-23 | Alcatel | Distributed speech recognition system |
EP1170728A1 (en) * | 2000-07-05 | 2002-01-09 | Alcatel | System for adaptively reducing noise in speech signals |
EP1175058A1 (en) * | 2000-07-21 | 2002-01-23 | Alcatel | Processor system, and terminal, and network-unit, and method |
US7277853B1 (en) * | 2001-03-02 | 2007-10-02 | Mindspeed Technologies, Inc. | System and method for a endpoint detection of speech for improved speech recognition in noisy environments |
US7197301B2 (en) * | 2002-03-04 | 2007-03-27 | Telespree Communications | Method and apparatus for secure immediate wireless access in a telecommunications network |
US8046581B2 (en) * | 2002-03-04 | 2011-10-25 | Telespree Communications | Method and apparatus for secure immediate wireless access in a telecommunications network |
GB2388947A (en) * | 2002-05-22 | 2003-11-26 | Domain Dynamics Ltd | Method of voice authentication |
WO2004015552A2 (en) * | 2002-08-12 | 2004-02-19 | Domain Dynamics Limited | Method of authentication |
JP4348970B2 (ja) * | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
KR100654183B1 (ko) * | 2005-11-07 | 2006-12-08 | 한국전자통신연구원 | 음성 인식을 이용한 문자 입력 시스템 및 그 방법 |
WO2008058842A1 (en) * | 2006-11-16 | 2008-05-22 | International Business Machines Corporation | Voice activity detection system and method |
WO2008114448A1 (ja) * | 2007-03-20 | 2008-09-25 | Fujitsu Limited | 音声認識システム、音声認識プログラムおよび音声認識方法 |
US8103503B2 (en) * | 2007-11-01 | 2012-01-24 | Microsoft Corporation | Speech recognition for determining if a user has correctly read a target sentence string |
DE102010033117A1 (de) * | 2010-08-02 | 2012-02-02 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
CN102254558B (zh) * | 2011-07-01 | 2012-10-03 | 重庆邮电大学 | 基于端点检测的智能轮椅语音识别的控制方法 |
US9099098B2 (en) * | 2012-01-20 | 2015-08-04 | Qualcomm Incorporated | Voice activity detection in presence of background noise |
US9595205B2 (en) | 2012-12-18 | 2017-03-14 | Neuron Fuel, Inc. | Systems and methods for goal-based programming instruction |
US10510264B2 (en) | 2013-03-21 | 2019-12-17 | Neuron Fuel, Inc. | Systems and methods for customized lesson creation and application |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
CN105609118B (zh) * | 2015-12-30 | 2020-02-07 | 生迪智慧科技有限公司 | 语音检测方法及装置 |
CN107799126B (zh) * | 2017-10-16 | 2020-10-16 | 苏州狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN108172242B (zh) * | 2018-01-08 | 2021-06-01 | 深圳市芯中芯科技有限公司 | 一种改进的蓝牙智能云音箱语音交互端点检测方法 |
CN108847218B (zh) * | 2018-06-27 | 2020-07-21 | 苏州浪潮智能科技有限公司 | 一种自适应门限整定语音端点检测方法,设备及可读存储介质 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
US4410763A (en) * | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
US4627091A (en) * | 1983-04-01 | 1986-12-02 | Rca Corporation | Low-energy-content voice detection apparatus |
JPS603700A (ja) * | 1983-06-22 | 1985-01-10 | 日本電気株式会社 | 音声検出方式 |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
US5241649A (en) * | 1985-02-18 | 1993-08-31 | Matsushita Electric Industrial Co., Ltd. | Voice recognition method |
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
DE3739681A1 (de) * | 1987-11-24 | 1989-06-08 | Philips Patentverwaltung | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens |
CN1013525B (zh) * | 1988-11-16 | 1991-08-14 | 中国科学院声学研究所 | 认人与不认人实时语音识别的方法和装置 |
US5062137A (en) * | 1989-07-27 | 1991-10-29 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
KR950013551B1 (ko) * | 1990-05-28 | 1995-11-08 | 마쯔시다덴기산교 가부시기가이샤 | 잡음신호예측장치 |
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
-
1994
- 1994-06-28 DE DE4422545A patent/DE4422545A1/de not_active Withdrawn
-
1995
- 1995-06-03 EP EP95108570A patent/EP0690436B1/de not_active Expired - Lifetime
- 1995-06-03 ES ES95108570T patent/ES2164725T3/es not_active Expired - Lifetime
- 1995-06-03 DE DE59509771T patent/DE59509771D1/de not_active Expired - Fee Related
- 1995-06-03 AT AT95108570T patent/ATE208081T1/de not_active IP Right Cessation
- 1995-06-27 FI FI953176A patent/FI953176A/fi unknown
- 1995-06-27 AU AU23284/95A patent/AU697062B2/en not_active Ceased
- 1995-06-28 JP JP7162697A patent/JPH0844386A/ja active Pending
-
1997
- 1997-05-12 US US08/854,472 patent/US5794195A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
ES2164725T3 (es) | 2002-03-01 |
AU2328495A (en) | 1996-01-11 |
AU697062B2 (en) | 1998-09-24 |
EP0690436B1 (de) | 2001-10-31 |
FI953176A0 (fi) | 1995-06-27 |
EP0690436A2 (de) | 1996-01-03 |
ATE208081T1 (de) | 2001-11-15 |
US5794195A (en) | 1998-08-11 |
FI953176A (fi) | 1995-12-29 |
EP0690436A3 (de) | 1997-10-15 |
DE59509771D1 (de) | 2001-12-06 |
DE4422545A1 (de) | 1996-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0844386A (ja) | 単語認識のための始点、終点の検出方法 | |
US8311813B2 (en) | Voice activity detection system and method | |
US8175876B2 (en) | System and method for an endpoint detection of speech for improved speech recognition in noisy environments | |
US6226612B1 (en) | Method of evaluating an utterance in a speech recognition system | |
EP1355296B1 (en) | Keyword detection in a speech signal | |
US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
US9020816B2 (en) | Hidden markov model for speech processing with training method | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
US8140330B2 (en) | System and method for detecting repeated patterns in dialog systems | |
US20070088548A1 (en) | Device, method, and computer program product for determining speech/non-speech | |
US20090076817A1 (en) | Method and apparatus for recognizing speech | |
JPH09127972A (ja) | 連結数字の認識のための発声識別立証 | |
JP2006227628A (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
EP1576580B1 (en) | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames | |
EP1023718B1 (en) | Pattern recognition using multiple reference models | |
US20210134300A1 (en) | Speech processing device, speech processing method and speech processing program | |
EP0831455A2 (en) | Clustering-based signal segmentation | |
US5806031A (en) | Method and recognizer for recognizing tonal acoustic sound signals | |
JPH1185188A (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JP4755555B2 (ja) | 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体 | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
JP3868798B2 (ja) | 音声認識装置 | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP3026855B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040316 |
|
A977 | Report on retrieval |
Effective date: 20051226 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060607 |
|
A521 | Written amendment |
Effective date: 20060807 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061025 |