JPH0797279B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0797279B2
JPH0797279B2 JP61013964A JP1396486A JPH0797279B2 JP H0797279 B2 JPH0797279 B2 JP H0797279B2 JP 61013964 A JP61013964 A JP 61013964A JP 1396486 A JP1396486 A JP 1396486A JP H0797279 B2 JPH0797279 B2 JP H0797279B2
Authority
JP
Japan
Prior art keywords
parameter
voice
dynamic
primary
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61013964A
Other languages
English (en)
Other versions
JPS61177494A (ja
Inventor
マシユー・レニツグ
ポール・マーメルスタイン
ビシユワ・ナソ・グプタ
Original Assignee
ノーザン・テレコム・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノーザン・テレコム・リミテッド filed Critical ノーザン・テレコム・リミテッド
Publication of JPS61177494A publication Critical patent/JPS61177494A/ja
Publication of JPH0797279B2 publication Critical patent/JPH0797279B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)
  • Selective Calling Equipment (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Bidet-Like Cleaning Device And Other Flush Toilet Accessories (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は音声認識装置に関する。より詳細には動的パラ
メータを用いた未知音声のパラメータフレームと同様の
動的パラメータを用いた基準パラメータフレームとを比
較し、未知音声が基準テンプレート中のどの基準音声と
類似するかを決定することによって未知の音声を認識す
る音声認識装置に関する。
[従来の技術] 公知の音声認識装置では、パルス符号変調(PCM)型式
に符号化された音声は前もって処理され、それを人間の
聴覚システムが音声を知覚する方法により密接に関連し
た形状にする。例えば、音声はフィルタバンクエネル
ギ、ケプストラム、メル・周波数ケプストラム、または
線形予測係数を与えるために処理される。その後、認識
ユニット、例えば語、またはシラブルは有効ユニットを
表す一連の基準テンプレートの各々と比較される。最も
ぴったり適合しているテンプレートが未知のユニットで
あると見なされ、そしてテンプレートに対応するユニッ
トのラベルが出力される。
[発明が解決しようとする課題] このような認識装置はある応用には適する。しかしなが
ら、特に電話による話者独立で単語が多い場合の応用に
おいては許容できない誤り率を与えるので、これ等の認
識装置は完全には満足すべきものではない。これは通常
の表現は人間の聴覚システムの応答を充分にモデル化し
ていないためと考えられる。したがって、従来の音声認
識装置ではその認識率が低く不十分なものであった。
[課題を解決するための手段] 本願発明の音声認識装置は、会話音声において、未知音
声のパラメータと基準テンプレータ中の基準パラメータ
とを比較し、未知音声が基準テンプレート中のどの基準
音声と類似するかを決定することによって未知の音声を
認識する装置において、未知音声のパラメータフレーム
U′(U、ΔU)の一次パラメータU(=Ci,j)を生成
するための手段(10、12、14、16、18)と、異なる時間
フレームで生成される一次パラメータUのベクトル差で
ある動的二次パラメータΔU(=ΔCi、j)を計算する手
段(20)と、未知音声のパラメータフレームU′の一次
パラメータと同じパラメータ形式で表現される基準パラ
メータフレームT′(T、ΔT)中の基準一次パラメー
タT(=Ti、j)がストアされ、異なる時間フレームで生
成される基準一次パラメータTのベクトル差である動的
基準二次パラメータΔT(=ΔTi、j)を計算する基準テ
ンプレート手段(24)と、未知音声のパラメータフレー
ムU′の一次パラメータUおよび二次パラメータΔUを
基準パラメータフレームT′中の対応する基準一次パラ
メータTおよび基準二次パラメータΔTとをそれぞれ比
較し、未知の音声が基準テンプレート中のどの音声と類
似するかを決定する手段(22)とを備える。
[実施例] 第1図に例示された音声認識システムでは、信号Snは線
形パルス符号変調(PCM)された音声信号を表してお
り、これは認識されるべき未知の入力音声である。信号
Snはハミングウインドウ手段10に印加される。ハミング
ウインドウ手段10で、信号Snは各々が25.6ミリ秒または
204サンプル期間の時間フレームに分割される。各々の
フレームは12.8ミリ秒または102サンプルだけ進められ
る。従って連続フレームは50パーセントだけオーバーラ
ップする。それから各々の時間フレームは各点毎に2乗
余弦関数とかけ算され、その後フィルタ手段12に印加さ
れる。このハミングウインドウ10はスペクトルのサイド
ロープを減衰させる。
256点高速フーリエ変換が各々の時間フレームについて
行われ、そして128点実数パワースペクトル(F1・・・
・・FN)となる。
ここで、N=/28である。
フィルタ手段12は20個の三角フィルタのフィルタバンク
を具備しており、これ等は8kHzのPCMサンプリングレー
トfsに対して約100Hzから約400Hzまでの範囲にわたり20
チャンネル群内のエネルギを決定する。第2図に例示さ
れるように、チャンネルは100Hzから1000Hzの間ではチ
ャンネル中心周波数が100Hz間隔で、線形に隔てられ、1
100Hzから4000Hzの間では対数関数的にメル間隔でそれ
らの間隔が隔てられる。
各時間フレームに対して、各フィルタチャンネルの出力
は次式に従って得られる重みづけされたメル・周波数チ
ャンネルエネルギBjである。
ここで、Bjはj番目のメル・周波数チャンネルエネルギ
出力、Fiは高速フーリエ変換からのNスペクトル振幅、
iの値は1≦i≦Nであり、Wijは下記のように定義さ
れた重み係数である。
ただし、1≦i≦N、1≦j≦20 ここで、Δf=fs/2N この場合lj、kj、hj(1≦j≦20)は第1表に与えられ
た、各フィルタチャンネルのそれぞれ低域、中心および
高域周波数である。この関係は第2図(b)に示され
る。
信号Bjの20の対数チャンネルのエネルギは次式に従って
対数計算手段14において計算される。
Lj=log10Bj(1≦j≦20) フィルタ手段12および対数計算手段14の出力は、知覚お
よびケプストラム係数計算手段16に印加され、知覚およ
びケプストラム係数計算手段16では知覚音量C0,および
最初の7つのメルを基礎にしたケプストラム係数C1
C2、・・・・・C7を計算する。
知覚音量C0は次式で得られるようにチャンネルエネルギ
Bjを知覚的に重みづけした総和の対数である。
ここで、Vj≧0は知覚的重要性に応じて選択される。Vj
の適切な値は以下の第1表に例示される。
知覚およびケプストラム係数計算手段16は次式のよう
に、対数エネルギLjの余弦変換を行うことによってケプ
ストラム係数Ciを得る。
ここで、1≦i≦7 この係数計算に関しては、1980年8月発行のIEEE会誌
「音響および信号処理」、Vol.ASSP28、第4号、第357
〜366頁、「連続的会話文における単音節語認識のため
のパラメータ表現の比較(Comparison of Parametric R
epresentations for Monosyllabic Word Recognition i
n Continuously Spoken Sentences)」と題するS.B.Dav
isおよびP.Mermelsteinによる論文を参照されたい。
一次パラメータC1、・・・、C7の群と、知覚的に重みづ
けされた音量パラメータC0と含んでいる知覚およびケプ
ストラム係数計算手段16の出力が12.8ミリ秒毎に音声終
点検出手段18に送られる。音声の終点は、時間フレーム
番号の関数として知覚音量パラメータC0の充分な期間お
よび深さの最小値を捜すことによって検出される。
音声終点検出は、多くの公知文献、例えば、1981年8月
発行のIEEE会誌、L.F.Lamel、L.R.Rabiner、A.E.Rosenb
ergおよびJ.G.Wilponによる「音響、音声および信号処
理」、Vol.ASSP-29、第4号、777頁〜785頁の「分離語
認識のための改良された終点検出器(An Improved Endp
oint Detector for Isolated Word Recognition)」に
開示される。
その後、音声間隔または無音が除去され、即ち発生音声
のみが送出される。音声当たりのパラメータフレーム数
Mは線形に隔てられたフレームの除去または繰り返しに
よって、例えばM=32に標準化される。
音声終点検出器18の出力はMメル基準ケプストラムのシ
ーケンスであり、そして次のマトリクスU(=Ci、j)に
よって表される。
この出力信号(認識ユニット表現)Uは動的パラメータ
計算手段20に印加され、動的パラメータ計算手段20は次
の式によって動的パラメータΔU(=ΔCi、j)を計算す
る。
動的パラメータは次式に示すように、異なる時間フレー
ムで生成される一次パラメータUのベクトル差を計算す
ることによって求められる。
ΔU=ΔCi、j=Ci+c,j−Ci-d,j ここで、d+1≦i≦M−c、0≦j≦7、 この場合cは進みフレームセパレーションであり、dは
遅れフレームセパレーションである。
特定のc=d=2の場合、 1≦i<d+1に対しては、 ΔU=ΔCi,j=Ci+c,j−Ci,j M−c<i≦Mに対しては、 ΔU=ΔCi,j=CM,j−Ci-d,j となる。
これらの動的パラメータΔU(=ΔCi,j)は入ってくる
刺激の変化を知覚するための人間の聴覚システムの性質
を取り入れている。したがって、この動的二次パラメー
タを用いることによって入力未知音声の認識率を高める
ことができる。
音声パラメータフレームU′(U、ΔU)は、次のマト
リクスによって表された一次(静的)パラメータU(=
Ci,j)および二次(動的)パラメータΔU(=ΔCi,j
を含んでいる。
この音声パラメータフレームU′は動的パラメータ計算
手段20から比較手段22に印加される。
この音声パラメータフレームU′では、静的音量に対す
るC0ベクトルが使用されていないことに注目すべきであ
る。
このパラメータフレームは、例えば、フィルタバンクエ
ネルギ、ケプストラム、メル基準ケプストラムまたは線
形予測係数を使用した表示形式によって選択された一群
のパラメータを含む。
好ましくは、前記の異なる時間フレームの中心間の時間
差は、20ミリ秒から200ミリ秒、より好ましくは50ミリ
秒である。二次パラメータは前のまたは後の、例えば、
±25ミリ秒、すなわち、±2フレーム離れた、一次パラ
メータから生成されるのが好ましい。
また未知の発音パラメータフレームおよび後述の基準テ
ンプレートのパラメータフレーム双方において、二次パ
ラメータは振幅の変化または知覚音量の変化を表わす成
分を含むのが好ましい。この音量成分は、絶対振幅また
は絶対音量は語を区別するためには有効でないので一次
パラメータとしては通常使用されない。
従って、一般的に、本発明の新方法は短時間間隔(例え
ば、20〜200ミリ秒)にわたって音声認識のために標準
的に使用される短時間の静的な一次パラメータに加え
て、その一次パラメータの各々の変化を表わす動的二次
パラメータを使用する。一次パラメータ加えて動的パラ
メータを使用することによって、音声を区別するために
使用される距離測定または確率密度関数の感度を上げ、
他の相関のない音響差に対して非常に大きな音響差が得
られる。
いかなる種類の短時間スペクトルも一次パラメータ群と
して使用できる。このような表現の実例としてフィルタ
バンク・エネルギ・ケプストラム、メル・周波数ケプス
トラム、線形予測係数等がある。これ等の表現の各々は
少数のパラメータ(典型的には3と80との間)によって
典型的には2ミリ秒と50ミリ秒との間のタイムフレーム
にわたって振幅またはパワースペクトルを推定する。
Ctが時間tにおける計算された一次パラメータのベクト
ルとすれば、タイムオフセットaおよびbは下記のよう
に選択される。
20ミリ秒≦a+b≦200ミリ秒 動的パラメータベクトルΔCtは次式のベクトル差で定義
づけられる。
ΔCt=Ct+a−Ct-b 本発明は時間tの近くの音声信号を表わすために一次パ
ラメータCtと二次パラメータΔCtとの集合を使用する。
従って、確率密度関数および距離は静的一次パラメータ
および動的二次パラメータの双方を用いて定義される。
一方、上記の式はフレーム数によって表わすことができ
る。Δtを隣接するフレーム間の時間差、ciをフレーム
iにおける一次パラメータベクトルとすれば、動的二次
パラメータΔCiは下記のベクトル差として定義される。
好ましくはパラメータはメル基準ケプストラム係数であ
り、その中で一次パラメータC1,・・・・・,Cnはスペ
クトル形状を表わし、二次パラメータΔC1,・・・・・
Cmは特定時間間隔中のスペクトル形状の変化を表わす。
ΔC0は二次パラメータ中に含まれ、音量または振幅の変
化を表わす。
テンプレート手段24には、音声パラメータフレームU′
の一次パラメータU(=Ci、j)に対応した、一次基準パ
ラメータT(=Ti,j)がストアされる。
一次基準パラメータT(=Ti,j)は次のように表され
る。
このパラメータT(=Ti,j)から動的音量成分である二
次パラメータΔT(=ΔTi,j)がΔU(=ΔCi、j)と同
様に計算され、テンプレート手段24から基準テンプレー
トT′(T、ΔT)として出力される。
基準テンプレートフレームT′は同様に比較手段22に印
加される。
未知音声のパラメータフレーム表示U′は基準テンプレ
ートT′と比較手段22で順に比較され、各々の場合につ
いて時間差距離が計算される。その結果未知音声は最小
の時間差距離を有するテンプレートに対応する基準音声
であると推定される。
動的時間差計算は、1983年にD.Sankoff,J.B.Kruskal、A
ddison-Wesly(Reading MA)によって発行された「Time
warps,String Edits,and Macromolecules:The Theory
and Practice of Sequence Comparison」中の163頁〜18
7頁に記載される「音量基準連続音声認識システムにお
ける動的プログラミングの使用(Use of Dynamic Progr
amming in a Syllable-Based Continuous Speach Recog
nition Sytem)」にHunt、LennigおよびMermelsteinに
よって、記述されている。
本発明は、明細書中では、分離語の認識装置に適用する
ように記述されるが、連結語の認識装置にも適用可能で
ある。また、本発明は話者連続であると話者独立である
とに係わらず使用できる。
「発明の効果」 本発明においては、パラメータ表示中に動的パラメータ
を含ませることによって認識度を大きくすることができ
る。また動的パラメータが約50ミリ秒隔てられた時間フ
レーム間で音声信号の変化があるとき、特によい結果が
得られた。
上述の動的パラメータが増加するパラメータ群を使用し
て実験を行い、一次パラメータとして最初の7つのメル
・周波数ケプストラム係数を使用した場合、公衆電話変
換網における話者独立の認識誤りを約20%減少できた。
最初の7つのメル基準ケプストラム係数に対する動的パ
ラメータの使用すると共に、全音量変化に対応する8番
目の動的パラメータを使用することにより誤りをさらに
約10%減少できた。
【図面の簡単な説明】
第1図は本発明の一実施例の回路図を示す図である。 第2図は第1図の音声認識装置のフィルタ手段の特性を
表わす図である。 「符号の説明」 10……ハミングウィンドウ 12……フィルタ 14……対数計算手段 16……知覚およびケプストラム係数計算手段 18……音声終点検出手段 20……動的パラメータ計算手段 22……比較手段 24……テンプレート手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ポール・マーメルスタイン カナダ国エイチ4ダブリユー1ジー5・ケ ベツク・モントリオール・コートセントル ーク・エマーソン 6852 (72)発明者 ビシユワ・ナソ・グプタ カナダ国ジエイ4ワイ1テイ2・ケベツ ク・ブロツサード・メシアー 7145 (56)参考文献 日本音響学会誌 34巻3号(昭53)P. 186−193 電子通信学会技術研究報告 AL79−77 (昭54−12−20)P.71−78

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】会話音声において、未知音声のパラメータ
    と基準テンプレート中の基準パラメータとを比較し、未
    知音声が基準テンプレート中のどの基準音声と類似する
    かを決定することによって未知の音声を認識する装置に
    おいて、 未知音声のパラメータフレームU′(U、ΔU)の一次
    パラメータU(=Ci、j)を生成するための手段(12、1
    4、16、18)と、 異なる時間フレームで生成される一次パラメータUのベ
    クトル差である動的二次パラメータΔU(=ΔCi、j)を
    計算する手段(20)と、 未知音声のパラメータフレームU′の一次パラメータと
    同じパラメータ形式で表現される基準パラメータフレー
    ムT′(T、ΔT)中の基準一次パラメータT(=
    Ti、j)がストアされ、異なる時間フレームで生成される
    基準一次パラメータTのベクトル差である動的基準二次
    パラメータΔT(=ΔTi、j)を計算する基準テンプレー
    ト手段(24)と、 未知音声のパラメータフレームU′の一次パラメータU
    および二次パラメータΔUを基準パラメータフレーム
    T′中の対応する基準一次パラメータTおよび基準二次
    パラメータΔTとをそれぞれ比較し、未知の音声が基準
    テンプレート中のどの音声と類似するかを決定する手段
    (22)と、 を備えたことを特徴とする音声認識装置。
JP61013964A 1985-01-30 1986-01-27 音声認識装置 Expired - Lifetime JPH0797279B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA473198 1985-01-30
CA000473198A CA1232686A (en) 1985-01-30 1985-01-30 Speech recognition

Publications (2)

Publication Number Publication Date
JPS61177494A JPS61177494A (ja) 1986-08-09
JPH0797279B2 true JPH0797279B2 (ja) 1995-10-18

Family

ID=4129719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61013964A Expired - Lifetime JPH0797279B2 (ja) 1985-01-30 1986-01-27 音声認識装置

Country Status (7)

Country Link
EP (1) EP0192898B1 (ja)
JP (1) JPH0797279B2 (ja)
KR (1) KR940002437B1 (ja)
CN (1) CN1009320B (ja)
AT (1) ATE51457T1 (ja)
CA (1) CA1232686A (ja)
DE (1) DE3576868D1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6371599U (ja) * 1986-10-30 1988-05-13
US5152958A (en) * 1991-01-22 1992-10-06 U.S. Tool & Die, Inc. Spent nuclear fuel storage bridge
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JPH08211897A (ja) * 1995-02-07 1996-08-20 Toyota Motor Corp 音声認識装置
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
US6182036B1 (en) 1999-02-23 2001-01-30 Motorola, Inc. Method of extracting features in a voice recognition system
US6957183B2 (en) 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
GB2422237A (en) * 2004-12-21 2006-07-19 Fluency Voice Technology Ltd Dynamic coefficients determined from temporally adjacent speech frames
US8030568B2 (en) * 2008-01-24 2011-10-04 Qualcomm Incorporated Systems and methods for improving the similarity of the output volume between audio players

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会誌34巻3号(昭53)P.186−193
電子通信学会技術研究報告AL79−77(昭54−12−20)P.71−78

Also Published As

Publication number Publication date
EP0192898A1 (en) 1986-09-03
CN1009320B (zh) 1990-08-22
CA1232686A (en) 1988-02-09
CN86100298A (zh) 1986-08-06
KR860006083A (ko) 1986-08-18
JPS61177494A (ja) 1986-08-09
DE3576868D1 (de) 1990-05-03
KR940002437B1 (ko) 1994-03-24
EP0192898B1 (en) 1990-03-28
ATE51457T1 (de) 1990-04-15

Similar Documents

Publication Publication Date Title
US4956865A (en) Speech recognition
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Wu et al. Incorporating information from syllable-length time scales into automatic speech recognition
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
JPH09500223A (ja) 多言語音声認識システム
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Paliwal On the use of line spectral frequency parameters for speech recognition
Singh et al. MFCC VQ based speaker recognition and its accuracy affecting factors
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
Seman et al. An evaluation of endpoint detection measures for malay speech recognition of an isolated words
JPH0797279B2 (ja) 音声認識装置
Li et al. Why is automatic recognition of children's speech difficult?
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
JP2797861B2 (ja) 音声検出方法および音声検出装置
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
Bosch On the automatic classification of pitch movements
Joseph et al. Indian accent detection using dynamic time warping
Kura Novel pitch detection algorithm with application to speech coding
De Mori et al. Augmenting standard speech recognition features with energy gravity centres
Tan et al. Speech feature extraction and reconstruction
Haque et al. Zero-Crossings with adaptation for automatic speech recognition
Tabassum A study on speaker independent speech recognition of isolated words in room environment
Salomon et al. Detection of speech landmarks using temporal cues

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term