JPH08211897A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08211897A
JPH08211897A JP7019490A JP1949095A JPH08211897A JP H08211897 A JPH08211897 A JP H08211897A JP 7019490 A JP7019490 A JP 7019490A JP 1949095 A JP1949095 A JP 1949095A JP H08211897 A JPH08211897 A JP H08211897A
Authority
JP
Japan
Prior art keywords
parameter
cepstrum
voice
delta
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7019490A
Other languages
English (en)
Inventor
Shigeki Aoshima
滋樹 青島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP7019490A priority Critical patent/JPH08211897A/ja
Priority to US08/573,084 priority patent/US5732393A/en
Priority to EP96300055A priority patent/EP0726561A3/en
Publication of JPH08211897A publication Critical patent/JPH08211897A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

(57)【要約】 【目的】 時間に関して局所的に動的な特徴を捉え、子
音の判別および過渡部分における判別精度を上昇する。 【構成】 音響処理部12においては、LPCケプスト
ラム、1次デルタケプストラム、2次デルタケプストラ
ムの3つに基づいた第1〜第3パラメータを計算する。
第1パラメータは、静的な特徴を捉え、第2パラメータ
は時間的に動的な特徴を捉え、第3パラメータは時間に
関し局所的に動的な特徴を捉える。そして、単語辞書1
4にも標準パターンについての第1〜第3パラメータが
記憶されている。そこで、DPマッチング部16におい
て、これら3つのパラメータの入力音声と標準パターン
の距離に基づく音声認識が行われる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力音声をパラメータ
化し、参照すべき単語辞書と比較して音声認識を行う音
声認識装置に関する。
【0002】
【従来の技術】従来より、マンマシンインターフェース
の非常に優れた(操作者にとって負担が少ない)ものと
して、音声認識を利用したものが考えられている。例え
ば、各種の操作を操作者の発声によって指示できれば、
非常に操作性がよい。そこで、従来より、音声認識につ
いての各種の研究がなされ、各種音声認識装置について
の提案もある。
【0003】音声認識のためのパラメータとしては、L
PC(線形予測コーディング)ケプストラムを利用する
ものが、よく知られている。この方法は、LPC分析に
よって得られたスペクトル包絡のLPCケプストラム係
数を利用するものであり、辞書にあるケプストラム係数
と、入力音声から得られたケプストラム係数の距離(L
PCケプストラム距離)に基づいて音声認識を行う。
【0004】このLPCケプストラムに基づくパラメー
タは、ある1時点のみを表すものである。従って、母音
など同一波形がある程度繰り返すもの、すなわち静的な
特徴を持つ音素の認識に適している。ところが、このパ
ラメータでは、破裂音、鼻音など動的な特徴を捉えにく
い。
【0005】そこで、パラメータとして、デルタケプス
トラムを利用することが知られている。このデルタケプ
ストラムは、LPCケプストラム法などにより得られた
数フレームのケプストラム(時間的に異なる数ケプスト
ラム)の1次回帰係数を求めたものである。従って、デ
ルタケプストラムは、ケプストラムの1次微分に対応
し、変化度合いを示すパラメータになる。従って、この
デルタケプストラムの距離(デルタケプストラム距離)
をパラメータとすることによって、ケプストラムの変化
状態をパラメータとして判定(DPマッチング処理)す
ることができ、破裂音、鼻音等を効果的に認識できる。
【0006】そして、実際の認識においては、LPCケ
プストラム距離とデルタケプストラム距離の両方を考慮
しなければならないため、それぞれに重み付けして加算
した距離に基づいて認識を行う。
【0007】ここで、LPCケプストラム距離と、デル
タケプストラム距離は認識対象の音声に応じて有効な時
が異なる。そこで、これらに対する重みを入力音声の状
態により変更することが好ましい。特開平5−1973
97号公報では、重みを音声の時間に関するスペクトル
変動に基づいて変更する。これによって、より正しい音
声認識が行える。
【0008】
【発明が解決しようとする課題】このように、上記従来
例によれば、デルタケプストラムを用いるため、時間に
関して動的な特徴を考慮して、音声認識が行える。しか
し、デルタケプストラムはケプストラムの時間変化につ
いてのものであり、子音から母音への過渡部分などの特
徴をよく表すが、破裂音の破裂点自体ではその特徴を捉
えることができない。すなわち、一次回帰係数を求める
ための数フレームの中で、破裂音の破裂点は1フレーム
内に収まってしまうため、破裂点のデルタケプストラム
はほとんど0である。
【0009】このように、デルタケプストラムでは、数
フレームにわたって平均化してしまうので、局所的に動
的なスペクトルの変化を捉えることができないという問
題点があった。
【0010】本発明は、上記問題点を解決することを課
題としてなされたものであり、時間に関して局所的に動
的な特徴を捉え、子音の判別および過渡部分における判
別精度を上昇することができる音声認識装置を提供する
ことを目的とする。
【0011】
【課題を解決するための手段】本発明は、入力音声をパ
ラメータ化し、参照すべき単語辞書と比較して音声認識
を行う音声認識装置において、入力音声の時間に関して
静的な特徴を捉えた第1パラメータと、入力音声の時間
に関して動的な特徴を捉えた第2パラメータと、入力音
声の時間的な動きについての変化を特徴としてとらえた
第3パラメータと、を生成する入力音声のパラメータ化
手段と、このパラメータ化手段において生成された各パ
ラメータに関する重み係数を算出する重み係数算出手段
と、前記第1、第2、第3パラメータおよびこれら各パ
ラメータについての重み係数に基づいて、前記単語辞書
を参照し、最適な単語を選択する単語認識手段と、を有
することを特徴とする。
【0012】また、前記第1パラメータはLPCケプス
トラムから求められるパラメータであり、第2パラメー
タはデルタケプストラムから求められるパラメータであ
り、第3パラメータは2次デルタケプストラムであるこ
とを特徴とする。
【0013】また、前記単語辞書から得られる参照すべ
き単語情報のデルタケプストラムおよび2次デルタケプ
ストラムの大きさに基づいて前記重み係数を決定するこ
とを特徴とする。
【0014】また、前記入力された音声と騒音の比に応
じて、前記重み係数を変化させることを特徴とする。
【0015】また、前記単語認識手段は、入力音声を音
素毎に状態遷移する時系列モデルを用いる方式であり、
前記デルタケプストラムまたは2次デルタケプストラム
の値により状態遷移を特定することを特徴とする。
【0016】
【作用】このように、本発明によれば、単語認識手段に
おいて、第1、第2のパラメータだけでなく時間に関し
て動的な特徴と捉えた第3パラメータを用いる。これに
よって、子音の判別および過渡部分の判別精度を上昇す
ることができる。
【0017】LPCケプストラムは静的な特徴を捉え、
デルタケプストラムは時間に関して動的な特徴を捉え、
2次デルタケプストラムは、時間に関して局所的に動的
な特徴を捉える。第1〜第3パラメータにこれらを採用
することで、好適な音声認識が行える。
【0018】また、各パラメータの重み係数を1次、2
次デルタケプストラムの大きさに基づいて設定すること
により、これら1次、2次デルタケプストラムが大き
く、重要であるときにこれらに大きな重みを付与するこ
とができる。これによって、入力音声の部分部分におい
て常に最適な認識が行える。
【0019】また、定常的な騒音は、第1パラメータに
対する影響が大きい。そこで、入力音声のS/N比が小
さく騒音が大きいときに、比較的騒音の影響の小さい1
次、2次デルタケプストラムに基づく第2、第3パラメ
ータの重みを大きくすることができる。これによって、
騒音の影響を考慮して好適な音声認識が行える。
【0020】また、デルタケプストラムまたは2次デル
タケプストラムの値が大きいところは、音が変わってい
るところであり、状態が遷移するところである。そこ
で、この値に応じて状態遷移を特定することができる。
これによって、計算量を大幅に減少することができる。
【0021】
【実施例】以下、本発明の実施例について、図面に基づ
いて説明する。
【0022】「第1実施例」図1は、実施例の全体構成
を示すブロック図であり、音声を電気的な音声信号に変
換するマイクロフォン10、マイクロフォン10からの
音声信号を処理しLPCケプストラム等を算出する音響
処理部12と、各種単語についてのLPCケプストラム
等を記憶する単語辞書14、音響処理部12から供給さ
れるデータと単語辞書14から供給されるデータの距離
の演算から音声認識を行うDPマッチング部16からな
っている。なお、音響処理部12とDPマッチング部1
6との間には切り換えスイッチ18が設けられており、
音響処理部12からの出力が単語辞書14にも供給でき
るようになっている。
【0023】そして、音響処理部12においては、時間
に関して静的な特徴を捉えた第1パラメータと、時間に
関して動的な特徴を捉えた第2パラメータと、時間に関
して局所的に動的な特徴を捉えた第3パラメータを算出
する。また、単語辞書14には、各単語について、これ
ら3つのパラメータが記憶されている。そこで、DPマ
ッチング部16においては、入力信号と辞書に記憶され
ている単語の間で、これら3つのパラメータについての
距離を求め、求められた3つの距離に所定の重み付け演
算を行い、距離が最小の単語を最適な単語として選択す
る。
【0024】なお、単語辞書には、予め標準的な発音で
のデータが各単語毎に記憶されていてもよいが、車両に
搭載される音声認識装置など話者がある程度特定される
ものについては、切り換えスイッチ18を切り換えて音
響処理部12からのデータを単語辞書に供給し、単語辞
書において各単語のデータを学習により記憶するとよ
い。
【0025】「3つのパラメータの説明」ここで、本実
施例において利用する3つのパラメータ(第1、第2、
第3パラメータ)について説明する。まず、第1のパラ
メータは、LPCケプストラムから求められるパラメー
タとする。通常の場合、所定数(例えば、8次の係数ま
での8つ)のLPCケプストラム係数が採用される。第
2パラメータは、デルタケプストラムから求められるパ
ラメータであり、デルタケプストラムは2〜4フレーム
程度の各LPCケプストラムの一時回帰係数である。そ
して、第3パラメータは2次デルタケプストラムから求
められるパラメータであり、隣り合った2つのデルタケ
プストラムの差として算出される。
【0026】このように、本実施例では、第3パラメー
タとして、2次デルタケプストラムを採用している。従
って、破裂音等の局所的に動的なスペクトルの変化を捉
えることができ、これを利用してより精度の高い音声認
識が行える。
【0027】「重み付けの説明」各パラメータに対する
重み付けは、時間に関して静的な特徴の母音などの定常
部分は第1パラメータを重くし、時間に関して動的な特
徴との子音から母音の過渡部分は第2パラメータを重く
し、時間に関して局所的に動的な特徴の破裂点などは第
3パラメータを重くすることが望ましい。
【0028】(i)そこで、第1の方法では、各パラメ
ータについての重み係数を単語情報のデルタケプストラ
ムと2次デルタケプストラムの大きさから設定する。
【0029】3つのパラメータの重み付け演算から得ら
れる距離Dsum は、次にように表される。
【0030】Dsum =α(t)D(c)+β(t)D
(dc)+γ(t)D(d2 c) ここで、D(c)、D(dc)、D(d2 c)はそれぞ
れ第1〜第3パラメータから求めた距離、α(t)、β
(t)、γ(t)は時刻tにおけるそれぞれの重み係数
であり、α(t)+β(t)+γ(t)=1である。
【0031】時刻tにおける単語辞書14における標準
パターンの2次デルタケプストラムのn次の項をd2
n(t)、デルタケプストラムのn次の項をdcn
(t)とし、2次デルタケプストラムの二乗和とγ
(t)の変換関数をf(x)、デルタケプストラムの二
乗和とβ(t)の変換関数をg(x)とする。そして、
重み係数γ(t)およびβ(t)を次式によって決定す
る。
【0032】
【数1】 ここで、kは1次、2次デルタケプストラムにおいて0
次〜n次の項まで採用している場合には、k=1〜n+
1である。また、a,bは任意の定数であり、条件に応
じて決定する。
【0033】このようにして、2つの重み係数γ
(t)、β(t)が決定されれば、α(t)もこれらに
よって決定されるため、距離Dsum は次の式で表される
ことになる。
【0034】
【数2】 以上のようにして、重み係数を決定することで、2次デ
ルタケプストラムが大きいときにγ(t)が大きくな
り、これに応じてβ(t)が小さくなると共に、1次、
2次デルタケプストラム共その値が大きいほど重みも大
きくなる。従って、1次、2次デルタケプストラムの値
が大きな時、すなわちこれらの値が重要なときに重み係
数を大きくして、単語辞書の標準パターンとの比較が行
え、より正確な音声認識が行える。
【0035】(ii)第2の方法では、各パラメータに
対する重み係数を入力の音声信号におけるS/N比(信
号対騒音比)に応じて決定する。
【0036】空調におけるファンの音や、自動車内のエ
ンジン音などの騒音は時間に関して静的であると考えら
れる。この場合、第1のパラメータは騒音によって大き
く影響されるが、第2、第3のパラメータは時間的変化
量に基づいたパラメータであり、騒音の影響を受けにく
い。
【0037】そこで、1度の音声認識処理の際に、時間
に関して一定の重み係数δを利用して、距離Dsum を次
式で決定する。
【0038】Dsum =(1−2δ)D(c)+δD(d
c)+δD(d2 c) ここで、S/N比は、例えば発声直前の数100mse
cの入力音声信号の平均信号レベルと、発声後の数10
0msecの平均信号レベル平均から求めてもよいし、
またこれらの期間のLPCケプストラムの0次の係数の
比から求めてもよい。さらに、発生後の信号レベルは考
慮せず、発声直前の騒音の大きさのみからS/N比を決
定してもよい。
【0039】そして、δは、求められたS/N比をxと
した場合に、次の式によって決定する。
【0040】δ=(1/2b)x (x<b) δ=1/2 (x>=b) 従って、距離Dsum は、次にように表される。
【0041】
【数3】Dsum =(1−x/b)D(c)+(x/2
b)D(dc)+(x/2b)D(d2 c) (x
<bのとき) Dsum =(1/2)D(dc)+(1/2)D(d
2 c) (x>=bのとき) このようにして、騒音の大きいときに、この影響の少な
い第2、第3パラメータの重みを大きくして効果的な音
声認識を行うことができる。なお、第1の方法と第2の
方法の両方を組み合わせることも好適である。
【0042】「第2実施例」図2は第2実施例の構成を
示すブロック図であり、マイクロフォン10、音響処理
部12は第1実施例と同様である。そして、第2実施例
では、音素認識部20、音素辞書22、単語認識部24
および単語辞書26を有しており、1次(通常のデルタ
ケプストラム)または2次デルタケプストラムを利用し
た確率モデルの最適状態遷移系列の算出により、音声認
識を行う。
【0043】音素辞書22は、子音母音を分離した半音
節毎のデータが含まれている。そこで、音素認識部20
では、音素辞書22に記憶されている標準音についての
データと音響処理部12からのデータから半音節毎に音
素を認識する。例えば、発声音声が「トヨタ」という単
語であれば、この音素認識部20からの出力は、「tt
ooooyyyooota」のようなデータとなる。な
お、この音素の認識においても1次、2次デルタケプス
トラムの距離を利用するため、非常に効果的な認識が行
える。
【0044】単語認識部24は、音素認識部20から出
力される上述のような音素のデータを単語辞書26から
のデータを参照して、単語として認識するが、この際に
HMM(Hidden Makov Model法)を利用する。ここで、
通常のHMMを利用した認識では、状態遷移系列が分か
らないため、単語の出力確率の計算に際し、考えられる
すべての状態遷移系列で確率計算を行う。ところが、本
実施例では、デルタケプストラムまたは2次デルタケプ
ストラムの大きさが大きい時を状態が遷移した時と推定
し、ここに音素の割り付けを行う。
【0045】すなわち、単語「トヨタ」のHMMの認識
では、図3に示すように、S1〜S6の状態がそれぞれ
t,o,y,o,t,aに割り付けられ、単語が認識さ
れる。そして、通常の場合、図3のHMMによる認識の
トレリスは図4に示すように、入力されてくる音素列
「ttooooyyyooota」に対し可能な状態遷
移について、すべての確率を計算し、最適なものを選択
する。
【0046】しかし、本実施例では、各音素の認識の時
点における1次または2次デルタケプストラムの大きさ
に基づいて、状態遷移を特定する。すなわち、各音素の
認識における1次または2次のデルタケプストラムの値
を見れば、図4において、○印で示した音素のところで
その値が大きくなっている。そこで、この認識に基づい
て、図4において太線で示したものに状態遷移を限定す
る。そして、この状態遷移系列の特定されたモデルにつ
いて、単語辞書26のデータとの間で確率計算を行い、
音声認識を行う。従って、単語認識部24における計算
量を大幅に減少することができる。
【0047】
【発明の効果】以上説明したように、本発明によれば、
単語認識手段において、第1、第2のパラメータだけで
なく時間に関して動的な特徴と捉えた第3パラメータを
用いる。これによって、子音の判別および過渡部分の判
別精度を上昇することができる。
【0048】また、LPCケプストラムは静的な特徴を
捉え、デルタケプストラムは時間に関して動的な特徴を
捉え、2次デルタケプストラムは、時間に関して局所的
に動的な特徴を捉える。第1〜第3パラメータにこれら
を採用することで、好適な音声認識が行える。
【0049】また、各パラメータの重み係数を1次、2
次デルタケプストラムの大きさに基づいて設定すること
により、これら1次、2次デルタケプストラムが大き
く、重要であるときにこれらに大きな重みを付与するこ
とができる。これによって、入力音声の部分部分におい
て常に最適な認識が行える。
【0050】また、定常的な騒音は、第1パラメータに
対する影響が大きい。そこで、入力音声のS/N比が小
さく騒音が大きいときに、比較的騒音の影響の小さい1
次、2次デルタケプストラムに基づく第2、第3パラメ
ータの重みを大きくすることができる。これによって、
騒音の影響を考慮して好適な音声認識が行える。
【0051】また、デルタケプストラムまたは2次デル
タケプストラムの値が大きいところは、音が変わってい
るところであり、状態が遷移するところである。そこ
で、この値に応じて状態遷移を特定することができる。
これによって、計算量を大幅に減少することができる。
【図面の簡単な説明】
【図1】 第1実施例の構成を示すブロック図である。
【図2】 第2実施例の構成を示すブロック図である。
【図3】 単語「トヨタ」のHMMの状態遷移を示す図
である。
【図4】 図3に対応する状態遷移の例を示す図であ
る。
【符号の説明】
10 マイクロフォン、12 音響処理部、14 単語
辞書、16 DPマッチング部、20 音素認識部、2
2 音素辞書、24 単語認識部、26 単語辞書。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 入力音声をパラメータ化し、参照すべき
    単語辞書と比較して音声認識を行う音声認識装置におい
    て、 入力音声の時間に関して静的な特徴を捉えた第1パラメ
    ータと、入力音声の時間に関して動的な特徴を捉えた第
    2パラメータと、入力音声の時間的な動きについての変
    化を特徴としてとらえた第3パラメータと、を生成する
    入力音声のパラメータ化手段と、 このパラメータ化手段において生成された各パラメータ
    に関する重み係数を算出する重み係数算出手段と、 前記第1、第2、第3パラメータおよびこれら各パラメ
    ータについての重み係数に基づいて、前記単語辞書を参
    照し、最適な単語を選択する単語認識手段と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の装置において、 前記第1パラメータはLPCケプストラムから求められ
    るパラメータであり、第2パラメータはデルタケプスト
    ラムから求められるパラメータであり、第3パラメータ
    は2次デルタケプストラムであることを特徴とする音声
    認識装置。
  3. 【請求項3】 請求項1または2に記載の装置におい
    て、 前記単語辞書から得られる参照すべき単語情報のデルタ
    ケプストラムおよび2次デルタケプストラムの大きさに
    基づいて前記重み係数を決定することを特徴とする音声
    認識装置。
  4. 【請求項4】 請求項1〜3のいずれかに記載の装置に
    おいて、 前記入力された音声と騒音の比に応じて、前記重み係数
    を変化させることを特徴とする音声認識装置。
  5. 【請求項5】 請求項1〜4のいずれかに記載の装置に
    おいて、 前記単語認識手段は、入力音声を音素毎に状態遷移する
    時系列モデルを用いる方式であり、前記デルタケプスト
    ラムまたは2次デルタケプストラムの値により状態遷移
    を特定することを特徴とする音声認識装置。
JP7019490A 1995-02-07 1995-02-07 音声認識装置 Pending JPH08211897A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP7019490A JPH08211897A (ja) 1995-02-07 1995-02-07 音声認識装置
US08/573,084 US5732393A (en) 1995-02-07 1995-12-15 Voice recognition device using linear predictive coding
EP96300055A EP0726561A3 (en) 1995-02-07 1996-01-03 Voice-recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7019490A JPH08211897A (ja) 1995-02-07 1995-02-07 音声認識装置

Publications (1)

Publication Number Publication Date
JPH08211897A true JPH08211897A (ja) 1996-08-20

Family

ID=12000810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7019490A Pending JPH08211897A (ja) 1995-02-07 1995-02-07 音声認識装置

Country Status (3)

Country Link
US (1) US5732393A (ja)
EP (1) EP0726561A3 (ja)
JP (1) JPH08211897A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449591B1 (en) 1998-10-09 2002-09-10 Sony Corporation Learning apparatus, learning method, recognition apparatus, recognition method, and recording medium
JP2008107408A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 音声認識装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311182B1 (en) * 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6014624A (en) * 1997-04-18 2000-01-11 Nynex Science And Technology, Inc. Method and apparatus for transitioning from one voice recognition system to another
US5987411A (en) * 1997-12-17 1999-11-16 Northern Telecom Limited Recognition system for determining whether speech is confusing or inconsistent
US8352248B2 (en) * 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus
US7313527B2 (en) * 2003-01-23 2007-12-25 Intel Corporation Registering an utterance and an associated destination anchor with a speech recognition engine
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1232686A (en) * 1985-01-30 1988-02-09 Northern Telecom Limited Speech recognition
EP0316112A3 (en) * 1987-11-05 1989-05-31 AT&T Corp. Use of instantaneous and transitional spectral information in speech recognizers
JPH05197397A (ja) * 1992-01-20 1993-08-06 Canon Inc 音声認識方法及びその装置
JPH06348291A (ja) * 1993-06-10 1994-12-22 Nippondenso Co Ltd 単語音声認識方法
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449591B1 (en) 1998-10-09 2002-09-10 Sony Corporation Learning apparatus, learning method, recognition apparatus, recognition method, and recording medium
JP2008107408A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 音声認識装置

Also Published As

Publication number Publication date
EP0726561A3 (en) 1998-03-18
EP0726561A2 (en) 1996-08-14
US5732393A (en) 1998-03-24

Similar Documents

Publication Publication Date Title
JP2733955B2 (ja) 適応型音声認識装置
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
JP3001037B2 (ja) 音声認識装置
US7409345B2 (en) Methods for reducing spurious insertions in speech recognition
Dharanipragada et al. Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method
US6148284A (en) Method and apparatus for automatic speech recognition using Markov processes on curves
US5966690A (en) Speech recognition and synthesis systems which distinguish speech phonemes from noise
US5819223A (en) Speech adaptation device suitable for speech recognition device and word spotting device
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JPH08211897A (ja) 音声認識装置
JPH09325798A (ja) 音声認識装置
US7035798B2 (en) Speech recognition system including speech section detecting section
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPH10254473A (ja) 音声変換方法及び音声変換装置
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
KR100322731B1 (ko) 음성인식방법및이에적합한음성패턴의시간정규화방법
Kuah et al. A neural network-based text independent voice recognition system
Sun Statistical modeling of co-articulation in continuous speech based on data driven interpolation
JP3003353B2 (ja) タスク適応標準パターン学習装置
JPH0772899A (ja) 音声認識装置
JP2003044079A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JPH0635495A (ja) 音声認識装置
JPH09160585A (ja) 音声認識装置および音声認識方法
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置