JP2002229587A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JP2002229587A JP2002229587A JP2001380622A JP2001380622A JP2002229587A JP 2002229587 A JP2002229587 A JP 2002229587A JP 2001380622 A JP2001380622 A JP 2001380622A JP 2001380622 A JP2001380622 A JP 2001380622A JP 2002229587 A JP2002229587 A JP 2002229587A
- Authority
- JP
- Japan
- Prior art keywords
- model
- speech recognition
- recognition method
- keyword
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000007704 transition Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 ペナルティに基づいたキーワードスポッテ
ィング処理を用いて、正確且つ柔軟性のある音声認識方
法を提供する。 【解決手段】 キーワードモデル(KM)とガーベージ
モデル(GM)の組合わせに基づくキーワードスポッテ
ィング処理を用いた音声認識方法の正確性と柔軟性を高
めるために、少なくとも1つの可変ペナルティ値(Pt
rans、P1、...P6)をグローバルペナルティ
(Pglob)と関連付け、キーワード(Kj)の認識
を向上させる。
ィング処理を用いて、正確且つ柔軟性のある音声認識方
法を提供する。 【解決手段】 キーワードモデル(KM)とガーベージ
モデル(GM)の組合わせに基づくキーワードスポッテ
ィング処理を用いた音声認識方法の正確性と柔軟性を高
めるために、少なくとも1つの可変ペナルティ値(Pt
rans、P1、...P6)をグローバルペナルティ
(Pglob)と関連付け、キーワード(Kj)の認識
を向上させる。
Description
【0001】
【発明の属する技術分野】本発明は、請求項1の前提部
分に示すように、音声を認識する音声認識方法に関し、
特に、ペナルティ(penalty)に基づいて特定のキーワ
ード(keyword)を抽出(spotting)するキーワードス
ポッティング(keyword spotting)処理を用いた音声認
識方法に関する。
分に示すように、音声を認識する音声認識方法に関し、
特に、ペナルティ(penalty)に基づいて特定のキーワ
ード(keyword)を抽出(spotting)するキーワードス
ポッティング(keyword spotting)処理を用いた音声認
識方法に関する。
【0002】
【従来の技術】多くの場合、音声認識方法は、事前に定
義された言語モデル又は文法内で、与えられたボキャブ
ラリの1部ではない音声フレーズ(speech phrases)又
は連続音声(word sequences)に対して処理を行う。音
声認識方法において、例えば、アウトオブボキャブラリ
ワード(out-of-vocabulary words)はガーベージ音声
(garbage speech)と呼ばれ、対照的に、インボキャブ
ラリワード(in-vocabulary words)はキーワード(key
word)と呼ばれる。
義された言語モデル又は文法内で、与えられたボキャブ
ラリの1部ではない音声フレーズ(speech phrases)又
は連続音声(word sequences)に対して処理を行う。音
声認識方法において、例えば、アウトオブボキャブラリ
ワード(out-of-vocabulary words)はガーベージ音声
(garbage speech)と呼ばれ、対照的に、インボキャブ
ラリワード(in-vocabulary words)はキーワード(key
word)と呼ばれる。
【0003】従来の音声認識方法では、特に、キーワー
ドスポッティングに基づいた音声認識処理及び与えられ
た言語モデルを用いることによって、対象となる音声フ
レーズ内の少なくともキーワードが認識される。アウト
オブボキャブラリワードすなわちガーベージモデル(ga
rbage model)と同様にキーワードを考慮するために、
少なくとも1つの第1言語すなわちキーワードモデル
と、1つの第2言語と、1つのアウトオブボキャブラリ
モデルすなわちガーベージモデルとの組合わせが認識処
理の基礎となる言語モデル内で用いられる。キーワード
モデルは、認識可能なインボキャブラリすなわちキーワ
ードすなわち音声フレーズを含有及び/又は表現する。
アウトオブボキャブラリすなわちガーベージモデルは、
アウトオブボキャブラリワード又は音声フレーズの少な
くとも1部を表す。
ドスポッティングに基づいた音声認識処理及び与えられ
た言語モデルを用いることによって、対象となる音声フ
レーズ内の少なくともキーワードが認識される。アウト
オブボキャブラリワードすなわちガーベージモデル(ga
rbage model)と同様にキーワードを考慮するために、
少なくとも1つの第1言語すなわちキーワードモデル
と、1つの第2言語と、1つのアウトオブボキャブラリ
モデルすなわちガーベージモデルとの組合わせが認識処
理の基礎となる言語モデル内で用いられる。キーワード
モデルは、認識可能なインボキャブラリすなわちキーワ
ードすなわち音声フレーズを含有及び/又は表現する。
アウトオブボキャブラリすなわちガーベージモデルは、
アウトオブボキャブラリワード又は音声フレーズの少な
くとも1部を表す。
【0004】
【発明が解決しようとする課題】上述したような言語モ
デルを用いた従来の音声認識方法では、アウトオブボキ
ャブラリすなわちガーベージモデル及び関連する文法
は、キーワードモデルよりも頻繁に適合してしまう。こ
のため、従来の音声認識方法では、キーワードモデルの
ボキャブラリにないと分類される音声フレーズの数が増
えるにしたがって、誤って拒否されてしまうキーワード
の数も増えてしまう。
デルを用いた従来の音声認識方法では、アウトオブボキ
ャブラリすなわちガーベージモデル及び関連する文法
は、キーワードモデルよりも頻繁に適合してしまう。こ
のため、従来の音声認識方法では、キーワードモデルの
ボキャブラリにないと分類される音声フレーズの数が増
えるにしたがって、誤って拒否されてしまうキーワード
の数も増えてしまう。
【0005】そこで、キーワードの認識及び出力を向
上、増加させるために、ガーベージモデルすなわちアウ
トオブボキャブラリモデルにペナルティを導入する方法
が提案されてきた。ペナルティは、アウトオブボキャブ
ラリすなわちガーベージモデルに含まれているグローバ
ルスコア(global score)又は、与えられたフレーズ又
は発生音の尤度(liklihood)の計算に用いられる。こ
のように変更又はペナルティを課されたガーベージモデ
ルのグローバルスコアは、キーワード又はキーワードモ
デルの各グローバルスコア又は尤度と比較される。ペナ
ルティが減少するにしたがって、ガーベージモデルのグ
ローバルスコア又は尤度、キーワードの認識及び出力が
増加する。
上、増加させるために、ガーベージモデルすなわちアウ
トオブボキャブラリモデルにペナルティを導入する方法
が提案されてきた。ペナルティは、アウトオブボキャブ
ラリすなわちガーベージモデルに含まれているグローバ
ルスコア(global score)又は、与えられたフレーズ又
は発生音の尤度(liklihood)の計算に用いられる。こ
のように変更又はペナルティを課されたガーベージモデ
ルのグローバルスコアは、キーワード又はキーワードモ
デルの各グローバルスコア又は尤度と比較される。ペナ
ルティが減少するにしたがって、ガーベージモデルのグ
ローバルスコア又は尤度、キーワードの認識及び出力が
増加する。
【0006】多くのアプリケーションにおいて、上述し
たようなワードスポッティング処理は、例えばアプリケ
ーションの状態、ユーザの嗜好、入力された音声の詳
細、認識処理を考慮しないため厳密過ぎてしまう。
たようなワードスポッティング処理は、例えばアプリケ
ーションの状態、ユーザの嗜好、入力された音声の詳
細、認識処理を考慮しないため厳密過ぎてしまう。
【0007】したがって、本発明の目的は、特に、正確
且つ柔軟性のある音声認識方法を提供することである。
且つ柔軟性のある音声認識方法を提供することである。
【0008】
【課題を解決するための手段】本発明の目的は、請求項
1に示す音声認識方法により達成され、請求項1に示す
ような特徴を有する。従属請求項の主旨は、本発明に係
る音声認識方法の好ましい有益な実施例を達成するため
のものである。
1に示す音声認識方法により達成され、請求項1に示す
ような特徴を有する。従属請求項の主旨は、本発明に係
る音声認識方法の好ましい有益な実施例を達成するため
のものである。
【0009】本発明に係る音声認識方法は、グローバル
ペナルティ(global penalty)を定義するために、少な
くとも1つの可変ペナルティ値が関連付けられ及び/又
は使用されることを特徴とする。したがって、本発明に
係る音声認識方法の基本概念は、キーワード出力を増加
させるために、言語モデル、特にガーベージモデル内に
導入されたペナルティを可変すなわち変更可能にするこ
とである。これによって、グローバルペナルティを調整
することによって、例えば認識処理自体の内部特性と同
様に、認識状態、ユーザ嗜好を考慮すること可能にな
る。したがって、本発明に係る音声認識方法は、従来の
音声認識方法と比べてより柔軟且つ正確である。
ペナルティ(global penalty)を定義するために、少な
くとも1つの可変ペナルティ値が関連付けられ及び/又
は使用されることを特徴とする。したがって、本発明に
係る音声認識方法の基本概念は、キーワード出力を増加
させるために、言語モデル、特にガーベージモデル内に
導入されたペナルティを可変すなわち変更可能にするこ
とである。これによって、グローバルペナルティを調整
することによって、例えば認識処理自体の内部特性と同
様に、認識状態、ユーザ嗜好を考慮すること可能にな
る。したがって、本発明に係る音声認識方法は、従来の
音声認識方法と比べてより柔軟且つ正確である。
【0010】グローバルペナルティは、1つの可変ペナ
ルティ値、又は固定及び/又は可変ペナルティ値のセッ
トを導入することで可変にすることができる。固定ペナ
ルティ値のセットを用いて、例えば、認識処理自体、ユ
ーザ嗜好及び/又はその他同様のものに依存する固定ペ
ナルティ値の異なる組合わせを作ることによって、グロ
ーバルペナルティを可変にすることができる。
ルティ値、又は固定及び/又は可変ペナルティ値のセッ
トを導入することで可変にすることができる。固定ペナ
ルティ値のセットを用いて、例えば、認識処理自体、ユ
ーザ嗜好及び/又はその他同様のものに依存する固定ペ
ナルティ値の異なる組合わせを作ることによって、グロ
ーバルペナルティを可変にすることができる。
【0011】本発明に係る音声認識方法の可変性を高め
るために、可変ペナルティ値は、各処理において、認識
処理、ユーザ入力、供給された音声フレーズ及び/又は
それらの特性等に依存、すなわち関数となっている。し
たがって、可変ペナルティ値は、実時間で、認識処理及
びアプリケーション状態において実際に必要であると考
える。これらの処理によって、音声認識方法の柔軟性と
正確性がさらに増加する。
るために、可変ペナルティ値は、各処理において、認識
処理、ユーザ入力、供給された音声フレーズ及び/又は
それらの特性等に依存、すなわち関数となっている。し
たがって、可変ペナルティ値は、実時間で、認識処理及
びアプリケーション状態において実際に必要であると考
える。これらの処理によって、音声認識方法の柔軟性と
正確性がさらに増加する。
【0012】
【発明の実施の形態】少なくとも1つの統計モデルを用
いて行う音声認識方法の好ましい有効な実施例として、
ガーベージモデル等がアウトオブボキャブラリモデルと
して用いられる音声認識方法がある。
いて行う音声認識方法の好ましい有効な実施例として、
ガーベージモデル等がアウトオブボキャブラリモデルと
して用いられる音声認識方法がある。
【0013】さらに、このアウトオフボキャブラリモデ
ル、特にガーベージモデルは、少なくとも音声文法(ph
one grammar)等を含むものとして好んで用いられる。
音声文法を用いると、一連の単音、音素、音節等から構
成されるあらゆる発生音(utterance)は、少なくとも
ガーベージモデル内で、キーワードモデルを除いて、確
実に適合する。したがって、この方法によれば、あらゆ
る発生音に対し、発生音がキーワードモデル内に含まれ
ていることによって認識されるか、あるいは、発生音が
ガーベージモデルに含まれていることによって拒否され
るかのどちらかになる。このように、発生音は、認識さ
れるか拒否されるかであって、これ以外の第3の可能性
はない。
ル、特にガーベージモデルは、少なくとも音声文法(ph
one grammar)等を含むものとして好んで用いられる。
音声文法を用いると、一連の単音、音素、音節等から構
成されるあらゆる発生音(utterance)は、少なくとも
ガーベージモデル内で、キーワードモデルを除いて、確
実に適合する。したがって、この方法によれば、あらゆ
る発生音に対し、発生音がキーワードモデル内に含まれ
ていることによって認識されるか、あるいは、発生音が
ガーベージモデルに含まれていることによって拒否され
るかのどちらかになる。このように、発生音は、認識さ
れるか拒否されるかであって、これ以外の第3の可能性
はない。
【0014】本発明に係る音声認識方法では、可変ペナ
ルティ値(variable penalty value)を、特に、キーワ
ードモデルから、認識処理の遷移(transition)ととも
に可変ペナルティ値をアウトオフボキャブラリモデル
に、及びアウトオフボキャブラリモデルの中に対応付け
ることによって達成することができる。この方法は、ガ
ーベージワードに関連した認識及びキーワードの出力を
増加させることのできる非常に単純な方法である。
ルティ値(variable penalty value)を、特に、キーワ
ードモデルから、認識処理の遷移(transition)ととも
に可変ペナルティ値をアウトオフボキャブラリモデル
に、及びアウトオフボキャブラリモデルの中に対応付け
ることによって達成することができる。この方法は、ガ
ーベージワードに関連した認識及びキーワードの出力を
増加させることのできる非常に単純な方法である。
【0015】ある実施例では、特に、各処理において、
可変ペナルティは、アウトオブボキャブラリモデルすな
わちガーベージモデル内で実行される認識処理の認識ス
テップ及び/又はアウトオブボキャブラリモデルすなわ
ちガーベージモデル内での認識処理に要した認識処理時
間に関連している。すなわち、認識処理がガーベージモ
デル内で要する時間又はステップ数に従って、ガーベー
ジモデル内での認識結果の尤度に大きなペナルティが課
される。これにより、キーワードモデルからの任意の認
識結果がガーベージモデル内のある結果に打ち負かされ
た場合のみに拒否される。一方、ある可能性がキーワー
ド及びインボキャブラリワードに与えられた場合には、
キーワードが出力される。
可変ペナルティは、アウトオブボキャブラリモデルすな
わちガーベージモデル内で実行される認識処理の認識ス
テップ及び/又はアウトオブボキャブラリモデルすなわ
ちガーベージモデル内での認識処理に要した認識処理時
間に関連している。すなわち、認識処理がガーベージモ
デル内で要する時間又はステップ数に従って、ガーベー
ジモデル内での認識結果の尤度に大きなペナルティが課
される。これにより、キーワードモデルからの任意の認
識結果がガーベージモデル内のある結果に打ち負かされ
た場合のみに拒否される。一方、ある可能性がキーワー
ド及びインボキャブラリワードに与えられた場合には、
キーワードが出力される。
【0016】本発明に係る音声認識方法では、認識経路
の格子構造等がキーワードモデル及び/又はアウトオブ
ボキャブラリすなわちガーベージモデルで用いられる。
この実施例によれば、格子内の各経路は、可能性のある
キーワード又はガーベージワードにそれぞれ関連してい
る。この方法によれば、ガーベージモデルへのある経路
に入る度に別個のペナルティが課され、ガーベージモデ
ルへ、及びガーベージモデルの中への経路の尤度が減少
し、これによって、あるガーベージワードの尤度が減少
する。アウトオブボキャブラリモデルの格子構造の認識
経路の少なくとも1部分を、特にアウトオブボキャブラ
リモデルすなわちガーベージモデルの統計情報内の可変
ペナルティ値に関連付けることが好ましい。
の格子構造等がキーワードモデル及び/又はアウトオブ
ボキャブラリすなわちガーベージモデルで用いられる。
この実施例によれば、格子内の各経路は、可能性のある
キーワード又はガーベージワードにそれぞれ関連してい
る。この方法によれば、ガーベージモデルへのある経路
に入る度に別個のペナルティが課され、ガーベージモデ
ルへ、及びガーベージモデルの中への経路の尤度が減少
し、これによって、あるガーベージワードの尤度が減少
する。アウトオブボキャブラリモデルの格子構造の認識
経路の少なくとも1部分を、特にアウトオブボキャブラ
リモデルすなわちガーベージモデルの統計情報内の可変
ペナルティ値に関連付けることが好ましい。
【0017】本発明に係る音声認識方法のさらに好まし
い実施例では、マルコフモデル(Markov model)、特に
単一状態のマルコフモデルがアウトオブボキャブラリす
なわちガーベージモデルに少なくとも含まれている。こ
のような特別な場合には、可変ペナルティ値は、マルコ
フモデル内での認識処理の自己遷移(self-transition
s)と関連付けられている。
い実施例では、マルコフモデル(Markov model)、特に
単一状態のマルコフモデルがアウトオブボキャブラリす
なわちガーベージモデルに少なくとも含まれている。こ
のような特別な場合には、可変ペナルティ値は、マルコ
フモデル内での認識処理の自己遷移(self-transition
s)と関連付けられている。
【0018】本発明に係る音声認識方法の柔軟性をさら
に高めるために、可変ペナルティ値は、特定のアプリケ
ーション、アプリケーション状態及び/又はユーザ嗜好
等に依存するようになされている。また、可変ペナルテ
ィ値は、特にユーザインターフェースを介したユーザの
操作によって、相互に変更することが好ましい。
に高めるために、可変ペナルティ値は、特定のアプリケ
ーション、アプリケーション状態及び/又はユーザ嗜好
等に依存するようになされている。また、可変ペナルテ
ィ値は、特にユーザインターフェースを介したユーザの
操作によって、相互に変更することが好ましい。
【0019】あるいは、本発明に係る音声認識方法の柔
軟性と順応性は、可変ペナルティ値が特に言語モデルの
モデル統計情報内にランダムアクセス可能な方法で保有
及び/又は格納されるときに高めることができる。
軟性と順応性は、可変ペナルティ値が特に言語モデルの
モデル統計情報内にランダムアクセス可能な方法で保有
及び/又は格納されるときに高めることができる。
【0020】本発明の方法は、キーワードモデル及び可
変ペナルティが課されているアウトオブボキャブラリモ
デル、特に、ガーベージモデルでの認識結果に対する尤
度、グローバルスコア等を決定することによって、ま
た、キーワードモデルの尤度がアウトオブボキャブラリ
モデルの尤度よりも大きいときの認識結果を受け入れる
ことによって、有効に実現することができる。これ以外
のときは、認識結果は拒否される。
変ペナルティが課されているアウトオブボキャブラリモ
デル、特に、ガーベージモデルでの認識結果に対する尤
度、グローバルスコア等を決定することによって、ま
た、キーワードモデルの尤度がアウトオブボキャブラリ
モデルの尤度よりも大きいときの認識結果を受け入れる
ことによって、有効に実現することができる。これ以外
のときは、認識結果は拒否される。
【0021】本発明に係る音声認識方法の主要な特徴の
要約を以下に示す。
要約を以下に示す。
【0022】従来の音声認識方法は、自由形式の語彙文
章内でキーワードをスポット(spot)すなわち抽出する
ことを目的としたワードスポッティングシステムを適用
したものである。キーワードは、アプリケーションボキ
ャブラリの単語であってよい。それ以外の単語は、全て
アウトオブボキャブラリワードすなわちガーベージと呼
ばれる。ガーベージモデルなどと呼ばれる統計モデル
は、これら全てのアウトオブボキャブラリワードと一致
するように操作される。
章内でキーワードをスポット(spot)すなわち抽出する
ことを目的としたワードスポッティングシステムを適用
したものである。キーワードは、アプリケーションボキ
ャブラリの単語であってよい。それ以外の単語は、全て
アウトオブボキャブラリワードすなわちガーベージと呼
ばれる。ガーベージモデルなどと呼ばれる統計モデル
は、これら全てのアウトオブボキャブラリワードと一致
するように操作される。
【0023】キーワードモデル及びガーベージモデル
は、ワードスポッティングシステムにおいて競合しあ
う。キーワードモデル及びガーベージモデルのそれぞれ
2つの尤度が比較され、尤度が低い方が拒否される。
は、ワードスポッティングシステムにおいて競合しあ
う。キーワードモデル及びガーベージモデルのそれぞれ
2つの尤度が比較され、尤度が低い方が拒否される。
【0024】キーワードの出力を増加、向上させるため
に、ペナルティが用いられる。本発明の新規な発明性の
ある特徴は、このペナルティを決定、表現及び/又は操
作する方法にあり、キーワードスポッティングシステム
をより正確且つ柔軟性のあるものにすることである。し
たがって、本発明に係る音声認識方法の主な特徴は、ペ
ナルティすなわちペナルティ値を可変にすることによっ
て、認識処理、アプリケーション状況、ユーザ嗜好等の
さらなる特徴を考慮できるようにすることである。した
がって、認識処理は、基本アルゴリズム又は処理を変更
することなく適用される。
に、ペナルティが用いられる。本発明の新規な発明性の
ある特徴は、このペナルティを決定、表現及び/又は操
作する方法にあり、キーワードスポッティングシステム
をより正確且つ柔軟性のあるものにすることである。し
たがって、本発明に係る音声認識方法の主な特徴は、ペ
ナルティすなわちペナルティ値を可変にすることによっ
て、認識処理、アプリケーション状況、ユーザ嗜好等の
さらなる特徴を考慮できるようにすることである。した
がって、認識処理は、基本アルゴリズム又は処理を変更
することなく適用される。
【0025】ワードスポッティングシステムでは、キー
ワードの尤度がガーベージモデルのガーベージワードの
尤度と比較される。ペナルティを追加することで、ガー
ベージモデルのガーベージワードの尤度が減り、キーワ
ードモデルに含まれるキーワードの出力が増加される。
従来の多くの音声認識方法の場合、ペナルティ値は、キ
ーワードモデルからガーベージモデルへの遷移中のみに
追加される。特に、格子構造を、それぞれが可能なキー
ワード又はガーベージワードを表す異なる経路で仮定し
た場合、従来、システムがガーベージモデルへの経路を
辿る度に固定されたペナルティが追加され、キーワード
モデルからガーベージモデルへの経路の尤度が減少す
る。
ワードの尤度がガーベージモデルのガーベージワードの
尤度と比較される。ペナルティを追加することで、ガー
ベージモデルのガーベージワードの尤度が減り、キーワ
ードモデルに含まれるキーワードの出力が増加される。
従来の多くの音声認識方法の場合、ペナルティ値は、キ
ーワードモデルからガーベージモデルへの遷移中のみに
追加される。特に、格子構造を、それぞれが可能なキー
ワード又はガーベージワードを表す異なる経路で仮定し
た場合、従来、システムがガーベージモデルへの経路を
辿る度に固定されたペナルティが追加され、キーワード
モデルからガーベージモデルへの経路の尤度が減少す
る。
【0026】従来のワードスポッタでは、ペナルティ
は、ガーベージモデルへの最初の遷移のときにおいての
み固定及び追加される。このため、このシステムは、い
わゆる自己遷移中に、累積したグローバルスコアにさら
にペナルティを追加されることなく、長期間ガーベージ
モデル内にあることが可能になる。
は、ガーベージモデルへの最初の遷移のときにおいての
み固定及び追加される。このため、このシステムは、い
わゆる自己遷移中に、累積したグローバルスコアにさら
にペナルティを追加されることなく、長期間ガーベージ
モデル内にあることが可能になる。
【0027】反対に、本発明に係る音声認識方法におい
ては、例えばガーベージモデル内にある認識処理又はこ
れに関連するガーベージモデル内の認識ステップに要す
る時間に従ってペナルティが可変にされると、ガーベー
ジモデルを除去し、キーワードモデル内の可能性のある
キーワードを一致させるために尤度をさらに高めること
ができる。
ては、例えばガーベージモデル内にある認識処理又はこ
れに関連するガーベージモデル内の認識ステップに要す
る時間に従ってペナルティが可変にされると、ガーベー
ジモデルを除去し、キーワードモデル内の可能性のある
キーワードを一致させるために尤度をさらに高めること
ができる。
【0028】さらに、従来の音声認識方法及び従来のワ
ードスポッティングシステムでは、この方法及びシステ
ムの設計者がペナルティを固定する。一般に、ペナルテ
ィの値は、ペナルティが高い場合に対応し誤って受け取
られたキーワードの数と、ペナルティが低い場合に対応
し誤って拒否されたキーワードの数の妥協値を示す。
ードスポッティングシステムでは、この方法及びシステ
ムの設計者がペナルティを固定する。一般に、ペナルテ
ィの値は、ペナルティが高い場合に対応し誤って受け取
られたキーワードの数と、ペナルティが低い場合に対応
し誤って拒否されたキーワードの数の妥協値を示す。
【0029】これに対し、本発明によれば、ペナルティ
は、実際にアプリケーション及び/又はユーザ嗜好に依
存する。例えば、エンターテイメントロボットを用いた
従来の対話システム(dialogue system)では、誤った
キーワード検出の結果、ロボットは、特に動作状態にお
いて、奇妙且つ特異な動きをしてしまう。一方、ユーザ
は、ロボットのこのような特異な動作には満足すること
はなく、特に動作状態において、ロボットに命令通りに
動いてほしいと思う。本発明では、アプリケーション状
況及び/又はユーザ嗜好に関するこれらの状況は変更で
きるものであると考え、ユーザの目的及び/又はアプリ
ケーション状況の必要性に従って、ガーベージモデル内
のペナルティ及びペナルティ値を変更してペナルティ及
びペナルティ値を調整して適応させる。
は、実際にアプリケーション及び/又はユーザ嗜好に依
存する。例えば、エンターテイメントロボットを用いた
従来の対話システム(dialogue system)では、誤った
キーワード検出の結果、ロボットは、特に動作状態にお
いて、奇妙且つ特異な動きをしてしまう。一方、ユーザ
は、ロボットのこのような特異な動作には満足すること
はなく、特に動作状態において、ロボットに命令通りに
動いてほしいと思う。本発明では、アプリケーション状
況及び/又はユーザ嗜好に関するこれらの状況は変更で
きるものであると考え、ユーザの目的及び/又はアプリ
ケーション状況の必要性に従って、ガーベージモデル内
のペナルティ及びペナルティ値を変更してペナルティ及
びペナルティ値を調整して適応させる。
【0030】さらに、従来のワードスポッティングシス
テムは、一般にエンドユーザがアクセス不可能な基本ソ
ースコード内に、固定された方法で定義されたペナルテ
ィ値を備えている。また、本発明によれば、本発明の音
声認識方法の柔軟性をさらに高め、より新規且つ可能性
のあるアプリケーションを達成するために、ユーザは、
ユーザインターフェースを介してペナルティを変更した
り変化させたりすることができる。したがって、ペナル
ティにアクセスし、例えばハードディスク等のアクセス
メモリ内にモデル統計情報と共に保存することが容易に
行える。その結果、ソースコードを変更することなく既
存の音声認識ソフトウェアを用いることが可能になる。
テムは、一般にエンドユーザがアクセス不可能な基本ソ
ースコード内に、固定された方法で定義されたペナルテ
ィ値を備えている。また、本発明によれば、本発明の音
声認識方法の柔軟性をさらに高め、より新規且つ可能性
のあるアプリケーションを達成するために、ユーザは、
ユーザインターフェースを介してペナルティを変更した
り変化させたりすることができる。したがって、ペナル
ティにアクセスし、例えばハードディスク等のアクセス
メモリ内にモデル統計情報と共に保存することが容易に
行える。その結果、ソースコードを変更することなく既
存の音声認識ソフトウェアを用いることが可能になる。
【0031】さらに、本発明の特徴は、ガーベージすな
わちアウトオフボキャブラリモデル内に残っている認識
処理の各ステップ又はフレームについて、あるペナルテ
ィ又はペナルティ値をグローバルペナルティ変数を作成
するグローバルスコアに追加することができることであ
る。キーワード及びガーベージモデルに対する格子構造
を考慮すると、ガーベージモデル内により長く滞在する
経路にさらなるペナルティが課され、一方、内部にキー
ワードを備えた経路は、より可能性があるので出力され
る。したがって、本発明によれば、ペナルティは、アウ
トオブボキャブラリすなわちガーベージモデル内での認
識処理又はシステムによって費やされた時間に依存す
る。
わちアウトオフボキャブラリモデル内に残っている認識
処理の各ステップ又はフレームについて、あるペナルテ
ィ又はペナルティ値をグローバルペナルティ変数を作成
するグローバルスコアに追加することができることであ
る。キーワード及びガーベージモデルに対する格子構造
を考慮すると、ガーベージモデル内により長く滞在する
経路にさらなるペナルティが課され、一方、内部にキー
ワードを備えた経路は、より可能性があるので出力され
る。したがって、本発明によれば、ペナルティは、アウ
トオブボキャブラリすなわちガーベージモデル内での認
識処理又はシステムによって費やされた時間に依存す
る。
【0032】図2は、従来の音声認識方法の具体的な構
成を示すブロック図である。図2に示すように、第1の
ステップ11において、音声フレーズSPが供給され
る。供給された音声フレーズSPは、認識ステップすな
わちステップ12に送られる。例えばキーワードモデル
KM及びガーベージモデルGMもしくは基本の言語モデ
ルLMのアウトオブボキャブラリOOVMの格子構造に
基づいて、異なる経路をチェックし、少なくとも上述し
た可能性のあるキーワードK1乃至K3の1つ又はガー
ベージワードG0乃至G6の1つが供給された音声フレ
ーズSPと最適に適合するかどうかを調べる。
成を示すブロック図である。図2に示すように、第1の
ステップ11において、音声フレーズSPが供給され
る。供給された音声フレーズSPは、認識ステップすな
わちステップ12に送られる。例えばキーワードモデル
KM及びガーベージモデルGMもしくは基本の言語モデ
ルLMのアウトオブボキャブラリOOVMの格子構造に
基づいて、異なる経路をチェックし、少なくとも上述し
た可能性のあるキーワードK1乃至K3の1つ又はガー
ベージワードG0乃至G6の1つが供給された音声フレ
ーズSPと最適に適合するかどうかを調べる。
【0033】ガーベージモデルGMのペナルティを課さ
れた尤度LGMを計算するために、ある事前定義された
関数fが、遷移ステップT及びそれぞれの固定定義され
た遷移ペナルティPtransを介して、ガーベージモ
デル尤度LGM'上及び言語モデルLM、特にガーベー
ジモデルGM内に挿入された固定グローバルペナルティ
Pglob上で評価される。すなわち、Pglob:=
Ptransとなる。
れた尤度LGMを計算するために、ある事前定義された
関数fが、遷移ステップT及びそれぞれの固定定義され
た遷移ペナルティPtransを介して、ガーベージモ
デル尤度LGM'上及び言語モデルLM、特にガーベー
ジモデルGM内に挿入された固定グローバルペナルティ
Pglob上で評価される。すなわち、Pglob:=
Ptransとなる。
【0034】比較ステップ13において、キーワードモ
デル尤度LKMがペナルティを課されたガーベージモデ
ル尤度LGMよりも大きいかどうかがチェックされる。
大きい場合には、認識された音声フレーズRSPが受け
入れられ、及び/又は一連の認識されたキーワードすな
わちキーフレーズ(Kj)としてステップ14で出力さ
れる。大きくない場合には、供給された音声フレーズS
Pは、ステップ15で拒否される。
デル尤度LKMがペナルティを課されたガーベージモデ
ル尤度LGMよりも大きいかどうかがチェックされる。
大きい場合には、認識された音声フレーズRSPが受け
入れられ、及び/又は一連の認識されたキーワードすな
わちキーフレーズ(Kj)としてステップ14で出力さ
れる。大きくない場合には、供給された音声フレーズS
Pは、ステップ15で拒否される。
【0035】図1は、本発明に係る音声認識方法の具体
的な構成を示すブロック図である。図2に示した従来の
音声認識方法とは対照的に、図1に示す音声認識方法で
は、可変グローバルペナルティPglobを用いてい
る。図1の実施例では、このグローバルペナルティPg
lobは、実際にステップ及び/又は時間に依存するペ
ナルティP1乃至P6の機能的な組合わせの可変性に応
じて可変にされる。さらに、遷移ステップTを介したキ
ーワードモデルKMからガーベージモデルGMへの遷移
のための遷移ペナルティPtransを含むこともで
き、この遷移ペナルティも可変であってよい。
的な構成を示すブロック図である。図2に示した従来の
音声認識方法とは対照的に、図1に示す音声認識方法で
は、可変グローバルペナルティPglobを用いてい
る。図1の実施例では、このグローバルペナルティPg
lobは、実際にステップ及び/又は時間に依存するペ
ナルティP1乃至P6の機能的な組合わせの可変性に応
じて可変にされる。さらに、遷移ステップTを介したキ
ーワードモデルKMからガーベージモデルGMへの遷移
のための遷移ペナルティPtransを含むこともで
き、この遷移ペナルティも可変であってよい。
【0036】6ペナルティP1乃至P6上の選択された
7つのガーベージワードG0乃至G6の数は1つの具体
例であり、本発明はこの具値例に限定されることはな
い。
7つのガーベージワードG0乃至G6の数は1つの具体
例であり、本発明はこの具値例に限定されることはな
い。
【0037】
【発明の効果】キーワードスポッティング処理を適用し
た音声認識方法の正確性と柔軟性を高める。
た音声認識方法の正確性と柔軟性を高める。
【図1】本発明に係る音声認識方法の具体的な構成を示
すブロック図である。
すブロック図である。
【図2】従来の音声認識方法の具体的な構成を示すブロ
ック図である。
ック図である。
11 第1ステップ、12 認識ステップ、13 比較
ステップ、14 出力ステップ、15 拒否ステップ
ステップ、14 出力ステップ、15 拒否ステップ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラッディノ ダニエーラ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスト テクノロジー センター シュト ゥットゥガルト内 (72)発明者 コンペ ラルフ ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスト テクノロジー センター シュト ゥットゥガルト内 (72)発明者 ケムプ トーマス ドイツ連邦共和国 70327 シュトゥット ゥガルト ヘデルフィンガー シュトラー セ 61 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング アドバ ンスト テクノロジー センター シュト ゥットゥガルト内 Fターム(参考) 5D015 HH00
Claims (14)
- 【請求項1】 音声認識方法において、 供給された音声フレーズ(SP)内の少なくともキーワ
ード(Kj)がキーワードスポッティングに基づいた認
識処理(12)及び与えられた言語モデル(LM)を用
いて認識され、 認識可能なインボキャブラリすなわちキーワードすなわ
ちフレーズ(Kj)を含有及び/又は表現する少なくと
も1つの第1言語すなわちキーワードモデル(KM)
と、アウトオブボキャブラリワードすなわちフレーズ
(Gj)を少なくとも部分的に表す第2言語すなわちア
ウトオブボキャブラリモデル(OOVM)の組合わせが
上記言語モデル(LM)として用いられ、 キーワード(kj)の認識を増加させるため、グローバ
ルペナルティ(Pglob)が上記言語モデル(LM)
と関連付けられ及び/又は導入すなわち挿入され、 少なくとも1つの可変ペナルティ値(Ptrans、P
1、...P6)が関連付けられ及び/又は使用され、
上記グローバルペナルティ(Pglob)を定義する、 ことを特徴とする音声認識方法。 - 【請求項2】 上記可変ペナルティ値(Ptrans、
P1、...P6)は、各処理において、認識処理、ユ
ーザ入力、供給された音声フレーズ(SP)自体及び/
又は等の特性等に依存、すなわち関数となされてること
を特徴とする請求項1に記載の音声認識方法。 - 【請求項3】 少なくとも1つの統計モデル、ガーベー
ジモデル(GM)及び/又はその他同様のものが上記ア
ウトオブボキャブラリ(OOVM)として用いられるこ
とを特徴とする請求項1又は2のいずれか1項に記載の
音声認識方法。 - 【請求項4】 少なくとも音声文法等を含有するため
に、上記アウトオブボキャブラリ(OOVM)及び上記
ガーベージモデル(GM)が選択されることを特徴とす
る請求項1乃至3のいずれか1項に記載の音声認識方
法。 - 【請求項5】 上記可変ペナルティ値(Ptrans、
P1、...P6)は、認識処理(12)のキーワード
モデル(KM)からアウトオブボキャブラリモデル(O
OVM)への遷移(T)と関連付けられていることを特
徴とする請求項1乃至4のいずれか1項に記載の音声認
識方法。 - 【請求項6】 上記可変ペナルティ値(Ptrans、
P1、...P6)は、各処理において、上記アウトオ
ブボキャブラリモデル(OOVM)すなわちガーベージ
モデル(GM)内の認識ステップ及び/又は上記認識処
理(12)の認識又は処理時間と関連付けられているこ
とを特徴とする請求項1乃至5のいずれか1項に記載の
音声認識方法。 - 【請求項7】 上記キーワードモデル(KM)及び/又
は上記アウトオブボキャブラリモデル(OOVM)すな
わちガーベージモデル(GM)において、認識経路の格
子構造等が用いられることを特徴とする請求項1乃至6
のいずれか1項に記載の音声認識方法。 - 【請求項8】 上記アウトオブボキャブラリモデル(O
OVM)内の上記認識経路の少なくとも1部は、上記ア
ウトオブボキャブラリモデル(OOVM)すなわちガー
ベージモデル(GM)の統計情報内の可変ペナルティ値
(Ptrans、P1、...P6)と関連付けられて
いることを特徴とする請求項1乃至7のいずれか1項に
記載の音声認識方法。 - 【請求項9】 マルコフモデル又は単一状態のマルコフ
レベルが少なくとも上記アウトオブボキャブラリモデル
(OOVM)すなわちガーベージモデル(GM)内に含
まれており、 可変ペナルティ値(P1、...P6)は、上記マルコ
フモデル内の認識処理の自己遷移と関連付けられている
ことを特徴とする請求項1乃至8のいずれか1項に記載
の音声認識方法。 - 【請求項10】 可変ペナルティ値は、マルコフモデル
内の全ての遷移と関連付けられていることを特徴とする
請求項1乃至9のいずれか1項に記載の音声認識方法。 - 【請求項11】 上記可変ペナルティ値(Ptran
s、P1、...P6)は、特定のアプリケーション、
アプリケーション状態及び/又はユーザ嗜好に依存する
ようになされていることを特徴とする請求項1乃至10
のいずれか1項に記載の音声認識方法。 - 【請求項12】 上記可変ペナルティ値(Ptran
s、P1、...P6)は、ユーザインターフェースを
介したユーザの操作によって相互に変更されることを特
徴とする請求項1乃至11のいずれか1項に記載の音声
認識方法。 - 【請求項13】 上記可変ペナルティ値(Ptran
s、P1、...P6)は、ランダムアクセス方法で、
上記言語モデル(LM)のモデル統計情報内に保有及び
格納されることを特徴とする請求項1乃至12のいずれ
か1項に記載の音声認識方法。 - 【請求項14】 上記キーワードモデル(KM)及び上
記アウトオブボキャブラリモデル(OOVM)すなわち
上記ガーベージモデル(GM)における認識結果に対し
尤度(LKM、LGM)、グローバルスコア等が決定さ
れ、上記ガーベージモデル(GM)が可変的にペナルテ
ィを課されており、 認識結果(RSP)は、上記アウトオブボキャブラリモ
デル尤度(LGM)よりも大きい上記キーワードモデル
尤度(LKM)と共に受け入れられるか、あるいは、ア
ウトオブボキャブラリとして拒否されることを特徴とす
る請求項1乃至13のいずれか1項に記載の音声認識方
法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP00127377.0 | 2000-12-13 | ||
EP00127377A EP1215654B1 (en) | 2000-12-13 | 2000-12-13 | Method for recognizing speech |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002229587A true JP2002229587A (ja) | 2002-08-16 |
Family
ID=8170661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001380622A Withdrawn JP2002229587A (ja) | 2000-12-13 | 2001-12-13 | 音声認識方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6850885B2 (ja) |
EP (1) | EP1215654B1 (ja) |
JP (1) | JP2002229587A (ja) |
DE (1) | DE60028219T8 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040006470A1 (en) * | 2002-07-03 | 2004-01-08 | Pioneer Corporation | Word-spotting apparatus, word-spotting method, and word-spotting program |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
EP1525577B1 (en) * | 2002-08-01 | 2006-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Method for automatic speech recognition |
ES2291403T3 (es) * | 2002-08-21 | 2008-03-01 | Siemens Aktiengesellschaft | Procedimiento para el reconocimiento de voz. |
WO2004075168A1 (ja) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置及び音声認識方法 |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
US7899251B2 (en) * | 2006-06-05 | 2011-03-01 | Microsoft Corporation | Balancing out-of-dictionary and in-dictionary recognition scores |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
WO2016103358A1 (ja) * | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
CN105096939B (zh) * | 2015-07-08 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105869629B (zh) * | 2016-03-30 | 2018-03-20 | 乐视控股(北京)有限公司 | 语音识别方法及装置 |
CN108010515B (zh) * | 2017-11-21 | 2020-06-30 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN109166571B (zh) * | 2018-08-06 | 2020-11-24 | 广东美的厨房电器制造有限公司 | 家电设备的唤醒词训练方法、装置及家电设备 |
CN114155835B (zh) * | 2021-12-06 | 2022-07-08 | 哈尔滨工程大学 | 一种融合全局场景与局部事件信息的音频语意概述方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY119374A (en) * | 1995-09-12 | 2005-05-31 | Texas Instruments Inc | Method and system for enrolling addresses in a speech recognition database |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6058363A (en) * | 1997-01-02 | 2000-05-02 | Texas Instruments Incorporated | Method and system for speaker-independent recognition of user-defined phrases |
CN1125433C (zh) * | 1997-09-18 | 2003-10-22 | 西门子公司 | 在交谈语言中识别密钥字的方法 |
US6226612B1 (en) * | 1998-01-30 | 2001-05-01 | Motorola, Inc. | Method of evaluating an utterance in a speech recognition system |
US6275800B1 (en) * | 1999-02-23 | 2001-08-14 | Motorola, Inc. | Voice recognition system and method |
-
2000
- 2000-12-13 EP EP00127377A patent/EP1215654B1/en not_active Expired - Lifetime
- 2000-12-13 DE DE60028219T patent/DE60028219T8/de active Active
-
2001
- 2001-12-12 US US10/021,776 patent/US6850885B2/en not_active Expired - Fee Related
- 2001-12-13 JP JP2001380622A patent/JP2002229587A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004325979A (ja) * | 2003-04-28 | 2004-11-18 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
JP4497834B2 (ja) * | 2003-04-28 | 2010-07-07 | パイオニア株式会社 | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
EP1215654A1 (en) | 2002-06-19 |
EP1215654B1 (en) | 2006-05-24 |
US6850885B2 (en) | 2005-02-01 |
DE60028219T2 (de) | 2007-03-08 |
US20020116193A1 (en) | 2002-08-22 |
DE60028219T8 (de) | 2007-06-14 |
DE60028219D1 (de) | 2006-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002229587A (ja) | 音声認識方法 | |
US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
US7162423B2 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
EP2317507B1 (en) | Corpus compilation for language model generation | |
US20040030552A1 (en) | Sound processing apparatus | |
JP2002507010A (ja) | 同時に起こるマルチモード口述のための装置及び方法 | |
JP2007057844A (ja) | 音声認識システムおよび音声処理システム | |
JP2001517815A (ja) | 言語認識上の類似発声識別方法及び装置 | |
JP2000122691A (ja) | 綴り字読み式音声発話の自動認識方法 | |
KR100415217B1 (ko) | 음성인식 장치 | |
Schwartz et al. | Multiple-pass search strategies | |
US8234112B2 (en) | Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US6606594B1 (en) | Word boundary acoustic units | |
Boite et al. | A new approach towards keyword spotting. | |
rn Svendsen et al. | Optimizing baseforms for HMM-based speech recognition | |
JPH04242800A (ja) | 文法規則に基づいた照合値制約を用いた高性能音声認識方法並びに音声認識回路 | |
JP2003208195A5 (ja) | ||
US20060136209A1 (en) | Methodology for generating enhanced demiphone acoustic models for speech recognition | |
JPH11184491A (ja) | 音声認識装置 | |
CN115762521A (zh) | 一种关键词识别方法及相关装置 | |
JP2871420B2 (ja) | 音声対話システム | |
US8099280B2 (en) | Speech recognition method and speech recognition apparatus | |
JP3042455B2 (ja) | 連続音声認識方式 | |
JP3104900B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050301 |