JP5692493B2 - 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 - Google Patents
隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 Download PDFInfo
- Publication number
- JP5692493B2 JP5692493B2 JP2010024226A JP2010024226A JP5692493B2 JP 5692493 B2 JP5692493 B2 JP 5692493B2 JP 2010024226 A JP2010024226 A JP 2010024226A JP 2010024226 A JP2010024226 A JP 2010024226A JP 5692493 B2 JP5692493 B2 JP 5692493B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- hidden markov
- probability density
- filler
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000003860 storage Methods 0.000 title claims description 33
- 239000000945 filler Substances 0.000 claims description 140
- 230000006870 function Effects 0.000 claims description 109
- 230000007704 transition Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 21
- 230000008859 change Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
通常、これらのOOVサウンドをモデル化するのに使用される隠れマルコフモデルをフィラーモデルと呼ぶ。最先端のフィラーモデルの性能はまだ性能向上の余地がある。特に「false positive(OOVをIVと認識すること)」と「false negative(IVをOOVと認識すること)」の両方を最小にすること、すなわち認識したくない単語や音を認識せず、認識すべき単語は認識する音声認識装置を実現することは難しくこの部分で性能向上が図られている。
所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するためのプログラムであって、前記所与の音声認識システムで使用予定の複数の隠れマルコフモデルを含む使用予定モデル群を記憶する使用予定モデル群記憶部と、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、してコンピューターを機能させるプログラムに関する。
前記使用予定モデル群は、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合でもよい。
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群を構成する複数の確率密度関数を複数のクラスタに分類し、各クラスタに分類された1又は複数の確率密度関数を定義するための所与のパラメーターに基づき各クラスタの確率密度関数を定義するための所与のパラメーターを求め、求めた各クラスタの確率密度関数を定義するための所与のパラメーターに基づき、フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
前記使用予定モデル群に属する隠れマルコフモデルは、複数のステートで構成され、各ステートは複数の確率密度関数を有しており、前記フィラーモデル生成部は、フィラーモデルとして使用する隠れマルコフモデルとして、前記使用予定モデル群に属する隠れマルコフモデルと同数のステートで構成された隠れマルコフモデルを生成するように構成され、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群の各ステートを構成する複数の確率密度関数を複数のクラスタに分類し、前記フィラーモデルとして使用する隠れマルコフモデルの前記各ステートを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
前記フィラーモデル生成部は、前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する複数の確率密度関数を、前記使用予定モデル群を構成する隠れマルコフモデル又はそのステートを構成する確率密度関数の数と同じ数のクラスタに分類してもよい。
前記フィラーモデル生成部は、各クラスタの確率密度関数を定義するための所与のパラメーターを求める際に、前記複数の確率密度関数を前記複数のクラスタに再分類して各クラスタの確率密度関数を定義するため所与のパラメーターを更新する処理を、規定の繰り返し回数に到達するか、更新時のクラスタの確率密度関数を定義するための所与のパラメーターの変化が規定の閾値を下回るまで行ってもよい。
前記フィラーモデル生成部は、各クラスタに分類された1又は複数の確率密度関数を定義するための平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルまたはそのステートを構成する確率密度関数を定義するための平均を求め、各クラスタに分類された1又は複数の確率密度関数を定義するための分散に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成するステートを構成する確率密度関数を定義するための分散を求めてもよい。
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群のステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めてもよい。
前記使用予定モデル群からフィラーモデル生成に使用する隠れマルコフモデルを使用モデルとして選択する使用モデル選択部として、コンピューターを機能させ、前記フィラーモデル生成部は、使用モデルとして選択された隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成してもよい。
前記使用モデル選択部は、指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
前記使用モデル選択部は、入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
コンピューターが読み取り可能な情報記憶媒体であって、上記のいずれかに記載のプログラムが記憶されている情報記憶媒体に関する。
所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成する隠れマルコフモデル生成システムであって、前記所与の音声認識システムで使用予定の複数の隠れマルコフモデルを含む使用予定モデル群を記憶する使用予定モデル群記憶部と、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、を含む隠れマルコフモデル生成システムに関する。
前記使用予定モデル群は、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合でもよい。
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群を構成する複数の確率密度関数を複数のクラスタに分類し、各クラスタに分類された1又は複数の確率密度関数を定義するための所与のパラメーターに基づき各クラスタの確率密度関数を定義するための所与のパラメーターを求め、求めた各クラスタの確率密度関数を定義するための所与のパラメーターに基づき、フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
前記使用予定モデル群に属する隠れマルコフモデルは、複数のステートで構成され、各ステートは複数の確率密度関数を有しており、前記フィラーモデル生成部は、フィラーモデルとして使用する隠れマルコフモデルとして、前記使用予定モデル群に属する隠れマルコフモデルと同数のステートで構成された隠れマルコフモデルを生成するように構成され、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群の各ステートを構成する複数の確率密度関数を複数のクラスタに分類し、前記フィラーモデルとして使用する隠れマルコフモデルの前記各ステートを構成する確率密度関数を定義するための所与のパラメーターを求めてもよい。
前記フィラーモデル生成部は、前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する複数の確率密度関数を、前記使用予定モデル群を構成する隠れマルコフモデル又はそのステートを構成する確率密度関数の数と同じ数のクラスタに分類してもよい。
前記フィラーモデル生成部は、各クラスタの確率密度関数を定義するための所与のパラメーターを求める際に、前記複数の確率密度関数を前記複数のクラスタに再分類して各クラスタの確率密度関数を定義するための所与のパラメーターを更新する処理を、規定の繰り返し回数に到達するか、更新時のクラスタの確率密度関数を定義するための所与のパラメーターの変化が規定の閾値を下回るまで行ってもよい。
前記フィラーモデル生成部は、各クラスタに分類された1又は複数の確率密度関数を定義するための平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルまたはそのステートを構成する確率密度関数を定義するための平均を求め、各クラスタに分類された1又は複数の確率密度関数を定義するための分散に基づき前記フィラーモデルとして使用する隠れマルコフモデル又はそのステートを構成する確率密度関数を定義するための分散を求めてもよい。
前記フィラーモデル生成部は、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群のステート間の遷移確率を定義する遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めてもよい。
前記前記使用予定モデル群からフィラーモデル生成に使用する隠れマルコフモデルを使用モデルとして選択する使用モデル選択部を含み、前記フィラーモデル生成部は、使用モデルとして選択された隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成してもよい。
前記使用モデル選択部は、指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
前記使用モデル選択部は、入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択してもよい。
上記のいずれかに記載の隠れマルコフモデル生成システムと、前記隠れマルコフモデル生成システムによって生成された前記フィラーモデルとして使用する隠れマルコフモデルが記憶されたフィラーモデル記憶部と、音声データを入力し、特徴ベクターを生成する特徴抽出部と、前記特徴ベクターと前記使用予定モデル群を構成する隠れマルコフモデルと前記フィラーモデルとして使用する隠れマルコフモデルに基づき前記音声データの音声認識を行う音声認識処理部と、を含む音声認識システムに関する。
コンピューターを用いて音声認識を行う方法であって、所与の音声認識システムで使用予定の複数の隠れマルコフモデル群の全部又は一部を記憶部から読み出して、前記使用予定モデル群の全部又は少なくとも1部の隠れマルコフモデル群に基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成して記憶部に記憶させるステップと、音声データを入力し、特徴ベクターを生成するステップと、前記特徴ベクターと記憶部に記憶された使用予定の複数の隠れマルコフモデル群と前記フィラーモデルとして使用する隠れマルコフモデルモデルとに基づき前記音声データの音声認識を行う音声認識ステップと、を含む音声認識方法に関する。
図1は、本実施の形態の隠れマルコフモデル生成システムの機能ブロック図の一例である。
次に本実施の形態の隠れマルコフモデル生成手法について説明する。ここでは、K平均法(K-Meansアルゴリズム)を使用することで1つ以上のフィラーモデルを生成するための方法を例にとり、隠れマルコフモデルを生成する手法(プログラム及びシステムよって実現される手法)について説明する。
図5は、本実施の形態の音声認識際システムの機能ブロック図の一例である。
Claims (23)
- 所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成するためのプログラムであって、
前記所与の音声認識システムで使用予定の隠れマルコフモデルである複数の使用予定モデルを記憶する使用予定モデル群記憶部と、
前記複数の使用予定モデルに含まれるP個(Pは2以上)の使用予定モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部としてコンピューターを機能させ、
前記P個の使用予定モデルは、各々処理対象となるステートを含み、
前記フィラーモデル生成部は、
前記P個の使用予定モデルに各々含まれる前記処理対象となるステートがM個の確率密度関数で構成されている場合に、クラスタ数をMに決定し、
前記P個の使用予定モデルの処理対象となるステートを構成するP×M個の確率密度関数を、前記確率密度関数の第1のパラメータに基づきM個のクラスタに分類する分類処理を行い、各クラスタに分類された確率密度関数に基づき、フィラーモデルとして使用する隠れマルコフモデルのステートを構成するM個の確率密度関数を求めるプログラム。 - 請求項1において、
前記使用予定モデルは、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合であるプログラム。 - 請求項1又は2において、
前記使用予定モデルは、複数のステートで構成され、
前記フィラーモデル生成部は、
前記使用予定モデルの前記複数のステートの各ステートについて、前記分類処理を行い、前記使用予定モデルのステートと同数のステートで構成されたフィラーモデルを生成するプログラム。 - 請求項1乃至3のいずれかにおいて、
前記フィラーモデル生成部は、
前記分類処理として、各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタのクラスタ値を求め、前記クラスタ値と前記確率密度関数の第1のパラメータとの距離に基づき、前記確率密度関数をM個のクラスタのいずれかに再分類し、再分類後の各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタの前記クラスタ値を更新する処理を、所定の条件を満たすまで行うプログラム。 - 請求項1乃至4のいずれかにおいて、
前記確率密度関数の第1のパラメータは、前記確率密度関数の平均であるプログラム。 - 請求項1乃至5のいずれかにおいて、
前記フィラーモデル生成部は、
各クラスタに分類された確率密度関数の平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の平均を求め、
各クラスタに分類された確率密度関数の分散に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の分散を求めるプログラム。 - 請求項1乃至6のいずれかにおいて、
前記フィラーモデル生成部は、
前記使用予定モデルのステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求めるプログラム。 - 請求項1乃至7のいずれかにおいて、
前記複数の使用予定モデルからフィラーモデル生成に使用する使用モデルを選択する使用モデル選択部として、コンピューターを機能させ、
前記フィラーモデル生成部は、
選択された前記使用モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するプログラム。 - 請求項8において、
前記使用モデル選択部は、
指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択するプログラム。 - 請求項8において、
前記使用モデル選択部は、
入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択するプログラム。 - コンピューターが読み取り可能な情報記憶媒体であって、請求項1乃至10のいずれかに記載のプログラムが記憶されている情報記憶媒体。
- 所与の音声認識システムで音声認識に使用する隠れマルコフモデルを生成する隠れマルコフモデル生成システムであって、
前記所与の音声認識システムで使用予定の隠れマルコフモデルである複数の使用予定デルを記憶する使用予定モデル群記憶部と、
前記複数の使用予定モデルに含まれるP個(Pは2以上)の使用予定モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成するフィラーモデル生成部と、を含み、
前記P個の使用予定モデルは、各々処理対象となるステートを含み、
前記フィラーモデル生成部は、
前記P個の使用予定モデルに各々含まれる前記処理対象となるステートがM個の確率密度関数で構成されている場合に、クラスタ数をMに決定し、
前記P個の使用予定モデルの処理対象となるステートを構成するP×M個の確率密度関数を、前記確率密度関数の第1のパラメータに基づきM個のクラスタに分類する分類処理を行い、各クラスタに分類された確率密度関数に基づき、フィラーモデルとして使用する隠れマルコフモデルのステートを構成するM個の確率密度関数を求める隠れマルコフモデル生成システム。 - 請求項12において、
前記使用予定モデルは、所与の音声認識システムで認識対象とする言語の発音を認識するための複数の要素に対応した隠れマルコフモデルの集合である隠れマルコフモデル生成システム。 - 請求項12又は13において、
前記使用予定モデルは、複数のステートで構成され、
前記フィラーモデル生成部は、
前記使用予定モデルの前記複数のステートの各ステートについて、前記分類処理を行い、前記使用予定モデルのステートと同数のステートで構成されたフィラーモデルを生成する隠れマルコフモデル生成システム。 - 請求項12乃至14のいずれかにおいて、
前記フィラーモデル生成部は、
前記分類処理として、各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタのクラスタ値を求め、前記クラスタ値と前記確率密度関数の第1のパラメータとの距離に基づき、前記確率密度関数をM個のクラスタのいずれかに再分類し、再分類後の各クラスタに属する確率密度関数の前記第1のパラメータに基づき各クラスタの前記クラスタ値を更新する処理を、所定の条件を満たすまで行う隠れマルコフモデル生成システム。 - 請求項12乃至15のいずれかにおいて、
前記確率密度関数の第1のパラメータは、前記確率密度関数の平均である隠れマルコフモデル生成システム。 - 請求項12乃至16のいずれかにおいて、
前記フィラーモデル生成部は、
各クラスタに分類された確率密度関数の平均に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の平均を求め、
各クラスタに分類された確率密度関数の分散に基づき前記フィラーモデルとして使用する隠れマルコフモデルを構成する確率密度関数の分散を求める隠れマルコフモデル生成システム。 - 請求項12乃至17のいずれかにおいて、
前記フィラーモデル生成部は、
前記使用予定モデルのステート間の遷移確率を定義した遷移マトリックスに基づき、前記フィラーモデルとして使用する隠れマルコフモデルのステート間の遷移マトリクスを求める隠れマルコフモデル生成システム。 - 請求項12乃至18のいずれかにおいて、
前記複数の使用予定モデルからフィラーモデル生成に使用する使用モデルを選択する使用モデル選択部を含み、
前記フィラーモデル生成部は、
選択された前記使用モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成する隠れマルコフモデル生成システム。 - 請求項19において、
前記使用モデル選択部は、
指定された語彙又は文章を音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択する隠れマルコフモデル生成システム。 - 請求項19において、
前記使用モデル選択部は、
入力されたテキストデータを音声認識するために必要な要素を検出し、検出された要素以外の要素の隠れマルコフモデルを使用モデルとして選択する隠れマルコフモデル生成システム。 - 請求項12乃至21のいずれかに記載の隠れマルコフモデル生成システムと、
前記隠れマルコフモデル生成システムによって生成された前記フィラーモデルとして使用する隠れマルコフモデルが記憶されたフィラーモデル記憶部と、
音声データを入力し、特徴ベクターを生成する特徴抽出部と、
前記特徴ベクターと前記使用予定モデル群を構成する隠れマルコフモデルと前記フィラーモデルとして使用する隠れマルコフモデルに基づき前記音声データの音声認識を行う音声認識処理部と、を含む音声認識システム。 - コンピューターを用いて音声認識を行う方法であって、
所与の音声認識システムで使用予定の隠れマルコフモデルであるP個(Pは2以上)の使用予定デルを記憶部から読み出して、前記P個の使用予定モデルに基づき前記所与の音声認識システムでフィラーモデルとして使用する隠れマルコフモデルを生成して記憶部に記憶させるフィラーモデル生成ステップと、
音声データを入力し、特徴ベクターを生成するステップと、
前記特徴ベクターと記憶部に記憶された使用予定の複数の隠れマルコフモデル群と前記フィラーモデルとして使用する隠れマルコフモデルモデルとに基づき前記音声データの音声認識を行う音声認識ステップと、を含み、
前記P個の使用予定モデルは、各々処理対象となるステートを含み、
前記フィラーモデル生成ステップにおいて、
前記P個の使用予定モデルに各々含まれる前記処理対象となるステートがM個の確率密度関数で構成されている場合に、クラスタ数をMに決定し、
前記P個の使用予定モデルの処理対象となるステートを構成するP×M個の確率密度関数を、前記確率密度関数の第1のパラメータに基づきM個のクラスタに分類する分類処理を行い、各クラスタに分類された確率密度関数に基づき、フィラーモデルとして使用する隠れマルコフモデルのステートを構成するM個の確率密度関数を求める音声認識方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15011409P | 2009-02-05 | 2009-02-05 | |
US61/150114 | 2009-02-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010181884A JP2010181884A (ja) | 2010-08-19 |
JP5692493B2 true JP5692493B2 (ja) | 2015-04-01 |
Family
ID=42631740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010024226A Active JP5692493B2 (ja) | 2009-02-05 | 2010-02-05 | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8595010B2 (ja) |
JP (1) | JP5692493B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
FR2964223B1 (fr) * | 2010-08-31 | 2016-04-01 | Commissariat Energie Atomique | Procede de configuration d'un dispositif de detection a capteur, programme d'ordinateur et dispositif adaptatif correspondants |
KR101768438B1 (ko) * | 2013-10-30 | 2017-08-16 | 삼성에스디에스 주식회사 | 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템 |
US10360904B2 (en) * | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
CN106663110B (zh) * | 2014-06-29 | 2020-09-15 | 谷歌有限责任公司 | 音频序列对准的概率评分的导出 |
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
US9940932B2 (en) | 2016-03-02 | 2018-04-10 | Wipro Limited | System and method for speech-to-text conversion |
US11107461B2 (en) | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
CN114048333B (zh) * | 2021-11-05 | 2024-06-04 | 深圳职业技术学院 | 一种多源融合语音交互式室内定位方法、终端及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2886177B2 (ja) | 1989-04-08 | 1999-04-26 | 株式会社吉田製作所 | 歯科用自動コップ給水装置 |
US6470315B1 (en) * | 1996-09-11 | 2002-10-22 | Texas Instruments Incorporated | Enrollment and modeling method and apparatus for robust speaker dependent speech models |
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
JP4224250B2 (ja) * | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
EP1505573B1 (en) * | 2002-05-10 | 2008-09-03 | Asahi Kasei Kabushiki Kaisha | Speech recognition device |
JP2003345384A (ja) * | 2002-05-27 | 2003-12-03 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
EP1376537B1 (en) * | 2002-05-27 | 2009-04-08 | Pioneer Corporation | Apparatus, method, and computer-readable recording medium for recognition of keywords from spontaneous speech |
WO2004075168A1 (ja) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置及び音声認識方法 |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
-
2010
- 2010-02-05 JP JP2010024226A patent/JP5692493B2/ja active Active
- 2010-02-05 US US12/701,008 patent/US8595010B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010181884A (ja) | 2010-08-19 |
US20100217593A1 (en) | 2010-08-26 |
US8595010B2 (en) | 2013-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP6596924B2 (ja) | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム | |
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
CN108538285B (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
US20140025382A1 (en) | Speech processing system | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP2018097191A (ja) | 言語記憶方法及び言語対話システム | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
JP5980101B2 (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
Abraham et al. | Articulatory Feature Extraction Using CTC to Build Articulatory Classifiers Without Forced Frame Alignments for Speech Recognition. | |
Ahsan et al. | Physical features based speech emotion recognition using predictive classification | |
JP5749186B2 (ja) | 音響モデル適応装置と音声認識装置とそれらの方法と、プログラム | |
KR101539112B1 (ko) | 음성 인식을 위한 감성 분류 장치 및 분류 방법 | |
KR101925248B1 (ko) | 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치 | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131002 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140319 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140519 |
|
RD07 | Notification of extinguishment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7427 Effective date: 20140619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5692493 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |