JPH0981181A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0981181A JPH0981181A JP7232434A JP23243495A JPH0981181A JP H0981181 A JPH0981181 A JP H0981181A JP 7232434 A JP7232434 A JP 7232434A JP 23243495 A JP23243495 A JP 23243495A JP H0981181 A JPH0981181 A JP H0981181A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- hidden markov
- cluster
- hmm
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
音声認識のために処理を行うことができ、しかも比較的
高い音声認識率を得ることができる音声認識装置を提供
する。 【解決手段】 入力された発声音声文の音声信号に基づ
いて、HMMを用いて音声認識して音声認識結果を出力
する音声認識部4,5を備え、HMMは、25個の音素
と無音に関する音響モデルであって、予め登録されてい
る登録語を認識するための音素HMM11と、予め登録
されていない未登録語を認識するための音響モデルであ
るガーベジHMM12とを含む。ガーベジHMM12
は、18個の子音を1つのクラスタにクラスタリングさ
れたガーベジの1個のHMMと、5個の母音をそれぞれ
1つのクラスタにクラスタリングされた5個のHMM
と、拗音、促音及び撥音の各3子音をそれぞれ1つのク
ラスタにクラスタリングされた3個のHMMとを含む。
Description
未登録語(未知語ともいう。)を検出するための音声認
識装置に関する。
テム内の辞書に登録されている単語のみ認識する。その
ため未登録語を含んだ発話を入力してしまうと未登録語
の部分で致命的な誤認識を起こしてしまう場合がある。
従来、音声認識システムにおいて、未登録語をどのよう
に処理するか種々研究開発されており、例えば、従来文
献1「Kita,K.,Ehara,T.,Morim
oto,T.,“Processing unknow
n words in continuousspee
ch recognition”,IEICE Tra
ns.,Vol.E74,No.7,pp.1811−
1816,1991年」や、従来文献2「伊藤克亘,速
水悟,田中穂積,“連続音声認識における未登録語の扱
い”,電子情報通信学会技術報告,Vol.91,SP
91−96,1991年」に開示されている。
せて最も高いスコアをとる語を認識結果とする音韻タイ
プライタを用いて未登録語の処理を行っている。また、
従来文献2では、上記音韻タイプライタと、音韻連鎖の
N−グラムモデルを用いて未登録語の音声認識を行って
いる。
音韻タイプライタを用いて未登録語の音声認識を行って
いるので、きわめて計算量が多い。また、従来文献2に
おいては、あらゆる音素系列を許すために音声認識のた
めの処理量がきわめて多い。また一般に未登録語の出現
箇所が不明であるため、常時未登録語の処理を実行する
必要があるためである。従って、上述の従来例の音声認
識システムでは、未登録語の音声認識のために処理量が
多くなり、処理時間が長くなるという問題点があった。
来例に比較して少ない処理量で未登録語の音声認識のた
めに処理を行うことができ、しかも比較的高い音声認識
率を得ることができる音声認識装置を提供することにあ
る。
載の音声認識装置は、入力された発声音声文の音声信号
に基づいて、所定の隠れマルコフモデルを用いて音声認
識して音声認識結果を出力する音声認識手段を備えた音
声認識装置において、上記隠れマルコフモデルは、音素
を複数のクラスタに分割して作成され、予め登録されて
いない未登録語を認識するための音響モデルを含むこと
を特徴とする。
求項1記載の音声認識装置において、上記隠れマルコフ
モデルは、25個の音素と無音に関する音響モデルであ
って、予め登録されている登録語を認識するための音素
隠れマルコフモデルと、予め登録されていない未登録語
を認識するための音響モデルであるガーベジ隠れマルコ
フモデルとを含み、上記ガーベジ隠れマルコフモデル
は、18個の子音を1つのクラスタにクラスタリングさ
れたガーベジの1個の隠れマルコフモデルと、5個の母
音をそれぞれ1つのクラスタにクラスタリングされた5
個の隠れマルコフモデルと、拗音、促音及び撥音の各3
子音をそれぞれ1つのクラスタにクラスタリングされた
3個の隠れマルコフモデルとを含む。
請求項2記載の音声認識装置において、上記音声認識手
段は、上記ガーベジ隠れマルコフモデルに基づいて計算
された未登録語の尤度に対して上記音素隠れマルコフモ
デルに基づいて計算された登録語の尤度と比較して所定
の重み係数を乗算して音声認識結果のスコアを計算し、
上記重み係数は、0.8以上であって、1未満であるこ
とを特徴とする。
は、請求項2又は3記載の音声認識装置において、上記
ガーベジ隠れマルコフモデルは、複数の名詞のテキスト
データに基づいて、当該名詞のテキストデータのシンボ
ルをクラスタに対応したシンボルに置き換えて、各クラ
スタの連鎖を示す複数N−グラムで学習されたことを特
徴とする。
る実施形態について説明する。図1に本発明に係る一実
施形態である音声認識装置のブロック図を示す。本発明
に係る本実施形態においては、日本語の音節構造を考慮
した音素クラスタを考え、そのクラスタに従った音響モ
デルを作成し使用することにより、未登録語区間を検出
することを特徴とし、特に、無音と25個の音素に関す
る音素隠れマルコフモデル(以下、隠れマルコフモデル
をHMMという。)11と、無音と、18個の子音をす
べて1つのクラスタとしたガーベジと、8個の音素とに
関するガーベジHMM12とに基づいて音素照合して音
声認識することを特徴とする。以下、登録語とは予め登
録された語であり、未登録語とは予め登録されていない
語である。
る。登録語彙数の大きさとその時の未登録語の出現数の
関係を調べるために、本特許出願人が所有する国際会議
予約タスクのテキストデータ(650会話;全単語数約
3.3×105;異り単語数9,502)を用いて、登
録語彙のサイズを変更した場合の1会話中に含まれる単
語のカバー率を調べた。この結果を図2に示す。
った単語(未登録語)を30の品詞に分類しその内訳を
調べると、登録語彙数が約3000を越えると未登録語
の約60%が名詞(普通名詞、固有名詞)となることが
分かった。以上の結果から、このテキストデータでは会
話単位で語彙を登録した場合、品詞別に見て名詞が最も
未登録語になりやすいことが分かった。本発明者は、こ
の結果を基づいて、本発明を発明し、後述の実験を行っ
た。以下の実験に使用する文法は、名詞部分で未登録語
の生成を許すルールを追加したものを用いた。
形態及び以下の実験で用いた音響モデルを表1に示す。
識のために、25個のコンテキスト非依存音素HMM
(4状態・5混合)と無音HMM(4状態・5混合)を
含む音素HMM11を用いた。この状態遷移図を図3に
示す。ここで、25個のコンテキスト非依存音素HMM
は音素#1乃至音素#25で示されている。図3から分
かるように、無音及び各音素とも4状態で構成され、最
初の3状態は自己ループがあり、最後の1状態は自己ル
ープは無く出力のみである。
量を少なく抑えるために音素をいくつかのクラスタに分
けてクラスタリングし、このクラスタリングにより作成
した音響モデルを用いて未登録語を検出して認識する。
ここでは、音響モデルとして以下の3種類を考え、各々
のクラスタに従ったHMMを用いて未登録語区間の検出
(認識)能力を比較すると共に、従来のタイプライタを
用いる方法との比較を行なった。 (1)本実施形態のガーベジHMM12(図4参照):
18個の子音を1つのクラスタにクラスタリングしたガ
ーベジのHMM(4状態・5混合)と、音素#1乃至音
素#8で示されている8つの音素HMM(4状態・5混
合)とを含む日本語の音節構造を考慮した、9つのクラ
スタモデルである。母音のHMMは子音と比べて大量の
学習データを持ち比較的信頼性が高いことから、各5母
音(/a/,/i/,/u/,/e/,/o/)はそれ
ぞれ1つのクラスタにクラスタリングされて各1つの音
素HMMとし、また、子音の中でも特殊な拗音(「ゃ」
など)・促音(「っ」など)・撥音(「ん」など)の各
3子音はそれぞれ1つのクラスタにクラスタリングされ
て各1つの音素HMMとした。他の子音は全て1つのク
ラスタのガーベジHMMとした。 (2)比較例1の1クラスタHMM(図5参照。):す
べての音素を1つのクラスタにクラスタリングしたHM
M(4状態・45混合)であり、すべての音素を1つの
クラスタにクラスタリングしたクラスタ数が最小のHM
Mである。 (3)比較例2の9クラスタHMM(図6参照。):公
知の逐次状態分割法(SSS)(例えば、従来文献3
「鷹見淳一ほか、“逐次状態分割法(SSS)による隠
れマルコフネットワークの自動生成”,音響学会論文
集,2−5−23,pp.73−74,1991年参
照。)により自動的に分割した9つのクラスタのHMM
(4状態・5混合)を含む。すべての音素を1つのクラ
スタにクラスタリングしたモデルを基にして逐次状態分
割法により自動的に分割した9つのクラスタモデルであ
る。
に総混合数を同一にし、各HMMとも無音のHMMを含
んでいる。また、それぞれに含まれる各1つのHMMと
も、4状態で構成され、最初の3状態は自己ループがあ
り、最後の1状態は自己ループは無く出力のみである。
される音素HMM11及びガーベジHMM12は、複数
の状態を含んで表され、各状態はそれぞれ以下の情報を
有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 ここで、出力確率密度関数は34次元の対角共分散行列
をもつ混合ガウス分布である。
1及びガーベジHMM12を用いた、HMM−LR(le
ft-to-right rightmost型)不特定話者連続音声認識装
置について説明する。
れて音声信号に変換された後、特徴抽出部2に入力され
る。特徴抽出部2は、入力された音声信号をA/D変換
した後、例えばLPC分析を実行し、対数パワー、16
次ケプストラム係数、Δ対数パワー及び16次Δケプス
トラム係数を含む34次元の特徴パラメータを抽出す
る。抽出された特徴パラメータの時系列はバッファメモ
リ3を介して音素照合部4に入力される。
LRパーザ5からの音素照合要求に応じて音素照合処理
を実行する。そして、それぞれ例えばハードディスクに
格納された音素HMM11及びガーベジHMM12を用
いて音素照合区間内のデータに対する尤度が計算され、
この尤度の値が音素照合スコアとしてLRパーザ5に返
される。このとき、前向きパスアルゴリズムを使用す
る。ここで、登録語の検出認識のために音素HMM11
が用いられる一方、未登録語の検出認識のためにガーベ
ジHMM12が用いられる。
0内の所定の文脈自由文法(CFG)を公知の通り自動
的に変換してLRテーブルを作成してLRテーブルメモ
リ13に格納される。なお、当該文脈自由文法(CF
G)においては、名詞部分については、未知語として検
出され、かつ作成したガーベジの並びで許されるような
自由文法を追加している。LRパーザ5は、上記LRテ
ーブルメモリ13内のLRテーブルを参照して、入力さ
れた音素予測データについて左から右方向に、後戻りな
しに処理する。構文的にあいまいさがある場合は、スタ
ックを分割してすべての候補の解析が平行して処理され
る。LRパーザ5は、LRテーブルメモリ13内のLR
テーブルから次にくる音素を予測して音素予測データを
音素照合部4に出力する。これに応答して、音素照合部
4は、その音素に対応する音素HMM11及びガーベジ
HMM12内の情報を参照して照合し、その尤度を音声
認識スコアとしてLRパーザ5に戻し、順次音素を連接
していくことにより、連続音声の認識を行う。上記連続
音声の認識において、複数の音素が予測された場合は、
これらすべての存在をチェックし、ビームサーチの方法
により、部分的な音声認識の尤度の高い部分木を残すと
いう枝刈りを行って高速処理を実現する。
単語(登録語)にもかかわらず、未登録語としてガーベ
ジHMM12において検出されるおそれがあるので、例
えば、音素照合部4は、ガーベジHMM12に基づいて
計算された未登録語区間の尤度に対して音素HMM11
に基づいて計算された登録語区間の尤度と比較して例え
ば0.95などの1未満の重み係数を乗算してスコアを
計算してもよい。上記重み係数は、好ましくは、0.8
以上であって、1未満である。
してクラスタの4−グラムを導入してしてもよい。この
クラスタの4−グラムには名詞のみを集めて学習したも
のを使用する。すなわち、ガーベジHMM12の各パラ
メータは、多数の名詞のテキストデータに基づいて、当
該名詞のシンボルをクラスタに対応したシンボルに置き
換えて、各クラスタの連鎖を示す4−グラムで学習され
る。ここで、上記言語制約は、クラスタの少なくとも複
数N−グラムであってもよい。
価を行うために、未登録語を含んだ文の音声認識につい
て以下のようにシミュレーションの実験を行った。当該
実験は、表2の条件でフレーム同期型HMM−LRによ
り行なった(例えば、従来文献4「Shimizu,
T.,Monzen,S.,Matsunaga,S.
and Singer,H.,“Time−synch
ronous continuous speech
recognizer driven byacont
ext−free grammar”,Proc.IC
ASSP95,pp.584−587,1995年」参
照。)。音響モデルは、2620の単語発声のデータに
より学習したコンテキスト非依存のHMMを使用する。
また、未登録語を含んだ文を意図的に作り出すために、
名詞部分に未登録語を許すルールを追加した文法を基に
して入力文中に出現する名詞のみ単語辞書中から削除し
た文法を各入力文毎に作成し、各入力文に応じた文法を
使用する。また、音響モデルとして使用するHMMを上
記表1に示す。
未登録語区間で用いた場合の未登録語検出能力の比較実
験を行なった。また、未登録語処理では、任意の連鎖を
許す制約の弱い未登録語区間に対して何らかのペナルテ
ィを与えて、登録単語のスコアと比較する方法が一般に
知られている。今回の実験では、未登録語区間のスコア
に対して0.95の重み係数w2を乗算したもの、およ
び、言語制約としてクラスタの4−グラムを導入したも
のの実験も行なった。このクラスタ4−グラムには、名
詞のみ(全名詞数58,896;異り名詞数5,07
2)を集めて学習したものを使用する。以下、実験の評
価は、単語認識の正確さを示す、次の数1によるワード
アキュラシーで行なった。
M}×100(%)
誤り、Dは削除誤り、Sは認識誤りの数を表わす。ま
た、未登録語区間に未登録語系列が現れた場合は、正解
としてカウントした。さらに、未登録語のスコアSuを
次の数2で表わす。
素HMM11によって検出された未登録語の尤度であ
り、Plは未登録語のガーベジクラスタのN−グラムの
確率である。また、重み係数w2=1.0又は0.95
とし、重み係数w1=0とした。ただし、4−グラムの
言語モデルについては、重み係数w1=1.0とし、重
み係数w2=1.0とした。表3に実験結果を示す。
2は、使用するHMM毎に最適値が異なると考えられる
が、表3から明らかなように、クラスタHMMのスコア
にペナルティを与えると未登録語処理なしのワードアキ
ュラシーを上回る。また、w2=1.0の場合に比較的
低いワードアキュラシーとなっているのは、未登録語系
列のスコアが高過ぎるために登録単語も含んで未登録語
区間として認識し、削除誤りが多く発生しているためと
考えられる。従って、重み係数w2を設定することによ
り、ワードアキュラシーが改善されていることはわか
る。
HMMは、それぞれ4−グラムの種類数(実施形態のガ
ーベジHMM12:1,107;比較例2の9クラスタ
HMM:1,913;従来例の25クラスタHMM:
9,183で、容量にほぼ対応する。)が異ることから
単純に比較できないが、少なくとも音素タイプライタと
同等のワードアキュラシーを達成し、処理時間もほぼ5
0%の削減を実現している。以上のことから、未登録語
の検出のために本実施形態のガーベジHMM12を用い
る方法が処理量削減に有効であることが分かる。
いて男女各3名についても実験を行なった。音響モデル
は、男性話者(MHT)のモデルを男性3名に、女性話
者(FYM)のモデルを女性3名に、それぞれ50単語
の発声を用いて移動ベクトル場平滑化方式(VFS)に
より話者適応を施したものを用いた。また、クラスタの
4−グラムも制約として用いた。この結果を表4に示
す。
特定話者と同じ傾向の結果が得られた。クラスタHMM
においてSSSにより分割するモデルは、話者毎にそれ
ぞれ別の適切なクラスタを持つと考えられる。つまり、
クラスタHMMを話者適応して使用する方法をとると、
認識対象の話者のクラスタではなく適応前の話者のクラ
スタ構成となってしまう。これは、話者によっては検出
精度を低下させる危険がある。一方、日本語の音節構造
に従ったクラスタは、話者に依存しないという点では有
利といえる。
出するために、日本語の音節構造に従った音素のクラス
タHMMであるガーベジHMM12を用いる方法を発明
した。この方法は、従来例の音素タイプライタを用いる
方法と比較して、処理量を約50%削減しながらほぼ同
等のワードアキュラシーが獲得できることから処理量を
抑えた未登録語検出に有効であることが確かめられた。
従って、処理量を削減できるために、連続音声認識にお
ける処理時間を大幅に短縮することができる。また、未
登録語区間に対してクラスタN−グラムを使用すること
が有効であり、従来例に比較して処理量を削減しかつワ
ードアキュラシーを改善することができる。
びLRパーザ5は、例えばディジタル電子計算機で構成
される。
1記載の音声認識装置によれば、入力された発声音声文
の音声信号に基づいて、所定の隠れマルコフモデルを用
いて音声認識して音声認識結果を出力する音声認識手段
を備えた音声認識装置において、上記隠れマルコフモデ
ルは、音素を複数のクラスタに分割して作成され、予め
登録されていない未登録語を認識するための音響モデル
を含む。請求項2記載の音声認識装置においては、特
に、上記隠れマルコフモデルは、25個の音素と無音に
関する音響モデルであって、予め登録されている登録語
を認識するための音素隠れマルコフモデルと、予め登録
されていない未登録語を認識するための音響モデルであ
るガーベジ隠れマルコフモデルとを含み、上記ガーベジ
隠れマルコフモデルは、18個の子音を1つのクラスタ
にクラスタリングされたガーベジの1個の隠れマルコフ
モデルと、5個の母音をそれぞれ1つのクラスタにクラ
スタリングされた5個の隠れマルコフモデルと、拗音、
促音及び撥音の各3子音をそれぞれ1つのクラスタにク
ラスタリングされた3個の隠れマルコフモデルとを含
む。従って、従来例に比較して少ない処理量で未登録語
の音声認識のために処理を行うことができ、しかも比較
的高い音声認識率を得ることができる。また、処理量を
削減できるために、連続音声認識における処理時間を大
幅に短縮することができる。
ては、上記音声認識手段は、上記ガーベジ隠れマルコフ
モデルに基づいて計算された未登録語の尤度に対して上
記音素隠れマルコフモデルに基づいて計算された登録語
の尤度と比較して所定の重み係数を乗算して音声認識結
果のスコアを計算し、上記重み係数は、0.8以上であ
って、1未満である。これによって、登録語にかかわら
ず、未登録語として認識されることを防止し、全体とし
ての音声認識率を改善することができる。
いては、上記ガーベジ隠れマルコフモデルは、複数の名
詞のテキストデータに基づいて、当該名詞のテキストデ
ータのシンボルをクラスタに対応したシンボルに置き換
えて、各クラスタの連鎖を示す4−グラムで学習され
た。これによって、さらに高い音声認識率を得ることが
できる。
のブロック図である。
る未登録語の比率のグラフである。
1の構造を示す状態遷移図である。
M12の構造を示す状態遷移図である。
遷移図である。
遷移図である。
Claims (4)
- 【請求項1】 入力された発声音声文の音声信号に基づ
いて、所定の隠れマルコフモデルを用いて音声認識して
音声認識結果を出力する音声認識手段を備えた音声認識
装置において、 上記隠れマルコフモデルは、音素を複数のクラスタに分
割して作成され、予め登録されていない未登録語を認識
するための音響モデルを含むことを特徴とする音声認識
装置。 - 【請求項2】 上記隠れマルコフモデルは、 25個の音素と無音に関する音響モデルであって、予め
登録されている登録語を認識するための音素隠れマルコ
フモデルと、 予め登録されていない未登録語を認識するための音響モ
デルであるガーベジ隠れマルコフモデルとを含み、 上記ガーベジ隠れマルコフモデルは、 18個の子音を1つのクラスタにクラスタリングされた
ガーベジの1個の隠れマルコフモデルと、 5個の母音をそれぞれ1つのクラスタにクラスタリング
された5個の隠れマルコフモデルと、 拗音、促音及び撥音の各3子音をそれぞれ1つのクラス
タにクラスタリングされた3個の隠れマルコフモデルと
を含むことを特徴とする請求項1記載の音声認識装置。 - 【請求項3】 上記音声認識手段は、 上記ガーベジ隠れマルコフモデルに基づいて計算された
未登録語の尤度に対して上記音素隠れマルコフモデルに
基づいて計算された登録語の尤度と比較して所定の重み
係数を乗算して音声認識結果のスコアを計算し、 上記重み係数は、0.8以上であって、1未満であるこ
とを特徴とする請求項2記載の音声認識装置。 - 【請求項4】 上記ガーベジ隠れマルコフモデルは、複
数の名詞のテキストデータに基づいて、当該名詞のテキ
ストデータのシンボルをクラスタに対応したシンボルに
置き換えて、各クラスタの連鎖を示す複数N−グラムで
学習されたことを特徴とする請求項2又は3記載の音声
認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7232434A JP2886117B2 (ja) | 1995-09-11 | 1995-09-11 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7232434A JP2886117B2 (ja) | 1995-09-11 | 1995-09-11 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0981181A true JPH0981181A (ja) | 1997-03-28 |
JP2886117B2 JP2886117B2 (ja) | 1999-04-26 |
Family
ID=16939207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7232434A Expired - Fee Related JP2886117B2 (ja) | 1995-09-11 | 1995-09-11 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2886117B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002150204A (ja) * | 2000-06-02 | 2002-05-24 | Mitsubishi Electric Research Laboratories Inc | システムの状態の確率を決定する方法 |
WO2005122144A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
US7260527B2 (en) | 2001-12-28 | 2007-08-21 | Kabushiki Kaisha Toshiba | Speech recognizing apparatus and speech recognizing method |
JP2009104156A (ja) * | 2001-12-17 | 2009-05-14 | Asahi Kasei Homes Kk | 電話通信端末 |
US7653541B2 (en) | 2002-11-21 | 2010-01-26 | Sony Corporation | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech |
JP2013232017A (ja) * | 2006-04-03 | 2013-11-14 | Vocollect Inc | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
CN106653022A (zh) * | 2016-12-29 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3459712B2 (ja) | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
-
1995
- 1995-09-11 JP JP7232434A patent/JP2886117B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002150204A (ja) * | 2000-06-02 | 2002-05-24 | Mitsubishi Electric Research Laboratories Inc | システムの状態の確率を決定する方法 |
JP2009104156A (ja) * | 2001-12-17 | 2009-05-14 | Asahi Kasei Homes Kk | 電話通信端末 |
US7260527B2 (en) | 2001-12-28 | 2007-08-21 | Kabushiki Kaisha Toshiba | Speech recognizing apparatus and speech recognizing method |
US7653541B2 (en) | 2002-11-21 | 2010-01-26 | Sony Corporation | Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech |
WO2005122144A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
JP2013232017A (ja) * | 2006-04-03 | 2013-11-14 | Vocollect Inc | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
CN106653022A (zh) * | 2016-12-29 | 2017-05-10 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2886117B2 (ja) | 1999-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zissman et al. | Automatic language identification | |
Seymore et al. | The 1997 CMU Sphinx-3 English broadcast news transcription system | |
US5878390A (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
Young et al. | Multilingual large vocabulary speech recognition: the European SQALE project | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
Nanjo et al. | Language model and speaking rate adaptation for spontaneous presentation speech recognition | |
Stouten et al. | Coping with disfluencies in spontaneous speech recognition: Acoustic detection and linguistic context manipulation | |
US5819221A (en) | Speech recognition using clustered between word and/or phrase coarticulation | |
Kubala et al. | Comparative experiments on large vocabulary speech recognition | |
Ali | Multi-dialect Arabic speech recognition | |
JP2886117B2 (ja) | 音声認識装置 | |
Finke et al. | Modeling and efficient decoding of large vocabulary conversational speech. | |
Hieronymus et al. | Robust spoken language identification using large vocabulary speech recognition | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition | |
Ney et al. | Dynamic programming search strategies: From digit strings to large vocabulary word graphs | |
JP2871557B2 (ja) | 音声認識装置 | |
Szöke et al. | Spoken term detection system based on combination of LVCSR and phonetic search | |
JPH08123470A (ja) | 音声認識装置 | |
Chen et al. | Large vocabulary word recognition based on tree-trellis search | |
JP2880436B2 (ja) | 音声認識装置 | |
Hwang et al. | Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules | |
JP2905686B2 (ja) | 音声認識装置 | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
Nakagawa et al. | The syntax-oriented speech understanding system-SPOJUS-SYNO. | |
JP2999727B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080212 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110212 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120212 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 14 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 15 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |