JP2986703B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2986703B2
JP2986703B2 JP7045386A JP4538695A JP2986703B2 JP 2986703 B2 JP2986703 B2 JP 2986703B2 JP 7045386 A JP7045386 A JP 7045386A JP 4538695 A JP4538695 A JP 4538695A JP 2986703 B2 JP2986703 B2 JP 2986703B2
Authority
JP
Japan
Prior art keywords
speech recognition
word
likelihood
time
recognition candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP7045386A
Other languages
English (en)
Other versions
JPH08241094A (ja
Inventor
仁一 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Original Assignee
Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk filed Critical Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority to JP7045386A priority Critical patent/JP2986703B2/ja
Publication of JPH08241094A publication Critical patent/JPH08241094A/ja
Application granted granted Critical
Publication of JP2986703B2 publication Critical patent/JP2986703B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力された単語列から
なる発声音声の音声信号に基づいて上記発声音声を音声
認識する連続音声認識装置に関する。
【0002】
【従来の技術】従来、ワードスポッティング型連続音声
認識のためのアルゴリズムとして連続ビタビ符号化法
(Viterbi decoding)を用いること
が、従来技術の文献「岡隆一,“部分整合法の出力への
ベクトル連続DP適用による文スポッティング型連続音
声認識”,電子情報通信学会論文誌,D−II,Vo
l.J76−D−II,No.5,pp.921−93
1,1993年5月」(以下、従来例という。)におい
て開示されている。ここで、文のスポッティング認識と
は、文と文との区切りを指定しないで文を認識するもの
であり、実際の会話文などにおける、言いよどみ(これ
は、文頭、文末の言いよどみで、文中の言い直しまでは
対象としない。)、タスク以外の文発声や文の区切りが
明確でない場合の文認識に都合のよい方式といえる。こ
の音声認識システムにおいては、基本とする認識の単位
を「音素片」とし、それを部分整合法で識別する。次
に、音素片の識別結果をベクトル連続DP音声認識法を
用いて文へ統合して文認識する。音素片識別を行う部分
整合法と文認識を行うベクトル連続DP音声認識法はと
もにフレーム同期を用いるスポッティングのアルゴリズ
ムといえる。
【0003】この従来例のアルゴリズムにおいては、始
端及び終端はフリーであってビタビ符号化処理を実行
し、累積尤度の絶対値を用いて音声認識処理を制御して
いる。言い換えれば、累積尤度が所定のしきい値以上の
ものを最適値として検出している。
【0004】
【発明が解決しようとする課題】しかしながら、この従
来例のアルゴリズムを用いた場合、設定するしきい値に
よって音声認識の性能が大幅に変化するという問題点が
あった。本発明の目的は以上の問題点を解決し、従来例
に比較して高い音声認識率で音声認識することができ、
しかも安定に動作する音声認識装置を提供することにあ
る。
【0005】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、入力された単語列からなる発声音
声の音声信号に基づいて、所定の音響モデルを参照し
て、上記発声音声を音声認識する音声認識手段を備えた
音声認識装置において、上記音響モデルは、複数の状態
を備え各2つの状態間の状態遷移確率と出力確率とを含
む単語の隠れマルコフモデルにおいて、単語のバイグラ
ムを挿入してなる音響モデルであって、上記音声認識手
段は、各時刻において各音声認識候補の累積尤度を計算
する尤度計算手段と、上記尤度計算手段によって計算さ
れた各音声認識候補の累積尤度のうち最大の累積尤度を
有する音声認識候補を最適な音声認識候補として検出す
る比較手段と、上記比較手段によって検出された最適な
音声認識候補が認識すべき単語の最終状態であるか否か
を判断し、最終状態であるときに音声認識結果の単語と
して出力する判断手段とを備えたことを特徴とする。
【0006】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、上記尤度計算手段
は、1つ前の時刻における尤度と、1つ前の時刻におけ
る状態から処理すべき時刻への状態遷移確率と、音声認
識候補に対する処理すべき時刻の音声認識候補の出力確
率との積について、1つ前の時刻におけるすべての複数
の状態において加算することにより累積尤度を計算する
ことを特徴とする。
【0007】
【作用】以上のように構成された請求項1記載の音声認
識装置においては、上記尤度計算手段は、各時刻におい
て各音声認識候補の累積尤度を計算し、上記比較手段
は、上記尤度計算手段によって計算された各音声認識候
補の累積尤度のうち最大の累積尤度を有する音声認識候
補を最適な音声認識候補として検出する。そして、上記
判断手段は、上記比較手段によって検出された最適な音
声認識候補が認識すべき単語の最終状態であるか否かを
判断し、最終状態であるときに音声認識結果の単語とし
て出力する。
【0008】また、請求項2記載の音声認識装置におい
ては、上記尤度計算手段は、1つ前の時刻における尤度
と、1つ前の時刻における状態から処理すべき時刻への
状態遷移確率と、音声認識候補に対する処理すべき時刻
の音声認識候補の出力確率との積について、1つ前の時
刻におけるすべての複数の状態において加算することに
より累積尤度を計算する。
【0009】
【実施例】以下、図面を参照して本発明に係る実施例の
連続音声認識装置について説明する。図1の本実施例の
連続音声認識装置は、特に、One pass DP音
声認識部6の処理において、各フレームにおいて単語の
最終状態における各音声認識候補の累積尤度を比較して
最大の累積尤度を有する最適な状態遷移系列に対応する
音声認識候補の単語を認識結果とするフォーワード(前
向き)符号化(Forward decoding)法
を用いることを特徴とする。ここで、この連続音声認識
装置は、図1に示すように、マイクロホン1と、特徴抽
出部2と、バッファメモリ3と、入力される発声音声デ
ータに基づいてHMMメモリ5内の音響モデルである隠
れマルコフもモデル(以下、HMMという。)を参照し
て単語照合処理を実行して単語データを出力する単語照
合部4と、単語照合部4からの単語データに基づいて、
One pass DPアルゴリズムであるがフォーワ
ード(前向き)符号化(Forward decodi
ng)法である新しいスポッティングアルゴリズムを用
いて、単語音声認識処理を実行するOne pass
DP音声認識部(以下、音声認識部という。)6とを備
える。
【0010】音響モデルとして単語のleft−to−
rigth型(前向き型ともいう。)HMMを用いる一
方、言語モデルとして単語のバイグラムを考慮して、こ
れらを組み合わせたモデルである音響モデルを用いて単
語音声認識処理を実行する。すなわち、この音響モデル
は、単語のleft−to−rigth型HMMにおい
て、単語のバイグラムを挿入してなる従来のエルゴディ
ック(Ergodic)HMMと類似した音響モデルと
なっており、この音響モデルの一例を図2に示す。図2
において、W1乃至W4はそれぞれHMMの単語を示
し、B1乃至B6は単語バイグラムを示している。この
例では、HMMの単語W1には、3つの状態C11,C
12,S13が存在し、left−rigth型HMM
を構成している。そして、複数のHMMの単語W1乃至
W4が各2つの単語の間でともに連結遷移するように、
すなわち予め決められた単語のバイグラムで遷移確率が
決定されるように構成されている。言い換えれば、単語
のバイグラムの値は、1つの単語のHMMの最終状態の
遷移確率を別の単語に接続されたときの値の分配率と考
えることができる。そして、音響尤度と言語の連鎖確率
の結合値αは1と考えることができる。
【0011】本実施例においては、特徴抽出部2は入力
された音声信号をA/D変換した後、例えばLPC分析
を実行しているが、A/D変換後の特徴パラメータのデ
ータはA/D変換のサンプリング周波数に対応して決定
されるフレーム毎に処理される。このフレームは、本実
施例においては、例えば10ミリ秒又は20ミリ秒であ
り、処理する時刻に対応している。
【0012】エルゴディックHMMのパラメータと信号
系列(テストデータ)が与えられたとき、最適状態遷移
系列を検出する問題を考える。この最適状態遷移の検出
方法として、従来例のビタビ符号化法と、本実施例の前
向き符号化法とが考えられる。従来のビタビ符号化法に
おいては、検出されたHMMのパラメータが観測系列を
出力する可能性の高い最適状態遷移系列は、ビタビ符号
化法により効率的に求めることができ、単語系列は最適
状態遷移系列から直ちに類推できて検出できる。これに
対して、本発明に係る実施例の前向き符号化法は、まず
始めに、累積尤度を各状態からの総和で計算する。次い
で、最適状態遷移系列は、各時刻における最大の尤度を
持つ状態とする。
【0013】図3に、前向き符号化法を用いる単語音声
認識処理のフローを示す。この処理は、図1の音声認識
部によって実行される。図3に示すように、まず、ステ
ップS1において、フレームに対応する時刻tに1がセ
ットされる。そして、ステップS2において、次の数1
と数2を用いて、すべての状態iに対して尤度を表わす
グリッドδ1(i)と最大のグリッドとなる最適状態遷
移系列s1を求める。
【0014】
【数1】δ1(i)=πi×bi(o1
【数2】s1=argmaxiδ1(i)
【0015】ここで、πiは初期状態確率であり、b
i(o1)は観測された特徴パラメータo1に対する状態
iのシンボル出力確率である。すなわち、状態iにおけ
るグリッドは、初期状態確率πiと、観測された特徴パ
ラメータo1に対する状態iのシンボル出力確率bi(o
1)との積で表される。数2におけるargmaxiδ1
(i)は、状態iを変化したときにグリッドδ1(i)
が最大となる最適状態遷移系列s1である。ここで、状
態遷移系列は、特徴パラメータからなる系列であって、
音素列からなる音声認識候補の単語に変換される。
【0016】次いで、ステップS3において、ステップ
S2において求められた最適状態遷移状態系列s1が認
識すべき単語の最終状態であるか否かが判断される。単
語の最終状態であるときは、単語の終端までの複数の音
素列からなる単語が認識されたと判断して当該処理を終
了する。一方、単語の最終状態でなければ、ステップS
4において時刻tを1だけインクリメントして、ステッ
プS5において、次の数3と数4を用いて、すべての状
態jに対して累積尤度を表わすグリッドδt(j)と、
最大のグリッドとなる最適状態遷移系列stを求める。
【0017】
【数3】 δt(j)=Σi{δt-1(i)×aij×bj(ot)}
【数4】st=argmaxjδt(j)
【0018】上記数3におけるΣは1つ前の時刻におけ
るすべての状態iに対する左辺の{}内のグリッドの和
であり、上記数4におけるargmaxjδt(j)は、
状態jを変化したときにグリッドδt(j)が最大とな
る最適状態遷移系列stである。数3の左辺の{}内の
グリッドは、1つ前の時刻における状態iのグリッドδ
t-1(i)と、状態iから状態jへの状態遷移確率aij
と、観測された特徴パラメータotに対する状態jのシ
ンボル出力確率bj(ot)との積で表される。
【0019】次いで、ステップS6において、ステップ
S5において求められた最適状態遷移状態系列stが認
識すべき単語の最終状態であるか否か、すなわち認識す
べき単語の状態遷移系列をすべて含むか否かが判断され
る。単語の最終状態であるときは、単語が認識されたと
判断して当該処理を終了する。一方、単語の最終状態で
なければ、ステップS7に進み、時刻tが最後の時刻T
であるか否かが判断され、最後の時刻Tであれば、当該
処理を終了し、一方、最後の時刻Tでなければ、ステッ
プS8において状態jを1つの前の時刻の状態iに置き
換えた後、ステップS4に戻る。そして、ステップS4
からステップS6までの処理を最後の時刻Tになるまで
処理する。
【0020】この処理においては、各時刻において、最
適状態遷移系列が任意の単語の最終状態であるとき、単
語が認識されたと判断する。この前向き復号法は、各時
刻において認識している単語がわかるため、一種のワー
ドスポッティング型音声認識法といえる。なお、図3の
処理における時刻はすべてフレームに置き換えることが
できる。
【0021】次いで、本実施例における連続音声認識装
置の構成及び動作について図1を参照して説明する。
【0022】図1において、単語列からなる話者の発声
音声はマイクロホン1に入力されて音声信号に変換され
た後、特徴抽出部2に入力される。特徴抽出部2は、入
力された音声信号をA/D変換した後、例えばLPC分
析を実行し、対数パワー、16次ケプストラム係数、Δ
対数パワー及び16次Δケプストラム係数を含む34次
元の特徴パラメータを抽出する。抽出された特徴パラメ
ータの時系列はバッファメモリ3を介して単語照合部4
に入力される。単語照合部4に接続されるHMMメモリ
5内の音響HMMモデルである単語HMMは、例えば図
2に示すように、1つのHMMの単語において、複数の
状態と、各状態間の遷移を示す弧から構成され、各弧に
は状態間の遷移確率と入力コードに対するシンボル出力
確率を有している。そして、HMMの単語とHMM別の
単語とは、単語バイグラムの確率情報で連結されてい
る。単語照合部4は、入力されたデータに基づいて単語
照合処理を実行して単語データを、音声認識部6に出力
する。
【0023】音声認識部6は、所定のOne pass
DPアルゴリズムを用いて、図3の単語音声認識処理
を実行することにより、各フレームにおいて単語の最終
状態における累積尤度を比較することで認識を実行し、
決定された音声認識結果データ(文字列データ)を出力
する。
【0024】本発明者は、本実施例の連続音声認識装置
を用いて、音声認識のシミュレーションを行なった。認
識シミュレーションには、認識単位として音素のHMM
を用い、音素モデルを連結して単語のHMMを作成し
た。音素HMMの学習データは単語発声のデータを利用
した。単語バイグラムの連鎖確率値は、本特許出願人で
あるエイ・ティ・アール音声翻訳通信研究所の対話デー
タ8475文57354単語からdeleted−in
terpolation法(削除補間法)を用いてスム
ージングをした値を利用した。また、計算量を削減する
ために、各フレームごとにビームサーチを行なった。テ
ストデータには、単語バイグラムの学習に使用したテキ
ストデータと同一タスクの会話38文(総単語数25
9)を用いた。また、学習データにテストデータのテキ
ストを加えたテキストクローズド(text−clos
ed)のシミュレーションも行なった。なお、以下、学
習データにテストデータのテキストを加えない場合はテ
キストオープン(text−closed)という。こ
のシミュレーショにおける評価は、単語正解率(ワード
コレクト)及び単語認識率(ワードアキュラシー)で行
なった。その他のシミュレーション条件を表1に示す。
ここで、単語正解率と、単語認識率はそれぞれ当該技術
分野で既に決められているように、数5及び数6で表さ
れる。
【0025】
【表1】 連続音声認識シミュレーションの条件 ──────────────────────────── 音響モデル 4状態3ループ混合分布型HMM ──────────────────────────── 音響パラメータ logパワー+16次LPケプストラム +Δlogパワー+16次Δケプストラム ──────────────────────────── 学習用 男性アナウンサー1名、2620単語発声 テキストデータ ──────────────────────────── 言語モデル 単語バイグラム 学習データ数 8475文 総単語数 57354 ──────────────────────────── 認識語彙数 435単語 ビーム幅 4096 テストデータ 同一話者発声 38文(259単語) 発話様式 朗読 ────────────────────────────
【0026】
【数5】 単語正解率={(N−D−S)/N}×100[%]
【数6】 単語認識率={(N−D−S−I)/N}×100[%]
【0027】ここで、Nはすべての単語数であり、Dは
脱落誤りの数であり、Sは置換誤りの数であり、Iは挿
入誤りの数である。
【0028】次に、表2及び表3にシミュレーションの
結果を示す。これらの表から、従来例のビタビ符号化法
と比較すると、単語正解率は低いが、単語認識率は高い
ことが示された。これは挿入誤りが少ないことを意味し
ている。
【0029】
【表2】 実施例の前向き符号化法を用いた場合 ────────────────────────── テキストオープン テキストクローズド ────────────────────────── 単語正解率 34.0% 36.3% 単語認識率 25.9% 29.0% ──────────────────────────
【0030】
【表3】 従来例のビタビ符号化法を用いた場合 ────────────────────────── テキストオープン テキストクローズド ────────────────────────── 単語正解率 54.1% 56.8% 単語認識率 20.1% 23.6% ──────────────────────────
【0031】これらのミュレーション結果から、本発明
に係る実施例の前向き符号化法を用いた音声認識処理に
おいては、脱落誤りが多いことがわかる。これは、当該
認識アルゴリズムにおいて、「各時刻において、累積尤
度が最大の状態が、任意の単語の最終状態であるとき、
単語が認識されたとする。」の条件を加えたためであ
る。この条件を変えることにより、脱落誤り率を改善す
ることが可能である。ただし、同時に挿入誤り率も増加
する。
【0032】今回のシミュレーションに使用した音響H
MMモデルのパラメータは、音声データ及びテキストデ
ータから個別に計算した。しかしながら、大量の音声デ
ータがあれば、バーム・ウエルチ(Baum−Welc
h)の学習アルゴリズムを利用して直接に計算すること
ができる。また、本実施例の前向き符号化法は、音響h
mmモデルのパラメータと信号系列(テストデータ)が
与えられたとき、各時刻におけるローカルな最適解を与
えることができる復号法といえる。そこで、各時刻にお
けるローカルな最適性を持たせてHMMのパラメータを
学習する方法が考えられる。これに対して、従来例のビ
タビ符号化法は、テストデータに対するグローバルな最
適解を与える復号法といえる。
【0033】本実施例の前向き符号化法は、エルゴディ
ックHMMだけでなく、一般的なフレーム同期型の連続
認識アルゴリズムにも組み込むことができる。従って、
言語モデルとして例えばCYKのようなleft−ri
ght型のパーザを組み込むことも容易である。
【0034】以上説明したように、本実施例の前向き符
号化法を用いた連続音声認識装置においては、各フレー
ムにおいて単語の最終状態における累積尤度の比較で認
識を行なうため、従来例のビタビ符号化法と比較する
と、より高い音声認識率でかつより安定に動作すること
が可能である。特に、挿入誤りが少ない。
【0035】以上の実施例において、特徴抽出部2と、
音素照合部4と、音声認識部6とは、例えばディジタル
計算機によって構成される。
【0036】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声認識装置によれば、入力された単語列から
なる発声音声の音声信号に基づいて、所定の音響モデル
を参照して、上記発声音声を音声認識する音声認識手段
を備えた音声認識装置において、上記音響モデルは、複
数の状態を備え各2つの状態間の状態遷移確率と出力確
率とを含む単語の隠れマルコフモデルにおいて、単語の
バイグラムを挿入してなる音響モデルであって、上記音
声認識手段は、各時刻において各音声認識候補の累積尤
度を計算する尤度計算手段と、上記尤度計算手段によっ
て計算された各音声認識候補の累積尤度のうち最大の累
積尤度を有する音声認識候補を最適な音声認識候補とし
て検出する比較手段と、上記比較手段によって検出され
た最適な音声認識候補が認識すべき単語の最終状態であ
るか否かを判断し、最終状態であるときに音声認識結果
の単語として出力する判断手段とを備える。従って、各
時刻において単語の最終状態における累積尤度の比較で
認識を行なうため、従来例のビタビ符号化法と比較する
と、より高い音声認識率でかつより安定に動作すること
が可能である。特に、挿入誤りが少ない音声認識装置を
実現できる。
【0037】また、請求項2記載の音声認識装置によれ
ば、請求項1記載の音声認識装置において、上記尤度計
算手段は、1つ前の時刻における尤度と、1つ前の時刻
における状態から処理すべき時刻への状態遷移確率と、
音声認識候補に対する処理すべき時刻の音声認識候補の
出力確率との積について、1つ前の時刻におけるすべて
の複数の状態において加算することにより累積尤度を計
算する。従って、従来例に比較して累積尤度の計算を簡
単に実行することができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施例である連続音声認識装
置のブロック図である。
【図2】 図1の連続音声認識装置において用いる音響
モデルの一例を示す状態遷移図である。
【図3】 図1の音声認識部によって実行される単語音
声認識処理を示すフローチャートである。
【符号の説明】
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…単語照合部、 5…隠れマルコフモデル(HMM)メモリ、 6…One pass DP音声認識部。
フロントページの続き (56)参考文献 特開 平6−266386(JP,A) 特開 平7−104784(JP,A) 特開 平3−62000(JP,A) 電子情報通信学会誌 Vol.73,N o.12,P.1295〜1298(平成2年12 月) 日本音響学会平成7年度春季研究発表 会講演論文集▲I▼ 1−Q−25「Sp otterにおける認識アルゴリズムの 検討」p.145−146(平成7年3月15日 国会図書館受入) 日本音響学会平成5年度春季研究発表 会講演論文集▲I▼ 1−4−2「事後 確率を用いたフレーム同期ワードスポッ ティング」p.3−4(平成7年3月17 日発行) 電子情報通信学会技術研究報告[音声 ]Vol.93,No.88,SP93−31, 「事後確率を用いたフレーム同期ワード スポッティング」p.57−64(1993年6 月18日発行) 電子情報通信学会論文誌 Vol.J 76−D−▲II▼ No.5,May 1993、「部分整合法の出力へのベクトル 連続DP適用による文スポッティング型 連続音声認識」,p.921−931,(平成 5年5月25日発行) 電子情報通信学会論文誌 Vol.J 77−A No.2,Feburary 1994、「全音素エルゴティックHMMを 用いた教師なし話者適応」,p.112− 119,(平成6年2月25日発行) 人工知能学会・第1回音声理解と対話 処理研究会資料「HMMを利用した言語 獲得の可能性について」,p.47−54 (1992) 人工知能学会・第4回音声理解と対話 処理研究会資料「Erogodic H MMによる確率つきネットワーク文法の 獲得の可能性について」,p.17−24 (1993) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 535 G10L 3/00 531 G10L 3/00 537 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された単語列からなる発声音声の音
    声信号に基づいて、所定の音響モデルを参照して、上記
    発声音声を音声認識する音声認識手段を備えた音声認識
    装置において、 上記音響モデルは、複数の状態を備え各2つの状態間の
    状態遷移確率と出力確率とを含む単語の隠れマルコフモ
    デルにおいて、単語のバイグラムを挿入してなる音響モ
    デルであって、 上記音声認識手段は、 各時刻において各音声認識候補の累積尤度を計算する尤
    度計算手段と、 上記尤度計算手段によって計算された各音声認識候補の
    累積尤度のうち最大の累積尤度を有する音声認識候補を
    最適な音声認識候補として検出する比較手段と、 上記比較手段によって検出された最適な音声認識候補が
    認識すべき単語の最終状態であるか否かを判断し、最終
    状態であるときに音声認識結果の単語として出力する判
    断手段とを備えたことを特徴とする連続音声認識装置。
  2. 【請求項2】 上記尤度計算手段は、1つ前の時刻にお
    ける尤度と、1つ前の時刻における状態から処理すべき
    時刻への状態遷移確率と、音声認識候補に対する処理す
    べき時刻の音声認識候補の出力確率との積について、1
    つ前の時刻におけるすべての複数の状態において加算す
    ることにより累積尤度を計算することを特徴とする請求
    項1記載の音声認識装置。
JP7045386A 1995-03-06 1995-03-06 音声認識装置 Expired - Lifetime JP2986703B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7045386A JP2986703B2 (ja) 1995-03-06 1995-03-06 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7045386A JP2986703B2 (ja) 1995-03-06 1995-03-06 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08241094A JPH08241094A (ja) 1996-09-17
JP2986703B2 true JP2986703B2 (ja) 1999-12-06

Family

ID=12717837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7045386A Expired - Lifetime JP2986703B2 (ja) 1995-03-06 1995-03-06 音声認識装置

Country Status (1)

Country Link
JP (1) JP2986703B2 (ja)

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
人工知能学会・第1回音声理解と対話処理研究会資料「HMMを利用した言語獲得の可能性について」,p.47−54(1992)
人工知能学会・第4回音声理解と対話処理研究会資料「Erogodic HMMによる確率つきネットワーク文法の獲得の可能性について」,p.17−24(1993)
日本音響学会平成5年度春季研究発表会講演論文集▲I▼ 1−4−2「事後確率を用いたフレーム同期ワードスポッティング」p.3−4(平成7年3月17日発行)
日本音響学会平成7年度春季研究発表会講演論文集▲I▼ 1−Q−25「Spotterにおける認識アルゴリズムの検討」p.145−146(平成7年3月15日国会図書館受入)
電子情報通信学会技術研究報告[音声]Vol.93,No.88,SP93−31,「事後確率を用いたフレーム同期ワードスポッティング」p.57−64(1993年6月18日発行)
電子情報通信学会誌 Vol.73,No.12,P.1295〜1298(平成2年12月)
電子情報通信学会論文誌 Vol.J76−D−▲II▼ No.5,May 1993、「部分整合法の出力へのベクトル連続DP適用による文スポッティング型連続音声認識」,p.921−931,(平成5年5月25日発行)
電子情報通信学会論文誌 Vol.J77−A No.2,Feburary 1994、「全音素エルゴティックHMMを用いた教師なし話者適応」,p.112−119,(平成6年2月25日発行)

Also Published As

Publication number Publication date
JPH08241094A (ja) 1996-09-17

Similar Documents

Publication Publication Date Title
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
Jelinek et al. 25 Continuous speech recognition: Statistical methods
Kenny et al. A*-admissible heuristics for rapid lexical access
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
Ney et al. The RWTH large vocabulary continuous speech recognition system
Schlüter et al. Interdependence of language models and discriminative training
Hain et al. The cu-htk march 2000 hub5e transcription system
JPH08227298A (ja) クラスタ化された単語間及び/又は句間の調音結合を使用した音声認識
JP3535292B2 (ja) 音声認識システム
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
JP2011053312A (ja) 適応化音響モデル生成装置及びプログラム
JP2852210B2 (ja) 不特定話者モデル作成装置及び音声認識装置
JP3039399B2 (ja) 非母国語音声認識装置
Steinbiss et al. Continuous speech dictation—From theory to practice
JP2986703B2 (ja) 音声認識装置
JP3009640B2 (ja) 音響モデル生成装置及び音声認識装置
JP3368989B2 (ja) 音声認識方法
JP2976795B2 (ja) 話者適応化方式
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP3144341B2 (ja) 音声認識装置
D'Orta et al. A speech recognition system for the Italian language
JPH0822296A (ja) パターン認識方法
JP2975540B2 (ja) 自由発話音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081001

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091001

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111001

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121001

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121001

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131001

Year of fee payment: 14

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term