JP2986703B2

JP2986703B2 - 音声認識装置

Info

Publication number: JP2986703B2
Application number: JP7045386A
Authority: JP
Inventors: 仁一村上
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1995-03-06
Filing date: 1995-03-06
Publication date: 1999-12-06
Anticipated expiration: 2014-12-06
Also published as: JPH08241094A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力された単語列から
なる発声音声の音声信号に基づいて上記発声音声を音声
認識する連続音声認識装置に関する。

【０００２】

【従来の技術】従来、ワードスポッティング型連続音声
認識のためのアルゴリズムとして連続ビタビ符号化法
（Ｖｉｔｅｒｂｉｄｅｃｏｄｉｎｇ）を用いること
が、従来技術の文献「岡隆一，“部分整合法の出力への
ベクトル連続ＤＰ適用による文スポッティング型連続音
声認識”，電子情報通信学会論文誌，Ｄ−ＩＩ，Ｖｏ
ｌ．Ｊ７６−Ｄ−ＩＩ，Ｎｏ．５，ｐｐ．９２１−９３
１，１９９３年５月」（以下、従来例という。）におい
て開示されている。ここで、文のスポッティング認識と
は、文と文との区切りを指定しないで文を認識するもの
であり、実際の会話文などにおける、言いよどみ（これ
は、文頭、文末の言いよどみで、文中の言い直しまでは
対象としない。）、タスク以外の文発声や文の区切りが
明確でない場合の文認識に都合のよい方式といえる。こ
の音声認識システムにおいては、基本とする認識の単位
を「音素片」とし、それを部分整合法で識別する。次
に、音素片の識別結果をベクトル連続ＤＰ音声認識法を
用いて文へ統合して文認識する。音素片識別を行う部分
整合法と文認識を行うベクトル連続ＤＰ音声認識法はと
もにフレーム同期を用いるスポッティングのアルゴリズ
ムといえる。

【０００３】この従来例のアルゴリズムにおいては、始
端及び終端はフリーであってビタビ符号化処理を実行
し、累積尤度の絶対値を用いて音声認識処理を制御して
いる。言い換えれば、累積尤度が所定のしきい値以上の
ものを最適値として検出している。

【０００４】

【発明が解決しようとする課題】しかしながら、この従
来例のアルゴリズムを用いた場合、設定するしきい値に
よって音声認識の性能が大幅に変化するという問題点が
あった。本発明の目的は以上の問題点を解決し、従来例
に比較して高い音声認識率で音声認識することができ、
しかも安定に動作する音声認識装置を提供することにあ
る。

【０００５】

【課題を解決するための手段】本発明に係る請求項１記
載の音声認識装置は、入力された単語列からなる発声音
声の音声信号に基づいて、所定の音響モデルを参照し
て、上記発声音声を音声認識する音声認識手段を備えた
音声認識装置において、上記音響モデルは、複数の状態
を備え各２つの状態間の状態遷移確率と出力確率とを含
む単語の隠れマルコフモデルにおいて、単語のバイグラ
ムを挿入してなる音響モデルであって、上記音声認識手
段は、各時刻において各音声認識候補の累積尤度を計算
する尤度計算手段と、上記尤度計算手段によって計算さ
れた各音声認識候補の累積尤度のうち最大の累積尤度を
有する音声認識候補を最適な音声認識候補として検出す
る比較手段と、上記比較手段によって検出された最適な
音声認識候補が認識すべき単語の最終状態であるか否か
を判断し、最終状態であるときに音声認識結果の単語と
して出力する判断手段とを備えたことを特徴とする。

【０００６】また、請求項２記載の音声認識装置は、請
求項１記載の音声認識装置において、上記尤度計算手段
は、１つ前の時刻における尤度と、１つ前の時刻におけ
る状態から処理すべき時刻への状態遷移確率と、音声認
識候補に対する処理すべき時刻の音声認識候補の出力確
率との積について、１つ前の時刻におけるすべての複数
の状態において加算することにより累積尤度を計算する
ことを特徴とする。

【０００７】

【作用】以上のように構成された請求項１記載の音声認
識装置においては、上記尤度計算手段は、各時刻におい
て各音声認識候補の累積尤度を計算し、上記比較手段
は、上記尤度計算手段によって計算された各音声認識候
補の累積尤度のうち最大の累積尤度を有する音声認識候
補を最適な音声認識候補として検出する。そして、上記
判断手段は、上記比較手段によって検出された最適な音
声認識候補が認識すべき単語の最終状態であるか否かを
判断し、最終状態であるときに音声認識結果の単語とし
て出力する。

【０００８】また、請求項２記載の音声認識装置におい
ては、上記尤度計算手段は、１つ前の時刻における尤度
と、１つ前の時刻における状態から処理すべき時刻への
状態遷移確率と、音声認識候補に対する処理すべき時刻
の音声認識候補の出力確率との積について、１つ前の時
刻におけるすべての複数の状態において加算することに
より累積尤度を計算する。

【０００９】

【実施例】以下、図面を参照して本発明に係る実施例の
連続音声認識装置について説明する。図１の本実施例の
連続音声認識装置は、特に、ＯｎｅｐａｓｓＤＰ音
声認識部６の処理において、各フレームにおいて単語の
最終状態における各音声認識候補の累積尤度を比較して
最大の累積尤度を有する最適な状態遷移系列に対応する
音声認識候補の単語を認識結果とするフォーワード（前
向き）符号化（Ｆｏｒｗａｒｄｄｅｃｏｄｉｎｇ）法
を用いることを特徴とする。ここで、この連続音声認識
装置は、図１に示すように、マイクロホン１と、特徴抽
出部２と、バッファメモリ３と、入力される発声音声デ
ータに基づいてＨＭＭメモリ５内の音響モデルである隠
れマルコフもモデル（以下、ＨＭＭという。）を参照し
て単語照合処理を実行して単語データを出力する単語照
合部４と、単語照合部４からの単語データに基づいて、
ＯｎｅｐａｓｓＤＰアルゴリズムであるがフォーワ
ード（前向き）符号化（Ｆｏｒｗａｒｄｄｅｃｏｄｉ
ｎｇ）法である新しいスポッティングアルゴリズムを用
いて、単語音声認識処理を実行するＯｎｅｐａｓｓ
ＤＰ音声認識部（以下、音声認識部という。）６とを備
える。

【００１０】音響モデルとして単語のｌｅｆｔ−ｔｏ−
ｒｉｇｔｈ型（前向き型ともいう。）ＨＭＭを用いる一
方、言語モデルとして単語のバイグラムを考慮して、こ
れらを組み合わせたモデルである音響モデルを用いて単
語音声認識処理を実行する。すなわち、この音響モデル
は、単語のｌｅｆｔ−ｔｏ−ｒｉｇｔｈ型ＨＭＭにおい
て、単語のバイグラムを挿入してなる従来のエルゴディ
ック（Ｅｒｇｏｄｉｃ）ＨＭＭと類似した音響モデルと
なっており、この音響モデルの一例を図２に示す。図２
において、Ｗ１乃至Ｗ４はそれぞれＨＭＭの単語を示
し、Ｂ１乃至Ｂ６は単語バイグラムを示している。この
例では、ＨＭＭの単語Ｗ１には、３つの状態Ｃ１１，Ｃ
１２，Ｓ１３が存在し、ｌｅｆｔ−ｒｉｇｔｈ型ＨＭＭ
を構成している。そして、複数のＨＭＭの単語Ｗ１乃至
Ｗ４が各２つの単語の間でともに連結遷移するように、
すなわち予め決められた単語のバイグラムで遷移確率が
決定されるように構成されている。言い換えれば、単語
のバイグラムの値は、１つの単語のＨＭＭの最終状態の
遷移確率を別の単語に接続されたときの値の分配率と考
えることができる。そして、音響尤度と言語の連鎖確率
の結合値αは１と考えることができる。

【００１１】本実施例においては、特徴抽出部２は入力
された音声信号をＡ／Ｄ変換した後、例えばＬＰＣ分析
を実行しているが、Ａ／Ｄ変換後の特徴パラメータのデ
ータはＡ／Ｄ変換のサンプリング周波数に対応して決定
されるフレーム毎に処理される。このフレームは、本実
施例においては、例えば１０ミリ秒又は２０ミリ秒であ
り、処理する時刻に対応している。

【００１２】エルゴディックＨＭＭのパラメータと信号
系列（テストデータ）が与えられたとき、最適状態遷移
系列を検出する問題を考える。この最適状態遷移の検出
方法として、従来例のビタビ符号化法と、本実施例の前
向き符号化法とが考えられる。従来のビタビ符号化法に
おいては、検出されたＨＭＭのパラメータが観測系列を
出力する可能性の高い最適状態遷移系列は、ビタビ符号
化法により効率的に求めることができ、単語系列は最適
状態遷移系列から直ちに類推できて検出できる。これに
対して、本発明に係る実施例の前向き符号化法は、まず
始めに、累積尤度を各状態からの総和で計算する。次い
で、最適状態遷移系列は、各時刻における最大の尤度を
持つ状態とする。

【００１３】図３に、前向き符号化法を用いる単語音声
認識処理のフローを示す。この処理は、図１の音声認識
部によって実行される。図３に示すように、まず、ステ
ップＳ１において、フレームに対応する時刻ｔに１がセ
ットされる。そして、ステップＳ２において、次の数１
と数２を用いて、すべての状態ｉに対して尤度を表わす
グリッドδ₁（ｉ）と最大のグリッドとなる最適状態遷
移系列ｓ₁を求める。

【００１４】

【数１】δ₁（ｉ）＝π_i×ｂ_i（ｏ₁）

【数２】ｓ₁＝ａｒｇｍａｘ_iδ₁（ｉ）

【００１５】ここで、π_iは初期状態確率であり、ｂ
_i（ｏ₁）は観測された特徴パラメータｏ₁に対する状態
ｉのシンボル出力確率である。すなわち、状態ｉにおけ
るグリッドは、初期状態確率π_iと、観測された特徴パ
ラメータｏ₁に対する状態ｉのシンボル出力確率ｂ_i（ｏ
₁）との積で表される。数２におけるａｒｇｍａｘ_iδ₁
（ｉ）は、状態ｉを変化したときにグリッドδ₁（ｉ）
が最大となる最適状態遷移系列ｓ₁である。ここで、状
態遷移系列は、特徴パラメータからなる系列であって、
音素列からなる音声認識候補の単語に変換される。

【００１６】次いで、ステップＳ３において、ステップ
Ｓ２において求められた最適状態遷移状態系列ｓ₁が認
識すべき単語の最終状態であるか否かが判断される。単
語の最終状態であるときは、単語の終端までの複数の音
素列からなる単語が認識されたと判断して当該処理を終
了する。一方、単語の最終状態でなければ、ステップＳ
４において時刻ｔを１だけインクリメントして、ステッ
プＳ５において、次の数３と数４を用いて、すべての状
態ｊに対して累積尤度を表わすグリッドδ_t（ｊ）と、
最大のグリッドとなる最適状態遷移系列ｓ_tを求める。

【００１７】

【数３】 δ_t（ｊ）＝Σ_i｛δ_t-1（ｉ）×ａ_ij×ｂ_j（ｏ_t）｝

【数４】ｓ_t＝ａｒｇｍａｘ_jδ_t（ｊ）

【００１８】上記数３におけるΣは１つ前の時刻におけ
るすべての状態ｉに対する左辺の｛｝内のグリッドの和
であり、上記数４におけるａｒｇｍａｘ_jδ_t（ｊ）は、
状態ｊを変化したときにグリッドδ_t（ｊ）が最大とな
る最適状態遷移系列ｓ_tである。数３の左辺の｛｝内の
グリッドは、１つ前の時刻における状態ｉのグリッドδ
_t-1（ｉ）と、状態ｉから状態ｊへの状態遷移確率ａ_ij
と、観測された特徴パラメータｏ_tに対する状態ｊのシ
ンボル出力確率ｂ_j（ｏ_t）との積で表される。

【００１９】次いで、ステップＳ６において、ステップ
Ｓ５において求められた最適状態遷移状態系列ｓ_tが認
識すべき単語の最終状態であるか否か、すなわち認識す
べき単語の状態遷移系列をすべて含むか否かが判断され
る。単語の最終状態であるときは、単語が認識されたと
判断して当該処理を終了する。一方、単語の最終状態で
なければ、ステップＳ７に進み、時刻ｔが最後の時刻Ｔ
であるか否かが判断され、最後の時刻Ｔであれば、当該
処理を終了し、一方、最後の時刻Ｔでなければ、ステッ
プＳ８において状態ｊを１つの前の時刻の状態ｉに置き
換えた後、ステップＳ４に戻る。そして、ステップＳ４
からステップＳ６までの処理を最後の時刻Ｔになるまで
処理する。

【００２０】この処理においては、各時刻において、最
適状態遷移系列が任意の単語の最終状態であるとき、単
語が認識されたと判断する。この前向き復号法は、各時
刻において認識している単語がわかるため、一種のワー
ドスポッティング型音声認識法といえる。なお、図３の
処理における時刻はすべてフレームに置き換えることが
できる。

【００２１】次いで、本実施例における連続音声認識装
置の構成及び動作について図１を参照して説明する。

【００２２】図１において、単語列からなる話者の発声
音声はマイクロホン１に入力されて音声信号に変換され
た後、特徴抽出部２に入力される。特徴抽出部２は、入
力された音声信号をＡ／Ｄ変換した後、例えばＬＰＣ分
析を実行し、対数パワー、１６次ケプストラム係数、Δ
対数パワー及び１６次Δケプストラム係数を含む３４次
元の特徴パラメータを抽出する。抽出された特徴パラメ
ータの時系列はバッファメモリ３を介して単語照合部４
に入力される。単語照合部４に接続されるＨＭＭメモリ
５内の音響ＨＭＭモデルである単語ＨＭＭは、例えば図
２に示すように、１つのＨＭＭの単語において、複数の
状態と、各状態間の遷移を示す弧から構成され、各弧に
は状態間の遷移確率と入力コードに対するシンボル出力
確率を有している。そして、ＨＭＭの単語とＨＭＭ別の
単語とは、単語バイグラムの確率情報で連結されてい
る。単語照合部４は、入力されたデータに基づいて単語
照合処理を実行して単語データを、音声認識部６に出力
する。

【００２３】音声認識部６は、所定のＯｎｅｐａｓｓ
ＤＰアルゴリズムを用いて、図３の単語音声認識処理
を実行することにより、各フレームにおいて単語の最終
状態における累積尤度を比較することで認識を実行し、
決定された音声認識結果データ（文字列データ）を出力
する。

【００２４】本発明者は、本実施例の連続音声認識装置
を用いて、音声認識のシミュレーションを行なった。認
識シミュレーションには、認識単位として音素のＨＭＭ
を用い、音素モデルを連結して単語のＨＭＭを作成し
た。音素ＨＭＭの学習データは単語発声のデータを利用
した。単語バイグラムの連鎖確率値は、本特許出願人で
あるエイ・ティ・アール音声翻訳通信研究所の対話デー
タ８４７５文５７３５４単語からｄｅｌｅｔｅｄ−ｉｎ
ｔｅｒｐｏｌａｔｉｏｎ法（削除補間法）を用いてスム
ージングをした値を利用した。また、計算量を削減する
ために、各フレームごとにビームサーチを行なった。テ
ストデータには、単語バイグラムの学習に使用したテキ
ストデータと同一タスクの会話３８文（総単語数２５
９）を用いた。また、学習データにテストデータのテキ
ストを加えたテキストクローズド（ｔｅｘｔ−ｃｌｏｓ
ｅｄ）のシミュレーションも行なった。なお、以下、学
習データにテストデータのテキストを加えない場合はテ
キストオープン（ｔｅｘｔ−ｃｌｏｓｅｄ）という。こ
のシミュレーショにおける評価は、単語正解率（ワード
コレクト）及び単語認識率（ワードアキュラシー）で行
なった。その他のシミュレーション条件を表１に示す。
ここで、単語正解率と、単語認識率はそれぞれ当該技術
分野で既に決められているように、数５及び数６で表さ
れる。

【００２５】

【表１】連続音声認識シミュレーションの条件 ──────────────────────────── 音響モデル４状態３ループ混合分布型ＨＭＭ ──────────────────────────── 音響パラメータｌｏｇパワー＋１６次ＬＰケプストラム＋Δｌｏｇパワー＋１６次Δケプストラム ──────────────────────────── 学習用男性アナウンサー１名、２６２０単語発声テキストデータ ──────────────────────────── 言語モデル単語バイグラム学習データ数８４７５文総単語数５７３５４ ──────────────────────────── 認識語彙数４３５単語ビーム幅４０９６テストデータ同一話者発声３８文（２５９単語）発話様式朗読 ────────────────────────────

【００２６】

【数５】単語正解率＝{(Ｎ−Ｄ−Ｓ)／Ｎ}×１００［％］

【数６】単語認識率＝{(Ｎ−Ｄ−Ｓ−Ｉ)／Ｎ}×１００［％］

【００２７】ここで、Ｎはすべての単語数であり、Ｄは
脱落誤りの数であり、Ｓは置換誤りの数であり、Ｉは挿
入誤りの数である。

【００２８】次に、表２及び表３にシミュレーションの
結果を示す。これらの表から、従来例のビタビ符号化法
と比較すると、単語正解率は低いが、単語認識率は高い
ことが示された。これは挿入誤りが少ないことを意味し
ている。

【００２９】

【表２】実施例の前向き符号化法を用いた場合 ────────────────────────── テキストオープンテキストクローズド ────────────────────────── 単語正解率３４．０％３６．３％単語認識率２５．９％２９．０％ ──────────────────────────

【００３０】

【表３】従来例のビタビ符号化法を用いた場合 ────────────────────────── テキストオープンテキストクローズド ────────────────────────── 単語正解率５４．１％５６．８％単語認識率２０．１％２３．６％ ──────────────────────────

【００３１】これらのミュレーション結果から、本発明
に係る実施例の前向き符号化法を用いた音声認識処理に
おいては、脱落誤りが多いことがわかる。これは、当該
認識アルゴリズムにおいて、「各時刻において、累積尤
度が最大の状態が、任意の単語の最終状態であるとき、
単語が認識されたとする。」の条件を加えたためであ
る。この条件を変えることにより、脱落誤り率を改善す
ることが可能である。ただし、同時に挿入誤り率も増加
する。

【００３２】今回のシミュレーションに使用した音響Ｈ
ＭＭモデルのパラメータは、音声データ及びテキストデ
ータから個別に計算した。しかしながら、大量の音声デ
ータがあれば、バーム・ウエルチ（Ｂａｕｍ−Ｗｅｌｃ
ｈ）の学習アルゴリズムを利用して直接に計算すること
ができる。また、本実施例の前向き符号化法は、音響ｈ
ｍｍモデルのパラメータと信号系列（テストデータ）が
与えられたとき、各時刻におけるローカルな最適解を与
えることができる復号法といえる。そこで、各時刻にお
けるローカルな最適性を持たせてＨＭＭのパラメータを
学習する方法が考えられる。これに対して、従来例のビ
タビ符号化法は、テストデータに対するグローバルな最
適解を与える復号法といえる。

【００３３】本実施例の前向き符号化法は、エルゴディ
ックＨＭＭだけでなく、一般的なフレーム同期型の連続
認識アルゴリズムにも組み込むことができる。従って、
言語モデルとして例えばＣＹＫのようなｌｅｆｔ−ｒｉ
ｇｈｔ型のパーザを組み込むことも容易である。

【００３４】以上説明したように、本実施例の前向き符
号化法を用いた連続音声認識装置においては、各フレー
ムにおいて単語の最終状態における累積尤度の比較で認
識を行なうため、従来例のビタビ符号化法と比較する
と、より高い音声認識率でかつより安定に動作すること
が可能である。特に、挿入誤りが少ない。

【００３５】以上の実施例において、特徴抽出部２と、
音素照合部４と、音声認識部６とは、例えばディジタル
計算機によって構成される。

【００３６】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声認識装置によれば、入力された単語列から
なる発声音声の音声信号に基づいて、所定の音響モデル
を参照して、上記発声音声を音声認識する音声認識手段
を備えた音声認識装置において、上記音響モデルは、複
数の状態を備え各２つの状態間の状態遷移確率と出力確
率とを含む単語の隠れマルコフモデルにおいて、単語の
バイグラムを挿入してなる音響モデルであって、上記音
声認識手段は、各時刻において各音声認識候補の累積尤
度を計算する尤度計算手段と、上記尤度計算手段によっ
て計算された各音声認識候補の累積尤度のうち最大の累
積尤度を有する音声認識候補を最適な音声認識候補とし
て検出する比較手段と、上記比較手段によって検出され
た最適な音声認識候補が認識すべき単語の最終状態であ
るか否かを判断し、最終状態であるときに音声認識結果
の単語として出力する判断手段とを備える。従って、各
時刻において単語の最終状態における累積尤度の比較で
認識を行なうため、従来例のビタビ符号化法と比較する
と、より高い音声認識率でかつより安定に動作すること
が可能である。特に、挿入誤りが少ない音声認識装置を
実現できる。

【００３７】また、請求項２記載の音声認識装置によれ
ば、請求項１記載の音声認識装置において、上記尤度計
算手段は、１つ前の時刻における尤度と、１つ前の時刻
における状態から処理すべき時刻への状態遷移確率と、
音声認識候補に対する処理すべき時刻の音声認識候補の
出力確率との積について、１つ前の時刻におけるすべて
の複数の状態において加算することにより累積尤度を計
算する。従って、従来例に比較して累積尤度の計算を簡
単に実行することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施例である連続音声認識装
置のブロック図である。

【図２】図１の連続音声認識装置において用いる音響
モデルの一例を示す状態遷移図である。

【図３】図１の音声認識部によって実行される単語音
声認識処理を示すフローチャートである。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…単語照合部、５…隠れマルコフモデル（ＨＭＭ）メモリ、６…ＯｎｅｐａｓｓＤＰ音声認識部。

フロントページの続き (56)参考文献特開平６−266386（ＪＰ，Ａ) 特開平７−104784（ＪＰ，Ａ) 特開平３−62000（ＪＰ，Ａ) 電子情報通信学会誌Ｖｏｌ．73，Ｎｏ．12，Ｐ．1295〜1298（平成２年12 月) 日本音響学会平成７年度春季研究発表会講演論文集▲Ｉ▼ １−Ｑ−25「Ｓｐｏｔｔｅｒにおける認識アルゴリズムの検討」ｐ．145−146（平成７年３月15日国会図書館受入) 日本音響学会平成５年度春季研究発表会講演論文集▲Ｉ▼ １−４−２「事後確率を用いたフレーム同期ワードスポッティング」ｐ．３−４（平成７年３月17 日発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．93，Ｎｏ．88，ＳＰ93−31, 「事後確率を用いたフレーム同期ワードスポッティング」ｐ．57−64（1993年６月18日発行) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 76−Ｄ−▲ＩＩ▼ Ｎｏ．５，Ｍａｙ 1993、「部分整合法の出力へのベクトル連続ＤＰ適用による文スポッティング型連続音声認識」，ｐ．921−931，（平成５年５月25日発行) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 77−ＡＮｏ．２，Ｆｅｂｕｒａｒｙ 1994、「全音素エルゴティックＨＭＭを用いた教師なし話者適応」，ｐ．112− 119，（平成６年２月25日発行) 人工知能学会・第１回音声理解と対話処理研究会資料「ＨＭＭを利用した言語獲得の可能性について」，ｐ．47−54 （1992) 人工知能学会・第４回音声理解と対話処理研究会資料「ＥｒｏｇｏｄｉｃＨＭＭによる確率つきネットワーク文法の獲得の可能性について」，ｐ．17−24 （1993) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 535 G10L 3/00 531 G10L 3/00 537 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力された単語列からなる発声音声の音
声信号に基づいて、所定の音響モデルを参照して、上記
発声音声を音声認識する音声認識手段を備えた音声認識
装置において、上記音響モデルは、複数の状態を備え各２つの状態間の
状態遷移確率と出力確率とを含む単語の隠れマルコフモ
デルにおいて、単語のバイグラムを挿入してなる音響モ
デルであって、上記音声認識手段は、各時刻において各音声認識候補の累積尤度を計算する尤
度計算手段と、上記尤度計算手段によって計算された各音声認識候補の
累積尤度のうち最大の累積尤度を有する音声認識候補を
最適な音声認識候補として検出する比較手段と、上記比較手段によって検出された最適な音声認識候補が
認識すべき単語の最終状態であるか否かを判断し、最終
状態であるときに音声認識結果の単語として出力する判
断手段とを備えたことを特徴とする連続音声認識装置。
【請求項２】上記尤度計算手段は、１つ前の時刻にお
ける尤度と、１つ前の時刻における状態から処理すべき
時刻への状態遷移確率と、音声認識候補に対する処理す
べき時刻の音声認識候補の出力確率との積について、１
つ前の時刻におけるすべての複数の状態において加算す
ることにより累積尤度を計算することを特徴とする請求
項１記載の音声認識装置。