JP2000137495A

JP2000137495A - 音声認識装置および音声認識方法

Info

Publication number: JP2000137495A
Application number: JP10310683A
Authority: JP
Inventors: Hiroshi Kanazawa; 博史金澤; Mitsuyoshi Tatemori; 三慶舘森; Akinori Koshiba; 亮典小柴
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-10-30
Filing date: 1998-10-30
Publication date: 2000-05-16

Abstract

(57)【要約】【課題】統計的な手法とパターンマッチング手法とを
相補的に利用し、きわめて高性能の認識性能が得られる
音声認識装置を提供すること。【解決手段】発声された音声を入力し、入力された音
声を分析して音声パターンを生成し、生成された音声パ
ターンに対して隠れマルコフモデルを用いた音声認識を
行い、この音声認識により得られた認識結果に基づいて
前記音声パターンから対応する音韻パターンを抽出し、
抽出された音韻パターンに対する類似度を求め、求めら
れた音韻パターンに対する類似度の情報を用いて、前記
音声認識により得られた認識結果に対する検証を行うこ
とを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パターンマッチン
グと統計処理を組み合わせた音声認識装置及び音声認識
方法に関する。

【０００２】

【従来の技術】現在、音声認識における基本的な照合方
法として、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏ
ｄｅｌ：隠れマルコフモデル）を用いた照合方法があ
る。これは、入力音声の各時刻での音響的な特徴を確率
事象としてとらえ、各音韻ごとに作成したＨＭＭに基づ
き、その音響的特徴の出現確率を求め、確率値を時間方
向に累積してゆき、発声終了時点で最終的に最も高い累
積値（＝確率値）をもつカテゴリを認識結果とする方法
である。

【０００３】この認識方法で用いるＨＭＭは、各音韻ご
とに大量のデータから音響特徴の出現確率を推定するこ
とにより作成される。一般的に分布形には正規分布が適
用され、正規分布のパラメータを格納して、照合に利用
する。

【０００４】出現確率の累積を求める際には、例えばＶ
ｉｔｅｒｂｉ照合などの動的計画法に基づく照合方法が
一般的である。これは、各時刻で、認識対象カテゴリに
属する全音韻に到達する最大尤度を求めておくものであ
り、前フレーム（フレームはディジタル時系列信号であ
る音声データをある固定時間で区切った単位）までの結
果と、現フレームの確率値によって漸化式を解くことに
より求められる。

【０００５】一方、パターンマッチングに基づく認識方
法も提案されている。マッチング用のテンプレートの作
成には、例えば単語認識の場合には、多数話者から単語
音声を収集し、その音声を分析して求めた単語音声パタ
ーンを平均化したり、例えば主成分分析等を行い、圧縮
したパターンをテンプレートとしたりして効率化をはか
るなどの方法がとられる。こうして求められたテンプレ
ートと入力された音声とのマッチングを行い、類似度を
算出して最も高い類似度をとるカテゴリを認識結果とす
る。

【０００６】

【発明が解決しようとする課題】従来の音声認識手法と
しては、大別すると上述したように、ＨＭＭなどの統計
的手法を用いる認識法と、テンプレートとの照合による
パターンマッチング的な手法を用いる認識法がある。

【０００７】しかし、統計的な手法を用いた場合、照合
時に各時刻ごとの尤度を求め、その値を累積して行き、
最終時刻での累積値で認識結果を判定するため、各時刻
ごとの個別の音韻スコアの関係が認識結果に陽に反映さ
れず、誤認識の原因となる場合があった。例えば、ある
音声区間で２位以下の音韻のスコアが非常に低く、スコ
アが１位の音韻がその区間に該当するのが明らかな場合
でも、１位のスコアがあまり高くない場合にトータルの
スコアも向上せず、結果として誤認識を起こす場合があ
った。また、ある音声区間である音韻が非常に大きなス
コアをもったため、その音韻が支配的な単語が上位にき
てしまい、誤認識となる場合なども起こっている。これ
は、結局、スコアの累積値のみが認識結果を決定する尺
度になっているために起こっている問題である。

【０００８】また、パターンマッチングによる手法を用
いる場合には、得られたパターンがどの音韻あるいは単
語に近いかという判定は可能であるが、時系列パターン
の場合、ある時刻の音韻パターンに対する類似度と、次
の時刻の音声パターンに対する類似度とをどのように統
合するかの基準が明確でなく、通常は類似度の和をとる
等の操作をするに留まっている。これは、テンプレート
マッチングがノンパラメトリックな手法であり、全体を
同一の尺度で見る基準が不明確なためである。このた
め、個別の時刻での音韻間の識別能力は優れているにも
かかわらず、異なるパターンに対する類似度の統合をす
る基準の不明確さから誤認識を起こす場面があった。

【０００９】本発明は、上記事情を考慮してなされたも
ので、統計的な手法とパターンマッチング手法とを相補
的に利用し、きわめて高性能の認識性能が得られる音声
認識装置および音声認識方法を提供することを目的とす
る。

【００１０】

【課題を解決するための手段】本発明（請求項１）に係
る音声認識装置は、発声された音声を入力する手段と、
入力された音声を分析して音声パターンを生成する手段
と、生成された音声パターンに対して隠れマルコフモデ
ル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭ
Ｍ）を用いた音声認識を行う手段と、この音声認識によ
り得られた認識結果に基づいて前記音声パターンから対
応する音韻パターンを抽出する手段と、抽出された音韻
パターンに対する類似度を求める手段と、求められた音
韻パターンに対する類似度の情報を用いて、前記音声認
識により得られた認識結果に対する検証を行う手段とを
備えたことを特徴とする。

【００１１】好ましくは、前記検証を行う手段は、複数
の認識結果についてそれぞれ前記類似度の情報に基づい
た尤度の再計算を行い、再計算の結果、最も高い尤度を
持つものを認識結果として出力するようにしてもよい。

【００１２】本発明（請求項３）に係る音声認識装置
は、発声された音声を入力し、始終端区間の単位でディ
ジタル時系列信号からなる音声データを生成する手段
と、生成された音声データを分析し、所定の特徴ベクト
ルからなる音声パターンを生成する手段と、生成された
音声パターンに対して隠れマルコフモデル（Ｈｉｄｄｅ
ｎＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を用いた音声認
識を行い、語彙と該語彙を形成する音韻の系列と各音韻
の区間情報と各音韻の尤度との組からなる認識結果の候
補を定められた順位を上限として複数求める手段と、こ
の音声認識により得られた各認識結果の候補のそれぞれ
について、該認識結果の候補の語彙を形成する各音韻の
区間情報に基づき前記音声パターンから対応する各音韻
の音韻パターンを抽出する手段と、各認識結果の候補の
それぞれについて、該認識結果の候補の語彙を形成する
各音韻ごとに前記音韻パターンに対する類似度を求める
手段と、各認識結果の候補のそれぞれについて、該認識
結果の候補の語彙を形成する各音韻の尤度にそれぞれそ
の音韻の音韻パターンに対する類似度に基づいて求めら
れた重み値を乗じた値を累積して全音韻の尤度の累積値
を求め、この値が最も大きい候補を認識結果として出力
する手段とを備えたことを特徴とする。

【００１３】本発明（請求項４）に係る音声認識装置
は、発声された音声を入力して音声データを生成する手
段と、生成された音声データを分析して音声パターンを
生成する手段と、生成された音声パターンから、基準以
上の類似度を持つ音韻とその時刻を求める手段と、求め
られた音韻とその時刻を制約条件として、生成された音
声パターンに対して隠れマルコフモデル（Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌ：ＨＭＭ）を用いた音声認
識を行う手段とを備えたことを特徴とする。

【００１４】本発明（請求項５）に係る音声認識方法
は、発声された音声を入力し、入力された音声を分析し
て音声パターンを生成し、生成された音声パターンに対
して隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖ
Ｍｏｄｅｌ：ＨＭＭ）を用いた音声認識を行い、この
音声認識により得られた認識結果に基づいて前記音声パ
ターンから対応する音韻パターンを抽出し、抽出された
音韻パターンに対する類似度を求め、求められた音韻パ
ターンに対する類似度の情報を用いて、前記音声認識に
より得られた認識結果に対する検証を行うことを特徴と
する。

【００１５】本発明（請求項６）に係る音声認識装置
は、発声された音声を入力して音声データを生成し、生
成された音声データを分析して音声パターンを生成し、
生成された音声パターンから基準以上の類似度を持つ音
韻とその時刻を求め、求められた音韻とその時刻を制約
条件として、生成された音声パターンに対して隠れマル
コフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅ
ｌ：ＨＭＭ）を用いた音声認識を行うことを特徴とす
る。

【００１６】本発明では、ＨＭＭによる認識処理に、パ
ターンマッチングの識別能力を組み込むことにより、高
精度の認識を行うようにしている。すなわち、まず、Ｈ
ＭＭを用いた認識処理を行い、その結果として得られる
認識結果および音韻区間情報に基づき、例えば上位Ｎ位
までの認識結果に対して、各音韻のパターンを抽出し、
予め作成した音韻テンプレートとのマッチングを行うな
どして、ＨＭＭ照合により求められた音韻パターンが、
正しいかどうかを検証する。例えば、類似度を基準に、
その音韻パターンの信頼度を求める。

【００１７】次に、ＨＭＭ照合により求められた例えば
上位Ｎ位の認識結果とその音韻区間、さらにパターンマ
ッチングにより求められた各音韻の信頼度を用いて、認
識結果の再スコアリングを行う。再スコアリングの際に
は、例えば、ＨＭＭの尤度に、音韻の信頼度に基づく重
み付けを行うなどの方法を用いる。

【００１８】このような本発明によれば、統計的手法に
よる音声認識結果をパターンマッチング手法により検証
することで、統計的手法による認識の問題を解消し、き
わめて高性能の音声認識を実現することができる。

【００１９】また、本発明では、まず、入力音声パター
ンから基準以上の類似度を持つ音韻とその時刻を求めて
おき、この結果を制約条件として入力音声パターンに対
して隠れマルコフモデルを用いた音声認識を行う。

【００２０】このような本発明によれば、統計的手法に
よる音声認識処理の過程にパターンマッチング手法を取
り入れることで、統計的手法による認識の問題を解消で
き、きわめて高性能の音声認識を実現することができ
る。

【００２１】なお、装置に係る本発明は方法に係る発明
としても成立し、方法に係る本発明は装置に係る発明と
しても成立する。また、装置または方法に係る本発明
は、コンピュータに当該発明に相当する手順を実行させ
るための（あるいはコンピュータを当該発明に相当する
手段として機能させるための、あるいはコンピュータに
当該発明に相当する機能を実現させるための）プログラ
ムを記録したコンピュータ読取り可能な記録媒体として
も成立する。

【００２２】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態を説明する。（第１の実施形態）本発明の第１の実施形態について説
明する。

【００２３】図１は、本実施形態に係る音声認識装置の
基本構成例を示すブロック図である。図１に示されるよ
うに、本音声認識装置は、音声入力部１１、音声分析部
１２、認識部１３、音韻パターン抽出部１４、類似度計
算部１５、検証部１６、ＨＭＭ格納部１７、認識語彙リ
スト格納部１８、音韻辞書格納部１９を備えている。

【００２４】図２に、本実施形態における音声認識処理
手順例を示す。まず、ステップＳ１において、音声入力
部１１では、発声された音声を音響−電気変換しＡ／Ｄ
変換して、ディジタル時系列信号の音声データに変換す
る。そして、こうして得られた音声データに対して、あ
る固定時間（例えば、８ミリ秒）で区切ったフレームご
とに音声パワーを計算し、パワーの時系列を用いて、発
声された音声の始終端の時刻を検出する。この始終端区
間内の音声データは音声分析部１２に送られる。なお、
同様の処理をリアルタイムで行うために、音声の始端を
検出した時点から音声分析部１２に送ることも可能であ
る。

【００２５】次に、ステップＳ２において、音声分析部
１２では、与えられた音声データに対し例えば高速フー
リエ変換などを用いて周波数分析を行い、この時系列信
号を周波数パラメータの時系列データからなる音声パタ
ーンに変換する。例えば、２５６ポイントの高速フーリ
エ変換を行い、得られた１２８次元のパワースペクトル
を、Ｂａｒｋスケールにより、１６次元のバンドパスフ
ィルター出力に圧縮して、各フレームあたり１６次元の
特徴ベクトルからなる音声パターンを生成する。

【００２６】こうして求められた音声パターンは、認識
部１３に送られ、また音韻パターン抽出部１４にも送ら
れる。次に、ステップＳ３において、認識部１３では、
認識語彙リスト格納部１８内の認識語彙リストに登録さ
れている認識対象語彙について、与えられた音声パター
ンとＨＭＭ格納部１７内のＨＭＭとのＶｉｔｅｒｂｉ照
合により尤度を計算し、例えば上位Ｎ位までのスコアを
与える語彙と、その語彙を構成する音韻の区間を求め
る。

【００２７】図３に、認識部１３から出力される認識結
果の例を示す。図３の（ａ）に入力音声に対する正い区
間の例を、（ｂ）に各音韻の尤度の累積値が最も高かっ
た第１位の認識結果の例を、（ｃ）に第２位の認識結果
の例を、（ｄ）に第３位の認識結果の例をそれぞれ示
す。

【００２８】図３のように、ここでは、「Ａ−Ｓ−Ｏ−
Ｂ−Ｉ（遊び）」という発声に対する認識結果を例示し
ており、１位は「Ｋ−Ａ−Ｓ−Ａ−Ｉ（火災）」、２位
は「Ａ−Ｓ−Ａ−Ｉ（浅い）」、３位は「Ａ−Ｓ−Ｏ−
Ｂ−Ｉ（遊び）」という認識結果となっている（この認
識処理の時点では、正解候補は３位となっている。）な
お、図３（ａ）〜（ｄ）において、棒状に示したもの
は、全音声区間での各音韻の時間長を示している。

【００２９】この例では、入力音声の中で特徴のよく現
れている音韻は「Ａ」「Ｓ」「Ｉ」であり、他の「Ｏ」
「Ｂ」についてはパターン変形の度合いが大きいため、
１位の結果では、「Ａ」「Ｓ」「Ｉ」の継続時間が正解
単語（「遊び」）の場合に比べて長くなり、正しい区間
よりも「Ａ」「Ｓ」「Ｉ」の占める割合が高くなってい
る。

【００３０】これは、Ｖｉｔｅｒｂｉ照合により最大ス
コアを求める際に、「高いスコアの出ている音韻を必要
以上に重要視し、あまり特徴の出ていない音韻区間に
は、累積スコアをできるだけおとさないように、別の音
韻を非常に短い区間で当てはめ、全体としてもスコアを
最大にするような制御がなされる」ために起こることで
ある。また、これは、２位の結果である「Ａ−Ｓ−Ａ−
Ｉ（浅い）」に対しても同様のことが言える。

【００３１】この点について、本実施形態では、以下の
処理によって認識結果を検証し、正解が得られるように
している。さて、認識部１３により得られた図３に例示
するような情報は、音韻パターン抽出部１４に送られ、
また検証部１６にも送られる。

【００３２】続いて、ステップＳ４において、音韻パタ
ーン抽出部１４では、音声分析部１２で得られた音声パ
ターンを対象とし、上記の情報に基づいて音韻区間ごと
に音韻パターンの抽出を行う。ここでは、後に行う類似
度計算に供するための処理として、時間方向の正規化や
パワーの正規化処理を行い、例えば、ノルム１の固定次
元の音韻パターンを求めるなどの処理を行う。

【００３３】次に、ステップＳ５において、類似度計算
部１５では、音韻辞書格納部１９内の、予め作成された
パターンマッチング用の音韻辞書を用いて、音韻パター
ン抽出部１４で得られた音韻パターンとの類似度計算を
行う。ここでは、例えば、複合類似度法（参考文献：中
川誠一著：「確率モデルによる音韻」ｐｐ．１６−１
７）等を用いて、抽出された音韻パターンが対応する音
韻にどの程度似ているかどうかの判定を行う。

【００３４】次に、ステップＳ６において、検証部１６
による検証処理が行われる。すなわち、検証部１６で
は、認識部１３から送られた、（１）上位Ｎ位までの音
声認識結果となる語彙、（２）そのスコア、（３）語彙
を構成する音韻、（４）その区間情報と、類似度計算部
１５から送られる認識結果に対応した各音韻の類似度情
報とを用いて、認識部１３により行われたＨＭＭによる
認識結果の検証を行う。

【００３５】図４に、検証部１６による検証処理手順例
を示す。ステップＳ６１，Ｓ６６，Ｓ６７により、第１
位の認識結果から第Ｎ位の認識結果のそれぞれについ
て、以下の一連の処理（ステップＳ６２〜Ｓ６５）を行
う。

【００３６】まず、第ｉ位の認識結果に対する類似度を
読む（ステップＳ６２）。次に、音韻の類似度に基づ
き、スコアリングの際の重み係数を決定する。例えば、
音韻ごとに重みの上限Ｗｈ、下限Ｗｌを決めておき（ス
テップＳ６３）、類似度の値Ｓ（たとえば、０．０〜
１．０の値）から重みＷを、Ｗ＝Ｗｌ＋（Ｗｈ−Ｗｌ）×Ｓなる式で求める（ステップＳ６４）。

【００３７】あるいは、類似度の順位まで考慮して、例
えば、類似度の１位が該当する音韻であり、２位との類
似度差がある値以上である場合には、重みの上下限を上
方修正し、そうでない場合には下方修正するなどして調
整することも可能である。また、類似度の１位が該当す
る音韻でない場合には、上下限値の下方修正の度合いを
上げるなどの対応も可能である。

【００３８】このようにして、重みを決定した後、ＨＭ
Ｍ照合で得られた認識結果に対する再スコアリングを行
う（ステップＳ６５）。ここでは、認識結果における各
音韻の尤度に、類似度から求めた重みを乗じた値を新た
な尤度とし、認識語彙中の全音韻に対して重み付け尤度
を計算し、その累積値を最終的な認識語彙に対する尤度
とする。

【００３９】このような一連の処理を繰り返して、上位
Ｎ位までの候補に対し、尤度の再計算を行い、最大尤度
を与える語彙を認識結果とする（ステップＳ６８）。こ
のように、本実施形態によれば、ＨＭＭによるＶｉｔｅ
ｒｂｉ照合のスコアリングの問題を、パターンマッチン
グ結果による重みつけを導入することにより解消するこ
とができ、認識性能を高く保持することが可能となる。

【００４０】（第２の実施形態）本発明の第２の実施形
態について説明する。図５は、本実施形態に係る音声認
識装置の基本構成例を示すブロック図である。図５に示
されるように、本音声認識装置は、音声入力部２１、音
声分析部２２、認識部２３、類似度計算部２５、ＨＭＭ
格納部２７、認識語彙リスト格納部２８、音韻辞書格納
部２９を備えている。

【００４１】図６に、本実施形態における音声認識処理
手順例を示す。本実施形態の音声入力部２１による音声
入力処理（ステップＳ１０１）と音声分析部２２による
音声分析処理（ステップＳ１０２）は、第１の実施形態
と同様であるので、ここでの説明は省略する。

【００４２】さて、本実施形態では、音声分析部２２か
ら出力される音声パターンは、類似度計算部２５に送ら
れ、また認識部２３にも送られる。そして、ステップＳ
１０３において、類似度計算部２５では、音声パターン
を対象として、１フレームづつシフトしながら音韻辞書
格納部２９内の音韻辞書とのマッチングを行い、音韻辞
書に登録された全音韻の類似度の時系列を求める。そし
て、この類似度時系列の中からある基準以上の類似度を
持つ音韻とその時刻を求める。求められたこの情報は認
識部２３へ送られる。

【００４３】次に、ステップＳ１０４において、認識部
２３では、音声分析部２２より送られる音声パターン
と、上述した類似度計算部２５より送られる情報とを入
力し、認識語彙リスト格納部２８内の認識語彙リストに
登録されている認識対象語彙について、与えられた音声
パターンとＨＭＭ格納部２７内のＨＭＭとのＶｉｔｅｒ
ｂｉ照合に基づいた認識を行う。ここで、類似度計算部
２５より送られる情報は、ＨＭＭによるＶｉｔｅｒｂｉ
照合の際の最適パスの制約として用いられる。

【００４４】具体的には、認識対象語彙を構成する音韻
に、高い類似度を持つ音韻が含まれる場合には、その時
刻の範囲内を、Ｖｉｔｅｒｖｉ照合の最適パスが通るよ
うな最適パス探索を行うことにより、累積値最大という
基準に加えて、探索範囲の制限を加えることができ、認
識精度を向上させることができる。

【００４５】類似度が高いかどうかという判断を行うた
めの基準は、例えば、その時刻において類似度が１位で
あり、かつ、その値があるしきい値を越え、かつ、２位
の類似度との差があるしきい値以上ある場合などとす
る。しきい値を変化させることにより、類似度による制
約のレベルを変化させることも可能である。

【００４６】また、類似度計算部２５の出力をもとに、
認識対象語彙から、高い類似度を持つ音韻が含まれない
語彙を削除し、尤度計算を行う語彙数を減らすことによ
り、認識時間を短縮できるという副次的な効果も期待で
きる。

【００４７】なお、以上の各機能は、ソフトウェアとし
ても実現可能である。また、本実施形態は、コンピュー
タに所定の手段を実行させるための（あるいはコンピュ
ータを所定の手段として機能させるための、あるいはコ
ンピュータに所定の機能を実現させるための）プログラ
ムを記録したコンピュータ読取り可能な記録媒体として
も実施することもできる。本発明は、上述した実施の形
態に限定されるものではなく、その技術的範囲において
種々変形して実施することができる。

【００４８】

【発明の効果】本発明によれば、統計的手法による音声
認識結果をパターンマッチング手法により検証すること
で、統計的手法による認識の問題を解消し、きわめて高
性能の音声認識を実現することができる。

【００４９】また、本発明によれば、統計的手法による
音声認識処理の過程にパターンマッチング手法を取り入
れることで、統計的手法による認識の問題を解消でき、
きわめて高性能の音声認識を実現することができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
基本構成例を示す図

【図２】同実施形態における音声認識処理手順の一例を
示すフローチャート

【図３】認識部から出力される認識結果の例を示す図

【図４】検証部での処理手順の一例を示すフローチャー
ト

【図５】本発明の第２の実施形態に係る音声認識装置の
基本構成例を示す図

【図６】同実施形態における音声認識処理手順の一例を
示すフローチャート

【符号の説明】

１１，２１…音声入力部１２，２２…音声分析部１３，２３…認識部１４…音韻パターン抽出部１５，２５…類似度計算部１６…検証部１７，２７…ＨＭＭ格納部１８，２８…認識語彙リスト格納１９，２９…音韻辞書格納部

───────────────────────────────────────────────────── フロントページの続き (72)発明者小柴亮典兵庫県神戸市東灘区本山南町８丁目６番26 号株式会社東芝関西研究所内Ｆターム(参考） 5D015 HH05 HH12 HH23

Claims

【特許請求の範囲】

【請求項１】発声された音声を入力する手段と、入力された音声を分析して音声パターンを生成する手段
と、生成された音声パターンに対して隠れマルコフモデルを
用いた音声認識を行う手段と、この音声認識により得られた認識結果に基づいて前記音
声パターンから対応する音韻パターンを抽出する手段
と、抽出された音韻パターンに対する類似度を求める手段
と、求められた音韻パターンに対する類似度の情報を用い
て、前記音声認識により得られた認識結果に対する検証
を行う手段とを備えたことを特徴とする音声認識装置。
【請求項２】前記検証を行う手段は、複数の認識結果に
ついてそれぞれ前記類似度の情報に基づいた尤度の再計
算を行い、再計算の結果、最も高い尤度を持つものを認
識結果として出力することを特徴とする音声認識装置。
【請求項３】発声された音声を入力し、始終端区間の単
位でディジタル時系列信号からなる音声データを生成す
る手段と、生成された音声データを分析し、所定の特徴ベクトルか
らなる音声パターンを生成する手段と、生成された音声パターンに対して隠れマルコフモデルを
用いた音声認識を行い、語彙と該語彙を形成する音韻の
系列と各音韻の区間情報と各音韻の尤度との組からなる
認識結果の候補を定められた順位を上限として複数求め
る手段と、この音声認識により得られた各認識結果の候補のそれぞ
れについて、該認識結果の候補の語彙を形成する各音韻
の区間情報に基づき前記音声パターンから対応する各音
韻の音韻パターンを抽出する手段と、各認識結果の候補のそれぞれについて、該認識結果の候
補の語彙を形成する各音韻ごとに前記音韻パターンに対
する類似度を求める手段と、各認識結果の候補のそれぞれについて、該認識結果の候
補の語彙を形成する各音韻の尤度にそれぞれその音韻の
音韻パターンに対する類似度に基づいて求められた重み
値を乗じた値を累積して全音韻の尤度の累積値を求め、
この値が最も大きい候補を認識結果として出力する手段
とを備えたことを特徴とする音声認識装置。
【請求項４】発声された音声を入力して音声データを生
成する手段と、生成された音声データを分析して音声パターンを生成す
る手段と、生成された音声パターンから、基準以上の類似度を持つ
音韻とその時刻を求める手段と、求められた音韻とその時刻を制約条件として、生成され
た音声パターンに対して隠れマルコフモデルを用いた音
声認識を行う手段とを備えたことを特徴とする音声認識
装置。
【請求項５】発声された音声を入力し、入力された音声を分析して音声パターンを生成し、生成された音声パターンに対して隠れマルコフモデルを
用いた音声認識を行い、この音声認識により得られた認識結果に基づいて前記音
声パターンから対応する音韻パターンを抽出し、抽出された音韻パターンに対する類似度を求め、求められた音韻パターンに対する類似度の情報を用い
て、前記音声認識により得られた認識結果に対する検証
を行うことを特徴とする音声認識方法。
【請求項６】発声された音声を入力して音声データを生
成し、生成された音声データを分析して音声パターンを生成
し、生成された音声パターンから基準以上の類似度を持つ音
韻とその時刻を求め、求められた音韻とその時刻を制約条件として、生成され
た音声パターンに対して隠れマルコフモデルを用いた音
声認識を行うことを特徴とする音声認識方法。