JP2002297182A

JP2002297182A - 音声認識装置および音声認識方法

Info

Publication number: JP2002297182A
Application number: JP2001095790A
Authority: JP
Inventors: Kazuyoshi Okura; 計美大倉
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2001-03-29
Filing date: 2001-03-29
Publication date: 2002-10-11
Anticipated expiration: 2021-03-29
Also published as: JP3584002B2

Abstract

(57)【要約】【課題】認識候補の追加・削除を行っても迅速に音声
認識し得る音声認識方法を提供すること。【解決手段】単語モデル作成部１は単語の前後に無音
モデルを連結して単語モデルを作成する。尤度演算部５
は入力音声信号のフレーム特徴量と基準モデルの特徴量
を比較して基準モデル毎の尤度を算出する。マッチング
演算部９は、フレーム特徴量に対する基準モデル毎の尤
度を参照しビタビマッチグ法によって得点を算出する。
この際、無音モデルの尤度として、当該フレーム特徴量
の基準モデルに対する尤度の最大値、あるいは当該フレ
ーム特徴量の基準モデルに対する尤度の上位Ｎ個の平均
値が無音モデルの尤度よりも大きい場合には、当該最大
値あるいは平均値を無音モデルの尤度として置換える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関するものであり、特に、不要語を含
んだ音声から適切な単語を精度よく確定し得るものであ
る。

【０００２】

【従来の技術】不要語（例えば、無意味な音声や助詞
等）を含んだ音声から単語辞書中の単語を認識する手法
として、例えば、特開平７−７７９９８号公報に記載さ
れた手法が公知である。

【０００３】かかる従来の音声認識手法においては、ま
ず、単語辞書に記憶された全ての認識候補（必要語）の
音声特徴量から不要語の特徴量を生成し、この不要語の
特徴量を認識辞書に予め登録しておく。そして、入力音
声信号の内、この不要語の特徴量にマッチングするもの
を不要語として認識し、この不要語として認識された単
語を認識結果から除去して必要語の音声認識結果を得る
というものである。

【０００４】かかる従来手法における不要語の特徴量の
生成は、以下のように行われる。まず、不要語の特徴量
の生成に先立ち、必要語の特徴量を生成する。この必要
語の特徴量の生成は、一つの必要語について数種の音声
特徴量をサンプルとして入力し、これら各サンプルを音
響分析し学習処理することによって当該必要語の特徴量
を生成する。次に、このように生成された全ての必要語
の特徴量を平均化処理し、この平均値を不要語の特徴量
として設定する。

【０００５】

【発明が解決しようとする課題】このように、上記従来
の認識手法では、全ての認識候補（必要語）の音声特徴
量から不要語の音声特徴量を生成するものであるから、
認識辞書中の認識候補が追加・修正されると、そのたび
に不要語の音声特徴量を一々再生成しなければならず、
よって、認識候補の追加や削除において面倒な作業を強
いられるものであった。

【０００６】また、音声認識処理の際に、必要語のみな
らず不要語の音声特徴量についても入力音声信号との尤
度演算や近似距離演算を行わなければならず、その分、
音声認識処理ステップが追加され、このため、認識結果
導出までの所要時間が大きくなってしまうとの問題があ
った。

【０００７】そこで、本発明は、認識候補の追加・削除
を行っても迅速に音声認識し得る音声認識方法を提供す
ることを課題とする。

【０００８】

【課題を解決するための手段】上記課題に鑑み、本発明
は、以下の特徴を有する。

【０００９】請求項１の発明は、音声認識装置に関する
ものであって、入力音声信号を音響分析してフレーム特
徴量を抽出する音響分析手段と、単語の基準モデルの両
端に無音モデルを連結して単語モデルを作成する単語モ
デル作成手段と、前記フレーム特徴量と基準モデルの特
徴量とを比較して当該単語モデルに対する当該フレーム
特徴量の尤度を演算する尤度演算手段と、前記演算され
た尤度に基づいて当該単語モデルの前記入力音声信号に
対するマッチング度合いを演算するマッチング演算手段
と、このマッチング度合いに応じて認識候補を設定する
認識候補設定手段と、前記無音モデルに対するガーベジ
尤度を設定するガーベジ尤度設定手段とを有し、前記マ
ッチング演算部は、無音モデルの尤度として、前記尤度
演算部によって演算された無音モデルの尤度と、前記ガ
ーベジ尤度設定手段によって設定されたガーベジ尤度の
何れか一方を選択してマッチング演算を行うことを特徴
とする。

【００１０】請求項２の発明は、請求項１の特徴に加
え、さらに、マッチング演算部は、前記尤度演算部によ
って演算された無音モデルの尤度と、前記ガーベジ尤度
設定手段によって設定されたガーベジ尤度を比較し、何
れか大きい方の尤度を選択するとの特徴を備えるもので
ある。

【００１１】請求項３の発明は、請求項１または２の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度を演算処理して
ガーベジ尤度を算出するとの特徴を備えるものである。

【００１２】請求項４の発明は、請求項１または２の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度の内、最も大き
な尤度をガーベジ尤度とするとの特徴を備えるものであ
る。

【００１３】請求項５の発明は、請求項１または２の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度の内、尤度の大
きさが上位からＮ番目までの尤度を平均化演算してガー
ベジ尤度を算出するとの特徴を有するものである。

【００１４】請求項６の発明は、請求項１または２の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度の内、尤度の大
きさが上位からＫ番目の尤度をガーベジ尤度とするとの
特徴を有するものである。

【００１５】請求項７の発明は、音声認識方法に関する
ものであって、入力音声信号を音響分析してフレーム特
徴量を抽出するステップと、単語の基準モデルの両端に
無音モデルを連結して単語モデルを作成するステップ
と、前記フレーム特徴量と基準モデルの特徴量とを比較
して当該単語モデルに対する当該フレーム特徴量の尤度
を演算するステップと、前記演算された尤度に基づいて
当該単語モデルの前記入力音声信号に対するマッチング
度合いを演算するステップと、このマッチング度合いに
応じて認識候補を設定するステップと、前記無音モデル
に対するガーベジ尤度を設定するステップとを有し、前
記マッチング演算のステップは、無音モデルの尤度とし
て、前記尤度演算ステップによって演算された無音モデ
ルの尤度と、前記ガーベジ尤度設定ステップによって設
定されたガーベジ尤度の何れか一方を選択してマッチン
グ演算を行うことを特徴とする。

【００１６】請求項８の発明は、請求項７の特徴に加
え、さらに、マッチング演算ステップは、前記尤度演算
ステップによって演算された無音モデルの尤度と、前記
ガーベジ尤度設定手段によって設定されたガーベジ尤度
を比較し、何れか大きい方の尤度を選択するとの特徴を
備えるものである。

【００１７】請求項９の発明は、請求項７または８の特
徴に加え、さらに、ガーベジ設定ステップは、前記フレ
ーム特徴量の基準モデル特徴量に対する尤度を演算処理
してガーベジ尤度を算出するとの特徴を備えるものであ
る。

【００１８】請求項１０の発明は、請求項７または８の
特徴に加え、さらに、ガーベジ設定ステップは、前記フ
レーム特徴量の基準モデル特徴量に対する尤度の内、最
も大きな尤度をガーベジ尤度とするとの特徴を備えるも
のである。

【００１９】請求項１１の発明は、請求項７または８の
特徴に加え、さらに、ガーベジ設定ステップは、前記フ
レーム特徴量の基準モデル特徴量に対する尤度の内、尤
度の大きさが上位からＮ番目までの尤度を平均化演算し
てガーベジ尤度を算出するとの特徴を備えるものであ
る。

【００２０】請求項１２の発明は、請求項７または８の
特徴に加え、さらに、ガーベジ設定ステップは、前記フ
レーム特徴量の基準モデル特徴量に対する尤度の内、尤
度の大きさが上位からＮ番目の尤度をガーベジ尤度とす
るとの特徴を備えるものである。

【００２１】本発明の特徴およびその効果は、以下の実
施の形態を参照することにより、明らかとなろう。

【００２２】

【発明の実施の形態】まず、本実施の形態に係る文字認
識装置および文字認識方法の概要について、図１〜図３
を参照して説明する。

【００２３】音声認識装置に対し音声が入力されると、
この音声入力信号から認識対象の音声信号が切り出され
る。この切り出しは、例えば、音声入力信号のパワーを
監視することにより行われる。

【００２４】すなわち、マイクロフォンに対して音声が
入力されると、マイクロフォンからの入力音声信号は、
そのパワーが無音レベルから立ちあがる。この立ちあが
りから次に音声信号のレベルが無音レベルに達するまで
の区間が、本来認識対象とされるべき音声信号の区間で
ある。かかる音声信号区間をそのまま切り出すと、認識
対象とされるべき音声信号の先頭あるいは末尾がカット
されてしまう恐れがある。そこで、かかる音声信号区間
を確実に認識対象とするために、通常、かかる音声信号
区間の前後にある無音信号を一定区間だけ含むようにし
て音声信号が切り出される。

【００２５】たとえば、図１〜図３では、切り出された
音声信号は、「○○ええがぞうがおおきい○○」であ
る。ここで、○は無音信号である。実際にマイクロフォ
ンに入力された音声信号の言語の意味は、「エ〜、画像
が大きい」である。この内、「エ〜」は音声入力を開始
する際に入力者からしばしば発声される意味のない不要
語である。また、「画像」は認識辞書に登録された認識
候補（単語）、「が」は認識辞書にない助詞（不要
語）、「大きい」は認識辞書に登録された認識候補（単
語）である。

【００２６】以上のようにして入力され、且つ、切り出
された音声信号は、一定周期（フレーム周期）毎に音響
分析され、音響的な特徴量（以下、「フレーム特徴量」
という）が抽出される。抽出された各フレーム特徴量
は、基準音節の特徴量と比較され、各基準音節との間の
近似度合い、即ち、尤度が算出される。

【００２７】ここで、音声認識装置内のメモリには、基
準音節の特徴量、すなわち５０音（あいうえお、等）、
濁音（がきぐげご、等）、半濁音（ぱぴぷぺぽ、等）、
拗音（ぎゃぎゅぎょ、等）の各音節の特徴量と共に、無
音音節の特徴量が、予め記憶されている。

【００２８】上記フレーム周期で音響分析され抽出され
たフレーム特徴量は、メモリに記憶された全ての基準音
節の特徴量と比較され、各基準音節毎に尤度が算出され
る。例えば、図１においては、フレーム特徴量は
「○」、「○」、「え」、「え」、「が」、「ぞ」、
「う」、「が」、「お」、「お」、「き」、「い」、
「○」、「○」に対応する部分の特徴量であり、これら
各フレーム特徴量と基準音節の特徴量が順次比較され、
尤度が算出される。

【００２９】図１の下部に示したブロックのうち、最左
欄は上述の基準音節であり、この最左欄に続く右方の各
欄内の数字は、これら各基準音節に対する各フレーム特
徴量の尤度である。例えば、図１において、認識対象と
される音声信号（前後に無音を含むように切り出された
音声信号）の内、最初のフレーム特徴量は「○（無音信
号）」の部分に対応した特徴量で、この特徴量が各基準
音節の全ての特徴量と順番に比較され、各基準音節に対
する尤度が算出される。図１では、基準音節「あ」に対
する尤度は0.1、基準音節「い」に対する尤度は0.1、
…、基準音節「無音」に対する尤度は0.9である。

【００３０】このようにして最初のフレーム特徴量に対
する尤度の算出が全て終了すると、次に、次のフレーム
特徴量「○（無音信号）」の部分について基準音節に対
する尤度の算出がなされる。以下、同様にして、音声信
号の全期間「え」、「え」、「が」、…、「い」、
「○」、「○」の部分のフレーム特徴量について基準音
節「あ」、「い」、「う」、…、「ぺ」、「ぽ」、「○
（無音）」に対する尤度の算出が行われる。

【００３１】このようにして算出された尤度は、基準音
節と各フレームとを相関軸とするマトリックス上に、そ
れぞれの尤度がマッピングされるように、メモリ（ＲＡ
Ｍ：Random Access Memory）上に書きこまれる。すなわ
ち、図１の下部に示すマトリックス上の尤度が、そのま
まメモリ上にマッピングされ記憶される。

【００３２】以上のようにして、各基準音節に対する尤
度の算出およびメモリへの書きこみがなされると、次
に、単語辞書中の一つの認識候補に対する音声入力信号
のマッチング度合いが算出される。

【００３３】図１の上部のブロックは、認識候補「おお
きい」に対する尤度の得点（マッチング度合い）を示す
ものである。

【００３４】上述の通り、音声信号の切り出しは無音部
分を含むようにして行われるため、認識候補に対する音
声信号のマッチングを算出する場合には、認識候補の前
後に無音音節を付加したもの認識候補音節とする。すな
わち、図１のように認識候補が「おおきい」であれば、
「おおきい」を構成するそれぞれの音節「お」、
「お」、「き」、「い」の前後に、音節「○（無音）」
を付加し、これらの音節を連結したものを認識候補音節
とする。

【００３５】このようにして、認識候補音節の構成がな
されると、次に、かかる認識候補音節の各音節に対し
て、上記音声信号のフレーム特徴量の尤度が割り振られ
る。

【００３６】まず、音声信号から最初に抽出されたフレ
ーム特徴量（「○（無音信号）」部分の特徴量）と認識
候補音節の各音節との間の尤度が、上記ＲＡＭから読み
出される。すなわち、上記ＲＡＭに記憶された基準音節
に対する音声信号の尤度（図１の下部ブロックに割り振
られた尤度）の内、当該フレーム特徴量「○（無音信
号）」に対応する各音節「○（無音）」、「お」、
「お」、「き」、「い」、「○（無音）」の尤度をＲＡ
Ｍから読み出し、これら各尤度を、図１の上部ブロック
の内、第１のフレーム特徴量とこれら認識候補の各音節
とが交差する欄中に割り振る。

【００３７】次に、音声信号から２番目に抽出されたフ
レーム特徴量（「○（無音信号）」の部分の特徴量）と
各音節との間の尤度をＲＡＭから読み出し、これを、上
記と同様にして、図１の上部ブロックの欄中に配布す
る。

【００３８】以下、同様にして、第３番目に抽出したフ
レーム特徴量から最後に抽出した特徴量までの尤度を図
１の上部ブロックに割り振る。

【００３９】このようにして図１の上部ブロックに割り
振られた尤度は、実際には、各フレームと認識候補音節
とを相関軸とするようにして、ＲＡＭ内の所定の領域に
記憶される。

【００４０】以上のようにして、認識候補音節に対する
音声信号の尤度の設定および配布が終了すると、次に、
このように配布された尤度群を用いて、当該認識音節に
対する音声信号のマッチング度合いが算出される。

【００４１】かかるマッチング度合いの算出は、まず、
図１の左下角の欄から右上角の欄まで各欄を通って進む
ルートを設定し、当該ルート上にある各欄中の尤度の合
計値を算出する。かかるルート設定は、例えば、一つの
欄から見て前の欄が左横または左斜め下の何れかになる
ように設定する。あるいは、これに替えて、一つの欄か
ら見て前の欄が左横、左斜め下または真下の何れかにな
るようにルートを設定するようにしてもよい。かかるＤ
Ｐマッチングには種々の定式化があり、たとえば、東海
大学出版会「デジタル音声処理（第１刷）」Ｐ１６７〜
Ｐ１６７に記載されているものを使用し得る。

【００４２】なお、本実施の形態では尤度を用いて説明
を行っているが、これは対数尤度でも良いし、距離（フ
レーム特徴量と各音節の特徴量の差：絶対値）の逆数に
基づく値でも良い。また、これに遷移確率等を加えれば
周知のＨＭＭ（Hidden Markov Model）でも表現でき
る。

【００４３】このようにして設定され得る全てのルート
について、上記の尤度の合計値算出を行い、各ルートに
ついて算出された合計値の内、最も値の大きな合計値
を、当該認識候補に対する音声信号のマッチング度合い
（得点）とする。

【００４４】図１の例においては、認識候補が「おおき
い」であり、音声信号中に「おおきい」の部分が含まれ
ているので、図１の上部ブロック中において、音声信号
の「おおきい」の各フレーム部分と認識候補音節の交差
する欄の尤度が高くなっている。したがって、当該認識
候補「おおきい」に対するマッチング度合い（得点）
は、かかる交差する欄中の尤度の影響によって大きなも
のとなる。

【００４５】これに対し、音声信号中に含まれていない
ような認識候補（例えば「ちいさい」等）についてマッ
チング度合い（得点）を算出すると、図１の上部ブロッ
クにおける各欄の尤度は、何れも低い値となるから、マ
ッチング度合い（得点）も低いものとなる。

【００４６】したがって、各認識候補について算出した
マッチング度合い（得点）を相互に比較し、得点の最も
高いものから順に上位数個の認識候補を選択して暫定的
な認識候補とすれば、この認識候補中に適正な認識候補
が含まれている可能性は高いものとなる。

【００４７】そして、この暫定的な認識候補を、例え
ば、音声認識装置のモニター上に全てを表示せしめ、そ
の中から操作者に適切なものを選択させることで、認識
結果として確定させるようにする。

【００４８】あるいは、かかる方法に代えて、あらかじ
め認識候補を内容種別によって区分する（例えば、「大
きい」や「小さい」等の大きさの区分、「画像」や「音
声」等の情報の区分、等）ようにして種々の辞書を構成
しておき、上記マッチング度合い（得点）の上位数個
（たとえば、５個）の認識候補を各辞書から取り出し、
取り出した各辞書からの認識候補について組み合わせを
作成し（たとえば、２辞書で５個づつの認識候補であれ
ば５個×５個＝２５個の組み合わせ）、組み合わされた
認識候補間を無音で連結すると共に前後に無音を付加し
て認識候補音節を生成し（例えば、「がぞう」と「おお
きい」の組み合わせであれば、「○○がぞう○○おおき
い○○」の認識候補音節）、この認識候補音節と上記音
声信号のマッチング度合い（得点）を上記と同様にして
再度算出し、各組み合わせの内最も得点の高いものを認
識結果として確定するようにしてもよい。

【００４９】以上のように、認識候補の前後に無音音節
を付加して認識候補音節を生成し、この認識候補音節と
音声信号とのマッチング度合いを判別するようにすれ
ば、上記のように無音信号部分を含めて音声信号を切り
出すようにしても、この無音信号部分の影響が認識候補
の前後に付加した認識候補音節「○（無音）」によって
吸収されるので、比較的精度のよい認識結果を得ること
ができるようになる。

【００５０】しかしながら、音声信号に不要語が付加さ
れている場合には、この認識候補音節「○（無音）」の
特徴量と不要語の特徴量は通常非近似であるから、この
認識候補音節「○（無音）」によって不要語の影響を吸
収することはできず、このため、認識候補の確定精度が
低下してしまう。

【００５１】そこで、本実施の形態では、認識候補音節
「○（無音）」に対する尤度の割り当て方を改良し、こ
れにより、音声信号に含まれる無音部分の影響のみなら
ず、音声信号中の不要語の影響をも同時に吸収し得るよ
うにする。具体的には、切り出し音声信号をフレーム周
期で音響分析して抽出した各フレーム特徴量の、認識候
補音節「○（無音）」の特徴量に対する尤度（以下、
「無音モデル尤度」という）の設定を改良する。

【００５２】詳しくは、図２に示すように、それぞれの
フレーム特徴量の各標準音節に対する尤度の内、最高の
尤度を無音モデル尤度に設定する。すなわち、図２の上
部ブロックにおいて、フレーム特徴量「え」「え」
「が」「ぞ」「う」「が」「お」「お」「き」「い」の
無音モデル尤度には、これら各フレーム特徴量の基準音
節に対する尤度の最高値である0.9、0.9、0.9、0.9、0.
9、0.8、0.9、1.0をそれぞれ割り当てる。

【００５３】このように尤度の割り当てを行うと、マッ
チング度合いの得点が最高となるルートは、例えば図２
の上部ブロックでは、無音モデル尤度の欄を通った後、
矢印で示すように「お」「お」「き」「い」の部分で斜
め右上に進み、その後再び無音モデル尤度の欄を通るル
ートとなる。すなわち、切り出し音声信号の「○」
「○」「が」「ぞ」「う」「が」の部分と、「おおき
い」に続く「○」「○」の部分では、無音モデル尤度の
欄の尤度が最高値に設定されるため、尤度の合計値が最
高となるルートは、通常、この無音モデル尤度の欄を通
るものとなる。

【００５４】したがって、切り出し音声に無音信号の部
分の他に不要語が含まれているような場合であっても、
無音信号部分と不要語による尤度の乱れは、全て、無音
モデル尤度によって吸収されることとなる。

【００５５】ところで、上記実施の形態では、無音モデ
ル尤度として、各フレーム特徴量の基準音節に対する尤
度の最高値を設定するようにしたが、このようにする
と、音声信号の内、本来、尤度が強調されるべき部分、
すなわち認識候補に対応する部分の尤度が強調されない
といった不都合が生じる。

【００５６】例えば図２の上部ブロックにおいて、矢印
で示したルート上の欄の尤度は、認識候補と音声信号が
一致する箇所であるから、他の欄の尤度に比べて、尤度
が充分に強調されていなければならない。しかしなが
ら、かかる矢印上の欄は、上記の通り、当該区間の無音
モデル尤度と同一の尤度が設定されている。このため、
本来、マッチング度合い（得点）に大きく影響する必要
のある矢印上の欄の尤度が、それ程、強調されないこと
になり、その結果、認識結果の精度が外乱による影響等
を受けやすくなるとの不都合が生じる。

【００５７】そこで、かかる不都合を改善するために、
図３の実施の形態においては、各フレーム特徴量の基準
音節に対する尤度の内、上位Ｎ個の尤度の平均値（以
下、「ガーベジ用尤度」という）を算出し、ガーベジ用
尤度が無音モデル尤度よりも大きいとき、このガーベジ
用尤度を無音モデル尤度に置換えるようにした。

【００５８】このようにガーベジ用尤度への置換えを行
うと、図３に示すように、矢印ルート上にある欄の尤度
が無音モデル尤度よりも数段大きくなり、よって、本来
強調されるべき矢印ルート上の欄の尤度が、効果的に強
調されるようになる。また、音声信号のうち、無音部分
の無音モデル尤度は適正に強調され、さらに、不要語部
分（認識対象でない「がぞう」の部分を含む）の無音モ
デル尤度も適正に強調されているので、当該期間の無音
モデル尤度によって無音部分および不要語部分の影響を
効果的に吸収できるようになる。

【００５９】以上が本実施の形態の概要である。以下、
本実施の形態をさらに詳細に示す種々の実施例について
説明する。

【００６０】図４に本実施例のブロック図を示す。図に
おいて、１はマイクロフォン等の音声入力部、２は音声
入力部からの音声入力信号から音声信号を切り出す音声
信号切り出し部である。かかる音声信号切り出し部２
は、上述の通り、音声入力信号のパワーを監視し、前後
に無音信号を含むように音声信号を切り出す。

【００６１】３は音響分析部で、切り出された音声信号
を所定のフレーム周期毎に音響分析し、特徴パラメータ
（以下、「フレーム特徴パラメータ」という）を抽出す
る。フレーム特徴パラメータとしては、例えば線形予測
係数やＬＰＣケプストラム、周波数帯域毎のエネルギな
どとする。かかる音響分析については既に周知であるの
で、ここでは詳細な説明を割愛する。なお、かかるフレ
ーム特徴パラメータとは、上記実施の形態におけるフレ
ーム特徴量と同義である。

【００６２】４は各基準モデル毎の音響特性パラメータ
を記憶した基準モデルパラメータ部で、上記音響分析部
３と同様の方法により基準モデルを音響分析し、そのパ
ラメータを各モデルの基準パラメータとして記憶してい
る。ここで基準モデルとは、例えば、上記実施の形態で
言うところの基準音節に相当する。かかる基準モデル
は、上記実施の形態で示した如く、無音モデルを含むも
のである。かかる基準モデルは、上記実施の形態の如く
基準音節としてもよいし、これに代えて、基準音素とす
ることもできる。また、各単語全体の特徴パラメータを
基準モデルとすることもできる。なお、基準モデルとし
ては、ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ等を用
いることができる。また、基準モデルパラメータは離散
分布や連続分布等で表現できる。

【００６３】５は尤度演算部で、音響分析部３で抽出さ
れた所定フレーム周期毎のフレーム特徴パラメータと基
準パラメータ部４の各基準モデル毎の特徴パラメータと
を比較し、両者間の尤度を算出する。この尤度の算出方
法としては、たとえば社団法人電子情報通信学会発行
「確率モデルによる音声認識」の第３章等に記載されて
いる周知の方法を用いることができる。

【００６４】６はＲＡＭ部で、尤度演算部５にて算出さ
れた各フレーム毎の尤度を各基準モデルと関連付けて記
憶する。例えば、上記実施の形態で示した図１〜図３の
下部にマトリックス状に示した尤度をＲＡＭ上にマッピ
ングして記憶する。

【００６５】７は認識辞書部で、認識候補としての単語
が記憶されている。かかる認識辞書部には、図５に示す
如く、「大きさ」や「情報の種類」等のカテゴリーに区
分して複数の認識辞書が準備されている。

【００６６】８は単語モデル作成部で、認識評価の対象
となる単語の基準モデルを連結すると共にその前後に無
音モデルを付加して単語モデルを作成する。例えば、図
６に示す如く、認識対象の単語が「おおきい」であれ
ば、作成される単語モデルは「○おおきい○」（○は無
音モデル）となる。

【００６７】９はマッチング演算部で、上記の如くＲＡ
Ｍ部６に記憶された基準モデル毎の尤度と後述のガーベ
ジ用尤度算出部１０からのガーベジ用尤度を参照し、単
語モデル作成部８からの単語モデルについてマッチング
度合い（得点）を演算する。かかるマッチング度合い
（得点）の算出は、例えば、上記実施の形態に示した如
く、単語モデルを構成する各基準モデル（無音モデルを
含む）と、音声信号から抽出した各フレーム特徴パラメ
ータとの間の尤度をマッピングしてマトリックスを構成
し（図１〜図３の上部参照）、このマトリックスを左下
の角から右上の角に進む種々のルートにおける尤度の合
計得点の内、最高得点をマッチング度合いとする（ビタ
ビマッチング法）。

【００６８】ここで、ＲＡＭに記憶された無音モデルの
尤度としては、上記実施の形態の如く、フレーム周期で
抽出された各フレーム特徴パラメータの基準パラメータ
に対する尤度群の内、最高の尤度を無音モデルの尤度に
置換える方法や、フレーム特徴パラメータの基準パラメ
ータに対するそれぞれの尤度群の内、上位Ｎ個の平均値
を無音モデルの尤度に置換える方法、等とする。なお、
このように算出され置換えられる尤度が、ガーベジ用尤
度算出部１０で算出されるガーベジ用尤度である。

【００６９】１０はガーベジ用尤度算出部で、ＲＡＭ部
６に記憶された基準モデル毎の尤度を参照し、ガーベジ
用尤度を算出する。ここで、ガーベジ用尤度としては、
上記実施の形態の如く、フレーム周期で抽出されたフレ
ーム特徴パラメータの基準パラメータに対する尤度群の
内、最高の尤度をガーベジ用尤度とする方法や、フレー
ム特徴パラメータの基準パラメータに対する尤度の内、
上位Ｎ個の平均値をガーベジ用尤度とする方法、等とす
る。

【００７０】１１は認識候補記憶部で、マッチング演算
部９で算出されたマッチング度合い（得点）を単語毎に
比較し、得点の高いものからＭ個を認識候補の単語とし
て記憶する。ここで、認識候補とされる単語は、上記
「大きさ」や「情報の種類」等の辞書（カテゴリー）毎
にＭ個が記憶される。このように記憶された認識候補の
単語は、そのまま表示して操作者の意図するものを選択
させるようにしてもよいし、あるいは、後述するよう
に、再度、かかるＭ個の認識候補を対象として、音声認
識処理を行うようにしてもよい。

【００７１】図７は上記マッチング演算部９の詳細を示
すブロック図である。９１は無音モデル尤度決定部で、
ＲＡＭ部６に記憶されている無音モデルの尤度とガーベ
ジ用尤度算出部１０からのガーベジ用尤度を比較し、無
音モデルの尤度を決定する。

【００７２】図８に無音モデル決定部９１における無音
モデルの尤度の決定方法を示す。単語モデルの各基準モ
デルの尤度は、ステップＳ１にて、その基準モデルが無
音モデルであるが否かが判別される。ここで、無音モデ
ルではないと判別されると、当該モデルの尤度は認識対
象の単語に関する尤度として、ＲＡＭ部６に記憶された
ままとされる。

【００７３】ステップＳ１にて、当該尤度が無音モデル
の尤度であると判別されると、ステップＳ２、Ｓ３に
て、当該無音モデルの尤度とガーベジ用尤度算出部１０
からのガーベジ用尤度の何れが大きいかが判別され、ガ
ーベジ用尤度の方が大きいと、ステップＳ５、Ｓ６に
て、当該無音モデルの尤度がガーベジ用尤度に置換えら
れる。かかる置換えは、ＲＡＭ部６の当該無音モデルの
尤度をガーベジ用尤度に書き替えるようにしてもよい
し、あるいは、ＲＡＭ部６の当該無音モデルの尤度は書
き替えずに、マッチング演算部９における演算時にの
み、当該無音モデルについてはガーベジ用尤度を用いる
よう処理するようにしてもよい。

【００７４】以上の実施例における音声認識動作につい
て図９を参照して説明する。

【００７５】所定の音声入力モードにおいて操作者が音
声を入力すると、認識辞書部７に格納された種々の辞書
の内、当該モードにて使用されるべき辞書が選択され、
さらにこれら辞書のうち一の辞書が認識対象の辞書とし
て設定される（ステップS１０１、Ｓ１０２）。認識対
象の辞書が設定されると、この辞書中に格納された種々
の単語の内、一の単語が認識対象の単語（Ｗ１）として
読み出される（ステップＳ１０３、Ｓ１０４）。そし
て、この単語（Ｗ１）は、上記の通り入力音声信号と比
較され、単語認識のための尤度計算と得点計算（マッチ
ング処理）がなされる（ステップＳ１０５）。

【００７６】辞書内から読み出された単語（Ｗ１）につ
いて得点計算がなされると、この得点は、認識候補記憶
部１１に先の処理によって記憶されているＭ個の単語
（Ｗｓ１、Ｗｓ２、…、Ｗｓｍ）の内、最も得点の低い
単語と比較され、これよりも得点が大きければ、この先
に記憶された単語に代えて、当該単語（Ｗ１）が得点と
共に記憶される。今、単語（Ｗ１）は当該辞書から読み
出された最初の単語であるので、認識候補記憶部１１に
は未だ認識候補の単語が記憶されていない。従って、単
語（Ｗ１）は得点と共にそのまま認識候補記憶部１１に
記憶される（ステップＳ１０６）。

【００７７】上記単語（Ｗ１）の処理が終了すると、ス
テップＳ１０３に戻り、当該認識辞書から次の単語（Ｗ
２）が読み出され、ステップＳ１０４〜Ｓ１０６と同様
の処理がなされる。このとき、当該辞書からＭ個の単語
が読み出されるまでは、認識候補記憶部１１にはＭ個の
認識候補が記憶されないので、辞書から読み出された単
語はその得点と共に順番に認識候補記憶部１１に記憶さ
れる。そして、当該辞書から読み出される単語がＭ＋１
個目になったときに、この単語（Ｗｍ＋１）の得点が認
識候補記憶部１１に記憶されているＭ個の単語の得点と
比較され、これよりも大きければ、この単語（Ｗｍ＋
１）とその得点が認識候補記憶部１１に記憶されると共
に、先に認識候補記憶部１１に記憶されていたＭ個の単
語の内、最も得点の低い単語とその得点が認識候補記憶
部１１から消去される。

【００７８】以上の処理を当該辞書に記憶されている全
ての単語について行うと、ステップＳ１０４にて、当該
辞書に対する認識候補の設定が終了したことが判別さ
れ、処理はステップＳ１０１に戻る。このとき、認識候
補記憶部１１には、当該辞書に記憶された単語のうち、
音声入力信号との間で得点の高い上位Ｍ個の単語が認識
候補として記憶されている。

【００７９】以上のようにして、最初の辞書について認
識候補の設定が終了すると、ステップＳ１０１〜Ｓ１０
３にて次の辞書が認識対象の辞書として選択され、この
辞書中の単語について、順次、上記ステップＳ１０３〜
Ｓ１０６の処理が行われる。これにより、当該２番目の
辞書について、上位Ｍ個の単語が認識候補として認識候
補記憶部１１に記憶される。

【００８０】以上の動作が、当該音声入力モードにて使
用されるべき全ての辞書について行われると、ステップ
Ｓ１０２にて、全ての辞書についての音声認識処理が終
了したと判別される。このとき、認識候補記憶部１１に
は、当該音声入力モードにて使用されるべき全ての辞書
について、辞書毎にそれぞれＭ個の単語が認識候補とし
て記憶されている。

【００８１】そして、かかるＭ個の認識候補は、ステッ
プＳ１０７において辞書区分毎に例えば音声認識装置の
モニター上に表示される。操作者は、モニター上に表示
された認識候補の内、所望のものを選択する。これによ
り、入力音声に対する単語が辞書区分毎に確定される。

【００８２】以上の音声認識動作では、辞書区分毎の認
識候補としてＭ個の単語をモニター上に表示し、操作者
に選択させるようにした。しかしながら、認識候補とし
て表示される単語の数が多いと、その分、操作者に無駄
な選択動作を強いることになる。表示される単語の数は
なるべく少ない方が良く、且つ、その単語の認識候補と
しての精度も高いほうが好ましい。

【００８３】そこで以下の実施例では、Ｍ個の単語を認
識候補としてそのまま表示せずに、さらに単語の数を絞
ると共に認識候補として精度を上げようにした。

【００８４】図１０に当該実施例の構成を示す。図１０
の構成は、上記図４の実施例に比べて、単語モデル作成
部８と認識候補記憶部１１の構成が相違するのみであ
り、その他の構成は上記図４の構成と同一である。

【００８５】本実施例では、上記実施例と同様の処理に
よって認識候補記憶部１１に辞書区分毎に記憶されたＭ
個の単語の内、各辞書区分から一つずつ単語を選択し、
これを無音モデルで連結して再度単語モデルを作成し、
この単語モデルと入力音声とのマッチングを演算するも
のである。

【００８６】単語モデル作成部８にて作成される単語モ
デルの例を図１１に示す。この単語モデルは、認識候補
記憶部１１に辞書区分毎に記憶されたＭ個の単語の内、
一の辞書区分から単語「がぞう」を選択し、他の一の辞
書区分から単語「おおきい」を選択して組み合わせたも
のである。

【００８７】例えば、音声入力モードに応じて使用され
るべき辞書が２つの場合、上記実施例の処理と同様にし
て各辞書毎にＭ個の単語がそれぞれ認識候補として設定
されたとすると、各辞書区分から一つずつ選択して作成
した単語モデルの総数は、Ｍ×Ｍ個となる。同様に、音
声入力モードに応じて使用されるべき辞書が３つの場
合、単語モデルの総数は、Ｍ×Ｍ×Ｍ個となる。

【００８８】本実施例では、このように作成したＭのＰ
乗（Ｐは音声入力モードに応じて使用されるべき辞書の
数）個の単語モデルの全てについて、入力音声信号との
尤度計算およびマッチング処理を行い、得点の最も高い
ものからＬ個の単語モデルを判別し、この単語モデルに
おいて連結されている各単語を認識候補とするものであ
る。

【００８９】このように複数の単語を連結して単語モデ
ルを作成しこれを入力音声と比較するようにすると、各
単語モデルの単語が入力音声中に１つ含まれているか、
２つ含まれているか、３つ含まれているか、あるいは、
全く含まれていないか、すなわち、音声入力信号中に含
まれている単語の数に応じて、各単語モデル間における
マッチング得点の格差が大きなものとなる。

【００９０】この点について上記実施例と比較して説明
すると、上記の実施例では一つの単語のみを対象として
単語モデルを作成し、これと入力音声信号とのマッチン
グ度合い（得点）を算出するものであった。したがっ
て、音声入力信号中には単語モデルの単語以外に多くの
不要な単語が必ず含まれ、このため各単語モデルの得点
は、例え入力音声信号中にその単語が含まれていたとし
ても、それ程大きくならず、このため、単語モデル間の
マッチング度合い（得点）の格差はそれ程大きくならな
い。これに対し、本実施例のように複数の単語を対象と
して単語モデルを作成し、これと入力音声信号とを比較
してマッチング度合い（得点）を算出するようにすれ
ば、入力音声中に単語モデルを構成する単語が一つ存在
するか、２つ存在するかで、単語モデル間の得点の格差
は大きなものとなる。入力音声信号中に全ての単語が余
すところなく含まれていれば、その単語によって構成さ
れる単語モデルの得点は極めて高いものとなる。

【００９１】したがって、単語モデルを構成する場合に
は、上記実施例のように一つの単語から単語モデルを構
成するよりも、本実施例のように複数の単語から単語モ
デルを構成する方が、単語モデル間の得点の格差が大き
くなり、よって、精度の高い認識候補の単語を操作者に
提供できるようになる。

【００９２】しかしながら、入力音声モードに応じて使
用される全ての単語辞書から全ての単語を一つずつ連結
して単語モデルを作成すると、その単語モデルの数は膨
大なものなる。かかる膨大な数の単語モデルについて入
力音声信号とのマッチング処理を行うとなると、膨大な
処理時間を要し、且つ、不要な連結による単語モデルに
対する無駄な処理を繰り返す結果ともなる。

【００９３】そこで、本実施例では、上記図４〜図９で
得られた辞書区分毎のＭ個の単語のみを対象とし、各辞
書区分から一つずつ単語を選択しこれを連結して単語モ
デルを作成し、これを入力音声信号と比較することで、
最終的な認識候補の数を絞ると共にその精度を上げるも
のである。

【００９４】以下、本実施例の動作について図１２を参
照して説明する。なお、かかる動作は、音声入力モード
に応じて使用されるべき辞書が２つの場合の動作であ
る。また、図１２において、ステップＳ１０１〜Ｓ１０
６による動作は上記実施例と同様である。すなわち、か
かるステップにより、辞書毎にそれぞれＭ個の単語が認
識候補として設定される。

【００９５】しかして、使用されるべき２つの辞書につ
いてＭ個の単語が認識候補として設定されると、動作は
ステップＳ１０２からステップＳ２０１に移行し、これ
ら辞書の内、第１の辞書について設定された認識候補の
単語（Ｗｓ１１）が読み出されると共に（ステップＳ２
０１、Ｓ２０３）、第２の辞書について設定された認識
候補の単語（Ｗｓ２１）が読み出される（ステップＳ２
０３、Ｓ２０４）。そして、これらの各単語（Ｗｓ１
１）（Ｗｓ２１）を無音モデルで接続し、その両端にさ
らに無音モデルを連結して単語モデルを作成する（ステ
ップＳ２０５）。

【００９６】このようにして単語モデルが作成される
と、この単語モデルについて、上記実施例と同様に、入
力音声信号との間の尤度計算と得点計算（マッチング処
理）が行われる（ステップＳ２０６）。そして、この単
語モデルがその得点と共に認識候補記憶部１１に記憶さ
れる。

【００９７】以上のようにして一つの単語モデルに対す
る処理が終了すると、ステップＳ２０３に戻り、第２の
辞書の単語（Ｗ２２）が読み出される。そして、この単
語（Ｗ２２）が、上記と同様にして、上記第１の辞書の
単語（Ｗ１１）と連結され、新たな単語モデルが作成さ
れる（ステップＳ２０５）。

【００９８】作成された単語モデルは、上記と同様に、
入力音声信号との間の尤度計算および得点計算がなされ
（ステップＳ２０６）、この得点と共に認識候補記憶部
１１に記憶される。

【００９９】以上のステップＳ２０３〜Ｓ２０６の動作
は、第２の辞書について設定されたＭ番目の単語（Ｗｓ
２ｍ）が第１の辞書の単語（Ｗｓ１１）と連結されて得
点計算され、これが認識候補記憶部１１に記憶されるま
で繰り返される。

【０１００】第２の辞書について設定されたＭ個の単語
の全てが読み出され、上記の処理が終了すると、ステッ
プＳ２０１に戻り、第１の辞書について設定された次の
単語（Ｗｓ１２）が読み出される（ステップＳ２０１、
Ｓ２０２）。そして、この単語が、上記と同様ステップ
Ｓ２０３〜Ｓ２０６の処理を繰り返すことにより、第２
の辞書に応じたＭ個の単語と順次連結されてＭ個の単語
モデルが作成され、これら各単語モデルと入力音声信号
の間の尤度計算と得点計算が順次行われる。そして、計
算された得点はその単語モデルと共に順次、認識候補記
憶部１１に記憶される。

【０１０１】以上の処理は、第１の辞書について設定さ
れたＭ個の単語の全てが第２の辞書のＭ個の単語と連結
されて処理されるまで繰り返される。

【０１０２】以上の処理が終了すると、認識候補記憶部
１１には合計Ｍ×Ｍ個の単語モデルとその得点が記憶さ
れている。かかるＭ×Ｍ個の単語モデルは、ステップＳ
２０７において、その得点が比較され、このうち、上位
Ｌ個の単語モデルが選択される。そして、かかる上位Ｌ
個の単語モデルに含まれる各辞書の単語を判別し、この
単語を辞書毎の認識候補としてモニター上に表示する。

【０１０３】なお、かかる実施例は、音声入力モードに
応じて使用される辞書が２つの場合の動作であったが、
これに限定されるものではない。例えば、辞書が３つの
場合には、図１２のステップＳ２０１およびＳ２０２
（第１の辞書用）と、ステップＳ２０３およびＳ２０４
（第２の辞書用）に相当するステップを、ステップＳ２
０４の下にもう１段追加すれば良い。対象となる辞書が
増えるに応じて、かかるステップを追加し、各辞書に応
じたＭ個の単語が全て組み合わせられるようにすればよ
い。

【０１０４】また、対象となる辞書が３つ以上（例えば
Ｋ個）ある場合であっても、Ｋ個の辞書から一つずつ単
語を選択するのではなく、この内、Ｊ個（Ｊ＜Ｋ）の辞
書を選択し、この選択したＪ個の辞書に応じた単語を一
つずつ選択してこれを連結するようにしても良い。

【０１０５】さらに、本実施例では、各辞書について設
定されたＭ個の単語を組み合わせてＭのＰ乗（Ｐは辞書
の個数）個の単語モデルを作成するものであったが、各
辞書に設定されたＭ個の単語に加え、ヌル（無し）を単
語として追加し、各辞書について設定される単語をＭ＋
１個とて、Ｍ＋１のＰ乗個の単語モデルを作成するよう
にしても良い。この場合、ヌルと単語との組み合わせ
は、ヌルを除いて単語を連結することにより行う。例え
ば、対象となる辞書が３つあり、第１の辞書の単語がヌ
ル、第２の辞書の単語がＷｓ１、第３の辞書の単語がＷ
ｓ２であるとすると、これらを組み合わせた単語モデル
は、単語Ｗｓ１と単語Ｗｓ２とを無音モデルで連結し、
その両端にさらに無音モデルを連結するようにして作成
される。対象となる辞書が２つで、第１の辞書がヌル、
第２の辞書がＷｓ２の場合には、単語モデルは、単語Ｗ
ｓ２の両端に無音モデルを連結した、例えば図６と同様
の単語モデルとなる。

【０１０６】このようにＭ個の単語の他に別途ヌルを追
加すると、操作者が音声入力モードによって入力を求め
られている種類・区分の全てについて単語を入力しなか
った場合でも、入力された種別の単語は正しく認識でき
るようになる。例えば、音声入力モードがＡ、Ｂ、Ｃの
３つの種類・区分の単語の入力を要求するものであった
場合に、操作者がＡとＢの種別・区分の単語しか入力し
なかったとする。この場合、図１２の実施例ではステッ
プＳ１０１〜Ｓ１０６にてＡ、Ｂ、Ｃの種別・区分に応
じた辞書についてＭ個の単語が認識候補として設定され
るが、この内、Ｃの辞書について設定されたＭ個の単語
は、操作者が入力しなかった種類・区別に応じたもので
あるから、何れも認識候補としては誤りである。しか
し、図１２の実施例では、ステップＳ２０１〜Ｓ２０６
によって、このＣの辞書についても認識候補の単語が設
定され、モニター上に表示されることになってしまう。

【０１０７】そこで、Ａ、Ｂ、Ｃの辞書について設定さ
れたＭ個の単語にさらにヌルを追加しておけば、Ｃの辞
書についてヌルが選択された場合の単語モデルの得点が
他よりも高くなる。すなわち、この場合の単語モデル
は、Ａ、Ｂの辞書の単語をそれぞれＷａ、Ｗｂとする
と、○＋Ｗａ＋○＋Ｗｂ＋○（○は無音モデル）とな
り、他方、入力された音声はＡとＢの種類・区分に応じ
たものであるから、ＷａとＡの音声部分、ＷｂとＢの音
声部分がマッチングし、全体としての得点が大きくな
る。

【０１０８】なお、単語モデルの長さに得点が比例する
ようなマッチング方法の場合には、ヌルが選択されると
単語モデルの長さが小さくなるので得点の正規化が必要
となる。かかる正規化は、例えば、単語モデルの長さに
応じて得点を平均化することによって達成される。

【０１０９】この点は、上記図４の実施例のように、一
つの単語のみを対象とした場合でも同様である。すなわ
ち、単語の音節数は画一的ではなく、単語に応じて音節
数は相違する。例えば、「がめん」は３音節、「おんせ
い」は４音節である。かかる場合にも、単語モデルの長
さは音節数に応じて変化するが、正規化処理により得点
が単語モデルの長さに応じて平均化されるので、単語モ
デルの長さに応じた得点の格差は是正される。

【０１１０】以上、本発明に係る種々の実施例について
説明したが、本発明はかかる実施例に制限されるもので
はない。

【０１１１】例えば、上記実施例では、一つの単語から
単語モデルを作成する場合、単語の両端に無音モデルを
一つだけ追加するようにしたが、２つ以上追加するよう
にしても良く、また、単語の前後で無音モデルの数を変
化させるようにしてもよい。

【０１１２】また、２つ以上の単語を連結して単語モデ
ルを作成する場合、上記実施例では単語間に介在させる
無音モデルの数を１つとしたが、これを２つ以上とする
こともでき、また、無音モデルを介在させることなしに
直接単語を連結するようにしても良い。さらに、単語Ｗ
ａと単語Ｗｂの間に介在する無音モデルの数を２つ、単
語Ｗｂと単語Ｗｃの間に介在する無音モデルの数を１つ
といった具合に、単語間の位置に応じて無音モデルの数
を変えるようにしても良い。

【０１１３】また、上記実施例では、ガーベジ尤度とし
て、フレーム特徴量の基準モデル特徴量に対する尤度の
内、最も大きな尤度または上位Ｎ個の尤度の平均値を採
用したが、これに代えて上位Ｋ番目の尤度をガーベジ尤
度として設定するようにしても良い。この際、統計的に
Ｋ番目の尤度がＮ個の尤度の平均値近傍となるようにＫ
を選んでやれば、平均値処理を省略しながら平均値を採
用したと同様の効果が得られる。

【０１１４】また、上記実施例では、単語モデル作成部
８にて無音モデルを付加するようにしたが、これに代え
て、単語に予め無音モデルを付加して認識辞書部７に記
憶させるようにしても良い。

【０１１５】また、上記実施例では、各辞書について認
識候補として設定されたＭ個の単語の他、別途、ヌルを
追加して各単語を連結するようにしたが、この場合、全
ての辞書についてヌルを設定すると、単語モデルは無音
モデルのみからなることになる。従って、全てがヌルの
単語モデルはマッチングの対象から除くようににてもよ
い。あるいは。全てがヌルの場合にマッチングの得点が
上位Ｈ番目より上位である場合には、当該入力音声に対
する処理結果は採用せず、操作者に再度音声入力を促す
ようにしても良い。

【０１１６】また、上記実施例では、各辞書毎に設定さ
れる認識候補を画一的にＭ個としたが、辞書毎に認識候
補の数を変えるようにしても良い。この際、予め、辞書
毎に認識候補の数を設定しておいても良いし、あるいは
認識処理時の得点に応じて当該辞書についての認識候補
の数を設定するようにしても良い。後者の場合、例え
ば、得点の閾値を設定しておき得点が閾値以上のものの
みを認識候補とするようにしても良い。この場合、認識
候補の数は得点と閾値に依存し、Ｍ個以上にもＭ個未満
にもなり得る。

【０１１７】また、上記実施例では、例えば、図１２に
おいて、ステップＳ１０５による特性分析および計算処
理と、ステップＳ２０６による特性分析および計算処理
は同一のものとしたが、ステップＳ１０５の特性分析お
よび計算処理を粗くし、ステップＳ２０６の特性分析お
よび計算処理を精密にするようにしても良い。すなわ
ち、ステップＳ１０５においては、対象となる単語モデ
ルの数が多いので粗の処理により処理速度を優先し、ス
テップＳ２０６では、対象となる単語モデルの数が少な
いので密の処理により精度を上げる。これにより、全体
の処理速度を高めながら、精度の良い認識結果を得るこ
とができるようになる。

【０１１８】ここで、認識処理精度は、音声信号のスペ
クトル、スペクトルの変化量、パワーおよびパワーの変
化量等の音響分析パラメータについて、処理対象とする
パラメータを変化させることによって粗の処理と密の処
理を切り分ける。例えば、粗の処理はスペクトルのパラ
メータのみを対象とし、密の処理はスペクトル、スペク
トルの変化量、パワーおよびパワーの変化量を対象とす
る。あるいは、入力音声信号の抽出フレーム数を粗の処
理と密の処理とで変化させても良い。例えば、密の処理
のフレーム数を１００としたとき、粗の処理のフレーム
数に５０に間引くようにする。

【０１１９】その他、特性分析やマッチング処理等につ
いても種々の変更が可能である。さらに、ガーベジモデ
ルの生成も上記のように当該フレームの最大尤度を取る
方法や上位Ｎ個の平均を取る方法の他、種々の変更が可
能である。

【０１２０】

【発明の効果】本発明によれば、フレーム特徴量に対す
る無音モデルの尤度を適宜ガーベジ用尤度に置換えるも
のであるから、無音部分を含めて入力音声信号を切り出
したとしても、この無音部分のマッチング演算に対する
影響は無音モデルによって吸収され、且つ、音声信号中
の不要語部分のマッチング演算に対する影響はガーベジ
用尤度への置換えによって吸収されるから、不要語を含
んで音声入力がなされても、精度良く、音声認識を行う
ことができる。

【０１２１】また、ガーベジ用尤度は、フレーム特徴量
の基準モデル特徴量に対する尤度に基づいて演算される
ものであるから、認識対象の単語が辞書に追加されたと
しても、従来例のように全ての単語に基づいて別途演算
して再設定する必要はなく、単語の追加、変更における
装置の自由度を向上させることができる。

【図面の簡単な説明】

【図１】実施の形態の概要を説明するための図

【図２】実施の形態の概要を説明するための図

【図３】実施の形態の概要を説明するための図

【図４】実施例の構成を示す図

【図５】実施例に係る認識辞書部の記憶状態を示す図

【図６】実施例に係る単語モデルの構成を示す図

【図７】実施例に係るマッチング演算部の構成を示す
図

【図８】実施例に係る無音モデル尤度の設定方法を示
す図

【図９】実施例の動作を示す図

【図１０】第２の実施例の構成を示す図

【図１１】第２の実施例に係る単語モデルの構成を示
す図

【図１２】第２の実施例の動作を示す図

【符合の説明】

１音声入力部２音声信号切り出し部３音響分析部４基準モデルパラメータ部５尤度演算部６ＲＡＭ部７認識辞書部８単語モデル作成部９マッチング演算部１０ガーベジ用尤度算出部１１認識候補記憶部

Claims

【特許請求の範囲】

【請求項１】入力音声信号を音響分析してフレーム特
徴量を抽出する音響分析手段と、単語の基準モデルの両
端に無音モデルを連結して単語モデルを作成する単語モ
デル作成手段と、前記フレーム特徴量と基準モデルの特
徴量とを比較して当該単語モデルに対する当該フレーム
特徴量の尤度を演算する尤度演算手段と、前記演算され
た尤度に基づいて当該単語モデルの前記入力音声信号に
対するマッチング度合いを演算するマッチング演算手段
と、このマッチング度合いに応じて認識候補を設定する
認識候補設定手段と、前記無音モデルに対するガーベジ
尤度を設定するガーベジ尤度設定手段とを有し、前記マッチング演算部は、無音モデルの尤度として、前
記尤度演算部によって演算された無音モデルの尤度と、
前記ガーベジ尤度設定手段によって設定されたガーベジ
尤度の何れか一方を選択してマッチング演算を行うこと
を特徴とする音声認識装置。
【請求項２】請求項１において、マッチング演算部
は、前記尤度演算部によって演算された無音モデルの尤
度と、前記ガーベジ尤度設定手段によって設定されたガ
ーベジ尤度を比較し、何れか大きい方の尤度を選択する
ことを特徴とする音声認識装置。
【請求項３】請求項１または２において、ガーベジ設
定手段は、前記フレーム特徴量の基準モデル特徴量に対
する尤度を演算処理してガーベジ尤度を算出することを
特徴とする音声認識装置。
【請求項４】請求項１または２において、ガーベジ設
定手段は、前記フレーム特徴量の基準モデル特徴量に対
する尤度の内、最も大きな尤度をガーベジ尤度とするこ
とを特徴とする音声認識装置。
【請求項５】請求項１または２において、ガーベジ設
定手段は、前記フレーム特徴量の基準モデル特徴量に対
する尤度の内、尤度の大きさが上位からＮ番目までの尤
度を平均化演算してガーベジ尤度を算出することを特徴
とする音声認識装置。
【請求項６】請求項１または２において、ガーベジ設
定手段は、前記フレーム特徴量の基準モデル特徴量に対
する尤度の内、尤度の大きさが上位からＫ番目の尤度を
ガーベジ尤度とすることを特徴とする音声認識装置。
【請求項７】入力音声信号を音響分析してフレーム特
徴量を抽出するステップと、単語の基準モデルの両端に
無音モデルを連結して単語モデルを作成するステップ
と、前記フレーム特徴量と基準モデルの特徴量とを比較
して当該単語モデルに対する当該フレーム特徴量の尤度
を演算するステップと、前記演算された尤度に基づいて
当該単語モデルの前記入力音声信号に対するマッチング
度合いを演算するステップと、このマッチング度合いに
応じて認識候補を設定するステップと、前記無音モデル
に対するガーベジ尤度を設定するステップとを有し、前記マッチング演算のステップは、無音モデルの尤度と
して、前記尤度演算ステップによって演算された無音モ
デルの尤度と、前記ガーベジ尤度設定ステップによって
設定されたガーベジ尤度の何れか一方を選択してマッチ
ング演算を行うことを特徴とする音声認識方法。
【請求項８】請求項７において、マッチング演算ステ
ップは、前記尤度演算ステップによって演算された無音
モデルの尤度と、前記ガーベジ尤度設定手段によって設
定されたガーベジ尤度を比較し、何れか大きい方の尤度
を選択することを特徴とする音声認識方法。
【請求項９】請求項７または８において、ガーベジ設
定ステップは、前記フレーム特徴量の基準モデル特徴量
に対する尤度を演算処理してガーベジ尤度を算出するこ
とを特徴とする音声認識方法。
【請求項１０】請求項７または８において、ガーベジ
設定ステップは、前記フレーム特徴量の基準モデル特徴
量に対する尤度の内、最も大きな尤度をガーベジ尤度と
することを特徴とする音声認識方法。
【請求項１１】請求項７または８において、ガーベジ
設定ステップは、前記フレーム特徴量の基準モデル特徴
量に対する尤度の内、尤度の大きさが上位からＮ番目ま
での尤度を平均化演算してガーベジ尤度を算出すること
を特徴とする音声認識方法。
【請求項１２】請求項７または８において、ガーベジ
設定ステップは、前記フレーム特徴量の基準モデル特徴
量に対する尤度の内、尤度の大きさが上位からＮ番目の
尤度をガーベジ尤度とすることを特徴とする音声認識方
法。