JPH075893A

JPH075893A - 音声認識装置

Info

Publication number: JPH075893A
Application number: JP14452393A
Authority: JP
Inventors: Ichiro Ujiie; 一朗氏家
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-06-16
Filing date: 1993-06-16
Publication date: 1995-01-10

Abstract

(57)【要約】【目的】音声の認識率を向上させる。【構成】不要語区間Ｔ₂乃至Ｔ₃のうち、区間Ｔ₅乃至
Ｔ₆において、スコアＳ₃を与える不要語「えーと」がス
ポッティングされた結果が得られた場合、パーサ２は、
不要語がスポッティングされなかった区間（残区間）Ｔ
₂乃至Ｔ₅，Ｔ₆乃至Ｔ₃に対し、不要語区間Ｔ₂乃至Ｔ₃に
おける不要語パターンのスポッティング処理により得ら
れたスコアのうち、最も低いスコアの不要語パターンの
スコアＳ₄を割り当てる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。

【０００２】

【従来の技術】従来の、いわゆるワードラティスを主体
とした連続音声認識装置においては、例えば入力された
音声をワードスポッティングし、その結果得られた単語
候補列を、あらかじめ用意された構文情報を用いて、文
単位で構文解析するようになされている。

【０００３】そして、その構文解析結果に基づいて、単
語候補列から、誤った単語候補を除き、正しい文（文
章）が得られるようになされている。

【０００４】

【発明が解決しようとする課題】ところで、話し言葉に
おいては、非文法的な文が使われる場合が多く（正しい
文法で発話される場合が少なく）、さらに不要語（例え
ば、文節間などで、間をとるために発声される「えー」
や「あのー」など）が頻繁に使われるため、構文解析が
困難になり、音声の認識率が劣化する課題があった。

【０００５】そこで、非文法的な文や不要語が挿入され
た文などをすべて構文情報に登録しておく方法がある。

【０００６】しかしながら、この方法では、構文情報が
莫大な量になるので、構文解析に時間がかかり、実現す
るのは困難であった。

【０００７】そこで、発話者の発話パターンを制限する
方法があるが、この場合、発話者の発話の自由度が小さ
くなり、発話者にわずらわしさを感じさせる課題があっ
た。

【０００８】本発明は、このような状況に鑑みてなされ
たものであり、発話の自由度を制限することなく、音声
の認識率を向上させるものである。

【０００９】

【課題を解決するための手段】請求項１に記載の音声認
識装置は、標準パターンを記憶している標準パターン記
憶手段としての標準パターン記憶部８と、不要語のパタ
ーンを記憶している不要語パターン記憶手段としての不
要語パターン記憶部９と、入力された音声から、標準パ
ターン記憶部８に記憶されている標準パターンまたは不
要語パターン記憶部９に記憶されている不要語のパター
ンをワードスポッティングし、その区間とスコアを出力
するワードスポッティング手段としての音声認識部１
と、音声の発話内容の仮説をたて、その意味表現を生成
する生成手段としての対話管理部３と、対話管理部３に
より生成された仮説の意味表現に基づいて、音声認識部
１のワードスポッティング結果を解析する解析手段とし
てのパーサ２とを備え、パーサ２が、音声の音声区間の
うち、標準パターンまたは不要語のパターンがワードス
ポッティングされなかった残区間に対し、不要語のパタ
ーンによるワードスポッティングの結果得られたスコア
を割り当て、音声認識部１のワードスポッティング結果
を解析することを特徴とする。

【００１０】請求項２に記載の音声認識装置は、パーサ
２が、残区間に対し、不要語のパターンによるワードス
ポッティングの結果得られたスコアのうちの最も低いス
コアを割り当て、音声認識部１のワードスポッティング
結果を解析することを特徴とする。

【００１１】請求項３に記載の音声認識装置は、パーサ
２が、音声認識部１によって、音声から不要語のパター
ンがワードスポッティングされた場合には、その区間の
前記音声のパターンに基づいて、不要語のパターンを更
新することを特徴とする。

【００１２】

【作用】請求項１に記載の音声認識装置においては、パ
ーサ２が、入力された音声の音声区間のうち、標準パタ
ーンまたは不要語パターンがワードスポッティングされ
なかった残区間に対し、不要語のパターンによるワード
スポッティングの結果得られたスコアを割り当て、音声
認識部１のワードスポッティング結果を解析する。従っ
て、入力された音声の音声区間全体にわたってスコアが
与えられるので、認識率を向上させることができる。

【００１３】請求項２に記載の音声認識装置において
は、パーサ２が、残区間に対し、不要語のパターンによ
るワードスポッティングの結果得られたスコアのうちの
最も低いスコアを割り当て、音声認識部１のワードスポ
ッティング結果を解析する。入力された音声の音声区間
のうちの残区間に対し、いわば根拠のあるスコアが与え
られるので、音声区間全体におけるスコアに基づく音声
認識結果を得ることができ、認識率を向上させることが
できる。

【００１４】請求項３に記載の音声認識装置において
は、パーサ２が、音声認識部１によって、音声から不要
語のパターンがワードスポッティングされた場合には、
その区間の前記音声のパターンに基づいて、不要語のパ
ターンを更新する。従って、不要語のパターンが、話者
の音声に基づいて動的に更新されるので、その話者に対
する音声の認識率を向上させることができる。

【００１５】

【実施例】図１は、本発明の音声認識装置を適用したＡ
Ｖシステム制御装置の一実施例の構成を示すブロック図
である。このＡＶシステム制御装置は、音声によってＡ
Ｖ機器システム７を操作することができるように構成さ
れている。

【００１６】即ち、音声認識部１は、標準パターン記憶
部８に記憶されている標準パターンまたは不要語パター
ン記憶部９に記憶されている不要語パターンを参照し、
入力された音声に対し、パーサ２から依頼された単語の
スポッティング処理（ワードスポッティング処理）を施
す。そして、パーサ２から依頼された単語のスポッティ
ング結果、即ち入力された音声中から、パーサ２より依
頼された単語をスポッティングすることができなかった
ときには、単語が存在しないという情報を出力し、入力
された音声中から、パーサ２より依頼された単語をスポ
ッティングすることができた場合には、その単語名、ス
コア、並びにスポッティングすることができた単語の、
音声中の発声区間の始点および終点（以下、検出区間と
記載する）を、パーサ２に出力する。

【００１７】ここで、スコアとは、スポッティングした
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。

【００１８】パーサ２は、対話管理部３から供給され
る、入力された音声の発話内容の仮説の意味表現に基づ
いて、音声認識部１のワードスポッティング結果を、例
えば文単位などの所定の発話単位で解析する。

【００１９】即ち、パーサ２は、対話管理部３より供給
される音声の発話内容の仮説の意味表現に基づき、所定
の単語（但し、標準パターン記憶部８に標準パターンが
記憶されている単語か、または不要語パターン記憶部９
に不要語パターンが記憶されている不要語）のスポッテ
ィング処理を、音声認識部１に依頼し、その結果音声認
識部１から返されるスポッティング結果を解析して、対
話管理部３からの仮説に対する信頼度を算出する。そし
て、その信頼度が最も高い仮説の意味表現を、音声認識
部１のワードスポッティング結果の解析結果、即ち入力
された音声の最終的な認識結果として、対話管理部３に
出力する。

【００２０】また、パーサ２は、音声認識部１によって
入力音声から不要語パターンがスポッティングされる
と、後述するようにして、不要語パターン記憶部９に記
憶されている不要語のパターンを更新する。

【００２１】対話管理部３は、ドメイン知識辞書４にあ
らかじめ記憶されている対話管理情報を参照し、対話の
流れを管理するとともに、パーサ２の出力（パーサ２よ
り出力される意味表現）に基づいて、ＡＶ機器システム
７を制御する。

【００２２】即ち、対話管理部３は、ドメイン知識辞書
４にあらかじめ記憶されている対話管理情報、またはパ
ーサ２より出力される意味表現に基づいて、音声認識部
１に入力される音声の発話内容の仮説をたて、その仮説
の意味表現を生成する。

【００２３】さらに、対話管理部３は、ドメイン知識辞
書４にあらかじめ記憶された対話管理情報を参照し、パ
ーサ２より出力される意味表現に対する返事、即ち音声
認識部１に入力された音声の発話内容に対する返事の意
味表現を生成して自然言語生成部５に出力する。

【００２４】また、対話管理部３は、パーサ２より出力
される意味表現に対応する動作をＡＶ機器システム７に
行わせるコマンド（制御命令）をＡＶ機器システム７に
出力する。

【００２５】ドメイン知識辞書４には、対話を管理する
ための対話管理情報（例えば、問いかけに対する返事の
パターンや、現在の発話に続く、次の発話のパターンな
ど）があらかじめ記憶されている。

【００２６】自然言語生成部５は、対話管理部３より出
力される意味表現に基づいて、テキストデータを生成
し、テキスト音声合成部６に出力する。テキスト音声合
成部６は、自然言語生成部５より出力されるテキストデ
ータに基づいて、合成音声を生成し、内蔵するスピーカ
（図示せず）から出力する。ＡＶ機器システム７は、少
なくとも１つのＡＶ機器（例えばスイッチャやテレビジ
ョン受像機、ＭＤＰ，ＶＴＲなど）から構成され、対話
管理部３より出力されるコマンドに対応して動作する。

【００２７】標準パターン記憶部８は、ＡＶ機器システ
ム７を操作するのに必要な単語（例えば「ＣＤ」や「Ｌ
Ｄ」、「再生」、「停止」など）の標準パターンを記憶
している。不要語パターン記憶部９は、例えば図２に示
すような、ユーザが発声する不要語（例えば、「えー
と」や「あのー」、「そのー」、「えー」など）のパタ
ーン（不要語パターン）が記述された不要語テーブルを
記憶している。

【００２８】以上のように構成されるＡＶシステム制御
装置においては、まず対話管理部３において、入力され
た音声（入力音声）の発話内容の仮説がたてられ、その
仮説の意味表現が、パーサ２に出力される。パーサ２に
おいて、対話管理部３からの意味表現に基づき、まず標
準パターン記憶部８に記憶されている標準パターンに対
応する単語から構成される、入力音声の認識結果候補と
しての単語列が生成される。そして、この認識結果候補
を構成する各単語のスポッティング処理が、音声認識部
１に依頼される。

【００２９】音声認識部１は、標準パターン記憶部８に
記憶されている標準パターンを参照し、入力された音声
に対し、パーサ２からスポッティング処理の依頼を受け
た単語のスポッティング処理を行い、その結果をパーサ
２に出力する。

【００３０】即ち、音声認識部１は、入力された音声の
パターン（入力パターン）の系列（区間）の中で、標準
パターン記憶部８に記憶されている、パーサ２からスポ
ッティング処理の依頼を受けた単語の標準パターンとの
スコアを、例えば最も高くする区間（検出区間）を検出
し、そのスコアが所定の閾値以上であると、検出区間お
よびスコアを、そのスコアを得た標準パターンの単語名
とともに、スポッティング結果としてパーサ２に出力す
る。

【００３１】これにより、例えば図３のワードラティス
に示すように、入力された音声の音声区間が、時間（区
間）Ｔ₁乃至Ｔ₄であり、このうち、区間Ｔ₁乃至Ｔ₂にお
いて、スコアＳ₁を与える単語「ＣＤ」がスポッティン
グされるとともに、区間Ｔ₃乃至Ｔ₄において、スコアＳ
₂を与える単語「再生」がスポッティングされた結果が
得られた場合、パーサ２は、標準パターン記憶部８に記
憶されている標準パターンがスポッティングされなかっ
た入力音声の音声区間（以下、不要語区間という）Ｔ₂
乃至Ｔ₃に対し、不要語パターン記憶部９に記憶されて
いる不要語パターンのスポッティング処理を行うよう
に、音声認識部１に依頼する。

【００３２】すると、音声認識部１は、入力音声の不要
語区間Ｔ₂乃至Ｔ₃から、不要語パターン記憶部９に記憶
されている不要語パターンをスポッティングし、その結
果をパーサ２に出力する。

【００３３】これにより、例えば図４のワードラティス
に示すように、不要語区間Ｔ₂乃至Ｔ₃のうち、区間Ｔ₅
乃至Ｔ₆において、スコアＳ₃を与える不要語「えーと」
がスポッティングされた結果が得られた場合、パーサ２
は、不要語のスポッティングを行うことができなかった
区間（以下、残区間という）Ｔ₂乃至Ｔ₅，Ｔ₆乃至Ｔ₃に
対し、不要語区間Ｔ₂乃至Ｔ₃における不要語パターンの
スポッティング処理において得られたスコアのうち、例
えば最も低いスコアの不要語パターンのスコアＳ₄を割
り当てる。

【００３４】ここで、音声区間Ｔ₁乃至Ｔ₂のうちの、標
準パターンおよび不要語パターンのいずれもスポッティ
ングされなかった残区間は、無音声区間であると考える
と、この残区間には、装置を使用している環境における
環境雑音が存在する。環境雑音は、動的に変動するの
で、残区間に対し、スコアづけを行わなかったり、また
所定の値のスコアづけを行うことは、入力音声に含まれ
る環境雑音を無視することに等しく、音声の認識率を劣
化させる原因となる。

【００３５】そこで、この装置では、上述のように、残
区間に対し、不要語区間における不要語パターンのスポ
ッティング処理において得られたスコアのうちの、最も
低いスコアの不要語パターンのスコアを割り当てるよう
になされている。不要語区間における不要語パターンの
スポッティング処理において得られるスコアは、環境雑
音を一つの要因として、動的に変動するので、このスコ
アを残区間に割り当てることにより、入力音声に含まれ
る環境雑音の影響を考慮したスコアづけが行われること
になり、音声の認識率を向上させることができる。

【００３６】以上のようにして、残区間に対してスコア
づけが行われることにより、入力された音声の音声区間
Ｔ₁乃至Ｔ₄全体にわたって、スコアがつけられる。

【００３７】なお、パーサ２は、音声認識部１によっ
て、標準パターン記憶部８に記憶されている標準パター
ンによるスポッティング処理が行われた後に残るすべて
の不要語区間に対し、上述したようにしてスコアをつけ
る。

【００３８】そして、パーサ２は、音声認識部１からの
認識結果（ワードスポッティング結果）の信頼度を、入
力音声の音声区間におけるスコアの時間積分値を計算す
ることにより求める。

【００３９】即ち、例えば図４に示すワードラティスが
得られた場合、パーサ２は、標準パターン記憶部８に記
憶されている標準パターンによるスポッティング処理に
よって得られた認識結果「ＣＤ、再生」の信頼度を、式（信頼度）＝Ｓ₁×（Ｔ₂−Ｔ₁）＋Ｓ₂（Ｔ₄−Ｔ₃）＋Ｓ
₃（Ｔ₆−Ｔ₅）＋Ｓ₄×（Ｔ₅−Ｔ₂）＋Ｓ₄×（Ｔ₃−
Ｔ₆）にしたがって算出する。

【００４０】なお、パーサ２では、標準パターン記憶部
８に記憶されている標準パターンに対応する単語から構
成される、入力音声の認識結果候補（単語列）が、複数
生成されるようになされており、各認識結果候補の信頼
度が、上述したようにして算出される。

【００４１】パーサ２は、以上のようにして、複数の認
識結果候補の信頼度を算出すると、その信頼度が最も高
い、または上位複数個の認識結果候補の意味表現を、音
声認識部１のワードスポッティング結果の解析結果、即
ち入力された音声の最終的な認識結果として、対話管理
部３に出力する。

【００４２】パーサ２から解析結果としての意味表現が
出力されると、対話管理部３において、ドメイン知識辞
書４に記憶されている対話管理情報が参照され、パーサ
２より出力された意味表現に対する返事、即ち音声認識
部１に入力された音声の発話内容に対する返事の意味表
現が生成され、自然言語生成部５に出力される。

【００４３】自然言語生成部５において、対話管理部３
より出力された意味表現に基づいて、テキストデータが
生成され、テキスト音声合成部６に出力される。テキス
ト音声合成部６において、自然言語生成部５より出力さ
れたテキストデータに基づいて、合成音声が生成され、
内蔵するスピーカから出力される。

【００４４】同時に、対話管理部３において、パーサ２
より出力された意味表現に対応する動作をＡＶ機器シス
テム７に行わせるコマンド（制御命令）がＡＶ機器シス
テム７に出力される。

【００４５】ＡＶ機器システム７においては、対話管理
部３より出力されたコマンドに対応する動作が行われ
る。

【００４６】即ち、パーサ２から対話管理部３に、例え
ば「ＣＤ、再生」という意味表現が出力された場合、Ａ
Ｖ機器システム７においては、ＣＤの再生が開始され、
テキスト音声合成部６からは、「ＣＤ、再生」に対する
返事としての、例えば「ＣＤの再生を開始しました」な
どの合成音が出力されることになる。

【００４７】なお、この後、対話管理部３においては、
ドメイン知識辞書４、およびパーサ２より出力された意
味表現（上述の場合においては、「ＣＤ、再生」）に基
づいて、次に発声される音声の発話内容の仮説がたてら
れる。

【００４８】即ち、この場合、対話管理部３では、「Ｃ
Ｄ、再生」の次にユーザから発声される音声の発話内容
の仮説が、例えば「ＣＤ停止」や「ＣＤ早送り」などの
ようにたてられる。

【００４９】なお、パーサ２では、音声認識部１によっ
て、入力音声から不要語パターンがワードスポッティン
グされた場合には、その区間の入力音声のパターンに基
づいて、不要語パターン記憶部９に記憶されている不要
語パターンの更新が行われる。

【００５０】即ち、不要語パターン記憶部９に記憶され
ている不要語パターンが、例えば図５に示すパターン空
間において○印で示すような位置にある場合において、
ある入力音声から、例えば３つの不要語パターンがワー
ドスポッティングされ、その３つの区間における入力音
声のパターン（以下、新不要語パターンという）それぞ
れが、図中●印で示すような位置にあった場合、パーサ
２は、まず、不要語パターンおよび新不要語パターンの
すべてのパターンどうしのパターン間距離を算出する。

【００５１】そして、パーサ２は、算出したパターン間
距離の最も短いパターンどうしを、１つのパターンに統
合する。即ち、例えば図５に示す場合においては、不要
語パターンＰ₁と新不要語パターンＰ₂とのパターン間距
離が最も短いので、パーサ２は、不要語パターンＰ₁お
よび新不要語パターンＰ₂のうちの、例えばいままで不
要語パターン記憶部９に記憶されていたパターンとして
の不要語パターンＰ₁を削除し、新不要語パターンＰ
₂を、不要語パターン記憶部９に登録することによっ
て、不要語パターンＰ₁および新不要語パターンＰ₂を統
合する。

【００５２】パーサ２は、上述の処理を、入力音声から
不要語パターンがワードスポッティングされた回数だけ
繰り返し、不要語パターン記憶部９に記憶されている不
要語パターンを更新する。これにより、不要語パターン
記憶部９に記憶されている不要語パターンの数を変える
ことなく、不要語パターン記憶部９に記憶されている不
要語パターンの更新が行われることになる。

【００５３】以上のように、不要語パターンが、ユーザ
の音声に基づいて動的に更新されるので、そのユーザに
対する音声の認識率を向上させることができる。

【００５４】なお、不要語パターン記憶部９に記憶され
ている不要語パターンどうしのパターン間距離は、あら
かじめ計算しておくようにすることができる。

【００５５】以上、本発明の音声認識装置を、ＡＶシス
テム制御装置に適用した場合について説明したが、本発
明は、ＡＶシステム制御装置の他、音声を認識するあら
ゆる装置に適用することができる。

【００５６】なお、本実施例では、音声認識部１におけ
るワードスポッティングの方法については言及しなかっ
たが、音声認識部１においては、例えば、例えばＤＰマ
ッチング法やＨＭＭ法、特開昭６０−２４９１９８、特
開昭６０−２４９１９９、または特開昭６０−２５２３
９６などに開示されている音声認識装置の音声認識アル
ゴリズムなど、あらゆる音声認識アルゴリズムに基づい
て、ワードスポッティング処理するようにすることがで
きる。

【００５７】また、本実施例では、上述のように、音声
区間におけるスコアの時間積分値を、認識結果候補のと
しての単語列の信頼度としたが、これに限らず、例えば
音声区間におけるスコアの時間積分値を音声区間で除算
した値を、信頼度とするようにすることができる。

【００５８】さらに、本実施例においては、残区間に対
し、不要語区間における不要語パターンのスポッティン
グ処理において得られたスコアのうちの、最も低いスコ
アの不要語パターンのスコアを割り当てるようにした
が、これに限られるものではない。

【００５９】即ち、残区間に対し、不要語区間における
不要語パターンのスポッティング処理において得られた
スコアのうちの、例えば最も高いスコアの不要語パター
ンのスコアを割り当てるようにすることができる。

【００６０】しかしながら、この場合、無音声区間と考
えられる残区間のスコアが高くなるので、そのスコア
が、音声区間の信頼度に、実際に発話がなされている区
間のスコアが与える影響と同程度か、あるいはより大き
な影響を与えるようになる。

【００６１】従って、これにより、音声区間を正しく評
価することができなくなるようになる場合があるので、
上述したように、残区間に対し、不要語区間における不
要語パターンのスポッティング処理において得られたス
コアのうちの、最も低いスコアの不要語パターンのスコ
アを割り当てるようにするのが好ましい。

【００６２】また、本実施例では、図４において、区間
Ｔ₁乃至Ｔ₄を音声区間としたが、区間０乃至Ｔ₄を音声
区間としても良い。この場合、区間０乃至Ｔ₁に対して
は、上述した区間Ｔ₂乃至Ｔ₃に対して行われた処理と同
様の処理が行われる。

【００６３】さらに、本実施例においては、音声区間の
終わりを、「再生」の発話が終了した時刻Ｔ₄とした
が、これに限られるものではなく、例えば時刻Ｔ₄を経
過した時刻を音声区間の終わりとすることができる。

【００６４】

【発明の効果】請求項１に記載の音声認識装置によれ
ば、解析手段が、入力された音声の音声区間のうち、標
準パターンまたは不要語のパターンがワードスポッティ
ングされなかった残区間に対し、不要語のパターンによ
るワードスポッティングの結果得られたスコアを割り当
て、ワードスポッティング手段のワードスポッティング
結果を解析する。従って、残区間に対し、いわば根拠の
あるスコアが与えられるので、音声区間全体におけるス
コアに基づく音声認識結果を得ることができ、認識率を
向上させることができる。

【００６５】請求項２に記載の音声認識装置によれば、
解析手段が、残区間に対し、不要語のパターンによるワ
ードスポッティングの結果得られたスコアのうちの最も
低いスコアを割り当て、ワードスポッティング手段のワ
ードスポッティング結果を解析する。従って、残区間に
対し、いわば根拠のあるスコアが与えられるので、音声
区間全体におけるスコアに基づく音声認識結果を得るこ
とができ、認識率を向上させることができる。

【００６６】請求項３に記載の音声認識装置によれば、
解析手段が、ワードスポッティング手段によって、音声
から不要語のパターンがワードスポッティングされた場
合には、その区間の前記音声のパターンに基づいて、不
要語のパターンを更新する。従って、不要語のパターン
が、話者の音声に基づいて動的に更新されるので、その
話者に対する音声の認識率を向上させることができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置を適用したＡＶシステム
制御装置の一実施例の構成を示すブロック図である。

【図２】図１の実施例における不要語パターン記憶部９
に記憶されている不要語テーブルを示す図である。

【図３】標準パターンによるワードスポッティング処理
により得られたワードラティスを示す図である。

【図４】音声区間全体にわたってスコアがつけられたワ
ードラティスを示す図である。

【図５】不要語パターン記憶部９に記憶されている不要
語パターンの更新の方法を説明する図である。

【符号の説明】

１音声認識部２パーサ３対話管理部４ドメイン知識辞書５自然言語生成部６テキスト音声合成部７ＡＶ機器システム８標準パターン記憶部９不要語パターン記憶部

Claims

【特許請求の範囲】

【請求項１】標準パターンを記憶している標準パター
ン記憶手段と、不要語のパターンを記憶している不要語パターン記憶手
段と、入力された音声から、前記標準パターン記憶手段に記憶
されている標準パターンまたは前記不要語パターン記憶
手段に記憶されている不要語のパターンをワードスポッ
ティングし、その区間とスコアを出力するワードスポッ
ティング手段と、前記音声の発話内容の仮説をたて、その意味表現を生成
する生成手段と、前記生成手段により生成された前記仮説の意味表現に基
づいて、前記ワードスポッティング手段のワードスポッ
ティング結果を解析する解析手段とを備え、前記解析手段は、前記音声の音声区間のうち、前記標準
パターンまたは不要語のパターンがワードスポッティン
グされなかった残区間に対し、前記不要語のパターンに
よるワードスポッティングの結果得られたスコアを割り
当て、前記ワードスポッティング手段のワードスポッテ
ィング結果を解析することを特徴とする音声認識装置。
【請求項２】前記解析手段は、前記残区間に対し、前
記不要語のパターンによるワードスポッティングの結果
得られたスコアのうちの最も低いスコアを割り当て、前
記ワードスポッティング手段のワードスポッティング結
果を解析することを特徴とする請求項１に記載の音声認
識装置。
【請求項３】前記解析手段は、前記ワードスポッティ
ング手段によって、前記音声から前記不要語のパターン
がワードスポッティングされた場合には、その区間の前
記音声のパターンに基づいて、前記不要語のパターンを
更新することを特徴とする請求項１または２に記載の音
声認識装置。