JPH07168592A

JPH07168592A - 音声認識装置

Info

Publication number: JPH07168592A
Application number: JP34235893A
Authority: JP
Inventors: Tetsuya Muroi; 哲也室井
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-12-14
Filing date: 1993-12-14
Publication date: 1995-07-04

Abstract

(57)【要約】【目的】リジェクトされた場合でも、その認識結果が
出力されないという事態を、処理速度に影響を与えず
に、防止することの可能な音声認識装置を提供する。【構成】リジェクト判定部５において認識結果がリジ
ェクトと判定されたときに、仮認識結果割当部６におい
て仮認識結果を認識結果として割り当てる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、入力音声を認識し、認
識結果を出力する音声認識装置に関する。

【０００２】

【従来の技術】一般に、音声認識装置では、誤った音声
認識結果(エラー)が出されるのを防止するため、例え
ば、認識結果の第１位のスコアが低い(類似度が小さ
い、距離が大きいなど)場合、あるいは第１のスコアと
第２のスコアにあまり差が見られないなどの場合には、
認識結果が誤っている(誤認識している)可能性が高いと
判定して、強制的にリジェクトするようにしている。

【０００３】

【発明が解決しようとする課題】しかしながら、音声認
識処理においては、リジェクト機能を設けることで次の
ような問題が生ずる。すなわち、例えば、５桁で1組の
コード番号が商品に付されており、このコード番号を読
上げることで商品の仕分けを行なう業務の場合、「１３
２７９(イチ，サン，ニ，ナナ，キュウ)」という発声に
対して、「ニ」という言葉がリジェクトされるとき、発
声者が認識結果に注意していないと、３桁目には「ナ
ナ」という言葉が認識結果として出力されてしまうとい
う問題が生ずる。さらに、リジェクトに気付かずに以降
続けて発声する場合、これらの発声音声が全て無効にな
ってしまうという問題があった。より具体的には、商品
がＡ，Ｂ，Ｃと順に送られており、商品Ａに対するコー
ド番号の一部の音声がリジェクトされたことに発声者が
気付かないと、商品Ｂ，Ｃに対する発声がすべて無効に
なってしまうという問題があった。

【０００４】また、このような問題は、スポッティング
をベースとする音声認識装置においても生ずる。すなわ
ち、スポッティングをベースとする音声認識装置は、入
力された音声信号の中から認識対象となる言葉を“抜き
出して”認識し、音声区間の始端および終端を厳密に求
める必要がないという特徴をもっており、この音声認識
装置では、一般に音声区間中に何個のキーワード(認識
対象となる言葉)が含まれているかは不明であるので、
通常の音声認識装置のように最もスコアの高い言葉を１
個選ぶ方法ではなく、所定の閾値を定め、この閾値より
も高いスコア(大きい類似度、小さい距離など)をもつ候
補を認識結果として出力するようになっている。この場
合、発声がなされても、照合されたスコアが所定閾値以
下のときには、認識結果が出力されず、前述した非スポ
ッティング方式の音声認識装置において認識結果がリジ
ェクトされた場合と全く同じ状態となる。なお、以下で
は、スポッティング方式において認識されたスコアが閾
値以下のために認識結果として出力されないこともリジ
ェクトされたと呼ぶことにする。

【０００５】本発明は、リジェクトされた場合でも、そ
の認識結果が出力されないという事態を、処理速度に影
響を与えずに、防止することの可能な音声認識装置を提
供することを目的としている。

【０００６】

【課題を解決するための手段および作用】上記目的を達
成するために、請求項１記載の発明では、リジェクト判
定手段において認識結果がリジェクトと判定されたとき
に、仮認識結果を認識結果として割り当てるようになっ
ている。これにより、リジェクトされた場合でも、その
認識結果が出力されないという事態を、処理速度に影響
を与えずに、防止することができる。

【０００７】また、請求項２，３の発明では、請求項１
記載の音声認識装置において、前記リジェクト判定手段
において認識結果がリジェクトと判定されたときに、仮
認識結果を認識結果として割り当てるとともに、該リジ
ェクトに対応した入力音声信号または特徴パラメータを
再生のため蓄積するようになっている。これにより、さ
らに、認識結果がリジェクトされたときに、その入力音
声信号を音声信号蓄積部１１に記録し、これを後で再生
して聞くことができる。

【０００８】また、請求項４記載の発明では、音声区間
内において、スポッティングされた言葉に対応する区間
以外の部分が連続して所定の長さ以上のものであると
き、該部分に仮認識結果を割り当てる。これにより、リ
ジェクトされた場合でも、その認識結果が出力されない
という事態を、処理速度に影響を与えずに、防止するこ
とができる。

【０００９】また、請求項５，６記載の発明では、請求
項４記載の音声認識装置において、音声区間内におい
て、スポッティングされた言葉に対応する区間以外の部
分が連続して所定の長さ以上のものであるとき、該部分
に仮認識結果を割り当てるとともに、該部分に対応した
入力音声信号または特徴パラメータを再生のため蓄積す
るようになっている。さらに、認識結果がリジェクトさ
れたときに、その入力音声信号を音声信号蓄積部１１に
記録し、これを後で再生して聞くことができる。

【００１０】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図１は本発明に係る音声認識装置の第１の実施例
の構成図である。図１を参照すると、この音声認識装置
は、音声を入力するためのマイクや受話器などの音声入
力部１と、入力音声信号から特徴パラメータ(特徴ベク
トル)を抽出する特徴抽出部２と、標準パターンが予め
登録されている標準パターン格納部３と、特徴抽出部２
により抽出された入力音声信号の特徴パラメータ列(特
徴ベクトル列，すなわち特徴パターン)と標準パターン
格納部３に予め登録されている標準パターンとの照合を
行なって認識結果を得る照合部４と、照合部４からの認
識結果をリジェクトするか否かを判定するリジェクト判
定部５と、リジェクト判定部５においてリジェクトと判
定されたときに、これに対して予め登録されている仮認
識結果を認識結果として割り当てる仮認識結果割当部６
とを有している。

【００１１】ここで、図１の例では、特徴抽出部２は、
入力音声信号を所定のパラメータ(サンプリング周波
数，ビット数)でＡ／Ｄ変換するＡ／Ｄ変換部７と、線
形予測分析を行なう線形予測分析部８と、ケプストラム
分析を行なうケプストラム分析部９とを有しており、例
えば、１０ｍ秒ごとに抽出したパワーと１０次のＬＰＣ
(線形予測)ケプストラムとを特徴パラメータとして抽出
することができる。

【００１２】次に、このような構成の第１の実施例の音
声認識装置の動作を図２のフローチャートを用いて説明
する。先ず、マイクや受話器などの音声入力部１から音
声が入力されると(ステップＳ１)、特徴抽出部２では、
入力音声信号から音声認識用の特徴パラメータを抽出す
る(ステップＳ２)。

【００１３】次いで、照合部４では、入力音声信号の特
徴パラメータ列，すなわち特徴パターンと標準パターン
格納部３に予め登録されている標準パターンとの照合を
行なう(ステップＳ３)。ここで、照合の方式としては、
種々の方法が知られているが、例えば、ＤＰマッチング
を用い、特徴パターンと標準パターンとの距離を計測し
て、この距離が最も小さくなる標準パターンを認識結果
として得ることができる。

【００１４】次いで、リジェクト判定部５では、照合部
４で得られた認識結果をリジェクトするか否かを例えば
次のように判定する(ステップＳ４)。すなわち、照合部
４で距離が最も小さくなった標準パターンの番号をｎと
し、この距離がＤｎである場合、予め定められた閾値Ｔ
ＨとＤｎとの比較を行ない、Ｄｎ＜ＴＨであれば、照合
部４で得られた認識結果をリジェクトせず、標準パター
ンに対して予め登録されている記号Ｐｎを認識結果とし
て出力する(ステップＳ６)。なお、ここで、認識結果の
記号とは、標準パターンの読みやあるいは標準パターン
のカテゴリーのことであり、例えば、“ナナ”という標
準パターンの番号がｎであったとき、この番号ｎに対し
て、“なな”，“７”というような文字列あるいは数字
が、記号Ｐｎとして予め登録されている。

【００１５】一方、Ｄｎ＞ＴＨであれば、リジェクト判
定部５は、照合部４で得られた認識結果が誤認識(発声
した言葉とは違う言葉に間違えるエラー)の可能性が高
いと判定して、これをリジェクトする。この場合、仮認
識結果割当部６では、リジェクトと判定された認識結果
に、予め登録されている仮認識結果を認識結果として割
当てる(ステップＳ５)。具体的には、仮認識結果として
は例えば“？”のような記号が予め登録されている場
合、このような記号を認識結果として割当て、これを認
識結果として出力する(ステップＳ６)。

【００１６】なお、リジェクト判定部５において用いら
れる上記閾値ＴＨは、業務の性質や認識に用いる言葉の
種類に応じて経験的に定めれば良い。閾値ＴＨの具体的
な設定例としては、実際に音声認識装置を用いる環境
(周辺の雑音，用いるマイクの種類，マイクの取り付け
位置など)と同じ環境下で、認識に用いる言葉をそれぞ
れ３回程度発声してリジェクトなし(ＴＨ＝∞)として認
識実験を行ない、誤認識(発声した言葉とは違う言葉に
間違えるエラー)が起きる最小の距離(限界距離)を求
め、この最小の距離を閾値ＴＨとして設定すれば良い。

【００１７】具体例として、前述のように、５桁で１組
のコード番号が商品に付されており、このコード番号を
読上げることで商品の仕分けを行なう業務を考える。こ
の業務の場合、「１３２７９(イチ，サン，ニ，ナナ，
キュウ)」という発声に対して、「ニ」という言葉がリ
ジェクトされるとき、この第１の実施例では、これに自
動的に仮認識結果“？”を割当て、認識結果を「１３？
７９」のように即座に出力することができる。これによ
り、３桁目に「ナナ」が認識結果として出力されてしま
う事態を防止することができる。

【００１８】なお、従来においても、例えば、特開平５
−８０７９４号に示されているように、リジェクトが発
生した際に、通常の認識処理を中断して、例外処理を開
始し、発声者がリジェクトに気付いて通常の認識処理を
再開するコマンドを発声するまで通常の認識処理を行な
わないようにする技術が知られており、この技術によれ
ば、同様に、３桁目に「ナナ」が認識結果として出力さ
れてしまうような事態を防止することができる。

【００１９】しかしながら、上述した例のような業務
に、上記従来技術を適用する場合、リジェクトしたこと
にすぐ気付いたとしても、通常の認識を再開するコマン
ドを発声し、次に言い直しをしている間に、商品Ｂ，Ｃ
が次々と送られてきて、商品が滞留してしまうという欠
点があった。この欠点は、発声者がリジェクトに気付く
時間が遅れたり、あるいは通常の認識を再開するまでに
時間がかかったりすると一層顕著になる。

【００２０】また、この滞留が起こることを予め想定
し、例えば商品を送るスピードを遅くしたり、あるいは
リジェクトが起こる度に送り速度を遅くしたり、あるい
は送りを停止するなどすると、全体の処理速度が著しく
遅くなるという欠点があった。

【００２１】これに対し、上記第１の実施例の音声認識
装置では、リジェクトと判定されたときに、仮認識結果
割当部６によって仮認識結果“？”を自動的に即座に割
当て、これを出力することができるので、上記従来技術
における欠点を解決し、業務の処理速度に影響を与えず
に済む。

【００２２】換言すれば、第１の実施例の音声認識装置
は、認識結果がリジェクトされた場合に仮認識結果を自
動的に割り当てることで、その入力に対する処理を終了
し、次の発声に対する認識の準備を行なうようになって
いるので、発声者は認識結果が正解であるのか、リジェ
クトされたかにかかわらず、一定のテンポで入力(発声)
を続けることができる。このため、例えばベルトコンベ
アで一定の速度で送られてくる商品の仕分けをするとい
うような業務，すなわち、認識結果がリジェクトされた
か否かに係わらず、一定の速度で認識のための発声を継
続しなければならないような業務においても、一定のテ
ンポで音声入力を続けることができ、しかも、発声者は
認識結果，すなわちリジェクトされたか否かを常時チェ
ックする必要がなく、これにより、信頼性，操作性の良
い高速な認識処理を実現することができる。

【００２３】図３は本発明に係る音声認識装置の第２の
実施例の構成図である。図３を参照すると、この第２の
実施例の音声認識装置では、図１の音声認識装置におい
て、リジェクト判定部４でリジェクトと判定されたとき
に、その入力音声信号を再生のため蓄積し記録する音声
信号蓄積部１１がさらに設けられている。

【００２４】このような構成の第２の実施例の音声認識
装置では、リジェクト判定部４において、認識結果がリ
ジェクトされたときに、その入力音声信号を音声信号蓄
積部１１に記録し、これを後で再生して聞くことができ
る。すなわち、仮認識結果“？”の部分を後で再生音声
により聞き直すことができる。なお、音声信号蓄積部１
１に記録される入力音声信号は認識用のものではなく、
上述のように、再生して人間が聞きその内容を理解する
ためのものであるので、音声信号蓄積部１１に入力音声
信号を蓄積する際のＡ／Ｄ変換のパラメータ（サンプリ
ング周波数，ビット数）は、特徴抽出部２において入力
音声信号から特徴パラメータを抽出する際になされる認
識用のＡ／Ｄ変換のパラメータ(サンプリング周波数，
ビット数)と必ずしも一致させる必要はなく、例えば、
認識用が１６ｋＨｚ，１６ｂｉｔで、再生用が８ｋＨ
ｚ，８ｂｉｔとすることができる。

【００２５】図４は図３の音声認識装置の変形例を示す
図である。図４の音声認識装置では、リジェクト判定部
５において認識結果がリジェクトと判定されたときに、
入力音声信号自体でなく、音声信号を再生するための可
能な特徴パラメータを再生用特徴パラメータ蓄積部１２
に蓄積し記録するようになっている。

【００２６】ここで、音声信号を再生するための特徴パ
ラメータとしては、種々の種類が音声合成などの分野で
知られている。図４の例では、認識用の特徴パラメータ
として、ＬＰＣ（線形予測）ケプストラムを用いている
が、音声信号を再生するための特徴パラメータとして
は、この認識用のパラメータ(ＬＰＣケプストラム)を導
出する過程で得られる（線形予測の段階で抽出される）
アルファ係数と残差を用いることができる。このような
アルファ係数と残差が音声信号を再生するための特徴パ
ラメータとして再生用特徴パラメータ蓄積部１２に記録
される場合、これらを例えば音声合成して音声として再
生することができる。すなわち、仮認識結果“？”の部
分を後で再生音声により聞き直すことができる。

【００２７】このように、第２の実施例の音声認識装置
では、例えば、前述した、例のような５桁のコード番号
を商品に振るような業務で、リジェクトに対応した音声
を再生することにより、仮認識結果“？”のところに何
を入力すべきかを容易に知ることができる。すなわち、
話者が限定されている場合は、音声認識装置が認識でき
ない音声であっても、人間（特に発声者本人や同僚な
ど）が聞けば理解できるという場合が多く、再生音声を
聞き直すことによって、何を入力すべきかを容易に把握
することができる。これにより、音声認識によるコード
番号付けの業務終了後、あるいはこの業務の後工程で音
声認識できなかった少数の商品についてのみ、再生音声
を聞いて、キーボードなどによりコード番号を容易に付
けることができる。

【００２８】なお、上述の第１，第２の実施例では、特
徴抽出部２がＡ／Ｄ変換部７，線形予測分析部８，ケプ
ストラム分析部９からなるものとして説明したが、特徴
抽出部２としては上記以外の構成をとることも可能であ
り、また、音声認識用の特徴パラメータとしては、パワ
ーとＬＰＣケプストラム以外にも、各種のものを用いる
ことができる。

【００２９】図５は本発明に係る音声認識装置の第３の
実施例の構成図である。図５を参照すると、この音声認
識装置は、音声を入力するためのマイクや受話器などの
音声入力部１と、音声入力部１からの入力信号に対し、
音声区間の存在範囲を検出する音声区間検出部２２と、
標準パターンが予め登録されている標準パターン格納部
２３と、音声区間検出部２２で検出された音声区間内に
存在する入力音声信号に対して、標準パターン格納部２
３に予め登録されている標準パターンとの照合(スポッ
ティング)を行なうスポッティング部２４と、音声区間
内において、スポッティングされた言葉に対応する区間
以外の部分の連続した長さが所定の閾値以上のものか否
かを判定する判定部２５と、判定の結果、該部分の長さ
が所定の閾値以上のものであるとき、該区間に対して仮
認識結果を割り当てる仮認識結果割当部２６とを有して
いる。

【００３０】次に、このような構成の第３の実施例の音
声認識装置の動作について説明する。音声入力部１から
の入力信号に対し、音声区間検出部２２では、音声区間
の存在範囲を検出する。なお、音声区間を検出する仕方
については、音声認識の分野において種々のものが知ら
れているが、ここでは始端，終端を厳密に求めなくても
良いので、音声区間の検出の仕方としては、簡単なもの
を用いることができる。例えば、音声区間検出部２２と
しては、音声認識装置を使用する前に予め母音を発声し
（「あー」などと発声する）、このときのパワーの８割
程度の値を閾値Ｐ_thとし、この閾値Ｐ_th以上のパワーを
もつ区間を音声区間として検出するようなものを用いる
ことができる。図６には、「１３２７９」と連続して数
字音声が発声された場合の音声入力部１からの入力信号
のパワーの時間的変化の一例が示されており、図６の入
力信号に対しては、音声区間は、入力信号のパワーが閾
値Ｐ_th以上の区間，すなわちＩＳフレームからＩＥフレ
ームまでの範囲として検出される。

【００３１】スポッティング部２４では、このようにし
て検出された音声区間に対して標準パターン格納部２３
に予め登録された標準パターンとの照合（スポッティン
グ）を行なう。なお、ここで、標準パターンは、認識対
象となる言葉をそのまま特徴パラメータに変換して登録
されたものであっても良いし、あるいは音素ごとに登録
されたものであっても良く、音素ごとに登録されたもの
である場合には、認識対象となる言葉を音素の系列とし
て照合することができる。また、音声区間の検出には誤
差を伴なうので、音声区間の前後に０．２秒程度を付加
し、これをスポッティングの対象となる区間としても良
い。

【００３２】いま、図６のように、「１３２７９」と連
続して発声された数字の音声区間から数字を認識対象と
してスポッティング部２４でスポッティングを行なった
結果、「いち」，「さん」，「なな」，「きゅう」の認
識結果が得られたとする。

【００３３】この場合、判定部２５では、音声区間内に
おいて、スポッティングされた言葉に対応する区間以外
の部分の連続した長さ(例えば、連続したフレームの数)
を予め定められた閾値Ｌ_thと比較し、閾値Ｌ_thより長い
部分が存在するとき、この部分に対して、仮認識結果割
当部２６で仮認識結果(例えば、"？”という記号）を割
り当てる。図６の例では、スポッティングされた言葉に
対応する区間以外の部分は、Ｘ，Ｙ，Ｚであり、部分Ｘ
はＬ_thよりも長く、部分Ｙ，ＺはそれぞれＬ_thよりも短
いので、部分Ｘに対して仮認識結果"？”が割り当てら
れる。これにより、全体の認識結果を「１３？７９」と
して出力することができる。

【００３４】なお、上記閾値Ｌ_thは、認識対象となる言
葉のうち最も短い言葉の長さから決めれば良い。例え
ば、認識対象が数字音声である場合は、「ニ」「ゴ」の
長さの平均の８割程度（１５ｍｓ）とすれば良い。

【００３５】このように、この第３の実施例の音声認識
装置によれば、音声が発声されても該当する言葉がスポ
ッティングされない場合に、仮認識結果"？”が割当て
られるので、認識結果の桁ずれ（例えば、上記例におい
て３桁目の数字が７になる誤り）が生ずるのを有効に防
止できる。従って、この場合、キーボードなどで認識結
果の訂正をする際に、３桁目の数字，すなわち仮認識結
果"？”だけを入力すれば良く、認識結果の訂正を容易
に行なうことができる。

【００３６】図７は本発明に係る音声認識装置の第４の
実施例の構成図である。図７を参照すると、この第４の
実施例の音声認識装置では、図５の音声認識装置におい
て、音声区間内において、スポッティングされた言葉に
対応する区間以外の部分に所定の閾値以上の長さのもの
があると判定部２５で判定されたときに、この部分に対
応した入力音声信号を再生のため蓄積し記録する音声信
号蓄積部３１がさらに設けられている。

【００３７】このような構成の第４の実施例の音声認識
装置では、音声区間内において、スポッティングされた
言葉に対応する区間以外の部分に所定の閾値以上の長さ
のものがあると判定部２５で判定されたときに、この部
分に対応した入力音声信号を音声信号蓄積部３１に記録
し、これを後で再生して聞くことができる。すなわち、
仮認識結果“？”の部分を後で再生音声により聞き直す
ことができる。

【００３８】図８は図７の音声認識装置の変形例を示す
図である。図８の音声認識装置は、音声区間内におい
て、スポッティングされた言葉に対応する区間以外の部
分に所定の閾値以上の長さのものがあると判定部２５で
判定されたときに、この部分の入力音声信号自体でな
く、この部分の音声信号を再生するための特徴パラメー
タを再生用特徴パラメータ蓄積部３２に蓄積するように
なっている。この構成によっても、図７の音声認識装置
と同様に、仮認識結果“？”の部分を後で再生音声によ
り聞き直すことができる。

【００３９】なお、図７，図８の音声認識装置におい
て、音声信号蓄積部３１，再生用特徴パラメータ蓄積部
３２に蓄積される音声信号あるいは再生用の特徴パラメ
ータとしては、認識できなかった部分（図６のＸの部
分）だけでも良いし、あるいは、再生したときの聞きや
すさを重視して音声区間全体あるいは音声区間の前後に
０．２秒程度付加したものを蓄積するようにしても良
い。

【００４０】

【発明の効果】以上に説明したように、請求項１記載の
発明によれば、リジェクト判定手段において認識結果が
リジェクトと判定されたときに、仮認識結果を認識結果
として割り当てるようになっているので、リジェクトさ
れた場合でも、その認識結果が出力されないという事態
を、処理速度に影響を与えずに、防止することができ
る。

【００４１】また、請求項２，３の発明によれば、請求
項１記載の音声認識装置において、前記リジェクト判定
手段において認識結果がリジェクトと判定されたとき
に、仮認識結果を認識結果として割り当てるとともに、
該リジェクトに対応した入力音声信号または特徴パラメ
ータを再生のため蓄積するようになっているので、認識
結果がリジェクトされたときに、さらに、その音声信号
を後で再生して聞くことができる。

【００４２】また、請求項４記載の発明によれば、音声
区間内において、スポッティングされた言葉に対応する
区間以外の部分が連続して所定の長さ以上のものである
とき、該部分に仮認識結果を割り当てるので、リジェク
トされた場合でも、その認識結果が出力されないという
事態を、処理速度に影響を与えずに、防止することがで
きる。

【００４３】また、請求項５，６記載の発明によれば、
請求項４記載の音声認識装置において、音声区間内にお
いて、スポッティングされた言葉に対応する区間以外の
部分が連続して所定の長さ以上のものであるとき、該部
分に仮認識結果を割り当てるとともに、該部分に対応し
た入力音声信号または特徴パラメータを再生のため蓄積
するようになっているので、認識結果がリジェクトされ
たときに、さらに、その音声信号を後で再生して聞くこ
とができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の第１の実施例の構
成図である。

【図２】図１の音声認識装置の処理動作を示すフローチ
ャートである。

【図３】本発明に係る音声認識装置の第２の実施例の構
成図である。

【図４】図３の音声認識装置の変形例を示す図である。

【図５】本発明に係る音声認識装置の第３の実施例の構
成図である。

【図６】スポッティングによる音声認識処理を説明する
ための図である。

【図７】本発明に係る音声認識装置の第４の実施例の構
成図である。

【図８】図７の音声認識装置の変形例を示す図である。

【符号の説明】

１音声入力部２特徴抽出部３標準パターン格納部４照合部５リジェクト判定部６仮認識結果割当部１１，３１音声信号蓄積部１２，３２再生用特徴パラメータ蓄積部２２音声区間検出部２３標準パターン格納部２４スポッティング部２５判定部２６仮認識結果割当部

Claims

【特許請求の範囲】

【請求項１】入力音声信号から特徴パラメータを抽出
する特徴抽出手段と、特徴抽出手段によって抽出された
入力音声信号の特徴パラメータ列を予め登録されている
標準パターンと照合して認識結果を得る照合手段と、照
合手段からの認識結果をリジェクトするか否かを判定す
るリジェクト判定手段とを有し、リジェクト判定手段に
おいて認識結果がリジェクトと判定されたときに、仮認
識結果を認識結果として割り当てるようになっているこ
とを特徴とする音声認識装置。
【請求項２】請求項１記載の音声認識装置において、
前記リジェクト判定手段において認識結果がリジェクト
と判定されたときに、仮認識結果を認識結果として割り
当てるとともに、該リジェクトに対応した入力音声信号
を再生のため蓄積するようになっていることを特徴とす
る音声認識装置。
【請求項３】請求項１記載の音声認識装置において、
前記リジェクト判定手段において認識結果がリジェクト
と判定されたときに、仮認識結果を認識結果として割り
当てるとともに、該リジェクトに対応した音声信号を再
生するための特徴パラメータを蓄積するようになってい
ることを特徴とする音声認識装置。
【請求項４】入力信号から音声区間の存在範囲を検出
する音声区間検出手段と、音声区間内に存在する入力音
声信号から認識対象となる言葉をスポッティングするス
ポッティング手段とを有し、音声区間内において、スポ
ッティングされた言葉に対応する区間以外の部分が連続
して所定の長さ以上のものであるとき、該部分に仮認識
結果を割り当てることを特徴とする音声認識装置。
【請求項５】請求項４記載の音声認識装置において、
音声区間内において、スポッティングされた言葉に対応
する区間以外の部分が連続して所定の長さ以上のもので
あるとき、該部分に仮認識結果を割り当てるとともに、
該部分に対応した入力音声信号を再生のため蓄積するよ
うになっていることを特徴とする音声認識装置。
【請求項６】請求項４記載の音声認識装置において、
音声区間内において、スポッティングされた言葉に対応
する区間以外の部分が、連続して所定の長さ以上のもの
であるとき、該部分に仮認識結果を割り当てるととも
に、該部分に対応した音声信号を再生することの可能な
特徴パラメータを蓄積するようになっていることを特徴
とする音声認識装置。