JPH07168592A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH07168592A
JPH07168592A JP34235893A JP34235893A JPH07168592A JP H07168592 A JPH07168592 A JP H07168592A JP 34235893 A JP34235893 A JP 34235893A JP 34235893 A JP34235893 A JP 34235893A JP H07168592 A JPH07168592 A JP H07168592A
Authority
JP
Japan
Prior art keywords
voice
section
recognition result
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34235893A
Other languages
English (en)
Inventor
Tetsuya Muroi
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP34235893A priority Critical patent/JPH07168592A/ja
Publication of JPH07168592A publication Critical patent/JPH07168592A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 リジェクトされた場合でも、その認識結果が
出力されないという事態を、処理速度に影響を与えず
に、防止することの可能な音声認識装置を提供する。 【構成】 リジェクト判定部5において認識結果がリジ
ェクトと判定されたときに、仮認識結果割当部6におい
て仮認識結果を認識結果として割り当てる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力音声を認識し、認
識結果を出力する音声認識装置に関する。
【0002】
【従来の技術】一般に、音声認識装置では、誤った音声
認識結果(エラー)が出されるのを防止するため、例え
ば、認識結果の第1位のスコアが低い(類似度が小さ
い、距離が大きいなど)場合、あるいは第1のスコアと
第2のスコアにあまり差が見られないなどの場合には、
認識結果が誤っている(誤認識している)可能性が高いと
判定して、強制的にリジェクトするようにしている。
【0003】
【発明が解決しようとする課題】しかしながら、音声認
識処理においては、リジェクト機能を設けることで次の
ような問題が生ずる。すなわち、例えば、5桁で1組の
コード番号が商品に付されており、このコード番号を読
上げることで商品の仕分けを行なう業務の場合、「13
279(イチ,サン,ニ,ナナ,キュウ)」という発声に
対して、「ニ」という言葉がリジェクトされるとき、発
声者が認識結果に注意していないと、3桁目には「ナ
ナ」という言葉が認識結果として出力されてしまうとい
う問題が生ずる。さらに、リジェクトに気付かずに以降
続けて発声する場合、これらの発声音声が全て無効にな
ってしまうという問題があった。より具体的には、商品
がA,B,Cと順に送られており、商品Aに対するコー
ド番号の一部の音声がリジェクトされたことに発声者が
気付かないと、商品B,Cに対する発声がすべて無効に
なってしまうという問題があった。
【0004】また、このような問題は、スポッティング
をベースとする音声認識装置においても生ずる。すなわ
ち、スポッティングをベースとする音声認識装置は、入
力された音声信号の中から認識対象となる言葉を“抜き
出して”認識し、音声区間の始端および終端を厳密に求
める必要がないという特徴をもっており、この音声認識
装置では、一般に音声区間中に何個のキーワード(認識
対象となる言葉)が含まれているかは不明であるので、
通常の音声認識装置のように最もスコアの高い言葉を1
個選ぶ方法ではなく、所定の閾値を定め、この閾値より
も高いスコア(大きい類似度、小さい距離など)をもつ候
補を認識結果として出力するようになっている。この場
合、発声がなされても、照合されたスコアが所定閾値以
下のときには、認識結果が出力されず、前述した非スポ
ッティング方式の音声認識装置において認識結果がリジ
ェクトされた場合と全く同じ状態となる。なお、以下で
は、スポッティング方式において認識されたスコアが閾
値以下のために認識結果として出力されないこともリジ
ェクトされたと呼ぶことにする。
【0005】本発明は、リジェクトされた場合でも、そ
の認識結果が出力されないという事態を、処理速度に影
響を与えずに、防止することの可能な音声認識装置を提
供することを目的としている。
【0006】
【課題を解決するための手段および作用】上記目的を達
成するために、請求項1記載の発明では、リジェクト判
定手段において認識結果がリジェクトと判定されたとき
に、仮認識結果を認識結果として割り当てるようになっ
ている。これにより、リジェクトされた場合でも、その
認識結果が出力されないという事態を、処理速度に影響
を与えずに、防止することができる。
【0007】また、請求項2,3の発明では、請求項1
記載の音声認識装置において、前記リジェクト判定手段
において認識結果がリジェクトと判定されたときに、仮
認識結果を認識結果として割り当てるとともに、該リジ
ェクトに対応した入力音声信号または特徴パラメータを
再生のため蓄積するようになっている。これにより、さ
らに、認識結果がリジェクトされたときに、その入力音
声信号を音声信号蓄積部11に記録し、これを後で再生
して聞くことができる。
【0008】また、請求項4記載の発明では、音声区間
内において、スポッティングされた言葉に対応する区間
以外の部分が連続して所定の長さ以上のものであると
き、該部分に仮認識結果を割り当てる。これにより、リ
ジェクトされた場合でも、その認識結果が出力されない
という事態を、処理速度に影響を与えずに、防止するこ
とができる。
【0009】また、請求項5,6記載の発明では、請求
項4記載の音声認識装置において、音声区間内におい
て、スポッティングされた言葉に対応する区間以外の部
分が連続して所定の長さ以上のものであるとき、該部分
に仮認識結果を割り当てるとともに、該部分に対応した
入力音声信号または特徴パラメータを再生のため蓄積す
るようになっている。さらに、認識結果がリジェクトさ
れたときに、その入力音声信号を音声信号蓄積部11に
記録し、これを後で再生して聞くことができる。
【0010】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る音声認識装置の第1の実施例
の構成図である。図1を参照すると、この音声認識装置
は、音声を入力するためのマイクや受話器などの音声入
力部1と、入力音声信号から特徴パラメータ(特徴ベク
トル)を抽出する特徴抽出部2と、標準パターンが予め
登録されている標準パターン格納部3と、特徴抽出部2
により抽出された入力音声信号の特徴パラメータ列(特
徴ベクトル列,すなわち特徴パターン)と標準パターン
格納部3に予め登録されている標準パターンとの照合を
行なって認識結果を得る照合部4と、照合部4からの認
識結果をリジェクトするか否かを判定するリジェクト判
定部5と、リジェクト判定部5においてリジェクトと判
定されたときに、これに対して予め登録されている仮認
識結果を認識結果として割り当てる仮認識結果割当部6
とを有している。
【0011】ここで、図1の例では、特徴抽出部2は、
入力音声信号を所定のパラメータ(サンプリング周波
数,ビット数)でA/D変換するA/D変換部7と、線
形予測分析を行なう線形予測分析部8と、ケプストラム
分析を行なうケプストラム分析部9とを有しており、例
えば、10m秒ごとに抽出したパワーと10次のLPC
(線形予測)ケプストラムとを特徴パラメータとして抽出
することができる。
【0012】次に、このような構成の第1の実施例の音
声認識装置の動作を図2のフローチャートを用いて説明
する。先ず、マイクや受話器などの音声入力部1から音
声が入力されると(ステップS1)、特徴抽出部2では、
入力音声信号から音声認識用の特徴パラメータを抽出す
る(ステップS2)。
【0013】次いで、照合部4では、入力音声信号の特
徴パラメータ列,すなわち特徴パターンと標準パターン
格納部3に予め登録されている標準パターンとの照合を
行なう(ステップS3)。ここで、照合の方式としては、
種々の方法が知られているが、例えば、DPマッチング
を用い、特徴パターンと標準パターンとの距離を計測し
て、この距離が最も小さくなる標準パターンを認識結果
として得ることができる。
【0014】次いで、リジェクト判定部5では、照合部
4で得られた認識結果をリジェクトするか否かを例えば
次のように判定する(ステップS4)。すなわち、照合部
4で距離が最も小さくなった標準パターンの番号をnと
し、この距離がDnである場合、予め定められた閾値T
HとDnとの比較を行ない、Dn<THであれば、照合
部4で得られた認識結果をリジェクトせず、標準パター
ンに対して予め登録されている記号Pnを認識結果とし
て出力する(ステップS6)。なお、ここで、認識結果の
記号とは、標準パターンの読みやあるいは標準パターン
のカテゴリーのことであり、例えば、“ナナ”という標
準パターンの番号がnであったとき、この番号nに対し
て、“なな”,“7”というような文字列あるいは数字
が、記号Pnとして予め登録されている。
【0015】一方、Dn>THであれば、リジェクト判
定部5は、照合部4で得られた認識結果が誤認識(発声
した言葉とは違う言葉に間違えるエラー)の可能性が高
いと判定して、これをリジェクトする。この場合、仮認
識結果割当部6では、リジェクトと判定された認識結果
に、予め登録されている仮認識結果を認識結果として割
当てる(ステップS5)。具体的には、仮認識結果として
は例えば“?”のような記号が予め登録されている場
合、このような記号を認識結果として割当て、これを認
識結果として出力する(ステップS6)。
【0016】なお、リジェクト判定部5において用いら
れる上記閾値THは、業務の性質や認識に用いる言葉の
種類に応じて経験的に定めれば良い。閾値THの具体的
な設定例としては、実際に音声認識装置を用いる環境
(周辺の雑音,用いるマイクの種類,マイクの取り付け
位置など)と同じ環境下で、認識に用いる言葉をそれぞ
れ3回程度発声してリジェクトなし(TH=∞)として認
識実験を行ない、誤認識(発声した言葉とは違う言葉に
間違えるエラー)が起きる最小の距離(限界距離)を求
め、この最小の距離を閾値THとして設定すれば良い。
【0017】具体例として、前述のように、5桁で1組
のコード番号が商品に付されており、このコード番号を
読上げることで商品の仕分けを行なう業務を考える。こ
の業務の場合、「13279(イチ,サン,ニ,ナナ,
キュウ)」という発声に対して、「ニ」という言葉がリ
ジェクトされるとき、この第1の実施例では、これに自
動的に仮認識結果“?”を割当て、認識結果を「13?
79」のように即座に出力することができる。これによ
り、3桁目に「ナナ」が認識結果として出力されてしま
う事態を防止することができる。
【0018】なお、従来においても、例えば、特開平5
−80794号に示されているように、リジェクトが発
生した際に、通常の認識処理を中断して、例外処理を開
始し、発声者がリジェクトに気付いて通常の認識処理を
再開するコマンドを発声するまで通常の認識処理を行な
わないようにする技術が知られており、この技術によれ
ば、同様に、3桁目に「ナナ」が認識結果として出力さ
れてしまうような事態を防止することができる。
【0019】しかしながら、上述した例のような業務
に、上記従来技術を適用する場合、リジェクトしたこと
にすぐ気付いたとしても、通常の認識を再開するコマン
ドを発声し、次に言い直しをしている間に、商品B,C
が次々と送られてきて、商品が滞留してしまうという欠
点があった。この欠点は、発声者がリジェクトに気付く
時間が遅れたり、あるいは通常の認識を再開するまでに
時間がかかったりすると一層顕著になる。
【0020】また、この滞留が起こることを予め想定
し、例えば商品を送るスピードを遅くしたり、あるいは
リジェクトが起こる度に送り速度を遅くしたり、あるい
は送りを停止するなどすると、全体の処理速度が著しく
遅くなるという欠点があった。
【0021】これに対し、上記第1の実施例の音声認識
装置では、リジェクトと判定されたときに、仮認識結果
割当部6によって仮認識結果“?”を自動的に即座に割
当て、これを出力することができるので、上記従来技術
における欠点を解決し、業務の処理速度に影響を与えず
に済む。
【0022】換言すれば、第1の実施例の音声認識装置
は、認識結果がリジェクトされた場合に仮認識結果を自
動的に割り当てることで、その入力に対する処理を終了
し、次の発声に対する認識の準備を行なうようになって
いるので、発声者は認識結果が正解であるのか、リジェ
クトされたかにかかわらず、一定のテンポで入力(発声)
を続けることができる。このため、例えばベルトコンベ
アで一定の速度で送られてくる商品の仕分けをするとい
うような業務,すなわち、認識結果がリジェクトされた
か否かに係わらず、一定の速度で認識のための発声を継
続しなければならないような業務においても、一定のテ
ンポで音声入力を続けることができ、しかも、発声者は
認識結果,すなわちリジェクトされたか否かを常時チェ
ックする必要がなく、これにより、信頼性,操作性の良
い高速な認識処理を実現することができる。
【0023】図3は本発明に係る音声認識装置の第2の
実施例の構成図である。図3を参照すると、この第2の
実施例の音声認識装置では、図1の音声認識装置におい
て、リジェクト判定部4でリジェクトと判定されたとき
に、その入力音声信号を再生のため蓄積し記録する音声
信号蓄積部11がさらに設けられている。
【0024】このような構成の第2の実施例の音声認識
装置では、リジェクト判定部4において、認識結果がリ
ジェクトされたときに、その入力音声信号を音声信号蓄
積部11に記録し、これを後で再生して聞くことができ
る。すなわち、仮認識結果“?”の部分を後で再生音声
により聞き直すことができる。なお、音声信号蓄積部1
1に記録される入力音声信号は認識用のものではなく、
上述のように、再生して人間が聞きその内容を理解する
ためのものであるので、音声信号蓄積部11に入力音声
信号を蓄積する際のA/D変換のパラメータ(サンプリ
ング周波数,ビット数)は、特徴抽出部2において入力
音声信号から特徴パラメータを抽出する際になされる認
識用のA/D変換のパラメータ(サンプリング周波数,
ビット数)と必ずしも一致させる必要はなく、例えば、
認識用が16kHz,16bitで、再生用が8kH
z,8bitとすることができる。
【0025】図4は図3の音声認識装置の変形例を示す
図である。図4の音声認識装置では、リジェクト判定部
5において認識結果がリジェクトと判定されたときに、
入力音声信号自体でなく、音声信号を再生するための可
能な特徴パラメータを再生用特徴パラメータ蓄積部12
に蓄積し記録するようになっている。
【0026】ここで、音声信号を再生するための特徴パ
ラメータとしては、種々の種類が音声合成などの分野で
知られている。図4の例では、認識用の特徴パラメータ
として、LPC(線形予測)ケプストラムを用いている
が、音声信号を再生するための特徴パラメータとして
は、この認識用のパラメータ(LPCケプストラム)を導
出する過程で得られる(線形予測の段階で抽出される)
アルファ係数と残差を用いることができる。このような
アルファ係数と残差が音声信号を再生するための特徴パ
ラメータとして再生用特徴パラメータ蓄積部12に記録
される場合、これらを例えば音声合成して音声として再
生することができる。すなわち、仮認識結果“?”の部
分を後で再生音声により聞き直すことができる。
【0027】このように、第2の実施例の音声認識装置
では、例えば、前述した、例のような5桁のコード番号
を商品に振るような業務で、リジェクトに対応した音声
を再生することにより、仮認識結果“?”のところに何
を入力すべきかを容易に知ることができる。すなわち、
話者が限定されている場合は、音声認識装置が認識でき
ない音声であっても、人間(特に発声者本人や同僚な
ど)が聞けば理解できるという場合が多く、再生音声を
聞き直すことによって、何を入力すべきかを容易に把握
することができる。これにより、音声認識によるコード
番号付けの業務終了後、あるいはこの業務の後工程で音
声認識できなかった少数の商品についてのみ、再生音声
を聞いて、キーボードなどによりコード番号を容易に付
けることができる。
【0028】なお、上述の第1,第2の実施例では、特
徴抽出部2がA/D変換部7,線形予測分析部8,ケプ
ストラム分析部9からなるものとして説明したが、特徴
抽出部2としては上記以外の構成をとることも可能であ
り、また、音声認識用の特徴パラメータとしては、パワ
ーとLPCケプストラム以外にも、各種のものを用いる
ことができる。
【0029】図5は本発明に係る音声認識装置の第3の
実施例の構成図である。図5を参照すると、この音声認
識装置は、音声を入力するためのマイクや受話器などの
音声入力部1と、音声入力部1からの入力信号に対し、
音声区間の存在範囲を検出する音声区間検出部22と、
標準パターンが予め登録されている標準パターン格納部
23と、音声区間検出部22で検出された音声区間内に
存在する入力音声信号に対して、標準パターン格納部2
3に予め登録されている標準パターンとの照合(スポッ
ティング)を行なうスポッティング部24と、音声区間
内において、スポッティングされた言葉に対応する区間
以外の部分の連続した長さが所定の閾値以上のものか否
かを判定する判定部25と、判定の結果、該部分の長さ
が所定の閾値以上のものであるとき、該区間に対して仮
認識結果を割り当てる仮認識結果割当部26とを有して
いる。
【0030】次に、このような構成の第3の実施例の音
声認識装置の動作について説明する。音声入力部1から
の入力信号に対し、音声区間検出部22では、音声区間
の存在範囲を検出する。なお、音声区間を検出する仕方
については、音声認識の分野において種々のものが知ら
れているが、ここでは始端,終端を厳密に求めなくても
良いので、音声区間の検出の仕方としては、簡単なもの
を用いることができる。例えば、音声区間検出部22と
しては、音声認識装置を使用する前に予め母音を発声し
(「あー」などと発声する)、このときのパワーの8割
程度の値を閾値Pthとし、この閾値Pth以上のパワーを
もつ区間を音声区間として検出するようなものを用いる
ことができる。図6には、「13279」と連続して数
字音声が発声された場合の音声入力部1からの入力信号
のパワーの時間的変化の一例が示されており、図6の入
力信号に対しては、音声区間は、入力信号のパワーが閾
値Pth以上の区間,すなわちISフレームからIEフレ
ームまでの範囲として検出される。
【0031】スポッティング部24では、このようにし
て検出された音声区間に対して標準パターン格納部23
に予め登録された標準パターンとの照合(スポッティン
グ)を行なう。なお、ここで、標準パターンは、認識対
象となる言葉をそのまま特徴パラメータに変換して登録
されたものであっても良いし、あるいは音素ごとに登録
されたものであっても良く、音素ごとに登録されたもの
である場合には、認識対象となる言葉を音素の系列とし
て照合することができる。また、音声区間の検出には誤
差を伴なうので、音声区間の前後に0.2秒程度を付加
し、これをスポッティングの対象となる区間としても良
い。
【0032】いま、図6のように、「13279」と連
続して発声された数字の音声区間から数字を認識対象と
してスポッティング部24でスポッティングを行なった
結果、「いち」,「さん」,「なな」,「きゅう」の認
識結果が得られたとする。
【0033】この場合、判定部25では、音声区間内に
おいて、スポッティングされた言葉に対応する区間以外
の部分の連続した長さ(例えば、連続したフレームの数)
を予め定められた閾値Lthと比較し、閾値Lthより長い
部分が存在するとき、この部分に対して、仮認識結果割
当部26で仮認識結果(例えば、"?”という記号)を割
り当てる。図6の例では、スポッティングされた言葉に
対応する区間以外の部分は、X,Y,Zであり、部分X
はLthよりも長く、部分Y,ZはそれぞれLthよりも短
いので、部分Xに対して仮認識結果"?”が割り当てら
れる。これにより、全体の認識結果を「13?79」と
して出力することができる。
【0034】なお、上記閾値Lthは、認識対象となる言
葉のうち最も短い言葉の長さから決めれば良い。例え
ば、認識対象が数字音声である場合は、「ニ」「ゴ」の
長さの平均の8割程度(15ms)とすれば良い。
【0035】このように、この第3の実施例の音声認識
装置によれば、音声が発声されても該当する言葉がスポ
ッティングされない場合に、仮認識結果"?”が割当て
られるので、認識結果の桁ずれ(例えば、上記例におい
て3桁目の数字が7になる誤り)が生ずるのを有効に防
止できる。従って、この場合、キーボードなどで認識結
果の訂正をする際に、3桁目の数字,すなわち仮認識結
果"?”だけを入力すれば良く、認識結果の訂正を容易
に行なうことができる。
【0036】図7は本発明に係る音声認識装置の第4の
実施例の構成図である。図7を参照すると、この第4の
実施例の音声認識装置では、図5の音声認識装置におい
て、音声区間内において、スポッティングされた言葉に
対応する区間以外の部分に所定の閾値以上の長さのもの
があると判定部25で判定されたときに、この部分に対
応した入力音声信号を再生のため蓄積し記録する音声信
号蓄積部31がさらに設けられている。
【0037】このような構成の第4の実施例の音声認識
装置では、音声区間内において、スポッティングされた
言葉に対応する区間以外の部分に所定の閾値以上の長さ
のものがあると判定部25で判定されたときに、この部
分に対応した入力音声信号を音声信号蓄積部31に記録
し、これを後で再生して聞くことができる。すなわち、
仮認識結果“?”の部分を後で再生音声により聞き直す
ことができる。
【0038】図8は図7の音声認識装置の変形例を示す
図である。図8の音声認識装置は、音声区間内におい
て、スポッティングされた言葉に対応する区間以外の部
分に所定の閾値以上の長さのものがあると判定部25で
判定されたときに、この部分の入力音声信号自体でな
く、この部分の音声信号を再生するための特徴パラメー
タを再生用特徴パラメータ蓄積部32に蓄積するように
なっている。この構成によっても、図7の音声認識装置
と同様に、仮認識結果“?”の部分を後で再生音声によ
り聞き直すことができる。
【0039】なお、図7,図8の音声認識装置におい
て、音声信号蓄積部31,再生用特徴パラメータ蓄積部
32に蓄積される音声信号あるいは再生用の特徴パラメ
ータとしては、認識できなかった部分(図6のXの部
分)だけでも良いし、あるいは、再生したときの聞きや
すさを重視して音声区間全体あるいは音声区間の前後に
0.2秒程度付加したものを蓄積するようにしても良
い。
【0040】
【発明の効果】以上に説明したように、請求項1記載の
発明によれば、リジェクト判定手段において認識結果が
リジェクトと判定されたときに、仮認識結果を認識結果
として割り当てるようになっているので、リジェクトさ
れた場合でも、その認識結果が出力されないという事態
を、処理速度に影響を与えずに、防止することができ
る。
【0041】また、請求項2,3の発明によれば、請求
項1記載の音声認識装置において、前記リジェクト判定
手段において認識結果がリジェクトと判定されたとき
に、仮認識結果を認識結果として割り当てるとともに、
該リジェクトに対応した入力音声信号または特徴パラメ
ータを再生のため蓄積するようになっているので、認識
結果がリジェクトされたときに、さらに、その音声信号
を後で再生して聞くことができる。
【0042】また、請求項4記載の発明によれば、音声
区間内において、スポッティングされた言葉に対応する
区間以外の部分が連続して所定の長さ以上のものである
とき、該部分に仮認識結果を割り当てるので、リジェク
トされた場合でも、その認識結果が出力されないという
事態を、処理速度に影響を与えずに、防止することがで
きる。
【0043】また、請求項5,6記載の発明によれば、
請求項4記載の音声認識装置において、音声区間内にお
いて、スポッティングされた言葉に対応する区間以外の
部分が連続して所定の長さ以上のものであるとき、該部
分に仮認識結果を割り当てるとともに、該部分に対応し
た入力音声信号または特徴パラメータを再生のため蓄積
するようになっているので、認識結果がリジェクトされ
たときに、さらに、その音声信号を後で再生して聞くこ
とができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の第1の実施例の構
成図である。
【図2】図1の音声認識装置の処理動作を示すフローチ
ャートである。
【図3】本発明に係る音声認識装置の第2の実施例の構
成図である。
【図4】図3の音声認識装置の変形例を示す図である。
【図5】本発明に係る音声認識装置の第3の実施例の構
成図である。
【図6】スポッティングによる音声認識処理を説明する
ための図である。
【図7】本発明に係る音声認識装置の第4の実施例の構
成図である。
【図8】図7の音声認識装置の変形例を示す図である。
【符号の説明】
1 音声入力部 2 特徴抽出部 3 標準パターン格納部 4 照合部 5 リジェクト判定部 6 仮認識結果割当部 11,31 音声信号蓄積部 12,32 再生用特徴パラメータ蓄積部 22 音声区間検出部 23 標準パターン格納部 24 スポッティング部 25 判定部 26 仮認識結果割当部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号から特徴パラメータを抽出
    する特徴抽出手段と、特徴抽出手段によって抽出された
    入力音声信号の特徴パラメータ列を予め登録されている
    標準パターンと照合して認識結果を得る照合手段と、照
    合手段からの認識結果をリジェクトするか否かを判定す
    るリジェクト判定手段とを有し、リジェクト判定手段に
    おいて認識結果がリジェクトと判定されたときに、仮認
    識結果を認識結果として割り当てるようになっているこ
    とを特徴とする音声認識装置。
  2. 【請求項2】 請求項1記載の音声認識装置において、
    前記リジェクト判定手段において認識結果がリジェクト
    と判定されたときに、仮認識結果を認識結果として割り
    当てるとともに、該リジェクトに対応した入力音声信号
    を再生のため蓄積するようになっていることを特徴とす
    る音声認識装置。
  3. 【請求項3】 請求項1記載の音声認識装置において、
    前記リジェクト判定手段において認識結果がリジェクト
    と判定されたときに、仮認識結果を認識結果として割り
    当てるとともに、該リジェクトに対応した音声信号を再
    生するための特徴パラメータを蓄積するようになってい
    ることを特徴とする音声認識装置。
  4. 【請求項4】 入力信号から音声区間の存在範囲を検出
    する音声区間検出手段と、音声区間内に存在する入力音
    声信号から認識対象となる言葉をスポッティングするス
    ポッティング手段とを有し、音声区間内において、スポ
    ッティングされた言葉に対応する区間以外の部分が連続
    して所定の長さ以上のものであるとき、該部分に仮認識
    結果を割り当てることを特徴とする音声認識装置。
  5. 【請求項5】 請求項4記載の音声認識装置において、
    音声区間内において、スポッティングされた言葉に対応
    する区間以外の部分が連続して所定の長さ以上のもので
    あるとき、該部分に仮認識結果を割り当てるとともに、
    該部分に対応した入力音声信号を再生のため蓄積するよ
    うになっていることを特徴とする音声認識装置。
  6. 【請求項6】 請求項4記載の音声認識装置において、
    音声区間内において、スポッティングされた言葉に対応
    する区間以外の部分が、連続して所定の長さ以上のもの
    であるとき、該部分に仮認識結果を割り当てるととも
    に、該部分に対応した音声信号を再生することの可能な
    特徴パラメータを蓄積するようになっていることを特徴
    とする音声認識装置。
JP34235893A 1993-12-14 1993-12-14 音声認識装置 Pending JPH07168592A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34235893A JPH07168592A (ja) 1993-12-14 1993-12-14 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34235893A JPH07168592A (ja) 1993-12-14 1993-12-14 音声認識装置

Publications (1)

Publication Number Publication Date
JPH07168592A true JPH07168592A (ja) 1995-07-04

Family

ID=18353111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34235893A Pending JPH07168592A (ja) 1993-12-14 1993-12-14 音声認識装置

Country Status (1)

Country Link
JP (1) JPH07168592A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312296A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312296A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Similar Documents

Publication Publication Date Title
EP1936606B1 (en) Multi-stage speech recognition
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US7624014B2 (en) Using partial information to improve dialog in automatic speech recognition systems
US6223155B1 (en) Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
US7496510B2 (en) Method and apparatus for the automatic separating and indexing of multi-speaker conversations
US20130054236A1 (en) Method for the detection of speech segments
US8731925B2 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
JP2007233412A (ja) ユーザが定義したフレーズの話者に依存しない認識方法及びシステム
US7865364B2 (en) Avoiding repeated misunderstandings in spoken dialog system
EP1525577B1 (en) Method for automatic speech recognition
JP2006215499A (ja) 音声処理装置
EP1159735B1 (en) Voice recognition rejection scheme
JPH10254475A (ja) 音声認識方法
EP1213706B1 (en) Method for online adaptation of pronunciation dictionaries
JP2996019B2 (ja) 音声認識装置
JPH05119792A (ja) 音声認識装置
US20060004573A1 (en) Microphone initialization enhancement for speech recognition
JPH07168592A (ja) 音声認識装置
JPH10173769A (ja) 音声メッセージ検索装置
JPH07230293A (ja) 音声認識装置
JPH06161488A (ja) 音声認識装置
EP1426924A1 (en) Speaker recognition for rejecting background speakers
JPH0997095A (ja) 音声認識装置
JPH05210397A (ja) 音声認識装置