JPH09127981A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JPH09127981A
JPH09127981A JP7283295A JP28329595A JPH09127981A JP H09127981 A JPH09127981 A JP H09127981A JP 7283295 A JP7283295 A JP 7283295A JP 28329595 A JP28329595 A JP 28329595A JP H09127981 A JPH09127981 A JP H09127981A
Authority
JP
Japan
Prior art keywords
recognition
target
voice
response time
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7283295A
Other languages
English (en)
Inventor
Yasuyuki Masai
康之 正井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7283295A priority Critical patent/JPH09127981A/ja
Publication of JPH09127981A publication Critical patent/JPH09127981A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】利用者自身が認識応答時間あるいは認識性能を
任意に設定でき、しかも利用者の設定した認識応答時間
あるいは認識性能が実現できるようにする。 【解決手段】入力音声を音響分析して求めた特徴パラメ
ータ系列と音声モデル記憶部13に記憶されているN個
の認識語彙の各音声モデルとをモデル照合部12にて照
合することで入力音声を認識する音声認識装置に、目標
応答時間Tを入力するための目標応答時間入力部14
と、入力目標応答時間Tと認識語彙数Nをもとに閾値D
(t)を決定してモデル照合部12に与える探索空間制
御部15とを設け、モデル照合部12では、入力音声の
特徴パラメータ系列と照合の対象となる認識語彙の音声
モデルとの距離を時刻tの関数dk(t)とすると、こ
の距離dk(t)が閾値D(t)よりも大きくなった場
合に、当該音声モデルをその時刻t以降の照合対象から
除外することで認識応答時間を制御する構成とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、許容範囲内の認識
応答時間または認識性能で、最小限の応答時間または最
大限の認識性能を実現するのに好適な音声認識装置及び
方法に関する。
【0002】
【従来の技術】従来、音声認識装置は、入力音声を音響
分析して求めた特徴パラメータ系列とあらかじめ作成し
ておいた音声モデルとを認識対象語彙数分照合して、入
力音声を認識するのが一般的であった。
【0003】この種の音声認識装置における認識応答時
間や認識性能(例えば認識率)は、装置の処理性能及び
認識対象語彙数等に依存しており、外部から制御するこ
とができなかった。
【0004】このため、認識対象語彙数に関係なくー定
時間での応答を実現するシステムや、応答時間を犠牲に
しても高精度な認識を実現するシステムの構築が困難で
あった。
【0005】
【発明が解決しようとする課題】上記したように従来の
音声認識装置では、認識応答時間や認識性能を外部から
制御することができなかったため、認識対象語彙数に関
係なくー定時間での応答を実現するシステムや、応答時
間を犠牲にしても高精度な認識を実現するシステムの構
築が困難であった。特に、パーソナルコンコピュータ上
などで、ソフトウェアによって音声認識装置を実現した
場合には、ハードウェアの性能や、同時に実行される他
のソフトウェアとの関係によって、認識応答速度にばら
つきが生じる問題があった。
【0006】本発明は上記事情を考慮してなされたもの
でその目的は、利用者自身が目標とする認識応答時間
(目標応答時間)あるいは認識性能(目標認識性能)を
任意に設定することができ、しかも利用者の設定した認
識応答時間あるいは認識性能が実現でき、もって使い勝
手のよい利用者希望のシステムを構築できる音声認識装
置を提供することにある。
【0007】
【課題を解決するための手段】本発明の第1の観点に係
る音声認識装置は、入力音声を音響分析して求めた特徴
パラメータ系列とあらかじめ作成しておいた各認識対象
語彙の音声モデルとを照合して、入力音声を認識する音
声認識装置において、当該音声認識装置での認識応答時
間の目標応答時間または認識性能の目標認識性能を外部
から入力するための入力手段と、上記認識応答時間また
は認識性能が上記入力手段により入力された目標応答時
間または目標認識性能に近づくように上記照合時に当該
目標応答時間または目標認識性能に応じて探索空間の制
約の度合いを制御する探索空間制御手段とを備えたこと
を特徴とする。
【0008】ここで、探索空間の制約の度合いを制御す
るには、例えば上記音声モデルとの照合手法としてDP
(動的計画)法を使用する場合であれば、目標応答時間
が短い(長い)ほど値が小さく(大きく)なり、時刻t
が経過するほど値が大きくなる閾値D(t)を導入し、
入力音声の特徴パラメータ系列と音声モデルとの距離を
時刻tの関数dk(t)とすると、この距離dk(t)
が上記閾値D(t)よりも大きくなった場合には、当該
音声モデルをその時刻t以降の照合対象から除外するよ
うな制御方法を適用するとよい。また、認識対象語彙数
が固定でない場合には、上記の目標応答時間、時刻tの
他に、認識対象語彙数を考慮して、当該認識対象語彙数
が多く(少なく)、且つ目標応答時間が短い(長い)ほ
ど値が小さく(大きく)なり、時刻tが経過するほど値
が大きくなる閾値D(t)を導入するとよい。
【0009】また、音声モデルとの照合で類似度sk
(t)を求めるものである場合には、目標応答時間が短
く(長く)、且つ認識対象語彙数が多い(少ない)ほど
値が大きく(小さく)なり、時刻tが経過するほど値が
小さくなる閾値S(t)を導入し、類似度sk(t)が
閾値S(t)よりも小さくなった場合に、その際の音声
モデルをその時刻t以降の照合対象から除外するような
制御方法を適用するとよい。
【0010】本発明の第2の観点に係る音声認識装置
は、2つ以上のアプリケーシヨンプログラムで使用可能
な音声認識装置であって、上記第1の観点に係る音声認
識装置の構成に、上記入力手段により入力される目標応
答時間または目標認識性能を各アプリケーシヨンプログ
ラムごとに受け付けて設定する入力インタフェース手段
をさらに備えたもので、各アプリケーションプログラム
ごとに設定された目標応答時間または目標認識性能に応
じて、上記探索空間制御手段が対応するアプリケーショ
ンプログラムごとに探索空間の制約の度合いを制御する
ことを特徴とする。
【0011】本発明の第3の観点に係る音声認識装置
は、上記第1の観点に係る音声認識装置の構成に、上記
入力手段により入力された目標応答時間内で認識処理を
終了することが可能であるか否か、または入力された目
標認識性能での認識結果出力が可能であるか否かを予測
する予測手段と、この予測手段により目標応答時間内で
認識処理を終了することが不可能であること、または目
標認識性能での認識結果出力が不可能であることが予測
された場合に、その旨を示すメッセージを出力するメッ
セージ出力手段とをさらに備えたことを特徴とする。
【0012】本発明の第4の観点に係る音声認識装置
は、目標応答時間に応じて探索空間の制約の度合いが制
御される上記第1の観点に係る音声認識装置の構成に、
過去の音声認識時の認識応答時間を管理・記憶しておく
ための応答時間記憶手段をさらに備えたもので、上記探
索空間制御手段において、上記入力手段により入力され
た目標応答時間と上記応答時間記憶手段に記憶されてい
る過去の認識応答時間とを比較し、その比較結果をもと
に実際の認識応答時間が目標応答時間に近づくように探
索空間の制約の度合いを制御することを特徴とする。
【0013】本発明の第5の観点に係る音声認識装置
は、入力音声を音響分析して求めた特徴パラメータ系列
とあらかじめ作成しておいた各認識対象語彙の音声モデ
ルとを照合して、入力音声を認識する音声認識装置にお
いて、各認識対象語彙の音声モデルを複数の組にランク
分けして管理・記憶しておくための音声モデル記憶手段
と、この音声モデル記憶手段に記憶されている各認識対
象語彙の音声モデルと上記特徴パラメータ系列との照合
処理をランク別に段階的に行うモデル照合手段であっ
て、1つのランクの各認識対象語彙の音声モデルを対象
とする照合処理に伴う認識結果の出力終了の都度、認識
対象語彙を拡張し、次のランクの各認識対象語彙の音声
モデルを対象とする照合処理を行うモデル照合手段とを
備えたことを特徴とする。
【0014】上記第1の観点に係る音声認識装置によれ
ば、目標応答時間が入力設定される構成の場合には、そ
の目標応答時間に応じて探索空間の制約の度合い(探索
空間の範囲)が制御されるため、応答時間に余裕がある
場合には、探索空間を絞り込まないモデルの照合が可能
となり、高精度な音声認識システムを実現することがで
きる。また、速い応答が要求される場合には、探索空間
を絞り込むことによって応答速度を速くして、使い勝手
のよい音声認識システムを実現することができる。一
方、目標認識性能が入力設定される構成の場合には、そ
の目標認識性能に応じて探索空間の制約の度合いが制御
されるため、必要以上の計算を行わないようにすること
ができ、例えばパーソナルコンピユータのソフトウェア
のみで音声認識を実現した場合に、音声認識処理とそれ
以外の処理に割くプロセッサの計算能力の割合を制御す
ることが可能となる。これにより、音声認識処理の負荷
が大きすぎて、他の処理が止まってしまうといった問題
を回避することができる。
【0015】次に、上記第2の観点に係る音声認識装置
によれば、目標応答時間が入力設定される構成の場合に
は、アプリケーシヨンプログラムごとに目標応答時間が
設定できるため、速い応答速度を必要とするアプリケー
シヨンプログラムと応答速度は遅くてもよいアプリケー
シヨンプログラムを同時に使用する場合にも、2つの音
声認識装置を使用することなく、1つの音声認識装置を
使用して実現することができる。一方、目標認識性能が
入力設定される構成の場合には、アプリケーシヨンプロ
グラムごとに目標認識性能が設定できるため、高い認識
性能を要求するアプリケーシヨンプログラムと認識性能
は低くてもよいアプリケーシヨンプログラムを同時に使
用する場合にも、2つの音声認識装置を使用することな
く、1つの音声認識装置を使用して実現することができ
る。
【0016】次に、本発明の第3の観点に係る音声認識
装置によれば、目標応答時間が入力設定される構成の場
合には、実現が不可能な目標応答時間が要求されたとし
ても、ユーザにその旨を伝えるメッセージ(例えば目標
応答時間の延長または認識対象語彙数の削減を要求する
メッセージ)が出力されるため、過剰に探索空間を絞り
込んで認識性能を低下させるなどの危険を回避すること
ができる。一方、目標認識性能が入力設定される構成の
場合には、実現不可能な認識性能が要求されたとして
も、ユーザにその旨を伝えるメッセージ(例えば認識性
能のダウンまたは認識対象語彙数の削減を要求するメッ
セージ)が出力されるため、能力以上の期待をユーザに
与えるのを防ぐことができる。
【0017】次に、本発明の第4の観点に係る音声認識
装置によれば、過去の応答時間を使用して動的に探索空
間が制御されるため、指定された目標応答時間により近
い認識応答時間を実現することができる。
【0018】次に、本発明の第5の観点に係る音声認識
装置によれば、音声モデル記憶手段に記憶されている各
認識対象語彙の音声モデルと特徴パラメータ系列との照
合処理がランク別に段階的に行われ、1つのランクの各
認識対象語彙の音声モデルを対象とする照合処理に伴う
認識結果の出力終了の都度、認識対象語彙が拡張された
照合処理が継続される。このように、認識対象語彙の範
囲に単純に制限を加えるものではないことから、入力音
声に一致する語彙が認識対象に含まれていないために誤
認識する問題を回避できる。また、既に照合処理が済ん
でいる認識語彙の中に入力音声に一致する語彙が存在し
ないことを確認した段階で、次のランクの認識対象語彙
についての照合処理を開始するものでもないため、高速
処理が可能となる。
【0019】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。 [第1の実施形態]図1は本発明の第1の実施形態に係
る音声認識装置のブロック構成図である。
【0020】図1において、音声入力部10は、利用者
の発した音声を入力して音声信号に変換するものであ
り、マイクロホン等の音声入力手段を用いて実現され
る。音声入力部10により入力された音声(音声信号)
は、音響分析部11に与えられる。
【0021】音響分析部11は、音声入力部10により
入力された音声を音響分析して当該入力音声の特徴パラ
メータ系列を取得する。一般に、音声認識に使用される
代表的な特徴パラメータとしては、バンドパスフィルタ
やフーリエ変換によって求めることができるパワースペ
クトルやLPC(線形予測)分析によって求めたケプス
トラム係数などがよく用いられるが、ここではその特徴
パラメータの種類は問わない。音響分析部11は求めた
特徴パラメータ系列をモデル照合部12に出力する。
【0022】モデル照合部12は、音声モデル記憶部1
3に記憶されている認識対象音声の各音声モデルMkと
特徴パラメータ系列との類似度あるいは距離を求めるた
めの周知の演算(照合処理)を行う。ここで、音声モデ
ル記憶部13に記憶されている各音声モデルMkは、認
識語彙入力部16から入力された認識語彙に従ってあら
かじめ作成されたものである。この認識語彙入力部16
は、(図示せぬ音声モデル作成部で)音声モデルMkを
作成するのに必要な認識語彙の読み等の情報をキーボー
ドやファイルから入力することで実現することができ
る。
【0023】モデル照合部12での照合方法としては、
音声モデルMkも特徴パラメータ系列で表現しておき、
DP(動的計画)法で音声モデルMkの特徴パラメータ
系列と入力音声の特徴パラメータ系列の距離を求める手
法や、HMM(隠れマルコフモデル)を用いて音声モデ
ルMkを表現しておき、入力音声の特徴パラメータ系列
が入力されたときの各音声モデルMkの確率を計算する
手法などが広く使用されているが、ここではその手法は
問わない。
【0024】さて、図1の音声認識装置には、本実施形
態における最も特徴的な構成要素である目標応答時間入
力部14及び探索空間制御部15が設けられている。目
標応答時間入力部14は、(認識対象となる音声の)発
声終了後認識結果を出力するまでに許される応答時間
(目標応答時間)Tをユーザ(あるいはシステム開発
者)が入力するための手段であり、例えば、キーボード
で実現することができる。目標応答時間入力部14によ
り入力された目標応答時間Tは探索空間制御部15に与
えられる。この探索空間制御部15には、認識語彙入力
部16により入力された認識語彙(認識対象語彙)の総
数(認識語彙数)Nの情報が当該入力部16から与えら
れるようになっている。
【0025】探索空間制御部15は、装置の実際の応答
時間(認識応答時間)を探索空間制御部15により入力
された目標応答時間Tに近づけるために、モデル照合部
12での探索空間の範囲を制御する。以下、探索空間制
御部15による探索空間範囲の制御につき、モデル照合
部12での照合手法としてDP法が使用される場合を例
に説明する。
【0026】まず本実施形態では、モデル照合部12で
の照合処理で得られる入力音声の特徴パラメータ系列と
(ある認識語彙の)音声モデルMkとの距離を時刻tの
関数dk(t)とすると、この距離dk(t)が閾値D
(t)よりも大きくなった場合には、当該音声モデルM
kをモデル照合部12でのその時刻t以降の照合対象か
ら除外することによって認識応答時間を制御するように
している。そこで探索空間制御部15は、上記閾値Dk
(t)を目標応答時間入力部14から入力された目標応
答時間T及び認識語彙入力部16から入力された認識語
彙の総数(認識語彙数)Nに応じて決定してモデル照合
部12に与えることで、当該モデル照合部12での探索
空間範囲を制御する。
【0027】ここでは、閾値D(t)は、目標応答時間
Tと認識語彙数Nと時刻tの関数として、次式 D(t)=A(T/N)t+B (A,Bは正の定数) で定義される。
【0028】なお、上記式で表される閾値D(t)は一
例であり、目標応答時間Tが短く(長く)、且つ認識語
彙数Nが多い(少ない)ほど値が小さく(大きく)な
り、時刻tが経過するほど値が大きくなる閾値D(t)
であれば構わない。また、各認識語彙(の音声モデルM
k)で決まる定数Ak,Bkを用いることで、各認識語
彙(の音声モデルMk)ごとに閾値Dk(t)を定義す
るようにしても構わない。
【0029】また、モデル照合部12が、入力音声の特
徴パラメータ系列と音声モデルMkとの類似度sk
(t)(値は0≦sk(t)≦1)を求めるための照合
処理を行うものである場合には、閾値D(t)に代えて
次式 S(t)=−α(T/N)t+β (α,βは正の定
数) で定義される閾値Sk(t)を用い、類似度sk(t)
が閾値S(t)よりも小さくなった場合に、その際の音
声モデルMkをモデル照合部12でのその時刻t以降の
照合対象から除外する構成とすればよい。但し、閾値S
k(t)は0≦Sk(t)≦1の範囲で用いる必要があ
るため、閾値Sk(t)=0となるような時刻t、即ち
時刻t=(β/α)×(N/T)になっても音声モデル
Mkとの照合処理が終了しないような、目標応答時間T
及び認識語彙数Nの組み合わせに対しては正しい探索空
間範囲制御は困難である。
【0030】モデル照合部12は、入力音声の特徴パラ
メータと音声モデルMkとの照合処理を最後まで実行し
た各認識語彙について、その認識語彙(認識対象カテゴ
リ)と距離(または類似度)の組を認識結果出力部17
に送る。認識結果出力部17は、モデル照合部12で求
められた各音声モデルMkに対する距離(または類似
度)をソーティングして、距離が最小(類似度が最大)
となる認識対象のカテゴリを認識結果として出力する。
【0031】このように本実施形態においては、目標応
答時間Tに応じて探索空間を制御することによって、応
答時間に余裕がある場合には、探索空間を絞り込まない
モデルの照合が可能となり、高精度な音声認識システム
を実現することができる。また、速い応答が要求される
場合には、探索空間を絞り込むことによって応答速度を
速くして、使い勝手のよい音声認識システムを実現する
ことができる。
【0032】なお、認識語彙入力部16から入力される
認識語彙の総数(認識語彙数)Nが一定である場合に
は、閾値D(t)を目標応答時間Tと時刻tの関数とし
て定義すればよい。 [第2の実施形態]図2は本発明の第2の実施形態に係
る音声認識装置のブロック構成図であり、図1と同一部
分には同一符号を付してある。
【0033】この図2の音声認識装置が図1の音声認識
装置と異なる点は、1つの音声認識装置を2つ以上のア
プリケーシヨンプログラムから使用する場合に、目標応
答時間Tを各アプリケーシヨンプログラムごとに設定で
きる構成となっていることである。
【0034】そのため、図2の音声認識装置は、目標応
答時間入力部14からの目標応答時間Tの入力を、使用
アプリケーションプログラムごとに受け付けるための入
力インタフェース(アプリごと目標応答時間入力インタ
フェース)28と、認識語彙入力部16からの認識語彙
の入力を、使用アプリケーションプログラムごとに受け
付けるための入力インタフェース(アプリごと認識語彙
入力インタフェース)29とが、図1の音声認識装置に
追加された構成となっている。
【0035】さらに図2の音声認識装置は、図1中の音
声モデル記憶部13に代えて、入力インタフェース29
によりアプリケーションプログラムごとに受け付けられ
た認識語彙の音声モデルMkをアプリケーションプログ
ラムごとに記憶しておくための音声モデル記憶部23が
設けられると共に、図1中の探索空間制御部15に代え
て、入力インタフェース28により受け付けられたアプ
リケーションプログラムごとの目標応答時間T及び入力
インタフェース29により受け付けられたアプリケーシ
ョンプログラムごとの認識語彙の総数(認識語彙数)N
に応じて前記閾値D(t)を設定することで、使用する
アプリケーションプログラムごとにモデル照合部12で
の探索空間の範囲を制御する探索空間制御部25が設け
られた構成となっている。
【0036】図2の構成の音声認識装置において、当該
音声認識装置をあるアプリケーションプログラムで使用
する場合、そのアプリケーションプログラムの第1の特
定モード(目標応答時間設定モード)で目標応答時間入
力部14から目標応答時間Tを入力すると、その入力目
標応答時間Tが入力インタフェース28により受け付け
られる。入力インタフェース28により受け付けられた
目標応答時間Tは探索空間制御部25に与えられる。探
索空間制御部25は、この目標応答時間Tを該当するア
プリケーションプログラムに対応づけて設定する。
【0037】同様に、アプリケーションプログラムの第
2の特定モード(認識語彙設定モード)で、認識語彙入
力部16から認識語彙を入力すると、その入力認識語彙
が入力インタフェース29により受け付けられる。する
と、入力インタフェース29により受け付けられた認識
語彙の音声モデルMkが(図示せぬ音声モデル作成部
で)作成されて、該当するアプリケーションプログラム
に対応づけて音声モデル記憶部23に記憶される。そし
て、当該アプリケーションでの使用に必要な全ての認識
語彙の入力が終了すると、その認識語彙の総数(認識語
彙数)Nが入力インタフェース29から探索空間制御部
25に与えられる。探索空間制御部25は、この認識語
彙数Nを該当するアプリケーションに対応づけて設定す
る。
【0038】このようにして探索空間制御部25には、
図2の音声認識装置を使用するアプリケーションプログ
ラムごとに、目標応答時間入力部14から入力された目
標応答時間T及び認識語彙入力部16から入力された認
識語彙の総数(認識語彙数)Nのペアが設定される。
【0039】さて、アプリケーションプログラムが図2
の音声認識装置を使用する動作モードでは、例えばアプ
リケーションプログラムaの使用による音声認識時に
は、探索空間制御部25は、アプリケーションプログラ
ムaに対応して設定されている目標応答時間T及び認識
語彙数Nから、前記式に従って閾値D(t)を定義し、
これを当該アプリケーションプログラムaに固有の閾値
Da(t)としてモデル照合部12に与える。
【0040】このように、アプリケーションプログラム
ごとに設定される目標応答時間T及び認識語彙数Nに従
って閾値D(t)を定義し、即ちアプリケーションプロ
グラムごとに閾値D(t)を定義し、モデル照合部12
に対して使用アプリケーションプログラムに固有の閾値
D(t)を使用させることで、使用アプリケーションプ
ログラムごとに異なる探索空間範囲の制御を行うことが
できる。
【0041】即ち本実施形態においては、アプリケーシ
ヨンプログラムごとに目標応答時間を設定できるように
することによって、速い応答速度を必要とするアプリケ
ーシヨンプログラムと応答速度は遅くてもよいアプリケ
ーシヨンプログラムを同時に使用する場合にも、2つの
音声認識装置を使用することなく、1つの音声認識装置
を使用して実現することができる。 [第3の実施形態]図3は本発明の第3の実施形態に係
る音声認識装置のブロック構成図であり、図1と同一部
分には同一符号を付してある。
【0042】この図3の音声認識装置が図1の音声認識
装置と異なる点は、ユーザが入力した目標応答時間T以
内で認識結果を出力することが困難な場合に、ユーザに
その旨を通知するメッセージが出力できる構成となって
いることである。
【0043】そのため、図3の音声認識装置は、目標応
答時間T以内で認識結果を出力することが困難である場
合に、例えば目標応答時間の延長を要求するメッセージ
を出力する目標応答時間延長メッセージ出力部38が図
1の音声認識装置に追加された構成となっている。この
メッセージ出力部38によるメッセージ出力は、デイス
プレイに文字で表示したり、音声で出力したりすること
によって、実現することができる。
【0044】さらに図3の音声認識装置は、図1中の探
索空間制御部15に代えて、設定された認識語彙数Nの
条件のもとで認識結果を出力することが可能な最短の実
行時間(実行可能時間)Te を求め、その時間Te と設
定された目標応答時間Tとから、当該目標応答時間T以
内で認識結果を出力することが困難であるか否かを判断
し(予測し)、その判断結果に応じて目標応答時間延長
メッセージ出力部38による目標応答時間延長メッセー
ジ出力を行わせる機能が追加された探索空間制御部35
が設けられた構成となっている。
【0045】図3の音声認識装置において、探索空間制
御部35は、目標応答時間入力部14から入力された目
標応答時間T及び認識語彙入力部16から入力された認
識語彙(認識対象語彙)の総数(認識語彙数)Nをもと
に前記閾値D(t)=A(T/N)t+Bを設定する際
には、例えば以下に述べる目標応答時間延長メッセージ
出力制御を図4のフローチャートに従って実行する。
【0046】まず探索空間制御部35は、設定された認
識語彙数Nが一定値N0 以下であるか否かを調べ(ステ
ップ41)、その大小関係に従って、認識語彙数Nの条
件のもとで認識結果を出力することが可能な最短の実行
時間(実行可能時間)Te を求める。
【0047】即ち探索空間制御部35は、Nが一定値N
0 以下の場合には、例えば次式 Te =T0 (T0 は正の定数) に示すように、あらかじめ定められた固定の実行可能時
間Te を求める(ステップ42)。
【0048】これに対しNが一定値N0 より大きい場合
には、探索空間制御部35は、例えば次式 Te =CN+T0 (Cは正の定数) に従い、認識語彙数Nが多くなるほど値が大きくなる実
行可能時間Te を求める(ステップ43)。
【0049】次に探索空間制御部35は、設定された目
標応答時間Tと求めた実行可能時間Te とを比較し(ス
テップ44)、T<Te でない場合には、認識語彙数N
の条件のもとで目標応答時間T以内に認識結果を出力す
ることが可能であると判断し、閾値D(t)=A(T/
N)t+Bを算出してモデル照合部12に与える(ステ
ップ45)。
【0050】これに対しT<Te である場合、即ち目標
応答時間Tの方が実行可能時間Teより短い場合には、
探索空間制御部35は、認識語彙数Nの条件のもとで目
標応答時間T以内に認識結果を出力することは困難であ
ると判断し、ユーザに対して目標応答時間を延長するよ
うに要求するメッセージを目標時間延長メッセージ出力
部38により出力させる(ステップ46)。
【0051】ユーザは、このメッセージから、実現が不
可能な要求を入力したことを認識できるため、目標応答
時間の延長とか、認識語彙数の削減といった対処が可能
となる。
【0052】このように、本実施形態においては、目標
時間延長メッセージ出力部38を設けることにより、実
現が不可能な要求が入力された場合には、ユーザにその
旨を伝えるメッセージを出力することにより、過剰に探
索空間を絞り込んで認識性能を低下させるなどの危険を
回避することができる。
【0053】なお、目標応答時間延長を要求するメッセ
ージを出力する代わりに、認識語彙数の削減を要求する
メッセージを出力するようにしても構わない。また、上
記した目標応答時間延長メッセージ出力部38と同等の
機能を図2の音声認識装置に付加し、設定された目標応
答時間T以内に認識結果を出力することが困難であるか
否かを使用アプリケーションプログラムごとに判断し
て、その判断結果に基づくメッセージ出力を行うように
することも可能である。
【0054】また、設定された目標応答時間T以内に認
識結果を出力することが困難であるか否かの判断(予
測)機能を、探索空間制御部35とは別の手段に持たせ
るようにしても構わない。 [第4の実施形態]図5は本発明の第4の実施形態に係
る音声認識装置のブロック構成図であり、図1と同一部
分には同一符号を付してある。
【0055】この図5の音声認識装置が図1の音声認識
装置と異なる点は、過去の音声認識時の応答時間を一定
数を上限として記憶しておき、その応答時間と目標応答
時間Tとの差が小さくなるように、探索空間を制御でき
る構成となっていることである。
【0056】そのため、図5の音声認識装置は、過去の
音声認識時の応答時間を例えば最大5個記憶しておくた
めの応答時間記憶部58が図1の音声認識装置に追加さ
れた構成となっている。
【0057】さらに図5の音声認識装置は、図1中の探
索空間制御部15に代えて、応答時間記憶部58に記憶
されている過去の応答時間の例えば平均値(平均応答時
間)Tm と目標応答時間Tとを比較し、その比較結果を
もとに当該目標応答時間Tと実際の応答時間との差が小
さくなるように前述の閾値D(t)を変更することで探
索空間を制御する探索空間制御部55が設けられると共
に、図1中の認識結果出力部17に代えて、入力音声に
対する認識結果を出力する毎に、その音声の入力(発
声)終了時から当該認識結果の出力までに要した時間、
即ち応答時間(認識応答時間)を応答時間記憶部58に
記憶させる認識結果出力部57が設けられた構成となっ
ている。
【0058】図5の音声認識装置において、認識結果出
力部57は、入力音声に対する認識結果を出力する毎
に、その際の応答時間を応答時間記憶部58に記憶させ
る。この際、応答時間記憶部58に最大数(5個)の応
答時間が記憶されている場合には、その時点において最
も古い応答時間が当該応答時間記憶部58から消され
る。この応答時間記憶部58の内容は、目標応答時間T
及び認識語彙数Nの少なくとも一方が再設定された場合
にはクリアされる。
【0059】探索空間制御部55は、音声認識時の応答
時間(認識応答時間)と目標応答時間入力部14から入
力された目標応答時間Tとの差が小さくなるように、例
えば以下に述べる探索空間制御を図6のフローチャート
に従って実行する。
【0060】まず探索空間制御部55は、目標応答時間
Tと平均応答時間Tm とを比較する(ステップ61)。
もし、目標応答時間Tよりも平均応答時間Tm の方が長
い場合には、探索空間制御部55は、現在定義されてい
る閾値D(t)=A(T/N)t+B中のB値を現在値
より一定量B0 だけ減少して、当該閾値D(t)をB0
だけ小さくすることにより探索空間を制御する(ステッ
プ62)。
【0061】これに対し目標応答時間Tよりも平均応答
時間Tm の方が短い場合には、現在定義されている閾値
D(t)=A(T/N)t+B中のB値を現在値より一
定量B0 だけ増加して、当該閾値D(t)をB0 だけ大
きくすることにより探索空間を制御する(ステップ6
3)。
【0062】なお上記閾値D(t)は、目標応答時間T
及び認識語彙数Nの少なくとも一方が再設定された場合
には、その時点におけるT,Nと、あらかじめ定められ
ている定数Aと、定数Bの初期値を用いたD(t)=A
(T/N)t+Bの演算により初期化される。
【0063】このように、応答時間記憶部58に記憶さ
れた過去の応答時間を使用して、探索空間制御部55が
動的に探索空間を制御することによって、指定された目
標応答時間Tにより近い応答時間を実現することができ
る。
【0064】以上の説明では、目標応答時間Tとの比較
に、応答時間記憶部58に記憶された過去の応答時間の
平均値(平均応答時間)Tm を用いているが、過去の応
答時間の最小値または最大値を用いるようにしても構わ
ず、最新の応答時間(前回の応答時間)を用いるように
しても構わない。最新の応答時間を用いる場合には、応
答時間記憶部58は1回分の応答時間を記憶するもので
あればよい。
【0065】また、応答時間記憶部58に相当する応答
時間記憶部であって、過去の応答時間をアプリケーショ
ンプログラムごとに記憶しておく応答時間記憶部を図2
の音声認識装置に付加し、本実施形態で述べたような動
的な探索空間制御を使用アプリケーションプログラムご
とに行う構成とすることも可能である。 [第5の実施形態]図7は本発明の第5の実施形態に係
る音声認識装置のブロック構成図であり、図1と同一部
分には同一符号を付してある。
【0066】この図7の音声認識装置が図1の音声認識
装置と異なる点は、図1中の目標応答時間入力部14に
代えて、ユーザが希望する認識性能を入力するための目
標認識性能入力部74が設けられると共に、図1中の探
索空間制御部15に代えて、目標認識性能入力部74に
より入力された認識性能に応じてモデル照合部12での
探索空間の範囲を制御する探索空間制御部75が設けら
れた構成となっていることである。
【0067】図7の音声認識装置において、ユーザは、
当該認識装置の目標認識性能、例えば相対的な目標認識
性能を、現在の目標認識性能を基準とする認識性能アッ
プまたは認識性能ダウンの指定の形で、目標認識性能入
力部74から入力指定できるようになっている。
【0068】探索空間制御部75は、目標認識性能入力
部74からの目標認識性能の入力指定に応じて、例えば
以下に述べる探索空間制御を図8のフローチャートに従
って実行する。
【0069】まず探索空間制御部75は、目標認識性能
アップまたはダウンのいずれが指定されたかをチェック
し(ステップ81)、アップ指定の場合には、現在定義
されている閾値D(t)=A(T/N)t+B中のB値
を現在値より一定量B0 だけ増加して(Tには、あらか
じめ定められた固定値が用いられる)、当該閾値D
(t)をB0 だけ大きくする(ステップ82)。
【0070】これに対し目標認識性能のダウン指定の場
合には、探索空間制御部75は、現在定義されている閾
値D(t)=A(T/N)t+B中のB値を現在値より
一定量B0 だけ減少して、当該閾値D(t)をB0 だけ
小さくする(ステップ83)。
【0071】なお上記閾値D(t)は、認識語彙数Nが
再設定された場合には、その際のNと、あらかじめ定め
られているT,Aと、あらかじめ定められている定数B
の初期値を用いたD(t)=A(T/N)t+Bの演算
により初期化される。
【0072】探索空間制御部75は、以上の処理(ステ
ップ81〜83)を、目標認識性能入力部74から目標
認識性能指定の終了が通知されるまで(ステップ84)
繰り返す。そして目標認識性能指定の終了が通知される
と、探索空間制御部75は、その時点における閾値D
(t)をモデル照合部12に与える(ステップ85)。
【0073】このように、目標認識性能入力部74から
ユーザが希望する認識性能を入力指定できるようにし、
この入力指定された目標認識性能に応じて閾値D(t)
を調整してモデル照合部12での探索範囲を制御するこ
とにより、必要以上の計算を行わないようにすることが
できる。即ち本実施形態においては、目標認識性能を設
定できるようにして、必要以上の計算を行わないように
することによって、例えばパーソナルコンピユータのソ
フトウェアのみで音声認識を実現した場合に、音声認識
処理とそれ以外の処理に割くプロセッサの計算能力の割
合を制御することができ、音声認識処理の負荷が大きす
ぎて、他の処理が止まってしまうといった問題を回避す
ることができる。 [第6の実施形態]図9は本発明の第6の実施形態に係
る音声認識装置のブロック構成図であり、図7と同一部
分には同一符号を付してある。
【0074】この図9の音声認識装置が図7の音声認識
装置と異なる点は、1つの音声認識装置を2つ以上のア
プリケーシヨンプログラムから使用する場合に、目標認
識性能を各アプリケーシヨンプログラムごとに設定でき
る構成となっていることである。
【0075】そのため、図9の音声認識装置は、目標認
識性能入力部74からの目標認識性能の入力を、使用ア
プリケーションプログラムごとに受け付けるための入力
インタフェース(アプリごと目標性能時間入力インタフ
ェース)98と、認識語彙入力部16からの認識語彙の
入力を、使用アプリケーションプログラムごとに受け付
けるための(図2中の入力インタフェース29と同様
の)入力インタフェース(アプリごと認識語彙入力イン
タフェース)99とが図7の音声認識装置に追加された
構成となっている。
【0076】さらに図2の音声認識装置は、図7中の音
声モデル記憶部13に代えて、入力インタフェース99
によりアプリケーションプログラムごとに受け付けられ
た認識語彙の音声モデルMkをアプリケーションプログ
ラムごとに記憶しておくための(図2中の音声モデル記
憶部23と同様の)音声モデル記憶部93が設けられる
と共に、図7中の探索空間制御部75に代えて、入力イ
ンタフェース98により受け付けられたアプリケーショ
ンプログラムごとの目標認識性能及び入力インタフェー
ス99により受け付けられたアプリケーションプログラ
ムごとの認識語彙の総数(認識語彙数)Nに応じて前記
閾値D(t)を設定することで、使用するアプリケーシ
ョンプログラムごとにモデル照合部13での探索空間の
範囲を制御する探索空間制御部95が設けられた構成と
なっている。
【0077】この図9の音声認識装置では、当該音声認
識装置を使用するアプリケーションプログラムごとに、
認識語彙入力部16からの認識語彙の入力がアプリごと
認識語彙入力インタフェース99により受け付けられ、
その入力された認識語彙の総数(認識語彙数)Nがアプ
リケーションプログラムごとに探索空間制御部95に設
定される。
【0078】同様に、目標認識性能入力部74からの目
標認識性能の指定入力(アップまたはダウン指定)が使
用アプリケーションごとにアプリごと目標認識性能入力
インタフェース98により受け付けられ、探索空間制御
部95に送られる。
【0079】探索空間制御部95は、使用アプリケーシ
ョンプログラムごとの認識語彙数Nをもとに、対応する
アプリケーションプログラムの使用による音声認識時の
探索空間制御のための閾値D(t)を(図7中の探索空
間制御部75によるD(t)の初期設定と同様にして)
初期設定し、管理している。
【0080】そして探索空間制御部95は、目標認識性
能入力部74からの目標認識性能の指定入力(アップま
たはダウン指定)が入力インタフェース98により受け
付けられる都度、該当するアプリケーションプログラム
に対応して設定してある閾値D(t)を、その指定入力
内容に応じて一定量B0 だけ減少または増加する。
【0081】このように、目標認識性能を各アプリケー
シヨンごとに設定(指定)できるようにし、そのアプリ
ケーションプログラムごとの目標認識性能設定に応じ
て、その都度そのアプリケーションプログラムに固有の
閾値D(t)を決定して、モデル照合部13で使用させ
ることで、使用アプリケーションプログラムごとに異な
る探索空間範囲の制御を行うことができる。
【0082】即ち本実施形態においては、アプリケーシ
ヨンプログラムごとに目標認識性能を設定できるように
することによって、高い認識性能を要求するアプリケー
シヨンプログラムと認識性能は低くてもよいアプリケー
シヨンプログラムを同時に使用する場合にも、2つの音
声認識装置を使用することなく、1つの音声認識装置を
使用して実現することができる。 [第7の実施形態]図10は本発明の第7の実施形態に
係る音声認識装置のブロック構成図であり、図7と同一
部分には同一符号を付してある。
【0083】この図10の音声認識装置が図7の音声認
識装置と異なる点は、ユーザが入力した目標認識性能
(のアップまたはダウン指定)に従う認識結果を出力す
ることが困難な場合に、ユーザにその旨を通知するメッ
セージが出力できる構成となっていることである。
【0084】そのため、図10の音声認識装置は、ユー
ザが入力した目標認識性能が高すぎてその認識性能に従
う認識結果を出力することが困難である場合に、目標認
識性能のダウン指定を要求するメッセージを出力する目
標認識性能未達メッセージ出力部108が図1の音声認
識装置に追加された構成となっている。このメッセージ
出力部108は、ユーザが入力した目標認識性能が低す
ぎる場合に、目標認識性能のアップ指定を要求するメッ
セージを出力する機能も有する。このメッセージ出力部
108によるメッセージ出力は、デイスプレイに文字で
表示したり、音声で出力したりすることによって、実現
することができる。
【0085】さらに図10の音声認識装置は、図7中の
探索空間制御部75に代えて探索空間制御部105が設
けられた構成となっている。この探索空間制御部105
は、図7中の探索空間制御部75の持つ機能、即ちユー
ザが入力した目標認識性能(のアップまたはダウン指
定)に応じて前記閾値D(t)=A(T/N)t+B中
のB値を一定量B0 ずつ増減する機能に加えて、あらか
じめ定められたBmax を上回るB値となるような目標認
識性能の指定(アップ指定)がなされた場合に、実現不
可能な高認識性能要求であるものとして、目標認識性能
未達メッセージ出力部108によるその旨のメッセージ
出力を行わせる機能を有している。探索空間制御部10
5はまた、あらかじめ定められたBmin を下回るB値と
なるような目標認識性能の指定(ダウン指定)がなされ
た場合に、無意味な低認識性能要求であるものとして、
目標認識性能未達メッセージ出力部108によるその旨
のメッセージ出力を行わせる機能を有している。
【0086】図10の音声認識装置において、探索空間
制御部105は、目標認識性能入力部74からの目標認
識性能の入力指定に応じて、例えば以下に述べる探索空
間制御を図11のフローチャートに従って実行する。
【0087】まず探索空間制御部105は、目標認識性
能アップまたはダウンのいずれが指定されたかをチェッ
クし(ステップ111)、アップ指定の場合には、現在
定義されている閾値D(t)=A(T/N)t+B中の
B値を現在値より一定量B0だけ増加して(Tには、あ
らかじめ定められた固定値が用いられる)、当該閾値D
(t)をB0 だけ大きくする(ステップ112)。
【0088】これに対し目標認識性能のダウン指定の場
合には、探索空間制御部105は、現在定義されている
閾値D(t)=A(T/N)t+B中のB値を現在値よ
り一定量B0 だけ減少して、当該閾値D(t)をB0 だ
け小さくする(ステップ113)。
【0089】ここまでの動作は、図7中の探索空間制御
部75の動作と同様である。探索空間制御部105は、
閾値D(t)中のB値をB0 だけ大きくした場合には、
そのB値、即ちD(0)=Bの値がBmax を上回ってい
るか否かをチェックし(ステップ114)、上回ってい
る場合には指定された目標認識性能での認識結果出力は
困難であると判断し、ユーザに対して目標認識性能のダ
ウン指定を行うように要求するメッセージ(目標認識性
能未達メッセージ)を目標認識性能未達メッセージ出力
部108により出力させる(ステップ115)。
【0090】ユーザは、このメッセージから、実現が不
可能な認識性能を要求したことを認識できるため、能力
以上の期待をユーザに与えることを防ぐことができ、目
標認識性能をダウンするとか、認識語彙数Nを削減する
といった対処が可能となる。
【0091】また探索空間制御部105は、閾値D
(t)中のB値をB0 だけ小さくした場合には、そのB
値、即ちD(0)=Bの値がBmin (ここではBmin =
0)を下回っているか否かをチェックし(ステップ11
6)、下回っている場合には、指定された目標認識性能
での認識結果出力は無意味であると判断し、ユーザに対
して目標認識性能のアップ指定を行うように要求するメ
ッセージを目標認識性能未達メッセージ出力部108に
より出力させる(ステップ117)。
【0092】ユーザは、このメッセージから、無意味な
認識結果出力となるような認識性能を要求したことを認
識できる。これに対し閾値D(t)中のB値をB0 だけ
増減してもBmin とBmax の範囲内に入っている場合に
は、探索空間制御部105は、能力範囲内の認識性能で
の意味のある認識結果出力が可能であると判断し、目標
認識性能入力部74から目標認識性能指定の終了が通知
されているか否かをチェックする(ステップ118)。
そして探索空間制御部105は、目標認識性能指定の終
了が通知されていないならば、ステップS111に戻
り、通知されているならば、その時点における閾値D
(t)をモデル照合部12に与える(ステップ11
9)。
【0093】なお、目標認識性能入力部74からの目標
認識性能のアップまたはダウン指定毎に、その指定後の
目標認識性能を表す値を、例えば探索空間制御部105
がメッセージ出力部108を用いて、数値またはバーで
表示させるようにすることも可能である。
【0094】また、目標認識性能のアップまたはダウン
指定に応じて閾値D(t)中のB値を増減する代わり
に、A値を増減するようにしても構わない。また、目標
認識性能のアップまたはダウン指定に代えて、目標認識
性能を示す値を直接指定入力するようにしても構わな
い。 [第8の実施形態]図12は本発明の第8の実施形態に
係る音声認識装置のブロック構成図である。
【0095】図12において、(図1中の音声入力部1
0に相当する)音声入力部120は、利用者の発した音
声を入力して音声信号に変換する。この音声入力部12
0により入力された音声(音声信号)は、(図1中の音
響分析部11に相当する)音響分析部121に与えられ
る。音響分析部121は、音声入力部120により入力
された音声を音響分析して当該入力音声の特徴パラメー
タ系列を取得する。
【0096】モデル照合部122は、音声モデル記憶部
123に記憶されている認識対象音声(認識語彙)の各
音声モデルMkと特徴パラメータ系列との類似度あるい
は距離を求めるための周知の演算(照合処理)を行う。
【0097】ここで、音声モデル記憶部123に記憶さ
れている各音声モデルMkは、認識語彙入力部126か
ら入力された認識語彙に従ってあらかじめ作成されたも
ので、例えばランク1乃至ランクnまでのn段階のラン
ク付けがなされている。このランクは、数値が小さいほ
ど、使用頻度が高いポピュラーな認識語彙(の音声モデ
ルMk)であることを示す。具体例として、JIS第1
水準の語彙(の音声モデルMk)をランク1、JIS第
2水準の語彙(の音声モデルMk)をランク2とするよ
うなランク付けが挙げられる。
【0098】また、音声モデル記憶部123に記憶され
ている各音声モデルMkをランク付けするには、各音声
モデルMk個々にランクを示す情報を付しておく手法、
あるいは音声モデル記憶部123の領域をランク1乃至
ランクn用にそれぞれ分割して管理し、ランクi(i=
1〜n)用の分割領域にはランクiの各認識語彙の音声
モデルMkを記憶する手法等を適用すればよい。
【0099】本実施形態におけるモデル照合部122
は、上記した入力音声の特徴パラメータ系列との照合処
理を、まず最高ランク(であるランク1)の各認識語彙
の音声モデルMkとの間で行い、その照合処理の結果、
即ち認識結果として、照合を行った各音声モデルMkと
特徴パラメータ系列との類似度あるいは距離を対応する
認識語彙(認識対象カテゴリ)と共に認識結果出力部1
27に出力する。そしてモデル照合部122は、このラ
ンク1の認識語彙に対する認識結果を出力すると、音声
モデル記憶部123に記憶されている次のランクである
ランク2の認識語彙(の音声モデルMk)を対象とする
認識処理(照合処理)を継続する。
【0100】一方、認識結果出力部127は、モデル照
合部122からランク1の認識語彙に対する認識結果を
受け取ると、その中で類似度が最も大きくなる(距離が
最も短くなる)カテゴリを選択して出力する。
【0101】図12の音声認識装置には、次候補要求入
力部128及び認識結果選択部129が設けられてい
る。ユーザは、認識結果出力部127により認識結果が
出力されると、その出力認識結果が自身の発声した語彙
に一致するか否か、即ち正しい認識結果が出力されたか
否かを判断する。もし、誤った認識結果が出力された場
合には、ユーザは次候補要求入力部128により次候補
の出力要求を入力し、正しい認識結果が出力された場合
には、認識候補選択部129により当該認識結果の選択
要求を入力する。この次候補要求入力部128及び認識
候補選択部129は、キーボードあるいはマウス等によ
り実現される。
【0102】モデル照合部122は、上記したようにラ
ンク1の認識語彙に対する認識処理(照合処理)に引き
続いてランク2の認識語彙に対する認識処理(照合処
理)を行うと、そのランク2の認識語彙に対する認識結
果を認識結果出力部127に出力する。
【0103】認識結果出力部127は、ランク1の認識
語彙に対する認識結果の出力に対して次候補要求入力部
128から次候補の出力要求が入力された場合、もし次
のランク2の認識語彙に対する認識結果がモデル照合部
122から与えられていないならば、ランク1の認識語
彙に対する認識結果のうち、既に出力済みの結果を除い
た中から、類似度が最も大きくなる(距離が最も短くな
る)カテゴリを選択し、次のランク2の認識語彙に対す
る認識結果が与えられているならば、ランク1の認識語
彙に対する認識結果及びランク2の認識語彙に対する認
識結果のうち、既に出力済みの結果を除いた中から、類
似度が最も大きくなる(距離が最も短くなる)カテゴリ
を選択する。そして認識結果出力部127は、この選択
したカテゴリを認識結果の次候補として出力する。
【0104】一方、認識候補選択部129から認識結果
の選択要求が入力された場合には、認識結果出力部12
7は、その際に出力してある認識結果(カテゴリ)を選
択すると共に、モデル照合部122に対して認識処理
(照合処理)の停止を要求する。
【0105】このように本実施形態においては、認識精
度の向上のために、音声モデル記憶部123に記憶され
ている全ての認識語彙を対象に照合処理を行うとか、認
識処理の高速化のために、音声モデル記憶部123内の
一部の認識語彙を対象に照合処理を行うというのではな
く、音声モデル記憶部123内の認識語彙群をあらかじ
めランク分けし、高ランクの認識語彙から順に照合処理
を行って、段階的に認識対象語彙の範囲を拡張するよう
にしている。
【0106】このため、高ランクの認識語彙に対する認
識結果の中に正しい認識結果が含まれている場合には、
その時点でモデル照合部122での照合処理を停止させ
ることができるため、高速処理が可能となる。また、高
ランクの認識語彙に対する認識結果の中に正しい認識結
果が含まれていない場合でも、認識対象語彙の範囲が段
階的に拡張されることから、入力音声に一致する語彙が
認識対象に含まれていないために誤認識する問題を回避
できる。しかも、認識対象語彙の範囲の拡張は、1つの
ランクの認識対象語彙についての照合処理が終了するご
とに自動的に行われて、そのまま照合処理が継続される
ことから、既に照合処理が済んでいる認識語彙の中に入
力音声に一致する語彙が存在しないことを確認した段階
で、次のランクの認識対象語彙についての照合処理を開
始するものに比べて、高速処理が可能となる。
【0107】なお、以上の説明では、各認識語彙(の音
声モデルMk)のランクは固定であるとしているが、認
識候補選択部129による選択回数に応じて動的に変更
されるものであっても構わない。
【0108】
【発明の効果】以上詳述したように本発明によれば、利
用者自身が目標とする認識応答時間(目標応答時間)あ
るいは認識性能(目標認識性能)を任意に設定すること
ができ、しかも利用者の設定した認識応答時間あるいは
認識性能が実現できるため、認識対象語彙数に関係なく
ー定時間での応答を実現するシステムや、応答時間を犠
牲にしても高精度な認識を実現するシステムが簡単に構
築できる。
【0109】また本発明によれば、目標応答時間あるい
は目標認識性能を音声認識装置を利用するアプリケーシ
ョンプログラムごとに入力設定できるため、速い応答速
度を必要とするアプリケーシヨンプログラムと応答速度
は遅くてもよいアプリケーシヨンプログラムを同時に使
用する場合や、高い認識性能を要求するアプリケーシヨ
ンプログラムと認識性能は低くてもよいアプリケーシヨ
ンプログラムを同時に使用する場合にも、2つの音声認
識装置を使用することなく、1つの音声認識装置を使用
して実現することができる。
【0110】また本発明によれば、実現不可能な目標応
答時間あるいは目標認識性能が入力設定された場合に
は、その旨のメッセージが利用者に通知されるため、過
剰に探索空間を絞り込んで認識性能を低下させるなどの
危険を回避することができ、また能力以上の期待をユー
ザに与えるのを防ぐことができる。
【0111】また本発明によれば、過去の応答時間を使
用して動的に探索空間が制御されるため、利用者の設定
した目標応答時間により近い認識応答時間を実現するこ
とができる。
【0112】また本発明によれば、各認識対象語彙の音
声モデルと特徴パラメータ系列との照合処理をランク別
に段階的に行うことにより、高速且つ高精度の認識処理
が実現できる。このように本発明によれば、使い勝手の
よい利用者希望のシステムを構築できる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の
ブロック構成図。
【図2】本発明の第2の実施形態に係る音声認識装置の
ブロック構成図。
【図3】本発明の第3の実施形態に係る音声認識装置の
ブロック構成図。
【図4】図3中の探索空間制御部35による目標応答時
間延長メッセージ出力制御を説明するためのフローチャ
ート。
【図5】本発明の第4の実施形態に係る音声認識装置の
ブロック構成図。
【図6】図5中の探索空間制御部55による探索空間制
御を説明するためのフローチャート。
【図7】本発明の第5の実施形態に係る音声認識装置の
ブロック構成図。
【図8】図7中の探索空間制御部75による探索空間制
御を説明するためのフローチャート。
【図9】本発明の第6の実施形態に係る音声認識装置の
ブロック構成図。
【図10】本発明の第7の実施形態に係る音声認識装置
のブロック構成図。
【図11】図10中の探索空間制御部105による探索
空間制御を説明するためのフローチャート。
【図12】本発明の第8の実施形態に係る音声認識装置
のブロック構成図。
【符号の説明】
10,120…音声入力部、 11,121…音響分析部、 12,122…モデル照合部、 13,23,93,123…音声モデル記憶部、 14…目標応答時間入力部、 15,25,55,75,95…探索空間制御部、 16,126…認識語彙入力部、 17,57,127…認識結果出力部、 28…アプリごと目標応答時間入力インタフェース、 29,99…アプリごと認識語彙入力インタフェース、 35,105…探索空間制御部(予測手段) 38…目標応答時間延長メッセージ出力部、 58…応答時間記憶部、 74…目標認識性能入力部、 98…アプリごと目標認識性能入力インタフェース、 108…目標認識性能未達メッセージ出力部、 128…次候補要求入力部、 129…認識候補選択部。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を音響分析して求めた特徴パラ
    メータ系列とあらかじめ作成しておいた各認識対象語彙
    の音声モデルとを照合して、入力音声を認識する音声認
    識装置において、 前記音声認識装置での認識応答時間の目標応答時間を外
    部から入力するための目標応答時間入力手段と、 前記認識応答時間が前記目標応答時間入力手段により入
    力された目標応答時間に近づくように前記照合時に当該
    目標応答時間に応じて探索空間の制約の度合いを制御す
    る探索空間制御手段とを具備したことを特徴とする音声
    認識装置。
  2. 【請求項2】 2つ以上のアプリケーシヨンプログラム
    で使用可能な音声認識装置であって、前記目標応答時間
    入力手段により入力される目標応答時間を前記各アプリ
    ケーシヨンプログラムごとに受け付けて設定する入力イ
    ンタフェース手段をさらに具備し、前記探索空間制御手
    段は、前記各アプリケーションプログラムごとに設定さ
    れた目標応答時間に応じて、対応するアプリケーション
    プログラムごとに探索空間の制約の度合いを制御するこ
    とを特徴とする請求項1記載の音声認識装置。
  3. 【請求項3】 前記目標応答時間入力手段により入力さ
    れた目標応答時間内で認識処理を終了することが可能で
    あるか否かを予測する予測手段と、 この予測手段により目標応答時間内で認識処理を終了す
    ることが不可能であることが予測された場合に、その旨
    を示すメッセージを出力するメッセージ出力手段とをさ
    らに具備することを特徴とする請求項1記載の音声認識
    装置。
  4. 【請求項4】 過去の音声認識時の認識応答時間を管理
    ・記憶しておくための応答時間記憶手段をさらに具備
    し、前記探索空間制御手段は、前記目標応答時間入力手
    段により入力された目標応答時間と前記応答時間記憶手
    段に記憶されている過去の認識応答時間とを比較し、そ
    の比較結果をもとに実際の認識応答時間が前記目標応答
    時間に近づくように探索空間の制約の度合いを制御する
    ことを特徴とする請求項1記載の音声認識装置。
  5. 【請求項5】 入力音声を音響分析して求めた特徴パラ
    メータ系列とあらかじめ作成しておいた各認識対象語彙
    の音声モデルとを照合して、入力音声を認識する音声認
    識装置において、 前記音声認識装置での認識性能の目標認識性能を外部か
    ら入力するための目標認識性能入力手段と、 前記認識性能が前記目標認識性能入力手段により入力さ
    れた目標認識性能に近づくように前記照合時に当該目標
    認識性能に応じて探索空間の制約の度合いを制御する探
    索空間制御手段とを具備したことを特徴とする音声認識
    装置。
  6. 【請求項6】 2つ以上のアプリケーシヨンプログラム
    で使用可能な音声認識装置であって、前記目標認識性能
    入力手段により入力される目標認識性能を前記各アプリ
    ケーシヨンプログラムごとに受け付けて設定する入力イ
    ンタフェース手段をさらに具備し、前記探索空間制御手
    段は、前記各アプリケーションプログラムごとに設定さ
    れた目標認識性能に応じて、対応するアプリケーション
    プログラムごとに探索空間の制約の度合いを制御するこ
    とを特徴とする請求項5記載の音声認識装置。
  7. 【請求項7】 前記目標認識性能入力手段により入力さ
    れた目標認識性能での認識結果出力が可能であるか否か
    を予測する予測手段と、 この予測手段により目標認識性能での認識結果出力が不
    可能であることが予測された場合に、その旨を示すメッ
    セージを出力するメッセージ出力手段とをさらに具備す
    ることを特徴とする請求項5記載の音声認識装置。
  8. 【請求項8】 入力音声を音響分析して求めた特徴パラ
    メータ系列とあらかじめ作成しておいた各認識対象語彙
    の音声モデルとを照合して、入力音声を認識する音声認
    識装置において、 前記各認識対象語彙の音声モデルを複数の組にランク分
    けして管理・記憶しておくための音声モデル記憶手段
    と、 この音声モデル記憶手段に記憶されている各認識対象語
    彙の音声モデルと前記特徴パラメータ系列との照合処理
    を前記ランク別に段階的に行うモデル照合手段であっ
    て、1つのランクの各認識対象語彙の音声モデルを対象
    とする照合処理に伴う認識結果の出力終了の都度、認識
    対象語彙を拡張し、次のランクの各認識対象語彙の音声
    モデルを対象とする照合処理を行うモデル照合手段とを
    具備することを特徴とする音声認識装置。
  9. 【請求項9】 入力音声を音響分析して求めた特徴パラ
    メータ系列とあらかじめ作成しておいた各認識対象語彙
    の音声モデルとを照合して、入力音声を認識する音声認
    識方法において、 利用者の指定する音声認識時の認識応答時間の目標応答
    時間を入力し、 前記認識応答時間が前記入力した目標応答時間に近づく
    ように前記照合時に当該目標応答時間に応じて探索空間
    の制約の度合いを制御するようにしたことを特徴とする
    音声認識方法。
  10. 【請求項10】 入力音声を音響分析して求めた特徴パ
    ラメータ系列とあらかじめ作成しておいた各認識対象語
    彙の音声モデルとを照合して、入力音声を認識する音声
    認識方法において、 利用者の指定する音声認識時の認識性能の目標認識性能
    を入力し、 前記認識性能が前記入力した目標認識性能に近づくよう
    に前記照合時に当該目標認識性能に応じて探索空間の制
    約の度合いを制御するようにしたことを特徴とする音声
    認識方法。
JP7283295A 1995-10-31 1995-10-31 音声認識装置及び方法 Pending JPH09127981A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7283295A JPH09127981A (ja) 1995-10-31 1995-10-31 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7283295A JPH09127981A (ja) 1995-10-31 1995-10-31 音声認識装置及び方法

Publications (1)

Publication Number Publication Date
JPH09127981A true JPH09127981A (ja) 1997-05-16

Family

ID=17663605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7283295A Pending JPH09127981A (ja) 1995-10-31 1995-10-31 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JPH09127981A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366188A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2019204015A (ja) * 2018-05-24 2019-11-28 トヨタ自動車株式会社 情報処理装置、プログラム、及び制御方法
JP2021092817A (ja) * 2019-03-28 2021-06-17 国立研究開発法人情報通信研究機構 言語識別装置及び言語を判定する方法
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366188A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2019204015A (ja) * 2018-05-24 2019-11-28 トヨタ自動車株式会社 情報処理装置、プログラム、及び制御方法
CN110534103A (zh) * 2018-05-24 2019-12-03 丰田自动车株式会社 信息处理装置、保存程序的非暂时性计算机可读介质及控制方法
US11282517B2 (en) 2018-05-24 2022-03-22 Toyota Jidosha Kabushiki Kaisha In-vehicle device, non-transitory computer-readable medium storing program, and control method for the control of a dialogue system based on vehicle acceleration
JP2021092817A (ja) * 2019-03-28 2021-06-17 国立研究開発法人情報通信研究機構 言語識別装置及び言語を判定する方法
CN115565535A (zh) * 2022-09-21 2023-01-03 深圳琪乐科技有限公司 一种智能语音客服系统
CN115565535B (zh) * 2022-09-21 2024-04-12 南京浮点智算数字科技有限公司 一种智能语音客服系统

Similar Documents

Publication Publication Date Title
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5172021B2 (ja) 自動音声認識音響モデルの適合
US6167377A (en) Speech recognition language models
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US5127055A (en) Speech recognition apparatus & method having dynamic reference pattern adaptation
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
US20070050190A1 (en) Voice recognition system and voice processing system
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
JP4515054B2 (ja) 音声認識の方法および音声信号を復号化する方法
US7324945B2 (en) Method of dynamically altering grammars in a memory efficient speech recognition system
WO1993013519A1 (en) Composite expert
US5559925A (en) Determining the useability of input signals in a data recognition system
US6016470A (en) Rejection grammar using selected phonemes for speech recognition system
JP4634156B2 (ja) 音声対話方法および音声対話装置
US20020184016A1 (en) Method of speech recognition using empirically determined word candidates
JP4298672B2 (ja) 混合分布hmmの状態の出力確率計算方法および装置
KR100703697B1 (ko) 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
JPH09127981A (ja) 音声認識装置及び方法
JP4610451B2 (ja) 音声認識装置及びプログラム
US6411929B1 (en) Speech recognition method and system
KR20210121922A (ko) 음성인식 서비스를 위한 언어모델 생성 방법 및 프로그램
JP3104900B2 (ja) 音声認識方法
JPH1173419A (ja) 電子文書の検索方法及び装置