JPH06250689A

JPH06250689A - 音声認識装置

Info

Publication number: JPH06250689A
Application number: JP5033675A
Authority: JP
Inventors: Shinichi Tanaka; 信一田中
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1993-02-23
Filing date: 1993-02-23
Publication date: 1994-09-09

Abstract

(57)【要約】【目的】音声認識処理の過程で生成される認識結果とな
り得る単語を利用者に理解しやすい形で提示して、スム
ーズな音声による入力が行なえるようにする。【構成】入力音声を音響分析部１０にて音響分析し、そ
の結果得られる音声セグメント系列を単語区間照合部２
０で受けて、その系列から取り出し得る全ての部分系列
を取り出し、それぞれの部分系列と認識単語辞書２１に
予め登録されている認識単語のモデルとの照合を行い、
その結果、ある一定値よりも良い照合結果が得られる毎
に、対応する単語を出力する。この単語を認識結果逐次
表示部３０で受けて、その都度表示装置４０の認識結果
表示領域４１に表示する。この際、既に表示中の単語が
あれば、それに続く位置に最新の認識結果が表示され
る。この認識結果表示領域４１に表示されている単語の
中から位置指定装置６０の指定に応じて認識結果選択部
５０により最終的な認識結果が選択される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、連続的に発声された音
声から、その音声に同期して特定の単語を検出する音声
認識装置に関する。

【０００２】

【従来の技術】周知のように音声認識の技術は、優れた
マン・マシン・インタフェースを実現する上での重要な
役割を担っており、広い応用分野を持つ。

【０００３】初期の装置では、入力された音響信号のエ
ネルギなどを用いて、音響信号中の音声信号が存在する
区間（以下、音声区間と称する）を推定し、音声区間に
含まれる音響信号と認識装置の辞書に予め登録されてい
る単語モデルとを照合し、最良の照合結果の得られた単
語を認識結果として出力していた。

【０００４】しかし、上記のような音声区間を推定する
ような音声認識装置では、認識したい単語の前後に他の
音声が付加している場合には、認識したい単語の区間を
検出できず、正しい認識結果を得ることができなかっ
た。したがって、この種の音声認識装置の利用者は、入
力したい単語のみを発声しなければならず、自由に発声
することはできなかった。

【０００５】そこで、音声区間を推定することなく、入
力された音響信号から切り出すことのできる全ての区間
を切り出し、それぞれの区間毎に認識装置の辞書に予め
登録されている単語モデルと照合し、最良の照合結果の
得られた単語を認識結果として出力する方法が開発され
ている。この方式を用いた音声認識装置では、利用者が
入力したい単語に、「あぁ」、「えーと」、「です」な
どの不要な単語を付加して発話した場合でも、利用者が
意図した単語を認識することが可能である。

【０００６】以上に述べた従来の音声認識装置では、認
識結果は利用者の発話終了後に画面表示されていた。即
ち従来は、利用者の発話終了後に、それまでに得られた
複数の認識結果を表示して、利用者に最終的な認識結果
を選択させるものであった。

【０００７】しかし、このような従来の音声認識装置で
は、利用者に認識結果を提示するのは、認識装置が発話
の終了を検出した後になることから、利用者は装置が何
を認識結果としているのか直ぐには分からない。しか
も、従来の音声認識装置では、発話の終了を、入力され
る音響信号のエネルギが一定期間、あるレベルよりも小
さい場合として検知している。そのため、発話終了の検
知は利用者が発話を終了した後、一定時間経過してから
行なわれ、その後で認識結果が利用者に提示されてい
た。

【０００８】

【発明が解決しようとする課題】上記したように従来の
音声認識装置では、利用者の発話終了を検出した後、そ
れまでに得られた複数の認識結果を一括表示して、利用
者に最終的な認識結果を選択させるようにしていた。

【０００９】このため従来は、入力したい単語を装置が
認識していないことが利用者に分かるのは、発話終了を
装置が検出した後になり、スムーズな音声による入力が
難しいという問題があった。

【００１０】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、音声認識処理の
過程で生成される認識結果となり得る単語を、その生成
の都度、利用者に理解しやすい形で提示することがで
き、もってスムーズな音声による入力が行なえる音声認
識装置を提供することにある。

【００１１】

【課題を解決するための手段】本発明は、上記目的を達
成するために、音声信号を入力して音響分析する音響分
析手段と、認識する各種単語音声のモデルが登録された
認識単語辞書と、音響分析手段により音響分析された入
力音声に対して複数の区間を設定し、それぞれの区間内
の音声に対して、認識単語辞書に登録されているモデル
との照合を行なう照合手段と、このモデルとの照合の結
果、一定の閾値よりも良い照合結果が得られる毎に、対
応するモデルに固有の単語を最新の認識結果として画面
表示する認識結果逐次表示手段であって、既に表示中の
単語がある場合には、それに続く位置に表示する認識結
果逐次表示手段と、この表示された単語の中から外部か
らの指示に応じて最終的な認識結果を選択する認識結果
選択手段とを備えたことを特徴とするものである。

【００１２】

【作用】上記の構成においては、入力音声に対して複数
の区間が設定され、それぞれの区間毎に、その区間内の
音声と認識単語辞書内のモデル（単語モデル）との照合
が、逐次的に行なわれる。そして、このモデルとの照合
の結果、一定の閾値よりも良い照合結果が得られる毎
に、そのモデルに固有の単語が最新の認識結果として画
面表示される。この際、既に表示中の単語がある場合に
は、それに続く位置に上記最新の認識結果としての単語
が表示され、照合の行なわれた順序に一致する並び順と
なるように表示される。

【００１３】このように、上記の構成においては、音声
認識処理の過程で生成される認識結果となり得る単語
が、その生成の都度、その生成順に一致する並びでリア
ルタイムに表示される。したがって利用者は、自身の発
話した単語が認識装置でどのように認識されているのか
を即座に且つ明確に知ることができる。また、利用者
は、自分の入力したい単語が表示された段階で、直ちに
それを最終的な認識結果として選択することを指示する
ことができ、一定の閾値よりも良い照合結果が全て得ら
れて表示されるまで待たなくても済む。

【００１４】

【実施例】以下、本発明をエレベータ用の音声認識装置
に適用した場合の実施例について図面を参照して説明す
る。図１は本発明の一実施例に係る音声認識装置の構成
を示すブロック図である。

【００１５】同図において、１０は音響分析部である。
この音響分析部１０は、図示せぬマイクロホン等を介し
て入力される利用者が発声した音声信号（を含む音響信
号）を音響分析する。そして音響分析部１０は、音響分
析の結果得られる特徴パラメータ系列を短時間の区間
（フレーム）毎に音声の特徴を表わす音声セグメントに
量子化する。この音響分析部１０の具体的動作は次の通
りである。

【００１６】まず音響分析部１０は、例えば入力音声を
Ａ／Ｄ（アナログ／ディジタル）変換器を用いてサンプ
リング周波数１２KHZ 、１２ビットで量子化した後、フ
レーム長２４msec、フレーム周期８msecで１６次程度の
ＬＰＣ（Linear PredictiveCoding）（メル）ケプスト
ラムを求める。そして音響分析部１０は、この分析され
た特徴パラメータを時間軸方向にマトリクス量子化し、
数百程度の音声セグメントに量子化する。この音声セグ
メントは、音響分析部１０から単語区間照合部２０に送
られる。

【００１７】単語区間照合部２０は、音響分析部１０か
ら送られた音声セグメントから、取り出し得る全ての部
分系列を取り出し、それぞれの部分系列と、認識単語辞
書２１に予め登録されている各種認識単語のモデルとを
逐次照合する。そして単語区間照合部２０は、照合の結
果がある一定値より高い場合に、対応する単語を認識結
果逐次表示部３０に出力する。この単語区間照合部２０
の具体的動作を、図２に示すフローチャートを参照して
説明する。

【００１８】まず単語区間照合部２０は、フレーム番号
ｔの初期値として（先頭フレームを示す）ｔ＝１を設定
しておく（ステップＳ１）。次に単語区間照合部２０
は、音響分析部１０からフレーム番号ｔの音声セグメン
トを１つ入力し、その音声セグメントを、同照合部２０
が有する音声セグメントバッファ（図示せず）内の、フ
レーム番号ｔの区間の音声セグメント格納用バッファ領
域ｙ［ｔ］に格納する（ステップＳ２）。

【００１９】次に単語区間照合部２０は、フレーム番号
ｔ（の値）が、認識する単語の最小フレーム数（フレー
ム長）Ｌmin より小さいか否かを調べ（ステップＳ
３）、ＹＥＳであるならば、フレーム番号ｔを＋１した
後（ステップＳ４）、ステップＳ２に戻る。単語区間照
合部２０は、このステップＳ２において、＋１後の新た
なフレーム番号ｔの音声セグメント、即ち次の音声セグ
メントを音響分析部１０から入力して、音声セグメント
バッファの対応領域に格納する。

【００２０】このように単語区間照合部２０は、音声セ
グメントを音響分析部１０から時系列に沿ってフレーム
番号順に入力して音声セグメントバッファの対応領域に
格納する動作を、フレーム番号ｔがＬmin に一致するま
で繰り返す。

【００２１】そして、ｔがＬmin に一致するようになる
と、単語区間照合部２０は上記ステップＳ３でＮＯを判
定する。すると単語区間照合部２０は、音声セグメント
バッファから切り出す区間の数（長さ）に一致するフレ
ーム数（フレーム長）を表わす変数ｌｅｎをＬmin に設
定する（ステップＳ５）。続いて単語区間照合部２０
は、ｔ−ｌｅｎ＋１の値が０より大きく（即ち、フレー
ム番号ｔのフレームを終端とするｌｅｎの区間の音声セ
グメントが揃っており）、且つｌｅｎが認識する単語の
最大フレーム数（フレーム長）Ｌmax 以下であるか否か
を調べる（ステップＳ６）。本実施例において、上記Ｌ
min ，Ｌmax は、認識単語辞書２１に登録されている全
ての認識単語に共通のものとして予め用意されたもので
あるが、各認識単語毎に別々に用意しておいても構わな
い。

【００２２】さて単語区間照合部２０は、上記ステップ
Ｓ６の判定がＹＥＳであるならば、認識する単語の単語
番号ｍを初期値１に設定する（ステップＳ７）。これに
対して、ステップＳ６の判定がＮＯであるならば、（ス
テップＳ３でＹＥＳが判定された場合と同様に）フレー
ム番号ｔを＋１した後（ステップＳ４）、ステップＳ２
に戻る。

【００２３】単語区間照合部２０は、上記ステップＳ７
を実行すると、単語番号ｍの値が認識単語辞書２１に登
録されている単語（のモデル）数以下であるか否かを調
べる（ステップＳ８）。もし、ステップＳ８の判定がＹ
ＥＳであるならば、単語区間照合部２０は、未照合の単
語のモデルが認識単語辞書２１に存在するものとして、
音声セグメントバッファから、フレーム番号ｔのフレー
ムを終端とする（フレーム数が）ｌｅｎの区間内の音声
セグメント系列ｙ［ｔ−ｌｅｎ＋１］，ｙ［ｔ−ｌｅｎ＋２］，…，ｙ［ｔ］

【００２４】を切り出し、この音声セグメント系列と認
識単語辞書２１に登録されている単語番号がｍの単語の
モデルとの照合を行なう（ステップＳ９）。そして単語
区間照合部２０は、単語モデルとの照合結果がある一定
の値（閾値）以上であるか否かを調べる（ステップＳ１
０）。

【００２５】もし、照合結果が一定値以上である場合に
は、単語区間照合部２０は、対応する単語（単語番号ｍ
の単語）は認識結果となり得るものとして、その単語を
認識結果として直ちに認識結果逐次表示部３０に出力し
（ステップＳ１１）、しかる後単語番号ｍを＋１する
（ステップＳ１２）。

【００２６】これに対し、照合結果が一定値以上でない
場合には、単語区間照合部２０は、認識結果の出力を行
わず、単語番号ｍを＋１する処理（ステップＳ１２）だ
けを行なう。

【００２７】単語区間照合部２０は、ステップＳ１２で
単語番号ｍを＋１すると、ステップＳ８に戻り、この＋
１後の新たな単語番号ｍの値が認識単語辞書２１に登録
されている単語（のモデル）数以下であるならば、先の
照合での対象となった音声セグメント系列と新たな単語
番号ｍの単語のモデル（即ち、先に照合された単語の次
の単語のモデル）との照合を行なう（ステップＳ９）。
そして単語区間照合部２０は、照合結果を判定し（ステ
ップＳ１０）、その判定結果により、ステップＳ１１，
Ｓ１２、またはステップＳ１２を行なって、ステップＳ
８に戻る。

【００２８】単語区間照合部２０は、以上の動作の繰り
返しにより、音声セグメントバッファから切り出される
同一区間内の同一音声セグメント系列と、認識単語辞書
２１に登録されている各単語のモデルとの照合を、全て
の単語について行なうと、変数ｌｅｎを＋１して（ステ
ップＳ１３）、ステップＳ６に戻る。ここで、新たなｌ
ｅｎの値によりｔ−ｌｅｎ＋１が０以下となったなら
ば、ステップＳ６の判定はＮＯとなるため、フレーム番
号ｔが＋１されて（ステップＳ４）、ステップＳ２に戻
る。一方、ステップＳ６の判定がＹＥＳであるならば、
フレーム番号ｔのフレームを終端とする、＋１後の新た
なｌｅｎの示すフレーム数の区間内の音声セグメント系
列について、認識単語辞書２１に登録されている各単語
のモデルとの照合が、単語番号ｍ＝１の単語のモデルか
ら順に行なわれる。

【００２９】このようにして単語区間照合部２０は、ｌ
ｅｎの値をＬmin からＬmax まで１ずつ増加させなが
ら、即ちフレーム番号ｔのフレームを終端とする切り出
し区間をＬmin からＬmax まで１ずつ増加させながら
（但し、ｔ＝Ｌmin のときは切り出し区間はＬmin の１
つだけであり、Ｌmin ＜ｔ＜Ｌmax のときは切り出し区
間はＬmin からｔまでのｔ−Ｌmin ＋１通りとなる）、
その区間内の音声セグメント系列と認識単語辞書２１に
登録されている各単語のモデルとの照合を繰り返し実行
し、照合の結果が一定値以上となる毎に、対応する単語
を認識結果として認識結果逐次表示部３０に出力する。

【００３０】単語区間照合部２０は、Ｌmin からＬmax
の範囲で全てのｌｅｎについて照合を行なうと、ｌｅｎ
＞Ｌmax となることから、上記ステップＳ６においてＮ
Ｏを判定する。すると単語区間照合部２０は、フレーム
番号ｔを＋１した後（ステップＳ４）、ステップＳ２に
戻る。

【００３１】以降、単語区間照合部２０は、上記と同様
に、ｌｅｎの値をＬmin からＬmaxまで１ずつ増加さ
せ、新たなフレーム番号ｔのフレームを終端とする切り
出し区間をＬmin からＬmax まで１ずつ増加させなが
ら、その区間内の音声セグメント系列と認識単語辞書２
１に登録されている各単語のモデルとを照合して、フレ
ーム番号ｔを＋１する動作を、利用者の発話が終了（し
たのを検知）するまで繰り返す。

【００３２】ところで、上記したような区間で区切られ
た音声セグメント系列と認識単語のモデルとの照合の方
式は種々知られており、その代表的なものに、例えば離
散ＨＭＭ（Hidden Markov Model ）を用いた照合方式が
ある。

【００３３】ＨＭＭでは、Ｎ個の状態Ｓ₁，Ｓ₂，…，
Ｓ_Nを持ち、初期状態がこれらＮ個の状態に確率的に分
布しているとする。音声では、一定のフレーム周期毎
に、ある確率（遷移確率）で状態を遷移するモデルが使
われる。遷移の際には、ある確率（出力確率）でラベル
を出力する。ここでは、離散ＨＭＭの入力が音声セグメ
ント系列なので、ラベルとして音声セグメントを用い
る。出力ラベル系列が与えられても、状態を遷移する仕
方は複数あるため、状態遷移系列は一意には定まらな
い。観測できるのはラベル系列だけであることから、隠
れマルコフモデル（hidden markov model ；ＨＭＭ）と
呼ばれている。ＨＭＭのモデルＭは次の６つのパラメー
タから定義される。Ｎ：状態数（状態Ｓ₁，Ｓ₂，…，Ｓ_N）Ｋ：ラベル数（ラベルＲ＝１，２，…，Ｋ）ｐ_ij ：遷移確率Ｓ_iからＳ_jに遷移する確率ｑ_ij(k) ：Ｓ_iからＳ_jへの遷移の際にラベルｋを出力
する確率ｍ_i ：初期状態確率Ｓ_iが初期状態となる確率Ｆ：最終状態となり得る状態の集合一般に音声認識に用いらＨＭＭの代表的な構造を、状態
数Ｎが１０の場合について図３に示す。

【００３４】さて、ＨＭＭを用いた照合では、認識に先
立って、多数の話者から収録した認識単語の学習データ
を用いて、学習データの出力確率が最大となるモデルＭ
のパラメータを推定し、認識単語辞書２１に登録してお
く。この推定に用いられるアルゴリズムとしては、フォ
ワード・バックワードアルゴリズムが知られている。

【００３５】また、ＨＭＭを用いた照合では、認識単語
ｗのモデルＭがラベル系列Ｏ＝ｏ₁，ｏ₂，…，ｏ_Tを
出力する確率を求める。この確率を求めるアルゴリズム
としては、ビタビ（Viterbi ）アルゴリズムが知られて
いる。次に認識結果逐次表示部３０の動作について説明
する。

【００３６】認識結果逐次表示部３０は、単語区間照合
部２０から認識結果（単語）が出力される毎に、その認
識結果を、ＣＲＴディスプレイ、液晶ディスプレイなど
の表示装置４０の表示画面に確保されている認識結果表
示領域４１に表示する。同時に認識結果逐次表示部３０
は、認識結果表示領域４１に表示されている認識結果
（単語）の選択を司る認識結果選択部５０に対して、現
在画面に表示している認識結果とその表示位置（認識結
果表示領域４１内の段位置）の情報を通知する。

【００３７】さて本実施例では、認識結果表示領域４１
には、複数の認識結果が、認識結果逐次表示部３０に入
力された時間順に、即ち単語区間照合部２０により認識
された時間順に、例えば縦に並べて最大３つまで表示さ
れるようになっている。したがって、認識結果逐次表示
部３０から送られた認識結果の総数が３つを超えたため
に認識結果表示領域４１に表示しきれなくなった場合に
は、認識結果逐次表示部３０は、上へのスクロールを行
なって、それまで表示されていた認識結果のうち最も早
い時刻に表示された認識結果を認識結果表示領域４１か
ら消去し、新たな認識結果を認識結果表示領域４１の最
下段に表示する。これにより、認識結果表示領域４１に
は、その最下段に最新の認識結果が表示され、上段にな
るほど古い認識結果が表示される。

【００３８】以上の認識結果表示領域４１への認識結果
表示の様子の一例を、利用者の発話内容と同内容に対す
る単語区間照合部２０での照合処理により出力される認
識結果列が図４のようになっている場合について、図５
に示す。

【００３９】この図５は、認識単語辞書２１に「１
階」、「２階」、「３階」、「４階」、「５階」、「６
階」の６単語（のモデル）が登録されており、図４に示
すように、利用者が「えーと６階をお願いします（えー
とろっかいをおねがいします）」と図１の音声認識装置
にマイクロホンから音声を入力した結果、単語区間照合
部２０の照合処理により、まず時刻ｔ₁で「２階」が、
次に時刻ｔ₂で「６階」が、続いて時刻ｔ₃で「１階」
が、更に時刻ｔ₄で「５階」が、それぞれ検出され、こ
れらの認識結果（単語）が、その検出の都度認識結果逐
次表示部３０に出力された場合の認識結果表示領域４１
の様子を時刻順に示したものである。

【００４０】まず、利用者が発話を開始した時刻ｔ₀で
は、単語区間照合部２０は何も出力していないため、認
識結果逐次表示部３０には何も入力されておらず、認識
結果表示領域４１にも図５（ａ）に示すように、何も表
示されない。

【００４１】時刻ｔ₁では、認識結果逐次表示部３０
は、単語区間照合部２０から認識結果「２階」を受け取
り、これを、図５（ｂ）に示すように、認識結果表示領
域４１の空いている段の中の最も上の段、即ち１段目に
表示する。

【００４２】時刻ｔ₂では、認識結果逐次表示部３０
は、単語区間照合部２０から認識結果「６階」を受け取
り、これを、図５（ｃ）に示すように、認識結果表示領
域４１の空いている段の中の最も上の段、即ち２段目に
表示する。同様にして認識結果逐次表示部３０は、時刻
ｔ₃では、認識結果「１階」を、図５（ｄ）に示すよう
に、認識結果表示領域４１の３段目（最下段）に表示す
る。

【００４３】時刻ｔ₄では、認識結果逐次表示部３０
は、単語区間照合部２０から認識結果「５階」を受け取
る。このとき認識結果表示領域４１には、この最新の認
識結果「５階」を表示する場所が残っていない（図５
（ｄ）参照）。

【００４４】このような場合、認識結果逐次表示部３０
は、認識結果表示領域４１をスクロール・アップして、
最も早く表示された「２階」を認識結果表示領域４１か
ら消去する。すると、認識結果表示領域４１の３段目が
空欄となるため、認識結果逐次表示部３０は、単語区間
照合部２０から受け取った認識結果「５階」を、図５
（ｅ）に示すように、その３段目に表示する。

【００４５】音声認識装置の利用者は、認識結果逐次表
示部３０により、表示装置４０の表示画面の認識結果表
示領域４１に逐次表示された認識結果の中から、自身が
意図した単語を選択指定するための操作を行なう。本実
施例において、この利用者による選択操作に供される選
択操作装置には、認識結果表示領域４１内の任意の段位
置を位置指定するための位置指定装置６０が適用されて
いる。位置指定装置６０は、例えば表示装置４０の表示
画面に重ねて使用されるタッチパネルを用いて構成され
ている。

【００４６】位置指定装置６０は、利用者が、認識結果
表示領域４１内の任意の段位置を指で触れると、その触
れた点の画面上の座標を認識結果選択部５０に出力す
る。認識結果選択部５０は、位置指定装置６０からの出
力座標を受け取ると、以下に述べる認識結果の選択動作
を行なう。

【００４７】まず認識結果選択部５０には、表示装置４
０の表示画面に対する認識結果表示領域４１の位置と、
認識結果表示領域４１内の各段の位置の情報が与えられ
ている。そこで認識結果選択部５０は、この位置情報と
上記受け取った座標とから、同座標が認識結果表示領域
４１の何段目にあるかを計算し、利用者が位置指定した
認識結果表示領域４１内の段位置を認識する。

【００４８】すると認識結果選択部５０は、認識した段
位置と、認識結果逐次表示部３０から通知されている情
報（画面表示されている認識結果とその表示位置の情
報）とをもとに、その段位置に表示されている認識結
果、即ち利用者が位置指定装置６０を操作して選択指定
した認識結果を得て、それを音声認識装置の最終認識結
果として出力する。次に、以上の認識結果選択部５０の
更に具体的な動作を、認識結果表示領域４１の表示内容
が図５（ｅ）に示す場合を例に説明する。

【００４９】まず、時刻ｔ₄の時点では、認識結果表示
領域４１には、図５（ｅ）に示すように、その１段目
（最上段）には認識結果「６階」が、２段目には認識結
果「１階」が、そして３段目（最下段）には認識結果
「５階」が表示されている。

【００５０】この状態で、利用者が、認識結果表示領域
４１において正しい認識結果が表示されている認識結果
表示領域４１内の段位置、即ち「６階」と表示された段
（１段目）を指で触れたものとする。

【００５１】すると位置指定装置６０は、利用者が触れ
た点の画面上の座標を認識結果選択部５０に出力する。
認識結果選択部５０は、位置指定装置６０から出力され
た座標を受け取ると、表示画面に対する認識結果表示領
域４１の位置と、認識結果表示領域４１内の各段の位置
をもとに、その座標が、認識結果表示領域４１の何段目
にあるかを計算する。このようにして認識結果選択部５
０は、利用者が認識結果表示領域４１の１段目に触れた
ことを認識することができる。

【００５２】次に認識結果選択部５０は、この認識した
段位置（１段目）と、認識結果逐次表示部３０から通知
されている情報、即ち認識結果表示領域４１の１段目に
認識結果「６階」が、２段目に認識結果「１階」が、そ
して３段目に認識結果「５階」が表示されているという
情報をもとに、認識した１段目、即ち利用者が触れた認
識結果表示領域４１内の１段目に表示されている認識結
果が「６階」であることを知る。そして認識結果選択部
５０は、この「６階」を音声認識装置の最終認識結果と
して出力する。

【００５３】なお、上記の例は、時刻ｔ₄の時点、即ち
音声認識装置の利用者の発話が終了した時点で位置指定
装置６０を操作していた。しかし本実施例では、単語区
間照合部２０により、一定値以上の照合結果が得られる
毎に、対応する単語が認識結果として単語区間照合部２
０から認識結果逐次表示部３０に出力されて、その都
度、認識結果逐次表示部３０により認識結果表示領域４
１に表示されるので、発話の途中であっても、自身が意
図した単語が認識結果表示領域４１に表示された場合に
は、直ちに位置指定装置６０を操作して、その単語を選
択指定することが可能となる。

【００５４】例えば時刻ｔ₂では、図４に示すように利
用者は発話中であるが、単語区間照合部２０が発話の中
の「６階」という単語を検出し、それを認識結果逐次表
示部３０が図５（ｃ）に示すように認識結果表示領域４
１の２段目に表示している。したがって、このときに利
用者が認識結果表示領域４１の２段目を触れるならば、
上記と同様の動作により、認識結果選択部５０から最終
認識結果として「６階」が出力される。

【００５５】以上のように本実施例によれば、利用者は
発話中であっても認識結果を選択指定することができる
ため、スムーズに音声認識装置を使えるようになる。ま
た、認識結果表示領域４１に複数の認識結果が表示され
るため、図４の例のように、利用者が入力したい単語
（「６階」）の後で誤った単語（「１階」、「５階」）
が検出された場合でも、図５（ｅ）に示すように「６
階」は依然として認識結果表示領域４１に残っており、
利用者は「６階」を選択指定することができる。

【００５６】更に本実施例によれば、単語区間照合部２
０により単語が認識される毎に、その単語が認識結果逐
次表示部３０により直ちに認識結果表示領域４１に表示
されるため、もし利用者が「えーと６階を」まで発声し
た時点で、認識結果表示領域４１に「６階」が表示され
ていない場合には、利用者は「６階」が単語区間照合部
２０で認識されていないことを知ることができる。した
がって利用者は、「６階を」まで言い終わっ時点で、再
度「６階」という単語を発声することによって、正しい
認識結果を得ることが可能となる。それに対して、従来
の音声認識装置では、「えーと６階をお願いします」と
言い終わるまで、「６階」が認識されていないことを知
ることができないため、「６階」を再入力するために必
要な時間が多くなってしまう。

【００５７】なお、前記実施例では、利用者の選択操作
に供される選択操作装置としてタッチパネルを用いた位
置指定装置を６０を適用した場合について説明したが、
これに限るものではなく、キーボードで表示位置を選択
するようにしても良いし、マウスを用いても構わない。

【００５８】また、前記実施例では、エレベータ用の音
声認識装置に適用した場合について説明したが、本発明
は音声による入力を必要とする全ての分野における音声
認識装置に適用可能である。

【００５９】

【発明の効果】以上に説明したように本発明によれば、
音声認識処理の過程で生成される認識結果となり得る単
語が、その生成の都度、その生成順序に一致する並び順
となるように表示されるので、音声認識装置の利用者は
自身が入力したい単語が表示された段階で、即座にそれ
を最終的な認識結果として選択することができるように
なり、また即座に認識結果として選択しない場合にも、
その単語が相当期間表示されるため、後から選択するこ
ともできる。したがって、音声認識装置の利用者にとっ
て、非常に自由度の高い入力手段を提供することがで
き、実用上多大なる効果が奏せられる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る音声認識装置の構成を
示すブロック図。

【図２】図１に示す単語区間照合部２０の処理の流れを
説明するためのフローチャート。

【図３】ＨＭＭの代表的な構造を示す図。

【図４】利用者の発話内容と同内容に対する単語区間照
合部２０での照合処理により出力される認識結果列の一
例を示す図。

【図５】図４の例における認識結果逐次表示部３０の動
作を説明するために、認識結果表示領域４１への認識結
果表示の様子を示す図。

【符号の説明】

１０…音響分析部、２０…単語区間照合部、２１…認識
単語辞書、３０…認識結果逐次表示部、４０…表示装
置、４１…認識結果表示領域、５０…認識結果選択部、
６０…位置指定装置。

Claims

【特許請求の範囲】

【請求項１】音声信号を入力して音響分析する音響分
析手段と、各種単語音声のモデルが登録された認識単語辞書と、前記音響分析手段により音響分析された入力音声に対し
て複数の区間を設定し、それぞれの区間内の音声と前記
認識単語辞書に登録されているモデルとを照合する照合
手段と、この照合手段による照合の結果、一定の値よりも良い照
合結果が得られる毎に、対応するモデルに固有の単語を
最新の認識結果として画面表示する認識結果逐次表示手
段であって、既に表示中の単語がある場合には、それに
続く位置に表示する認識結果逐次表示手段と、この認識結果逐次表示手段により表示された単語の中か
ら外部からの指示に応じて最終的な認識結果を選択する
認識結果選択手段とを具備することを特徴とする音声認
識装置。
【請求項２】前記認識結果逐次表示手段は、前記最新
の認識結果としての単語を表示する際に、既に表示中の
単語があり、その単語数が同時表示可能な最大単語数に
一致している場合には、画面スクロールを行うことによ
り最も以前に得られた単語を消去して表示領域を確保
し、その領域に前記最新の認識結果としての単語を表示
することを特徴とする請求項１記載の音声認識装置。