JPH06250689A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH06250689A
JPH06250689A JP5033675A JP3367593A JPH06250689A JP H06250689 A JPH06250689 A JP H06250689A JP 5033675 A JP5033675 A JP 5033675A JP 3367593 A JP3367593 A JP 3367593A JP H06250689 A JPH06250689 A JP H06250689A
Authority
JP
Japan
Prior art keywords
word
recognition result
recognition
displayed
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5033675A
Other languages
English (en)
Inventor
Shinichi Tanaka
信一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5033675A priority Critical patent/JPH06250689A/ja
Publication of JPH06250689A publication Critical patent/JPH06250689A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】音声認識処理の過程で生成される認識結果とな
り得る単語を利用者に理解しやすい形で提示して、スム
ーズな音声による入力が行なえるようにする。 【構成】入力音声を音響分析部10にて音響分析し、そ
の結果得られる音声セグメント系列を単語区間照合部2
0で受けて、その系列から取り出し得る全ての部分系列
を取り出し、それぞれの部分系列と認識単語辞書21に
予め登録されている認識単語のモデルとの照合を行い、
その結果、ある一定値よりも良い照合結果が得られる毎
に、対応する単語を出力する。この単語を認識結果逐次
表示部30で受けて、その都度表示装置40の認識結果
表示領域41に表示する。この際、既に表示中の単語が
あれば、それに続く位置に最新の認識結果が表示され
る。この認識結果表示領域41に表示されている単語の
中から位置指定装置60の指定に応じて認識結果選択部
50により最終的な認識結果が選択される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、連続的に発声された音
声から、その音声に同期して特定の単語を検出する音声
認識装置に関する。
【0002】
【従来の技術】周知のように音声認識の技術は、優れた
マン・マシン・インタフェースを実現する上での重要な
役割を担っており、広い応用分野を持つ。
【0003】初期の装置では、入力された音響信号のエ
ネルギなどを用いて、音響信号中の音声信号が存在する
区間(以下、音声区間と称する)を推定し、音声区間に
含まれる音響信号と認識装置の辞書に予め登録されてい
る単語モデルとを照合し、最良の照合結果の得られた単
語を認識結果として出力していた。
【0004】しかし、上記のような音声区間を推定する
ような音声認識装置では、認識したい単語の前後に他の
音声が付加している場合には、認識したい単語の区間を
検出できず、正しい認識結果を得ることができなかっ
た。したがって、この種の音声認識装置の利用者は、入
力したい単語のみを発声しなければならず、自由に発声
することはできなかった。
【0005】そこで、音声区間を推定することなく、入
力された音響信号から切り出すことのできる全ての区間
を切り出し、それぞれの区間毎に認識装置の辞書に予め
登録されている単語モデルと照合し、最良の照合結果の
得られた単語を認識結果として出力する方法が開発され
ている。この方式を用いた音声認識装置では、利用者が
入力したい単語に、「あぁ」、「えーと」、「です」な
どの不要な単語を付加して発話した場合でも、利用者が
意図した単語を認識することが可能である。
【0006】以上に述べた従来の音声認識装置では、認
識結果は利用者の発話終了後に画面表示されていた。即
ち従来は、利用者の発話終了後に、それまでに得られた
複数の認識結果を表示して、利用者に最終的な認識結果
を選択させるものであった。
【0007】しかし、このような従来の音声認識装置で
は、利用者に認識結果を提示するのは、認識装置が発話
の終了を検出した後になることから、利用者は装置が何
を認識結果としているのか直ぐには分からない。しか
も、従来の音声認識装置では、発話の終了を、入力され
る音響信号のエネルギが一定期間、あるレベルよりも小
さい場合として検知している。そのため、発話終了の検
知は利用者が発話を終了した後、一定時間経過してから
行なわれ、その後で認識結果が利用者に提示されてい
た。
【0008】
【発明が解決しようとする課題】上記したように従来の
音声認識装置では、利用者の発話終了を検出した後、そ
れまでに得られた複数の認識結果を一括表示して、利用
者に最終的な認識結果を選択させるようにしていた。
【0009】このため従来は、入力したい単語を装置が
認識していないことが利用者に分かるのは、発話終了を
装置が検出した後になり、スムーズな音声による入力が
難しいという問題があった。
【0010】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、音声認識処理の
過程で生成される認識結果となり得る単語を、その生成
の都度、利用者に理解しやすい形で提示することがで
き、もってスムーズな音声による入力が行なえる音声認
識装置を提供することにある。
【0011】
【課題を解決するための手段】本発明は、上記目的を達
成するために、音声信号を入力して音響分析する音響分
析手段と、認識する各種単語音声のモデルが登録された
認識単語辞書と、音響分析手段により音響分析された入
力音声に対して複数の区間を設定し、それぞれの区間内
の音声に対して、認識単語辞書に登録されているモデル
との照合を行なう照合手段と、このモデルとの照合の結
果、一定の閾値よりも良い照合結果が得られる毎に、対
応するモデルに固有の単語を最新の認識結果として画面
表示する認識結果逐次表示手段であって、既に表示中の
単語がある場合には、それに続く位置に表示する認識結
果逐次表示手段と、この表示された単語の中から外部か
らの指示に応じて最終的な認識結果を選択する認識結果
選択手段とを備えたことを特徴とするものである。
【0012】
【作用】上記の構成においては、入力音声に対して複数
の区間が設定され、それぞれの区間毎に、その区間内の
音声と認識単語辞書内のモデル(単語モデル)との照合
が、逐次的に行なわれる。そして、このモデルとの照合
の結果、一定の閾値よりも良い照合結果が得られる毎
に、そのモデルに固有の単語が最新の認識結果として画
面表示される。この際、既に表示中の単語がある場合に
は、それに続く位置に上記最新の認識結果としての単語
が表示され、照合の行なわれた順序に一致する並び順と
なるように表示される。
【0013】このように、上記の構成においては、音声
認識処理の過程で生成される認識結果となり得る単語
が、その生成の都度、その生成順に一致する並びでリア
ルタイムに表示される。したがって利用者は、自身の発
話した単語が認識装置でどのように認識されているのか
を即座に且つ明確に知ることができる。また、利用者
は、自分の入力したい単語が表示された段階で、直ちに
それを最終的な認識結果として選択することを指示する
ことができ、一定の閾値よりも良い照合結果が全て得ら
れて表示されるまで待たなくても済む。
【0014】
【実施例】以下、本発明をエレベータ用の音声認識装置
に適用した場合の実施例について図面を参照して説明す
る。図1は本発明の一実施例に係る音声認識装置の構成
を示すブロック図である。
【0015】同図において、10は音響分析部である。
この音響分析部10は、図示せぬマイクロホン等を介し
て入力される利用者が発声した音声信号(を含む音響信
号)を音響分析する。そして音響分析部10は、音響分
析の結果得られる特徴パラメータ系列を短時間の区間
(フレーム)毎に音声の特徴を表わす音声セグメントに
量子化する。この音響分析部10の具体的動作は次の通
りである。
【0016】まず音響分析部10は、例えば入力音声を
A/D(アナログ/ディジタル)変換器を用いてサンプ
リング周波数12KHZ 、12ビットで量子化した後、フ
レーム長24msec、フレーム周期8msecで16次程度の
LPC(Linear PredictiveCoding)(メル)ケプスト
ラムを求める。そして音響分析部10は、この分析され
た特徴パラメータを時間軸方向にマトリクス量子化し、
数百程度の音声セグメントに量子化する。この音声セグ
メントは、音響分析部10から単語区間照合部20に送
られる。
【0017】単語区間照合部20は、音響分析部10か
ら送られた音声セグメントから、取り出し得る全ての部
分系列を取り出し、それぞれの部分系列と、認識単語辞
書21に予め登録されている各種認識単語のモデルとを
逐次照合する。そして単語区間照合部20は、照合の結
果がある一定値より高い場合に、対応する単語を認識結
果逐次表示部30に出力する。この単語区間照合部20
の具体的動作を、図2に示すフローチャートを参照して
説明する。
【0018】まず単語区間照合部20は、フレーム番号
tの初期値として(先頭フレームを示す)t=1を設定
しておく(ステップS1)。次に単語区間照合部20
は、音響分析部10からフレーム番号tの音声セグメン
トを1つ入力し、その音声セグメントを、同照合部20
が有する音声セグメントバッファ(図示せず)内の、フ
レーム番号tの区間の音声セグメント格納用バッファ領
域y[t]に格納する(ステップS2)。
【0019】次に単語区間照合部20は、フレーム番号
t(の値)が、認識する単語の最小フレーム数(フレー
ム長)Lmin より小さいか否かを調べ(ステップS
3)、YESであるならば、フレーム番号tを+1した
後(ステップS4)、ステップS2に戻る。単語区間照
合部20は、このステップS2において、+1後の新た
なフレーム番号tの音声セグメント、即ち次の音声セグ
メントを音響分析部10から入力して、音声セグメント
バッファの対応領域に格納する。
【0020】このように単語区間照合部20は、音声セ
グメントを音響分析部10から時系列に沿ってフレーム
番号順に入力して音声セグメントバッファの対応領域に
格納する動作を、フレーム番号tがLmin に一致するま
で繰り返す。
【0021】そして、tがLmin に一致するようになる
と、単語区間照合部20は上記ステップS3でNOを判
定する。すると単語区間照合部20は、音声セグメント
バッファから切り出す区間の数(長さ)に一致するフレ
ーム数(フレーム長)を表わす変数lenをLmin に設
定する(ステップS5)。続いて単語区間照合部20
は、t−len+1の値が0より大きく(即ち、フレー
ム番号tのフレームを終端とするlenの区間の音声セ
グメントが揃っており)、且つlenが認識する単語の
最大フレーム数(フレーム長)Lmax 以下であるか否か
を調べる(ステップS6)。本実施例において、上記L
min ,Lmax は、認識単語辞書21に登録されている全
ての認識単語に共通のものとして予め用意されたもので
あるが、各認識単語毎に別々に用意しておいても構わな
い。
【0022】さて単語区間照合部20は、上記ステップ
S6の判定がYESであるならば、認識する単語の単語
番号mを初期値1に設定する(ステップS7)。これに
対して、ステップS6の判定がNOであるならば、(ス
テップS3でYESが判定された場合と同様に)フレー
ム番号tを+1した後(ステップS4)、ステップS2
に戻る。
【0023】単語区間照合部20は、上記ステップS7
を実行すると、単語番号mの値が認識単語辞書21に登
録されている単語(のモデル)数以下であるか否かを調
べる(ステップS8)。もし、ステップS8の判定がY
ESであるならば、単語区間照合部20は、未照合の単
語のモデルが認識単語辞書21に存在するものとして、
音声セグメントバッファから、フレーム番号tのフレー
ムを終端とする(フレーム数が)lenの区間内の音声
セグメント系列 y[t−len+1],y[t−len+2],…,y[t]
【0024】を切り出し、この音声セグメント系列と認
識単語辞書21に登録されている単語番号がmの単語の
モデルとの照合を行なう(ステップS9)。そして単語
区間照合部20は、単語モデルとの照合結果がある一定
の値(閾値)以上であるか否かを調べる(ステップS1
0)。
【0025】もし、照合結果が一定値以上である場合に
は、単語区間照合部20は、対応する単語(単語番号m
の単語)は認識結果となり得るものとして、その単語を
認識結果として直ちに認識結果逐次表示部30に出力し
(ステップS11)、しかる後単語番号mを+1する
(ステップS12)。
【0026】これに対し、照合結果が一定値以上でない
場合には、単語区間照合部20は、認識結果の出力を行
わず、単語番号mを+1する処理(ステップS12)だ
けを行なう。
【0027】単語区間照合部20は、ステップS12で
単語番号mを+1すると、ステップS8に戻り、この+
1後の新たな単語番号mの値が認識単語辞書21に登録
されている単語(のモデル)数以下であるならば、先の
照合での対象となった音声セグメント系列と新たな単語
番号mの単語のモデル(即ち、先に照合された単語の次
の単語のモデル)との照合を行なう(ステップS9)。
そして単語区間照合部20は、照合結果を判定し(ステ
ップS10)、その判定結果により、ステップS11,
S12、またはステップS12を行なって、ステップS
8に戻る。
【0028】単語区間照合部20は、以上の動作の繰り
返しにより、音声セグメントバッファから切り出される
同一区間内の同一音声セグメント系列と、認識単語辞書
21に登録されている各単語のモデルとの照合を、全て
の単語について行なうと、変数lenを+1して(ステ
ップS13)、ステップS6に戻る。ここで、新たなl
enの値によりt−len+1が0以下となったなら
ば、ステップS6の判定はNOとなるため、フレーム番
号tが+1されて(ステップS4)、ステップS2に戻
る。一方、ステップS6の判定がYESであるならば、
フレーム番号tのフレームを終端とする、+1後の新た
なlenの示すフレーム数の区間内の音声セグメント系
列について、認識単語辞書21に登録されている各単語
のモデルとの照合が、単語番号m=1の単語のモデルか
ら順に行なわれる。
【0029】このようにして単語区間照合部20は、l
enの値をLmin からLmax まで1ずつ増加させなが
ら、即ちフレーム番号tのフレームを終端とする切り出
し区間をLmin からLmax まで1ずつ増加させながら
(但し、t=Lmin のときは切り出し区間はLmin の1
つだけであり、Lmin <t<Lmax のときは切り出し区
間はLmin からtまでのt−Lmin +1通りとなる)、
その区間内の音声セグメント系列と認識単語辞書21に
登録されている各単語のモデルとの照合を繰り返し実行
し、照合の結果が一定値以上となる毎に、対応する単語
を認識結果として認識結果逐次表示部30に出力する。
【0030】単語区間照合部20は、Lmin からLmax
の範囲で全てのlenについて照合を行なうと、len
>Lmax となることから、上記ステップS6においてN
Oを判定する。すると単語区間照合部20は、フレーム
番号tを+1した後(ステップS4)、ステップS2に
戻る。
【0031】以降、単語区間照合部20は、上記と同様
に、lenの値をLmin からLmaxまで1ずつ増加さ
せ、新たなフレーム番号tのフレームを終端とする切り
出し区間をLmin からLmax まで1ずつ増加させなが
ら、その区間内の音声セグメント系列と認識単語辞書2
1に登録されている各単語のモデルとを照合して、フレ
ーム番号tを+1する動作を、利用者の発話が終了(し
たのを検知)するまで繰り返す。
【0032】ところで、上記したような区間で区切られ
た音声セグメント系列と認識単語のモデルとの照合の方
式は種々知られており、その代表的なものに、例えば離
散HMM(Hidden Markov Model )を用いた照合方式が
ある。
【0033】HMMでは、N個の状態S1 ,S2 ,…,
N を持ち、初期状態がこれらN個の状態に確率的に分
布しているとする。音声では、一定のフレーム周期毎
に、ある確率(遷移確率)で状態を遷移するモデルが使
われる。遷移の際には、ある確率(出力確率)でラベル
を出力する。ここでは、離散HMMの入力が音声セグメ
ント系列なので、ラベルとして音声セグメントを用い
る。出力ラベル系列が与えられても、状態を遷移する仕
方は複数あるため、状態遷移系列は一意には定まらな
い。観測できるのはラベル系列だけであることから、隠
れマルコフモデル(hidden markov model ;HMM)と
呼ばれている。HMMのモデルMは次の6つのパラメー
タから定義される。 N :状態数 (状態S1 ,S2 ,…,SN ) K :ラベル数 (ラベルR=1,2,…,K) pij :遷移確率 Si からSj に遷移する確率 qij(k) :Si からSj への遷移の際にラベルkを出力
する確率 mi :初期状態確率 Si が初期状態となる確率 F :最終状態となり得る状態の集合 一般に音声認識に用いらHMMの代表的な構造を、状態
数Nが10の場合について図3に示す。
【0034】さて、HMMを用いた照合では、認識に先
立って、多数の話者から収録した認識単語の学習データ
を用いて、学習データの出力確率が最大となるモデルM
のパラメータを推定し、認識単語辞書21に登録してお
く。この推定に用いられるアルゴリズムとしては、フォ
ワード・バックワードアルゴリズムが知られている。
【0035】また、HMMを用いた照合では、認識単語
wのモデルMがラベル系列O=o1,o2 ,…,oT
出力する確率を求める。この確率を求めるアルゴリズム
としては、ビタビ(Viterbi )アルゴリズムが知られて
いる。次に認識結果逐次表示部30の動作について説明
する。
【0036】認識結果逐次表示部30は、単語区間照合
部20から認識結果(単語)が出力される毎に、その認
識結果を、CRTディスプレイ、液晶ディスプレイなど
の表示装置40の表示画面に確保されている認識結果表
示領域41に表示する。同時に認識結果逐次表示部30
は、認識結果表示領域41に表示されている認識結果
(単語)の選択を司る認識結果選択部50に対して、現
在画面に表示している認識結果とその表示位置(認識結
果表示領域41内の段位置)の情報を通知する。
【0037】さて本実施例では、認識結果表示領域41
には、複数の認識結果が、認識結果逐次表示部30に入
力された時間順に、即ち単語区間照合部20により認識
された時間順に、例えば縦に並べて最大3つまで表示さ
れるようになっている。したがって、認識結果逐次表示
部30から送られた認識結果の総数が3つを超えたため
に認識結果表示領域41に表示しきれなくなった場合に
は、認識結果逐次表示部30は、上へのスクロールを行
なって、それまで表示されていた認識結果のうち最も早
い時刻に表示された認識結果を認識結果表示領域41か
ら消去し、新たな認識結果を認識結果表示領域41の最
下段に表示する。これにより、認識結果表示領域41に
は、その最下段に最新の認識結果が表示され、上段にな
るほど古い認識結果が表示される。
【0038】以上の認識結果表示領域41への認識結果
表示の様子の一例を、利用者の発話内容と同内容に対す
る単語区間照合部20での照合処理により出力される認
識結果列が図4のようになっている場合について、図5
に示す。
【0039】この図5は、認識単語辞書21に「1
階」、「2階」、「3階」、「4階」、「5階」、「6
階」の6単語(のモデル)が登録されており、図4に示
すように、利用者が「えーと6階をお願いします(えー
とろっかいをおねがいします)」と図1の音声認識装置
にマイクロホンから音声を入力した結果、単語区間照合
部20の照合処理により、まず時刻t1 で「2階」が、
次に時刻t2 で「6階」が、続いて時刻t3 で「1階」
が、更に時刻t4 で「5階」が、それぞれ検出され、こ
れらの認識結果(単語)が、その検出の都度認識結果逐
次表示部30に出力された場合の認識結果表示領域41
の様子を時刻順に示したものである。
【0040】まず、利用者が発話を開始した時刻t0
は、単語区間照合部20は何も出力していないため、認
識結果逐次表示部30には何も入力されておらず、認識
結果表示領域41にも図5(a)に示すように、何も表
示されない。
【0041】時刻t1 では、認識結果逐次表示部30
は、単語区間照合部20から認識結果「2階」を受け取
り、これを、図5(b)に示すように、認識結果表示領
域41の空いている段の中の最も上の段、即ち1段目に
表示する。
【0042】時刻t2 では、認識結果逐次表示部30
は、単語区間照合部20から認識結果「6階」を受け取
り、これを、図5(c)に示すように、認識結果表示領
域41の空いている段の中の最も上の段、即ち2段目に
表示する。同様にして認識結果逐次表示部30は、時刻
3 では、認識結果「1階」を、図5(d)に示すよう
に、認識結果表示領域41の3段目(最下段)に表示す
る。
【0043】時刻t4 では、認識結果逐次表示部30
は、単語区間照合部20から認識結果「5階」を受け取
る。このとき認識結果表示領域41には、この最新の認
識結果「5階」を表示する場所が残っていない(図5
(d)参照)。
【0044】このような場合、認識結果逐次表示部30
は、認識結果表示領域41をスクロール・アップして、
最も早く表示された「2階」を認識結果表示領域41か
ら消去する。すると、認識結果表示領域41の3段目が
空欄となるため、認識結果逐次表示部30は、単語区間
照合部20から受け取った認識結果「5階」を、図5
(e)に示すように、その3段目に表示する。
【0045】音声認識装置の利用者は、認識結果逐次表
示部30により、表示装置40の表示画面の認識結果表
示領域41に逐次表示された認識結果の中から、自身が
意図した単語を選択指定するための操作を行なう。本実
施例において、この利用者による選択操作に供される選
択操作装置には、認識結果表示領域41内の任意の段位
置を位置指定するための位置指定装置60が適用されて
いる。位置指定装置60は、例えば表示装置40の表示
画面に重ねて使用されるタッチパネルを用いて構成され
ている。
【0046】位置指定装置60は、利用者が、認識結果
表示領域41内の任意の段位置を指で触れると、その触
れた点の画面上の座標を認識結果選択部50に出力す
る。認識結果選択部50は、位置指定装置60からの出
力座標を受け取ると、以下に述べる認識結果の選択動作
を行なう。
【0047】まず認識結果選択部50には、表示装置4
0の表示画面に対する認識結果表示領域41の位置と、
認識結果表示領域41内の各段の位置の情報が与えられ
ている。そこで認識結果選択部50は、この位置情報と
上記受け取った座標とから、同座標が認識結果表示領域
41の何段目にあるかを計算し、利用者が位置指定した
認識結果表示領域41内の段位置を認識する。
【0048】すると認識結果選択部50は、認識した段
位置と、認識結果逐次表示部30から通知されている情
報(画面表示されている認識結果とその表示位置の情
報)とをもとに、その段位置に表示されている認識結
果、即ち利用者が位置指定装置60を操作して選択指定
した認識結果を得て、それを音声認識装置の最終認識結
果として出力する。次に、以上の認識結果選択部50の
更に具体的な動作を、認識結果表示領域41の表示内容
が図5(e)に示す場合を例に説明する。
【0049】まず、時刻t4 の時点では、認識結果表示
領域41には、図5(e)に示すように、その1段目
(最上段)には認識結果「6階」が、2段目には認識結
果「1階」が、そして3段目(最下段)には認識結果
「5階」が表示されている。
【0050】この状態で、利用者が、認識結果表示領域
41において正しい認識結果が表示されている認識結果
表示領域41内の段位置、即ち「6階」と表示された段
(1段目)を指で触れたものとする。
【0051】すると位置指定装置60は、利用者が触れ
た点の画面上の座標を認識結果選択部50に出力する。
認識結果選択部50は、位置指定装置60から出力され
た座標を受け取ると、表示画面に対する認識結果表示領
域41の位置と、認識結果表示領域41内の各段の位置
をもとに、その座標が、認識結果表示領域41の何段目
にあるかを計算する。このようにして認識結果選択部5
0は、利用者が認識結果表示領域41の1段目に触れた
ことを認識することができる。
【0052】次に認識結果選択部50は、この認識した
段位置(1段目)と、認識結果逐次表示部30から通知
されている情報、即ち認識結果表示領域41の1段目に
認識結果「6階」が、2段目に認識結果「1階」が、そ
して3段目に認識結果「5階」が表示されているという
情報をもとに、認識した1段目、即ち利用者が触れた認
識結果表示領域41内の1段目に表示されている認識結
果が「6階」であることを知る。そして認識結果選択部
50は、この「6階」を音声認識装置の最終認識結果と
して出力する。
【0053】なお、上記の例は、時刻t4 の時点、即ち
音声認識装置の利用者の発話が終了した時点で位置指定
装置60を操作していた。しかし本実施例では、単語区
間照合部20により、一定値以上の照合結果が得られる
毎に、対応する単語が認識結果として単語区間照合部2
0から認識結果逐次表示部30に出力されて、その都
度、認識結果逐次表示部30により認識結果表示領域4
1に表示されるので、発話の途中であっても、自身が意
図した単語が認識結果表示領域41に表示された場合に
は、直ちに位置指定装置60を操作して、その単語を選
択指定することが可能となる。
【0054】例えば時刻t2 では、図4に示すように利
用者は発話中であるが、単語区間照合部20が発話の中
の「6階」という単語を検出し、それを認識結果逐次表
示部30が図5(c)に示すように認識結果表示領域4
1の2段目に表示している。したがって、このときに利
用者が認識結果表示領域41の2段目を触れるならば、
上記と同様の動作により、認識結果選択部50から最終
認識結果として「6階」が出力される。
【0055】以上のように本実施例によれば、利用者は
発話中であっても認識結果を選択指定することができる
ため、スムーズに音声認識装置を使えるようになる。ま
た、認識結果表示領域41に複数の認識結果が表示され
るため、図4の例のように、利用者が入力したい単語
(「6階」)の後で誤った単語(「1階」、「5階」)
が検出された場合でも、図5(e)に示すように「6
階」は依然として認識結果表示領域41に残っており、
利用者は「6階」を選択指定することができる。
【0056】更に本実施例によれば、単語区間照合部2
0により単語が認識される毎に、その単語が認識結果逐
次表示部30により直ちに認識結果表示領域41に表示
されるため、もし利用者が「えーと6階を」まで発声し
た時点で、認識結果表示領域41に「6階」が表示され
ていない場合には、利用者は「6階」が単語区間照合部
20で認識されていないことを知ることができる。した
がって利用者は、「6階を」まで言い終わっ時点で、再
度「6階」という単語を発声することによって、正しい
認識結果を得ることが可能となる。それに対して、従来
の音声認識装置では、「えーと6階をお願いします」と
言い終わるまで、「6階」が認識されていないことを知
ることができないため、「6階」を再入力するために必
要な時間が多くなってしまう。
【0057】なお、前記実施例では、利用者の選択操作
に供される選択操作装置としてタッチパネルを用いた位
置指定装置を60を適用した場合について説明したが、
これに限るものではなく、キーボードで表示位置を選択
するようにしても良いし、マウスを用いても構わない。
【0058】また、前記実施例では、エレベータ用の音
声認識装置に適用した場合について説明したが、本発明
は音声による入力を必要とする全ての分野における音声
認識装置に適用可能である。
【0059】
【発明の効果】以上に説明したように本発明によれば、
音声認識処理の過程で生成される認識結果となり得る単
語が、その生成の都度、その生成順序に一致する並び順
となるように表示されるので、音声認識装置の利用者は
自身が入力したい単語が表示された段階で、即座にそれ
を最終的な認識結果として選択することができるように
なり、また即座に認識結果として選択しない場合にも、
その単語が相当期間表示されるため、後から選択するこ
ともできる。したがって、音声認識装置の利用者にとっ
て、非常に自由度の高い入力手段を提供することがで
き、実用上多大なる効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る音声認識装置の構成を
示すブロック図。
【図2】図1に示す単語区間照合部20の処理の流れを
説明するためのフローチャート。
【図3】HMMの代表的な構造を示す図。
【図4】利用者の発話内容と同内容に対する単語区間照
合部20での照合処理により出力される認識結果列の一
例を示す図。
【図5】図4の例における認識結果逐次表示部30の動
作を説明するために、認識結果表示領域41への認識結
果表示の様子を示す図。
【符号の説明】
10…音響分析部、20…単語区間照合部、21…認識
単語辞書、30…認識結果逐次表示部、40…表示装
置、41…認識結果表示領域、50…認識結果選択部、
60…位置指定装置。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を入力して音響分析する音響分
    析手段と、 各種単語音声のモデルが登録された認識単語辞書と、 前記音響分析手段により音響分析された入力音声に対し
    て複数の区間を設定し、それぞれの区間内の音声と前記
    認識単語辞書に登録されているモデルとを照合する照合
    手段と、 この照合手段による照合の結果、一定の値よりも良い照
    合結果が得られる毎に、対応するモデルに固有の単語を
    最新の認識結果として画面表示する認識結果逐次表示手
    段であって、既に表示中の単語がある場合には、それに
    続く位置に表示する認識結果逐次表示手段と、 この認識結果逐次表示手段により表示された単語の中か
    ら外部からの指示に応じて最終的な認識結果を選択する
    認識結果選択手段とを具備することを特徴とする音声認
    識装置。
  2. 【請求項2】 前記認識結果逐次表示手段は、前記最新
    の認識結果としての単語を表示する際に、既に表示中の
    単語があり、その単語数が同時表示可能な最大単語数に
    一致している場合には、画面スクロールを行うことによ
    り最も以前に得られた単語を消去して表示領域を確保
    し、その領域に前記最新の認識結果としての単語を表示
    することを特徴とする請求項1記載の音声認識装置。
JP5033675A 1993-02-23 1993-02-23 音声認識装置 Pending JPH06250689A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5033675A JPH06250689A (ja) 1993-02-23 1993-02-23 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5033675A JPH06250689A (ja) 1993-02-23 1993-02-23 音声認識装置

Publications (1)

Publication Number Publication Date
JPH06250689A true JPH06250689A (ja) 1994-09-09

Family

ID=12393034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5033675A Pending JPH06250689A (ja) 1993-02-23 1993-02-23 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06250689A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007256482A (ja) * 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2009265307A (ja) * 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
JP4855421B2 (ja) * 2005-12-14 2012-01-18 三菱電機株式会社 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4855421B2 (ja) * 2005-12-14 2012-01-18 三菱電機株式会社 音声認識装置
JP2007256482A (ja) * 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
JP2009265307A (ja) * 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム

Similar Documents

Publication Publication Date Title
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
EP0376501B1 (en) Speech recognition system
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
JP4446312B2 (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
EP0840288B1 (en) Method and system for editing phrases during continuous speech recognition
JP3333123B2 (ja) 音声認識中に認識されたワードをバッファする方法及びシステム
JPH10133684A (ja) 音声認識中に代替ワードを選択する方法及びシステム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
JPH11505037A (ja) 言語認識装置の信頼性向上方法
JPH10503033A (ja) 新ワードのモデル化に基づく音声認識方法及びその装置
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP3399674B2 (ja) 画面制御装置とその方法
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP4796686B2 (ja) 自動音声認識器を訓練する方法
JPH10187184A (ja) 認識された音声を修正するときに認識されたワードを選択する方法及びシステム
JPH06250689A (ja) 音声認識装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPH1083195A (ja) 入力言語認識装置及び入力言語認識方法