JP3006497B2

JP3006497B2 - 音声認識装置

Info

Publication number: JP3006497B2
Application number: JP8179717A
Authority: JP
Inventors: 信輔坂井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-07-10
Filing date: 1996-07-10
Publication date: 2000-02-07
Anticipated expiration: 2016-07-10
Also published as: JPH1026997A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置に関
し、特に音声入力装置に用いられる音声認識装置に関す
る。

【０００２】

【従来の技術】従来の音声入力装置に用いられる音声認
識装置は、固定の語彙を入力の対象とするか、又は、デ
ィスプレイに音声入力するためのスロットがいくつか表
示され、個々のスロットごとに決められた語彙を入力の
対象としていた。そして、これらの語彙に基づき音声認
識していた。

【０００３】この種の音声認識装置の一例が特開平６−
２０２６８８号公報に開示されている。

【０００４】この先行技術は、解析手段に、生成手段に
より生成された音声の発話内容の仮説を意味表現するケ
ースフレームに基づいて、認識手段の音声の認識結果を
解析させる。そして、生成手段に、解析手段の解析結果
に基づいて、音声の発話内容の新たな仮説を生成させ
る。これにより、音声が、語順に関係なく解析されるた
め発話の自由度を大きくすることができるというもので
ある。

【０００５】

【発明が解決しようとする課題】しかし、音声認識装置
の認識性能がある程度限られている場合、システムの状
態に関わらず，固定の大規模な語彙を認識対象とすると
誤認識が多く、入力がスムーズに行えないという問題が
あった。

【０００６】一方、スロットを選択してそのスロットに
特定の語彙のみを入力可能な音声認識装置では、スロッ
ト毎に語彙を限定できるため、より高い認識性能は得ら
れるが、あるスロットを選択している状態では他のスロ
ットの語彙を全く入力できないという欠点があった。

【０００７】そこで本発明の目的は、大規模な語彙を認
識対象とすることができ、しかも高い認識性能が得られ
る音声認識装置を提供することにある。

【０００８】

【課題を解決するための手段】前記課題を解決するため
に本発明は、認識対象の語彙全体が格納される全体辞書
と、認識対象の語彙の一部が格納されるスロット辞書
と、所定の語彙を前記全体辞書より前記スロット辞書へ
移動させる移動制御手段と、前記全体辞書及びスロット
辞書を用いて入力された音声の認識を行う音声認識手段
とを含む音声認識装置であって、前記音声認識手段は、
前記スロット辞書の語彙が前記全体辞書の語彙よりも優
先して認識されるよう前記スロット辞書の語彙に重み付
けを行う重み付け手段をさらに有し、前記全体辞書を用
いて音声認識を行ったときの認識結果と前記スロット辞
書を用いて音声認識を行ったときの認識結果のうち認識
度の高い方の語彙を出力することを特徴とする。

【０００９】

【発明の実施の形態】本発明によれば、全体辞書の語彙
の一部がスロット辞書に移動され、主としてスロット辞
書により音声認識されるが、スロット辞書で音声認識で
きない場合は全体辞書で音声認識される。

【００１０】以下、本発明の実施の形態について添付図
面を参照しながら説明する。

【００１１】図１は本発明に係る音声認識装置の一例の
構成図である。音声認識装置は、認識対象の全ての語彙
の各単語についてその文字表記及び読みが格納される全
体辞書１と、認識対象の全ての語彙のうちの一部の語彙
の各単語についてその文字表記及び読みが格納されるス
ロット辞書２と、全体辞書１及びスロット辞書２に基づ
き入力される音声の認識を行う音声認識部３と、音声認
識に関する情報が表示されるディスプレイ４と、音声認
識部３及び図示しない外部入力機器（ポインティングデ
バイス）からの入力を受け、全体辞書１、スロット辞書
２及びディスプレイ４を制御する制御部５とからなる。

【００１２】図２は全体辞書１に格納される単語の文字
表記、読み及びスロットの一例を示す図である。

【００１３】まず、スロット１１は日付１２、時刻１
３、空港名１４の３つからなる。即ち、本実施の形態に
おける音声認識は、一例として航空機の予約システムに
用いられる入力装置の音声認識装置を対象としている。

【００１４】もちろん、この航空機の予約システムに限
定されず、列車等他の交通機関の予約システムでもよい
し、又、予約システムに限らず、例えば映像音響機器等
の制御を音声で行うシステムにも用いることができる。

【００１５】そして、日付１２、時刻１３及び空港名１
４夫々に対応する表記１５、読み１６の語彙が全体辞書
１に格納されている。

【００１６】図３はスロット辞書２に格納される単語の
文字表記、読み及びスロットの一例を示す図である。ス
ロット辞書２には、全体辞書１に格納されている３つの
スロットのうち１つのスロットが選択されて格納され
る。本実施の形態では日付１２のスロットが格納されて
いる場合を示している。

【００１７】図４はディスプレイ４に表示される画面の
一例を示す図である。同図に示すようにディスプレイ４
には、日付１２、時刻１３、出発地（空港）１４ａ及び
目的地１４ｂの４つのスロット１１が表示されている。

【００１８】これらの日付１２、時刻１３、出発地（空
港）１４ａ及び目的地１４ｂが全体辞書１に格納された
スロット１１の日付１２、時刻１３及び空港１４と対応
している。

【００１９】外部入力機器（ポインティングデバイス）
は、例えばマウス、タッチパネル、キーボード等であ
る。

【００２０】次に、動作について説明する。まず、第１
の実施の形態から説明する。

【００２１】初期状態においてディスプレイ４には図４
に示す画面が表示されている。使用者は、まずポインテ
ィングデバイスによりディスプレイ４上の日付１２、時
刻１３、出発地（空港）１４ａ及び目的地１４ｂの４つ
のスロット１１のうちから１つを選択する。

【００２２】一例として、使用者が日付１２のスロット
１１を選択したとする。

【００２３】制御部５はポインティングデバイスからの
選択命令を受け、ディスプレイ４上の日付１２のスロッ
ト１１を選択し、全体辞書１に格納されている日付１２
のスロット１１及びこの日付１２に対応する表記１５及
び読み１６をスロット辞書２に移動させる。

【００２４】次に、使用者が音声認識部３に対し、例え
ば「６月１３日」と音声入力すると、音声認識部３はま
ずスロット辞書２を用いて認識処理を行い、得られた尤
度Ｌが予め設定されたしきい値θ以上であるか否かを判
定する。

【００２５】ここに、尤度θとは正確さの度合いを示す
数値で、通常０〜１の範囲の数値で表される。そして、
１に近ければ近いほど正確さが高いことを示す。

【００２６】尤度Ｌがしきい値θ以上である場合、音声
認識部３は得られた認識結果を制御部５へ出力する。

【００２７】この認識結果を受けた制御部５はディスプ
レイ４に認識結果を表示する。

【００２８】図５はディスプレイ４に表示される認識結
果の一例を示す図である。同図に示すように、日付１２
が選択されていることを示すためディスプレイ４上の日
付の枠３１が太線で表示されるとともに、使用者が発生
した音声「６月１３日」がその枠３１内に表示される。

【００２９】一方、尤度Ｌがしきい値θ未満である場
合、音声認識部３は今度は全体辞書１を用いて認識を行
い、得られた尤度Ｌが予め設定されたしきい値θ´以上
であるか否かを判定する。

【００３０】そして、尤度Ｌがしきい値θ´以上である
場合、音声認識部３は得られた認識結果を制御部５へ出
力する。

【００３１】この認識結果を受けた制御部５はディスプ
レイ４に図５に示す表示を行わせる。

【００３２】又、尤度Ｌがしきい値θ´未満である場
合、音声認識部３は音声認識できない旨を制御部５に通
知する。この通知を受けた制御部５はディスプレイ４上
に音声認識できない旨の表示を行う。その表示内容は、
例えば「もう一度発声してください」という文字表示で
ある。図６は再度の発声を促すディスプレイ画面の一例
の図である。

【００３３】この表示を見た使用者は再度発声を行う。
以降の動作は前述した動作の繰り返しとなるので省略す
る。

【００３４】このように第１の実施の形態によれば、ま
ずスロット辞書２の語彙のみを対象として認識処理が行
われるため、使用者がスロット辞書２の語彙を意図して
いた場合は処理が高速に行われ得る。

【００３５】次に、第２の実施の形態について説明す
る。使用者が音声認識部３に対し、「６月１３日」と音
声入力するところまでは第１の実施の形態と同様なの
で、ここまでの動作の説明は省略する。

【００３６】「６月１３日」と音声入力された音声認識
部３は、スロット辞書２及び全体辞書１を用いて認識処
理を行う。

【００３７】そして、音声認識部３は全体辞書１より得
られた認識結果の尤度Ｌはそのまま用いるが、スロット
辞書２より得られた認識結果の尤度Ｌはこの尤度Ｌに予
め決められた重み係数Ｗ（Ｗ＞１）を乗算した尤度Ｌｗ
を用いる。

【００３８】そして、尤度Ｌ及びＬｗのうち最大尤度と
なる単語を認識結果として制御部５へ出力する。

【００３９】制御部５は「６月１３日」と認識された旨
の結果をディスプレイ４に表示する。表示内容は図５に
示すものと同様である。

【００４０】尚、第２の実施の形態においても第１の実
施の形態と同様に音声認識部３にしきい値を持たせても
よい。

【００４１】即ち、認識結果の尤度Ｌ及びＬｗがしきい
値以上の場合は音声認識されたと判定してディスプレイ
４上に図５の表示を行うが、しきい値未満の場合は音声
認識されなかったと判定してディスプレイ４上に図６の
表示を行うよう構成してもよい。

【００４２】このように第２の実施の形態によれば、ス
ロット辞書２及び全体辞書１の語彙、即ち全語彙が認識
対象となるため、スロット辞書２の語彙だけを用いた認
識処理による決定から生じる誤認識を回避することがで
きる。

【００４３】即ち、第１の実施の形態においてスロット
辞書２によりしきい値θ以上の尤度Ｌの語彙を得たが、
全体辞書１にその尤度Ｌを超える尤度の語彙が存在する
場合があり得るからである。この場合、スロット辞書２
による語彙の認識は誤りとなる。

【００４４】

【発明の効果】本発明によれば、認識対象の語彙全体が
格納される全体辞書と、認識対象の語彙の一部が格納さ
れるスロット辞書と、所定の語彙を前記全体辞書より前
記スロット辞書へ移動させる移動制御手段と、前記全体
辞書及びスロット辞書を用いて入力された音声の認識を
行う音声認識手段とを含んで構成されるため、大規模な
語彙を認識対象とすることができ、しかも高い認識性能
が得られる。

【図面の簡単な説明】

【図１】本発明に係る音声認識装置の一例の構成図であ
る。

【図２】同装置の全体辞書に格納される単語の文字表
記、読み及びスロットの一例を示す図である。

【図３】同装置のスロット辞書に格納される単語の文字
表記、読み及びスロットの一例を示す図である。

【図４】同装置のディスプレイに表示される画面の一例
を示す図である。

【図５】同装置のディスプレイに表示される認識結果の
一例を示す図である。

【図６】同装置の再度の発声を促すディスプレイ画面の
一例の図である。

【符号の説明】１全体辞書２スロット辞書３音声認識部４ディスプレイ５制御部

フロントページの続き (56)参考文献特開平６−167997（ＪＰ，Ａ) 特開昭63−163496（ＪＰ，Ａ) 特開昭63−153597（ＪＰ，Ａ) 特開昭56−146200（ＪＰ，Ａ) 特開昭63−61300（ＪＰ，Ａ) 特開昭61−6695（ＪＰ，Ａ) 特開昭63−149697（ＪＰ，Ａ) 特開平２−50197（ＪＰ，Ａ) 実開昭57−28500（ＪＰ，Ｕ) 特公平２−56680（ＪＰ，Ｂ２) 特公平２−36960（ＪＰ，Ｂ２) 特公平６−42154（ＪＰ，Ｂ２) シャープ技報第31号「日本語音声入力装置ＩＯ−8335」ｐ．97−103（昭和60年３月20日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 - 9/20

Claims

(57)【特許請求の範囲】

【請求項１】認識対象の語彙全体が格納される全体辞
書と、認識対象の語彙の一部が格納されるスロット辞書
と、所定の語彙を前記全体辞書より前記スロット辞書へ
移動させる移動制御手段と、前記全体辞書及びスロット
辞書を用いて入力された音声の認識を行う音声認識手段
とを含む音声認識装置であって、前記音声認識手段は、前記スロット辞書の語彙が前記全
体辞書の語彙よりも優先して認識されるよう前記スロッ
ト辞書の語彙に重み付けを行う重み付け手段をさらに有
し、前記全体辞書を用いて音声認識を行ったときの認識
結果と前記スロット辞書を用いて音声認識を行ったとき
の認識結果のうち認識度の高い方の語彙を出力すること
を特徴とする音声認識装置。
【請求項２】前記スロット辞書に格納される語彙は発
声音声に関連付けられた語彙であることを特徴とする請
求項１記載の音声認識装置。
【請求項３】前記音声認識手段での認識結果が表示さ
れる表示手段をさらに有することを特徴とする請求項１
又は２記載の音声認識装置。