JP3006497B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3006497B2
JP3006497B2 JP8179717A JP17971796A JP3006497B2 JP 3006497 B2 JP3006497 B2 JP 3006497B2 JP 8179717 A JP8179717 A JP 8179717A JP 17971796 A JP17971796 A JP 17971796A JP 3006497 B2 JP3006497 B2 JP 3006497B2
Authority
JP
Japan
Prior art keywords
dictionary
vocabulary
slot
recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8179717A
Other languages
English (en)
Other versions
JPH1026997A (ja
Inventor
信輔 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8179717A priority Critical patent/JP3006497B2/ja
Publication of JPH1026997A publication Critical patent/JPH1026997A/ja
Application granted granted Critical
Publication of JP3006497B2 publication Critical patent/JP3006497B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に音声入力装置に用いられる音声認識装置に関す
る。
【0002】
【従来の技術】従来の音声入力装置に用いられる音声認
識装置は、固定の語彙を入力の対象とするか、又は、デ
ィスプレイに音声入力するためのスロットがいくつか表
示され、個々のスロットごとに決められた語彙を入力の
対象としていた。そして、これらの語彙に基づき音声認
識していた。
【0003】この種の音声認識装置の一例が特開平6−
202688号公報に開示されている。
【0004】この先行技術は、解析手段に、生成手段に
より生成された音声の発話内容の仮説を意味表現するケ
ースフレームに基づいて、認識手段の音声の認識結果を
解析させる。そして、生成手段に、解析手段の解析結果
に基づいて、音声の発話内容の新たな仮説を生成させ
る。これにより、音声が、語順に関係なく解析されるた
め発話の自由度を大きくすることができるというもので
ある。
【0005】
【発明が解決しようとする課題】しかし、音声認識装置
の認識性能がある程度限られている場合、システムの状
態に関わらず,固定の大規模な語彙を認識対象とすると
誤認識が多く、入力がスムーズに行えないという問題が
あった。
【0006】一方、スロットを選択してそのスロットに
特定の語彙のみを入力可能な音声認識装置では、スロッ
ト毎に語彙を限定できるため、より高い認識性能は得ら
れるが、あるスロットを選択している状態では他のスロ
ットの語彙を全く入力できないという欠点があった。
【0007】そこで本発明の目的は、大規模な語彙を認
識対象とすることができ、しかも高い認識性能が得られ
る音声認識装置を提供することにある。
【0008】
【課題を解決するための手段】前記課題を解決するため
に本発明は、認識対象の語彙全体が格納される全体辞書
と、認識対象の語彙の一部が格納されるスロット辞書
と、所定の語彙を前記全体辞書より前記スロット辞書へ
移動させる移動制御手段と、前記全体辞書及びスロット
辞書を用いて入力された音声の認識を行う音声認識手段
とを含む音声認識装置であって、前記音声認識手段は、
前記スロット辞書の語彙が前記全体辞書の語彙よりも優
先して認識されるよう前記スロット辞書の語彙に重み付
けを行う重み付け手段をさらに有し、前記全体辞書を用
いて音声認識を行ったときの認識結果と前記スロット辞
書を用いて音声認識を行ったときの認識結果のうち認識
度の高い方の語彙を出力することを特徴とする。
【0009】
【発明の実施の形態】本発明によれば、全体辞書の語彙
の一部がスロット辞書に移動され、主としてスロット辞
書により音声認識されるが、スロット辞書で音声認識で
きない場合は全体辞書で音声認識される。
【0010】以下、本発明の実施の形態について添付図
面を参照しながら説明する。
【0011】図1は本発明に係る音声認識装置の一例の
構成図である。音声認識装置は、認識対象の全ての語彙
の各単語についてその文字表記及び読みが格納される全
体辞書1と、認識対象の全ての語彙のうちの一部の語彙
の各単語についてその文字表記及び読みが格納されるス
ロット辞書2と、全体辞書1及びスロット辞書2に基づ
き入力される音声の認識を行う音声認識部3と、音声認
識に関する情報が表示されるディスプレイ4と、音声認
識部3及び図示しない外部入力機器(ポインティングデ
バイス)からの入力を受け、全体辞書1、スロット辞書
2及びディスプレイ4を制御する制御部5とからなる。
【0012】図2は全体辞書1に格納される単語の文字
表記、読み及びスロットの一例を示す図である。
【0013】まず、スロット11は日付12、時刻1
3、空港名14の3つからなる。即ち、本実施の形態に
おける音声認識は、一例として航空機の予約システムに
用いられる入力装置の音声認識装置を対象としている。
【0014】もちろん、この航空機の予約システムに限
定されず、列車等他の交通機関の予約システムでもよい
し、又、予約システムに限らず、例えば映像音響機器等
の制御を音声で行うシステムにも用いることができる。
【0015】そして、日付12、時刻13及び空港名1
4夫々に対応する表記15、読み16の語彙が全体辞書
1に格納されている。
【0016】図3はスロット辞書2に格納される単語の
文字表記、読み及びスロットの一例を示す図である。ス
ロット辞書2には、全体辞書1に格納されている3つの
スロットのうち1つのスロットが選択されて格納され
る。本実施の形態では日付12のスロットが格納されて
いる場合を示している。
【0017】図4はディスプレイ4に表示される画面の
一例を示す図である。同図に示すようにディスプレイ4
には、日付12、時刻13、出発地(空港)14a及び
目的地14bの4つのスロット11が表示されている。
【0018】これらの日付12、時刻13、出発地(空
港)14a及び目的地14bが全体辞書1に格納された
スロット11の日付12、時刻13及び空港14と対応
している。
【0019】外部入力機器(ポインティングデバイス)
は、例えばマウス、タッチパネル、キーボード等であ
る。
【0020】次に、動作について説明する。まず、第1
の実施の形態から説明する。
【0021】初期状態においてディスプレイ4には図4
に示す画面が表示されている。使用者は、まずポインテ
ィングデバイスによりディスプレイ4上の日付12、時
刻13、出発地(空港)14a及び目的地14bの4つ
のスロット11のうちから1つを選択する。
【0022】一例として、使用者が日付12のスロット
11を選択したとする。
【0023】制御部5はポインティングデバイスからの
選択命令を受け、ディスプレイ4上の日付12のスロッ
ト11を選択し、全体辞書1に格納されている日付12
のスロット11及びこの日付12に対応する表記15及
び読み16をスロット辞書2に移動させる。
【0024】次に、使用者が音声認識部3に対し、例え
ば「6月13日」と音声入力すると、音声認識部3はま
ずスロット辞書2を用いて認識処理を行い、得られた尤
度Lが予め設定されたしきい値θ以上であるか否かを判
定する。
【0025】ここに、尤度θとは正確さの度合いを示す
数値で、通常0〜1の範囲の数値で表される。そして、
1に近ければ近いほど正確さが高いことを示す。
【0026】尤度Lがしきい値θ以上である場合、音声
認識部3は得られた認識結果を制御部5へ出力する。
【0027】この認識結果を受けた制御部5はディスプ
レイ4に認識結果を表示する。
【0028】図5はディスプレイ4に表示される認識結
果の一例を示す図である。同図に示すように、日付12
が選択されていることを示すためディスプレイ4上の日
付の枠31が太線で表示されるとともに、使用者が発生
した音声「6月13日」がその枠31内に表示される。
【0029】一方、尤度Lがしきい値θ未満である場
合、音声認識部3は今度は全体辞書1を用いて認識を行
い、得られた尤度Lが予め設定されたしきい値θ´以上
であるか否かを判定する。
【0030】そして、尤度Lがしきい値θ´以上である
場合、音声認識部3は得られた認識結果を制御部5へ出
力する。
【0031】この認識結果を受けた制御部5はディスプ
レイ4に図5に示す表示を行わせる。
【0032】又、尤度Lがしきい値θ´未満である場
合、音声認識部3は音声認識できない旨を制御部5に通
知する。この通知を受けた制御部5はディスプレイ4上
に音声認識できない旨の表示を行う。その表示内容は、
例えば「もう一度発声してください」という文字表示で
ある。図6は再度の発声を促すディスプレイ画面の一例
の図である。
【0033】この表示を見た使用者は再度発声を行う。
以降の動作は前述した動作の繰り返しとなるので省略す
る。
【0034】このように第1の実施の形態によれば、ま
ずスロット辞書2の語彙のみを対象として認識処理が行
われるため、使用者がスロット辞書2の語彙を意図して
いた場合は処理が高速に行われ得る。
【0035】次に、第2の実施の形態について説明す
る。使用者が音声認識部3に対し、「6月13日」と音
声入力するところまでは第1の実施の形態と同様なの
で、ここまでの動作の説明は省略する。
【0036】「6月13日」と音声入力された音声認識
部3は、スロット辞書2及び全体辞書1を用いて認識処
理を行う。
【0037】そして、音声認識部3は全体辞書1より得
られた認識結果の尤度Lはそのまま用いるが、スロット
辞書2より得られた認識結果の尤度Lはこの尤度Lに予
め決められた重み係数W(W>1)を乗算した尤度Lw
を用いる。
【0038】そして、尤度L及びLwのうち最大尤度と
なる単語を認識結果として制御部5へ出力する。
【0039】制御部5は「6月13日」と認識された旨
の結果をディスプレイ4に表示する。表示内容は図5に
示すものと同様である。
【0040】尚、第2の実施の形態においても第1の実
施の形態と同様に音声認識部3にしきい値を持たせても
よい。
【0041】即ち、認識結果の尤度L及びLwがしきい
値以上の場合は音声認識されたと判定してディスプレイ
4上に図5の表示を行うが、しきい値未満の場合は音声
認識されなかったと判定してディスプレイ4上に図6の
表示を行うよう構成してもよい。
【0042】このように第2の実施の形態によれば、ス
ロット辞書2及び全体辞書1の語彙、即ち全語彙が認識
対象となるため、スロット辞書2の語彙だけを用いた認
識処理による決定から生じる誤認識を回避することがで
きる。
【0043】即ち、第1の実施の形態においてスロット
辞書2によりしきい値θ以上の尤度Lの語彙を得たが、
全体辞書1にその尤度Lを超える尤度の語彙が存在する
場合があり得るからである。この場合、スロット辞書2
による語彙の認識は誤りとなる。
【0044】
【発明の効果】本発明によれば、認識対象の語彙全体が
格納される全体辞書と、認識対象の語彙の一部が格納さ
れるスロット辞書と、所定の語彙を前記全体辞書より前
記スロット辞書へ移動させる移動制御手段と、前記全体
辞書及びスロット辞書を用いて入力された音声の認識を
行う音声認識手段とを含んで構成されるため、大規模な
語彙を認識対象とすることができ、しかも高い認識性能
が得られる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の一例の構成図であ
る。
【図2】同装置の全体辞書に格納される単語の文字表
記、読み及びスロットの一例を示す図である。
【図3】同装置のスロット辞書に格納される単語の文字
表記、読み及びスロットの一例を示す図である。
【図4】同装置のディスプレイに表示される画面の一例
を示す図である。
【図5】同装置のディスプレイに表示される認識結果の
一例を示す図である。
【図6】同装置の再度の発声を促すディスプレイ画面の
一例の図である。
【符号の説明】 1 全体辞書 2 スロット辞書 3 音声認識部 4 ディスプレイ 5 制御部
フロントページの続き (56)参考文献 特開 平6−167997(JP,A) 特開 昭63−163496(JP,A) 特開 昭63−153597(JP,A) 特開 昭56−146200(JP,A) 特開 昭63−61300(JP,A) 特開 昭61−6695(JP,A) 特開 昭63−149697(JP,A) 特開 平2−50197(JP,A) 実開 昭57−28500(JP,U) 特公 平2−56680(JP,B2) 特公 平2−36960(JP,B2) 特公 平6−42154(JP,B2) シャープ技報 第31号「日本語音声入 力装置 IO−8335」p.97−103(昭 和60年3月20日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 認識対象の語彙全体が格納される全体辞
    書と、認識対象の語彙の一部が格納されるスロット辞書
    と、所定の語彙を前記全体辞書より前記スロット辞書へ
    移動させる移動制御手段と、前記全体辞書及びスロット
    辞書を用いて入力された音声の認識を行う音声認識手段
    とを含む音声認識装置であって、 前記音声認識手段は、前記スロット辞書の語彙が前記全
    体辞書の語彙よりも優先して認識されるよう前記スロッ
    ト辞書の語彙に重み付けを行う重み付け手段をさらに有
    し、前記全体辞書を用いて音声認識を行ったときの認識
    結果と前記スロット辞書を用いて音声認識を行ったとき
    の認識結果のうち認識度の高い方の語彙を出力すること
    を特徴とする音声認識装置。
  2. 【請求項2】 前記スロット辞書に格納される語彙は発
    声音声に関連付けられた語彙であることを特徴とする請
    求項1記載の音声認識装置。
  3. 【請求項3】 前記音声認識手段での認識結果が表示さ
    れる表示手段をさらに有することを特徴とする請求項1
    又は2記載の音声認識装置。
JP8179717A 1996-07-10 1996-07-10 音声認識装置 Expired - Fee Related JP3006497B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8179717A JP3006497B2 (ja) 1996-07-10 1996-07-10 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8179717A JP3006497B2 (ja) 1996-07-10 1996-07-10 音声認識装置

Publications (2)

Publication Number Publication Date
JPH1026997A JPH1026997A (ja) 1998-01-27
JP3006497B2 true JP3006497B2 (ja) 2000-02-07

Family

ID=16070647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8179717A Expired - Fee Related JP3006497B2 (ja) 1996-07-10 1996-07-10 音声認識装置

Country Status (1)

Country Link
JP (1) JP3006497B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3974419B2 (ja) 2002-02-18 2007-09-12 株式会社日立製作所 音声入力を用いた情報取得方法及び情報取得システム
JP4887911B2 (ja) * 2006-05-31 2012-02-29 船井電機株式会社 電子機器
CN108922531B (zh) * 2018-07-26 2020-10-27 腾讯科技(北京)有限公司 槽位识别方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
シャープ技報 第31号「日本語音声入力装置 IO−8335」p.97−103(昭和60年3月20日発行)

Also Published As

Publication number Publication date
JPH1026997A (ja) 1998-01-27

Similar Documents

Publication Publication Date Title
EP0840286B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
EP0840289B1 (en) Method and system for selecting alternative words during speech recognition
US7363224B2 (en) Method for entering text
US5899976A (en) Method and system for buffering recognized words during speech recognition
US6570588B1 (en) Editing support system including an interactive interface
US6347296B1 (en) Correcting speech recognition without first presenting alternatives
US5884258A (en) Method and system for editing phrases during continuous speech recognition
US6490563B2 (en) Proofreading with text to speech feedback
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
US6327566B1 (en) Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US7299187B2 (en) Voice command processing system and computer therefor, and voice command processing method
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
US20020007275A1 (en) Speech complementing apparatus, method and recording medium
JP2006048628A (ja) マルチモーダル入力方法
JPH0981364A (ja) マルチモーダル情報入力方法及び装置
US6591236B2 (en) Method and system for determining available and alternative speech commands
CN113327597A (zh) 语音识别方法、介质、装置和计算设备
JP3399674B2 (ja) 画面制御装置とその方法
Suhm et al. Interactive recovery from speech recognition errors in speech user interfaces
JP3006497B2 (ja) 音声認識装置
US20050288933A1 (en) Information input method and apparatus
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees