JP3708747B2 - 音声認識方法 - Google Patents
音声認識方法 Download PDFInfo
- Publication number
- JP3708747B2 JP3708747B2 JP10963299A JP10963299A JP3708747B2 JP 3708747 B2 JP3708747 B2 JP 3708747B2 JP 10963299 A JP10963299 A JP 10963299A JP 10963299 A JP10963299 A JP 10963299A JP 3708747 B2 JP3708747 B2 JP 3708747B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech
- candidate
- category
- recognition candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は音声認識方法に係わり、特に、音声辞書を備え、入力音声と類似する音声を音声辞書より検索して入力音声を認識する音声認識方法に関する。
【0002】
【従来の技術】
カーナビゲーションシステムでは近年、リモコンでの操作に替わって、音声認識装置を利用して操作することが盛んに行われるようになってきている。音声認識装置は通常、ユーザーがある特定の単語を発生するとその単語を認識し、それに合わせたトークバックを行う。ユーザーは、トークバックにより認識内容の確認を行い、もし、トークバックの内容がユーザーの発声内容と異なる場合には、再度入力を行うようにする。
【0003】
【発明が解決しようとする課題】
音声認識装置の認識率は向上してきているが、現在の認識エンジンの能力では、大語彙化した場合どうしても誤認識がさけられない。誤認識した際の対応の代表例として、「戻り」操作がある。これは、認識結果を破棄して、再度入力し直すというものである。しかし、この方法だとシステム側で誤認識をしたにも関わらず、ユーザーがそれをリカバーせねばならないことになる。よって、あくまで機械を操作しているという感覚が拭えない。
又、誤認識に対して場合によっては何度も同じ単語を発声せねばならなくなるため、認識率が感覚的に実際より低く感じられてしまう。仮に、データ的には70%の認識率があったとしても、ユーザーにはほとんど認識できていないように感じられる。
さらに、音声認識装置が完全なブラックボックスであると同時に、複数の認識候補中の1つのみ提示するため、他の認識候補内に正解があったとしてもそれがユーザーからはわからずに、ただ“認識しない”というイメージのみが残る。
【0004】
以上から本発明の目的は、音声認識装置側で持っている複数の認識候補を有効に活用し、ユーザーによる再入力の回数を極力減らし、感覚的な認識率を向上させることである。
本発明の別の目的は、認識候補をいくつか示すことで、音声認識の内部処理について感知できるようにしてユーザに音声認識装置に対する安心感を与えるることである。
本発明の別の目的は、第1位の認識候補とカテゴリーが異なる単語のうち入力音声と音的に似た単語をすばやく探索することである。
【0005】
【課題を解決するための手段】
本発明は、入力音声と類似する音声を音声辞書より検索して入力音声を認識する音声認識方法において、 (1) 音声辞書をカテゴリー別に構成し、かつ、各カテゴリーに対する他のカテゴリーの重みを設定しておき、 (2) 入力音声に類似する複数の認識候補を検索し、 (3) 類似度が最高の第1位認識候補が属するカテゴリーに対する他の認識候補が属するカテゴリーの重みを求め、 (4) 各認識候補の類似度に重み付けして得られる重み付け類似度に基づいて第1位認識候補からの距離を識別し、 (5) 該第1位認識候補の提示に対して入力音声との距離の大小を示す応答があった時、該応答が入力音声との距離小であることを示す応答であれば、該第1位認識候補からの距離が小さい前記認識候補を提示し、該応答が入力音声との距離大であることを示す応答であれば、該第1位認識候補からの距離が大きい前記認識候補を提示する。たとえば、前記応答が入力音声との距離小であることを示す応答(「違う」)であれば、距離が小さい認識候補を提示し、前記応答が入力音声との距離大であることを示す応答(「全く違う」)であれば、距離が大きい認識候補を提示する。
以上のようにすれば、音声認識装置側で持っている認識候補を有効に活用し、ユーザによる再入力の回数を極力減らし、感覚的な認識率を向上させることができる。又、認識候補をいくつか示すことで、音声認識の内部処理について感知できるようにしてユーザに音声認識装置に対する安心感を与えることができる。更に、第1位の認識候補とカテゴリーが異なる単語のうち入力音声と音的に似た単語をすばやく探索することができる。
【0006】
【発明の実施の形態】
(a)本発明の概略
認識候補が複数個あがってきた場合、音声認識装置はそれらの認識候補それぞれに対して、スコア値(類似度)の差および辞書構成に応じた重みをつけることで、認識候補間の距離を決定する。その上で音声認識装置は、まずスコア値(重み付け類似度)がもっとも高いものを第1位候補として、ユーザに提示する(トークバックによる)。ユーザーはその提示された単語で良いか、違うか、全く違うかを答える。(1) 「良い」という返事が返ってくれば、音声認識装置は提示した単語を音声入力単語とみなし、所定の処理を実行する。(2) 「違う」という返事が返ってくれば、音声認識装置は提示した単語に距離的に近い認識候補を第2候補として提示する。(3) 一方、「全く違う」という返事が返ってくれば、音声認識装置は、提示した単語から距離的に遠い認識候補を第2候補として提示する。以後、第2候補の提示に対するユーザの応答に応じて同様の処理を繰り返し、提示すべき適当な単語が認識候補に存在しなくなった時、初めて、音声認識装置はユーザーに再入力を促す。
【0007】
(b)システム構成
図1は本発明のシステム構成図であり、11はナビゲーションユニット、21は音声認識装置である。音声認識装置21において、31は話者音声を検出するマイクロホン、32はカテゴリー別に単語音声を辞書化して有する音声辞書、33は入力音声と類似する複数の認識候補を音声辞書より検索して出力する認識エンジン、34は複数の認識候補のうち所定の候補を選択する認識候補選択部、35は選択された認識候補の音声を合成して出力(トークバック)する合成エンジン、36は合成音声を出力するスピーカである。
図2は音声辞書における認識単語のカテゴリー構成と重み値の説明図である。音声辞書は、▲1▼コマンド(ナビゲーション装置に対する指示)、▲2▼施設、▲3▼地名、▲4▼数字(電話番号)...等のカテゴリー別に大分類され、更に各カテゴリーは階層的に中分類カテゴリー、小分類カテゴリーに細分類されている。例えば、地名は、「地名→都道府県→市町村」と階層的に分類されている。重み値は同じ小分類カテゴリーに属すれば「1」で最も大きく、以下、中分類が同じであるか、大分類が同じであるか等に応じて小さくなっている。図2では、「いわき市」に対する重み値を小数点数値で示している。
【0008】
(c)音声認識処理
図3は本発明の音声認識処理のフロー図、図4は認識候補順序決定処理フロー図である。
音声を入力すると(ステップ101)、認識エンジン33は音声辞書32より入力音声に類似する1以上の認識候補を検索し、検索した認識候補の識別コード、類似度(スコア)、所属するカテゴリー(大分類/中分類/小分類カテゴリー)を認識候補選択部34に入力する(ステップ102)。認識候補選択部34は複数の認識候補が入力すると、各認識候補の類似度(スコア)と重み値を考慮して認識候補順を決定する(ステップ103)。すなわち、図4に示すように、類似度が最高の第1位認識候補を決定し(ステップ103a)、第1位認識候補が属するカテゴリーと他の認識候補が属するカテゴリーを考慮して該他の認識候補の重み値を決定する(ステップ103b)。しかる後、各認識候補のスコアに重み値を乗算し、重み付けスコアの大きい順に認識候補を並べる。重み付けスコアの差は認識候補間の距離であるから、第1位認識候補を先頭にして以下第1位認識候補との距離が小さいものから認識候補を順に並べて認識候補順を決定する(ステップ103c)。
【0009】
ついで、認識候補選択部34は第1位認識候補を音声出力するよう合成エンジン35に指示し、合成エンジンは第1位認識候補の音声を合成出力(トークバック)する(ステップ104)。ユーザはトークバックされた音声で良いか、違うか、全く違うか判断し(ステップ105)、良ければナビゲーションユニット11のキー操作(音声入力も可能)で「良い」を入力する。これにより、認識候補選択部34は、現在着目している認識候補の識別コードをナビゲーションユニット11に入力する(ステップ106)。
【0010】
一方、トークバックされた音声が入力音声と異なれば、ユーザは違いの度合いを判断する。入力音声の大分類カテゴリーとトークバック音声の大分類カテゴリーが異なれば、音的に似ていても違い感が強く「全く違う」という感じになり、カテゴリーが同じであれば違い感は弱く単に「違う」とい感じになる。この違い感に基づいてユーザはキー操作あるいは音声で「違う」あるいは「全く違う」を入力する(ステップ105)。「違う」が入力すると、認識候補選択部34は、第1位認識候補から所定距離内に認識候補が存在するかチェックし(ステップ107)、存在すれば、該認識候補を音声出力するよう合成エンジン35に指示し、合成エンジンは該認識候補の音声をトークバックする(ステップ104)。以後、ステップ105でユーザはトークバックされた音声で良いか、違うか、全く違うかの判断を行い、該判断により所定の処理を繰り返えす。
【0011】
ステップ107において、第1位認識候補から所定距離内に認識候補が存在しなければ、認識候補選択部34は、音声の再入力を音声応答あるいはランプ等で指示し(ステップ108)、以後、始めに戻り、音声の再入力を行う。
ステップ105において、「全く違う」が入力すると、認識候補選択部34は、第1位認識候補から所定距離以上離れた認識候補が存在するかチェックし(ステップ109)、存在すれば、第1位認識候補と異なるカテゴリーに属する認識候補のうち第1位認識候補から最短距離の認識候補を探し、新たな第1位認識候補とする(ステップ110)。
【0012】
ついで、ステップ103に戻り、旧の第1位認識候補が属するカテゴリーの候補をのぞき、残った認識候補について新たな第1位認識候補に基いて認識候補順を再決定する(ステップ103)。ついで、新たな第1位認識候補の音声をトークバックする(ステップ104)。以後、ステップ105でユーザはトークバックされた音声で良いか、違うか、全く違うかの判断を行い、該判断により所定の処理を繰り返えす。
ステップ109において、第1位認識候補から所定距離以上離れた認識候補が存在しなくなれば、認識候補選択部34は、音声の再入力を音声応答あるいはランプ等で指示し(ステップ108)、以後、始めに戻り、ユーザは音声の再入力を行う。
【0013】
(d)音声認識の具体例
図5は、音声入力された時の音声認識処理の説明図であり、辞書構成は図2に示すカテゴリー構成に区分されているものとし、又、認識対象単語は1つのカテゴリーに限定されず、全カテゴリー内の単語を検索対象とする。又、「いわき市」から各カテゴリー迄の重み値は図2内の数値で示し、「ゴルフ場」から所定のカテゴリー迄の重み値は図6内の数値で示している。
【0014】
図5(a)は音声入力された時、認識エンジン33が検索した認識候補(認識単語)とその類似度(スコア)を示すものである。尚、認識単語とそのスコアは本発明の音声認識方法を理解するための単なる例示にすぎない。
図5(b)は、スコア最大の第1位認識候補「好間工業団地」が所在する「いわき市」から各認識候補が属するカテゴリー迄の重み値をスコアに乗算して得られる重み付けスコアを示すものである。カテゴリー「いわき市」に属する認識単語(好間工業団地)に対する重みは1.0であり、また「いわき市」に対する他のカテゴリーの重みは図2内の数値で示す通りである。この重み値は、認識単語のカテゴリーを作成する際に設計者が、任意に設定できる。又、重み値は大分類カテゴリーが同じであるか、中分類カテゴリーが同じであるか、小分類カテゴリーが同じであるか等に基づいて計算するように構成することもできる。
図5(c)は、重み付けスコア順に各認識候補を並べたもので、所定距離(例えば40)より大きければ「全く違う認識候補」となり、所定距離以内であれば「違う認識候補」となる。
【0015】
図5(d)は、「全く違う」が入力されたとき、残った認識候補のスコアに重みを乗算した重み付けスコアを示すものである。「全く違う」が入力されたとき、それまでの第1位認識候補「好間工業団地」が属する大分類カテゴリーに属する候補を全て除き(図6斜線部)、残った別カテゴリーに属する認識候補をスコア順に並べ、かつ、スコア最大の認識候補「〜ゴルフ場」を新たな第1位認識候補とし、該第1位認識候補が属するカテゴリーから各認識候補が属するカテゴリー迄の重み値(図6参照)をスコアに乗算する。図5(d)はこのようにして得られた重み付けスコアを示している。
図5(e)は重み付けスコア順に各認識候補を並べたもので、所定距離(=40)より大きければ「全く違う認識候補」となり、所定距離以内であれば「違う認識候補」となる。
【0016】
音声認識装置21は、音声入力されると1以上の類似音声を音声辞書より検索し(図5(a))、スコア最大の第1位認識候補「好間工業団地」が所在する「いわき市」から各認識候補が属するカテゴリー迄の重み値をスコアに乗算し(図5(b))、得られる重み付けスコア順に各認識候補を並べる(図5(c))。ついで、音声認識装置21は、第1位認識候補である「好間工業団地」をトークバックし、ユーザが「違う」を入力すれば、次に「栄町」をトークバックし、再びユーザが「違う」を入力すれば、「郡山」をトークバックし、更に、ユーザが「違う」を入力すれば最早候補がないため音声再入力をユーザに促す。尚、トークバックに対してユーザが「良」いを入力すれば音声認識処理は終了する。
【0017】
又、音声認識装置21は、トークバックに対してユーザが「全く違う」を入力すれば、第1位認識候補「好間工業団地」が属する大分類カテゴリーに属する候補を全て除き、残った認識候補の中から、第1位認識候補より最短距離の認識候補「〜ゴルフ場」を選び、新たな第1位認識候補とする。そして、再度カテゴリー間の重みを決定し、重み付けスコアを計算する(図5(d))。しかる後、重み付けスコア順に並べて認識候補順を再構成する(図5(e))。以後、音声認識装置21は新たな第1認識候補「〜ゴルフ場」をトークバックし、ユーザが「違う」を入力すれば、次に「日赤病院」をトークバックし、再びユーザが「違う」を入力すれば最早候補がないため音声再入力をユーザに促す。尚、トークバックに対してユーザが「良」いを入力すれば音声認識処理は終了する。
以上では、「良い」、「違う」、「全く違う」を入力した場合であるが、別の単語を入力するようにもできる。例えば、「違う」の替わりに、「おしい」や、「近い」等を入力できる。
以上、本発明を実施例により説明したが、本発明は請求の範囲に記載した本発明の主旨に従い種々の変形が可能であり、本発明はこれらを排除するものではない。
【0018】
【発明の効果】
以上本発明によれば、認識候補に距離という値を持たせ、ユーザーの返答に合わせ、その値を用いて適当な認識候補を選択・提示するようにしたから、従来の第一候補のみを一度提示する方法に比べ、音声認識装置側で持っている複数の認識候補を有効に活用するため、ユーザーによる再入力の回数を極力減らし、感覚的な認識率を向上させることができる。
又、本発明によれば、大語彙辞書を認識対象とした場合、カテゴリーは異なるが音的に似た単語を、従来のいちいち再入力する方法に比べ早く探索できる。
又、本発明によれば、認識候補をいくつか示すことで、音声認識の内部処理を感知できるようにしているため、ユーザーに音声認識装置に対する安心感を与えることができる。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】音声辞書における認識単語のカテゴリー構成と重み値の説明図である。
【図3】本発明の音声認識処理のフロー図である。
【図4】認識候補順序決定処理フロー図である。
【図5】音声認識処理の説明図である。
【図6】「全く違う」を入力した後の再構成された重み値の例である。
【符号の説明】
11・・ナビゲーションユニット
21・・音声認識装置
31・・マイクロホン
32・・音声辞書
33・・認識エンジン
34・・認識候補選択部
35・・合成エンジン
36・・スピーカ
Claims (1)
- 入力音声と類似する音声を音声辞書より検索して入力音声を認識する音声認識方法において、
音声辞書をカテゴリー別に構成し、かつ、各カテゴリーに対する他のカテゴリーの重みを設定しておき、
入力音声に類似する複数の認識候補を検索し、
類似度が最高の第1位認識候補が属するカテゴリーに対する他の認識候補が属するカテゴリーの重みを求め、
各認識候補の類似度に重み付けして得られる重み付け類似度に基づいて第1位認識候補からの距離を識別し、該第1位認識候補の提示に対して入力音声との距離の大小を示す応答があった時、該応答が入力音声との距離小であることを示す応答であれば、該第1位認識候補からの距離が小さい前記認識候補を提示し、該応答が入力音声との距離大であることを示す応答であれば、該第1位認識候補からの距離が大きい前記認識候補を提示する、
ことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10963299A JP3708747B2 (ja) | 1999-04-16 | 1999-04-16 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10963299A JP3708747B2 (ja) | 1999-04-16 | 1999-04-16 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000305590A JP2000305590A (ja) | 2000-11-02 |
JP3708747B2 true JP3708747B2 (ja) | 2005-10-19 |
Family
ID=14515210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10963299A Expired - Fee Related JP3708747B2 (ja) | 1999-04-16 | 1999-04-16 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3708747B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1691343B1 (en) * | 2003-12-05 | 2008-09-17 | Kabushiki Kaisha Kenwood | Audio device control device,audio device control method, and program |
DE602004016683D1 (de) * | 2003-12-05 | 2008-10-30 | Kenwood Corp | Einrichtungssteuereinrichtung und einrichtungssteuerverfahren |
JP2011221293A (ja) * | 2010-04-09 | 2011-11-04 | Mitsubishi Electric Corp | コマンド処理装置 |
US10019986B2 (en) * | 2016-07-29 | 2018-07-10 | Google Llc | Acoustic model training using corrected terms |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6126133A (ja) * | 1984-07-17 | 1986-02-05 | Nippon Signal Co Ltd:The | 音声認識入力装置 |
JP3340163B2 (ja) * | 1992-12-08 | 2002-11-05 | 株式会社東芝 | 音声認識装置 |
JPH1124695A (ja) * | 1997-06-27 | 1999-01-29 | Sony Corp | 音声認識処理装置および音声認識処理方法 |
-
1999
- 1999-04-16 JP JP10963299A patent/JP3708747B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000305590A (ja) | 2000-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
Campbell et al. | Language recognition with support vector machines | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US7996218B2 (en) | User adaptive speech recognition method and apparatus | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP2005010691A (ja) | 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム | |
EP2842124A1 (en) | Negative example (anti-word) based performance improvement for speech recognition | |
KR20060070605A (ko) | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 | |
JP4554272B2 (ja) | 音声対話装置 | |
JPH10274996A (ja) | 音声認識装置 | |
JP3708747B2 (ja) | 音声認識方法 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
JP5378907B2 (ja) | 音声対話装置及び音声対話プログラム | |
JP5196114B2 (ja) | 音声認識装置およびプログラム | |
JP2004251998A (ja) | 対話理解装置 | |
JPH1083195A (ja) | 入力言語認識装置及び入力言語認識方法 | |
JP5201973B2 (ja) | 音声検索装置 | |
JP2966002B2 (ja) | 音声認識装置 | |
JP2965529B2 (ja) | 音声認識装置 | |
CN111429886A (zh) | 一种语音识别方法及系统 | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
KR100931790B1 (ko) | 음성인식 시스템에서 발음명칭목록을 이용한 인식사전 생성 방법 및 그를 이용한 유사발음명칭 처리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050804 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080812 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090812 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100812 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100812 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110812 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120812 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120812 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130812 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130812 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |