JP2006184669A - 音声認識装置、方法、およびシステム - Google Patents
音声認識装置、方法、およびシステム Download PDFInfo
- Publication number
- JP2006184669A JP2006184669A JP2004379194A JP2004379194A JP2006184669A JP 2006184669 A JP2006184669 A JP 2006184669A JP 2004379194 A JP2004379194 A JP 2004379194A JP 2004379194 A JP2004379194 A JP 2004379194A JP 2006184669 A JP2006184669 A JP 2006184669A
- Authority
- JP
- Japan
- Prior art keywords
- standby
- utterance
- speaker
- speech recognition
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】 制御装置106は、マイク101を介して入力された発話音声と、音声認識用辞書103に格納した待ち受け単語とを照合処理して、各待ち受け単語ごとに発話者の発話語彙との確からしさを算出する。そして、各カテゴリごとに、確からしさが最大の待ち受け単語を抽出し、複数のカテゴリから待ち受け単語が抽出された場合には、発話者に対してカテゴリを特定するための発話を促す。その結果、発話された発話内容を音声認識して、発話者の発話語彙を特定する。
【選択図】 図1
Description
図1は、第1の実施の形態における音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。運転者(発話者)が発話したナビゲーション装置200を操作するための各種操作コマンドの音声データは、音声認識装置100で音声認識が実行され、ナビゲーション装置200へ出力される。ナビゲーション装置200は、音声認識装置100から出力された音声データを操作コマンドに変換して処理を実行する。
この場合には、入力された発話内容と全ての待ち受け単語との一致度が低く、音声認識結果として採用できる待ち受け単語が存在しない。したがって、発話者に対して再度施設名の入力を促すために、例えば「千葉県の施設名称をもう1度どうぞ」のように発話を促すガイダンス音声をスピーカー104を介して出力し、図2に示す施設リストを音声認識用辞書103に格納して音声入力待ち受け状態となる。
この場合には、確からしさUが所定値より大きい施設名2bの待ち受け単語を音声認識結果として決定する。そして、例えば、上述したように発話者が実際に発話した「○○遊園地」が音声認識された場合には、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「○○遊園地」周辺の地図をモニタ105に表示する。
この場合には、確からしさUが所定値より大きい施設名2bの待ち受け単語が属する施設ジャンル名2aを取得する。例えば、「○○遊園地」と「○○シネマ」の確からしさUが所定値より大きい場合には、それぞれの施設ジャンル名2aとして「遊園地」と「映画館」が取得される。そして、発話者に対して施設ジャンル名2aを特定するための入力を促すために、例えば「遊園地ですか?それとも映画館ですか?」のようなガイダンス音声をスピーカー104を介して出力し、施設ジャンル名2aを音声認識用辞書103に格納して音声入力待ち受け状態となる。
(1)音声認識用辞書103に格納された待ち受け単語が、図2に示すように、複数のカテゴリに分類されて階層構造を有している場合には、まず入力された発話内容を全ての待ち受け単語と照合して確からしさUを算出し、各カテゴリごとに算出した確からしさUが最大となる待ち受け単語を抽出する。そして、抽出した待ち受け単語の確からしさUが所定値Vより大きい待ち受け単語が複数ある場合には、発話者に対してカテゴリ名の指定を促し、入力されたカテゴリ名に属する待ち受け単語を音声認識結果として決定するようにした。これによって、複数のカテゴリに発話内容との一致度が高い待ち受け単語の候補が存在する場合に、発話者が要求しているものはいずれのカテゴリに属すものかを確認した上で発話内容を特定することができ、発話者の要求していない待ち受け単語が音声認識結果として決定されることを防ぐことができる。
第2の実施の形態では、発話者がナビゲーション装置200で駅を検索する場合について説明する。なお、図1に示した音声認識装置100のブロック図については、第1の実施の形態と同様のため、説明を省略する。
この場合には、入力された発話内容と全ての待ち受け単語との一致度が低く、音声認識結果として採用できる待ち受け単語が存在しない。したがって、発話者に対して再度駅名の入力を促すために、例えば「神奈川県の駅名をもう1度どうぞ」のように発話を促すガイダンス音声をスピーカー104を介して出力し、図4に示す駅名リストを音声認識用辞書103に格納して音声入力待ち受け状態となる。
この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語を音声認識結果として決定する。そして、例えば「小田急線」の「町田駅」が音声認識された場合には、「小田急線の町田駅を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「小田急線町田駅」周辺の地図をモニタ105に表示する。
この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語が属する路線名4aを取得する。なお、本実施の形態のように駅名を検索する場合には、図4に示した「町田駅」のように、複数の路線において同じ駅名4bが存在する場合がある。したがって、このような場合には、複数の路線における同じ駅名4bの待ち受け単語の確からしさUが所定値より大きくなることが考えられる。また、例えば、「JR根岸線」に属する「磯子駅」と、「小田急線」に属する「町田駅」の確からしさUが所定値より大きい場合のように、複数の異なる駅名4bの待ち受け単語で確からしさUが所定値より大きくなる場合が考えられる。よって、次のようにこれら2つのケースに場合分けして処理を行う。
この場合に該当する例としては、上述したように路線名4aが「JR横浜線」と「小田急線」に属する2つの「町田駅」の確からしさUが所定値より大きくなっている場合が考えられる。この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語が属する路線名4aとして、「JR横浜線」と「小田急線」が抽出される。ここでは、すでに駅名4bは「町田駅」と特定できているため、あとは路線名4aが特定できれば発話者が検索したい駅を特定することができる。
この場合に該当する例としては、上述したように路線名4aが「JR根岸線」に属する「磯子駅」と、「小田急線」に属する「町田駅」の確からしさUが所定値より大きくなっている場合が考えられる。この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語が属する路線名4aとして、「JR根岸線」と「小田急線」が抽出される。ここでは(3−1)で上述した場合とは異なり、それぞれの駅名4bが異なることから、発話者に対して路線名4aと駅名4bとを提示して、いずれの路線名4aの駅を検索したいかを特定させる必要がある。
(1)図4に示す複数のカテゴリに分類されて階層構造の待ち受け単語を音声認識する場合に、各カテゴリから抽出した確からしさUが所定値Vより大きい待ち受け単語が複数ある場合には、抽出した待ち受け単語が同一であるか否かを判断し、このときの判断結果に基づいて、待ち受け単語を特定するために発話者に対して入力を促すためのガイダンス音声を変更するようにした。これによって、例えば、駅名を音声認識する場合に、複数の路線において同じ駅名の待ち受け単語が抽出された場合と、複数の路線において異なる駅名の待ち受け単語が抽出された場合とでは、発話者に対して出力するガイダンス音声を変化させて、発話者が応答しやすい適切なガイダンス音声を出力することができる。
上述した第1の実施の形態では、まず発話者に都道府県の発話を促して施設が存在する都道府県を特定した後、その都道府県に存在する施設名の発話を促すようにして、上位カテゴリから順番に施設名を絞り込んで音声認識を行う場合について説明した。しかしこれに限定されず、発話者から「周辺施設」を検索するように要求があった場合には、例えば「施設がある都道府県名と施設名をどうぞ」のようなガイダンス音声を出力して、図2においてさらに上位のカテゴリである都道府県名と、その下位に派生する施設名を続けて発話するように促してもよい。
パターン1に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「千葉県」−「○○シネマ」とが抽出された場合がある。このような場合には、都道府県名は「千葉県」で特定できていることから、特定できていない施設名2bが「○○遊園地」または「○○シネマ」のいずれであるかを確認するためのガイダンス音声、例えば「○○遊園地ですか?それとも○○シネマですか?」をスピーカー104を介して出力する。このガイダンス音声に対して、発話者が「○○遊園地」と施設名2bを特定する発話を行うことによって、発話者の発話内容が「千葉県の○○遊園地」であると特定することができる。
パターン2に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「滋賀県」−「○○遊園地」とが抽出された場合がある。このような場合には、施設名2bは「○○遊園地」で特定できていることから、特定できていない都道府県名が「千葉県」または「滋賀県」のいずれであるかを確認するためのガイダンス音声、例えば「千葉県ですか?それとも滋賀県ですか?」をスピーカー104を介して出力する。このガイダンス音声に対して、発話者が「千葉県」と都道府県名を特定する発話を行うことによって、発話者の発話内容が「千葉県の○○遊園地」であると特定することができる。
パターン3に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「滋賀県」−「○○シネマ」とが抽出された場合がある。このような場合には、都道府県名、および施設名2bのいずれも特定できていないことから、都道府県名と施設名2bとを同時に確認するためのガイダンス音声、例えば「千葉県の○○遊園地ですか?それとも滋賀県の○○シネマですか?」をスピーカー104を介して出力する。このガイダンス音声に対して、発話者が「千葉県の○○遊園地」と当初の発話内容を再発話することによって、再度上述した音声認識を実行して、発話内容を特定することができる。
(1)上述した第1および第2の実施の形態では、確からしさUは、0〜1の数値で表され、発話内容と待ち受け単語とが全く一致しない場合には0、完全に一致した場合には1が算出される例について説明した。しかしこれに限定されず、その他の算出方法によって確からしさUを算出してもよい。
101 マイク
102 音声入力操作スイッチ
103 音声認識用辞書
103a 音声認識用情報データベース
104 スピーカー
105 モニタ
106 制御装置
200 ナビゲーション装置
Claims (7)
- 音声を入力する音声入力手段と、
カテゴリごとに分類した音声認識時の待ち受け単語を格納する格納手段と、
前記音声入力手段を介して音声入力された発話者の発話語彙と、前記格納手段に格納された待ち受け単語とを照合処理して、各カテゴリの待ち受け単語ごとに前記発話語彙の確からしさを算出する照合手段と、
前記照合手段で算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出する抽出手段と、
前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促す発話促進手段と、
前記発話促進手段で発話を促した結果、前記音声入力手段を介して音声入力された発話内容を音声認識して、前記発話語彙を特定する発話語彙特定手段とを備えることを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記抽出手段によって1つの前記待ち受け単語が抽出された場合には、当該待ち受け単語を音声認識結果として決定し、
前記抽出手段によって前記待ち受け単語が抽出されない場合には、発話者に対して再発話を促すことを特徴とする音声認識装置。 - 請求項1または2に記載の音声認識装置において、
前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、各カテゴリから抽出された前記待ち受け単語が同一である場合には、抽出された前記待ち受け単語がそれぞれ属するカテゴリ名の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、各カテゴリから抽出された前記待ち受け単語がそれぞれ異なる場合には、抽出された前記待ち受け単語、およびそれぞれの待ち受け単語が属するカテゴリ名の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。 - 請求項1〜4のいずれか一項に記載の音声認識装置において、
前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出され、前記カテゴリと、各カテゴリから抽出された前記待ち受け単語とを組み合わせた組み合わせパターンが複数ある場合に、(1)全ての組み合わせパターンの中で前記カテゴリ、および前記待ち受け単語のいずれも一致していない場合には、前記カテゴリ、および前記待ち受け単語の発話を促すガイダンスを生成して出力し、(2)全ての組み合わせパターンの中で前記カテゴリまたは前記待ち受け単語のいずれか一方が一致し、他方が一致していない場合には、前記カテゴリまたは前記待ち受け単語のいずれか一致していない方の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。 - カテゴリごとに分類した音声認識時の待ち受け単語を格納し、
音声入力された発話者の発話語彙と、格納された待ち受け単語とを照合処理して、各待ち受け単語ごとに前記発話語彙の確からしさを算出し、
算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出し、
複数のカテゴリから前記待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促し、
発話者に対して発話を促した結果、音声入力された発話内容を音声認識して、前記発話語彙を特定することを特徴とする音声認識方法。 - 請求項1〜5に記載の音声認識装置と、前記音声認識装置によって操作される情報機器とを備える音声認識システムであって、
前記音声認識装置は、発話者の発話語彙の特定結果を前記情報機器へ出力し、
前記情報機器は、前記音声認識装置から出力された発話者の発話語彙に基づいて、処理を実行することを特徴とする音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004379194A JP2006184669A (ja) | 2004-12-28 | 2004-12-28 | 音声認識装置、方法、およびシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004379194A JP2006184669A (ja) | 2004-12-28 | 2004-12-28 | 音声認識装置、方法、およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006184669A true JP2006184669A (ja) | 2006-07-13 |
Family
ID=36737819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004379194A Pending JP2006184669A (ja) | 2004-12-28 | 2004-12-28 | 音声認識装置、方法、およびシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006184669A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058813A (ja) * | 2006-09-01 | 2008-03-13 | Honda Motor Co Ltd | 音声応答システム、音声応答プログラム |
JP2010128144A (ja) * | 2008-11-27 | 2010-06-10 | Toyota Central R&D Labs Inc | 音声認識装置及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001175279A (ja) * | 1999-12-16 | 2001-06-29 | Honda Motor Co Ltd | 音声認識方法 |
JP2001215995A (ja) * | 2000-02-04 | 2001-08-10 | Toyota Motor Corp | 音声認識装置 |
JP2002123279A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 施設検索装置ならびにその方法 |
JP2002123290A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 音声認識装置ならびに音声認識方法 |
-
2004
- 2004-12-28 JP JP2004379194A patent/JP2006184669A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001175279A (ja) * | 1999-12-16 | 2001-06-29 | Honda Motor Co Ltd | 音声認識方法 |
JP2001215995A (ja) * | 2000-02-04 | 2001-08-10 | Toyota Motor Corp | 音声認識装置 |
JP2002123279A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 施設検索装置ならびにその方法 |
JP2002123290A (ja) * | 2000-10-16 | 2002-04-26 | Pioneer Electronic Corp | 音声認識装置ならびに音声認識方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008058813A (ja) * | 2006-09-01 | 2008-03-13 | Honda Motor Co Ltd | 音声応答システム、音声応答プログラム |
JP4666648B2 (ja) * | 2006-09-01 | 2011-04-06 | 本田技研工業株式会社 | 音声応答システム、音声応答プログラム |
JP2010128144A (ja) * | 2008-11-27 | 2010-06-10 | Toyota Central R&D Labs Inc | 音声認識装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1162602B1 (en) | Two pass speech recognition with active vocabulary restriction | |
JP4260788B2 (ja) | 音声認識機器制御装置 | |
US6230132B1 (en) | Process and apparatus for real-time verbal input of a target address of a target address system | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
WO2015075975A1 (ja) | 対話制御装置及び対話制御方法 | |
US20120253823A1 (en) | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing | |
JP2008009153A (ja) | 音声対話システム | |
JP2010191400A (ja) | 音声認識装置およびデータ更新方法 | |
EP1975923B1 (en) | Multilingual non-native speech recognition | |
JP2000315096A (ja) | 音声認識装置を備えたマンマシンシステム | |
JP2006251800A (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
US20080262843A1 (en) | Speech recognition apparatus and method | |
US10741178B2 (en) | Method for providing vehicle AI service and device using the same | |
JP5263875B2 (ja) | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JP2002123290A (ja) | 音声認識装置ならびに音声認識方法 | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
JP2004226698A (ja) | 音声認識装置 | |
WO2012174515A1 (en) | Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same | |
JP5074759B2 (ja) | 対話制御装置、対話制御方法及び対話制御プログラム | |
JP2006184669A (ja) | 音声認識装置、方法、およびシステム | |
KR101063159B1 (ko) | 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법 | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP4736962B2 (ja) | キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置 | |
JP4661216B2 (ja) | 音声認識装置、方法、およびシステム | |
JP2006023444A (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100804 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100907 |