JP2006184669A - 音声認識装置、方法、およびシステム - Google Patents

音声認識装置、方法、およびシステム Download PDF

Info

Publication number
JP2006184669A
JP2006184669A JP2004379194A JP2004379194A JP2006184669A JP 2006184669 A JP2006184669 A JP 2006184669A JP 2004379194 A JP2004379194 A JP 2004379194A JP 2004379194 A JP2004379194 A JP 2004379194A JP 2006184669 A JP2006184669 A JP 2006184669A
Authority
JP
Japan
Prior art keywords
standby
utterance
speaker
speech recognition
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004379194A
Other languages
English (en)
Inventor
Hiroshi Saito
浩 斎藤
Kengo Suzuki
堅悟 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004379194A priority Critical patent/JP2006184669A/ja
Publication of JP2006184669A publication Critical patent/JP2006184669A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 複数のカテゴリごとに分類した待ち受け単語と入力音声とを照合処理して、最適な音声認識結果を決定すること。
【解決手段】 制御装置106は、マイク101を介して入力された発話音声と、音声認識用辞書103に格納した待ち受け単語とを照合処理して、各待ち受け単語ごとに発話者の発話語彙との確からしさを算出する。そして、各カテゴリごとに、確からしさが最大の待ち受け単語を抽出し、複数のカテゴリから待ち受け単語が抽出された場合には、発話者に対してカテゴリを特定するための発話を促す。その結果、発話された発話内容を音声認識して、発話者の発話語彙を特定する。
【選択図】 図1

Description

本発明は、入力された音声を認識する音声認識装置、方法、およびシステムに関する。
次のような音声認識方法が特許文献1によって知られている。この音声認識方法では、音声認識実行時の待ち受け単語をカテゴリごとに分類して、入力された発話内容をそれぞれのカテゴリの待ち受け単語と照合し、最も類似する待ち受け単語を音声認識結果として決定する。
特開2001−109492号公報
しかしながら、上述した従来の音声認識方法では、複数のカテゴリから類似度の高い待ち受け単語が抽出された場合でも、最も類似する待ち受け単語を音声認識結果として決定することとなり、それ以外の類似度が高い待ち受け単語は音声認識結果として決定されず、このような決定されなかった待ち受け単語の中に発話者の発話語彙が含まれている可能性があるという問題が生じていた。
本発明は、カテゴリごとに分類した音声認識時の待ち受け単語を格納し、音声入力された発話者の発話語彙と、格納された待ち受け単語とを照合処理して、各待ち受け単語ごとに発話語彙の確からしさを算出し、算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出し、複数のカテゴリから待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促し、発話者に対して発話を促した結果、音声入力された発話内容を音声認識して、発話語彙を特定することを特徴とする。
本発明によれば、発話者の発話語彙をカテゴリごとに分類した音声認識時の待ち受け単語と照合して、各待ち受け単語ごとに発話語彙との確からしさを算出し、算出した確からしさが所定値より大きい受け単語を各カテゴリから抽出する。そして、複数のカテゴリから待ち受け単語が抽出された場合には、発話者に対してカテゴリを特定するための発話を促し、その結果音声入力された発話内容を音声認識して発話語彙を特定するようにした。これによって、発話語彙との確からしさが高い待ち受け単語が複数のカテゴリに存在する場合には、発話者によって特定されたカテゴリの待ち受け単語を音声認識結果として決定することができ、発話語彙を正確に音声認識することができる。
―第1の実施の形態―
図1は、第1の実施の形態における音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。運転者(発話者)が発話したナビゲーション装置200を操作するための各種操作コマンドの音声データは、音声認識装置100で音声認識が実行され、ナビゲーション装置200へ出力される。ナビゲーション装置200は、音声認識装置100から出力された音声データを操作コマンドに変換して処理を実行する。
音声認識装置100は、発話者の発話語彙を入力するマイク101と、音声入力の開始、中断、再開、およびキャンセルを指示するための音声入力操作スイッチ102と、音声認識装置100が待ち受けて音声認識可能なすべての待ち受け単語が記憶されている音声認識用情報データベース103aと、音声認識用情報データベース103aから音声認識実行時の待ち受け単語を読み込んで格納する音声認識用辞書103と、発話者に音声入力を促すガイダンス音声やビープ音を出力するスピーカー104と、発話者に音声入力を促すガイダンス画像や音声認識結果を表示するモニタ105と、後述する音声認識処理を実行する制御装置106とを備えている。
音声認識用辞書103には音声認識実行時の待ち受け単語として、例えば「目的地」や「周辺施設」などのナビゲーション装置200を操作するための操作コマンドや、これらの「目的地」や「周辺施設」を特定するために必要な情報としての都道府県名のリストなどが適宜音声認識用情報データベース103aから抽出されて格納される。また、周辺施設名のように、各カテゴリごとに分類可能な語彙の待ち受け単語は、例えば、図2に示すようなデータ構造で格納される。すなわち、ナビゲーション装置200で千葉県の施設を検索するための施設リストとして、施設ジャンル名2aごとにカテゴリ分類された施設名2bの待ち受け単語が格納される。
制御装置107は、マイク101を介して入力された発話者の発話内容と音声認用識辞書103に格納された待ち受け単語とを照合処理して、最も確からしい照合結果を音声認識結果として決定する。すなわち、入力された発話者の発話内容と、音声認用識辞書103に格納されたすべての待ち受け単語とをマッチング処理して、発話内容と各待ち受け単語との確からしさUを算出する。確からしさUは、例えば0〜1の数値で表され、発話内容と待ち受け単語とが全く一致しない場合には0、完全に一致した場合には1が算出される。すなわち、発話者の発話内容と待ち受け単語との一致度が高いほど、確からしさUは大きくなる。この算出した確からしさUに基づいて、音声認識結果として決定する。
具体的には、次のように音声認識処理を実行する。発話者によって、音声入力操作スイッチ102が押下され、音声入力の開始が指示されると、制御装置107はスピーカー104を介して、例えば「ご用件をどうぞ」のように発話を促すガイダンス音声を出力する。同時に、ナビゲーション装置200を操作するための操作コマンド、例えば「目的地」、「周辺施設」、および「駅を探す」を音声認識実行時の待ち受け単語として、音声認識用情報データベース103aから抽出して音声認識用辞書103に格納し、音声入力待ち受け状態となる。
その後、発話者によって「周辺施設」が発話され、マイク101を介して入力されると、当該発話内容と音声認識用辞書103に格納した待ち受け単語とを照合処理して、各待ち受け単語に対して上述した確からしさUを算出する。そして、この結果、最も確からしさUの大きい待ち受け単語を音声認識結果として決定する。これによって、発話者によって発話された「周辺施設」が音声認識されると、発話者に検索対象の周辺施設が存在する都道府県の発話を促すために、例えば「施設がある都道府県名をどうぞ」のように発話を促すガイダンス音声をスピーカー104を介して出力する。同時に、発話者による都道府県名の発話を待ち受けるために、音声認識用情報データベース103aから都道府県名の待ち受け単語を抽出して音声認識用辞書103に格納し、音声入力待ち受け状態となる。
発話者によって「千葉県」が発話されると、当該発話内容と音声認識用辞書103に格納した待ち受け単語とを照合処理して、各待ち受け単語に対して上述した確からしさUを算出する。この結果、最も確からしさUの大きい待ち受け単語を音声認識結果として決定する。これによって、発話者によって発話された「千葉県」が音声認識されると、発話者に施設名の発話を促すために、例えば「千葉県の施設名称をどうぞ」のようにガイダンス音声をスピーカー104を介して出力する。同時に、音声認識用情報データベース103aから千葉県に存在する施設名2bと、その施設ジャンル名2aの待ち受け単語とが抽出され、図2により上述した階層構造の施設リストが音声認識用辞書103に格納される。そして、音声入力待ち受け状態となる。
このような階層構造で表される待ち受け単語が音声認識用辞書103に格納された場合に、発話者によって「○○遊園地」と発話されたときには、次のように音声認識処理を実行する。すなわち、発話内容と音声認識用辞書103に格納した施設名2bの全待ち受け単語とを照合処理して、各待ち受け単語における確からしさUを算出する。そして、各施設ジャンル名2aごとに、それぞれに属する施設名2bのうち最も確からしさUが大きい(Uが最大の)施設名2bを抽出する。図2に示す例では、施設ジャンル名2aが「遊園地」に属する施設名2bから「○○遊園地」が抽出され、施設ジャンル名2aが「映画館」に属する施設名2bから「○○シネマ」が抽出され、施設ジャンル名2aが「運動施設」に属する施設名2bから「××運動公園」が抽出されたものとする。
抽出した各施設ジャンル2aに属するUが最大の施設名2bの待ち受け単語において、それぞれの確からしさUがあらかじめ設定した所定値Vより大きいか否かを判断する。ここで所定値Vは、確からしさUが当該所定値Vより大きければ、入力された発話内容と待ち受け単語との一致度が十分に高く、音声認識結果として採用することができるような値が設定されている。したがって、抽出した各待ち受け単語の確からしさUと所定値Vとの比較結果に基づいて、次の(1)〜(3)に示すように処理を行う。
(1)抽出した全ての待ち受け単語の確からしさUが、所定値以下の場合
この場合には、入力された発話内容と全ての待ち受け単語との一致度が低く、音声認識結果として採用できる待ち受け単語が存在しない。したがって、発話者に対して再度施設名の入力を促すために、例えば「千葉県の施設名称をもう1度どうぞ」のように発話を促すガイダンス音声をスピーカー104を介して出力し、図2に示す施設リストを音声認識用辞書103に格納して音声入力待ち受け状態となる。
(2)抽出した待ち受け単語のうち1つの確からしさUが、所定値より大きい場合
この場合には、確からしさUが所定値より大きい施設名2bの待ち受け単語を音声認識結果として決定する。そして、例えば、上述したように発話者が実際に発話した「○○遊園地」が音声認識された場合には、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「○○遊園地」周辺の地図をモニタ105に表示する。
(3)抽出した待ち受け単語のうち2つ以上の確からしさUが、所定値より大きい場合
この場合には、確からしさUが所定値より大きい施設名2bの待ち受け単語が属する施設ジャンル名2aを取得する。例えば、「○○遊園地」と「○○シネマ」の確からしさUが所定値より大きい場合には、それぞれの施設ジャンル名2aとして「遊園地」と「映画館」が取得される。そして、発話者に対して施設ジャンル名2aを特定するための入力を促すために、例えば「遊園地ですか?それとも映画館ですか?」のようなガイダンス音声をスピーカー104を介して出力し、施設ジャンル名2aを音声認識用辞書103に格納して音声入力待ち受け状態となる。
そして、発話者によって「遊園地」が発話されると、発話内容と音声認識用辞書103に格納した施設ジャンル名2aの全待ち受け単語とを照合処理して、各待ち受け単語における確からしさUを算出する。この結果、最も確からしさUの大きい待ち受け単語、すなわち「遊園地」を音声認識結果として決定する。これによって、複数の施設ジャンル2aから確からしさUが所定値より大きい待ち受け単語が抽出された場合でも、発話者がいずれの施設ジャンル2aに属する施設の検索を要求しているかを特定することができる。すなわち、「○○遊園地」および「○○シネマ」のうち、発話者が発話した施設名2bは、施設ジャンル名2aが「遊園地」である「○○遊園地」と特定することができる。
このように、発話者が検索したい周辺施設名が特定されると、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「○○遊園地」周辺の地図をモニタ105に表示する。
図3は、第1の実施の形態における音声認識装置100の処理を示すフローチャートである。図3に示す処理は音声認識装置100を搭載した車両のイグニションスイッチがオンされることによって音声認識装置100の電源がオンされると、制御装置106によって実行される。
ステップS10において、発話者によって音声入力操作スイッチ102が押下され、発話開始が指示されたか否かが判断される。音声入力操作スイッチ102が押下されたと判断した場合には、ステップS20へ進む。ステップS20では、発話者に対して発話を促すためのガイダンス音声をスピーカー104を介して出力して、ステップS30へ進む。ステップS30では、音声認識用情報データベース103aから発話者の発話を待ち受けるために必要な待ち受け単語を抽出して音声認識用辞書103に格納する。その後、ステップS40へ進む。
ステップS40では、発話者によってマイク101を介して音声が入力されたか否かを判断する。発話者によって音声が入力されたと判断した場合には、ステップS50へ進む。ステップS50では、入力された発話内容と、音声認識用辞書103に格納した待ち受け単語とを照合処理して、上述した各待ち受け単語における確からしさUを算出する。その後、ステップS60へ進み、音声認識用辞書103に格納された待ち受け単語は、図2に示したような複数のカテゴリに分類されて階層構造を有しているか否かを判断する。待ち受け単語が複数のカテゴリに分類されていないと判断した場合には、後述するステップS130へ進む。一方、待ち受け単語が複数のカテゴリに分類されていると判断した場合には、ステップS70へ進む。
ステップS70では、待ち受け単語の各カテゴリごとに、算出した確からしさUが最大となる待ち受け単語を抽出して、ステップS80へ進む。ステップS80では、抽出した待ち受け単語の各確からしさU(最大U)と、上述した所定値Vとを比較して、最大Uが所定値Vより大きい待ち受け単語の数がいくつあるかを判断する。その結果、最大Uが所定値Vより大きい待ち受け単語が1つもないと判断した場合には、上述したステップS20へ戻り、直前の発話内容の再発話を促すガイダンス音声を出力して、処理を続ける。
また、最大Uが所定値Vより大きい待ち受け単語が1つだけあると判断した場合には、後述するステップS130へ進む。これに対して、最大Uが所定値Vより大きい待ち受け単語が2つ以上あると判断した場合には、ステップS90へ進む。ステップS90では、待ち受け単語を1つに特定するために、発話者に対して発話内容が属するカテゴリ名の発話を促すためのガイダンス音声をスピーカー104を介して出力して、ステップS100へ進む。ステップS100では、音声認識用情報データベース103aから発話者によるカテゴリ名の発話を待ち受けるために必要な待ち受け単語を読み込んで、音声認識用辞書103に格納する。その後、ステップS110へ進む。
ステップS110では、発話者からカテゴリ名が発話されたか否かを判断して、発話されたと判断した場合には、ステップS120へ進む。ステップS120では、発話者によって発話されたカテゴリ名と、音声認識用辞書103に格納した待ち受け単語とを照合処理して、各待ち受け単語における確からしさUを算出する。その後、ステップS130へ進み、算出した確からしさUが最大の待ち受け単語を音声認識結果として決定して、音声認識する。その後、ステップS140へ進む。
ステップS140では、ステップS130で音声認識した結果、発話者の要求、すなわち発話語彙が特定されたか否かを判断する。すなわち上述したように、発話者が検索したい周辺施設を特定できたか、あるいは周辺施設を特定するために必要な情報、例えば「千葉県」などの都道府県入力を行っている段階であるかを判断する。この結果、まだ発話者の要求が特定されていないと判断した場合には、ステップS20に戻って、発話者の要求を特定するまで処理を繰り返す。これに対して、発話者の要求を特定したと判断した場合には、ステップS150へ進む。
ステップS150では、特定した発話者の要求に基づいて、ガイダンス音声を出力し、ナビゲーション装置を制御する。例えば、上述したように発話者が検索したい周辺施設名を特定した場合には、「千葉県の○○遊園地を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「○○遊園地」周辺の地図をモニタ105に表示する。その後、ステップS160へ進む。
ステップS160では、音声認識装置100を搭載した車両のイグニションスイッチがオフされたか否かを判断し、オフされないと判断した場合には、ステップS10へ戻って処理を繰り返す。一方、音声認識装置100を搭載した車両のイグニションスイッチがオフされたと判断した場合には、処理を終了する。
以上説明した第1の実施の形態によれば、以下のような作用効果を得ることができる。
(1)音声認識用辞書103に格納された待ち受け単語が、図2に示すように、複数のカテゴリに分類されて階層構造を有している場合には、まず入力された発話内容を全ての待ち受け単語と照合して確からしさUを算出し、各カテゴリごとに算出した確からしさUが最大となる待ち受け単語を抽出する。そして、抽出した待ち受け単語の確からしさUが所定値Vより大きい待ち受け単語が複数ある場合には、発話者に対してカテゴリ名の指定を促し、入力されたカテゴリ名に属する待ち受け単語を音声認識結果として決定するようにした。これによって、複数のカテゴリに発話内容との一致度が高い待ち受け単語の候補が存在する場合に、発話者が要求しているものはいずれのカテゴリに属すものかを確認した上で発話内容を特定することができ、発話者の要求していない待ち受け単語が音声認識結果として決定されることを防ぐことができる。
(2)発話者に対して発話を促す際に、発話者に発話を求める内容に応じたガイダンス音声をスピーカー104を介して出力するようにした。これによって、発話者は次に何を発話すれば良いかを容易に把握でき、スムーズに音声入力を行うことができる。
―第2の実施の形態―
第2の実施の形態では、発話者がナビゲーション装置200で駅を検索する場合について説明する。なお、図1に示した音声認識装置100のブロック図については、第1の実施の形態と同様のため、説明を省略する。
発話者が駅を検索するために、音声入力操作スイッチ102が押下すると、制御装置107はスピーカー104を介して、例えば「ご用件をどうぞ」のように発話を促すガイダンス音声を出力する。同時に、ナビゲーション装置200を操作するための操作コマンド、例えば「目的地」、「周辺施設」、および「駅を探す」を音声認識実行時の待ち受け単語として、音声認識用情報データベース103aから抽出して音声認識用辞書103に格納し、音声入力待ち受け状態となる。
その後、発話者によって「駅を探す」が発話され、マイク101を介して入力されると、第1の実施の形態で上述したように発話内容と音声認識用辞書103に格納した待ち受け単語とを照合処理して、確からしさUが最も大きい待ち受け単語を音声認識結果として決定する。これによって「駅を探す」が音声認識されると、発話者に検索対象の駅が存在する都道府県の発話を促すために、例えば「駅がある都道府県名をどうぞ」のように発話を促すガイダンス音声をスピーカー104を介して出力する。同時に、発話者による都道府県名の発話を待ち受けるために、音声認識用情報データベース103aから都道府県名の待ち受け単語を抽出して音声認識用辞書103に格納し、音声入力待ち受け状態となる。
発話者によって「神奈川県」が発話され、音声認識用辞書103に格納された待ち受け単語との照合処理の結果、算出した確からしさUに基づいて「神奈川県」が音声認識されると、発話者に駅名の発話を促すために、例えば「神奈川県の駅名をどうぞ」のようにスピーカー104を介してガイダンス音声を出力する。同時に、発話者による駅名の発話を待ち受けるために、図4に示すような駅名リストの待ち受け単語を音声認識用情報データベース103aから抽出して音声認識用辞書103に格納する。すなわち、ナビゲーション装置200で神奈川県の駅を検索するための語彙のリストとして、路線名4aごとにカテゴリ分類された駅名4bの待ち受け単語が格納される。これによって、発話者による神奈川県の駅名を待ち受けて、音声認識することが可能となる。
その後、発話者によって「町田駅」と発話された場合には、第1の実施の形態と同様に、発話内容と音声認識用辞書103に格納した待ち受け単語の下位階層に相当する全駅名4bの待ち受け単語とを照合処理して、各待ち受け単語における確からしさUを算出する。そして、カテゴリ単位、すなわち各路線名4aごとに、それぞれに属する駅名4bのうち最も確からしさUが大きい駅名4bを抽出する。図4に示す例では、路線名4aが「JR横浜線」に属する駅名4bから「町田駅」が抽出され、路線名4aが「JR根岸線」に属する駅名4bから「磯子駅」が抽出され、路線名4aが「小田急線」に属する駅名4bから「町田駅」が抽出され、路線名4aが「京浜急行線」に属する駅名4bから「上大岡駅」が抽出されたものとする。
抽出した各路線名4aに属するUが最大の駅名4bの待ち受け単語において、第1の実施の形態と同様に、それぞれの確からしさUがあらかじめ設定した所定値Vより大きいか否かを判断する。そして、抽出した各待ち受け単語の確からしさUと所定値Vとの比較結果に基づいて、次の(1)〜(3)に示すように処理を行う。
(1)抽出した全ての待ち受け単語の確からしさUが、所定値以下の場合
この場合には、入力された発話内容と全ての待ち受け単語との一致度が低く、音声認識結果として採用できる待ち受け単語が存在しない。したがって、発話者に対して再度駅名の入力を促すために、例えば「神奈川県の駅名をもう1度どうぞ」のように発話を促すガイダンス音声をスピーカー104を介して出力し、図4に示す駅名リストを音声認識用辞書103に格納して音声入力待ち受け状態となる。
(2)抽出した待ち受け単語のうち1つの確からしさUが、所定値より大きい場合
この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語を音声認識結果として決定する。そして、例えば「小田急線」の「町田駅」が音声認識された場合には、「小田急線の町田駅を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「小田急線町田駅」周辺の地図をモニタ105に表示する。
(3)抽出した待ち受け単語のうち2つ以上の確からしさUが、所定値より大きい場合
この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語が属する路線名4aを取得する。なお、本実施の形態のように駅名を検索する場合には、図4に示した「町田駅」のように、複数の路線において同じ駅名4bが存在する場合がある。したがって、このような場合には、複数の路線における同じ駅名4bの待ち受け単語の確からしさUが所定値より大きくなることが考えられる。また、例えば、「JR根岸線」に属する「磯子駅」と、「小田急線」に属する「町田駅」の確からしさUが所定値より大きい場合のように、複数の異なる駅名4bの待ち受け単語で確からしさUが所定値より大きくなる場合が考えられる。よって、次のようにこれら2つのケースに場合分けして処理を行う。
(3−1)複数の路線において同じ駅名4bの待ち受け単語が抽出された場合
この場合に該当する例としては、上述したように路線名4aが「JR横浜線」と「小田急線」に属する2つの「町田駅」の確からしさUが所定値より大きくなっている場合が考えられる。この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語が属する路線名4aとして、「JR横浜線」と「小田急線」が抽出される。ここでは、すでに駅名4bは「町田駅」と特定できているため、あとは路線名4aが特定できれば発話者が検索したい駅を特定することができる。
したがって、発話者に対して抽出された「町田駅」が属する路線名4aを特定するための入力を促すために、例えば「横浜線の駅ですか?それとも小田急線の駅ですか?」のようなガイダンス音声をスピーカー104を介して出力し、路線名4aを音声認識用辞書103に格納して音声入力待ち受け状態となる。その後、発話者によって「小田急線」が発話されると、発話内容と音声認識用辞書103に格納した路線名4aの全待ち受け単語とを照合処理し、算出した確からしさUに基づいて「小田急線」を音声認識結果として決定する。これによって、発話者が発話した「町田駅」が複数の路線に存在する場合でも、発話者が検索したい駅の路線名を特定して、「小田急線の町田駅」であると特定することができる。
(3−2)複数の路線において異なる駅名4bの待ち受け単語が抽出された場合
この場合に該当する例としては、上述したように路線名4aが「JR根岸線」に属する「磯子駅」と、「小田急線」に属する「町田駅」の確からしさUが所定値より大きくなっている場合が考えられる。この場合には、確からしさUが所定値より大きい駅名4bの待ち受け単語が属する路線名4aとして、「JR根岸線」と「小田急線」が抽出される。ここでは(3−1)で上述した場合とは異なり、それぞれの駅名4bが異なることから、発話者に対して路線名4aと駅名4bとを提示して、いずれの路線名4aの駅を検索したいかを特定させる必要がある。
したがって、例えば「JR根岸線の磯子駅ですか?それとも小田急線の町田駅ですか?」のようなガイダンス音声をスピーカー104を介して出力し、路線名4aを音声認識用辞書103に格納して音声入力待ち受け状態となる。その後、発話者によって「小田急線」が発話されると、発話内容と音声認識用辞書103に格納した路線名4aの待ち受け単語とを照合処理し、算出した確からしさUに基づいて「小田急線」を音声認識結果として決定する。これによって、発話者が検索したい駅は「小田急線の町田駅」であると特定することができる。
上述した(3−1)および(3−2)に示した処理によって、発話者が検索したい駅が特定されると、例えば「小田急線の町田駅を表示します」というガイダンス音声をスピーカー104を介して出力した後、ナビゲーション装置200からの出力に基づいて、「小田急線町田駅」周辺の地図をモニタ105に表示する。
図5は、第2の実施の形態における音声認識装置100の処理を示すフローチャートである。図5に示す処理は音声認識装置100を搭載した車両のイグニションスイッチがオンされることによって音声認識装置100の電源がオンされると、制御装置106によって実行される。なお、第1の実施の形態における図3と共通する処理については同じステップ番号を付与し、相違点を中心に説明する。
ステップS80で最大Uが所定値Vより大きい待ち受け単語が2つ以上あると判断した場合には、ステップS81へ進む。ステップS81では、これらの待ち受け単語が同一であるか否かを判断する。すなわち上述した「複数の路線において同じ駅名4bの待ち受け単語が抽出された場合」に該当するか、あるいは「複数の路線において異なる駅名4bの待ち受け単語が抽出された場合」に該当するかを判断する。
その結果、待ち受け単語が同一であると判断した場合には、ステップS91へ進む。ステップS91では、待ち受け単語(駅名4b)を提示せずにカテゴリ名(路線名4a)の発話を促すガイダンス音声、例えば「横浜線の駅ですか?それとも小田急線の駅ですか?」をスピーカー104を介して出力し、ステップS100へ進む。これに対して、待ち受け単語が同一でないと判断した場合には、ステップS92へ進む。ステップS92では、待ち受け単語を提示してカテゴリ名の発話を促すガイダンス音声、例えば「JR根岸線の磯子駅ですか?それとも小田急線の町田駅ですか?」をスピーカー104を介して出力し、ステップS100へ進む。
以上説明した第2の実施の形態によれば、第1の実施の形態における効果に加えて、以下のような作用効果を得ることができる。
(1)図4に示す複数のカテゴリに分類されて階層構造の待ち受け単語を音声認識する場合に、各カテゴリから抽出した確からしさUが所定値Vより大きい待ち受け単語が複数ある場合には、抽出した待ち受け単語が同一であるか否かを判断し、このときの判断結果に基づいて、待ち受け単語を特定するために発話者に対して入力を促すためのガイダンス音声を変更するようにした。これによって、例えば、駅名を音声認識する場合に、複数の路線において同じ駅名の待ち受け単語が抽出された場合と、複数の路線において異なる駅名の待ち受け単語が抽出された場合とでは、発話者に対して出力するガイダンス音声を変化させて、発話者が応答しやすい適切なガイダンス音声を出力することができる。
(2)複数のカテゴリにおいて同じ待ち受け単語が抽出された場合には、待ち受け単語(駅名4b)を提示せずにカテゴリ名(路線名4a)の発話を促すガイダンス音声、例えば「横浜線の駅ですか?それとも小田急線の駅ですか?」をスピーカー104を介して出力するようにした。これによって、発話者が発話した待ち受け単語が複数のカテゴリに存在する場合でも、そのカテゴリを特定して、発話者の発話内容を特定することができる。
(3)複数のカテゴリにおいて待ち受け単語が抽出された場合には、待ち受け単語を提示してカテゴリ名の発話を促すガイダンス音声、例えば「JR根岸線の磯子駅ですか?それとも小田急線の町田駅ですか?」をスピーカー104を介して出力するようにした。これによって、発話者が発話した待ち受け単語が特定できていない場合であっても、発話者にカテゴリ名を再発話させることで、発話者の発話内容を特定することができる。
―変形例―
上述した第1の実施の形態では、まず発話者に都道府県の発話を促して施設が存在する都道府県を特定した後、その都道府県に存在する施設名の発話を促すようにして、上位カテゴリから順番に施設名を絞り込んで音声認識を行う場合について説明した。しかしこれに限定されず、発話者から「周辺施設」を検索するように要求があった場合には、例えば「施設がある都道府県名と施設名をどうぞ」のようなガイダンス音声を出力して、図2においてさらに上位のカテゴリである都道府県名と、その下位に派生する施設名を続けて発話するように促してもよい。
この場合、音声認識用辞書103には、上位のカテゴリである都道府県名の待ち受け単語、および各都道府県名に対する図2に示す施設リスト、すなわち各都道府県名の待ち受け単語から派生する各施設ジャンル名2aごとの施設名2bを待ち受け単語として格納しておく。そして、発話者によって、例えば「千葉県の○○遊園地」と発話された場合には、まず当該発話内容と、音声認識用辞書に格納した都道府県名の待ち受け単語とを照合処理して、上述した確からしさUが所定値V以上の都道府県名の待ち受け単語を抽出する。そして、さらに当該発話内容と、抽出した都道府県名の待ち受け単語に対する施設リストとを照合処理し、確からしさUが所定値V以上の施設名2bを抽出する。
これによって、発話者による発話内容と一致度が高い都道府県名と施設名2bの組が抽出される。このとき、抽出された都道府県名と施設名2bの組が1つである場合には、その組を音声認識結果として決定することができる。しかし都道府県名と施設名2bの組が複数抽出された場合には、その中のいずれが発話者の要求と一致するものであるかを特定する必要がある。なお、都道府県名と施設名2bの組が複数抽出された場合とは、次の(1)〜(3)のような3つのパターンがある。このため、次の(1)〜(3)で説明するように、各パターンごとに発話者の発話内容を特定するための処理を行う必要がある。
(パターン1):1つの都道府県名に対して複数の施設名2bが抽出された場合
パターン1に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「千葉県」−「○○シネマ」とが抽出された場合がある。このような場合には、都道府県名は「千葉県」で特定できていることから、特定できていない施設名2bが「○○遊園地」または「○○シネマ」のいずれであるかを確認するためのガイダンス音声、例えば「○○遊園地ですか?それとも○○シネマですか?」をスピーカー104を介して出力する。このガイダンス音声に対して、発話者が「○○遊園地」と施設名2bを特定する発話を行うことによって、発話者の発話内容が「千葉県の○○遊園地」であると特定することができる。
(パターン2):複数の都道府県名に対して同一の施設名2bが抽出された場合
パターン2に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「滋賀県」−「○○遊園地」とが抽出された場合がある。このような場合には、施設名2bは「○○遊園地」で特定できていることから、特定できていない都道府県名が「千葉県」または「滋賀県」のいずれであるかを確認するためのガイダンス音声、例えば「千葉県ですか?それとも滋賀県ですか?」をスピーカー104を介して出力する。このガイダンス音声に対して、発話者が「千葉県」と都道府県名を特定する発話を行うことによって、発話者の発話内容が「千葉県の○○遊園地」であると特定することができる。
(パターン3):複数の都道府県名に対してそれぞれ異なる施設名2bが抽出された場合
パターン3に該当する具体例としては、発話者が「千葉県の○○遊園地」と発話した場合に、「千葉県」−「○○遊園地」と「滋賀県」−「○○シネマ」とが抽出された場合がある。このような場合には、都道府県名、および施設名2bのいずれも特定できていないことから、都道府県名と施設名2bとを同時に確認するためのガイダンス音声、例えば「千葉県の○○遊園地ですか?それとも滋賀県の○○シネマですか?」をスピーカー104を介して出力する。このガイダンス音声に対して、発話者が「千葉県の○○遊園地」と当初の発話内容を再発話することによって、再度上述した音声認識を実行して、発話内容を特定することができる。
このように、発話者によって発話された都道府県名と施設名2bとを連結した発話内容を音声認識した結果、抽出した都道府県名と施設名2bの組のパターンの中で一致していないいずれか一方、または両方の発話を促すためのガイダンスを出力するようにした。すなわち、都道府県名と施設名2bのうち、特定できていない待ち受け単語のみを発話者に発話させるようにした。これによって、発話者に対して要求する再発話の内容を必要なものだけに限定することができ、発話者の手間を省くことができる。また、再発話時に、特定できていない待ち受け単語のみを音声認識すればよいため、全てを再発話させる場合と比較して、処理の負荷を低減することができる。
なお、この変形例は、上述した第2の実施の形態において、発話者が都道府県名と駅名4bとを続けて発話する場合に対しても適用可能である。
さらに、上述した実施の形態の音声認識装置100は、以下のように変形することもできる。
(1)上述した第1および第2の実施の形態では、確からしさUは、0〜1の数値で表され、発話内容と待ち受け単語とが全く一致しない場合には0、完全に一致した場合には1が算出される例について説明した。しかしこれに限定されず、その他の算出方法によって確からしさUを算出してもよい。
(2)上述した第1および第2の実施の形態では、音声認識装置100を車両に搭載したナビゲーション装置に適用した例について説明したが、これに限定されず、その他の各種情報機器に適用することもできる。
(3)上述した第1および第2の実施の形態では、音声認識するに当たって、各カテゴリごとに算出した確からしさUが最大となる待ち受け単語を抽出し、抽出した待ち受け単語の確からしさUが所定値Vより大きいか否かを判断する例について説明した。しかしこれに限定されず、その他の方法によって、各カテゴリごとに算出した確からしさUのうち、妥当性の高い確からしさUを持つ待ち受け単語を抽出し、抽出した待ち受け単語の確からしさUが所定値Vより大きいか否かを判断してもよい。
なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。
特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク101は音声入力手段に、音声認識用辞書103は格納手段に相当する。制御装置106は照合手段、抽出手段、発話促進手段、および発話語彙特定手段に相当する。なお、この対応は一例であり、実施の形態の構成によって対応関係は異なるものである。
音声認識装置を車両に搭載したナビゲーション装置に適用した場合の一実施の形態の構成を示すブロック図である。 第1の実施の形態における音声認識用辞書103に格納されるカテゴリ分類された待ち受け単語の具体例を示す図である。 第1の実施の形態における音声認識装置100の処理を示すフローチャート図である。 第2の実施の形態における音声認識用辞書103に格納されるカテゴリ分類された待ち受け単語の具体例を示す図である。 第2の実施の形態における音声認識装置100の処理を示すフローチャート図である。
符号の説明
100 音声認識装置
101 マイク
102 音声入力操作スイッチ
103 音声認識用辞書
103a 音声認識用情報データベース
104 スピーカー
105 モニタ
106 制御装置
200 ナビゲーション装置

Claims (7)

  1. 音声を入力する音声入力手段と、
    カテゴリごとに分類した音声認識時の待ち受け単語を格納する格納手段と、
    前記音声入力手段を介して音声入力された発話者の発話語彙と、前記格納手段に格納された待ち受け単語とを照合処理して、各カテゴリの待ち受け単語ごとに前記発話語彙の確からしさを算出する照合手段と、
    前記照合手段で算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出する抽出手段と、
    前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促す発話促進手段と、
    前記発話促進手段で発話を促した結果、前記音声入力手段を介して音声入力された発話内容を音声認識して、前記発話語彙を特定する発話語彙特定手段とを備えることを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記抽出手段によって1つの前記待ち受け単語が抽出された場合には、当該待ち受け単語を音声認識結果として決定し、
    前記抽出手段によって前記待ち受け単語が抽出されない場合には、発話者に対して再発話を促すことを特徴とする音声認識装置。
  3. 請求項1または2に記載の音声認識装置において、
    前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、各カテゴリから抽出された前記待ち受け単語が同一である場合には、抽出された前記待ち受け単語がそれぞれ属するカテゴリ名の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。
  4. 請求項1〜3のいずれか一項に記載の音声認識装置において、
    前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出された場合に、各カテゴリから抽出された前記待ち受け単語がそれぞれ異なる場合には、抽出された前記待ち受け単語、およびそれぞれの待ち受け単語が属するカテゴリ名の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。
  5. 請求項1〜4のいずれか一項に記載の音声認識装置において、
    前記発話促進手段は、前記抽出手段によって複数のカテゴリから前記待ち受け単語が抽出され、前記カテゴリと、各カテゴリから抽出された前記待ち受け単語とを組み合わせた組み合わせパターンが複数ある場合に、(1)全ての組み合わせパターンの中で前記カテゴリ、および前記待ち受け単語のいずれも一致していない場合には、前記カテゴリ、および前記待ち受け単語の発話を促すガイダンスを生成して出力し、(2)全ての組み合わせパターンの中で前記カテゴリまたは前記待ち受け単語のいずれか一方が一致し、他方が一致していない場合には、前記カテゴリまたは前記待ち受け単語のいずれか一致していない方の発話を促すガイダンスを生成して出力することを特徴とする音声認識装置。
  6. カテゴリごとに分類した音声認識時の待ち受け単語を格納し、
    音声入力された発話者の発話語彙と、格納された待ち受け単語とを照合処理して、各待ち受け単語ごとに前記発話語彙の確からしさを算出し、
    算出した確からしさが所定値より大きい待ち受け単語を各カテゴリから抽出し、
    複数のカテゴリから前記待ち受け単語が抽出された場合に、発話者に対してカテゴリを特定するための発話を促し、
    発話者に対して発話を促した結果、音声入力された発話内容を音声認識して、前記発話語彙を特定することを特徴とする音声認識方法。
  7. 請求項1〜5に記載の音声認識装置と、前記音声認識装置によって操作される情報機器とを備える音声認識システムであって、
    前記音声認識装置は、発話者の発話語彙の特定結果を前記情報機器へ出力し、
    前記情報機器は、前記音声認識装置から出力された発話者の発話語彙に基づいて、処理を実行することを特徴とする音声認識システム。
JP2004379194A 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム Pending JP2006184669A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004379194A JP2006184669A (ja) 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004379194A JP2006184669A (ja) 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム

Publications (1)

Publication Number Publication Date
JP2006184669A true JP2006184669A (ja) 2006-07-13

Family

ID=36737819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004379194A Pending JP2006184669A (ja) 2004-12-28 2004-12-28 音声認識装置、方法、およびシステム

Country Status (1)

Country Link
JP (1) JP2006184669A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058813A (ja) * 2006-09-01 2008-03-13 Honda Motor Co Ltd 音声応答システム、音声応答プログラム
JP2010128144A (ja) * 2008-11-27 2010-06-10 Toyota Central R&D Labs Inc 音声認識装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175279A (ja) * 1999-12-16 2001-06-29 Honda Motor Co Ltd 音声認識方法
JP2001215995A (ja) * 2000-02-04 2001-08-10 Toyota Motor Corp 音声認識装置
JP2002123279A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 施設検索装置ならびにその方法
JP2002123290A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 音声認識装置ならびに音声認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001175279A (ja) * 1999-12-16 2001-06-29 Honda Motor Co Ltd 音声認識方法
JP2001215995A (ja) * 2000-02-04 2001-08-10 Toyota Motor Corp 音声認識装置
JP2002123279A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 施設検索装置ならびにその方法
JP2002123290A (ja) * 2000-10-16 2002-04-26 Pioneer Electronic Corp 音声認識装置ならびに音声認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008058813A (ja) * 2006-09-01 2008-03-13 Honda Motor Co Ltd 音声応答システム、音声応答プログラム
JP4666648B2 (ja) * 2006-09-01 2011-04-06 本田技研工業株式会社 音声応答システム、音声応答プログラム
JP2010128144A (ja) * 2008-11-27 2010-06-10 Toyota Central R&D Labs Inc 音声認識装置及びプログラム

Similar Documents

Publication Publication Date Title
EP1162602B1 (en) Two pass speech recognition with active vocabulary restriction
JP4260788B2 (ja) 音声認識機器制御装置
US6230132B1 (en) Process and apparatus for real-time verbal input of a target address of a target address system
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
WO2015075975A1 (ja) 対話制御装置及び対話制御方法
US20120253823A1 (en) Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing
JP2008009153A (ja) 音声対話システム
JP2010191400A (ja) 音声認識装置およびデータ更新方法
EP1975923B1 (en) Multilingual non-native speech recognition
JP2000315096A (ja) 音声認識装置を備えたマンマシンシステム
JP2006251800A (ja) ユーザ適応型の音声認識方法及び音声認識装置
US20080262843A1 (en) Speech recognition apparatus and method
US10741178B2 (en) Method for providing vehicle AI service and device using the same
JP5263875B2 (ja) 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP2004226698A (ja) 音声認識装置
WO2012174515A1 (en) Hybrid dialog speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP2006184669A (ja) 音声認識装置、方法、およびシステム
KR101063159B1 (ko) 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP4736962B2 (ja) キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置
JP4661216B2 (ja) 音声認識装置、方法、およびシステム
JP2006023444A (ja) 音声対話装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100907