JPH11109989A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH11109989A JPH11109989A JP9269705A JP26970597A JPH11109989A JP H11109989 A JPH11109989 A JP H11109989A JP 9269705 A JP9269705 A JP 9269705A JP 26970597 A JP26970597 A JP 26970597A JP H11109989 A JPH11109989 A JP H11109989A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- recognition result
- user
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 繰り返して同じ誤認識が生じ、同じ反応が機
械から返ってくると、ユーザが不快感を受ける。 【解決手段】 ユーザの発声した音声はマイク34から
入力され、音声認識部36で認識される。信号処理制御
部30の制御により、認識結果を示す合成音声が音声合
成部40で生成され、スピーカ20から出力される。ユ
ーザは、合成音声を聞いて認識結果に誤りがあると判断
すると、再発生音声をマイク34に入力する。再発声音
声の認識結果が前の認識結果と同一である場合には、前
の認識結果の出力時とは実質的に異なる表現を用いて、
再発声音声の認識結果を出力する。表現を変えることに
より、何度も同じ反応を繰り返すことが避けられ、ユー
ザの不快感が軽減する。
械から返ってくると、ユーザが不快感を受ける。 【解決手段】 ユーザの発声した音声はマイク34から
入力され、音声認識部36で認識される。信号処理制御
部30の制御により、認識結果を示す合成音声が音声合
成部40で生成され、スピーカ20から出力される。ユ
ーザは、合成音声を聞いて認識結果に誤りがあると判断
すると、再発生音声をマイク34に入力する。再発声音
声の認識結果が前の認識結果と同一である場合には、前
の認識結果の出力時とは実質的に異なる表現を用いて、
再発声音声の認識結果を出力する。表現を変えることに
より、何度も同じ反応を繰り返すことが避けられ、ユー
ザの不快感が軽減する。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識装置、特
に、音声の誤認識を防止するためのトークバック機能を
備えた認識装置に関する。本発明は、例えば、車両に搭
載される機器の入力装置として用いられる音声認識装置
に適している。
に、音声の誤認識を防止するためのトークバック機能を
備えた認識装置に関する。本発明は、例えば、車両に搭
載される機器の入力装置として用いられる音声認識装置
に適している。
【0002】
【従来の技術】従来より、人が発声した音声を認識する
音声認識装置が周知であり、各種の電子機器の入力装置
として音声認識装置を利用することが提案されている。
ユーザが発声した音声はデジタルデータに変換される。
「音声」は、単語、文字、記号、数字などである。一例
では、デジタル音声データに対してケプストラム(cepu
strum)を使うデータ処理が行われ、ユーザが何を言っ
たのかが認識される。音声認識処理については、例え
ば、「音響・音声工学」(古井貞煕、近代科学社、17
4頁〜)にて説明されている。音声認識装置を電子機器
などの装置に設けることにより、ユーザによる手動操作
が不要となり、従って、装置の操作性の向上を図ること
ができる。
音声認識装置が周知であり、各種の電子機器の入力装置
として音声認識装置を利用することが提案されている。
ユーザが発声した音声はデジタルデータに変換される。
「音声」は、単語、文字、記号、数字などである。一例
では、デジタル音声データに対してケプストラム(cepu
strum)を使うデータ処理が行われ、ユーザが何を言っ
たのかが認識される。音声認識処理については、例え
ば、「音響・音声工学」(古井貞煕、近代科学社、17
4頁〜)にて説明されている。音声認識装置を電子機器
などの装置に設けることにより、ユーザによる手動操作
が不要となり、従って、装置の操作性の向上を図ること
ができる。
【0003】現状の音声認識装置では、100%の確率
で正しく音声を認識することは難しい。そこで、誤認識
を防止するためにトークバック機能を備えることが周知
である。音声認識装置には、音声合成装置が設けられ
る。音声が認識されると、認識結果を示す合成音声が生
成され、出力される。ユーザは、認識結果を知り、認識
結果が正しいか否かを判断する。そして、認識結果が誤
っているときには、再度、ユーザは音声を発声して認識
装置へ入力する。このようなトークバック機能により誤
認識が修正され、正しい認識結果が確実に得られる。こ
の種のトークバック機能を備えた音声認識装置は、例え
ば、特開昭63−38996号公報や特開平1−177
192号公報に記載されている。
で正しく音声を認識することは難しい。そこで、誤認識
を防止するためにトークバック機能を備えることが周知
である。音声認識装置には、音声合成装置が設けられ
る。音声が認識されると、認識結果を示す合成音声が生
成され、出力される。ユーザは、認識結果を知り、認識
結果が正しいか否かを判断する。そして、認識結果が誤
っているときには、再度、ユーザは音声を発声して認識
装置へ入力する。このようなトークバック機能により誤
認識が修正され、正しい認識結果が確実に得られる。こ
の種のトークバック機能を備えた音声認識装置は、例え
ば、特開昭63−38996号公報や特開平1−177
192号公報に記載されている。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
トークバック機能には、複数回連続して誤認識が発声し
たときにユーザの不快感を招くという問題がある。ある
音声をユーザが入力しようとしているとする。初回の発
声に対して誤った認識結果がトークバックされると、ユ
ーザは音声を再発声する。再発声された音声(再発声音
声)の認識結果も誤っていたとする。2つの認識結果が
同じであれば、トークバック機能により、同じ内容の合
成音声が再び出力される。ユーザは、自分の音声が何度
も同じように間違って認識され、同じ反応が機械から返
ってくるために、腹立たしさや苛立たしさを感じ、不快
感をもつ。
トークバック機能には、複数回連続して誤認識が発声し
たときにユーザの不快感を招くという問題がある。ある
音声をユーザが入力しようとしているとする。初回の発
声に対して誤った認識結果がトークバックされると、ユ
ーザは音声を再発声する。再発声された音声(再発声音
声)の認識結果も誤っていたとする。2つの認識結果が
同じであれば、トークバック機能により、同じ内容の合
成音声が再び出力される。ユーザは、自分の音声が何度
も同じように間違って認識され、同じ反応が機械から返
ってくるために、腹立たしさや苛立たしさを感じ、不快
感をもつ。
【0005】具体例を用いて上記の問題を説明する。音
声認識装置は、車両用ナビゲーション装置に設けられて
おり、ナビゲーション装置の入力装置を構成していると
仮定する。ユーザたる運転者は、経路案内の目的地を、
住所というかたちで入力する。住所は、県名や市名など
の階層ごとに入力される。ユーザが、県名として音声
「岡山県(おかやまけん)」を発声する。音声認識装置
は、誤って和歌山県を認識したとする。実際、このよう
な誤認識は発生しやすい。このとき、認識装置は、認識
結果として合成音声「和歌山県(わかやまけん)を認識
しました」を出力する(トークバック)。ユーザは誤認
識を知り、再度、音声「岡山県」を発声する。しかし、
再び同じ誤認識が発声することがありうる。このとき、
前回と同じメッセージ「和歌山県を認識しました」が出
力される。2回に渡って同じ誤認識が発生したために、
ユーザは不快感を感じる。
声認識装置は、車両用ナビゲーション装置に設けられて
おり、ナビゲーション装置の入力装置を構成していると
仮定する。ユーザたる運転者は、経路案内の目的地を、
住所というかたちで入力する。住所は、県名や市名など
の階層ごとに入力される。ユーザが、県名として音声
「岡山県(おかやまけん)」を発声する。音声認識装置
は、誤って和歌山県を認識したとする。実際、このよう
な誤認識は発生しやすい。このとき、認識装置は、認識
結果として合成音声「和歌山県(わかやまけん)を認識
しました」を出力する(トークバック)。ユーザは誤認
識を知り、再度、音声「岡山県」を発声する。しかし、
再び同じ誤認識が発声することがありうる。このとき、
前回と同じメッセージ「和歌山県を認識しました」が出
力される。2回に渡って同じ誤認識が発生したために、
ユーザは不快感を感じる。
【0006】特に、運転者は、車両を運転しながら、ナ
ビゲーション装置のような車載機器を操作する。そのた
め、運転に集中しながらでも容易に車載機器を操作でき
ることが求められる。また、車内のスペースが限られて
いるために車載機器に与えられるスペースは狭い。従っ
て、車両では、機器操作を容易にすることができる音声
認識装置に対するニーズが大きい。しかしながら、車両
用の音声認識装置では、上記の如く連続して誤認識が発
生したときに、運転者に強い不快感を与える可能性があ
る。
ビゲーション装置のような車載機器を操作する。そのた
め、運転に集中しながらでも容易に車載機器を操作でき
ることが求められる。また、車内のスペースが限られて
いるために車載機器に与えられるスペースは狭い。従っ
て、車両では、機器操作を容易にすることができる音声
認識装置に対するニーズが大きい。しかしながら、車両
用の音声認識装置では、上記の如く連続して誤認識が発
生したときに、運転者に強い不快感を与える可能性があ
る。
【0007】また、音声認識装置には、登録された特定
のユーザの音声を認識するタイプと、不特定のユーザの
音声を認識するタイプがある。登録などの作業が不要な
後者のタイプに対するニーズが強まっている。しかし、
不特定のユーザの音声を認識するタイプの方が、誤認識
の確率が大きくなる。そのため、誤認識発生時の効果的
な対応手法の提供が望まれる。
のユーザの音声を認識するタイプと、不特定のユーザの
音声を認識するタイプがある。登録などの作業が不要な
後者のタイプに対するニーズが強まっている。しかし、
不特定のユーザの音声を認識するタイプの方が、誤認識
の確率が大きくなる。そのため、誤認識発生時の効果的
な対応手法の提供が望まれる。
【0008】本発明は上記課題に鑑みてなされたもので
あり、その目的は、連続して誤認識が発生したときにユ
ーザがもつ不快感を軽減することができる音声認識装置
を提供することにある。
あり、その目的は、連続して誤認識が発生したときにユ
ーザがもつ不快感を軽減することができる音声認識装置
を提供することにある。
【0009】
【課題を解決するための手段】本発明の音声認識装置
は、ユーザの発声した音声を入力する入力手段と、入力
された音声を認識する認識手段と、認識手段による認識
結果の正否をユーザに確認するために、認識結果を出力
してユーザに知らせる出力手段と、を含み、認識結果に
誤りがあるときにユーザによる再発声音声が入力され
る。この音声認識装置は、前記再発声音声の認識結果が
前の認識結果と同一である場合に、前の認識結果の出力
時とは実質的に異なる表現を用いて、前記再発声音声の
認識結果を出力する。
は、ユーザの発声した音声を入力する入力手段と、入力
された音声を認識する認識手段と、認識手段による認識
結果の正否をユーザに確認するために、認識結果を出力
してユーザに知らせる出力手段と、を含み、認識結果に
誤りがあるときにユーザによる再発声音声が入力され
る。この音声認識装置は、前記再発声音声の認識結果が
前の認識結果と同一である場合に、前の認識結果の出力
時とは実質的に異なる表現を用いて、前記再発声音声の
認識結果を出力する。
【0010】本発明によれば、再発声音声の認識結果を
出力する前に、その再発声音声の認識結果が前の認識結
果と同一であるか否かが判断される。両者が同一であれ
ば、後の認識結果も誤認識である可能性が高い。2回連
続して同じ表現で同じ誤認識結果が出力されると、装置
から何度も同じ反応が返ってくるためにユーザの不快感
が増長する。しかし、本発明では、前の認識結果と後の
認識結果が異なる表現を用いて出力されるので、ユーザ
の腹立たしさや苛立たしさが和らげられ、不快感が軽減
する。
出力する前に、その再発声音声の認識結果が前の認識結
果と同一であるか否かが判断される。両者が同一であれ
ば、後の認識結果も誤認識である可能性が高い。2回連
続して同じ表現で同じ誤認識結果が出力されると、装置
から何度も同じ反応が返ってくるためにユーザの不快感
が増長する。しかし、本発明では、前の認識結果と後の
認識結果が異なる表現を用いて出力されるので、ユーザ
の腹立たしさや苛立たしさが和らげられ、不快感が軽減
する。
【0011】好ましくは、前記出力手段は音声合成装置
を含み、認識結果を示す合成音声を出力する。この態様
の装置は、いわゆるトークバック機能をもつ。ただし、
本発明の出力手段は、上記の構成に限定されない。例え
ば、認識結果が、ディスプレイ上に文字などを使って表
示されてもよい。また、1回目の認識結果は音声にて、
2回目の認識結果は音声と画像にて出力するというよう
な表現変更も好適である。
を含み、認識結果を示す合成音声を出力する。この態様
の装置は、いわゆるトークバック機能をもつ。ただし、
本発明の出力手段は、上記の構成に限定されない。例え
ば、認識結果が、ディスプレイ上に文字などを使って表
示されてもよい。また、1回目の認識結果は音声にて、
2回目の認識結果は音声と画像にて出力するというよう
な表現変更も好適である。
【0012】本発明において、再発生音声の認識結果の
出力に用いられる実質的に異なる表現とは、単なる言葉
尻の違いのような実質的に同じ表現を含まない。異なる
表現とは、実際に認識結果を知らされたときにユーザの
受ける印象が、前の認識結果出力時と異なるような表現
をいう。好ましくは、例えば、再発声音声の認識結果の
出力には、謝罪表現が用いられる。
出力に用いられる実質的に異なる表現とは、単なる言葉
尻の違いのような実質的に同じ表現を含まない。異なる
表現とは、実際に認識結果を知らされたときにユーザの
受ける印象が、前の認識結果出力時と異なるような表現
をいう。好ましくは、例えば、再発声音声の認識結果の
出力には、謝罪表現が用いられる。
【0013】また好ましくは、音声認識装置は、前記再
発声音声の認識結果の出力に用いる表現を、所定の複数
種類の表現の中から選択する選択手段を有する。いろい
ろな種類の表現を用いることにより、ユーザの受ける不
快感をさらに効果的に軽減することができる。
発声音声の認識結果の出力に用いる表現を、所定の複数
種類の表現の中から選択する選択手段を有する。いろい
ろな種類の表現を用いることにより、ユーザの受ける不
快感をさらに効果的に軽減することができる。
【0014】また好ましくは、前記出力手段からはさら
にユーザに音声の発声を促す発声要求が出力され、前記
再発声音声の認識結果の出力後に発声要求を出力すると
きには、前の発声要求と異なる表現が用いられる。例え
ば、異なる表現として謝罪表現が用いられる。これによ
り、さらにユーザの不快感を軽減することができる。
にユーザに音声の発声を促す発声要求が出力され、前記
再発声音声の認識結果の出力後に発声要求を出力すると
きには、前の発声要求と異なる表現が用いられる。例え
ば、異なる表現として謝罪表現が用いられる。これによ
り、さらにユーザの不快感を軽減することができる。
【0015】
【発明の実施の形態】以下、本発明の好適な実施の形態
(以下、実施形態という)について、図面を参照し説明
する。本実施形態では、車両用のナビゲーション装置に
本発明の音声認識装置が設けられる。
(以下、実施形態という)について、図面を参照し説明
する。本実施形態では、車両用のナビゲーション装置に
本発明の音声認識装置が設けられる。
【0016】図1は、ナビゲーション装置の全体構成を
示すブロック図である。ナビゲーション装置10にはナ
ビゲーションECU12が設けられており、ナビゲーシ
ョンECU12は装置全体を制御している。ナビゲーシ
ョンECU12には、本発明の音声認識装置14が接続
されている。音声認識装置14は、ナビゲーション装置
10の入力手段として機能し、ユーザは音声認識装置1
4を介してナビゲーション装置10に対して各種の指示
を入力する。また、ナビゲーションECU12には操作
スイッチ16が接続されており、操作スイッチ16は、
ユーザにより手動で操作される入力手段として機能す
る。さらにナビゲーションECU12には、出力手段と
してのディスプレイ18およびスピーカ20が接続され
ている。
示すブロック図である。ナビゲーション装置10にはナ
ビゲーションECU12が設けられており、ナビゲーシ
ョンECU12は装置全体を制御している。ナビゲーシ
ョンECU12には、本発明の音声認識装置14が接続
されている。音声認識装置14は、ナビゲーション装置
10の入力手段として機能し、ユーザは音声認識装置1
4を介してナビゲーション装置10に対して各種の指示
を入力する。また、ナビゲーションECU12には操作
スイッチ16が接続されており、操作スイッチ16は、
ユーザにより手動で操作される入力手段として機能す
る。さらにナビゲーションECU12には、出力手段と
してのディスプレイ18およびスピーカ20が接続され
ている。
【0017】また、GPS(グローバルポジショニング
システム)装置22は、人工衛星から送られた電波を基
に車両の現在位置を検出してナビゲーションECU12
に送る。地図データ記憶部24は、全国の道路形状など
の地図情報を記憶している。地図情報は、ナビゲーショ
ンECU12により、経路案内に関する各種の処理に利
用される。例えば、現在位置周辺の地図が地図データ記
憶部24から読み出され、ディスプレイ18に表示され
る。目的地が設定されると、地図情報を用いて目的地ま
での経路を探索する経路計算が行われる。計算結果の経
路を用いて経路案内が行われる。
システム)装置22は、人工衛星から送られた電波を基
に車両の現在位置を検出してナビゲーションECU12
に送る。地図データ記憶部24は、全国の道路形状など
の地図情報を記憶している。地図情報は、ナビゲーショ
ンECU12により、経路案内に関する各種の処理に利
用される。例えば、現在位置周辺の地図が地図データ記
憶部24から読み出され、ディスプレイ18に表示され
る。目的地が設定されると、地図情報を用いて目的地ま
での経路を探索する経路計算が行われる。計算結果の経
路を用いて経路案内が行われる。
【0018】上記のように、音声認識装置14はナビゲ
ーション装置10の入力装置として機能する。音声認識
装置14を用いて、ユーザにより音声というかたちでナ
ビゲーション装置10に対する各種の指示が入力され
る。例えば、上記の経路案内用の目的地が入力される。
この入力処理のため、適宜、音声認識装置14は、ナビ
ゲーションECU12をはじめとする他の構成と一体に
なって機能する。また、音声認識装置14をナビゲーシ
ョンECU12の内部に組み込むことも好適である。
ーション装置10の入力装置として機能する。音声認識
装置14を用いて、ユーザにより音声というかたちでナ
ビゲーション装置10に対する各種の指示が入力され
る。例えば、上記の経路案内用の目的地が入力される。
この入力処理のため、適宜、音声認識装置14は、ナビ
ゲーションECU12をはじめとする他の構成と一体に
なって機能する。また、音声認識装置14をナビゲーシ
ョンECU12の内部に組み込むことも好適である。
【0019】図2は、音声認識装置14の構成を示すブ
ロック図である。音声認識装置14には信号処理制御部
30が設けられている。信号処理制御部30はCPUを
有し、装置14全体を制御している。
ロック図である。音声認識装置14には信号処理制御部
30が設けられている。信号処理制御部30はCPUを
有し、装置14全体を制御している。
【0020】信号処理制御部30には音響処理部32が
接続され、音響処理部32にはマイク34が接続されて
いる。ユーザが発声した音声は、マイク34にてアナロ
グ電気信号に変換され、音響処理部32に入力される。
音響処理部32では、音声データがデジタル信号に変換
される。さらに、音響処理部32では、音声認識に必要
なデータ処理が施される。本実施例では、窓関数処理や
フーリエ変換処理が行われ、音声データのケプストラム
が求められる。処理後の音声データは信号処理制御部3
0へ出力される。
接続され、音響処理部32にはマイク34が接続されて
いる。ユーザが発声した音声は、マイク34にてアナロ
グ電気信号に変換され、音響処理部32に入力される。
音響処理部32では、音声データがデジタル信号に変換
される。さらに、音響処理部32では、音声認識に必要
なデータ処理が施される。本実施例では、窓関数処理や
フーリエ変換処理が行われ、音声データのケプストラム
が求められる。処理後の音声データは信号処理制御部3
0へ出力される。
【0021】信号処理制御部30にはトリガースイッチ
16aが接続されている。トリガースイッチ16aはユ
ーザにより操作される。信号処理制御部30は、トリガ
ースイッチ16aが押されると、その後に発声された音
声のデータを、マイク34から音響処理部32を経由し
て取り込む。
16aが接続されている。トリガースイッチ16aはユ
ーザにより操作される。信号処理制御部30は、トリガ
ースイッチ16aが押されると、その後に発声された音
声のデータを、マイク34から音響処理部32を経由し
て取り込む。
【0022】変形例として、トリガースイッチ16aの
代わりに、いわゆるプレス・トークスイッチが設けられ
てもよい。プレス・トークスイッチを押し続けている間
に発声された音声が、マイク34から信号処理制御部3
0に取り込まれる。また、別の変形例として、音声認識
装置が、常時認識タイプの装置であってもよい。トリガ
ースイッチやプレス・トークスイッチの操作がなくと
も、ユーザによる発声の有無が監視され、検出される。
代わりに、いわゆるプレス・トークスイッチが設けられ
てもよい。プレス・トークスイッチを押し続けている間
に発声された音声が、マイク34から信号処理制御部3
0に取り込まれる。また、別の変形例として、音声認識
装置が、常時認識タイプの装置であってもよい。トリガ
ースイッチやプレス・トークスイッチの操作がなくと
も、ユーザによる発声の有無が監視され、検出される。
【0023】また、信号処理制御部30には音声認識部
36が接続されている。信号処理制御部30は、音響処
理部32から取り込んだ音声データを音声認識部36に
送る。音声認識部36はいわゆるDSPやマイコンであ
り、ユーザの発声した音声データを解析する。音声認識
部36は、ユーザの音声データと標準音声データとを比
較して、比較結果に基づいてユーザの音声を認識する。
標準音声データは、認識用辞書記憶部38に記憶されて
いる。この認識用辞書記憶部38には、適宜、必要な標
準音声データが、図1の地図データ記憶部24から送ら
れてくる。例えば、後述する例のように、「都道府県
名」を認識すべきときには、「都道府県名」の標準音声
データが認識用辞書記憶部38に用意され、音声認識部
36により使用される。
36が接続されている。信号処理制御部30は、音響処
理部32から取り込んだ音声データを音声認識部36に
送る。音声認識部36はいわゆるDSPやマイコンであ
り、ユーザの発声した音声データを解析する。音声認識
部36は、ユーザの音声データと標準音声データとを比
較して、比較結果に基づいてユーザの音声を認識する。
標準音声データは、認識用辞書記憶部38に記憶されて
いる。この認識用辞書記憶部38には、適宜、必要な標
準音声データが、図1の地図データ記憶部24から送ら
れてくる。例えば、後述する例のように、「都道府県
名」を認識すべきときには、「都道府県名」の標準音声
データが認識用辞書記憶部38に用意され、音声認識部
36により使用される。
【0024】音声認識部36の認識結果は、信号処理制
御部30へ送られる。これにより、信号処理制御部30
は、ユーザが何をいったのかが分かる。なお、上記の音
響処理部32および音声認識部36では、周知の原理に
従った音声認識処理が行われればよい。上記の例と異な
る音声認識手法が適用されてもよく、本実施形態には任
意の音声認識手法が適用可能である。
御部30へ送られる。これにより、信号処理制御部30
は、ユーザが何をいったのかが分かる。なお、上記の音
響処理部32および音声認識部36では、周知の原理に
従った音声認識処理が行われればよい。上記の例と異な
る音声認識手法が適用されてもよく、本実施形態には任
意の音声認識手法が適用可能である。
【0025】さらに、信号処理制御部30には音声合成
部40が接続されている。信号処理制御部30の指示に
従い、音声合成部40は、いろいろなメッセージの合成
音声を生成する。生成された合成音声はスピーカ20か
ら出力され、ユーザに伝えられる。
部40が接続されている。信号処理制御部30の指示に
従い、音声合成部40は、いろいろなメッセージの合成
音声を生成する。生成された合成音声はスピーカ20か
ら出力され、ユーザに伝えられる。
【0026】音声合成部40は、例えば、ユーザに音声
の発声を促す合成音声を生成する。また、音声合成部4
0は、トークバック用の合成音声を生成する。トークバ
ック音声においては、音声認識部36により認識された
音声の内容が反復される。トークバック音声の出力によ
り、装置内での認識結果がユーザに提示される。
の発声を促す合成音声を生成する。また、音声合成部4
0は、トークバック用の合成音声を生成する。トークバ
ック音声においては、音声認識部36により認識された
音声の内容が反復される。トークバック音声の出力によ
り、装置内での認識結果がユーザに提示される。
【0027】音声合成部40での音声合成処理には、メ
ッセージ記憶部42に記憶されたメッセージデータが用
いられる。認識用辞書記憶部38と同様に、メッセージ
記憶部42にも、その都度、必要なメッセージデータが
図1の地図データ記憶部24から写されてもよい。
ッセージ記憶部42に記憶されたメッセージデータが用
いられる。認識用辞書記憶部38と同様に、メッセージ
記憶部42にも、その都度、必要なメッセージデータが
図1の地図データ記憶部24から写されてもよい。
【0028】本実施形態の特徴として、メッセージ記憶
部42には、複数種類のメッセージデータが記憶されて
いる。基本パターンのメッセージデータの他に、変形パ
ターンのメッセージデータが記憶されている。後述する
ように、変形パターンのデータは、さらに複数種類のパ
ターンに分かれる。異なる種類のメッセージデータを使
えば、生成された合成音声の内容が同じであっても、合
成音声の表現が異なる。これらの複数種類のパターン
は、特にトークバック用メッセージを生成するときに効
果的に使い分けられる。どの種類のメッセージデータを
使って合成音声を生成するかは、信号処理制御部30の
指示により決定される。すなわち、信号処理制御部30
は、トークバックに用いる表現の種類を選択する本発明
の選択手段として機能する。
部42には、複数種類のメッセージデータが記憶されて
いる。基本パターンのメッセージデータの他に、変形パ
ターンのメッセージデータが記憶されている。後述する
ように、変形パターンのデータは、さらに複数種類のパ
ターンに分かれる。異なる種類のメッセージデータを使
えば、生成された合成音声の内容が同じであっても、合
成音声の表現が異なる。これらの複数種類のパターン
は、特にトークバック用メッセージを生成するときに効
果的に使い分けられる。どの種類のメッセージデータを
使って合成音声を生成するかは、信号処理制御部30の
指示により決定される。すなわち、信号処理制御部30
は、トークバックに用いる表現の種類を選択する本発明
の選択手段として機能する。
【0029】次に、本実施形態の音声認識処理の動作を
説明する。音声認識装置14は、ナビゲーション装置1
0の入力装置として機能する。音声認識は、いつも原則
として概略的には下記の手順で行われる。(1)まず、
ナビゲーションECU12が、どのような音声をユーザ
に発声して欲しいかを決め、音声認識装置14に伝え
る。(2)音声認識装置14により「・・・をどうぞ」
といった発声要求が出力される。(3)ユーザの発声し
た音声が認識される。認識の過程でトークバック処理が
行われる。(4)最終的な認識結果は、信号処理制御部
30からナビゲーションECU12へ送られる。
説明する。音声認識装置14は、ナビゲーション装置1
0の入力装置として機能する。音声認識は、いつも原則
として概略的には下記の手順で行われる。(1)まず、
ナビゲーションECU12が、どのような音声をユーザ
に発声して欲しいかを決め、音声認識装置14に伝え
る。(2)音声認識装置14により「・・・をどうぞ」
といった発声要求が出力される。(3)ユーザの発声し
た音声が認識される。認識の過程でトークバック処理が
行われる。(4)最終的な認識結果は、信号処理制御部
30からナビゲーションECU12へ送られる。
【0030】図3には、全体的な処理の流れが示されて
いる。ここでは、ユーザがナビゲーション装置10に経
路案内用の目的地を入力するケースが例に取り上げられ
ている。他のケースでも同様の処理が行われる。上記の
(1)〜(4)は、図3の各ステップで行われる。ユー
ザがトリガースイッチ16aを押すと、処理がスタート
する。まず、コマンドが入力される(S10)。このス
テップで音声「目的地」が入力される。次に、「『目的
地』の設定方法」として「住所」が入力される(S1
2)。住所は、県名、市名といった階層ごとに入力され
る。そこで、「都道府県名」が入力され(S14)、
「市区町村名」が入力され(S16)、このような処理
が、住所の全部の入力終了まで継続される。
いる。ここでは、ユーザがナビゲーション装置10に経
路案内用の目的地を入力するケースが例に取り上げられ
ている。他のケースでも同様の処理が行われる。上記の
(1)〜(4)は、図3の各ステップで行われる。ユー
ザがトリガースイッチ16aを押すと、処理がスタート
する。まず、コマンドが入力される(S10)。このス
テップで音声「目的地」が入力される。次に、「『目的
地』の設定方法」として「住所」が入力される(S1
2)。住所は、県名、市名といった階層ごとに入力され
る。そこで、「都道府県名」が入力され(S14)、
「市区町村名」が入力され(S16)、このような処理
が、住所の全部の入力終了まで継続される。
【0031】図4は、図3のフローチャートの各ステッ
プで行われる処理を示している。図4には本実施形態に
特徴的なトークバック処理が示されている。図3の各ス
テップおよび他の音声認識処理は、すべて原則として図
4の手順に従って進められる。
プで行われる処理を示している。図4には本実施形態に
特徴的なトークバック処理が示されている。図3の各ス
テップおよび他の音声認識処理は、すべて原則として図
4の手順に従って進められる。
【0032】前述のように、ナビゲーションECU12
は、どのような音声をユーザに発声して欲しいかを決
め、音声認識装置14に伝える。信号処理制御部30
は、音声合成部40に発声要求メッセージを生成させ
る。スピーカ20から発声要求が出力され、続いてビー
プ音が出力される(S20)。ビープ音を聞いたユーザ
が音声を発声すると、この音声がマイク34へ入力され
(S22)、入力された音声が認識される(S24)。
ここでは、音声データの入力信号が音響処理部32での
データ処理を経て信号処理制御部30に取り込まれる。
音声データは、信号処理制御部30から音声認識部36
へ送られる。音声認識部36は、音声を認識し、認識結
果を信号処理制御部30へ返す。信号処理制御部30は
認識結果を記憶する(S26)。
は、どのような音声をユーザに発声して欲しいかを決
め、音声認識装置14に伝える。信号処理制御部30
は、音声合成部40に発声要求メッセージを生成させ
る。スピーカ20から発声要求が出力され、続いてビー
プ音が出力される(S20)。ビープ音を聞いたユーザ
が音声を発声すると、この音声がマイク34へ入力され
(S22)、入力された音声が認識される(S24)。
ここでは、音声データの入力信号が音響処理部32での
データ処理を経て信号処理制御部30に取り込まれる。
音声データは、信号処理制御部30から音声認識部36
へ送られる。音声認識部36は、音声を認識し、認識結
果を信号処理制御部30へ返す。信号処理制御部30は
認識結果を記憶する(S26)。
【0033】次に、信号処理制御部30は、S22での
発声・入力が、このサブルーチンにおける1回目の発声
・入力であるか否かを判断する(S28)。1回目の場
合には、基本パターンの表現でトークバックが行われる
(S30)。信号処理制御部30は、認識された音声の
内容を反復するメッセージの生成を音声合成部40に指
示する。このとき、メッセージ記憶部42に記憶されて
いる基本パターンのメッセージデータを音声合成に使う
ことが指示される。トークバック音声は、スピーカ20
から出力される。
発声・入力が、このサブルーチンにおける1回目の発声
・入力であるか否かを判断する(S28)。1回目の場
合には、基本パターンの表現でトークバックが行われる
(S30)。信号処理制御部30は、認識された音声の
内容を反復するメッセージの生成を音声合成部40に指
示する。このとき、メッセージ記憶部42に記憶されて
いる基本パターンのメッセージデータを音声合成に使う
ことが指示される。トークバック音声は、スピーカ20
から出力される。
【0034】ユーザは、トークバック音声を聞き、自分
の発声した音声が正しく認識されたか否かを判断する。
判断結果は、ユーザがトリガースイッチ16aを押すか
否かによって分かる(S32)。トリガースイッチ16
aが押されないということは、認識結果が正しいことを
意味する。そこで、最終的な認識結果がナビゲーション
ECU12へ出力され(S60)、処理が終了する。
の発声した音声が正しく認識されたか否かを判断する。
判断結果は、ユーザがトリガースイッチ16aを押すか
否かによって分かる(S32)。トリガースイッチ16
aが押されないということは、認識結果が正しいことを
意味する。そこで、最終的な認識結果がナビゲーション
ECU12へ出力され(S60)、処理が終了する。
【0035】S32でトリガースイッチ16aが押され
た場合、ユーザは、認識結果に誤りがあると判断してい
る。そこで、信号処理制御部30の指示により、音声合
成部40は、再発声要求の合成音声を生成する。再発声
要求は、ユーザに再び音声を発声するように促すメッセ
ージである。ここでも、基本パターンの表現を用いて再
発声要求が生成される。音声合成部40は、信号処理制
御部30により、メッセージ記憶部42に記憶されてい
る基本パターンのメッセージデータを音声合成に使うこ
とを指示される。再発声要求の合成音声は、スピーカ2
0から出力される。再発声要求に続いてビープ音が出力
され(S34)、S22に戻る。ユーザは、再発声要求
に応えて再び音声を発声する。
た場合、ユーザは、認識結果に誤りがあると判断してい
る。そこで、信号処理制御部30の指示により、音声合
成部40は、再発声要求の合成音声を生成する。再発声
要求は、ユーザに再び音声を発声するように促すメッセ
ージである。ここでも、基本パターンの表現を用いて再
発声要求が生成される。音声合成部40は、信号処理制
御部30により、メッセージ記憶部42に記憶されてい
る基本パターンのメッセージデータを音声合成に使うこ
とを指示される。再発声要求の合成音声は、スピーカ2
0から出力される。再発声要求に続いてビープ音が出力
され(S34)、S22に戻る。ユーザは、再発声要求
に応えて再び音声を発声する。
【0036】次に、S28での判断がNOのとき、すな
わちS22での音声入力が1回目でないときの処理を説
明する。S28の判断は、S32でのトリガースイッチ
操作がすでに行われたか否かによっても可能である。S
28がNOのとき、S40へ進む。S40では、信号処
理制御部30が、S22での発声・入力がこのサブルー
チンにおける2回目の発声・入力であるか否かを判断す
る。1回目の入力信号の認識が誤っているときに、ユー
ザによりトリガースイッチ16aが押され、2回目の入
力が行われる。2回目の場合には、さらに、信号処理制
御部30は、1回目と2回目の入力信号を認識した結果
を比較し、両者が同じか否かを判定する(S42)。両
者の結果とも、S26で信号処理制御部30によりメモ
リ内に記憶されている。2回目で音声が正しく認識され
れば、S42の判断はNOである。比較結果が異なる場
合は、前述のS30へ進み、基本パターンの表現でトー
クバックが行われる。
わちS22での音声入力が1回目でないときの処理を説
明する。S28の判断は、S32でのトリガースイッチ
操作がすでに行われたか否かによっても可能である。S
28がNOのとき、S40へ進む。S40では、信号処
理制御部30が、S22での発声・入力がこのサブルー
チンにおける2回目の発声・入力であるか否かを判断す
る。1回目の入力信号の認識が誤っているときに、ユー
ザによりトリガースイッチ16aが押され、2回目の入
力が行われる。2回目の場合には、さらに、信号処理制
御部30は、1回目と2回目の入力信号を認識した結果
を比較し、両者が同じか否かを判定する(S42)。両
者の結果とも、S26で信号処理制御部30によりメモ
リ内に記憶されている。2回目で音声が正しく認識され
れば、S42の判断はNOである。比較結果が異なる場
合は、前述のS30へ進み、基本パターンの表現でトー
クバックが行われる。
【0037】S42の判断がYESのとき、すなわち、
1回目と2回目の認識結果が同じであるときは、S44
へ進む。この場合、1回目の認識結果は誤っていること
が分かっている。従って、2回目の認識結果も誤ってい
る可能性が高い。ユーザは、1回目と2回目が同じ認識
結果であることを知ると、不快感をうける可能性が高
い。1回目と2回目のトークバックに同じ基本表現が用
いられると、ユーザの不快感が増長される可能性があ
る。逆に、1回目と2回目のトークバックの表現を変え
ることにより、ユーザの不快感を軽減できる。
1回目と2回目の認識結果が同じであるときは、S44
へ進む。この場合、1回目の認識結果は誤っていること
が分かっている。従って、2回目の認識結果も誤ってい
る可能性が高い。ユーザは、1回目と2回目が同じ認識
結果であることを知ると、不快感をうける可能性が高
い。1回目と2回目のトークバックに同じ基本表現が用
いられると、ユーザの不快感が増長される可能性があ
る。逆に、1回目と2回目のトークバックの表現を変え
ることにより、ユーザの不快感を軽減できる。
【0038】そこで、S44では、変形パターンの表現
を用いてトークバックが行われる。信号処理制御部30
は、S30と同様に認識された音声の内容を反復するメ
ッセージの生成を音声合成部40に指示する。ただし、
S30と異なり、メッセージ記憶部42に記憶されてい
る変形パターンのメッセージデータを音声合成に使うこ
とが指示される。トークバック音声は、スピーカ20か
ら出力される。
を用いてトークバックが行われる。信号処理制御部30
は、S30と同様に認識された音声の内容を反復するメ
ッセージの生成を音声合成部40に指示する。ただし、
S30と異なり、メッセージ記憶部42に記憶されてい
る変形パターンのメッセージデータを音声合成に使うこ
とが指示される。トークバック音声は、スピーカ20か
ら出力される。
【0039】変形パターンの表現は、基本パターンの表
現とは実質的に異なっていなければならない。単に言葉
尻のみが違うような表現は、本実施形態の変形パターン
としての役割を果たさない。基本パターンの表現を聞い
たときと、変形パターンの表現を聞いたときとで、実際
にユーザが異なる印象を受ける必要がある。
現とは実質的に異なっていなければならない。単に言葉
尻のみが違うような表現は、本実施形態の変形パターン
としての役割を果たさない。基本パターンの表現を聞い
たときと、変形パターンの表現を聞いたときとで、実際
にユーザが異なる印象を受ける必要がある。
【0040】変形パターンの具体例を、基本パターンと
対比して説明する。ここでは、図3のS14に示される
「県名」の入力中であるとする。そして、ユーザが音声
「岡山県(おかやまけん)」を発声したのに、音声認識
部36が誤って「和歌山県(わかやまけん)」を認識し
たとする。
対比して説明する。ここでは、図3のS14に示される
「県名」の入力中であるとする。そして、ユーザが音声
「岡山県(おかやまけん)」を発声したのに、音声認識
部36が誤って「和歌山県(わかやまけん)」を認識し
たとする。
【0041】[変形パターン(1):言い方を変える] トークバック1回目(基本):「和歌山県を認識しまし
た。」 トークバック2回目(変形):「また、和歌山県を認識
してしまいました。」 [変形パターン(2):謝罪する] 1回目(基本):「和歌山県を認識しました。」 2回目(変形):「どうもすみません。また和歌山県で
す。」 [変形パターン(3):ユーモアを交える] 1回目(基本):「和歌山県を認識しました。」 2回目(変形):「前と同じ和歌山県を認識してもう
た。」 変形パターン(2)には謝罪表現が用いられており、従
って、ユーザの不快感を軽減する上で大きな効果が得ら
れる。また、変形パターン(3)では、ユーモアを交え
ることによりユーザを笑わせて、これによりユーザの腹
立たしさを軽減しなごませることができる。変形パター
ン(3)では、イントネーションを変えることが好適で
ある(上記の例では、標準語から関西弁へ)。また例え
ば、標準語を幼児語に変えることも好適である。
た。」 トークバック2回目(変形):「また、和歌山県を認識
してしまいました。」 [変形パターン(2):謝罪する] 1回目(基本):「和歌山県を認識しました。」 2回目(変形):「どうもすみません。また和歌山県で
す。」 [変形パターン(3):ユーモアを交える] 1回目(基本):「和歌山県を認識しました。」 2回目(変形):「前と同じ和歌山県を認識してもう
た。」 変形パターン(2)には謝罪表現が用いられており、従
って、ユーザの不快感を軽減する上で大きな効果が得ら
れる。また、変形パターン(3)では、ユーモアを交え
ることによりユーザを笑わせて、これによりユーザの腹
立たしさを軽減しなごませることができる。変形パター
ン(3)では、イントネーションを変えることが好適で
ある(上記の例では、標準語から関西弁へ)。また例え
ば、標準語を幼児語に変えることも好適である。
【0042】ユーザは、上記の3つの変形パターンの中
から好きなものを選択できる。ユーザは、図1の操作ス
イッチ16を操作してパターンを選ぶ。スイッチ操作に
対応するモード設定が行われ、以降、選択された変形パ
ターンが使用される。
から好きなものを選択できる。ユーザは、図1の操作ス
イッチ16を操作してパターンを選ぶ。スイッチ操作に
対応するモード設定が行われ、以降、選択された変形パ
ターンが使用される。
【0043】また、本実施形態では、それぞれの変形パ
ターンに、幾つかの表現のバリエーションが準備されて
いる。変形パターンごとに、複数種類のメッセージデー
タがメッセージ記憶部42に記憶されている。複数のバ
リエーションの表現は、順番に使われ、あるいは、アト
ランダムに適用される。適宜表現が変わることにより、
表現が単調であるとの印象をユーザに与えることが回避
され、一層効果的にユーザの不快感を軽減できる。
ターンに、幾つかの表現のバリエーションが準備されて
いる。変形パターンごとに、複数種類のメッセージデー
タがメッセージ記憶部42に記憶されている。複数のバ
リエーションの表現は、順番に使われ、あるいは、アト
ランダムに適用される。適宜表現が変わることにより、
表現が単調であるとの印象をユーザに与えることが回避
され、一層効果的にユーザの不快感を軽減できる。
【0044】さらに、変形パターン(1)〜(3)の表
現を、順番に、あるいはアトランダムに使うことも好適
である。このモード設定は、ユーザのスイッチ装置に従
って行われる。このモードでは表現が大きく変わるの
で、さらに一層効果的にユーザの不快感を軽減できると
考えられる。
現を、順番に、あるいはアトランダムに使うことも好適
である。このモード設定は、ユーザのスイッチ装置に従
って行われる。このモードでは表現が大きく変わるの
で、さらに一層効果的にユーザの不快感を軽減できると
考えられる。
【0045】図4に戻り、S44でトークバック音声が
出力されると、ユーザは、トークバック音声を聞き、自
分の発声した音声が正しく認識されたか否かを判断す
る。ここでも、判断結果は、ユーザがトリガースイッチ
16aを押すか否かによって分かる(S46)。トリガ
ースイッチ16aが押されなければ、2回目の認識結果
は正しいと分かる。そこで、最終的な認識結果がナビゲ
ーションECU12へ出力され(S60)、処理が終了
する。
出力されると、ユーザは、トークバック音声を聞き、自
分の発声した音声が正しく認識されたか否かを判断す
る。ここでも、判断結果は、ユーザがトリガースイッチ
16aを押すか否かによって分かる(S46)。トリガ
ースイッチ16aが押されなければ、2回目の認識結果
は正しいと分かる。そこで、最終的な認識結果がナビゲ
ーションECU12へ出力され(S60)、処理が終了
する。
【0046】しかしながら、通常の場合、S46ではト
リガースイッチ16aが押される。1回目にはトリガー
スイッチ16aが押されており、かつ、1回目と2回目
の認識結果が同じだからである。この場合、信号処理制
御部30の指示により、音声合成部40は、もう一度、
再発声要求の合成音声を生成する(S48)。合成音声
は、メッセージ記憶部42に記憶されているメッセージ
データを使って生成される。前述のS34と異なり、こ
こでは変形パターン用のメッセージデータが使われる。
これにより、変形パターンの表現を用いた再発声要求が
生成される。再発声要求の合成音声およびビープ音がス
ピーカ20から出力される(S48)。S22に戻り、
ユーザは、再発声要求に応えて再び音声を発声する。
リガースイッチ16aが押される。1回目にはトリガー
スイッチ16aが押されており、かつ、1回目と2回目
の認識結果が同じだからである。この場合、信号処理制
御部30の指示により、音声合成部40は、もう一度、
再発声要求の合成音声を生成する(S48)。合成音声
は、メッセージ記憶部42に記憶されているメッセージ
データを使って生成される。前述のS34と異なり、こ
こでは変形パターン用のメッセージデータが使われる。
これにより、変形パターンの表現を用いた再発声要求が
生成される。再発声要求の合成音声およびビープ音がス
ピーカ20から出力される(S48)。S22に戻り、
ユーザは、再発声要求に応えて再び音声を発声する。
【0047】基本パターンと変形パターンの再発声要求
メッセージを対比して例示する。ここでも、県名を入力
するケースを例に取り上げる。; 再発声要求1回目(基本パターン):「もう一度県名を
どうぞ。」 再発声要求2回目(変形パターン):「前回と同じ認識
結果です。少し言い方を変えてみてください」。
メッセージを対比して例示する。ここでも、県名を入力
するケースを例に取り上げる。; 再発声要求1回目(基本パターン):「もう一度県名を
どうぞ。」 再発声要求2回目(変形パターン):「前回と同じ認識
結果です。少し言い方を変えてみてください」。
【0048】次に、S40での判断がNOのときの処理
を説明する。この場合、信号処理制御部30は、S22
での発声・入力がこのサブルーチンにおける1回目およ
び2回目の発声・入力でないと判断している。この判断
結果は、1回目および2回目とも誤認識が発生し、ユー
ザにより3回目の発声・入力が行われたことを意味す
る。なお、S40の判断は、S46でのトリガースイッ
チ操作がすでに行われたか否かによっても可能である。
3回目に入力された音声の認識結果もS26で信号処理
制御部30により記憶されている。
を説明する。この場合、信号処理制御部30は、S22
での発声・入力がこのサブルーチンにおける1回目およ
び2回目の発声・入力でないと判断している。この判断
結果は、1回目および2回目とも誤認識が発生し、ユー
ザにより3回目の発声・入力が行われたことを意味す
る。なお、S40の判断は、S46でのトリガースイッ
チ操作がすでに行われたか否かによっても可能である。
3回目に入力された音声の認識結果もS26で信号処理
制御部30により記憶されている。
【0049】S40がNOの場合、S50へ進み、信号
処理制御部30は、2回目と3回目の入力信号を認識し
た結果を比較し、両者が同じか否かを判定する。3回目
で音声が正しく認識されれば、S50の判断はNOであ
る。比較結果が異なる場合は、前述のS30へ進み、基
本パターンの表現でトークバックが行われる。
処理制御部30は、2回目と3回目の入力信号を認識し
た結果を比較し、両者が同じか否かを判定する。3回目
で音声が正しく認識されれば、S50の判断はNOであ
る。比較結果が異なる場合は、前述のS30へ進み、基
本パターンの表現でトークバックが行われる。
【0050】S50の判断がYESのとき、すなわち、
2回目と3回目の認識結果が同じであるときは、S52
へ進む。この場合、2回目の認識結果は誤っていること
が分かっている。従って、3回目の認識結果も誤ってい
ることは明らかである。これ以上、誤認識を繰り返すこ
とは好ましくない。信号処理制御部30は、これまでの
認識結果をナビゲーションECU12へ出力する。
2回目と3回目の認識結果が同じであるときは、S52
へ進む。この場合、2回目の認識結果は誤っていること
が分かっている。従って、3回目の認識結果も誤ってい
ることは明らかである。これ以上、誤認識を繰り返すこ
とは好ましくない。信号処理制御部30は、これまでの
認識結果をナビゲーションECU12へ出力する。
【0051】ナビゲーションECU12は、入力された
認識結果を基に、正しい音声の候補を決める。前出の
「県名」を例に説明すると、「和歌山県」は誤りである
ことが分かっている。そこで、ナビゲーションECU1
2により「和歌山県」と混同されそうな県名、すなわ
ち、音声認識処理の観点から「和歌山県」と類似した県
名が選択される。正しい県名「岡山県」も、候補の中に
含まれる。選択された候補のリストが、図1のディスプ
レイ18に表示される(S52)。このとき、好ましく
は、リストから一つの候補を選択することを促す音声案
内がスピーカ20から出力される。この音声案内は、音
声認識装置14の音声合成部40により、ナビゲーショ
ンECU12の指示に従って生成される。ユーザは、音
声案内に従い、操作スイッチ16を手動で操作して、所
望の候補を選択する(S54)。このような処理が行わ
れるので、4回以上続けて同じ内容の音声の発声がユー
ザに要求されることはない。
認識結果を基に、正しい音声の候補を決める。前出の
「県名」を例に説明すると、「和歌山県」は誤りである
ことが分かっている。そこで、ナビゲーションECU1
2により「和歌山県」と混同されそうな県名、すなわ
ち、音声認識処理の観点から「和歌山県」と類似した県
名が選択される。正しい県名「岡山県」も、候補の中に
含まれる。選択された候補のリストが、図1のディスプ
レイ18に表示される(S52)。このとき、好ましく
は、リストから一つの候補を選択することを促す音声案
内がスピーカ20から出力される。この音声案内は、音
声認識装置14の音声合成部40により、ナビゲーショ
ンECU12の指示に従って生成される。ユーザは、音
声案内に従い、操作スイッチ16を手動で操作して、所
望の候補を選択する(S54)。このような処理が行わ
れるので、4回以上続けて同じ内容の音声の発声がユー
ザに要求されることはない。
【0052】以上、本実施形態の音声認識装置を説明し
た。上記のように、本実施形態では、信号処理制御部3
0が、音声認識結果を一時的に記憶する記憶手段として
機能する。また、信号処理制御部30は、記憶している
以前の認識結果と、再発声の音声の認識結果とを比較照
合する照合手段として機能する。さらに、信号処理制御
部30は、認識結果の合成音声の出力(トークバック)
を制御する出力制御手段として機能する。そして、再発
声音声の認識結果が前の認識結果と同一である場合に
は、再発声音声の認識結果のトークバックに、前回のト
ークバックと異なる表現が使われる。従って、1回目と
2回目のトークバックの表現が変わる。
た。上記のように、本実施形態では、信号処理制御部3
0が、音声認識結果を一時的に記憶する記憶手段として
機能する。また、信号処理制御部30は、記憶している
以前の認識結果と、再発声の音声の認識結果とを比較照
合する照合手段として機能する。さらに、信号処理制御
部30は、認識結果の合成音声の出力(トークバック)
を制御する出力制御手段として機能する。そして、再発
声音声の認識結果が前の認識結果と同一である場合に
は、再発声音声の認識結果のトークバックに、前回のト
ークバックと異なる表現が使われる。従って、1回目と
2回目のトークバックの表現が変わる。
【0053】本実施形態の効果を従来技術と比較して説
明する。従来は、図5に示すように、何回も連続して同
じ表現でトークバックが行われた。図5において、S2
0〜S24のステップでは図4と同様の処理が行われ
る。S70では、S22の入力が何回行われたかに関係
なく同じ表現でトークバックが行われる。次に、ユーザ
によりトリガースイッチ16aが押されたか否かが判断
され(S72)、押されなければ認識結果をナビゲーシ
ョンECU12に出力する(S74)。トリガースイッ
チ16aが押された場合、今回のスイッチ操作が1回目
または2回目であるか否かを判定する(S76)。YE
SであればS20に戻る。従って、前回と同じ表現で発
声要求が出力される。S76がNOであれば、すでに3
回のスイッチ操作が行われている。そこで、これ以上の
誤認識を避けるため、図4と同様に、候補リストが表示
され(S52)、リストから一つの候補が選択される
(S54)。
明する。従来は、図5に示すように、何回も連続して同
じ表現でトークバックが行われた。図5において、S2
0〜S24のステップでは図4と同様の処理が行われ
る。S70では、S22の入力が何回行われたかに関係
なく同じ表現でトークバックが行われる。次に、ユーザ
によりトリガースイッチ16aが押されたか否かが判断
され(S72)、押されなければ認識結果をナビゲーシ
ョンECU12に出力する(S74)。トリガースイッ
チ16aが押された場合、今回のスイッチ操作が1回目
または2回目であるか否かを判定する(S76)。YE
SであればS20に戻る。従って、前回と同じ表現で発
声要求が出力される。S76がNOであれば、すでに3
回のスイッチ操作が行われている。そこで、これ以上の
誤認識を避けるため、図4と同様に、候補リストが表示
され(S52)、リストから一つの候補が選択される
(S54)。
【0054】このように、従来は、2回続けて同じ表現
で誤った認識結果が出力された。そのため、ユーザが強
い不快感を受ける可能性があった。本実施形態によれ
ば、連続して誤った認識が生じた場合でも、前の認識結
果と後の認識結果の出力に異なる表現が用いられる。こ
れにより、ユーザの腹立たしさや苛立たしさが和らげら
れ、不快感を軽減することができる。
で誤った認識結果が出力された。そのため、ユーザが強
い不快感を受ける可能性があった。本実施形態によれ
ば、連続して誤った認識が生じた場合でも、前の認識結
果と後の認識結果の出力に異なる表現が用いられる。こ
れにより、ユーザの腹立たしさや苛立たしさが和らげら
れ、不快感を軽減することができる。
【0055】特に、ナビゲーション装置のような車載機
器に音声認識装置を設けることにより、運転者は、運転
に集中しながら車載機器を容易に操作できる。また、車
室内の狭いスペースや手動操作が困難なスペースに機器
が納められている場合にも、機器の操作性が確保され
る。このような車両用の音声認識装置の利点が、本発明
を適用することで、より一層好適に発揮される。
器に音声認識装置を設けることにより、運転者は、運転
に集中しながら車載機器を容易に操作できる。また、車
室内の狭いスペースや手動操作が困難なスペースに機器
が納められている場合にも、機器の操作性が確保され
る。このような車両用の音声認識装置の利点が、本発明
を適用することで、より一層好適に発揮される。
【0056】また、前述のように、音声認識装置には、
登録された特定のユーザの音声を認識するタイプと、不
特定のユーザの音声を認識するタイプがある。一般に、
後者の方が便利である反面、誤認識の確率が大きい。し
かし、音声認識装置の普及とともに、便利さが要求さ
れ、後者の不特定タイプへのニーズが強まっている。こ
のような背景がある中で、本発明を適用することによ
り、音声認識装置が、誤認識の発生に対して好適に対処
してユーザの不快感をできるだけ抑えることができる。
登録された特定のユーザの音声を認識するタイプと、不
特定のユーザの音声を認識するタイプがある。一般に、
後者の方が便利である反面、誤認識の確率が大きい。し
かし、音声認識装置の普及とともに、便利さが要求さ
れ、後者の不特定タイプへのニーズが強まっている。こ
のような背景がある中で、本発明を適用することによ
り、音声認識装置が、誤認識の発生に対して好適に対処
してユーザの不快感をできるだけ抑えることができる。
【0057】以下、本実施形態の変形例を説明する。
【0058】(1)本実施形態では、トークバックによ
り、ユーザの音声の内容を反復する合成音声が出力され
る。このトークバックは、下記に説明するように、次の
発声要求と同時に行われることも好適である。図6は、
トークバックの際に出力される好適な合成音声を示して
いる。図6には、前述の図3の各ステップで実際に入出
力される音声が示されている。
り、ユーザの音声の内容を反復する合成音声が出力され
る。このトークバックは、下記に説明するように、次の
発声要求と同時に行われることも好適である。図6は、
トークバックの際に出力される好適な合成音声を示して
いる。図6には、前述の図3の各ステップで実際に入出
力される音声が示されている。
【0059】図6において、S10では、まず音声認識
装置から発声要求として合成音声「コマンドを発声して
下さい」が出力される。ユーザは、音声「目的地」を入
力する。そして、トークバックにより、合成音声「『目
的地』の設定方法をどうぞ」が出力される。このメッセ
ージは、認識結果が「目的地」であることを示してい
る。さらに、このメッセージは、次に設定方法を入力す
ることを要求している。従って、上記のメッセージは、
トークバックと次の発声要求という2つの役割をもつ。
このようなメッセージを出力することにより、S10の
処理におけるトークバックの出力と、次のS12の処理
における発声要求の出力とが一度に行われる。認識結果
(目的地)が正しければ、ユーザは次の音声を発声す
る。認識結果が誤りである場合、ユーザはトリガースイ
ッチを押す。そして、図4で説明したスイッチ操作に対
応する処理が行われる。
装置から発声要求として合成音声「コマンドを発声して
下さい」が出力される。ユーザは、音声「目的地」を入
力する。そして、トークバックにより、合成音声「『目
的地』の設定方法をどうぞ」が出力される。このメッセ
ージは、認識結果が「目的地」であることを示してい
る。さらに、このメッセージは、次に設定方法を入力す
ることを要求している。従って、上記のメッセージは、
トークバックと次の発声要求という2つの役割をもつ。
このようなメッセージを出力することにより、S10の
処理におけるトークバックの出力と、次のS12の処理
における発声要求の出力とが一度に行われる。認識結果
(目的地)が正しければ、ユーザは次の音声を発声す
る。認識結果が誤りである場合、ユーザはトリガースイ
ッチを押す。そして、図4で説明したスイッチ操作に対
応する処理が行われる。
【0060】なお、このようなメッセージは、基本パタ
ーンの表現を用いる1回目のトークバック(図4、S3
0)に適用される。
ーンの表現を用いる1回目のトークバック(図4、S3
0)に適用される。
【0061】また図6において、S12では、ユーザが
音声「住所」を入力する。そして、合成音声「県名をど
うぞ」が、トークバック兼発声要求として出力される。
このメッセージには、認識結果である住所そのものは含
まれていない。しかし、「県名」が含まれているので、
このメッセージは、「住所」が認識されたことを前提と
して作られている。このメッセージを聞いたユーザは、
「住所」が認識されたことが分かる。従って、このメッ
セージは、認識結果を反復するメッセージと同等であ
る。このように、本発明における「認識結果の出力」
は、認識結果が分かる出力であればよく、出力内容に認
識結果そのものが必ずしも含まれる必要はない。
音声「住所」を入力する。そして、合成音声「県名をど
うぞ」が、トークバック兼発声要求として出力される。
このメッセージには、認識結果である住所そのものは含
まれていない。しかし、「県名」が含まれているので、
このメッセージは、「住所」が認識されたことを前提と
して作られている。このメッセージを聞いたユーザは、
「住所」が認識されたことが分かる。従って、このメッ
セージは、認識結果を反復するメッセージと同等であ
る。このように、本発明における「認識結果の出力」
は、認識結果が分かる出力であればよく、出力内容に認
識結果そのものが必ずしも含まれる必要はない。
【0062】さらに図6において、S14では、ユーザ
が音声「××県」を入力する。そして、トークバックに
より、合成音声「××県の市区町村名をどうぞ」が出力
される。ここでも、メッセージに認識結果「××県」と
発声要求「市区町村名をどうぞ」が含まれている。前述
の具体例の誤認識(岡山県と和歌山県)が生じた場合に
は、「和歌山県の市区町村名をどうぞ」が出力される。
が音声「××県」を入力する。そして、トークバックに
より、合成音声「××県の市区町村名をどうぞ」が出力
される。ここでも、メッセージに認識結果「××県」と
発声要求「市区町村名をどうぞ」が含まれている。前述
の具体例の誤認識(岡山県と和歌山県)が生じた場合に
は、「和歌山県の市区町村名をどうぞ」が出力される。
【0063】以上のようなトークバック兼発声要求のメ
ッセージを適宜利用することにより、音声認識装置を使
った入力作業を一層円滑かつ迅速に進めることができ
る。
ッセージを適宜利用することにより、音声認識装置を使
った入力作業を一層円滑かつ迅速に進めることができ
る。
【0064】(2)本実施形態では、トークバックの回
数が2回に設定されている。3回目のトークバックは行
われず、代わりに候補リストが表示される(図4、S5
2)。しかし、トークバックの回数は2回に限定され
ず、3回以上のトークバックが行われてもよい。この場
合、順次、トークバックの表現を変えることが好まし
い。
数が2回に設定されている。3回目のトークバックは行
われず、代わりに候補リストが表示される(図4、S5
2)。しかし、トークバックの回数は2回に限定され
ず、3回以上のトークバックが行われてもよい。この場
合、順次、トークバックの表現を変えることが好まし
い。
【0065】さらに、本実施形態では1回目と2回目の
トークバックの表現が変更された。しかし、本発明はこ
のような構成に限定されない。例えば、1回目と2回目
のトークバックの表現は同じであり、3回目のトークバ
ックの表現が変更されてもよい。
トークバックの表現が変更された。しかし、本発明はこ
のような構成に限定されない。例えば、1回目と2回目
のトークバックの表現は同じであり、3回目のトークバ
ックの表現が変更されてもよい。
【0066】(3)本実施形態では、トークバック機能
により、音声の認識結果が合成音声というかたちでユー
ザに提示された。しかし、本発明はこのような構成に限
定されず、例えば、認識結果が文字などを用いてディス
プレイ表示されてもよい。
により、音声の認識結果が合成音声というかたちでユー
ザに提示された。しかし、本発明はこのような構成に限
定されず、例えば、認識結果が文字などを用いてディス
プレイ表示されてもよい。
【0067】(4)本実施形態では、音声認識処理自体
には、任意の手法の処理を適用可能である。また、図2
に示した音声認識装置の構成も、本発明の範囲内で変形
可能である。音響処理部32や音声認識部36、音声合
成部40などの構成が、CPUたる信号処理制御部30
に組み込まれてもよい。この場合、これらの構成はソフ
トウエアというかたちで実現される。
には、任意の手法の処理を適用可能である。また、図2
に示した音声認識装置の構成も、本発明の範囲内で変形
可能である。音響処理部32や音声認識部36、音声合
成部40などの構成が、CPUたる信号処理制御部30
に組み込まれてもよい。この場合、これらの構成はソフ
トウエアというかたちで実現される。
【0068】(5)本実施形態では、音声認識装置が、
県名などの単語を認識した。単語を一度に認識すること
により、音声入力がユーザにとって容易である反面、誤
認識の確率が大きくなる。しかし、本発明を適用するこ
とにより、誤認識に対する効果的な対処が可能となる。
ただし、本発明は、単語を認識する認識装置には限定さ
れない。文字、記号、数字などの音声を認識する装置に
も本発明が好適に適用される。
県名などの単語を認識した。単語を一度に認識すること
により、音声入力がユーザにとって容易である反面、誤
認識の確率が大きくなる。しかし、本発明を適用するこ
とにより、誤認識に対する効果的な対処が可能となる。
ただし、本発明は、単語を認識する認識装置には限定さ
れない。文字、記号、数字などの音声を認識する装置に
も本発明が好適に適用される。
【0069】(6)前述のように、本発明の音声認識装
置は、不特定のユーザの音声を認識するタイプの装置に
適している。しかし、本発明はこのような構成に限定さ
れず、例えば、登録された特定のユーザの音声を認識す
るタイプの装置にも好適に本発明を適用可能である。
置は、不特定のユーザの音声を認識するタイプの装置に
適している。しかし、本発明はこのような構成に限定さ
れず、例えば、登録された特定のユーザの音声を認識す
るタイプの装置にも好適に本発明を適用可能である。
【0070】(7)前述のように、本発明の音声認識装
置は、車両用ナビゲーション装置に適している。しか
し、本発明はこのような構成に限定されず、その他の任
意の種類の装置(車両以外を含む)に本発明の音声認識
装置を設けることができる。
置は、車両用ナビゲーション装置に適している。しか
し、本発明はこのような構成に限定されず、その他の任
意の種類の装置(車両以外を含む)に本発明の音声認識
装置を設けることができる。
【図1】 本発明の実施形態のナビゲーション装置の全
体構成を示すブロック図である。
体構成を示すブロック図である。
【図2】 図1のナビゲーション装置の音声認識装置の
構成を示すブロック図である。
構成を示すブロック図である。
【図3】 音声認識の全体的な処理を示すフローチャー
トである。
トである。
【図4】 図3の各段階での音声認識の詳細な処理を示
すフローチャートである。
すフローチャートである。
【図5】 従来の音声認識処理を図4と比較して示すフ
ローチャートである。
ローチャートである。
【図6】 本発明の実施形態の変形例にてトークバック
される合成音声を示す図である。。
される合成音声を示す図である。。
10 ナビゲーション装置、12 ナビゲーションEC
U、14 音声認識装置、16a トリガースイッチ、
18 ディスプレイ、20 スピーカ、30信号処理制
御部、32 音響処理部、34 マイク、36 音声認
識部、40音声合成部。
U、14 音声認識装置、16a トリガースイッチ、
18 ディスプレイ、20 スピーカ、30信号処理制
御部、32 音響処理部、34 マイク、36 音声認
識部、40音声合成部。
Claims (5)
- 【請求項1】 ユーザの発声した音声を入力する入力手
段と、 入力された音声を認識する認識手段と、 認識手段による認識結果の正否をユーザに確認するため
に、認識結果を出力してユーザに知らせる出力手段と、 を含み、認識結果に誤りがあるとユーザが判断したとき
にユーザによる再発声音声が入力される音声認識装置に
おいて、 前記再発声音声の認識結果が前の認識結果と同一である
場合に、前の認識結果の出力時とは実質的に異なる表現
を用いて、前記再発声音声の認識結果を出力することを
特徴とする音声認識装置。 - 【請求項2】 請求項1に記載の装置において、 前記出力手段は音声合成装置を含み、認識結果を示す合
成音声を出力することを特徴とする音声認識装置。 - 【請求項3】 請求項1または2のいずれかに記載の装
置において、 前記再発声音声の認識結果の出力には、謝罪表現が用い
られることを特徴とする音声認識装置。 - 【請求項4】 請求項1〜3のいずれかに記載の装置に
おいて、 前記再発声音声の認識結果の出力に用いる表現を、所定
の複数種類の表現の中から選択する選択手段を有するこ
とを特徴とする音声認識装置。 - 【請求項5】 請求項1〜4のいずれかに記載の装置に
おいて、 前記出力手段からはさらにユーザに音声の発声を促す発
声要求が出力され、 前記再発声音声の認識結果の出力後に発声要求を出力す
るときには、前の発声要求と異なる表現が用いられるこ
とを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9269705A JPH11109989A (ja) | 1997-10-02 | 1997-10-02 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9269705A JPH11109989A (ja) | 1997-10-02 | 1997-10-02 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11109989A true JPH11109989A (ja) | 1999-04-23 |
Family
ID=17476045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9269705A Pending JPH11109989A (ja) | 1997-10-02 | 1997-10-02 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11109989A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210703A (ja) * | 2008-03-03 | 2009-09-17 | Alpine Electronics Inc | 音声認識装置 |
JP2012093422A (ja) * | 2010-10-25 | 2012-05-17 | Denso Corp | 音声認識装置 |
US8300834B2 (en) | 2005-07-15 | 2012-10-30 | Yamaha Corporation | Audio signal processing device and audio signal processing method for specifying sound generating period |
JP2016519805A (ja) * | 2013-03-14 | 2016-07-07 | ロウルズ リミテッド ライアビリティ カンパニー | 複数のデバイス上でコンテンツを提供すること |
US9842584B1 (en) | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61231629A (ja) * | 1985-04-08 | 1986-10-15 | Hitachi Ltd | 音声入力装置 |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
JPH0950291A (ja) * | 1995-08-04 | 1997-02-18 | Sony Corp | 音声認識装置及びナビゲーシヨン装置 |
-
1997
- 1997-10-02 JP JP9269705A patent/JPH11109989A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61231629A (ja) * | 1985-04-08 | 1986-10-15 | Hitachi Ltd | 音声入力装置 |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
JPH0950291A (ja) * | 1995-08-04 | 1997-02-18 | Sony Corp | 音声認識装置及びナビゲーシヨン装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8300834B2 (en) | 2005-07-15 | 2012-10-30 | Yamaha Corporation | Audio signal processing device and audio signal processing method for specifying sound generating period |
JP5388447B2 (ja) * | 2005-07-15 | 2014-01-15 | ヤマハ株式会社 | 発音期間を特定する音信号処理装置および音信号処理方法 |
JP2009210703A (ja) * | 2008-03-03 | 2009-09-17 | Alpine Electronics Inc | 音声認識装置 |
JP2012093422A (ja) * | 2010-10-25 | 2012-05-17 | Denso Corp | 音声認識装置 |
JP2016519805A (ja) * | 2013-03-14 | 2016-07-07 | ロウルズ リミテッド ライアビリティ カンパニー | 複数のデバイス上でコンテンツを提供すること |
US9842584B1 (en) | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
US10121465B1 (en) | 2013-03-14 | 2018-11-06 | Amazon Technologies, Inc. | Providing content on multiple devices |
US10133546B2 (en) | 2013-03-14 | 2018-11-20 | Amazon Technologies, Inc. | Providing content on multiple devices |
US10832653B1 (en) | 2013-03-14 | 2020-11-10 | Amazon Technologies, Inc. | Providing content on multiple devices |
US12008990B1 (en) | 2013-03-14 | 2024-06-11 | Amazon Technologies, Inc. | Providing content on multiple devices |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7826945B2 (en) | Automobile speech-recognition interface | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
US20070156405A1 (en) | Speech recognition system | |
JP2002091466A (ja) | 音声認識装置 | |
JP2004126413A (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
CN105047196B (zh) | 语音识别系统中的语音假象补偿系统和方法 | |
JP5189858B2 (ja) | 音声認識装置 | |
JP2004029270A (ja) | 音声制御装置 | |
JPH11126092A (ja) | 音声認識装置および車両用音声認識装置 | |
JP2018116130A (ja) | 車内音声処理装置および車内音声処理方法 | |
JP2016061888A (ja) | 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム | |
JPH11109989A (ja) | 音声認識装置 | |
JP2006058390A (ja) | 音声認識装置 | |
JP3718088B2 (ja) | 音声認識修正方式 | |
JP2000276187A (ja) | 音声認識方法及び音声認識装置 | |
JP2004301875A (ja) | 音声認識装置 | |
JP3849283B2 (ja) | 音声認識装置 | |
JP2003330488A (ja) | 音声認識装置 | |
JPH11184495A (ja) | 音声認識装置 | |
JP5357321B1 (ja) | 音声認識システムおよび音声認識システムの制御方法 | |
JP2004333703A (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
JP2006023444A (ja) | 音声対話装置 | |
JP4979336B2 (ja) | 音声出力装置 | |
JP2005114964A (ja) | 音声認識方法および音声認識処理装置 | |
JP2005283797A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060815 |