JPH11109989A

JPH11109989A - 音声認識装置

Info

Publication number: JPH11109989A
Application number: JP9269705A
Authority: JP
Inventors: Ryuji Yamaguchi; 竜司山口
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1997-10-02
Filing date: 1997-10-02
Publication date: 1999-04-23

Abstract

(57)【要約】【課題】繰り返して同じ誤認識が生じ、同じ反応が機
械から返ってくると、ユーザが不快感を受ける。【解決手段】ユーザの発声した音声はマイク３４から
入力され、音声認識部３６で認識される。信号処理制御
部３０の制御により、認識結果を示す合成音声が音声合
成部４０で生成され、スピーカ２０から出力される。ユ
ーザは、合成音声を聞いて認識結果に誤りがあると判断
すると、再発生音声をマイク３４に入力する。再発声音
声の認識結果が前の認識結果と同一である場合には、前
の認識結果の出力時とは実質的に異なる表現を用いて、
再発声音声の認識結果を出力する。表現を変えることに
より、何度も同じ反応を繰り返すことが避けられ、ユー
ザの不快感が軽減する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、特
に、音声の誤認識を防止するためのトークバック機能を
備えた認識装置に関する。本発明は、例えば、車両に搭
載される機器の入力装置として用いられる音声認識装置
に適している。

【０００２】

【従来の技術】従来より、人が発声した音声を認識する
音声認識装置が周知であり、各種の電子機器の入力装置
として音声認識装置を利用することが提案されている。
ユーザが発声した音声はデジタルデータに変換される。
「音声」は、単語、文字、記号、数字などである。一例
では、デジタル音声データに対してケプストラム（cepu
strum）を使うデータ処理が行われ、ユーザが何を言っ
たのかが認識される。音声認識処理については、例え
ば、「音響・音声工学」（古井貞煕、近代科学社、１７
４頁〜）にて説明されている。音声認識装置を電子機器
などの装置に設けることにより、ユーザによる手動操作
が不要となり、従って、装置の操作性の向上を図ること
ができる。

【０００３】現状の音声認識装置では、１００％の確率
で正しく音声を認識することは難しい。そこで、誤認識
を防止するためにトークバック機能を備えることが周知
である。音声認識装置には、音声合成装置が設けられ
る。音声が認識されると、認識結果を示す合成音声が生
成され、出力される。ユーザは、認識結果を知り、認識
結果が正しいか否かを判断する。そして、認識結果が誤
っているときには、再度、ユーザは音声を発声して認識
装置へ入力する。このようなトークバック機能により誤
認識が修正され、正しい認識結果が確実に得られる。こ
の種のトークバック機能を備えた音声認識装置は、例え
ば、特開昭６３−３８９９６号公報や特開平１−１７７
１９２号公報に記載されている。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
トークバック機能には、複数回連続して誤認識が発声し
たときにユーザの不快感を招くという問題がある。ある
音声をユーザが入力しようとしているとする。初回の発
声に対して誤った認識結果がトークバックされると、ユ
ーザは音声を再発声する。再発声された音声（再発声音
声）の認識結果も誤っていたとする。２つの認識結果が
同じであれば、トークバック機能により、同じ内容の合
成音声が再び出力される。ユーザは、自分の音声が何度
も同じように間違って認識され、同じ反応が機械から返
ってくるために、腹立たしさや苛立たしさを感じ、不快
感をもつ。

【０００５】具体例を用いて上記の問題を説明する。音
声認識装置は、車両用ナビゲーション装置に設けられて
おり、ナビゲーション装置の入力装置を構成していると
仮定する。ユーザたる運転者は、経路案内の目的地を、
住所というかたちで入力する。住所は、県名や市名など
の階層ごとに入力される。ユーザが、県名として音声
「岡山県（おかやまけん）」を発声する。音声認識装置
は、誤って和歌山県を認識したとする。実際、このよう
な誤認識は発生しやすい。このとき、認識装置は、認識
結果として合成音声「和歌山県（わかやまけん）を認識
しました」を出力する（トークバック）。ユーザは誤認
識を知り、再度、音声「岡山県」を発声する。しかし、
再び同じ誤認識が発声することがありうる。このとき、
前回と同じメッセージ「和歌山県を認識しました」が出
力される。２回に渡って同じ誤認識が発生したために、
ユーザは不快感を感じる。

【０００６】特に、運転者は、車両を運転しながら、ナ
ビゲーション装置のような車載機器を操作する。そのた
め、運転に集中しながらでも容易に車載機器を操作でき
ることが求められる。また、車内のスペースが限られて
いるために車載機器に与えられるスペースは狭い。従っ
て、車両では、機器操作を容易にすることができる音声
認識装置に対するニーズが大きい。しかしながら、車両
用の音声認識装置では、上記の如く連続して誤認識が発
生したときに、運転者に強い不快感を与える可能性があ
る。

【０００７】また、音声認識装置には、登録された特定
のユーザの音声を認識するタイプと、不特定のユーザの
音声を認識するタイプがある。登録などの作業が不要な
後者のタイプに対するニーズが強まっている。しかし、
不特定のユーザの音声を認識するタイプの方が、誤認識
の確率が大きくなる。そのため、誤認識発生時の効果的
な対応手法の提供が望まれる。

【０００８】本発明は上記課題に鑑みてなされたもので
あり、その目的は、連続して誤認識が発生したときにユ
ーザがもつ不快感を軽減することができる音声認識装置
を提供することにある。

【０００９】

【課題を解決するための手段】本発明の音声認識装置
は、ユーザの発声した音声を入力する入力手段と、入力
された音声を認識する認識手段と、認識手段による認識
結果の正否をユーザに確認するために、認識結果を出力
してユーザに知らせる出力手段と、を含み、認識結果に
誤りがあるときにユーザによる再発声音声が入力され
る。この音声認識装置は、前記再発声音声の認識結果が
前の認識結果と同一である場合に、前の認識結果の出力
時とは実質的に異なる表現を用いて、前記再発声音声の
認識結果を出力する。

【００１０】本発明によれば、再発声音声の認識結果を
出力する前に、その再発声音声の認識結果が前の認識結
果と同一であるか否かが判断される。両者が同一であれ
ば、後の認識結果も誤認識である可能性が高い。２回連
続して同じ表現で同じ誤認識結果が出力されると、装置
から何度も同じ反応が返ってくるためにユーザの不快感
が増長する。しかし、本発明では、前の認識結果と後の
認識結果が異なる表現を用いて出力されるので、ユーザ
の腹立たしさや苛立たしさが和らげられ、不快感が軽減
する。

【００１１】好ましくは、前記出力手段は音声合成装置
を含み、認識結果を示す合成音声を出力する。この態様
の装置は、いわゆるトークバック機能をもつ。ただし、
本発明の出力手段は、上記の構成に限定されない。例え
ば、認識結果が、ディスプレイ上に文字などを使って表
示されてもよい。また、１回目の認識結果は音声にて、
２回目の認識結果は音声と画像にて出力するというよう
な表現変更も好適である。

【００１２】本発明において、再発生音声の認識結果の
出力に用いられる実質的に異なる表現とは、単なる言葉
尻の違いのような実質的に同じ表現を含まない。異なる
表現とは、実際に認識結果を知らされたときにユーザの
受ける印象が、前の認識結果出力時と異なるような表現
をいう。好ましくは、例えば、再発声音声の認識結果の
出力には、謝罪表現が用いられる。

【００１３】また好ましくは、音声認識装置は、前記再
発声音声の認識結果の出力に用いる表現を、所定の複数
種類の表現の中から選択する選択手段を有する。いろい
ろな種類の表現を用いることにより、ユーザの受ける不
快感をさらに効果的に軽減することができる。

【００１４】また好ましくは、前記出力手段からはさら
にユーザに音声の発声を促す発声要求が出力され、前記
再発声音声の認識結果の出力後に発声要求を出力すると
きには、前の発声要求と異なる表現が用いられる。例え
ば、異なる表現として謝罪表現が用いられる。これによ
り、さらにユーザの不快感を軽減することができる。

【００１５】

【発明の実施の形態】以下、本発明の好適な実施の形態
（以下、実施形態という）について、図面を参照し説明
する。本実施形態では、車両用のナビゲーション装置に
本発明の音声認識装置が設けられる。

【００１６】図１は、ナビゲーション装置の全体構成を
示すブロック図である。ナビゲーション装置１０にはナ
ビゲーションＥＣＵ１２が設けられており、ナビゲーシ
ョンＥＣＵ１２は装置全体を制御している。ナビゲーシ
ョンＥＣＵ１２には、本発明の音声認識装置１４が接続
されている。音声認識装置１４は、ナビゲーション装置
１０の入力手段として機能し、ユーザは音声認識装置１
４を介してナビゲーション装置１０に対して各種の指示
を入力する。また、ナビゲーションＥＣＵ１２には操作
スイッチ１６が接続されており、操作スイッチ１６は、
ユーザにより手動で操作される入力手段として機能す
る。さらにナビゲーションＥＣＵ１２には、出力手段と
してのディスプレイ１８およびスピーカ２０が接続され
ている。

【００１７】また、ＧＰＳ（グローバルポジショニング
システム）装置２２は、人工衛星から送られた電波を基
に車両の現在位置を検出してナビゲーションＥＣＵ１２
に送る。地図データ記憶部２４は、全国の道路形状など
の地図情報を記憶している。地図情報は、ナビゲーショ
ンＥＣＵ１２により、経路案内に関する各種の処理に利
用される。例えば、現在位置周辺の地図が地図データ記
憶部２４から読み出され、ディスプレイ１８に表示され
る。目的地が設定されると、地図情報を用いて目的地ま
での経路を探索する経路計算が行われる。計算結果の経
路を用いて経路案内が行われる。

【００１８】上記のように、音声認識装置１４はナビゲ
ーション装置１０の入力装置として機能する。音声認識
装置１４を用いて、ユーザにより音声というかたちでナ
ビゲーション装置１０に対する各種の指示が入力され
る。例えば、上記の経路案内用の目的地が入力される。
この入力処理のため、適宜、音声認識装置１４は、ナビ
ゲーションＥＣＵ１２をはじめとする他の構成と一体に
なって機能する。また、音声認識装置１４をナビゲーシ
ョンＥＣＵ１２の内部に組み込むことも好適である。

【００１９】図２は、音声認識装置１４の構成を示すブ
ロック図である。音声認識装置１４には信号処理制御部
３０が設けられている。信号処理制御部３０はＣＰＵを
有し、装置１４全体を制御している。

【００２０】信号処理制御部３０には音響処理部３２が
接続され、音響処理部３２にはマイク３４が接続されて
いる。ユーザが発声した音声は、マイク３４にてアナロ
グ電気信号に変換され、音響処理部３２に入力される。
音響処理部３２では、音声データがデジタル信号に変換
される。さらに、音響処理部３２では、音声認識に必要
なデータ処理が施される。本実施例では、窓関数処理や
フーリエ変換処理が行われ、音声データのケプストラム
が求められる。処理後の音声データは信号処理制御部３
０へ出力される。

【００２１】信号処理制御部３０にはトリガースイッチ
１６ａが接続されている。トリガースイッチ１６ａはユ
ーザにより操作される。信号処理制御部３０は、トリガ
ースイッチ１６ａが押されると、その後に発声された音
声のデータを、マイク３４から音響処理部３２を経由し
て取り込む。

【００２２】変形例として、トリガースイッチ１６ａの
代わりに、いわゆるプレス・トークスイッチが設けられ
てもよい。プレス・トークスイッチを押し続けている間
に発声された音声が、マイク３４から信号処理制御部３
０に取り込まれる。また、別の変形例として、音声認識
装置が、常時認識タイプの装置であってもよい。トリガ
ースイッチやプレス・トークスイッチの操作がなくと
も、ユーザによる発声の有無が監視され、検出される。

【００２３】また、信号処理制御部３０には音声認識部
３６が接続されている。信号処理制御部３０は、音響処
理部３２から取り込んだ音声データを音声認識部３６に
送る。音声認識部３６はいわゆるＤＳＰやマイコンであ
り、ユーザの発声した音声データを解析する。音声認識
部３６は、ユーザの音声データと標準音声データとを比
較して、比較結果に基づいてユーザの音声を認識する。
標準音声データは、認識用辞書記憶部３８に記憶されて
いる。この認識用辞書記憶部３８には、適宜、必要な標
準音声データが、図１の地図データ記憶部２４から送ら
れてくる。例えば、後述する例のように、「都道府県
名」を認識すべきときには、「都道府県名」の標準音声
データが認識用辞書記憶部３８に用意され、音声認識部
３６により使用される。

【００２４】音声認識部３６の認識結果は、信号処理制
御部３０へ送られる。これにより、信号処理制御部３０
は、ユーザが何をいったのかが分かる。なお、上記の音
響処理部３２および音声認識部３６では、周知の原理に
従った音声認識処理が行われればよい。上記の例と異な
る音声認識手法が適用されてもよく、本実施形態には任
意の音声認識手法が適用可能である。

【００２５】さらに、信号処理制御部３０には音声合成
部４０が接続されている。信号処理制御部３０の指示に
従い、音声合成部４０は、いろいろなメッセージの合成
音声を生成する。生成された合成音声はスピーカ２０か
ら出力され、ユーザに伝えられる。

【００２６】音声合成部４０は、例えば、ユーザに音声
の発声を促す合成音声を生成する。また、音声合成部４
０は、トークバック用の合成音声を生成する。トークバ
ック音声においては、音声認識部３６により認識された
音声の内容が反復される。トークバック音声の出力によ
り、装置内での認識結果がユーザに提示される。

【００２７】音声合成部４０での音声合成処理には、メ
ッセージ記憶部４２に記憶されたメッセージデータが用
いられる。認識用辞書記憶部３８と同様に、メッセージ
記憶部４２にも、その都度、必要なメッセージデータが
図１の地図データ記憶部２４から写されてもよい。

【００２８】本実施形態の特徴として、メッセージ記憶
部４２には、複数種類のメッセージデータが記憶されて
いる。基本パターンのメッセージデータの他に、変形パ
ターンのメッセージデータが記憶されている。後述する
ように、変形パターンのデータは、さらに複数種類のパ
ターンに分かれる。異なる種類のメッセージデータを使
えば、生成された合成音声の内容が同じであっても、合
成音声の表現が異なる。これらの複数種類のパターン
は、特にトークバック用メッセージを生成するときに効
果的に使い分けられる。どの種類のメッセージデータを
使って合成音声を生成するかは、信号処理制御部３０の
指示により決定される。すなわち、信号処理制御部３０
は、トークバックに用いる表現の種類を選択する本発明
の選択手段として機能する。

【００２９】次に、本実施形態の音声認識処理の動作を
説明する。音声認識装置１４は、ナビゲーション装置１
０の入力装置として機能する。音声認識は、いつも原則
として概略的には下記の手順で行われる。（１）まず、
ナビゲーションＥＣＵ１２が、どのような音声をユーザ
に発声して欲しいかを決め、音声認識装置１４に伝え
る。（２）音声認識装置１４により「・・・をどうぞ」
といった発声要求が出力される。（３）ユーザの発声し
た音声が認識される。認識の過程でトークバック処理が
行われる。（４）最終的な認識結果は、信号処理制御部
３０からナビゲーションＥＣＵ１２へ送られる。

【００３０】図３には、全体的な処理の流れが示されて
いる。ここでは、ユーザがナビゲーション装置１０に経
路案内用の目的地を入力するケースが例に取り上げられ
ている。他のケースでも同様の処理が行われる。上記の
（１）〜（４）は、図３の各ステップで行われる。ユー
ザがトリガースイッチ１６ａを押すと、処理がスタート
する。まず、コマンドが入力される（Ｓ１０）。このス
テップで音声「目的地」が入力される。次に、「『目的
地』の設定方法」として「住所」が入力される（Ｓ１
２）。住所は、県名、市名といった階層ごとに入力され
る。そこで、「都道府県名」が入力され（Ｓ１４）、
「市区町村名」が入力され（Ｓ１６）、このような処理
が、住所の全部の入力終了まで継続される。

【００３１】図４は、図３のフローチャートの各ステッ
プで行われる処理を示している。図４には本実施形態に
特徴的なトークバック処理が示されている。図３の各ス
テップおよび他の音声認識処理は、すべて原則として図
４の手順に従って進められる。

【００３２】前述のように、ナビゲーションＥＣＵ１２
は、どのような音声をユーザに発声して欲しいかを決
め、音声認識装置１４に伝える。信号処理制御部３０
は、音声合成部４０に発声要求メッセージを生成させ
る。スピーカ２０から発声要求が出力され、続いてビー
プ音が出力される（Ｓ２０）。ビープ音を聞いたユーザ
が音声を発声すると、この音声がマイク３４へ入力され
（Ｓ２２）、入力された音声が認識される（Ｓ２４）。
ここでは、音声データの入力信号が音響処理部３２での
データ処理を経て信号処理制御部３０に取り込まれる。
音声データは、信号処理制御部３０から音声認識部３６
へ送られる。音声認識部３６は、音声を認識し、認識結
果を信号処理制御部３０へ返す。信号処理制御部３０は
認識結果を記憶する（Ｓ２６）。

【００３３】次に、信号処理制御部３０は、Ｓ２２での
発声・入力が、このサブルーチンにおける１回目の発声
・入力であるか否かを判断する（Ｓ２８）。１回目の場
合には、基本パターンの表現でトークバックが行われる
（Ｓ３０）。信号処理制御部３０は、認識された音声の
内容を反復するメッセージの生成を音声合成部４０に指
示する。このとき、メッセージ記憶部４２に記憶されて
いる基本パターンのメッセージデータを音声合成に使う
ことが指示される。トークバック音声は、スピーカ２０
から出力される。

【００３４】ユーザは、トークバック音声を聞き、自分
の発声した音声が正しく認識されたか否かを判断する。
判断結果は、ユーザがトリガースイッチ１６ａを押すか
否かによって分かる（Ｓ３２）。トリガースイッチ１６
ａが押されないということは、認識結果が正しいことを
意味する。そこで、最終的な認識結果がナビゲーション
ＥＣＵ１２へ出力され（Ｓ６０）、処理が終了する。

【００３５】Ｓ３２でトリガースイッチ１６ａが押され
た場合、ユーザは、認識結果に誤りがあると判断してい
る。そこで、信号処理制御部３０の指示により、音声合
成部４０は、再発声要求の合成音声を生成する。再発声
要求は、ユーザに再び音声を発声するように促すメッセ
ージである。ここでも、基本パターンの表現を用いて再
発声要求が生成される。音声合成部４０は、信号処理制
御部３０により、メッセージ記憶部４２に記憶されてい
る基本パターンのメッセージデータを音声合成に使うこ
とを指示される。再発声要求の合成音声は、スピーカ２
０から出力される。再発声要求に続いてビープ音が出力
され（Ｓ３４）、Ｓ２２に戻る。ユーザは、再発声要求
に応えて再び音声を発声する。

【００３６】次に、Ｓ２８での判断がＮＯのとき、すな
わちＳ２２での音声入力が１回目でないときの処理を説
明する。Ｓ２８の判断は、Ｓ３２でのトリガースイッチ
操作がすでに行われたか否かによっても可能である。Ｓ
２８がＮＯのとき、Ｓ４０へ進む。Ｓ４０では、信号処
理制御部３０が、Ｓ２２での発声・入力がこのサブルー
チンにおける２回目の発声・入力であるか否かを判断す
る。１回目の入力信号の認識が誤っているときに、ユー
ザによりトリガースイッチ１６ａが押され、２回目の入
力が行われる。２回目の場合には、さらに、信号処理制
御部３０は、１回目と２回目の入力信号を認識した結果
を比較し、両者が同じか否かを判定する（Ｓ４２）。両
者の結果とも、Ｓ２６で信号処理制御部３０によりメモ
リ内に記憶されている。２回目で音声が正しく認識され
れば、Ｓ４２の判断はＮＯである。比較結果が異なる場
合は、前述のＳ３０へ進み、基本パターンの表現でトー
クバックが行われる。

【００３７】Ｓ４２の判断がＹＥＳのとき、すなわち、
１回目と２回目の認識結果が同じであるときは、Ｓ４４
へ進む。この場合、１回目の認識結果は誤っていること
が分かっている。従って、２回目の認識結果も誤ってい
る可能性が高い。ユーザは、１回目と２回目が同じ認識
結果であることを知ると、不快感をうける可能性が高
い。１回目と２回目のトークバックに同じ基本表現が用
いられると、ユーザの不快感が増長される可能性があ
る。逆に、１回目と２回目のトークバックの表現を変え
ることにより、ユーザの不快感を軽減できる。

【００３８】そこで、Ｓ４４では、変形パターンの表現
を用いてトークバックが行われる。信号処理制御部３０
は、Ｓ３０と同様に認識された音声の内容を反復するメ
ッセージの生成を音声合成部４０に指示する。ただし、
Ｓ３０と異なり、メッセージ記憶部４２に記憶されてい
る変形パターンのメッセージデータを音声合成に使うこ
とが指示される。トークバック音声は、スピーカ２０か
ら出力される。

【００３９】変形パターンの表現は、基本パターンの表
現とは実質的に異なっていなければならない。単に言葉
尻のみが違うような表現は、本実施形態の変形パターン
としての役割を果たさない。基本パターンの表現を聞い
たときと、変形パターンの表現を聞いたときとで、実際
にユーザが異なる印象を受ける必要がある。

【００４０】変形パターンの具体例を、基本パターンと
対比して説明する。ここでは、図３のＳ１４に示される
「県名」の入力中であるとする。そして、ユーザが音声
「岡山県（おかやまけん）」を発声したのに、音声認識
部３６が誤って「和歌山県（わかやまけん）」を認識し
たとする。

【００４１】［変形パターン（１）：言い方を変える］トークバック１回目（基本）：「和歌山県を認識しまし
た。」トークバック２回目（変形）：「また、和歌山県を認識
してしまいました。」［変形パターン（２）：謝罪する］１回目（基本）：「和歌山県を認識しました。」２回目（変形）：「どうもすみません。また和歌山県で
す。」［変形パターン（３）：ユーモアを交える］１回目（基本）：「和歌山県を認識しました。」２回目（変形）：「前と同じ和歌山県を認識してもう
た。」変形パターン（２）には謝罪表現が用いられており、従
って、ユーザの不快感を軽減する上で大きな効果が得ら
れる。また、変形パターン（３）では、ユーモアを交え
ることによりユーザを笑わせて、これによりユーザの腹
立たしさを軽減しなごませることができる。変形パター
ン（３）では、イントネーションを変えることが好適で
ある（上記の例では、標準語から関西弁へ）。また例え
ば、標準語を幼児語に変えることも好適である。

【００４２】ユーザは、上記の３つの変形パターンの中
から好きなものを選択できる。ユーザは、図１の操作ス
イッチ１６を操作してパターンを選ぶ。スイッチ操作に
対応するモード設定が行われ、以降、選択された変形パ
ターンが使用される。

【００４３】また、本実施形態では、それぞれの変形パ
ターンに、幾つかの表現のバリエーションが準備されて
いる。変形パターンごとに、複数種類のメッセージデー
タがメッセージ記憶部４２に記憶されている。複数のバ
リエーションの表現は、順番に使われ、あるいは、アト
ランダムに適用される。適宜表現が変わることにより、
表現が単調であるとの印象をユーザに与えることが回避
され、一層効果的にユーザの不快感を軽減できる。

【００４４】さらに、変形パターン（１）〜（３）の表
現を、順番に、あるいはアトランダムに使うことも好適
である。このモード設定は、ユーザのスイッチ装置に従
って行われる。このモードでは表現が大きく変わるの
で、さらに一層効果的にユーザの不快感を軽減できると
考えられる。

【００４５】図４に戻り、Ｓ４４でトークバック音声が
出力されると、ユーザは、トークバック音声を聞き、自
分の発声した音声が正しく認識されたか否かを判断す
る。ここでも、判断結果は、ユーザがトリガースイッチ
１６ａを押すか否かによって分かる（Ｓ４６）。トリガ
ースイッチ１６ａが押されなければ、２回目の認識結果
は正しいと分かる。そこで、最終的な認識結果がナビゲ
ーションＥＣＵ１２へ出力され（Ｓ６０）、処理が終了
する。

【００４６】しかしながら、通常の場合、Ｓ４６ではト
リガースイッチ１６ａが押される。１回目にはトリガー
スイッチ１６ａが押されており、かつ、１回目と２回目
の認識結果が同じだからである。この場合、信号処理制
御部３０の指示により、音声合成部４０は、もう一度、
再発声要求の合成音声を生成する（Ｓ４８）。合成音声
は、メッセージ記憶部４２に記憶されているメッセージ
データを使って生成される。前述のＳ３４と異なり、こ
こでは変形パターン用のメッセージデータが使われる。
これにより、変形パターンの表現を用いた再発声要求が
生成される。再発声要求の合成音声およびビープ音がス
ピーカ２０から出力される（Ｓ４８）。Ｓ２２に戻り、
ユーザは、再発声要求に応えて再び音声を発声する。

【００４７】基本パターンと変形パターンの再発声要求
メッセージを対比して例示する。ここでも、県名を入力
するケースを例に取り上げる。；再発声要求１回目（基本パターン）：「もう一度県名を
どうぞ。」再発声要求２回目（変形パターン）：「前回と同じ認識
結果です。少し言い方を変えてみてください」。

【００４８】次に、Ｓ４０での判断がＮＯのときの処理
を説明する。この場合、信号処理制御部３０は、Ｓ２２
での発声・入力がこのサブルーチンにおける１回目およ
び２回目の発声・入力でないと判断している。この判断
結果は、１回目および２回目とも誤認識が発生し、ユー
ザにより３回目の発声・入力が行われたことを意味す
る。なお、Ｓ４０の判断は、Ｓ４６でのトリガースイッ
チ操作がすでに行われたか否かによっても可能である。
３回目に入力された音声の認識結果もＳ２６で信号処理
制御部３０により記憶されている。

【００４９】Ｓ４０がＮＯの場合、Ｓ５０へ進み、信号
処理制御部３０は、２回目と３回目の入力信号を認識し
た結果を比較し、両者が同じか否かを判定する。３回目
で音声が正しく認識されれば、Ｓ５０の判断はＮＯであ
る。比較結果が異なる場合は、前述のＳ３０へ進み、基
本パターンの表現でトークバックが行われる。

【００５０】Ｓ５０の判断がＹＥＳのとき、すなわち、
２回目と３回目の認識結果が同じであるときは、Ｓ５２
へ進む。この場合、２回目の認識結果は誤っていること
が分かっている。従って、３回目の認識結果も誤ってい
ることは明らかである。これ以上、誤認識を繰り返すこ
とは好ましくない。信号処理制御部３０は、これまでの
認識結果をナビゲーションＥＣＵ１２へ出力する。

【００５１】ナビゲーションＥＣＵ１２は、入力された
認識結果を基に、正しい音声の候補を決める。前出の
「県名」を例に説明すると、「和歌山県」は誤りである
ことが分かっている。そこで、ナビゲーションＥＣＵ１
２により「和歌山県」と混同されそうな県名、すなわ
ち、音声認識処理の観点から「和歌山県」と類似した県
名が選択される。正しい県名「岡山県」も、候補の中に
含まれる。選択された候補のリストが、図１のディスプ
レイ１８に表示される（Ｓ５２）。このとき、好ましく
は、リストから一つの候補を選択することを促す音声案
内がスピーカ２０から出力される。この音声案内は、音
声認識装置１４の音声合成部４０により、ナビゲーショ
ンＥＣＵ１２の指示に従って生成される。ユーザは、音
声案内に従い、操作スイッチ１６を手動で操作して、所
望の候補を選択する（Ｓ５４）。このような処理が行わ
れるので、４回以上続けて同じ内容の音声の発声がユー
ザに要求されることはない。

【００５２】以上、本実施形態の音声認識装置を説明し
た。上記のように、本実施形態では、信号処理制御部３
０が、音声認識結果を一時的に記憶する記憶手段として
機能する。また、信号処理制御部３０は、記憶している
以前の認識結果と、再発声の音声の認識結果とを比較照
合する照合手段として機能する。さらに、信号処理制御
部３０は、認識結果の合成音声の出力（トークバック）
を制御する出力制御手段として機能する。そして、再発
声音声の認識結果が前の認識結果と同一である場合に
は、再発声音声の認識結果のトークバックに、前回のト
ークバックと異なる表現が使われる。従って、１回目と
２回目のトークバックの表現が変わる。

【００５３】本実施形態の効果を従来技術と比較して説
明する。従来は、図５に示すように、何回も連続して同
じ表現でトークバックが行われた。図５において、Ｓ２
０〜Ｓ２４のステップでは図４と同様の処理が行われ
る。Ｓ７０では、Ｓ２２の入力が何回行われたかに関係
なく同じ表現でトークバックが行われる。次に、ユーザ
によりトリガースイッチ１６ａが押されたか否かが判断
され（Ｓ７２）、押されなければ認識結果をナビゲーシ
ョンＥＣＵ１２に出力する（Ｓ７４）。トリガースイッ
チ１６ａが押された場合、今回のスイッチ操作が１回目
または２回目であるか否かを判定する（Ｓ７６）。ＹＥ
ＳであればＳ２０に戻る。従って、前回と同じ表現で発
声要求が出力される。Ｓ７６がＮＯであれば、すでに３
回のスイッチ操作が行われている。そこで、これ以上の
誤認識を避けるため、図４と同様に、候補リストが表示
され（Ｓ５２）、リストから一つの候補が選択される
（Ｓ５４）。

【００５４】このように、従来は、２回続けて同じ表現
で誤った認識結果が出力された。そのため、ユーザが強
い不快感を受ける可能性があった。本実施形態によれ
ば、連続して誤った認識が生じた場合でも、前の認識結
果と後の認識結果の出力に異なる表現が用いられる。こ
れにより、ユーザの腹立たしさや苛立たしさが和らげら
れ、不快感を軽減することができる。

【００５５】特に、ナビゲーション装置のような車載機
器に音声認識装置を設けることにより、運転者は、運転
に集中しながら車載機器を容易に操作できる。また、車
室内の狭いスペースや手動操作が困難なスペースに機器
が納められている場合にも、機器の操作性が確保され
る。このような車両用の音声認識装置の利点が、本発明
を適用することで、より一層好適に発揮される。

【００５６】また、前述のように、音声認識装置には、
登録された特定のユーザの音声を認識するタイプと、不
特定のユーザの音声を認識するタイプがある。一般に、
後者の方が便利である反面、誤認識の確率が大きい。し
かし、音声認識装置の普及とともに、便利さが要求さ
れ、後者の不特定タイプへのニーズが強まっている。こ
のような背景がある中で、本発明を適用することによ
り、音声認識装置が、誤認識の発生に対して好適に対処
してユーザの不快感をできるだけ抑えることができる。

【００５７】以下、本実施形態の変形例を説明する。

【００５８】（１）本実施形態では、トークバックによ
り、ユーザの音声の内容を反復する合成音声が出力され
る。このトークバックは、下記に説明するように、次の
発声要求と同時に行われることも好適である。図６は、
トークバックの際に出力される好適な合成音声を示して
いる。図６には、前述の図３の各ステップで実際に入出
力される音声が示されている。

【００５９】図６において、Ｓ１０では、まず音声認識
装置から発声要求として合成音声「コマンドを発声して
下さい」が出力される。ユーザは、音声「目的地」を入
力する。そして、トークバックにより、合成音声「『目
的地』の設定方法をどうぞ」が出力される。このメッセ
ージは、認識結果が「目的地」であることを示してい
る。さらに、このメッセージは、次に設定方法を入力す
ることを要求している。従って、上記のメッセージは、
トークバックと次の発声要求という２つの役割をもつ。
このようなメッセージを出力することにより、Ｓ１０の
処理におけるトークバックの出力と、次のＳ１２の処理
における発声要求の出力とが一度に行われる。認識結果
（目的地）が正しければ、ユーザは次の音声を発声す
る。認識結果が誤りである場合、ユーザはトリガースイ
ッチを押す。そして、図４で説明したスイッチ操作に対
応する処理が行われる。

【００６０】なお、このようなメッセージは、基本パタ
ーンの表現を用いる１回目のトークバック（図４、Ｓ３
０）に適用される。

【００６１】また図６において、Ｓ１２では、ユーザが
音声「住所」を入力する。そして、合成音声「県名をど
うぞ」が、トークバック兼発声要求として出力される。
このメッセージには、認識結果である住所そのものは含
まれていない。しかし、「県名」が含まれているので、
このメッセージは、「住所」が認識されたことを前提と
して作られている。このメッセージを聞いたユーザは、
「住所」が認識されたことが分かる。従って、このメッ
セージは、認識結果を反復するメッセージと同等であ
る。このように、本発明における「認識結果の出力」
は、認識結果が分かる出力であればよく、出力内容に認
識結果そのものが必ずしも含まれる必要はない。

【００６２】さらに図６において、Ｓ１４では、ユーザ
が音声「××県」を入力する。そして、トークバックに
より、合成音声「××県の市区町村名をどうぞ」が出力
される。ここでも、メッセージに認識結果「××県」と
発声要求「市区町村名をどうぞ」が含まれている。前述
の具体例の誤認識（岡山県と和歌山県）が生じた場合に
は、「和歌山県の市区町村名をどうぞ」が出力される。

【００６３】以上のようなトークバック兼発声要求のメ
ッセージを適宜利用することにより、音声認識装置を使
った入力作業を一層円滑かつ迅速に進めることができ
る。

【００６４】（２）本実施形態では、トークバックの回
数が２回に設定されている。３回目のトークバックは行
われず、代わりに候補リストが表示される（図４、Ｓ５
２）。しかし、トークバックの回数は２回に限定され
ず、３回以上のトークバックが行われてもよい。この場
合、順次、トークバックの表現を変えることが好まし
い。

【００６５】さらに、本実施形態では１回目と２回目の
トークバックの表現が変更された。しかし、本発明はこ
のような構成に限定されない。例えば、１回目と２回目
のトークバックの表現は同じであり、３回目のトークバ
ックの表現が変更されてもよい。

【００６６】（３）本実施形態では、トークバック機能
により、音声の認識結果が合成音声というかたちでユー
ザに提示された。しかし、本発明はこのような構成に限
定されず、例えば、認識結果が文字などを用いてディス
プレイ表示されてもよい。

【００６７】（４）本実施形態では、音声認識処理自体
には、任意の手法の処理を適用可能である。また、図２
に示した音声認識装置の構成も、本発明の範囲内で変形
可能である。音響処理部３２や音声認識部３６、音声合
成部４０などの構成が、ＣＰＵたる信号処理制御部３０
に組み込まれてもよい。この場合、これらの構成はソフ
トウエアというかたちで実現される。

【００６８】（５）本実施形態では、音声認識装置が、
県名などの単語を認識した。単語を一度に認識すること
により、音声入力がユーザにとって容易である反面、誤
認識の確率が大きくなる。しかし、本発明を適用するこ
とにより、誤認識に対する効果的な対処が可能となる。
ただし、本発明は、単語を認識する認識装置には限定さ
れない。文字、記号、数字などの音声を認識する装置に
も本発明が好適に適用される。

【００６９】（６）前述のように、本発明の音声認識装
置は、不特定のユーザの音声を認識するタイプの装置に
適している。しかし、本発明はこのような構成に限定さ
れず、例えば、登録された特定のユーザの音声を認識す
るタイプの装置にも好適に本発明を適用可能である。

【００７０】（７）前述のように、本発明の音声認識装
置は、車両用ナビゲーション装置に適している。しか
し、本発明はこのような構成に限定されず、その他の任
意の種類の装置（車両以外を含む）に本発明の音声認識
装置を設けることができる。

【図面の簡単な説明】

【図１】本発明の実施形態のナビゲーション装置の全
体構成を示すブロック図である。

【図２】図１のナビゲーション装置の音声認識装置の
構成を示すブロック図である。

【図３】音声認識の全体的な処理を示すフローチャー
トである。

【図４】図３の各段階での音声認識の詳細な処理を示
すフローチャートである。

【図５】従来の音声認識処理を図４と比較して示すフ
ローチャートである。

【図６】本発明の実施形態の変形例にてトークバック
される合成音声を示す図である。。

【符号の説明】

１０ナビゲーション装置、１２ナビゲーションＥＣ
Ｕ、１４音声認識装置、１６ａトリガースイッチ、
１８ディスプレイ、２０スピーカ、３０信号処理制
御部、３２音響処理部、３４マイク、３６音声認
識部、４０音声合成部。

Claims

【特許請求の範囲】

【請求項１】ユーザの発声した音声を入力する入力手
段と、入力された音声を認識する認識手段と、認識手段による認識結果の正否をユーザに確認するため
に、認識結果を出力してユーザに知らせる出力手段と、を含み、認識結果に誤りがあるとユーザが判断したとき
にユーザによる再発声音声が入力される音声認識装置に
おいて、前記再発声音声の認識結果が前の認識結果と同一である
場合に、前の認識結果の出力時とは実質的に異なる表現
を用いて、前記再発声音声の認識結果を出力することを
特徴とする音声認識装置。
【請求項２】請求項１に記載の装置において、前記出力手段は音声合成装置を含み、認識結果を示す合
成音声を出力することを特徴とする音声認識装置。
【請求項３】請求項１または２のいずれかに記載の装
置において、前記再発声音声の認識結果の出力には、謝罪表現が用い
られることを特徴とする音声認識装置。
【請求項４】請求項１〜３のいずれかに記載の装置に
おいて、前記再発声音声の認識結果の出力に用いる表現を、所定
の複数種類の表現の中から選択する選択手段を有するこ
とを特徴とする音声認識装置。
【請求項５】請求項１〜４のいずれかに記載の装置に
おいて、前記出力手段からはさらにユーザに音声の発声を促す発
声要求が出力され、前記再発声音声の認識結果の出力後に発声要求を出力す
るときには、前の発声要求と異なる表現が用いられるこ
とを特徴とする音声認識装置。