JPH11249690A

JPH11249690A - 音声認識装置及び音声認識方法

Info

Publication number: JPH11249690A
Application number: JP10055599A
Authority: JP
Inventors: Shusuke Yamazaki; 秀典山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1998-03-06
Filing date: 1998-03-06
Publication date: 1999-09-17

Abstract

(57)【要約】【課題】搭乗者の発話内容が正しく認識されず、発話
内容の再認識が要求された場合、最初の認識処理の場合
と同様に、音声認識部２１の認識結果にテキストデータ
（定型メッセージ）が付加された冗長的な音声メッセー
ジが出力されるため、いち早く正しい認識を望む搭乗者
に煩わしさを与えるという課題があった。【解決手段】搭乗者から発話内容の再認識が要求され
た場合、パラメータ生成部５７におけるテキストデータ
の合成処理を禁止するようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、例えば、移動体
の搭乗者の発話内容を認識し、その発話内容をナビゲー
ション装置等の操作条件とする音声認識装置及び音声認
識方法に関するものである。

【０００２】

【従来の技術】図１６は従来の音声認識装置を示す構成
図であり、図において、１は例えば自動車等の移動体に
搭載され、搭乗者の発話内容を認識する音声認識装置、
２は音声認識装置１により認識された発話内容（認識結
果情報）に基づいて地図情報等を選択するナビゲーショ
ン装置、３はナビゲーション装置２により選択された地
図情報等を表示する表示装置である。

【０００３】また、４は搭乗者がナビゲーション装置２
から地図情報等の提示を受ける際、音声認識の開始を指
示するとともに、発話内容の再認識を指示する発話スイ
ッチであり、搭乗者が発話スイッチ４を操作すると操作
信号を出力する。５は搭乗者から発声された音声を音響
／電磁変換し、音声信号を出力するマイクロフォン、６
はマイクロフォン５から出力された音声信号の信号レベ
ルを所定の信号レベルまで増幅するマイクアンプ、７は
マイクアンプ６により増幅された音声信号における高周
波（サンプリング周波数帯域の上限周波数以上の高周
波）の信号レベルをエリアシングが発生しないレベルま
で減衰するローパスフィルタ、８は音声信号をアナログ
／ディジタル変換するＡ／Ｄコンバータである。

【０００４】また、９は発話スイッチ４から操作信号が
出力されたのち、Ａ／Ｄコンバータ８からディジタル信
号に変換された音声信号が出力されると、その音声信号
の特徴を解析して搭乗者の発話内容を認識するととも
に、その発話内容にテキストデータ（定型メッセージ）
を合成して、その合成結果（音声合成信号）を出力する
音声認識ユニット、１０はマイクロコンピュータ又はデ
ィジタルシグナルプロセッサ等のプロセッサ、１１は標
準音声パターン及びテキストデータを格納するメモリ、
１２は音声認識ユニット９から出力された音声合成信号
をディジタル／アナログ変換するＤ／Ａコンバータ、１
３はローパスフィルタ、１４は音声合成信号を増幅する
スピーカアンプ、１５は音声合成信号を電磁／音響変換
して、その変換結果を音声出力するスピーカである。

【０００５】図１７は音声認識ユニット９の詳細構成を
示す構成図であり、図において、２０は発話スイッチ４
から操作信号が出力されると、音声認識信号を出力する
制御部、２１はプロセッサ１０の音声認識部、２２はプ
ロセッサ１０のテキスト音声合成部、２３は音声信号の
信号レベルを監視して、その信号レベルが設定レベルを
上回った時点を音声の開始端とする一方、設定レベルを
下回った時点を音声の終端とし、音声信号期間を切り出
す音声レベル判別部、２４は音声レベル判別部２３から
出力された音声信号をディジタル信号処理（スペクトラ
ム分析演算，ケプストラム生成演算，ベクトル量子化演
算等）して、音声信号の特徴を解析し、音声特徴パラメ
ータを出力する音声分析部、２５は音声分析部２４から
出力された音声特徴パラメータと標準音声パターン間の
パターンマッチング演算（隠れマルコフモデルやニュー
ラルネットワーク等を用いたパターンマッチング演算）
を実行し、最も類似度の高い標準音声パターンを認識結
果情報として出力するパターンマッチング部である。

【０００６】また、２６はパターンマッチング部２５か
ら出力された認識結果情報及びテキストデータをテキス
ト解析して、音韻パラメータ（図示せず）と対応付けを
実施し、音声合成パラメータを生成するパラメータ生成
部、２７はパラメータ生成部２６により生成された音声
合成パラメータを音声波形データ（図示せず）と関連付
けて音声合成波形を生成し、その音声合成波形を音声合
成信号として出力する音声合成部、２８は標準音声パタ
ーンを格納するメモリ領域、２９はテキストデータを格
納するメモリ領域である。なお、図１８は従来の音声認
識装置の動作を示すフローチャートである。

【０００７】次に動作について説明する。まず、搭乗者
がナビゲーション装置２から地図情報等の提示を受ける
に際し、搭乗者が発話スイッチ４を操作すると、発話ス
イッチ４から音声認識の開始を指示する操作信号がプロ
セッサ１０の制御部２０に出力される（ステップＳＴ
１）。

【０００８】これにより、制御部２０が音声認識信号を
音声レベル判別部２３及び音声合成部２７に出力し、プ
ロセッサ１０の全体が停止状態から動作状態（音声認識
可能状態）に移行するが（ステップＳＴ２）、制御部２
０から音声認識信号が出力されると、最初に、プロセッ
サ１０の音声合成部２７が、メモリ１１に格納されてい
るテキストデータのうち、“音声コマンドをお話下さ
い”を選択するとともに、そのテキストデータを音声合
成信号として出力する。これにより、スピーカ１５から
“音声コマンドをお話下さい”を内容とするメッセージ
が音声出力される（図１９のＫ１を参照）。

【０００９】そして、スピーカ１５から“音声コマンド
をお話下さい”というメッセージが出力されたのち、搭
乗者がマクロフォン５に向かって発声すると、マイクロ
フォン５が、搭乗者から発声された音声を音響／電磁変
換し、音声信号を出力する（ステップＳＴ３）。搭乗者
の発話内容が、例えば、“住所”である場合には、“住
所”を発話内容とする音声信号がローパスフィルタ７等
を通じてプロセッサ１０の音声レベル判別部２３に入力
され（図１９のＨ１を参照）、以下に示す音声認識処理
が開始される（ステップＳＴ４）。

【００１０】即ち、音声レベル判別部２３は、制御部２
０から音声認識信号が出力されると、Ａ／Ｄコンバータ
８から出力される音声信号の信号レベルを監視して、そ
の信号レベルが設定レベルを上回った時点を音声の開始
端とする一方、設定レベルを下回った時点を音声の終端
とし、音声信号期間を切り出す処理を実行する。

【００１１】そして、音声レベル判別部２３から音声信
号が出力されると、音声分析部２４が、その音声信号を
ディジタル信号処理（スペクトラム分析演算，ケプスト
ラム生成演算，ベクトル量子化演算等）して、音声信号
の特徴を解析し、音声特徴パラメータを出力する。具体
的には、音声分析部２４が“住所”を発話内容とする音
声信号の特徴を解析する。

【００１２】そして、音声分析部２４から音声特徴パラ
メータが出力されると、パターンマッチング部２５が、
その音声特徴パラメータと標準音声パターン間のパター
ンマッチング演算（隠れマルコフモデルやニューラルネ
ットワーク等を用いたパターンマッチング演算）を実行
し、最も類似度の高い標準音声パターンを認識結果情報
として出力する。ここでは、説明の便宜上、搭乗者の発
話内容が正しく認識され、“住所”を内容とする標準音
声パターンが認識結果情報として出力されたものとす
る。

【００１３】このようにして、パターンマッチング部２
５から認識結果情報が出力されると、パラメータ生成部
２６が、その認識結果情報に関連するテキストデータを
メモリ１１のメモリ領域２９から取得する。具体的に
は、“住所”に関連するテキストデータとして、“名を
お話下さい”がメモリ１１のメモリ領域２９に格納され
ているので、“名をお話下さい”をメモリ１１のメモリ
領域２９から取得する。そして、パラメータ生成部２６
は、その認識結果情報に関連するテキストデータを取得
すると、その認識結果情報及びテキストデータをテキス
ト解析して、音韻パラメータ（図示せず）と対応付けを
実施し、音声合成パラメータを生成する。なお、ここで
は、認識結果情報とメッセージを合成するものについて
示したが、音声コマンドの認識処理においては、認識結
果情報とメッセージを合成する処理は実施せず、認識結
果情報に関連するテキストデータ（例えば、“住所名を
お話下さい”）を取得すると、そのテキストデータの音
声合成パラメータを生成するようにしてもよい。

【００１４】そして、パラメータ生成部２６から音声合
成パラメータが出力されると、音声合成部２７が、その
音声合成パラメータを音声波形データ（図示せず）と関
連付けて音声合成波形を生成し、その音声合成波形を音
声合成信号として出力する（ステップＳＴ５）。これに
より、スピーカ１５から“住所名をお話下さい”を内容
とするメッセージが音声出力される（図１９のＫ２を参
照）。ここで、“住所”が認識結果であり、“名をお話
下さい”が付加されたメッセージである。

【００１５】そして、スピーカ１５から“住所名をお話
下さい”というメッセージが出力されたのち、搭乗者が
マクロフォン５に向かって発声すると、上記と同様に、
マイクロフォン５が、搭乗者から発声された音声を音響
／電磁変換し、音声信号を出力する（ステップＳＴ
３）。搭乗者の発話内容が、例えば、“東京都千代田区
丸の内一丁目”である場合には、“東京都千代田区丸の
内一丁目”を発話内容とする音声信号がローパスフィル
タ７等を通じてプロセッサ１０の音声レベル判別部２３
に入力され（図１９のＨ２を参照）、音声認識処理が開
始される（ステップＳＴ４）。

【００１６】そして、プロセッサ１０が上記と同様の音
声認識処理を実施した結果、図１９のＫ３に示すよう
に、スピーカ１５から“東京都千代田区丸の内一丁目付
近を表示します”を内容とするメッセージが音声出力さ
れた場合には（“東京都千代田区丸の内一丁目”が認識
結果であり、“付近を表示します”が付加されたメッセ
ージ）、搭乗者の発話内容が正しく認識されているの
で、発話スイッチ４が操作されることはなく（発話内容
の再認識が要求されない）、一定時間経過後に、プロセ
ッサ１０の認識結果が確定する（ステップＳＴ６，ＳＴ
７，ＳＴ８）。これにより、“東京都千代田区丸の内一
丁目”が認識結果として、ナビゲーション装置２に出力
され、ナビゲーション装置２は、東京都千代田区丸の内
一丁目付近の地図情報を表示装置３に表示し、一連の処
理を終了する。

【００１７】一方、図２０のＫ４に示すように、スピー
カ１５から“東京都千代田区神田一丁目付近を表示しま
す”を内容とするメッセージが音声出力された場合には
（“東京都千代田区神田一丁目”が認識結果であり、
“付近を表示します”が付加されたメッセージ）、搭乗
者の発話内容が正しく認識されていないので、一定時間
を経過する前に、発話スイッチ４が操作されて、発話内
容の再認識が要求されると、プロセッサ１０が音声認識
処理を再開する（ステップＳＴ６，ＳＴ７）。

【００１８】これにより、プロセッサ１０が上記と同様
の音声認識処理を再開するが、再認識処理の場合、図２
０のＫ５に示すように、最初にスピーカ１５から“もう
一度お話下さい”を内容とするメッセージが音声出力さ
れたのち、搭乗者が“東京都千代田区丸の内一丁目”を
発話すると、その発話内容が認識される。そして、その
発話内容が正しく認識された場合には、“東京都千代田
区丸の内一丁目付近を表示します”を内容とするメッセ
ージが音声出力されるが、正しく認識されない場合に
は、例えば、図２０のＫ６のように、“東京都千代田区
神田一丁目付近を表示します”を内容とするメッセージ
が音声出力される。

【００１９】

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、搭乗者の発話内容が
正しく認識される場合には、ナビゲーション装置等の操
作をする上で搭乗者の操作負担が軽減され、運転に専念
することができるが、搭乗者の発話内容が正しく認識さ
れず、発話内容の再認識が要求された場合、最初の認識
処理の場合と同様に、音声認識部２１の認識結果にテキ
ストデータ（定型メッセージ）が付加された冗長的な音
声メッセージが出力されるため、いち早く正しい認識を
望む搭乗者に煩わしさを与えることになり、その結果、
搭乗者の心理的負担が増大し、引いては安全走行を損な
う場合があるという課題があった。

【００２０】この発明は上記のような課題を解決するた
めになされたもので、発話内容の再認識が要求された場
合には、音声メッセージを簡略化することができる音声
認識装置及び音声認識方法を得ることを目的とする。

【００２１】

【課題を解決するための手段】この発明に係る音声認識
装置は、要求手段から発話内容の再認識が要求された場
合、音声合成手段における定型メッセージの合成処理を
禁止するようにしたものである。

【００２２】この発明に係る音声認識装置は、要求手段
から発話内容の再認識が要求された場合、音声出力手段
の発声速度を変更するようにしたものである。

【００２３】この発明に係る音声認識装置は、要求手段
から発話内容の再認識が要求された場合、音声合成手段
における定型メッセージの合成処理を禁止するととも
に、その音声出力手段の発声速度を変更するようにした
ものである。

【００２４】この発明に係る音声認識装置は、要求手段
から発話内容の再認識が要求された場合、音声合成手段
から出力される発声内容を変更するようにしたものであ
る。

【００２５】この発明に係る音声認識装置は、音声合成
手段の発声速度を上げるようにしたものである。

【００２６】この発明に係る音声認識装置は、音声合成
手段が定型メッセージを音声出力する際の発声速度を上
げるようにしたものである。

【００２７】この発明に係る音声認識装置は、音声認識
手段により前回認識された発話内容と、その音声認識手
段により再認識された発話内容を比較し、発話内容に重
複部分がある場合には、音声合成手段が重複部分の一部
を音声出力する際の発声速度を上げるようにしたもので
ある。

【００２８】この発明に係る音声認識装置は、音声認識
手段により前回認識された発話内容と、その音声認識手
段により再認識された発話内容を比較し、発話内容が一
致する場合には、音声合成手段から所定のメッセージを
音声出力させるようにしたものである。

【００２９】この発明に係る音声認識装置は、発話内容
の再認識の要求回数が設定値に到達すると、発話内容の
再認識の要求を無効にするようにしたものである。

【００３０】この発明に係る音声認識方法は、発話内容
の再認識が要求された場合、音声合成ステップにおける
定型メッセージの合成処理を禁止するようにしたもので
ある。

【００３１】この発明に係る音声認識方法は、発話内容
の再認識が要求された場合、音声合成ステップの発声速
度を変更するようにしたものである。

【００３２】この発明に係る音声認識方法は、発話内容
の再認識が要求された場合、音声合成ステップにおける
定型メッセージの合成処理を禁止するとともに、その音
声合成ステップの発声速度を変更するようにしたもので
ある。

【００３３】この発明に係る音声認識方法は、発話内容
の再認識が要求された場合、音声合成ステップから出力
される発声内容を変更するようにしたものである。

【００３４】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識装置を示す構成図であり、図において、３１は例
えば自動車等の移動体に搭載され、搭乗者（使用者）の
発話内容を認識する音声認識装置、３２は音声認識装置
３１により認識された発話内容（認識結果情報）に基づ
いて地図情報等を選択するナビゲーション装置、３３は
ナビゲーション装置３２により選択された地図情報等を
表示する表示装置である。

【００３５】また、３４は搭乗者がナビゲーション装置
３２から地図情報等の提示を受ける際、音声認識の開始
を指示するとともに、発話内容の再認識を指示する発話
スイッチ（要求手段）であり、搭乗者が発話スイッチ３
４を操作すると操作信号を出力する。３５は搭乗者から
発声された音声を音響／電磁変換し、音声信号を出力す
るマイクロフォン、３６はマイクロフォン３５から出力
された音声信号の信号レベルを所定の信号レベルまで増
幅するマイクアンプ、３７はマイクアンプ３６により増
幅された音声信号における高周波（サンプリング周波数
帯域の上限周波数以上の高周波）の信号レベルをエリア
シングが発生しないレベルまで減衰するローパスフィル
タ、３８は音声信号をアナログ／ディジタル変換するＡ
／Ｄコンバータである。

【００３６】また、３９は発話スイッチ３４から操作信
号が出力されたのち、Ａ／Ｄコンバータ３８からディジ
タル信号に変換された音声信号が出力されると、その音
声信号の特徴を解析して搭乗者の発話内容を認識すると
ともに、その発話内容にテキストデータ（定型メッセー
ジ）を合成して、その合成結果（音声合成信号）を出力
する音声認識ユニット、４０はマイクロコンピュータ又
はディジタルシグナルプロセッサ等のプロセッサ、４１
は標準音声パターン及びテキストデータを格納するメモ
リ、４２は音声認識ユニット３９から出力された音声合
成信号をディジタル／アナログ変換するＤ／Ａコンバー
タ、４３はローパスフィルタ、４４は音声合成信号を増
幅するスピーカアンプ、４５は音声合成信号を電磁／音
響変換して、その変換結果を音声出力するスピーカであ
る。

【００３７】図２は音声認識ユニット３９の詳細構成を
示す構成図であり、図において、５１は発話スイッチ３
４から操作信号が出力されると、音声認識信号及び再認
識信号を出力する制御部（要求手段）、５２はプロセッ
サ４０の音声認識部、５３はプロセッサ４０のテキスト
音声合成部、５４は音声信号の信号レベルを監視して、
その信号レベルが設定レベルを上回った時点を音声の開
始端とする一方、設定レベルを下回った時点を音声の終
端とし、音声信号期間を切り出す音声レベル判別部（音
声認識手段）、５５は音声レベル判別部５４から出力さ
れた音声信号をディジタル信号処理（スペクトラム分析
演算，ケプストラム生成演算，ベクトル量子化演算等）
して、音声信号の特徴を解析し、音声特徴パラメータを
出力する音声分析部（音声認識手段）、５６は音声分析
部５５から出力された音声特徴パラメータと標準音声パ
ターン間のパターンマッチング演算（隠れマルコフモデ
ルやニューラルネットワーク等を用いたパターンマッチ
ング演算）を実行し、最も類似度の高い標準音声パター
ンを認識結果情報として出力するパターンマッチング部
（音声認識手段）である。

【００３８】また、５７はパターンマッチング部５６か
ら出力された認識結果情報及びテキストデータをテキス
ト解析して、音韻パラメータ（図示せず）と対応付けを
実施し、音声合成パラメータを生成する一方、応答音声
制御部５９から応答制御信号が出力されると、その認識
結果にテキストデータを合成せずに音声合成パラメータ
を生成するパラメータ生成部（音声合成手段）、５８は
パラメータ生成部５７により生成された音声合成パラメ
ータを音声波形データ（図示せず）と関連付けて音声合
成波形を生成し、その音声合成波形を音声合成信号とし
て出力する音声合成部（音声合成手段）、５９は制御部
５１から再認識信号が出力されると、応答制御信号をパ
ラメータ生成部５７に出力して、再入力フラグに“１”
を格納する応答音声制御部（音声制御手段）、６０は標
準音声パターンを格納するメモリ領域、６１はテキスト
データを格納するメモリ領域である。なお、図３はこの
発明の実施の形態１による音声認識方法を示すフローチ
ャートである。

【００３９】次に動作について説明する。まず、搭乗者
がナビゲーション装置３２から地図情報等の提示を受け
るに際し、搭乗者が発話スイッチ３４を操作すると、発
話スイッチ３４から音声認識の開始を指示する操作信号
がプロセッサ４０の制御部５１に出力される（ステップ
ＳＴ１２）。なお、発話内容の認識要求が再認識に係る
処理であるか否かを示す再入力フラグには予め“０”が
格納されている（ステップＳＴ１１）。

【００４０】これにより、制御部５１が音声認識信号を
音声レベル判別部５４及び音声合成部５８に出力し、プ
ロセッサ４０の全体が停止状態から動作状態（音声認識
可能状態）に移行するが（ステップＳＴ１３）、制御部
５１から音声認識信号が出力されると、最初に、プロセ
ッサ４０の音声合成部５８が、メモリ４１に格納されて
いるテキストデータのうち、“音声コマンドをお話下さ
い”を選択するとともに、そのテキストデータを音声合
成信号として出力する。これにより、スピーカ４５から
“音声コマンドをお話下さい”を内容とするメッセージ
が音声出力される（図４のＫ１１を参照）。

【００４１】そして、スピーカ４５から“音声コマンド
をお話下さい”というメッセージが出力されたのち、搭
乗者がマクロフォン３５に向かって発声すると、マイク
ロフォン３５が、搭乗者から発声された音声を音響／電
磁変換し、音声信号を出力する（ステップＳＴ１４）。
搭乗者の発話内容が、例えば、“住所”である場合に
は、“住所”を発話内容とする音声信号がローパスフィ
ルタ３７等を通じてプロセッサ４０の音声レベル判別部
５４に入力され（図４のＨ１１を参照）、以下に示す音
声認識処理が開始される（ステップＳＴ１５）。

【００４２】即ち、音声レベル判別部５４は、制御部５
１から音声認識信号が出力されると、Ａ／Ｄコンバータ
３８から出力される音声信号の信号レベルを監視して、
その信号レベルが設定レベルを上回った時点を音声の開
始端とする一方、設定レベルを下回った時点を音声の終
端とし、音声信号期間を切り出す処理を実行する。

【００４３】そして、音声レベル判別部５４から音声信
号が出力されると、音声分析部５５が、その音声信号を
ディジタル信号処理（スペクトラム分析演算，ケプスト
ラム生成演算，ベクトル量子化演算等）して、音声信号
の特徴を解析し、音声特徴パラメータを出力する。具体
的には、音声分析部５５が“住所”を発話内容とする音
声信号の特徴を解析する。

【００４４】そして、音声分析部５５から音声特徴パラ
メータが出力されると、パターンマッチング部５６が、
その音声特徴パラメータと標準音声パターン間のパター
ンマッチング演算（隠れマルコフモデルやニューラルネ
ットワーク等を用いたパターンマッチング演算）を実行
し、最も類似度の高い標準音声パターンを認識結果情報
として出力する。ここでは、説明の便宜上、搭乗者の発
話内容が正しく認識され、“住所”を内容とする標準音
声パターンが認識結果情報として出力されたものとす
る。

【００４５】このようにして、パターンマッチング部５
６から認識結果情報が出力されると、パラメータ生成部
５７が、その認識結果情報に関連するテキストデータを
メモリ４１のメモリ領域６１から取得する。具体的に
は、“住所”に関連するテキストデータとして、“名を
お話下さい”がメモリ４１のメモリ領域６１に格納され
ているので、“名をお話下さい”をメモリ４１のメモリ
領域６１から取得する。

【００４６】そして、パラメータ生成部５７は、その認
識結果情報に関連するテキストデータを取得すると、再
入力フラグの格納内容を確認し（ステップＳＴ１６）、
再認識に係る処理であるか否かを判断する。ただし、上
述したように、再入力フラグには予め“０”が格納され
ているので、ここでは再認識ではないと判断する。そし
て、パラメータ生成部５７は、再認識ではないと判断す
ると、従来のものと同様に、その認識結果情報及びテキ
ストデータをテキスト解析して、音韻パラメータ（図示
せず）と対応付けを実施し、音声合成パラメータを生成
する。なお、ここでは、認識結果情報とメッセージを合
成するものについて示したが、音声コマンドの認識処理
においては、認識結果情報とメッセージを合成する処理
は実施せず、認識結果情報に関連するテキストデータ
（例えば、“住所名をお話下さい”）を取得すると、そ
のテキストデータの音声合成パラメータを生成するよう
にしてもよい。

【００４７】そして、パラメータ生成部５７から音声合
成パラメータが出力されると、音声合成部５８が、その
音声合成パラメータを音声波形データ（図示せず）と関
連付けて音声合成波形を生成し、その音声合成波形を音
声合成信号として出力する（ステップＳＴ１７）。これ
により、スピーカ４５から“住所名をお話下さい”を内
容とするメッセージが音声出力される（図４のＫ１２を
参照）。ここで、“住所”が認識結果であり、“名をお
話下さい”が付加されたメッセージである。

【００４８】そして、スピーカ４５から“住所名をお話
下さい”というメッセージが出力されたのち、搭乗者が
マクロフォン３５に向かって発声すると、上記と同様
に、マイクロフォン３５が、搭乗者から発声された音声
を音響／電磁変換し、音声信号を出力する（ステップＳ
Ｔ１４）。搭乗者の発話内容が、例えば、“東京都千代
田区丸の内一丁目”である場合には、“東京都千代田区
丸の内一丁目”を発話内容とする音声信号がローパスフ
ィルタ３７等を通じてプロセッサ４０の音声レベル判別
部５４に入力され（図４のＨ１２を参照）、音声認識処
理が開始される（ステップＳＴ１５）。

【００４９】そして、プロセッサ４０が上記と同様の音
声認識処理を実施した結果、図４のＫ１３に示すよう
に、スピーカ４５から“東京都千代田区丸の内一丁目付
近を表示します”を内容とするメッセージが音声出力さ
れた場合には（“東京都千代田区丸の内一丁目”が認識
結果であり、“付近を表示します”が付加されたメッセ
ージ）、搭乗者の発話内容が正しく認識されているの
で、発話スイッチ３４が操作されることはなく（発話内
容の再認識が要求されない）、一定時間経過後に、プロ
セッサ４０の認識結果が確定する（ステップＳＴ１７，
ＳＴ１９，ＳＴ２０，ＳＴ２２）。これにより、“東京
都千代田区丸の内一丁目”が認識結果として、ナビゲー
ション装置３２に出力され、ナビゲーション装置３２
は、東京都千代田区丸の内一丁目付近の地図情報を表示
装置３３に表示し、一連の処理を終了する。

【００５０】一方、図５のＫ１４に示すように、スピー
カ４５から“東京都千代田区神田一丁目付近を表示しま
す”を内容とするメッセージが音声出力された場合には
（“東京都千代田区神田一丁目”が認識結果であり、
“付近を表示します”が付加されたメッセージ）、搭乗
者の発話内容が正しく認識されていないので、一定時間
を経過する前に、発話スイッチ３４が操作されて、発話
内容の再認識が要求されると、プロセッサ４０が音声認
識処理を再開する（ステップＳＴ１７，ＳＴ１９，ＳＴ
２０）。ただし、スピーカ４５からメッセージが出力さ
れたのち、一定時間を経過する前に、発話スイッチ３４
から操作信号が出力されると、応答音声制御部５９が、
応答制御信号をパラメータ生成部５７に出力することに
より、再入力フラグに“１”を格納する（ステップＳＴ
２１）。

【００５１】これにより、プロセッサ４０が上記と同様
の音声認識処理を再開するが、再認識処理の場合、図５
のＫ１５に示すように、最初にスピーカ４５から“もう
一度お話下さい”を内容とするメッセージが音声出力さ
れたのち、搭乗者が“東京都千代田区丸の内一丁目”を
発話すると、その発話内容が認識される。

【００５２】しかし、再認識処理の場合、再入力フラグ
には“１”が格納されているので、パラメータ生成部５
７は、パターンマッチング部５６から出力された認識結
果情報に関連するテキストデータを取得しても、再認識
に係る処理であると判断し、その認識結果情報に対する
テキストデータの合成処理を中止する（先に、再入力フ
ラグの格納内容を確認し、テキストデータの取得処理を
中止してもよい）。これにより、パラメータ生成部５７
は、パターンマッチング部５６から出力された認識結果
情報から音声合成パラメータを生成する。

【００５３】この結果、搭乗者の発話内容が正しく認識
された場合には、“東京都千代田区丸の内一丁目”を内
容とするメッセージが音声出力され、正しく認識されな
い場合には、例えば、図５のＫ１６のように、“東京都
千代田区神田一丁目”を内容とするメッセージが音声出
力される。ここで、前回の音声メッセージと今回の音声
メッセージを比較すると、今回の音声メッセージには
“付近を表示します”の部分（テキストデータ）が付加
されていない点で相違している。これにより、最初の認
識処理では、音声メッセージの出力時間が約８秒である
のに対し（図６（ａ）を参照）、再認識の処理では、音
声メッセージの出力時間が約５秒に短縮されている（図
６（ｂ）を参照）。

【００５４】なお、さらに搭乗者が再認識を要求する場
合には、図５のＫ１７に示すように、音声入力を促すメ
ッセージが前回より簡略化され、“もう一度”を内容と
するメッセージが音声出力される。

【００５５】因みに、図７は音声認識ユニット３９から
出力された認識結果情報に基づいてナビゲーション装置
３２が“東京都千代田区丸の内一丁目”付近の地図情報
を表示する表示例であり、また、図８は音声認識装置が
自動車に搭載された搭載例であり、図８の場合、車両走
行騒音レベルに対する音声レベルのＳ／Ｎが高く集音で
きるように、サンバイザの上に設置されている。

【００５６】以上で明らかなように、この実施の形態１
によれば、搭乗者から発話内容の再認識が要求された場
合、パラメータ生成部５７におけるテキストデータの合
成処理を禁止するように構成したので、発話内容の再認
識が要求された場合には、音声メッセージが簡略化され
るようになり、その結果、いち早く正しい認識を望む搭
乗者の煩わしさを軽減することができる効果を奏する。

【００５７】実施の形態２．上記実施の形態１では、搭
乗者から再認識が要求された場合、応答音声制御部５９
が認識結果情報に対するテキストデータの合成処理を禁
止するものについて示したが、搭乗者から再認識が要求
された場合（再入力フラグに“１”が格納された場
合）、音声合成部５８の発声速度を音声の聞き取りに支
障のない範囲内において、最初の認識処理の場合よりも
上げるようにしてもよい。

【００５８】図９は音声合成部５８の発声速度を最初の
認識処理より上げた例を示すものであり、具体的には、
最初の認識処理では、音声メッセージの出力時間が約８
秒であるのに対し（図６（ａ）を参照）、再認識の処理
では、音声メッセージの出力時間が約５秒に短縮されて
いる（図９を参照）。これにより、上記実施の形態１と
同様に、いち早く正しい認識を望む搭乗者の煩わしさを
軽減することができる効果を奏する。

【００５９】実施の形態３．上記実施の形態１及び実施
の形態２では、搭乗者から再認識の要求が１回出された
ものについて示したが、搭乗者から複数回再認識の要求
が出された場合、例えば、最初の再認識処理では、認識
結果情報に対するテキストデータの合成処理を禁止して
発声語数を減少し、２回目の再認識処理では、音声合成
部５８の発声速度を１回目の再認識処理よりも上げるよ
うにしてもよい。

【００６０】具体的には、最初の認識処理では、音声メ
ッセージの出力時間が約８秒であるが（図１０（ａ）を
参照）、最初の再認識処理では、発声語数を減少して音
声メッセージの出力時間を約５秒に短縮し（図１０
（ｂ）を参照）、さらに、２回目の再認識処理では、音
声合成部５８の発声速度を１回目の再認識処理よりも上
げて、音声メッセージの出力時間を約３秒に短縮する
（図１０（ｃ）を参照）。なお、再認識処理の回数把握
は、再認識処理が要求されるごとに、再入力フラグの格
納内容をインクリメントすることにより行う。

【００６１】これにより、再認識処理の回数に比例して
音声メッセージの冗長度が緩和されるため、再認識処理
の回数に比例して増加する搭乗者の心理的負担を軽減す
ることができる効果を奏する。

【００６２】実施の形態４．上記実施の形態３では、音
声合成部５８の発声速度を上げるものについて示した
が、音声合成部５８がテキストデータを音声出力する際
の発声速度を上げるようにしてもよい。即ち、図１１に
示すように、認識結果情報に係る部分（“東京都千代田
区一丁目”）の発声速度は最初の認識処理の場合と同一
とし（音声メッセージの出力時間は約５秒）、テキスト
データに係る部分（“付近を表示します”）の発声速度
を最初の認識処理の場合より上げるようにする（最初の
認識処理では約３秒、再認識の処理では約２秒）。

【００６３】これにより、テキストデータに係る部分の
音声出力時間が短縮されるため、音声メッセージの時間
的な冗長度が緩和される一方、認識結果情報に係る部分
の音声出力時間は変わらないので、搭乗者の聞き取り易
さを確保することができる効果を奏する。

【００６４】実施の形態５．上記実施の形態４では、音
声合成部５８がテキストデータを音声出力する際の発声
速度を上げるものについて示したが、パターンマッチン
グ部５６から前回出力された認識結果情報（誤認された
発話内容）と、パターンマッチング部５６から今回出力
された認識結果情報（再認識された発話内容）を比較
し、認識結果情報に重複部分がある場合には、音声合成
部５８が重複部分の一部を音声出力する際の発声速度を
上げるようにしてもよい。

【００６５】即ち、応答音声制御部５９が、最初の認識
処理においてパターンマッチング部５６から出力された
認識結果情報をメモリ６２に記憶し（図１３を参照）、
再認識の処理においてパターンマッチング部５６から認
識結果情報が出力されると、その認識結果情報とメモリ
６２に記憶された認識結果情報を比較する。例えば、最
初の認識処理においてパターンマッチング部５６から出
力された認識結果情報が“東京都千代田区一丁目”であ
り、再認識の処理においてパターンマッチング部５６か
ら出力された認識結果情報が“東京都千代田区一丁目”
である場合には、認識結果情報が一致して、重複する部
分があるので、図１２に示すように、“東京都”に係る
の部分の発声速度を上げるようにする（住所の認識処理
においては、都道府県名よりも区町村名を重視するよう
にプログラムされている場合）。

【００６６】これにより、搭乗者の聞き取り易さを確保
しつつ、上記実施の形態４の場合よりも、さらに音声出
力時間が１．５秒短縮される効果を奏する。

【００６７】実施の形態６．上記実施の形態３では、複
数回再認識の要求が出される場合、２回目の再認識処理
では、音声合成部５８の発声速度を１回目の再認識処理
よりも上げるものについて示したが、２回目の再認識処
理では、応答音声制御部５９が、１回目の再認識に係る
認識結果情報と、２回目の再認識に係る認識結果情報を
比較し（実施の形態５を参照）、認識結果情報が一致す
る場合には、音声合成部５８の音声合成結果に代えて、
所定のメッセージを音声出力させるようにしてもよい。

【００６８】具体的には、最初の認識処理では、音声メ
ッセージの出力時間が約８秒であるが（図１４（ａ）を
参照）、最初の再認識処理では、発声語数を減少して音
声メッセージの出力時間を約５秒に短縮し（図１４
（ｂ）を参照）、さらに、２回目の再認識処理では、音
声合成部５８の音声合成結果に代えて、“同じ”を内容
とするメッセージを音声出力して音声メッセージの出力
時間を約１秒に短縮する（図１４（ｃ）を参照）。

【００６９】これにより、２回目の再認識処理では、最
初の認識処理と比べて約７秒間短縮（約１／８の時間に
短縮）されるが、音声認識装置における誤認識の場合、
続けて同じ認識結果を繰り返す傾向があるので、“同
じ”を内容とするメッセージの音声出力は、搭乗者の聞
き取り易さを確保しつつ、音声出力時間を短縮する上で
極めて有効である。

【００７０】実施の形態７．上記実施の形態１から実施
の形態６では、音声出力時間を短縮するものについて示
したが、発話内容の再認識の要求回数が設定値に到達す
ると、発話内容の再認識の要求を無効にするようにして
もよい。具体的には、図１５のステップＳＴ２３に示す
ように、再入力フラグの格納内容が“２”を越えたか否
かを監視し、再入力フラグの格納内容が“２”を越えた
場合、即ち、過去３回誤認識が発生し、今回が３回目の
再認識の要求である場合、発話スイッチ３４の操作を無
効にするようにしてもよい。

【００７１】音声認識装置の誤認識が頻発すると、搭乗
者の心理的負担から、搭乗者の発声する音声の音圧が上
がる傾向が現れ、また、語気が強くなり通常の話し方と
異なる傾向が現れるため、さらに誤認識を誘発する結果
を招くことになるが、この実施の形態７によれば、一旦
再認識の要求を無効にするので、搭乗者を冷静にする機
会を与えることになり、その結果、誤認識の頻発を抑制
することができる効果を奏する。

【００７２】

【発明の効果】以上のように、この発明によれば、要求
手段から発話内容の再認識が要求された場合、音声合成
手段における定型メッセージの合成処理を禁止するよう
に構成したので、発話内容の再認識が要求された場合に
は、音声メッセージが簡略化されるようになり、その結
果、いち早く正しい認識を望む搭乗者の煩わしさを軽減
することができる効果がある。

【００７３】この発明によれば、要求手段から発話内容
の再認識が要求された場合、音声出力手段の発声速度を
変更するように構成したので、発話内容の再認識が要求
された場合には、音声メッセージの音声出力時間が短縮
されるようになり、その結果、いち早く正しい認識を望
む搭乗者の煩わしさを軽減することができる効果があ
る。

【００７４】この発明によれば、要求手段から発話内容
の再認識が要求された場合、音声合成手段における定型
メッセージの合成処理を禁止するとともに、その音声出
力手段の発声速度を変更するように構成したので、発話
内容の再認識が要求された場合には、音声メッセージの
音声出力時間が短縮されるようになり、その結果、いち
早く正しい認識を望む搭乗者の煩わしさを軽減すること
ができる効果がある。

【００７５】この発明によれば、要求手段から発話内容
の再認識が要求された場合、音声合成手段から出力され
る発声内容を変更するように構成したので、発話内容の
再認識が要求された場合には、音声メッセージの音声出
力時間が短縮されるようになり、その結果、いち早く正
しい認識を望む搭乗者の煩わしさを軽減することができ
る効果がある。

【００７６】この発明によれば、音声合成手段の発声速
度を上げるように構成したので、発話内容の再認識が要
求された場合には、音声メッセージの音声出力時間が短
縮される効果がある。

【００７７】この発明によれば、音声合成手段が定型メ
ッセージを音声出力する際の発声速度を上げるように構
成したので、搭乗者の聞き取り易さを確保しつつ、音声
メッセージの時間的な冗長度を緩和することができる効
果がある。

【００７８】この発明によれば、音声認識手段により前
回認識された発話内容と、その音声認識手段により再認
識された発話内容を比較し、発話内容に重複部分がある
場合には、音声合成手段が重複部分の一部を音声出力す
る際の発声速度を上げるように構成したので、搭乗者の
聞き取り易さを確保しつつ、音声メッセージの時間的な
冗長度を緩和することができる効果がある。

【００７９】この発明によれば、音声認識手段により前
回認識された発話内容と、その音声認識手段により再認
識された発話内容を比較し、発話内容が一致する場合に
は、音声合成手段から所定のメッセージを音声出力させ
るように構成したので、搭乗者の聞き取り易さを確保し
つつ、音声メッセージの時間的な冗長度を緩和すること
ができる効果がある。

【００８０】この発明によれば、発話内容の再認識の要
求回数が設定値に到達すると、発話内容の再認識の要求
を無効にするように構成したので、搭乗者を冷静にする
機会を与えることになり、その結果、誤認識の頻発を抑
制することができる効果がある。

【００８１】この発明によれば、発話内容の再認識が要
求された場合、音声合成ステップにおける定型メッセー
ジの合成処理を禁止するように構成したので、発話内容
の再認識が要求された場合には、音声メッセージが簡略
化されるようになり、その結果、いち早く正しい認識を
望む搭乗者の煩わしさを軽減することができる効果があ
る。

【００８２】この発明によれば、発話内容の再認識が要
求された場合、音声合成ステップの発声速度を変更する
ように構成したので、発話内容の再認識が要求された場
合には、音声メッセージの音声出力時間が短縮されるよ
うになり、その結果、いち早く正しい認識を望む搭乗者
の煩わしさを軽減することができる効果がある。

【００８３】この発明によれば、発話内容の再認識が要
求された場合、音声合成ステップにおける定型メッセー
ジの合成処理を禁止するとともに、その音声合成ステッ
プの発声速度を変更するように構成したので、発話内容
の再認識が要求された場合には、音声メッセージの音声
出力時間が短縮されるようになり、その結果、いち早く
正しい認識を望む搭乗者の煩わしさを軽減することがで
きる効果がある。

【００８４】この発明によれば、発話内容の再認識が要
求された場合、音声合成ステップから出力される発声内
容を変更するように構成したので、発話内容の再認識が
要求された場合には、音声メッセージの音声出力時間が
短縮されるようになり、その結果、いち早く正しい認識
を望む搭乗者の煩わしさを軽減することができる効果が
ある。

【図面の簡単な説明】

【図１】この発明の実施の形態１による音声認識装置
を示す構成図である。

【図２】音声認識ユニットの詳細構成を示す構成図で
ある。

【図３】この発明の実施の形態１による音声認識方法
を示すフローチャートである。

【図４】音声認識装置と搭乗者間の音声応答のやり取
りを説明する説明図である（正しく認識された場合）。

【図５】音声認識装置と搭乗者間の音声応答のやり取
りを説明する説明図である（正しく認識されない場
合）。

【図６】音声合成部の音声出力時間を示すタイムチャ
ートである。

【図７】ナビゲーション装置の表示例を示す説明図で
ある。

【図８】音声認識装置の取付例を示す説明図である。

【図９】音声合成部の音声出力時間を示すタイムチャ
ートである。

【図１０】音声合成部の音声出力時間を示すタイムチ
ャートである。

【図１１】音声合成部の音声出力時間を示すタイムチ
ャートである。

【図１２】音声合成部の音声出力時間を示すタイムチ
ャートである。

【図１３】音声認識ユニットの詳細構成を示す構成図
である。

【図１４】音声合成部の音声出力時間を示すタイムチ
ャートである。

【図１５】この発明の実施の形態７による音声認識方
法を示すフローチャートである。

【図１６】従来の音声認識装置を示す構成図である。

【図１７】音声認識ユニットの詳細構成を示す構成図
である。

【図１８】従来の音声認識装置の動作を示すフローチ
ャートである。

【図１９】音声認識装置と搭乗者間の音声応答のやり
取りを説明する説明図である（正しく認識された場
合）。

【図２０】音声認識装置と搭乗者間の音声応答のやり
取りを説明する説明図である（正しく認識されない場
合）。

【符号の説明】

３４発話スイッチ（要求手段）、５１制御部（要求
手段）、５４音声レベル判別部（音声認識手段）、５
５音声分析部（音声認識手段）、５６パターンマッ
チング部（音声認識手段）、５７パラメータ生成部
（音声合成手段）、５８音声合成部（音声合成手
段）、５９応答音声制御部（音声制御手段）。

Claims

【特許請求の範囲】

【請求項１】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識手段と、上記音声認識手段により認識さ
れた発話内容に定型メッセージを合成し、その合成結果
を音声出力する音声合成手段と、発話内容の再認識を要
求する要求手段と、上記要求手段から発話内容の再認識
が要求された場合、上記音声合成手段における定型メッ
セージの合成処理を禁止する音声制御手段とを備えた音
声認識装置。
【請求項２】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識手段と、上記音声認識手段により認識さ
れた発話内容に定型メッセージを合成し、その合成結果
を音声出力する音声合成手段と、発話内容の再認識を要
求する要求手段と、上記要求手段から発話内容の再認識
が要求された場合、上記音声合成手段の発声速度を変更
する音声制御手段とを備えた音声認識装置。
【請求項３】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識手段と、上記音声認識手段により認識さ
れた発話内容に定型メッセージを合成し、その合成結果
を音声出力する音声合成手段と、発話内容の再認識を要
求する要求手段と、上記要求手段から発話内容の再認識
が要求された場合、上記音声合成手段における定型メッ
セージの合成処理を禁止するとともに、その音声合成手
段の発声速度を変更する音声制御手段とを備えた音声認
識装置。
【請求項４】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識手段と、上記音声認識手段により認識さ
れた発話内容に定型メッセージを合成し、その合成結果
を音声出力する音声合成手段と、発話内容の再認識を要
求する要求手段と、上記要求手段から発話内容の再認識
が要求された場合、上記音声合成手段から出力される発
声内容を変更する音声制御手段とを備えた音声認識装
置。
【請求項５】音声制御手段は、音声合成手段の発声速
度を上げることを特徴とする請求項２または請求項３記
載の音声認識装置。
【請求項６】音声制御手段は、音声合成手段が定型メ
ッセージを音声出力する際の発声速度を上げることを特
徴とする請求項２記載の音声認識装置。
【請求項７】音声制御手段は、音声認識手段により前
回認識された発話内容と、その音声認識手段により再認
識された発話内容を比較し、発話内容に重複部分がある
場合には、音声合成手段が重複部分の一部を音声出力す
る際の発声速度を上げることを特徴とする請求項２また
は請求項３記載の音声認識装置。
【請求項８】音声制御手段は、音声認識手段により前
回認識された発話内容と、その音声認識手段により再認
識された発話内容を比較し、発話内容が一致する場合に
は、音声合成手段から所定のメッセージを音声出力させ
ることを特徴とする請求項４記載の音声認識装置。
【請求項９】音声制御手段は、発話内容の再認識の要
求回数が設定値に到達すると、発話内容の再認識の要求
を無効にすることを特徴とする請求項１から請求項８の
うちのいずれか１項記載の音声認識装置。
【請求項１０】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識ステップと、上記音声認識ステップによ
り認識された発話内容に定型メッセージを合成し、その
合成結果を音声出力する音声合成ステップとを設け、発
話内容の再認識が要求された場合、その音声合成ステッ
プにおける定型メッセージの合成処理を禁止する音声認
識方法。
【請求項１１】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識ステップと、上記音声認識ステップによ
り認識された発話内容に定型メッセージを合成し、その
合成結果を音声出力する音声合成ステップとを設け、発
話内容の再認識が要求された場合、その音声合成ステッ
プの発声速度を変更する音声認識方法。
【請求項１２】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識ステップと、上記音声認識ステップによ
り認識された発話内容に定型メッセージを合成し、その
合成結果を音声出力する音声合成ステップとを設け、発
話内容の再認識が要求された場合、その音声合成ステッ
プにおける定型メッセージの合成処理を禁止するととも
に、その音声合成ステップの発声速度を変更する音声認
識方法。
【請求項１３】使用者から発声された音声を入力する
と、その音声の特徴を解析して、使用者の発話内容を認
識する音声認識ステップと、上記音声認識ステップによ
り認識された発話内容に定型メッセージを合成し、その
合成結果を音声出力する音声合成ステップとを設け、発
話内容の再認識が要求された場合、その音声合成ステッ
プから出力される発声内容を変更する音声認識方法。