JP5500100B2

JP5500100B2 - 音声案内システム

Info

Publication number: JP5500100B2
Application number: JP2011038333A
Authority: JP
Inventors: 隆司大井
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2011-02-24
Filing date: 2011-02-24
Publication date: 2014-05-21
Anticipated expiration: 2031-02-24
Also published as: JP2012173702A

Description

本発明は、音声を出力して音声案内する際に音質の優れた音声を出力することができる音声案内システムに関する。

例えばカーナビゲーション装置などの音声案内システムでは、音声認識のトークバック時や、経路案内時や、交通情報等をユーザに知らせるときなどに、音声を出力する機能を有している。この場合、出力される音声は、記憶装置に保存された録音音声、または、合成音声生成装置にて生成した合成音声、または、両者を組み合わせた音声である。ここで、合成音声は、肉声を録音した録音音声に比べて機械的な音声に近く、ユーザの感性によっては違和感や聞き取れない等の問題があった。このため、音質の良い録音音声を使用したいが、録音音声はデータ量が大きいので、カーナビゲーション装置のような車載装置の場合、記憶装置の記憶量の制約を受けることから、ある程度数が限られた定型の単語や文節しか記憶装置に登録しておくことができない事情がある。その結果、合成音声を使用して音声案内することが多くなり、高品質な音声案内が実現できていない。

例えば、特許文献１、２に記載された構成では、音声出力するメッセージを、文節に分解し、その文節ごとに、予め定型録音音声データベースに登録してある内容と一致するものは、その録音音声を使用し、一致しないものは合成音声生成装置で合成された合成音声を使用し、録音音声と合成音声とが混在した音声を出力するようにしている。

特開平９−９７０９４号公報特開２００７−２５７２３１号公報特開２００８−２２５２５４号公報特開２００９−０３７２１４号公報

上記特許文献１、２に記載の構成では、録音音声と合成音声とが混在した音声が出力される可能性があり、このような場合、異なる音声の境界付近で音声の音質が大きく変わるため、了解性が低下するという不具合がある。これに対して、特許文献３、４には、録音音声と規則合成音声を組み合わせて音声を生成する際の了解性を向上させるための装置が記載されている。特許文献３に記載された装置では、直前の単語の音声種別や接続歪を計算することにより異なる音声の変更を少なくしている。また、特許文献４に記載された装置では、録音音声と規則合成音声の聴覚的な自然性の向上を図るようにしている。

しかし、上記特許文献３、４の構成においても、異なる音声が混在した場合には、了解性低下を押さえようとする試みはあるものの、録音音声と合成音声の境界付近で音質が異なることには変わりがないため、了解性が低下することがある。

そこで、本発明の目的は、録音音声を極力使用して音声案内することができ、また、合成音声を使用する場合であっても、高品質の音声案内を実行することができる音声案内システムを提供することにある。

請求項１の発明によれば、車載装置において、分割された単語あるいは文節に対応する録音音声データが記憶手段に存在するか否かを検索し、録音音声データがない単語あるいは文節については、外部サーバ装置に送信して、録音音声データがサーバ側記憶手段に存在するか否かを検索し、検索された録音音声データを車載装置へ送信し、検索手段により検索した録音音声データと外部サーバ装置から受信した録音音声データとを接続し、接続した音声データを音声出力するように構成したので、録音音声を極力使用して音声案内することができ、高品質の音声案内を実行することができる。

また、請求項１の発明によれば、外部サーバ装置において、受信した単語あるいは文節のうちの１個でも対応する録音音声データがなかったときであって、サーバ側音声合成手段の音声合成能力の方が車載装置の音声合成手段の音声合成能力よりも優れているときに、録音音声データがなかった単語あるいは文節に対応する音声データを合成し、合成した合成音声データを車載装置へ送信し、車載装置では、外部サーバ装置から送信された合成音声データを受信し、この受信した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、高品質の音声案内を実行することができる。

請求項２の発明によれば、外部サーバ装置において、受信した単語あるいは文節のうちの１個でも対応する録音音声データがなかったときであって、前記車載装置の前記音声合成手段の音声合成能力の方が前記サーバ側音声合成手段の音声合成能力よりも優れているときに、前記車載装置側で録音音声データがなかった単語あるいは文節に対応する音声データを合成するように指示する指示命令を、車載装置へ送信し、車載装置は、上記指示命令を受信したときに、録音音声データがなかった単語あるいは文節に対応する音声データを音声合成手段により合成し、この合成した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、高品質の音声案内を実行することができる。

請求項３の発明によれば、請求項１または２に記載の音声案内システムにおいて、前記車載装置は、音声案内機能毎に要求される、前記音声データの出力処理の迅速さに関するレスポンス情報を保持し、前記レスポンス情報に基づいて、使用する音声案内機能に応じて前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信するか否かを判断するようになっており、前記判断により送信しないとなった場合には、そのまま前記外部サーバ装置に問い合わせることなく、当該車載装置にて音声合成処理を行うように構成し、また請求項４の発明によれば、前記車載機は、前記レスポンス情報に基づき、迅速な音声データの出力処理が必要な前記音声案内機能に対しては、前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信しないと判断するように構成したので、音声案内機能毎に求められる応答性能に応じ、なるべく高品質な音声案内を行うことができる。ユーザに応答性の高い（レスポンスに優れた）音声案内システムを提供できる。

請求項５の発明によれば、外部サーバ装置の比較手段は、車両のユーザが使用する言語に基づいて、車載装置側の音声合成能力とサーバ側音声合成手段の音声合成能力とを比較し、どちらが優れているかを判定するように構成したので、使用する言語（例えば英語と日本語）で車載装置の音声合成能力と外部サーバ装置の音声合成能力とに違いがあった場合、それも考慮して音声合成能力の比較を行なうことができるから、音声合成能力の比較判定をより一層正確に実行することができる。

請求項６の発明によれば、前記車載装置の前記音声合成手段は、車両のユーザの使用頻度の高い言語について優れた音声合成能力を有し、前記外部サーバ装置の前記サーバ側音声合成手段は、車両のユーザの使用頻度の低い言語について優れた音声合成能力を有する構成としたので、使用頻度の高い言語については、前記車載装置において音声合成するから、レスポンスを高くすることができると共に、合成音声の質を高くすることができ、また、使用頻度の低い言語については、外部サーバ装置を利用して音声合成するから、通信負荷が生じるが、高音質の音声合成を実現できる。

請求項７の発明によれば、前記外部サーバ装置は、複数の車載装置と通信することに応じて前記サーバ側音声合成手段により音声合成した音声フレーズの各合成実行回数をカウントし、前記合成実行回数が予め地域毎に定められた前記音声フレーズの合成実行回数の閾値である地域毎閾値を越えた場合に、前記合成実行回数が前記地域毎閾値を超えた音声フレーズの録音音声データを作成するように要請する通知を録音メーカに通知すると共に、単位時間あたりの通知回数が基準回数を超えたか超えないかで前記地域毎閾値を大小変化させる構成としたので、使用頻度の高い音声フレーズについて優先的に録音音声を生成してデータベースに登録することができ、登録以降は高品質の音声案内を実行することができ、また、録音の通知回数をコントロールすることができ、録音作業量を一定に保つことができる。

本発明の一実施形態を示す音声案内システムのブロック図車載装置の音声生成部のブロック図外部サーバ装置の制御装置のブロック図車載装置側の制御を示すフローチャート外部サーバ装置側の制御を示すフローチャート地域毎閾値を説明する図（その１）地域毎閾値を説明する図（その２）地域毎閾値を説明する図（その３）地域毎閾値を説明する図（その４）

以下、本発明の一実施形態について、図１ないし図５を参照して説明する。まず、図１は、本実施形態の音声案内システム１の電気的構成を概略的に示すブロック図である。この図１に示すように、音声案内システム１は、車両に搭載され音声案内機能を有する例えばカーナビゲーション装置（車載装置）２と、このカーナビゲーション装置２と例えば携帯電話網やインターネット等からなる通信網３を介して通信可能な外部サーバ装置４とを備えて構成されている。

カーナビゲーション装置２は、位置検出器５、データ入力器６、操作スイッチ群７、通信装置８、外部メモリ９、表示装置１０、リモコンセンサ１１、音声認識出力装置１２、及び、これらに接続された制御回路１３を備えて構成されている。尚、制御回路１３は、通常のコンピュータとして構成されており、内部には、周知のＣＰＵ、ＲＯＭ、ＲＡＭ、Ｉ／Ｏ及びこれらの構成を接続するバスラインを備える。

位置検出器５は、周知のジャイロスコープ１４、距離センサ１５、及び、衛星からの電波に基づいて車両の位置を検出するためのＧＰＳ受信機１６を有している。これらのセンサ等１４、１５、１６は各々が性質の異なる誤差を持っているため、複数のセンサにより、各々補間しながら使用するように構成されている。なお、精度によっては上述した内の一部で構成してもよく、更に、ステアリングの回転センサ、各車輪の車輪センサ、車両の傾斜センサ等を適宜用いてもよい。

データ入力器６は、位置検出の精度向上のためのいわゆるマップマッチング用データ、地図データ及び目印データを含むナビゲーション用の各種データに加えて、音声認識出力装置１２において音声認識処理および音声案内（音声出力）処理を行う際に用いる辞書データベースや音声データベースを入力するための装置である。記憶媒体としては、そのデータ量からハードディスクやＤＶＤを用いるのが一般的であると考えられるが、ＣＤ−ＲＯＭ等の他の媒体を用いても良い。データ記憶媒体としてＤＶＤを用いた場合には、このデータ入力器６はＤＶＤプレーヤとなる。

表示装置１０はカラー表示装置であり、表示装置１０の画面には、位置検出器５から入力された車両現在位置マークと、データ入力器６より入力された地図データと、更に地図上に表示する誘導経路や設定地点の目印等の付加データとを重ねて表示することができる。また、複数の選択肢を表示するメニュー画面やその中の選択肢を選んだ場合に、さらに複数の選択肢を表示するコマンド入力画面なども表示することができる。通信装置８は、例えば携帯電話機等の移動体通信機によって構成されており、通信網３を介して外部サーバ装置４と通信可能な構成となっている。

また、カーナビゲーション装置２は、リモートコントロール端末（以下、リモコンと称する。）１１ａを介してリモコンセンサ１１から、あるいは操作スイッチ群７により目的地の位置を入力すると、現在位置からその目的地までの最適な経路を自動的に選択して誘導経路を形成して表示する機能、いわゆる経路案内機能も備えている。このような自動的に最適な経路を設定する手法としては、ダイクストラ法等の手法が知られている。操作スイッチ群７は、例えば、表示装置１０と一体になったタッチスイッチもしくはメカニカルなスイッチ等が用いられ、各種コマンドの入力に利用される。

そして、音声認識出力装置１２は、上記操作スイッチ群７あるいはリモコン１１ａが手動操作により各種コマンド入力のために用いられるのに対して、利用者が音声で入力することによっても同様に各種コマンドを入力できるようにするための装置である。この音声認識出力装置１２は、音声認識部１７と、対話制御部１８と、音声生成部１９と、音声抽出部２０と、マイク２１と、スイッチ２２と、スピーカ２３と、制御部２４とを備えて構成されている。

音声認識部１７は、音声抽出部２０から入力された音声データを、対話制御部１８からの指示により入力音声の認識処理を行い、その認識結果を対話制御部１８に返す。すなわち、音声認識部１７は、音声抽出部２０から取得した音声データに対し、記憶している辞書データを用いて照合を行い、複数の比較対象パターン候補と比較して一致度の高い上位比較対象パターンを対話制御部１８へ出力する。

入力音声中の単語系列の認識は、音声抽出部２０から入力された音声データを音響モデルと順次音響分析して音響的特徴量（例えばケプストラム）を抽出する。この音響分析によって得られた音響的特徴量時系列データを得る。そして、周知のＨＭＭ（隠れマルコフモデル）、ＤＰマッチング法あるいはニューラルネットなどによって、この時系列データをいくつかの区間に分け、各区間が辞書データとして格納されたどの単語に対応しているかを求める。

対話制御部１８は、音声認識部１７における認識結果や制御部２４からの指示に基づき、音声生成部１９への応答音声の出力指示、あるいは、カーナビゲーション装置２自体の処理を実行する制御回路１３に対して例えばナビゲート処理のために必要な目的地やコマンドを通知して目的地の設定やコマンドを実行させるよう指示する処理を行う。このような処理の結果として、この音声認識出力装置１２を利用すれば、上記操作スイッチ群７あるいはリモコン１１ａを操作しなくても、音声入力によりカーナビゲーション装置２に対する目的地の指示などが可能となる。

なお、音声生成部１９は、波形データベース（音声データベース）内に格納されている音声波形（録音音声や規則合成音声等）を用い、対話制御部１８からの応答音声の出力指示に基づく音声を生成する。音声生成部１９の詳しい制御内容については、後述する。上記生成された音声がスピーカ２３から出力される。

音声抽出部２０は、マイク２１にて取り込んだ周囲の音声をデジタルデータに変換して音声認識部１７に出力するものである。詳しくは、入力した音声の特徴量を分析するため、例えば数１０ｍｓ程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が、音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイク２１から入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行う。この判定方法としては従来より多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部１７に出力される。

また、本実施形態においては、利用者がスイッチ２２を押しながらマイク２１を介して音声を入力するという利用方法である。具体的には、制御部２４がスイッチ２２が押されたタイミングや戻されたタイミング及び押された状態が継続した時間を監視しており、スイッチ２２が押された場合には音声抽出部２０及び音声認識部１７に対して処理の実行を指示する。一方、スイッチ２２が押されていない場合にはその処理を実行させないようにしている。したがって、スイッチ２２が押されている間にマイク２１を介して入力された音声データが音声認識部１７へ出力される。

このような構成を有することによって、本実施形態のカーナビゲーション装置２では、ユーザがコマンドを入力することによって、経路設定や経路案内あるいは施設検索や施設表示など各種の処理を実行することができる。

ここで、音声生成部１９について、図２を参照して詳しく説明する。図２に示すように、音声生成部１９は、音声フレーズ分割部（分割手段）２５と、検索部（検索手段）２６と、検索結果保持部２７と、外部要求部（通信手段）２８と、音声合成部（音声合成手段）２９と、音声出力部（音声出力手段）３０と、録音音声データ記憶部（記憶手段）３１と、音声合成データ記憶部３２とを有している。尚、録音音声データ記憶部３１と、音声合成データ記憶部３２は、データ入力器６を介して入力されるデータベースである。

音声生成部１９において、対話制御部１８より音声出力したい音声フレーズのテキストが入力されると、その入力されたテキストを音声フレーズ分割部２５で単語あるいは文節単位に分割する。上記分割された単語あるいは文節に対して、検索部２６により録音音声データ記憶部３１内に格納された録音音声データと一致するものがあるか否かを検索（照合）し、その検索結果を検索結果保持部２７に出力して保持する。

外部要求部２８は、検索結果保持部２７に保持された検索結果を受け取り、録音音声データがない（一致しない）単語あるいは文節について、外部サーバ装置４で検索するための要求を通信装置８を介して外部サーバ装置４に対して送信する。また、外部要求部２８は、音声合成部２９の音声合成性能を示す情報（音声合成エンジンの名称やバージョンナンバー等の情報）を通信装置８を介して外部サーバ装置４に対して送信する。そして、外部要求部２８は、外部サーバ装置４から送信された検索結果や合成音声データ等の情報を通信装置８を介して受信する。

音声合成部２９は、外部サーバ装置４で検索しても録音音声データがない（一致しない）単語あるいは文節について、外部サーバ装置４が備える音声合成エンジンの音声合成性能（後述する）よりも優れている場合に、音声合成データ記憶部３２に記憶されている音声合成データを用いて音声を合成する。このときには、音声合成部２９に保持されている音声合成用のプログラム（以後、音声合成プログラム（車載装置側音声合成エンジン）ともいう）を用いる。

音声出力部３０は、検索結果保持部２７に保持された検索結果と、外部サーバ装置４から送信された検索結果や合成音声データ等の情報と、音声合成部２９により合成された音声とを受け取り、この受け取った音声（録音音声だけで構成された音声、または、録音音声と合成音声とが混在した音声、または、合成音声だけで構成された音声）をスピーカ２３より出力する。

一方、外部サーバ装置４は、図１に示すように、通信装置３３と、制御装置３４と、記憶装置３５とから構成されている。通信装置３３は、通信網３を介して車両のカーナビゲーション装置２と通信可能なように構成される。記憶装置３５は、例えばハードディスク等で構成される。

制御装置３４は、図３に示すように、受信部（サーバ側通信手段）３６と、検索部（サーバ側検索手段）３７と、検索結果保持部３８と、音声合成性能比較部（比較手段）３９と、音声合成部（サーバ側音声合成手段）４０と、送信部（サーバ側通信手段）４１と、録音音声データ記憶部（サーバ側記憶手段）４２と、音声合成データ記憶部４３とを有する。尚、録音音声データ記憶部４２と、音声合成データ記憶部４３は、記憶装置３５内に設けられる。

制御装置３４において、受信部３６が、車両のカーナビゲーション装置２より検索したい音声フレーズの単語あるいは文節等を受信すると、その受信した単語あるいは文節等を検索部３７へ与える。検索部３７は、上記単語あるいは文節に対して、録音音声データ記憶部４２内に格納された録音音声データと一致するものがあるか否かを検索（照合）し、その検索結果を検索結果保持部３８に出力して保持する。

音声合成性能比較部３９は、車両のカーナビゲーション装置２より通信装置３３を介して受信した音声合成部２９の音声合成性能を示す情報（音声合成エンジンの名称やメーカ名やバージョンナンバー等の情報）と、外部サーバ装置４の音声合成部４０の音声合成性能を示す情報（音声合成エンジンの名称ややメーカ名やバージョンナンバー等の情報）とを比較し、どちらが優れているかを判定する。そして、音声合成性能比較部３９は、外部サーバ装置４の音声合成部４０の音声合成性能の方が優れていると判定した場合、検索結果保持部３８に保持された検索結果の中で、録音音声データがない（一致しない）単語あるいは文節について、音声合成部４０で音声合成する指示を音声合成部４０へ与える。また、音声合成性能比較部３９は、車両のカーナビゲーション装置２の音声合成部２９の音声合成性能の方が優れていると判定した場合には、その旨を表す情報（判定結果）を、送信部４１および通信装置３３を介して車両のカーナビゲーション装置２へ送信する。

音声合成部４０は、外部サーバ装置４の検索部３７で検索しても録音音声データがない（一致しない）単語あるいは文節について、車両のカーナビゲーション装置２が備える音声合成部２９（音声合成エンジン）の音声合成性能よりも優れている場合に、音声合成データ記憶部４３に記憶されている音声合成データを用いて音声を合成する。このときには音声合成部４０に内蔵された音声合成用のプログラム（以後、音声合成プログラム（外部サーバ装置側音声合成エンジン）ともいう）を用いる。

送信部４１は、検索結果保持部３８に保持された検索結果と、音声合成性能比較部３９により判定された判定結果と、音声合成部４０により合成された音声データとを受け取り、これら受け取ったデータを、通信装置３３を介して車両のカーナビゲーション装置２へ送信する。

次に、上記した構成の音声案内システム１の音声生成処理のうちの、車両のカーナビゲーション装置２の音声生成部１９の音声生成処理について、図４のフローチャートを参照して説明する。

まず、図４のステップＳ１０において、入力された音声フレーズのテキストを言語解析し、単語あるいは文節単位に分割する。続いて、ステップＳ２０において、テキスト中に固有名称（地名や施設名称等）フレーズが含まれているか否かを判断する。ここで、固有名称が含まれている場合には、ステップＳ２０にて、「ＹＥＳ」へ進み、ステップＳ３０へ進む。ステップＳ３０では、含まれているすべての固有名称について、録音音声データが録音音声データ記憶部３１内にあるかどうかを検索し、検索（一致）した録音音声データを取得して記憶する。

続いて、ステップＳ４０へ進み、すべての固有名称フレーズについて録音音声データがあったか否かを判断し、ここで、すべての固有名称フレーズの録音音声データがあるときには、「ＹＥＳ」へ進み、ステップＳ５０へ進む。

上記ステップＳ５０では、入力されたテキスト中に汎用音声フレーズ（一般的によく使用される汎用の言葉の音声フレーズ）が含まれているか否かを判断する。ここで、汎用音声フレーズが含まれている場合には、ステップＳ５０にて、「ＹＥＳ」へ進み、ステップＳ６０へ進む。ステップＳ６０では、含まれているすべての汎用音声フレーズについて、録音音声データが録音音声データ記憶部３１内にあるかどうかを検索し、検索（一致）した録音音声データを取得して記憶する。

続いて、ステップＳ７０へ進み、すべての汎用音声フレーズについて録音音声データがあったか否かを判断し、ここで、すべての汎用音声フレーズの録音音声データがあるときには、「ＹＥＳ」へ進み、ステップＳ８０へ進む。ステップＳ８０では、すべての固有名称フレーズの録音音声データと、すべての汎用音声フレーズの録音音声データとを接続する。続いて、ステップＳ９０へ進み、上記接続した音声データをスピーカ２３から音声出力する。

一方、上記ステップＳ２０において、入力されたテキスト中に固有名称フレーズが含まれていない場合には、「ＮＯ」へ進み、固有名称の処理を飛ばし、ステップＳ５０へ進み、上述した処理を繰り返す。

ここで、入力されたテキスト中に含まれる固有名称フレーズと汎用音声フレーズを２つに分けて処理する理由について説明する。
カーナビゲーション装置２から出力される案内音声は、汎用音声フレーズ（例えば「この先」、「方向」、「右方向です」等の汎用的に使用可能な音声フレーズ）と、固有名称フレーズ（例えば地名、交差点名称、人名等の固有名詞の音声フレーズ）とから構成される。

固有名称フレーズの音声を生成する方法としては、肉声を録音する録音音声を使用する方法と、音声合成エンジンにより合成した合成音声を使用する方法とがある。録音音声を使用するためには、あらかじめ肉声を録音し、記憶装置に保持しておく必要があるが、地名や交差点名称や人名等の固有名詞は膨大な個数が存在するので、これら膨大な個数の固有名詞の肉声を録音する行為は、録音作業の時間工数的に非常に困難である。また、車両に搭載するカーナビゲーション装置２の記憶装置の記憶容量の制約（リソース制約）があるため、膨大な個数の固有名詞等の録音音声のデータを記憶保持することは非常に困難である。このため、固有名称フレーズは、合成音声を用いて生成することが一般的である。

カーナビゲーション装置２による案内音声は、汎用音声フレーズと固有名称フレーズの組み合わせとなることが多いが、必ず両方のフレーズが必要となるわけではない。汎用音声フレーズのみの場合もあれば、固有名称フレーズのみの場合もある。例えば、音声案内するときに、汎用音声フレーズ（一例として、「１００m先右方向です」）のみで案内を実現できる場合もあれば、固有名称フレーズ（人名等）のみで案内を実現できる場合もある。また、汎用音声フレーズと固有名称フレーズの組み合わせ（一例として、「１００ｍ先○△交差点を右方向です。」（○△が固有名称フレーズ））で案内を実現する場合もある。

従って、本実施形態によれば、固有名称フレーズの音声生成処理と汎用音声フレーズの音声生成処理を分ける構成としたので、案内音声フレーズのパターン（上記した３つのパターン）に合わせて音声生成処理を切り替えることが可能になる。これにより、案内音声フレーズの内容（パターン）によって必要な音声生成処理のみが効率良く動作できる構成となる。

また、上記ステップＳ４０において、１つでも固有名称フレーズの録音音声データがないときには、「ＮＯ」へ進み、ステップＳ１００へ進む。ステップＳ１００では、高いレスポンスが必要な処理であるか否かを判断し、ここで、高いレスポンスが必要な処理であるときには、「ＹＥＳ」へ進み、ステップＳ１１０へ進む。ステップＳ１１０では、上記録音音声データがなかった固有名称フレーズについて、カーナビゲーション装置２が備える音声合成プログラム（車載装置側音声合成エンジン）によって音声合成データ記憶部３２に記憶されている音声合成データを用いて音声を合成する。そして、ステップＳ５０へ進み、上述した処理を繰り返す。

一方、上記ステップＳ１００において、高いレスポンスが必要でない処理であるときには、「ＮＯ」へ進み、ステップＳ１４０へ進む。ステップＳ１４０では、上記録音音声データがなかった固有名称フレーズ（データ）と、カーナビゲーション装置２側の音声合成性能を示す情報（音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ）とを、外部サーバ装置４へ送信する。

ここで、複数の処理の中で、どのような処理が高いレスポンスが必要であるか、または、そうでないか（即ち、高いレスポンスが必要でない処理であるか）について説明する。
何らかのユーザのアクションに対し、高レスポンスで迅速に音声を生成して音声出力しなければならない処理（機能）がある。例えば、音声認識の機能で、ユーザの発声を認識した後、認識に関連する固有名詞（道路名称、人名等）を音声出力する機能がある。具体的には、音声認識により目的地の住所を入力した後、音声認識した目的地の住所のテキスト（フレーズ）の音声を生成して音声出力する機能がある。このように、ユーザが能動的に操作（発声）を行い、認識結果（音声出力）を求める機能では、ユーザは認識結果を早く知りたい傾向があるため、音声出力が遅い場合には音声認識が遅いとユーザが解釈するケースも多々あり、処理の応答性能（レスポンス）は重要な要素となる。

これとは反対に、それほど処理の応答性（レスポンス）が求められないケースもある。例えば、ユーザが受動的に結果を受け取る機能の場合である。具体的には、カーナビゲーション装置２が受信したメール等を自動で読み上げる（生成した音声で音声出力する）機能等である。このようなケースでは、生成した音声の音声出力（発声）の開始が、ユーザが認識できる処理（機能）の開始となるから、処理による遅延をユーザは意識することがない。このような処理は、前述した高応答性が要求される処理に比較して、応答性が求められない。従って、処理の求められる応答性能に応じて、その処理が高いレスポンスが必要な処理であるか否か（即ち、カーナビゲーション装置２（車載装置）を使用するか、それとも、サーバを利用するか）を判断することができる。

すなわち、車載装置側で、どの音声案内機能がどのような応答性能（音声出力処理の迅速さ）を求められているかを対応させて、レスポンス情報として記憶しておく。そして、そのレスポンス情報に基づいて、現在使用している音声案内機能に応じ、車載装置側で音声合成をするか、外部サーバ側で音声合成をするかを判断するのである。

そして、上記求められる応答性能の情報に関しては、そもそも生成（合成）音声を利用する音声認識機能側（制御装置側）で把握していることから、音声認識機能側から音声生成部に対して応答性能の情報を渡すことが可能である。そして、音声生成部においては、受け取った応答性能の情報に応じて、その処理が高いレスポンスが必要な処理であるか否か（即ち、カーナビゲーション装置２（車載装置）を使用するか、それとも、サーバを利用するか）を判断して処理を切り替えることができる。本実施形態では、このようにして、機能毎の応答性能に対応して処理の切り替えを実現している。

つまり、上述したユーザが能動的に操作を行い、認識結果を求めるような機能ではまず、レスポンスの速さが重要と考えられるため、フレーズに対応する録音音声が車載機になかったとしてもサーバを利用せず、車載機にて処理を行うことが望ましい。一方、比較的レスポンスの速さを求められない機能では、極力録音音声を使用する（出力音声の品質や了解性を高める）ことが望ましいため、サーバに問合せ、サーバ側のデータや処理を利用するのである。

このようにすれば、音声案内機能毎に求められる応答性能に応じ、なるべく高品質な音声案内を行うことができる。
この後、外部サーバ装置４から、上記固有名称フレーズの録音音声データまたは合成音声データまたはカーナビゲーション装置２側で音声合成する指示などの種々のデータが送信されてくるのを待つ。尚、種々のデータが送信されてくるのを待っている間は、カーナビゲーション装置２は他の処理を適宜実行可能な構成となっている。

この後、外部サーバ装置４から種々のデータが送信されてくると、ステップＳ１５０へ進み、外部サーバ装置４から送信された種々のデータ（録音音声データ等）を受信する。続いて、ステップＳ１６０へ進み、受信したデータの中に、カーナビゲーション装置２側で音声合成する指示の情報が含まれているか否かを判断する。ここで、音声合成の指示の情報が含まれているときには、ステップＳ１６０にて「ＹＥＳ」へ進み、ステップＳ１１０へ進み、外部サーバ装置４側で音声合成しなかった固有名称の音声を車載装置側音声合成エンジンによって合成する。また、ステップＳ１６０において、音声合成の指示の情報が含まれていないときには、「ＮＯ」へ進み、ステップＳ５０へ進み、上述した処理を繰り返す。

一方、ステップＳ５０において、入力されたテキスト中に汎用音声フレーズが含まれていない場合には、「ＮＯ」へ進み、汎用音声フレーズの処理を飛ばし、ステップＳ８０へ進み、上述した処理を繰り返す。

また、ステップＳ７０において、１つでも汎用音声フレーズの録音音声データがないときには、「ＮＯ」へ進み、ステップＳ１２０へ進む。ステップＳ１２０では、高いレスポンスが必要な処理であるか否かを判断し、ここで、高いレスポンスが必要な処理であるときには、「ＹＥＳ」へ進み、ステップＳ１３０へ進む。ステップＳ１３０では、上記録音音声データがなかった汎用音声フレーズについて、カーナビゲーション装置２が備える音声合成プログラム（車載装置側音声合成エンジン）によって音声合成データ記憶部３２に記憶されている音声合成データを用いて音声を合成する。そして、ステップＳ８０へ進み、音声データを接続する。

一方、上記ステップＳ１２０において、高いレスポンスが必要でない処理であるときには、「ＮＯ」へ進み、ステップＳ１７０へ進む。ステップＳ１７０では、上記録音音声データがなかった汎用音声フレーズと、カーナビゲーション装置２側の音声合成性能を示す情報（音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ）とを、外部サーバ装置４へ送信する。この後、外部サーバ装置４から、上記汎用音声フレーズの録音音声データまたは合成音声データまたはカーナビゲーション装置２側で音声合成する指示などの種々のデータが送信されてくるのを待つ。尚、種々のデータが送信されてくるのを待っている間は、カーナビゲーション装置２は他の処理を適宜実行可能な構成となっている。

この後、外部サーバ装置４から種々のデータが送信されてくると、ステップＳ１８０へ進み、外部サーバ装置４から送信された種々のデータ（録音音声データ等）を受信する。続いて、ステップＳ１９０へ進み、受信したデータの中に、カーナビゲーション装置２側で音声合成する指示の情報が含まれているか否かを判断する。ここで、音声合成の指示の情報が含まれているときには、ステップＳ１９０にて「ＹＥＳ」へ進み、ステップＳ１３０へ進み、外部サーバ装置４側で音声合成しなかった汎用音声フレーズの音声を車載装置側音声合成エンジンによって合成する。また、ステップＳ１９０において、音声合成の指示の情報が含まれていないときには、「ＮＯ」へ進み、ステップＳ８０へ進み、上述した処理を繰り返す。

次に、外部サーバ装置４側の音声生成処理について、図５のフローチャートを参照して説明する。この処理の特徴は、外部サーバ装置４が、カーナビゲーション装置２との音声合成能力を比較し、その結果に応じてどちら側で音声合成を行うか判断する点である。また、録音音声が整備されておらず、合成するしかない音声フレーズであっても、その使用頻度など（地域毎の使用頻度や使用者数等）を考慮してその録音音声の整備（音声フレーズの品質改善）を円滑化できるように工夫している点である。

まず、図５のステップＳ２１０において、カーナビゲーション装置２から送信された固有名称または汎用音声の音声フレーズとカーナビゲーション装置２側の音声合成性能を示す情報（音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ）とを受信する。続いて、ステップＳ２２０へ進み、上記受信した音声フレーズについて、録音音声データが録音音声データ記憶部４２内にあるかどうかを検索し、検索（一致）した録音音声データを取得して記憶する。

続いて、ステップＳ２３０へ進み、すべての受信した音声フレーズについて録音音声データがあったか否かを判断し、ここで、すべての音声フレーズの録音音声データがあるときには、「ＹＥＳ」へ進み、ステップＳ２４０へ進む。

上記ステップＳ２４０では、すべての音声フレーズの録音音声データと、すべての音声フレーズの後述する合成音声データと、カーナビゲーション装置２側で音声合成する指示のデータとを、カーナビゲーション装置２へ送信する。

一方、上記ステップＳ２３０において、１つでも音声フレーズの録音音声データがないときには、「ＮＯ」へ進み、ステップＳ２５０へ進む。ステップＳ２５０では、車両のカーナビゲーション装置２から送信された音声合成部２９の音声合成性能を示す情報（音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ）と、外部サーバ装置４の音声合成部４０の音声合成性能を示す情報（音声合成エンジンの名称やメーカ名やバージョンナンバー等のデータ）とを比較し、外部サーバ装置４側の音声合成性能が優れている（高い）か否かを判断する。

上記ステップＳ２５０において、外部サーバ装置４側の音声合成性能が優れているときには、「ＹＥＳ」へ進み、ステップＳ２６０へ進む。ステップＳ２６０では、上記録音音声データがなかった音声フレーズについて、外部サーバ装置４が備える音声合成プログラム（外部サーバ装置側音声合成エンジン）によって音声合成データ記憶部４３に記憶されている音声合成データを用いて音声を合成する。そして、ステップＳ２７０へ進み、合成した音声フレーズの出現回数（上記音声フレーズについてその音声合成を実行した回数（合成実行回数））をカウントアップする。

この音声フレーズの出現回数は、外部サーバ装置４が通信する複数の車両のカーナビゲーション装置２において出現した回数の累計値である。外部サーバ装置４が通信する相手は、一つのカーナビゲーション装置２に限られることはなく、複数の車両のカーナビゲーション装置２である。つまり、上記音声フレーズの出現回数のカウント値は、他車両のカーナビゲーション装置２（音声案内システム）にて出現した回数も考慮した数値である。

続いて、ステップＳ２８０へ進み、上記音声フレーズの出現回数が予め決められた地域毎閾値を超えたか否かを判断する。
ここで、上記地域毎閾値について説明する。地域毎閾値とは、本実施形態における音声案内システムにおいて、車両が走行する（使用される）地域ごとにその音声フレーズの品質改善を行う頻度（音声フレーズを録音する頻度）を調整するために外部サーバ装置４が保持し、使用する、音声フレーズの出現回数に関する閾値である。

すなわち、ユーザの行動する地域によって、方言や言い回し、流行のフレーズが違っていたり、またユーザ総数が違っていたりする場合がある。地域毎閾値はそうした地域毎の特徴や違いを考慮して音声フレーズの録音を円滑化できるようにするために活用するものである。地域毎閾値を用いた処理（ステップＳ２７０以降の処理）の詳細については別途具体例を挙げて後述する。

なお、地域毎閾値は、エリア（地域）毎に管理されており、エリア毎に地域毎閾値の数値を調整することが可能になっている。また、カーナビゲーション装置２は外部サーバ装置４に図４のフローチャートに示す固有名称フレーズの送信時点（ステップＳ１４０）において、現在位置情報も合わせて送信しておくものとする。この情報をもとに、サーバ装置側では、その現在位置が含まれるエリアに対応する地域毎閾値を選択する。これにより、外部サーバ装置４はどの地域でどのフレーズが出現したのかを把握でき、後述するフレーズの出現回数と地域毎閾値（出現回数の閾値）との比較をすることができる。

さて、上記ステップＳ２８０において、音声フレーズの出現回数が地域毎閾値を超えていないときには、「ＮＯ」へ進み、ステップＳ２４０へ進み、音声データや指示情報等の様々なデータをカーナビゲーション装置２へ送信する。

一方、ステップＳ２８０において、音声フレーズの出現回数が地域毎閾値を超えたときには、「ＹＥＳ」へ進み、ステップＳ２９０へ進み、上記出現回数が地域毎閾値を超えた音声フレーズの録音音声データを作成するように要請する通知を、録音メーカに送信する。続いて、ステップＳ３００へ進み、単位時間（例えば１週間または１カ月という時間）当たりの通知回数を計算する。次いで、ステップＳ３１０へ進み、単位時間当たりの通知回数が予め決められた基準回数を超えたか否かを判断する。

ここで、通知回数が基準回数を超えていないときには、ステップＳ３１０にて「ＮＯ」へ進み、ステップＳ３２０へ進み、地域毎閾値を小さくする（下げる）処理を行い、その後、ステップＳ２４０へ進み、上述した処理を繰り返す。一方、ステップＳ３１０において、通知回数が基準回数を超えたときには、「ＹＥＳ」へ進み、ステップＳ３３０へ進み、地域毎閾値を大きくする（上げる）処理を行い、その後、ステップＳ２４０へ進み、音声データや指示情報等の様々なデータをカーナビゲーション装置２へ送信する。

一方、前記ステップＳ２５０において、カーナビゲーション装置２側の音声合成性能が優れているときには、「ＮＯ」へ進み、ステップＳ３４０へ進む。ステップＳ３４０では、上記録音音声データがなかった音声フレーズについて、カーナビゲーション装置２側で（車載装置側音声合成エンジンによって）音声合成するように指示するデータ（指示命令）を作成する。そして、ステップＳ２４０へ進み、音声データや指示情報等の様々なデータをカーナビゲーション装置２へ送信する。

以上が図５の処理の概略である。
さて、上記処理について、図面を交えてより具体的に説明する。
＜地域毎閾値を用いた処理具体例＞
図６〜図９は、ある地域における、ステップＳ２７０にてカウントアップされる、録音音声が整備されていない（したがって音声合成するしかない）フレーズの音声合成回数の累計値データを概念的に示す図である。

たとえば、図６において、フレーズＡは現在時刻（本処理が実行されている時点）を基点とする所定時間内に、出現時点a０〜a７に示すように、この地域では計８回出現したことを示している。そして、フレーズＡの出現回数の累計は、出現時点a０において、カーナビゲーション装置２が存在する地域の地域毎閾値に達し、a１において閾値を越えたことを示している（なお、地域毎閾値は各フレーズ共通の値である）。

すなわち、フレーズＡに着目すると、出現時点a１において、このフレーズＡの録音音声データを作成する要請通知を録音メーカに最初に送信している（ステップＳ２８０：yes、およびステップ２９０）ことになる。なお、録音メーカへの通知は、フレーズの音声合成回数の累計が１回カウントアップされる毎に行われるものとする。これは、録音メーカにおいて録音作業、整備に時間がかかることを考慮したものである。すなわち、あるフレーズの録音メーカへの録音要請通知は、そのフレーズが地域毎閾値を越えている間は、録音音声が整備されるまでそのフレーズの音声合成回数累計が更新されるごとに行われる。

よって、この地域の単位時間当たりの通知回数はa１〜a７、b１〜b３、c１、d１〜d６の１７回と計算される（ステップＳ３００）。
ここで、この地域の単位時間当たりの通知回数の基準回数が仮に１０回とすると、ステップＳ３１０の判定は肯定判定となり、ステップＳ３３０に移行し、地域毎閾値を上げる処理を行う。

図７はステップＳ３３０で地域毎閾値を修正した後の様子を概念的に示した図である。この図７では、地域毎閾値の上方修正により、フレーズＡおよびＤだけが、今後、録音要請通知を行う対象となっており、一方フレーズＢよびＣはこれから合成回数累計が地域毎閾値を越えない限りは、録音要請通知を行う対象とならないように変化している。

すなわち、録音メーカ側にとってみれば、フレーズＡ〜Ｄまで４つもの録音を行わねばならなかったのに比べ、Ａ、Ｄのみを録音すればよくなっている。
よって、ある地域で録音すべきフレーズが過剰となった場合に、地域毎閾値を上記のように自動的に変動させ、より使用頻度（必要性）の高いフレーズ（ここではＡ、Ｄ）だけを選択するように構成したので、録音メーカ側の作業を過剰にすることなく、円滑に録音音声データの整備を行うことに寄与できる。

さて、一方、図８のような場合を考えてみる。すなわち、出現回数が地域毎閾値を越えたフレーズはＡだけであり（ステップＳ２８０：yes）、出現時点a１において最初の録音要請通知を録音メーカにおこなっている（ステップＳ２９０）。また単位時間当たりの通知回数はa１〜a７の７回と計算された（ステップＳ３００）場合である。

ここで、基準回数は上記と同様に１０回であるため、ステップＳ３１０の判断は否定判定となり、ステップＳ３２０に移行して、地域毎閾値を下げる処理を行う。
図９はステップＳ３２０で地域毎閾値を修正した後の様子を概念的に示した図である。この図９では、地域毎閾値の下方修正により当初のフレーズＡだけでなく、フレーズＥも今後、録音要請通知を行う対象となっている。

すなわち、録音メーカ側にとってみればフレーズＡしか録音依頼がなされなかったところに、さらにＥの録音依頼を受けることができるようになる。また、一方ユーザにとってみれば、より多くのフレーズについて録音音声が整備される機会が増えるので、出力音声を自然な調子で聞くことに繋がり、利便性や快適性の向上が期待できる。

またこの場合、特に、フレーズＥのように長期的には地域毎閾値を越えない（図８参照）が、最近急に出現回数が増えたような音声、つまりその地域にて流行しているフレーズは、短期間に急激に出現回数が増加する。ゆえに上記のように地域毎閾値を下方修正した場合に録音通知対象となりやすくなる。

よって、ある地域で録音すべきフレーズが過剰ではない場合に、地域毎閾値を上記のように自動的に変動させ、より多くのフレーズを録音通知対象とするように構成したので、録音メーカ側の作業を過度に少なくすることなく（一定作業量を確保できるため）、円滑に録音音声データの整備を行うことに繋がる。またユーザにとってみれば、その地域で最近流行しているフレーズを含め、より多くのフレーズに録音音声が整備されるようになり、利便性、快適性向上を期待できる。

なお、上記では同じ地域について対比（図６と図８とで対比）して説明したが、異なる地域の場合（たとえば関東エリアが図６で関西エリアが図８の場合）であっても、地域毎閾値や基準回数が異なるだけであって、上記と全く同様に説明できる。
＜地域毎閾値を用いた処理活用例＞
また、地域毎閾値を用いた処理を活用した例について説明する。例えば、この処理はある特定の地域を優先して音声の改善（ある特定の地域の固有名称フレーズを優先して録音する作業を多くする改善）を行う場合にも有効利用できる。より具体的には、東京都のユーザが多く、地方のユーザが少ない等のケースで、ユーザの多い東京都の改善を迅速に進めて欲しいという依頼を受けた場合について考察する。

この場合、予め地域毎閾値を次のように設定する。例えば、東京、埼玉、千葉、神奈川の地域毎閾値の具体値として、東京の地域毎閾値を１００、埼玉を５００、千葉を４００、神奈川を１５０とするのである（これら具体値は例であるため数字には根拠はない）。

こうすると、東京都の地域毎閾値がもっとも低いため、録音要請通知の対象となる音声フレーズが増え、ひいては改善の優先度が最も高くなる。たとえば同じ道路名称であっても、東京の道路名称では１０１回で音質改善されるのに対し、埼玉では、５０１回以上の利用が必要となる。この様に、サーバにある地域毎閾値を変えることによって、優先的に音質改善を進める地域を指定することが可能となる。

また、東京において図５ステップＳ３１０の判定により単位時間当たりの通知回数が基準回数を越えた判断された場合、ステップＳ３３０に移行して地域毎閾値を上げる処理を行うが、この点でも工夫ができる。

東京の地域毎閾値が上方修正された場合には、録音要請するための音声フレーズ数が絞り込まれる（減少する）が、その絞り込みによって録音要請するための音声フレーズ数が他の地域よりも少なくなってしまう可能性がある。これでは東京を他地域に優先して録音音声データの整備をするという依頼を達成できない可能性がある。録音作業はそれなりの時間と労力を要するため、一時にできる作業量（すなわち対象となる音声フレーズの数）には限りがあるからである。

そこで、工夫として、東京の地域毎閾値を上方修正した場合、その上方修正の割合と同じ割合で、他地域の地域毎閾値も上方修正してもよい。
たとえば、上記の例でいけば、東京が１００から１２０に上方修正された場合、それと同様の割合で、埼玉を５００から６００へ、千葉を４００から４８０へ、神奈川を１５０から１８０へ各地域毎閾値を上方修正するのである。こうすれば、東京の地域毎閾値（注目すべき地域の地域毎閾値）の変動にともなって他地域の地域毎閾値も変更されることになる。よって東京より他地域における録音要請通知の対象フレーズ数が多くなる（優先度順が逆転する）ことが抑止され、東京で他地域に優先し、録音音声データの整備ができるようになる。

以上まとめると、上記構成の場合、単位時間あたりの録音の通知回数が基準回数を超えたかどうかによって、地域毎閾値、即ち、録音通知の判断用の閾値を自動的に大小（増減）させるように構成したので、録音の通知回数を自動的にコントロールすることができる。具体的には、単位時間あたりの録音の通知回数が所定の上限値を超えている場合には、録音採用判定用の閾値、即ち、地域毎閾値を上げることによって、録音の通知回数を減らすことが可能となる。また、単位時間あたりの録音の通知回数が上記上限値を超えていない場合には、閾値を下げることによって、録音の通知回数を増やし、録音音声を生成登録する機会を自動的に増やすことができる。これにより、録音メーカにおける録音作業量を一定に保つことが可能となる。

また、図示はしないが、上記によれば、注目している地域の地域毎閾値が変化した場合に、それに追従してサーバにある他の地域の地域毎閾値も変化させることで、注目している地域において優先的に録音音声の整備することができる。

ここで、参考までに、固有名称フレーズの録音の事情について説明する。録音音声と合成音声の音質を比較した場合、合成音声の技術が進歩しているとは言っても実際に肉声を録音した場合の音質と比較すると合成音声は劣るケースがある。なぜなら、合成音声データは肉声音声の断片や電子音から作成しているのに対して、録音音声データは肉声をそのままディジタルデータとして用いているからである。このため、音声出力の音質をより改善するには、録音音声データによって固有名称フレーズを音声出力する方が良く、そのため、地名や道路名称等の固有名称フレーズについても、録音音声データを作成して外部サーバ装置４の録音音声データベースに登録しておくことが好ましい。

実際に、道路名称等の案内音声に合成音声を用いた場合、音質が悪い等の苦情を受けることがあった。このように、正確に目的地まで案内するカーナビゲーション装置２においては、肉声を録音した録音音声データによって固有名称フレーズを音声出力する方が好まれるという実情がある。（尚、ロボット的な合成音声が好まれるケースも例外的にある。例えばＳＦ映画等においてロボットの口から音声出力する場合には、合成音声データの方が演出効果も得られることから、合成音声データが採用されるケースとなる。しかし、カーナビゲーション装置２の音声案内の場合は、やはり自然な音質の音声が求められることが一般的であるため、現状は肉声の録音音声データを理想的な音声としている。尚、将来的には、人間の価値観も変わる可能性があるため、本実施形態の音声案内システムを合成音声を主とした構成に置き換えることも可能である。）
次に、実際に固有名称フレーズを肉声で録音する場合には、次のような問題がある。道路名称は、数百万から数千万個以上存在すると考えられるので、これらの固有名称を全て肉声で録音することは、録音スタジオを準備し、ナレータを採用して、膨大な数の固有名称を録音する作業量を考慮すると現実的には非常に困難であると考えられる。一人のナレータが録音できる数には、時間的、肉体的に限界があるし、外部サーバ装置４の録音音声データベースの記憶容量の制約もある。つまり、肉声を録音するには、多大な労力とコストを要することが問題となる。

これに対して、本実施形態によれば、音声フレーズの出現回数をカウントし、該出現回数が地域毎閾値を超える使用頻度の高い音声フレーズについて、優先的に録音メーカに対して録音指示を行うように構成した。これにより、録音メーカで生成した音声（録音メーカで録音した録音音声データ）を録音音声データベースに登録することができ、登録以降は高品質の音声案内を実行することができる。この構成の場合、利用頻度の高い道路に関する固有名称を優先的に録音することができ、しかも、録音作業量を必要最小限にすることができる（尚、地域毎閾値がない従来構成の場合、音質改善のために全ての固有名称を録音する必要があるため、録音作業量が膨大になる）。例えば、ユーザの利用頻度の低い道路は録音作業を抑制することができる。実際、利用頻度の低い道路の名称やその道路が通過する地名まで肉声で録音を行うことは、録音作業が増大する要因になる。また、このような音声整備に投資を行った場合、製品価格が上昇し、ユーザにとって不利益になるという問題がある。これに対して、誰かがよく通るところは、他の人も通る可能性が高いため、音声合成回数が高い音声フレーズについて録音音声データを生成して登録することは、他のユーザの利便性も向上できる。逆に利用頻度の低い道路に対して整備を行っても、多くのユーザが利益を受けられないため効果が薄いと考えられる。

即ち、本実施形態によれば、ユーザが受ける利益として音質改善が実現できるだけでなく、音質改善を行う固有名称に対して優先度付け（利用頻度が高い名称を優先して改善する）が可能であるため、ユーザ自身がよく利用する道路が音質改善され、かつ他のユーザも利益を受けられる。また、その逆のこと（ユーザ及び他のユーザがあまり利用しない道路については録音整備をしないようにできること）も言える。

また、本実施形態によれば、地域毎閾値を設けることによって、ある地域を優先的に音質改善（肉声の録音作業）を進めることができる。例えば、東京、埼玉、千葉、神奈川の地域毎閾値の具体値として、東京の地域毎閾値を１００、埼玉を５００、千葉を４００、神奈川を１５０とした場合（これら具体値は例であるため数字には根拠はない）、東京都の地域毎閾値がもっとも低いため、改善の優先度が最も高くなる。東京の道路名称では１０１回で音質改善されるのに対し、埼玉では、５０１回以上の利用が必要となる。この様に、サーバにある地域毎閾値を変えることによって、優先的に音質改善を進める地域を指定することが可能となる。

これによって、カーナビゲーション装置２の利用者の多い地域の地域毎閾値を下げることによって、優先的に音質改善を進めることができる構成となっている。地域毎閾値は、国単位でも指定することができるから、アメリカのユーザが多い場合には他の国よりも地域毎閾値を下げることによって、世界中の全ての道路名称を録音する構成に比べて、ユーザが利益を受けやすくするために、最適な音質改善を行うことができる。

上記した構成の本実施形態によれば、カーナビゲーション装置２において、分割された単語あるいは文節に対応する録音音声データが録音音声データ記憶部３１に存在するか否かを検索し、録音音声データがない単語あるいは文節については、外部サーバ装置４に送信して、録音音声データが録音音声データ記憶部４２に存在するか否かを検索し、検索された録音音声データをカーナビゲーション装置２へ送信し、カーナビゲーション装置２で検索した録音音声データと外部サーバ装置４から受信した録音音声データとを接続し、接続した音声データを音声出力するように構成したので、録音音声を極力使用して音声案内することができ、高品質の音声案内を実行することができる。

また、上記実施形態においては、外部サーバ装置４において、受信した単語あるいは文節のうちの１個でも対応する録音音声データがなかったときであって、音声合成部（サーバ側音声合成手段）４０の音声合成能力の方がカーナビゲーション装置２側の音声合成部２９の音声合成能力よりも優れているときに、録音音声データがなかった単語あるいは文節に対応する音声データを上記音声合成部４０により合成し、合成した合成音声データをカーナビゲーション装置２へ送信し、カーナビゲーション装置２では、外部サーバ装置４から送信された合成音声データを受信し、この受信した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、音声合成能力が優れた装置で合成するから、高品質の音声案内を実行することができる。

また、上記実施形態においては、外部サーバ装置４において、受信した単語あるいは文節のうちの１個でも対応する録音音声データがなかったときであって、カーナビゲーション装置２側の音声合成部２９の音声合成能力の方が外部サーバ装置４側の音声合成部４０の音声合成能力よりも優れているときに、録音音声データがなかった単語あるいは文節に対応する音声データをカーナビゲーション装置２側で合成するように指示する指示命令を、カーナビゲーション装置２へ送信し、カーナビゲーション装置２では、上記指示命令を受信したときに、録音音声データがなかった単語あるいは文節に対応する音声データを音声合成部２９により合成し、この合成した合成音声データを音声出力する構成としたので、合成音声を使用する場合であっても、音声合成能力が優れた装置で合成するから、高品質の音声案内を実行することができる。

また、上記実施形態に限られるものではなく、外部サーバ装置４の音声合成性能比較部３９においては、車両のユーザーが使用する言語に基づいて、カーナビゲーション装置２側の音声合成能力と外部サーバ装置４側の音声合成能力とを比較し、どちらが優れているかを判定するように構成しても良い。このように構成すると、使用言語（たとえば英語の場合と日本語の場合）によるカーナビゲーション装置２（車載装置）と外部サーバ装置４との音声合成能力に違いがあった場合、その比較判定を正確に実行することができる。この構成の場合、使用言語の情報も、カーナビゲーション装置２から外部サーバ装置４へ送信するように構成することが好ましい。以下、上記言語によって音声合成エンジンの音声合成能力が相違する事情について説明する。

現在の音声合成エンジンを製造するメーカは、強み（得意）とする言語とそうでない言語があり、全ての言語を完璧にサポートできるメーカは存在しない。この傾向は、音声合成エンジンを開発する開発者が全ての言語に精通しているわけではないため、今後も続くと思われる。そのため、高音質の音声合成を実現するためには、音声合成の対象となる言語に応じて複数の音声合成エンジン（メーカ）を使い分けることが好ましいと考えられる。その一例として、カーナビゲーション装置２側の音声合成エンジンのメーカと、外部サーバ装置４側の音声合成エンジンのメーカが異なる場合を考える。

例えば、Ａ社製の音声合成エンジンを外部サーバ装置４が採用し、Ｂ社製の音声合成エンジンをカーナビゲーション装置２が採用しているとする。ここで、Ａ社が北米・欧州系メーカであると、Ａ社製の音声合成エンジンで北米・欧州系言語を音声合成すると、その音質は「５」となり、Ａ社製の音声合成エンジンでアジア系言語を音声合成すると、その音質は「１」となる（音質の数値は大きいほど良い）。これに対して、Ｂ社がアジア系メーカであると、Ｂ社製の音声合成エンジンで北米・欧州系言語を音声合成すると、その音質は「１」となり、Ｂ社製の音声合成エンジンでアジア系言語を音声合成すると、その音質は「５」となる。

上記した２つのメーカ製の音声合成エンジンを使用する場合、次のような事例が考えられる。即ち、北米・欧州系言語とアジア系言語の両方を使用する地域（具体的には中国等）の場合、高品質な音声出力を行うには、Ａ社、Ｂ社の両方の音声合成エンジンが必要となる。だが、カーナビゲーション装置２（車載装置）側には、記憶装置の記憶容量（リソース）の制約があり、両社の音声合成エンジンを搭載することが不可能である場合が多い。というのは、カーナビゲーション装置２は高機能化する傾向があり、リソースに関しては限界があるためである。

この問題を解決するために、外部サーバ装置４側に両社の音声合成エンジンを搭載する方法がある。この方法であれば、音質の観点では解決することが可能である。しかし、カーナビゲーション装置２においては、ユーザとのシームレスなやり取りをする上で、システムのレスポンスというのは非常に重要な要素となる。外部サーバ装置４を利用する場合には、外部サーバ装置４とカーナビゲーション装置２と間の通信が必要となり、通信負荷を考慮する必要がある。

外部サーバ装置４を利用した場合の利点としては、リソースの制約を受けにくい点であるが、欠点として通信負荷による遅延（レスポンスの悪化）が生じる可能性があり、レスポンスの観点ではカーナビゲーション装置２側で音声合成する方が有利である。この観点から、利用頻度の高い言語の合成に強みのある音声合成エンジンをカーナビゲーション装置２（車載装置）側に搭載し、利用頻度の低い言語については外部サーバ装置４（サーバ側）において音声合成するように音声合成エンジンを使い分ける構成が考えられる。

このように構成によれば、利用頻度の高い言語については、カーナビゲーション装置２において音声合成するから、レスポンスを高くすることができると共に、合成音声の質を高くすることができる。また、利用頻度の低い言語については、外部サーバ装置４を利用して音声合成するから、通信負荷が生じるが、高音質の音声合成を実現できる。

そして、上記実施形態においては、外部サーバ装置４とカーナビゲーション装置２をハイブリッドの形で運用し、両者の音声合成エンジンの音声合成能力を比較し、音声合成能力が優れた方の音声合成エンジンを用いて音声を合成するように構成したので、高品質な合成音声を出力することができる。

ここで、カーナビゲーション装置２のレスポンスについて考察してみる。カーナビゲーション装置２で求められるレスポンスは、人間工学的には４００ｍｓ〜５００ｍｓ以下が求められる。昨今では、通信スピードも向上しているから、データの送受信時に大量のデータを高速で送信できる可能性はある。しかし、データの送受信を行う前に、必ず通信を確立する必要があり、接続待ちや通信障害、ルーティング処理等が生じた場合に、このような通信を確立するために必要な時間は、今後も４００ｍｓ〜５００ｍｓ以下に抑えることは困難な可能性が高い。よって、高いレスポンスが要求される場合には、カーナビゲーション装置２側に搭載した音声合成エンジンを用いて音声を合成する必要がある。

これに対して、上記実施形態によれば、音声を合成せざるをえない場合であって、高いレスポンスが要求されるときには、カーナビゲーション装置２側に搭載した音声合成エンジンを用いて音声を合成するように構成したので、高いレスポンスで音声を合成することができる。また、上記実施形態では、音声を合成せざるをえない場合であって、高いレスポンスが要求されないときには、上述したように、外部サーバ装置４の音声合成エンジンの音声合成能力とカーナビゲーション装置２の音声合成エンジンの音声合成能力とを比較し、音声合成能力が優れた方の音声合成エンジンを用いて音声を合成するように構成したので、高品質な合成音声を出力することができる。

尚、上記実施形態では、外部サーバ装置４において、外部サーバ装置４の音声合成エンジンの音声合成能力とカーナビゲーション装置２の音声合成エンジンの音声合成能力とを比較するように構成したが、これに代えて、カーナビゲーション装置２において、両者の音声合成能力の比較を行うように構成しても良い。

さて、既に述べたように録音音声と合成音声を比べた場合、合成音声は肉声音声の断片や電子音から作成しているのに対して、録音音声は肉声をそのままディジタルデータとして用いているから、録音音声の方が音質が良い。このため、音質を改善するためには、地名や道路名称等の固有名称フレーズについても、録音音声を作成して外部サーバ装置４の録音音声データベースに登録しておくことが好ましい。しかし、固有名称は、数百万から数千万個以上存在すると考えられるので、これら非常に多数の固有名称を肉声を用いて全て録音して録音音声を作成することは、録音作業量を考慮すると現実的には非常に困難である（一人のナレータが録音できる数には、時間的、肉体的に限界があるし、外部サーバ装置４の録音音声データベースの記憶容量の制約もある）。

これに対して、上記実施形態においては、外部サーバ装置４において音声合成エンジンを用いて音声合成を行ったときに、音声を合成した音声フレーズを記憶し、その合成回数をカウントすることで合成回数を計測し、この合成回数がある回数（地域毎閾値）以上になったとき、上記記憶した音声フレーズについて肉声の録音指示を録音メーカ（管理者）へ通知するように構成した。この場合、通知する手段としては、電子メールや制御コマンド等がある。これにより、使用頻度の高い固有名称フレーズについて優先的に録音音声を生成してデータベースに登録することができ、登録以降は高品質の音声案内を実行することができる。

尚、利用頻度の低い道路の名称やその道路が通過する地名まで肉声で録音を行うことは、録音作業が増大する要因になり、また、このような音声整備に投資を行った場合、製品価格が上昇しユーザにとって不利益になるという問題がある。これに対して、上記実施形態によれば、音質改善が実現できるだけでなく、利用頻度の低い道路の名称等を録音する作業を減らすことが可能となる。また、誰かがよく通るところは、他の人も通る可能性が高いため、音声合成回数が高い音声フレーズについて録音音声を生成登録することは、他のユーザの利便性も向上できる。

更に、上記実施形態では、録音通知の判断用の閾値を、単位時間当たりの通知回数（頻度）に応じて自動的に高低コントロールするように構成したので、録音の通知回数をコントロールすることもができる。例えば、録音の通知回数が所定の上限値を超えている場合には、録音採用判定用の閾値を上げることによって、録音の通知回数を減らすことが可能となる。また、録音の通知回数が上記上限値を超えていない場合には、閾値を下げることによって、録音の通知回数を増やし、録音音声を生成登録する機会を自動的に増やすことができる。これにより、録音メーカにおける録音作業量を一定に保つことが可能である。

また、上記閾値は、地域（エリア）毎に管理し、地域毎に閾値の値を高低調整することが好ましい。具体的には、ある特定の地域内の地名等の固有名称フレーズについて優先して録音音声を生成登録する改善を行いたい場合には、閾値を地域毎に管理して、上記特定の地域の閾値を他の地域の閾値よりも下げるように構成すれば良い。このように構成すると、ユーザがよく利用する道路に係る固有名称フレーズについて優先して録音音声を生成登録することができるため、誰も利用しない道路に係る固有名称フレーズを録音する場合に比べて、音質改善効果が高くなる。

また、上記実施形態では、音声を合成した音声フレーズの合成回数に応じて録音メーカへ通知すると共に、録音メーカへの通知回数がほぼ一定になるように管理するように構成したので、録音音声の生成作業量（稼働率）をほぼ一定に制御することができる。尚、録音した音声データについては、録音メーカからネットワーク（通信網３）を経由して外部サーバ装置４へ随時登録できる構成となっている。そして、登録音声データの登録が完了した時点で、ユーザは録音音声データの利用が可能となる。

図面中、１は音声案内システム、２はカーナビゲーション装置（車載装置）、３は通信網、４は外部サーバ装置、５は位置検出器、６はデータ入力器、８は通信装置、１０は表示装置、１２は音声認識出力装置、１３は制御回路、１７は音声認識部、１８は対話制御部、１９は音声生成部、２０は音声抽出部、２１はマイク、２３はスピーカ、２４は制御部、２５は音声フレーズ分割部、２６は検索部、２７は検索結果保持部、２８は外部要求部、２９は音声合成部、３０は音声出力部、３１は録音音声データ記憶部、３２は音声合成データ記憶部、３３は通信装置、３４は制御装置、３５は記憶装置、３６は受信部、３７は検索部、３８は検索結果保持部、３９は音声合成性能比較部、４０は音声合成部、４１は送信部、４２は録音音声データ記憶部、４３は音声合成データ記憶部を示す。

Claims

音声で案内する機能を有する車載装置と、この車載装置と通信可能な外部サーバ装置とを備えてなる音声案内システムにおいて、
前記車載装置は、
種々の録音音声データを記憶する記憶手段と、
音声で出力するテキストを単語あるいは文節単位に分割する分割手段と、
前記分割された単語あるいは文節に対応する録音音声データが前記記憶手段に存在するか否かを検索する検索手段と、
前記分割された単語あるいは文節のうちの１個でも対応する録音音声データが前記記憶手段に存在しなかったときに、外部サーバ装置に前記録音音声データがない単語あるいは文節を送信し、前記外部サーバ装置において検索されて前記単語あるいは文節に対応する録音音声データを受信する通信手段と、
前記検索手段により検索した録音音声データと前記通信手段により受信した録音音声データとを接続し、接続した音声データを音声出力する音声出力手段とを備え、
前記外部サーバ装置は、
種々の録音音声データを記憶するサーバ側記憶手段と、
前記車載装置から送信された前記録音音声データがない単語あるいは文節を受信するサーバ側通信手段と、
前記受信した単語あるいは文節に対応する録音音声データが前記サーバ側記憶手段に存在するか否かを検索するサーバ側検索手段とを備え、
前記サーバ側通信手段は、前記サーバ側検索手段により検索された録音音声データを前記車載装置へ送信するように構成され、
前記車載装置は、単語あるいは文節に対応する音声データを合成する音声合成手段を備え、
前記車載装置は、前記分割された単語あるいは文節のうちの１個でも対応する録音音声データが前記記憶手段に存在しなかったときに、前記外部サーバ装置に前記録音音声データがない単語あるいは文節を送信すると共に、前記音声合成手段の音声合成能力に関する情報も送信し、
前記外部サーバ装置は、
単語あるいは文節に対応する音声データを合成するサーバ側音声合成手段と、
前記車載装置からの前記音声合成手段の音声合成能力の情報に基づいて前記車載装置の前記音声合成手段の音声合成能力と前記サーバ側音声合成手段の音声合成能力とを比較し、どちらが優れているかを判定する比較手段とを備え、
前記サーバ側音声合成手段は、前記受信した単語あるいは文節のうちの１個でも対応する録音音声データがなかったときであって、前記サーバ側音声合成手段の音声合成能力の方が前記車載装置の前記音声合成手段の音声合成能力よりも優れているときに、前記録音音声データがなかった単語あるいは文節に対応する音声データを合成し、
前記サーバ側通信手段は、合成された合成音声データを前記車載装置へ送信し、
前記車載装置は、前記外部サーバ装置から送信された合成音声データを前記通信手段により受信し、この受信した合成音声データを前記音声出力手段により音声出力することを特徴とする音声案内システム。
前記外部サーバ装置は、前記受信した単語あるいは文節のうちの１個でも対応する録音音声データがなかったときであって、前記車載装置の前記音声合成手段の音声合成能力の方が前記サーバ側音声合成手段の音声合成能力よりも優れているときに、前記車載装置側で録音音声データがなかった単語あるいは文節に対応する音声データを合成するように指示する指示命令を、前記サーバ側通信手段により前記車載装置へ送信し、
前記車載装置は、前記外部サーバ装置から送信された前記指示命令を前記通信手段により受信したときに、前記録音音声データがなかった単語あるいは文節に対応する音声データを前記音声合成手段により合成し、この合成した合成音声データを前記音声出力手段により音声出力することを特徴とする請求項１記載の音声案内システム。
前記車載装置は、音声案内機能毎に要求される、前記音声データの出力処理の迅速さに関するレスポンス情報を保持し、前記レスポンス情報に基づいて、使用する音声案内機能に応じて前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信するか否かを判断するようになっており、
前記判断により送信しないとなった場合には、そのまま前記外部サーバ装置に問い合わせることなく、当該車載装置にて音声合成処理を行うこと、
を特徴とする請求項１または２記載の音声案内システム。
前記車載装置は、前記レスポンス情報に基づき、迅速な音声データの出力処理が必要な前記音声案内機能に対しては、前記録音音声データがない単語あるいは文節および前記音声合成能力に関する情報を前記外部サーバ装置に送信しないと判断すること、
を特徴とする請求項３記載の音声案内システム。
前記外部サーバ装置の比較手段は、車両のユーザが使用する言語に基づいて、前記車載装置側の音声合成能力と前記サーバ側音声合成手段の音声合成能力とを比較し、どちらが優れているかを判定することを特徴とする請求項１ないし４のいずれかに記載の音声案内システム。
前記車載装置の前記音声合成手段は、車両のユーザの使用頻度の高い言語について優れた音声合成能力を有し、
前記外部サーバ装置の前記サーバ側音声合成手段は、車両のユーザの使用頻度の低い言語について優れた音声合成能力を有することを特徴とする請求項５記載の音声案内システム。
前記外部サーバ装置は、複数の車載装置と通信することに応じて前記サーバ側音声合成手段により音声合成した音声フレーズの各合成実行回数をカウントし、前記合成実行回数が予め地域毎に定められた前記音声フレーズの合成実行回数の閾値である地域毎閾値を越えた場合に、前記合成実行回数が前記地域毎閾値を超えた音声フレーズの録音音声データを作成するように要請する通知を録音メーカに通知すると共に、単位時間あたりの通知回数が基準回数を超えたか超えないかで前記地域毎閾値を大小変化させることを特徴とする請求項１ないし６のいずれかに記載の音声案内システム。