JP2010048959A

JP2010048959A - 音声出力システム及び車載装置

Info

Publication number: JP2010048959A
Application number: JP2008211970A
Authority: JP
Inventors: Akihiro Oya; 章博大矢
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2008-08-20
Filing date: 2008-08-20
Publication date: 2010-03-04

Abstract

【課題】車両において合成音声により自然な音声を出力する。
【解決手段】音声出力システムは、音声出力機能を有する車載装置５０と、合成音声を表す音声データを提供するサーバ１０とを備え、車載装置５０は、特定の文言の合成音声を表す音声データをサーバ１０に要求する。一方、サーバ１０は、特定の文言の合成音声を表す音声データを要求された場合に、そのデータを要求元に提供する。そして、車載装置５０は、サーバ１０から提供されるデータを取得して利用可能とする。このような音声出力システムによれば、車載装置５０に比べ格段に大容量の素片・音片データを管理可能な車両外部のサーバ１０を利用することで、リソースの少ない車載装置５０であっても合成音声により自然な音声を出力することができる。
【選択図】図１

Description

本発明は、車両において合成音声を出力するための音声出力システム及び車載装置に関するものである。

ナビゲーション装置やオーディオ装置等の車載装置で用いられる音声出力は、あらかじめ用意されている録音音声を再生するものと、合成音声を生成して再生するものとに大別される。また、出力される音声としては、経路案内や操作ガイドなどあらかじめ想定できる固有音声と、ユーザがリッピングした楽曲の情報（曲名、アルバム名、アーティスト名等）やメモリ登録地点の名称などのようにあらかじめ想定することのできない汎用音声とが存在する。

ここで、固有音声については、録音音声による高音質な音声出力が可能であるが、汎用音声については、音声出力する文言が事前に想定できないことから、録音音声をあらかじめ格納しておくことができない。このため、合成音声を生成して音声出力を行うこととなるが、合成音声の場合、文言によっては不自然に聞こえることがある。

そこで、合成音声により自然な音声出力を実現するため、種々の技術が提案されている。
例えば、特許文献１には、合成音声による音声出力が不自然な発声になってしまう問題にかんがみ、読み仮名情報中の複合語関係を解析した結果に基づいて、読み仮名情報にアクセント情報を付与する技術が示されている。

また、特許文献２には、車両の走行速度に応じて韻律パラメータを更新することで、合成音声による音声出力を車両の乗員が聞き取りやすくする技術が示されている。
また、特許文献３には、定型文及び入力単語の音韻情報に基づいて、置き換え文の音韻情報を生成するとともに、定型文及び入力単語の韻律情報を、その整合性をとりながら接続することにより、置き換え文の韻律情報を生成する技術が示されている。

また、特許文献４には、道路地図データとともに、表音文字でディスプレイされる単語と、単語の表音文字に付加される韻律データとを格納し、かつ、はめ込み属性のデータにより単語の意味が識別されるＣＤ−ＲＯＭと、はめ込み属性データがはめ込まれて１つの文章を形成する文例を複数格納し、かつ、ディスプレイされる単語のはめ込み属性のデータと一致する文例を選択し選択文例にはめ込み属性データに代わってディスプレイされる単語をはめ込むためのはめ込み合成部と、はめ込み合成部により得られた文例を構成する単語の表音文字と、これに付加されている韻律データとに基づいて音声波形を処理する波形処理部とを備えた構成が示されている。
特開２０００−２９４８９号公報特開２００１−３３７６９０号公報特開平９−３４４９０号公報特開平１１−３２７５８０号公報

しかしながら、従来提案されている技術は、開発段階で発声内容を把握できる文言にあらかじめ韻律情報を付加しておき、合成時の処理負荷を低減することで自然な音声をリアルタイム出力する方法や、ノイズ環境により音量や話速などのパラメータを制御することで聞き取りやすくする方法などであり、肉声間のある高音質な音声を提供するには至っていない。

一方、近年の合成音声技術の進歩により、技術的には肉声間のある音声を合成することが可能になってきているが、数百ＭＢ以上の素片・音片データが必要になり、ナビゲーション装置やオーディオ装置等の車載装置のように少ないリソースでの実現は困難である。

すなわち、音声合成には、主に、フォルマント合成、連結的合成の２種類の合成方法がある。このうち、フォルマント合成は、少リソースで実現可能であるが、肉声間のない機械的な音声となる。一方、連結的合成では単語／音節／音素などの単位で録音音声を持ち、これを接続・信号処理して合成音声を出力するため、録音音声分のリソースが必要になるが高音質である。なお、この単位録音音声を素片・音片データといい、素片は音片よりも短い区切りの情報（例えば「あいちけん」の文言について、音片は「あいち」、「けん」、素片は「あ」、「い」、「ち」、「け」、「ん」という単位の情報）を表す。

連結的合成では、素片・音片データが十分に利用できれば自然な音声出力を実現できるものの、ナビゲーション装置やオーディオ装置等の車載装置では、リソースが少ない分、素片・音片データを十分に利用することができないため、連結的合成を採用したとしても本来の効果は得られにくい。

本発明は、こうした問題にかんがみてなされたものであり、車両において合成音声により自然な音声を出力することのできる音声出力システム及び車載装置を提供することを目的としている。

上記目的を達成するためになされた本発明の請求項１に記載の音声出力システムは、音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバとを備えるものである。この音声出力システムにおいて、車載装置では、要求手段が、特定の文言の合成音声を出力するために必要なデータをサーバに要求する。一方、サーバでは、提供手段が、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供する。そして、車載装置では、取得手段が、要求手段による要求に対してサーバから提供されるデータを取得する。

このような音声出力システムによれば、車載装置に比べ格段に大きなリソースを確保することのできる車両外部のサーバを利用することで、リソースの少ない車載装置であっても合成音声により自然な音声を出力することができる。すなわち、前述したように、合成音声により自然な音声を出力すること自体は技術的に可能であるが、大容量の要素データ（素片・音片データ）を使用することが前提となるため、車載装置単体では現実的に難しい。そこで、本発明の音声出力システムでは、車載装置が、大容量の要素データを管理可能な外部のサーバを利用することで、合成音声による自然な音声の出力を実現するようにしている。

ここで、特定の文言の合成音声を出力するために必要なデータとは、具体的には、例えば請求項２に記載のように、特定の文言の合成音声を表す音声データや、例えば請求項３に記載のように、特定の文言の合成音声を生成するために必要な要素データが挙げられる。前者の場合、車載装置は、取得した音声データの表す合成音声をそのまま出力することができ、後者の場合、取得した要素データに基づき合成音声を生成することでその生成した合成音声を出力することができる。

ところで、車載装置とサーバとの間のデータのやり取りとしては、他の通信装置を介した間接的な方法も可能であるが、例えば請求項４に記載のように、直接的な通信によりデータをやり取りすることが好ましい。

すなわち、請求項４に記載の音声出力システムでは、要求手段は、特定の文言の合成音声を出力するために必要なデータをサーバとの直接的な通信により要求し、提供手段は、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元の車載装置に直接的な通信により提供し、取得手段は、要求手段による要求に対してサーバから提供されるデータをサーバとの直接的な通信により取得する。

このような音声出力システムによれば、車載装置は、合成音声を出力するために必要なデータを早期に取得することができる。
ところで、文言が特定されたとしても、その文言に対応する合成音声は１種類のみに特定される訳ではなく、例えばナレータの種類が異なれば複数種類の合成音声が存在することになる。また、合成音声を表す音声データについても、データの圧縮形式やサンプリング周波数等、種々の設定が可能である。

そこで、例えば請求項５に記載の音声出力システムでは、提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元から指定された種類の合成音声を出力するために必要なデータをその要求元に提供する。このような音声出力システムによれば、要求元の指定に応じたデータを提供することができる。

また同様に、例えば請求項６に記載の音声出力システムでは、提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元の車載装置の機種に対応する種類の合成音声を出力するために必要なデータをその要求元に提供する。このような音声出力システムによれば、車載装置の機種に適応したデータを提供することができる。

ところで、合成音声を出力するために必要なデータを要求すべき文言が複数存在する場合、文言単位で要求を行うのは効率的ではない。
そこで、例えば請求項７に記載のように、要求手段が、特定の文言の合成音声を出力するために必要なデータを、複数の文言について一括して要求可能であれば、複数の文言についてのデータを効率的に要求することができる。

一方、サーバが、特定の文言について複数種類のデータを提供可能である場合、どのデータが最も好まれるのかをサーバ側では判定できない場合がある。
そこで、例えば請求項８に記載のように、提供手段が、特定の文言の合成音声を出力するために必要なデータとして、１つの文言に付き複数種類のデータを提供するとよい。このようにすれば、車載装置側で好みのデータを選択することが可能となる。

また、例えば請求項９に記載のように、車載装置が、取得手段により取得されたデータを外部の記憶装置にバックアップするバックアップ手段を備えていれば、車載装置のデータが破損したり車載装置を買い換えたりした場合にも、サーバから取得したデータを継続して利用することができる。

次に、請求項１０に記載の車載装置は、音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバとを備え、サーバが、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供するように構成された音声出力システムに用いられるものである。そして、この車載装置では、要求手段が、特定の文言の合成音声を出力するために必要なデータをサーバに要求し、取得手段が、要求手段による要求に対してサーバから提供されるデータを取得する。

このような車載装置によれば、請求項１記載の音声出力システムを構築することができ、これにより前述した効果を得ることができる。

以下、本発明が適用された実施形態について、図面を用いて説明する。
［１．第１実施形態］
図１は、第１実施形態の音声出力システムの概略構成図である。

同図に示すように、この音声出力システムは、車両に搭載されて用いられる車載装置５０と、複数の車載装置５０に対して合成音声を提供可能なインターネット上のサーバ１０とを備えている。

車載装置５０は、ナビゲーション機能やオーディオ機能等の複数の機能を有するマルチメディア機器であって、音声出力機能を有するものである。そして、車載装置５０は、サーバ１０との間で、直接的又は間接的にデータ通信を行う。具体的には、車載装置５０Ａのように、インターネット１を介してサーバ１０と直接的にデータ通信可能な通信装置（例えばパーソナルコンピュータや携帯電話機等）９０との間で、メモリカード等の可搬型の外部記憶装置８０を介してデータをやりとりすることにより、サーバ１０と間接的にデータ通信を行うことができる。また、車載装置５０Ｂのように、インターネット１を介してサーバ１０と直接的にデータ通信を行うこともできる。なお、本実施形態では、直接的及び間接的なデータ通信のいずれも可能な構成を例示するが、いずれか一方のみが可能な構成であってもよい。

次に、サーバ１０及び車載装置５０の構成について説明する。
図２は、サーバ１０の概略構成を表すブロック図である。
同図に示すように、サーバ１０は、通信制御部２０と、データ管理部３０と、音声合成部４０とを備えている。

通信制御部２０は、インターネット１を介してデータ通信を行うための通信制御を行う。
データ管理部３０は、内部の記憶装置（例えばハードディスク）に記憶された各種情報を管理する。具体的には、記憶装置には、合成音声を提供する対象となる複数の車載装置５０の識別情報と機種情報とを対応付けて管理する機種情報データベース（以下「データベース」を「ＤＢ」と略す。）３１と、音声合成のナレータ情報（女性Ａ、女性Ｂ、…、男性Ａ、男性Ｂ、…等）を管理するナレータ情報ＤＢ３２と、音声合成のプロファイル（圧縮形式を含む音声ファイル形式／サンプリング周波数／ビット数／話者識別等）を管理する音声プロファイル情報ＤＢ３３と、機種情報とその機種情報に対する適切なプロファイル及びナレータ情報との対応関係などを表す紐付け情報テーブル３４とが記憶されている。

音声合成部４０は、文言の情報に基づき表音文字列を生成する表音文字列生成部（文脈解析部）４１と、表音文字列生成部４１により生成された表音文字列に基づき韻律情報を生成する韻律生成部４２と、韻律生成部４２により生成された韻律情報に基づき音声波形を生成する波形生成部４３と、素片・音片データが記憶された音片・素片ＤＢ４４とを備えている。この音片・素片ＤＢ４４は十分な記憶容量（車載装置に用意するのは困難な記憶容量であり、例えばギガオーダー）を備えており、様々なバリエーションの音が記憶されている。

次に、車載装置５０の構成について説明する。
図３は、車載装置５０の概略構成を表すブロック図である。
同図に示すように、車載装置５０は、機能制御部５１と、登録地点ＤＢ５２と、電話帳ＤＢ５３と、ＣＤＤＢ５４と、表示出力制御部５５と、音声出力制御部５６と、録音音声ＤＢ５７と、音声データ管理部５８と、音声合成部６０とを備えている。なお、ＣＤＤＢ５４とは、音楽ＣＤに収録された楽曲に関する情報を提供するためのデータベースである。具体的には、ＣＤＤＢ５４には、音楽ＣＤの情報（アルバム名、曲名、アーティスト名等）として、情報を表す複数の文字列とともに、各文字列の読みが記憶されている。このため、例えば音楽ＣＤを再生する場合に、その音楽ＣＤの情報を表示したり音声出力したりするといったことが可能となる。

機能制御部５１は、ナビゲーション機能、エアコン機能、音声認識機能、ハンズフリー機能、オーディオ機能等の各種機能に関する制御を実行するものであり、登録地点ＤＢ５２、電話帳ＤＢ５３及びＣＤＤＢ５４は、これらの機能に利用される。また、音声認識機能では、車両に搭載されたマイク７２及び音声操作開始スイッチ７３が利用される。具体的には、ユーザによって音声操作開始スイッチ７３が押されている期間内にマイク７２から入力された音声に対して音声認識処理が行われる。

表示出力制御部５５は、機能制御部５１からの指令に従い、ユーザ（車両の乗員）に提示すべき画像を、車両室内に設置された表示装置７１に表示させる。
音声合成部６０は、サーバ１０側の音声合成部４０と同様、表音文字列生成部（文脈解析部）６１と、韻律生成部６２と、波形生成部６３と、音片・素片ＤＢ６４とを備えている。ただし、車載装置５０側の音片・素片ＤＢ６４は、サーバ１０側の音片・素片ＤＢ４４に比べると記憶容量が非常に小さいものであり（例えばメガオーダー）、サーバ１０側の記憶データのすべてを記憶することができない。

音声データ管理部５８は、車両に搭載されインターネット１を介した通信が可能なデータ通信機（例えば、車載装置５０に通信ケーブルを介して接続された状態の携帯電話機や車載用の専用通信モジュール等）７５又は外部記憶装置８０を介してサーバ１０と音声データのやり取りをするとともに、録音音声ＤＢ５７及び音片・素片ＤＢ６４に記憶された音声データを管理する。

音声出力制御部５６は、機能制御部５１からの指令に従い、出力すべき音（音声や音楽等）を、車両室内に設置されたスピーカ７４に出力させる。なお、音声出力制御部５６は、録音音声があらかじめ用意されている文言を出力する場合には、録音音声ＤＢ５７に記憶されている録音音声の音声データの中から該当する音声データを抽出して、その音声データの表す音をスピーカ７４に出力させる。一方、録音音声が用意されていない文言を出力する場合には、その文言を音声合成部６０により合成音声の音データを生成させた後、その音データの表す音をスピーカ７４に出力させる。

次に、第１実施形態の音声出力システムで実行される処理について説明する。
まず、車載装置５０が実行する合成音声生成要求処理について、図４のフローチャートを用いて説明する。なお、この処理は、合成音声の生成をサーバ１０に要求するための生成要求操作がユーザによって行われることにより開始される。

車載装置５０は、この合成音声生成要求処理を開始すると、まずＳ１０１で、合成音声の生成を要求する文言が１つであるか複数であるかを判定する。なお、以下の説明では、複数の文言についての合成音声（例えば、車載装置５０に記憶されているすべての楽曲に関する情報の合成音声等）を一括して生成する処理を「複数音声一括処理」と称し、１つの文言のみについての合成音声を生成する処理を「個別チューニング」と称する。

具体的には、ユーザは、生成要求操作として、複数音声一括処理及び個別チューニングのいずれか一方の操作を行うようになっており、Ｓ１０１ではこの操作内容に基づき、複数音声一括処理であるか個別チューニングであるかを判定する。例えば、ユーザが登録した登録地点のプロパティ画面で、その登録地点の「読み」に対応するように設けられたチューニングボタンを押すことにより、その文言についての生成要求操作（個別チューニング）と認識されるようにすることができる。また、複数の情報（楽曲情報等）が表示されている画面で一括チューニングボタンを押すことにより、表示情報の文言についての生成要求操作（複数音声一括処理）と認識されるようにすることができる。

そして、Ｓ１０１で、複数音声一括処理であると判定した場合には、Ｓ１０２へ移行し、合成音声を生成する文言のリストを生成する。その後、Ｓ１０４へ移行する。
一方、Ｓ１０１で、個別チューニングであると判定した場合には、Ｓ１０３へ移行し、合成音声を生成する１つの文言（チューニングする文言）を選択する。その後、Ｓ１０４へ移行する。

Ｓ１０４では、合成音声の生成を、外部記憶装置８０を介して間接的にサーバ１０に要求するか、車両に搭載されたデータ通信機７５を介して直接的にサーバ１０に要求するかを判定する。具体的には、ユーザの操作によりいずれか一方に設定可能となっており、ここではその設定内容に基づき判定する。

そして、Ｓ１０４で、合成音声の生成を外部記憶装置８０を介して間接的にサーバ１０に要求すると判定した場合には、Ｓ１０５へ移行し、合成音声の生成を要求する文言（１つの文言又は複数の文言からなる文言リスト）と管理ファイルとを外部記憶装置８０にコピーする処理を行う。ここでいう管理ファイルとは、当該車載装置５０の機種情報、生成する合成音声のナレータ情報、音声ファイル形式、サンプリング周波数等の情報である。このうち、生成する合成音声に関する情報は、ユーザによってあらかじめ設定された情報が用いられ、ユーザによる設定が行われていない場合には、管理ファイルとして機種情報のみが送信される。

その後、外部記憶装置８０にコピーした情報が通信装置（パーソナルコンピュータ等）９０で読み込まれ、通信装置９０からサーバ１０に転送されることにより、合成音声の生成要求が行われる（Ｓ１０６）。

これにより、サーバ１０では、音声の生成を要求された文言の合成音声を生成するとともに、管理ファイルを生成する（Ｓ１０７）。なお、ここでいう管理ファイルとは、生成した合成音声の音声データと文言との対応関係を記憶したリストファイルである。

そして、通信装置９０は、サーバ１０から合成音声の音声データ及び管理ファイルをダウンロードし、外部記憶装置８０に書き込む（Ｓ１０８）。その後、Ｓ１１３へ移行する。なお、Ｓ１０６〜Ｓ１０８及び後述するＳ１１０は、車載装置５０による処理ではないため、図面上、破線で表している。

一方、Ｓ１０４で、合成音声の生成をデータ通信機７５を介して直接的にサーバ１０に要求すると判定した場合には、Ｓ１０９へ移行し、合成音声の生成を要求する文言（１つの文言又は文言リスト）と管理ファイルとをサーバ１０に転送する処理を行うことで、合成音声の生成を要求する。

これにより、サーバ１０では、Ｓ１０７と同様、音声の生成を要求された文言の合成音声を生成するとともに、管理ファイルを生成する（Ｓ１１０）。なお、このＳ１１０では、個別チューニングの場合に限り、サーバ１０は、１つの文言について複数の合成音声候補を生成する。その後、Ｓ１１１へ移行する。

Ｓ１１１では、サーバ１０から合成音声の音声データ及び管理ファイルをダウンロードする。
続いて、Ｓ１１２では、個別チューニングの場合に限り、サーバ１０で生成された複数の合成音声候補の中から、採用すべき合成音声をユーザに選択させる。その後、Ｓ１１３へ移行する。

Ｓ１１３では、外部記憶装置８０を介して間接的に、又は、サーバ１０から直接的に取得した合成音声の音声データ及び管理ファイルをインストール（例えば、録音音声を内部ハードディスクにコピーし、読みデータと録音音声を紐付けした管理ファイルを更新）する。その後、本合成音声生成要求処理を終了する。

次に、サーバ１０が実行する音声合成データ提供処理について、図５のフローチャートを用いて説明する。なお、この処理は、車載装置５０から直接的に又は間接的に、合成音声の生成要求を受けることにより開始される。

サーバ１０は、この音声合成データ提供処理を開始すると、まずＳ２０１で、生成する合成音声のプロファイル（音声ファイル形式／サンプリング周波数／ビット数／話者識別等）及びナレータ情報を決定する。すなわち、車載装置５０に提供する合成音声のプロファイルが適切なものでないと、音声データの圧縮形式やサンプリング周波数の整合性が取れずに正しい音声が出力できないという問題が生じ得る。また、同種の情報に異なる複数のナレータの音声が用いられるといった不自然な現象も生じ得る。そこで、このＳ２０１では、要求元の車載装置５０に応じた適切なプロファイル及びナレータ情報を決定する。

具体的には、ユーザによりプロファイル及びナレータ情報が選択されている場合にはそれに決定し、選択されていない場合には車載装置５０の機種情報にあらかじめ対応付けられたプロファイル及びナレータ情報（紐付け情報テーブル３４に基づき特定される）に決定する。なお、ユーザにより選択されているプロファイル及びナレータ情報は、前述したＳ１０５，Ｓ１０９の処理により管理ファイルとしてサーバ１０に送られる。

続いて、Ｓ２０２では、合成音声の生成要求が複数音声一括処理か個別チューニングかを判定する。
そして、Ｓ２０２で、複数音声一括処理と判定した場合には、Ｓ２０３へ移行し、合成音声を生成する文言のリストを入力する。

続いて、Ｓ２０４では、表音文字列生成、韻律生成、波形生成の処理を行う。その後、Ｓ２０７へ移行する。
一方、Ｓ２０２で、個別チューニングと判定した場合には、Ｓ２０５へ移行し、チューニングする文言を入力する。

続いて、Ｓ２０６では、音声合成部４０において、表音文字列生成、韻律生成、波形生成の処理を行う。具体的には、１つの文言について複数の合成音声候補を生成し、複数候補の中からユーザが選択できるようにする。その後、Ｓ２０７へ移行する。

Ｓ２０７では、生成した合成音声の音声データと文言との対応関係を記憶したリストファイル（管理ファイル）を生成する。
続いて、Ｓ２０８では、生成した合成音声及び管理ファイルをユーザ（要求元の装置）に送信する。その後、本音声合成データ提供処理を終了する。

以上説明したように、第１実施形態の音声出力システムにおいて、車載装置５０は、特定の文言の合成音声を表す音声データをサーバ１０に要求し（Ｓ１０１〜Ｓ１０５，Ｓ１０９）、サーバ１０は、そのデータを要求元に提供する（Ｓ２０１〜Ｓ２０８）。そして、車載装置５０は、サーバ１０から提供されるデータを取得して利用可能とする（Ｓ１１１〜Ｓ１１３）。

このような音声出力システムによれば、車載装置５０に比べ格段に大容量の素片・音片データを管理可能な車両外部のサーバ１０を利用することで、リソースの少ない車載装置５０であっても合成音声により自然な音声を出力することができる。

すなわち、楽曲検索（曲名、アルバム名、アーティスト名等）、登録地点名称検索、電話帳検索等のガイド音声（音声操作のトークバック等）は、開発段階で文言を確定することができないため、高音質の録音音声をあらかじめ格納しておくことができない。そこで、楽曲検索ではＣＤＤＢ５４から取得した表音文字列を用いて、登録地点名称検索や電話帳検索では登録地点ＤＢ５２や電話帳ＤＢ５３から取得した読み情報（ユーザが入力したもの）を用いて、合成音声を出力することになる。しかしながら、車載装置では、音声合成のための大リソースを確保することができず、肉声感のない機械的な音声になってしまい、聞きにくいという問題があった。

そこで、本実施形態の音声出力システムでは、大規模なリソースを確保できるサーバ１０側で肉声感のある高音質な合成音声を生成して車載装置５０にインストールすることで、高音質音声出力を可能としている。

また、第１実施形態の音声出力システムでは、車載装置５０がサーバ１０と直接的に通信を行うことができるため（Ｓ１０９，Ｓ１１１）、合成音声を表す音声データを早期に取得することができる。

さらに、第１実施形態の音声出力システムでは、サーバ１０は、車載装置５０のユーザにより合成音声のプロファイル及びナレータ情報が選択されている場合にはそれを用い、選択されていない場合には車載装置５０の機種情報にあらかじめ対応付けられたプロファイル及びナレータ情報を用いる（Ｓ２０１）。このため、車載装置５０に対して適切な音声データを提供することができる。

すなわち、サーバ１０から車載装置５０に音声データを提供しても、その音声データの圧縮形式やサンプリング周波数の整合性が取れないと正しい音声が出力できないという問題が生じる。また、同種の情報に異なる複数のナレータの音声が用いられるのは不自然である。そこで、本実施形態の音声出力システムでは、サーバ１０側で、ユーザにより選択されたプロファイル等を選択したり、紐付け情報テーブル３４に基づき適切なプロファイル等を自動選択したりすることができるようにしている。

一方、第１実施形態の音声出力システムでは、特定の文言の合成音声を表す音声データを、複数の文言について一括して要求可能としているため（Ｓ１０２）、複数の文言についてのデータを効率的に要求することができる。

すなわち、サーバ１０で生成した合成音声をインストールすることで高音質化が期待できる文言をユーザが一文言ずつ選択することは非常に面倒である。そこで、本実施形態の音声出力システムでは、車載装置５０で文言リストを生成して直接的又は間接的にサーバ１０へ送信し、サーバ１０が、その文言リストを入力することで、全音声データを一括生成する。このため、簡単な操作で音質向上を実現することが可能となる。なお、文言リストは、例えば、（１）合成音声か録音音声か、（２）外部から登録された音声か否か、（３）ハードディスク等のインストール先の空き容量は十分か、（４）メモリやＣＰＵの処理能力、（５）音声改善を実施した文言か否か、などといった種々の条件を考慮して、車載装置５０で自動的に生成するようにしてもよい。

また、第１実施形態の音声出力システムでは、サーバ１０が、特定の文言の合成音声を表す音声データとして、１つの文言に付き複数種類のデータを提供するようにしているため（Ｓ２０６）、車載装置５０側で好みのデータを選択することが可能となる。

すなわち、合成音声は、同じ文言であっても、選択する素片・音片データによってリズムや抑揚などが異なってくる。音声出力システムが常に最適な音声を生成することができれば問題ないが、必ずしも、ユーザが好む音声を選定できるとは限らない。そこで、本実施形態の音声出力システムでは、複数候補の音声データを提示し、ユーザに選択させるようにしている。なお、音片／素片の接続数が少なく、かつ、韻律特性（高低や強弱）の整合性の良い候補から順に提示することで、利便性が向上する。

なお、第１実施形態の音声出力システムでは、Ｓ１０１〜Ｓ１０５，Ｓ１０９の処理が本発明の要求手段に相当し、Ｓ１１１〜Ｓ１１３の処理が本発明の取得手段に相当し、Ｓ２０１〜Ｓ２０８の処理が本発明の提供手段に相当する。

［２．第２実施形態］
次に、第２実施形態の音声出力システムについて説明する。
第２実施形態の音声出力システムは、基本的な構成は第１実施形態（図１）と同一であるが、サーバ１０から車載装置５０へ、要求された文言の合成音声そのものではなく、その文言の合成音声の生成に必要な素片・音片データを提供する点が異なる。具体的には、サーバ１０により実行される処理内容が第１実施形態と異なっている。

ここで、第２実施形態の音声出力システムで実行される処理について説明する。
まず、図５の音声合成データ提供処理に代えてサーバ１０が実行する音声合成データ提供処理について、図６のフローチャートを用いて説明する。なお、図６の処理のうち、Ｓ３０２〜Ｓ３０６の処理は、図５のＳ２０２〜Ｓ２０６の処理と同様の処理であるため、説明を省略する。

サーバ１０は、この音声合成データ提供処理を開始すると、まずＳ３０１で、生成する合成音声のプロファイル及びナレータ情報を、車載装置５０の機種情報にあらかじめ対応付けられたもの（紐付け情報テーブル３４に基づき特定される）に決定する。

そして、Ｓ３０２〜Ｓ３０６の後、Ｓ３０７では、生成した合成音声から素片・音片データを抽出する。つまり、この合成音声を車載装置５０で生成可能とするための素片・音片データを生成する。

続いて、Ｓ３０８では、生成した素片・音片データと素片・音片表記との対応関係を記憶したリストファイル（管理ファイル）を生成する。
続いて、Ｓ３０９では、Ｓ３０７で生成（抽出）した素片・音片データ及びＳ３０８で生成した管理ファイルをユーザ（要求元の装置）に送信する。その後、本音声合成データ提供処理を終了する。

以上説明したように、第２実施形態の音声出力システムでは、車載装置５０が、要求する文言の合成音声そのものではなく、その文言の合成音声の生成に必要な素片・音片データをサーバ１０から取得して利用可能とする。このような第２実施形態の音声出力システムによっても、第１実施形態の音声出力システムと同様の効果を得ることができる。

なお、第２実施形態の音声出力システムでは、Ｓ１０１〜Ｓ１０５，Ｓ１０９の処理が本発明の要求手段に相当し、Ｓ１１１〜Ｓ１１３の処理が本発明の取得手段に相当し、Ｓ３０１〜Ｓ３０９の処理が本発明の提供手段に相当する。

［３．他の形態］
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されることなく、種々の形態を採り得ることは言うまでもない。

例えば、サーバ１０が、生成した音声データを暗号化した上で車載装置５０に提供するようにし、車載装置５０にそれを復号する手段を設けるようにしてもよい。このようにすれば、サーバ１０で生成した音声データが他用途で使用（悪用）されることを防ぐことができる。

また、上記実施形態では、合成音声の生成を要求する文言を車載装置５０からサーバ１０へ送るようにしているが、この文言に加え、この文言の前後の文章情報も付加して送るようにしてもよい。すなわち、録音音声と合成音声とをつなぎ合わせて音声出力する場合（例えば、「○○さんの家」という合成音声を用いて「もうすぐ○○さんの家に到着します」といったアナウンスを行う場合など）には、文章全体（合成音声部分の前後）の韻律を考慮して音声合成することが好ましい。この点、前後の文章情報を付加してサーバ１０へ送るようにすれば、サーバ１０では、その情報を利用して韻律解析をすることが可能となる。その際、カタカナの読み情報だけでなく、韻律情報を付加した表音文字列や、漢字などのテキスト情報があると、より精度の高い文脈解析が可能である。

一方、上記実施形態では、車載装置５０は、サーバ１０から取得したデータを内部ハードディスク等にインストールするが、例えば、車両や車載装置５０の買い換え時など、車載装置５０のバッテリー電源を外した際に、データが破損してしまう可能性がある。そこで、素片・音片データ、音声データ、管理ファイル等のデータをバックアップする手段を備えていることが好ましい。具体的には、上記実施形態で例示した構成（図１）において、例えば、音声データ管理部５８が、外部記憶装置８０が接続された状態で、ユーザ操作時に又はあらかじめ定められたタイミングで（例えば定期的に）、録音音声ＤＢ５７や音片・素片ＤＢ６４のデータを外部記憶装置８０にバックアップする処理を行うようにする。また、外部記憶装置８０の代わりに、例えばバックアップ用の外部ハードディスクを更に備えるようにしてもよい。このようにすることで、車載装置５０のデータが破損した場合にも、サーバ１０から取得したデータをその後も継続して利用することができる。なお、バックアップデータを暗号化することで、バックアップデータが他の目的に転用されることを防ぐことができる。

実施形態の音声出力システムの概略構成図である。サーバの概略構成を表すブロック図である。車載装置の概略構成を表すブロック図である。合成音声生成要求処理のフローチャートである。第１実施形態の音声合成データ提供処理のフローチャートである。第２実施形態の音声合成データ提供処理のフローチャートである。

符号の説明

１…インターネット、１０…サーバ、２０…通信制御部、３０…データ管理部、３１…機種情報ＤＢ、３２…ナレータ情報ＤＢ、３３…音声プロファイル情報ＤＢ、３４…紐付け情報テーブル、４０…音声合成部、４１…表音文字列生成部、４２…韻律生成部、４３…波形生成部、４４…音片・素片ＤＢ４４、５０…車載装置、５１…機能制御部、５２…登録地点ＤＢ、５３…電話帳ＤＢ、５４…ＣＤＤＢ、５５…表示出力制御部、５６…音声出力制御部、５７…録音音声ＤＢ、５８…音声データ管理部、６０…音声合成部、６１…表音文字列生成部、６２…韻律生成部、６３…波形生成部、６４…音片・素片ＤＢ、７１…表示装置、７２…マイク、７３…音声操作開始スイッチ、７４…スピーカ、７５…データ通信機、８０…外部記憶装置、９０…通信装置

Claims

音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバと、を備える音声出力システムであって、
前記車載装置は、
特定の文言の合成音声を出力するために必要なデータを前記サーバに要求する要求手段と、
前記要求手段による要求に対して前記サーバから提供されるデータを取得する取得手段と、を備え、
前記サーバは、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供する提供手段を備えること
を特徴とする音声出力システム。
前記特定の文言の合成音声を出力するために必要なデータとは、その特定の文言の合成音声を表す音声データであること
を特徴とする請求項１に記載の音声出力システム。
前記特定の文言の合成音声を出力するために必要なデータとは、その特定の文言の合成音声を生成するために必要な要素データであること
を特徴とする請求項１に記載の音声出力システム。
前記要求手段は、特定の文言の合成音声を出力するために必要なデータを前記サーバとの直接的な通信により要求し、
前記提供手段は、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元の車載装置に直接的な通信により提供し、
前記取得手段は、前記要求手段による要求に対して前記サーバから提供されるデータを前記サーバとの直接的な通信により取得すること
を特徴とする請求項１から請求項３までのいずれか１項に記載の音声出力システム。
前記提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元から指定された種類の合成音声を出力するために必要なデータをその要求元に提供すること
を特徴とする請求項１から請求項４までのいずれか１項に記載の音声出力システム。
前記提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元の車載装置の機種に対応する種類の合成音声を出力するために必要なデータをその要求元に提供すること
を特徴とする請求項１から請求項５までのいずれか１項に記載の音声出力システム。
前記要求手段は、特定の文言の合成音声を出力するために必要なデータを、複数の文言について一括して要求可能であること
を特徴とする請求項１から請求項６までのいずれか１項に記載の音声出力システム。
前記提供手段は、特定の文言の合成音声を出力するために必要なデータとして、１つの文言に付き複数種類のデータを提供すること
を特徴とする請求項１から請求項７までのいずれか１項に記載の音声出力システム。
前記車載装置は、前記取得手段により取得されたデータを外部の記憶装置にバックアップするバックアップ手段を備えること
を特徴とする請求項１から請求項８までのいずれか１項に記載の音声出力システム。
音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバと、を備え、前記サーバが、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供するように構成された音声出力システムに用いられる車載装置であって、
特定の文言の合成音声を出力するために必要なデータを前記サーバに要求する要求手段と、
前記要求手段による要求に対して前記サーバから提供されるデータを取得する取得手段と、
を備えることを特徴とする車載装置。