JP2010048959A - 音声出力システム及び車載装置 - Google Patents
音声出力システム及び車載装置 Download PDFInfo
- Publication number
- JP2010048959A JP2010048959A JP2008211970A JP2008211970A JP2010048959A JP 2010048959 A JP2010048959 A JP 2010048959A JP 2008211970 A JP2008211970 A JP 2008211970A JP 2008211970 A JP2008211970 A JP 2008211970A JP 2010048959 A JP2010048959 A JP 2010048959A
- Authority
- JP
- Japan
- Prior art keywords
- data
- server
- synthesized speech
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Traffic Control Systems (AREA)
Abstract
【課題】車両において合成音声により自然な音声を出力する。
【解決手段】音声出力システムは、音声出力機能を有する車載装置50と、合成音声を表す音声データを提供するサーバ10とを備え、車載装置50は、特定の文言の合成音声を表す音声データをサーバ10に要求する。一方、サーバ10は、特定の文言の合成音声を表す音声データを要求された場合に、そのデータを要求元に提供する。そして、車載装置50は、サーバ10から提供されるデータを取得して利用可能とする。このような音声出力システムによれば、車載装置50に比べ格段に大容量の素片・音片データを管理可能な車両外部のサーバ10を利用することで、リソースの少ない車載装置50であっても合成音声により自然な音声を出力することができる。
【選択図】図1
【解決手段】音声出力システムは、音声出力機能を有する車載装置50と、合成音声を表す音声データを提供するサーバ10とを備え、車載装置50は、特定の文言の合成音声を表す音声データをサーバ10に要求する。一方、サーバ10は、特定の文言の合成音声を表す音声データを要求された場合に、そのデータを要求元に提供する。そして、車載装置50は、サーバ10から提供されるデータを取得して利用可能とする。このような音声出力システムによれば、車載装置50に比べ格段に大容量の素片・音片データを管理可能な車両外部のサーバ10を利用することで、リソースの少ない車載装置50であっても合成音声により自然な音声を出力することができる。
【選択図】図1
Description
本発明は、車両において合成音声を出力するための音声出力システム及び車載装置に関するものである。
ナビゲーション装置やオーディオ装置等の車載装置で用いられる音声出力は、あらかじめ用意されている録音音声を再生するものと、合成音声を生成して再生するものとに大別される。また、出力される音声としては、経路案内や操作ガイドなどあらかじめ想定できる固有音声と、ユーザがリッピングした楽曲の情報(曲名、アルバム名、アーティスト名等)やメモリ登録地点の名称などのようにあらかじめ想定することのできない汎用音声とが存在する。
ここで、固有音声については、録音音声による高音質な音声出力が可能であるが、汎用音声については、音声出力する文言が事前に想定できないことから、録音音声をあらかじめ格納しておくことができない。このため、合成音声を生成して音声出力を行うこととなるが、合成音声の場合、文言によっては不自然に聞こえることがある。
そこで、合成音声により自然な音声出力を実現するため、種々の技術が提案されている。
例えば、特許文献1には、合成音声による音声出力が不自然な発声になってしまう問題にかんがみ、読み仮名情報中の複合語関係を解析した結果に基づいて、読み仮名情報にアクセント情報を付与する技術が示されている。
例えば、特許文献1には、合成音声による音声出力が不自然な発声になってしまう問題にかんがみ、読み仮名情報中の複合語関係を解析した結果に基づいて、読み仮名情報にアクセント情報を付与する技術が示されている。
また、特許文献2には、車両の走行速度に応じて韻律パラメータを更新することで、合成音声による音声出力を車両の乗員が聞き取りやすくする技術が示されている。
また、特許文献3には、定型文及び入力単語の音韻情報に基づいて、置き換え文の音韻情報を生成するとともに、定型文及び入力単語の韻律情報を、その整合性をとりながら接続することにより、置き換え文の韻律情報を生成する技術が示されている。
また、特許文献3には、定型文及び入力単語の音韻情報に基づいて、置き換え文の音韻情報を生成するとともに、定型文及び入力単語の韻律情報を、その整合性をとりながら接続することにより、置き換え文の韻律情報を生成する技術が示されている。
また、特許文献4には、道路地図データとともに、表音文字でディスプレイされる単語と、単語の表音文字に付加される韻律データとを格納し、かつ、はめ込み属性のデータにより単語の意味が識別されるCD−ROMと、はめ込み属性データがはめ込まれて1つの文章を形成する文例を複数格納し、かつ、ディスプレイされる単語のはめ込み属性のデータと一致する文例を選択し選択文例にはめ込み属性データに代わってディスプレイされる単語をはめ込むためのはめ込み合成部と、はめ込み合成部により得られた文例を構成する単語の表音文字と、これに付加されている韻律データとに基づいて音声波形を処理する波形処理部とを備えた構成が示されている。
特開2000−29489号公報
特開2001−337690号公報
特開平9−34490号公報
特開平11−327580号公報
しかしながら、従来提案されている技術は、開発段階で発声内容を把握できる文言にあらかじめ韻律情報を付加しておき、合成時の処理負荷を低減することで自然な音声をリアルタイム出力する方法や、ノイズ環境により音量や話速などのパラメータを制御することで聞き取りやすくする方法などであり、肉声間のある高音質な音声を提供するには至っていない。
一方、近年の合成音声技術の進歩により、技術的には肉声間のある音声を合成することが可能になってきているが、数百MB以上の素片・音片データが必要になり、ナビゲーション装置やオーディオ装置等の車載装置のように少ないリソースでの実現は困難である。
すなわち、音声合成には、主に、フォルマント合成、連結的合成の2種類の合成方法がある。このうち、フォルマント合成は、少リソースで実現可能であるが、肉声間のない機械的な音声となる。一方、連結的合成では単語/音節/音素などの単位で録音音声を持ち、これを接続・信号処理して合成音声を出力するため、録音音声分のリソースが必要になるが高音質である。なお、この単位録音音声を素片・音片データといい、素片は音片よりも短い区切りの情報(例えば「あいちけん」の文言について、音片は「あいち」、「けん」、素片は「あ」、「い」、「ち」、「け」、「ん」という単位の情報)を表す。
連結的合成では、素片・音片データが十分に利用できれば自然な音声出力を実現できるものの、ナビゲーション装置やオーディオ装置等の車載装置では、リソースが少ない分、素片・音片データを十分に利用することができないため、連結的合成を採用したとしても本来の効果は得られにくい。
本発明は、こうした問題にかんがみてなされたものであり、車両において合成音声により自然な音声を出力することのできる音声出力システム及び車載装置を提供することを目的としている。
上記目的を達成するためになされた本発明の請求項1に記載の音声出力システムは、音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバとを備えるものである。この音声出力システムにおいて、車載装置では、要求手段が、特定の文言の合成音声を出力するために必要なデータをサーバに要求する。一方、サーバでは、提供手段が、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供する。そして、車載装置では、取得手段が、要求手段による要求に対してサーバから提供されるデータを取得する。
このような音声出力システムによれば、車載装置に比べ格段に大きなリソースを確保することのできる車両外部のサーバを利用することで、リソースの少ない車載装置であっても合成音声により自然な音声を出力することができる。すなわち、前述したように、合成音声により自然な音声を出力すること自体は技術的に可能であるが、大容量の要素データ(素片・音片データ)を使用することが前提となるため、車載装置単体では現実的に難しい。そこで、本発明の音声出力システムでは、車載装置が、大容量の要素データを管理可能な外部のサーバを利用することで、合成音声による自然な音声の出力を実現するようにしている。
ここで、特定の文言の合成音声を出力するために必要なデータとは、具体的には、例えば請求項2に記載のように、特定の文言の合成音声を表す音声データや、例えば請求項3に記載のように、特定の文言の合成音声を生成するために必要な要素データが挙げられる。前者の場合、車載装置は、取得した音声データの表す合成音声をそのまま出力することができ、後者の場合、取得した要素データに基づき合成音声を生成することでその生成した合成音声を出力することができる。
ところで、車載装置とサーバとの間のデータのやり取りとしては、他の通信装置を介した間接的な方法も可能であるが、例えば請求項4に記載のように、直接的な通信によりデータをやり取りすることが好ましい。
すなわち、請求項4に記載の音声出力システムでは、要求手段は、特定の文言の合成音声を出力するために必要なデータをサーバとの直接的な通信により要求し、提供手段は、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元の車載装置に直接的な通信により提供し、取得手段は、要求手段による要求に対してサーバから提供されるデータをサーバとの直接的な通信により取得する。
このような音声出力システムによれば、車載装置は、合成音声を出力するために必要なデータを早期に取得することができる。
ところで、文言が特定されたとしても、その文言に対応する合成音声は1種類のみに特定される訳ではなく、例えばナレータの種類が異なれば複数種類の合成音声が存在することになる。また、合成音声を表す音声データについても、データの圧縮形式やサンプリング周波数等、種々の設定が可能である。
ところで、文言が特定されたとしても、その文言に対応する合成音声は1種類のみに特定される訳ではなく、例えばナレータの種類が異なれば複数種類の合成音声が存在することになる。また、合成音声を表す音声データについても、データの圧縮形式やサンプリング周波数等、種々の設定が可能である。
そこで、例えば請求項5に記載の音声出力システムでは、提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元から指定された種類の合成音声を出力するために必要なデータをその要求元に提供する。このような音声出力システムによれば、要求元の指定に応じたデータを提供することができる。
また同様に、例えば請求項6に記載の音声出力システムでは、提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元の車載装置の機種に対応する種類の合成音声を出力するために必要なデータをその要求元に提供する。このような音声出力システムによれば、車載装置の機種に適応したデータを提供することができる。
ところで、合成音声を出力するために必要なデータを要求すべき文言が複数存在する場合、文言単位で要求を行うのは効率的ではない。
そこで、例えば請求項7に記載のように、要求手段が、特定の文言の合成音声を出力するために必要なデータを、複数の文言について一括して要求可能であれば、複数の文言についてのデータを効率的に要求することができる。
そこで、例えば請求項7に記載のように、要求手段が、特定の文言の合成音声を出力するために必要なデータを、複数の文言について一括して要求可能であれば、複数の文言についてのデータを効率的に要求することができる。
一方、サーバが、特定の文言について複数種類のデータを提供可能である場合、どのデータが最も好まれるのかをサーバ側では判定できない場合がある。
そこで、例えば請求項8に記載のように、提供手段が、特定の文言の合成音声を出力するために必要なデータとして、1つの文言に付き複数種類のデータを提供するとよい。このようにすれば、車載装置側で好みのデータを選択することが可能となる。
そこで、例えば請求項8に記載のように、提供手段が、特定の文言の合成音声を出力するために必要なデータとして、1つの文言に付き複数種類のデータを提供するとよい。このようにすれば、車載装置側で好みのデータを選択することが可能となる。
また、例えば請求項9に記載のように、車載装置が、取得手段により取得されたデータを外部の記憶装置にバックアップするバックアップ手段を備えていれば、車載装置のデータが破損したり車載装置を買い換えたりした場合にも、サーバから取得したデータを継続して利用することができる。
次に、請求項10に記載の車載装置は、音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバとを備え、サーバが、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供するように構成された音声出力システムに用いられるものである。そして、この車載装置では、要求手段が、特定の文言の合成音声を出力するために必要なデータをサーバに要求し、取得手段が、要求手段による要求に対してサーバから提供されるデータを取得する。
このような車載装置によれば、請求項1記載の音声出力システムを構築することができ、これにより前述した効果を得ることができる。
以下、本発明が適用された実施形態について、図面を用いて説明する。
[1.第1実施形態]
図1は、第1実施形態の音声出力システムの概略構成図である。
[1.第1実施形態]
図1は、第1実施形態の音声出力システムの概略構成図である。
同図に示すように、この音声出力システムは、車両に搭載されて用いられる車載装置50と、複数の車載装置50に対して合成音声を提供可能なインターネット上のサーバ10とを備えている。
車載装置50は、ナビゲーション機能やオーディオ機能等の複数の機能を有するマルチメディア機器であって、音声出力機能を有するものである。そして、車載装置50は、サーバ10との間で、直接的又は間接的にデータ通信を行う。具体的には、車載装置50Aのように、インターネット1を介してサーバ10と直接的にデータ通信可能な通信装置(例えばパーソナルコンピュータや携帯電話機等)90との間で、メモリカード等の可搬型の外部記憶装置80を介してデータをやりとりすることにより、サーバ10と間接的にデータ通信を行うことができる。また、車載装置50Bのように、インターネット1を介してサーバ10と直接的にデータ通信を行うこともできる。なお、本実施形態では、直接的及び間接的なデータ通信のいずれも可能な構成を例示するが、いずれか一方のみが可能な構成であってもよい。
次に、サーバ10及び車載装置50の構成について説明する。
図2は、サーバ10の概略構成を表すブロック図である。
同図に示すように、サーバ10は、通信制御部20と、データ管理部30と、音声合成部40とを備えている。
図2は、サーバ10の概略構成を表すブロック図である。
同図に示すように、サーバ10は、通信制御部20と、データ管理部30と、音声合成部40とを備えている。
通信制御部20は、インターネット1を介してデータ通信を行うための通信制御を行う。
データ管理部30は、内部の記憶装置(例えばハードディスク)に記憶された各種情報を管理する。具体的には、記憶装置には、合成音声を提供する対象となる複数の車載装置50の識別情報と機種情報とを対応付けて管理する機種情報データベース(以下「データベース」を「DB」と略す。)31と、音声合成のナレータ情報(女性A、女性B、…、男性A、男性B、…等)を管理するナレータ情報DB32と、音声合成のプロファイル(圧縮形式を含む音声ファイル形式/サンプリング周波数/ビット数/話者識別等)を管理する音声プロファイル情報DB33と、機種情報とその機種情報に対する適切なプロファイル及びナレータ情報との対応関係などを表す紐付け情報テーブル34とが記憶されている。
データ管理部30は、内部の記憶装置(例えばハードディスク)に記憶された各種情報を管理する。具体的には、記憶装置には、合成音声を提供する対象となる複数の車載装置50の識別情報と機種情報とを対応付けて管理する機種情報データベース(以下「データベース」を「DB」と略す。)31と、音声合成のナレータ情報(女性A、女性B、…、男性A、男性B、…等)を管理するナレータ情報DB32と、音声合成のプロファイル(圧縮形式を含む音声ファイル形式/サンプリング周波数/ビット数/話者識別等)を管理する音声プロファイル情報DB33と、機種情報とその機種情報に対する適切なプロファイル及びナレータ情報との対応関係などを表す紐付け情報テーブル34とが記憶されている。
音声合成部40は、文言の情報に基づき表音文字列を生成する表音文字列生成部(文脈解析部)41と、表音文字列生成部41により生成された表音文字列に基づき韻律情報を生成する韻律生成部42と、韻律生成部42により生成された韻律情報に基づき音声波形を生成する波形生成部43と、素片・音片データが記憶された音片・素片DB44とを備えている。この音片・素片DB44は十分な記憶容量(車載装置に用意するのは困難な記憶容量であり、例えばギガオーダー)を備えており、様々なバリエーションの音が記憶されている。
次に、車載装置50の構成について説明する。
図3は、車載装置50の概略構成を表すブロック図である。
同図に示すように、車載装置50は、機能制御部51と、登録地点DB52と、電話帳DB53と、CDDB54と、表示出力制御部55と、音声出力制御部56と、録音音声DB57と、音声データ管理部58と、音声合成部60とを備えている。なお、CDDB54とは、音楽CDに収録された楽曲に関する情報を提供するためのデータベースである。具体的には、CDDB54には、音楽CDの情報(アルバム名、曲名、アーティスト名等)として、情報を表す複数の文字列とともに、各文字列の読みが記憶されている。このため、例えば音楽CDを再生する場合に、その音楽CDの情報を表示したり音声出力したりするといったことが可能となる。
図3は、車載装置50の概略構成を表すブロック図である。
同図に示すように、車載装置50は、機能制御部51と、登録地点DB52と、電話帳DB53と、CDDB54と、表示出力制御部55と、音声出力制御部56と、録音音声DB57と、音声データ管理部58と、音声合成部60とを備えている。なお、CDDB54とは、音楽CDに収録された楽曲に関する情報を提供するためのデータベースである。具体的には、CDDB54には、音楽CDの情報(アルバム名、曲名、アーティスト名等)として、情報を表す複数の文字列とともに、各文字列の読みが記憶されている。このため、例えば音楽CDを再生する場合に、その音楽CDの情報を表示したり音声出力したりするといったことが可能となる。
機能制御部51は、ナビゲーション機能、エアコン機能、音声認識機能、ハンズフリー機能、オーディオ機能等の各種機能に関する制御を実行するものであり、登録地点DB52、電話帳DB53及びCDDB54は、これらの機能に利用される。また、音声認識機能では、車両に搭載されたマイク72及び音声操作開始スイッチ73が利用される。具体的には、ユーザによって音声操作開始スイッチ73が押されている期間内にマイク72から入力された音声に対して音声認識処理が行われる。
表示出力制御部55は、機能制御部51からの指令に従い、ユーザ(車両の乗員)に提示すべき画像を、車両室内に設置された表示装置71に表示させる。
音声合成部60は、サーバ10側の音声合成部40と同様、表音文字列生成部(文脈解析部)61と、韻律生成部62と、波形生成部63と、音片・素片DB64とを備えている。ただし、車載装置50側の音片・素片DB64は、サーバ10側の音片・素片DB44に比べると記憶容量が非常に小さいものであり(例えばメガオーダー)、サーバ10側の記憶データのすべてを記憶することができない。
音声合成部60は、サーバ10側の音声合成部40と同様、表音文字列生成部(文脈解析部)61と、韻律生成部62と、波形生成部63と、音片・素片DB64とを備えている。ただし、車載装置50側の音片・素片DB64は、サーバ10側の音片・素片DB44に比べると記憶容量が非常に小さいものであり(例えばメガオーダー)、サーバ10側の記憶データのすべてを記憶することができない。
音声データ管理部58は、車両に搭載されインターネット1を介した通信が可能なデータ通信機(例えば、車載装置50に通信ケーブルを介して接続された状態の携帯電話機や車載用の専用通信モジュール等)75又は外部記憶装置80を介してサーバ10と音声データのやり取りをするとともに、録音音声DB57及び音片・素片DB64に記憶された音声データを管理する。
音声出力制御部56は、機能制御部51からの指令に従い、出力すべき音(音声や音楽等)を、車両室内に設置されたスピーカ74に出力させる。なお、音声出力制御部56は、録音音声があらかじめ用意されている文言を出力する場合には、録音音声DB57に記憶されている録音音声の音声データの中から該当する音声データを抽出して、その音声データの表す音をスピーカ74に出力させる。一方、録音音声が用意されていない文言を出力する場合には、その文言を音声合成部60により合成音声の音データを生成させた後、その音データの表す音をスピーカ74に出力させる。
次に、第1実施形態の音声出力システムで実行される処理について説明する。
まず、車載装置50が実行する合成音声生成要求処理について、図4のフローチャートを用いて説明する。なお、この処理は、合成音声の生成をサーバ10に要求するための生成要求操作がユーザによって行われることにより開始される。
まず、車載装置50が実行する合成音声生成要求処理について、図4のフローチャートを用いて説明する。なお、この処理は、合成音声の生成をサーバ10に要求するための生成要求操作がユーザによって行われることにより開始される。
車載装置50は、この合成音声生成要求処理を開始すると、まずS101で、合成音声の生成を要求する文言が1つであるか複数であるかを判定する。なお、以下の説明では、複数の文言についての合成音声(例えば、車載装置50に記憶されているすべての楽曲に関する情報の合成音声等)を一括して生成する処理を「複数音声一括処理」と称し、1つの文言のみについての合成音声を生成する処理を「個別チューニング」と称する。
具体的には、ユーザは、生成要求操作として、複数音声一括処理及び個別チューニングのいずれか一方の操作を行うようになっており、S101ではこの操作内容に基づき、複数音声一括処理であるか個別チューニングであるかを判定する。例えば、ユーザが登録した登録地点のプロパティ画面で、その登録地点の「読み」に対応するように設けられたチューニングボタンを押すことにより、その文言についての生成要求操作(個別チューニング)と認識されるようにすることができる。また、複数の情報(楽曲情報等)が表示されている画面で一括チューニングボタンを押すことにより、表示情報の文言についての生成要求操作(複数音声一括処理)と認識されるようにすることができる。
そして、S101で、複数音声一括処理であると判定した場合には、S102へ移行し、合成音声を生成する文言のリストを生成する。その後、S104へ移行する。
一方、S101で、個別チューニングであると判定した場合には、S103へ移行し、合成音声を生成する1つの文言(チューニングする文言)を選択する。その後、S104へ移行する。
一方、S101で、個別チューニングであると判定した場合には、S103へ移行し、合成音声を生成する1つの文言(チューニングする文言)を選択する。その後、S104へ移行する。
S104では、合成音声の生成を、外部記憶装置80を介して間接的にサーバ10に要求するか、車両に搭載されたデータ通信機75を介して直接的にサーバ10に要求するかを判定する。具体的には、ユーザの操作によりいずれか一方に設定可能となっており、ここではその設定内容に基づき判定する。
そして、S104で、合成音声の生成を外部記憶装置80を介して間接的にサーバ10に要求すると判定した場合には、S105へ移行し、合成音声の生成を要求する文言(1つの文言又は複数の文言からなる文言リスト)と管理ファイルとを外部記憶装置80にコピーする処理を行う。ここでいう管理ファイルとは、当該車載装置50の機種情報、生成する合成音声のナレータ情報、音声ファイル形式、サンプリング周波数等の情報である。このうち、生成する合成音声に関する情報は、ユーザによってあらかじめ設定された情報が用いられ、ユーザによる設定が行われていない場合には、管理ファイルとして機種情報のみが送信される。
その後、外部記憶装置80にコピーした情報が通信装置(パーソナルコンピュータ等)90で読み込まれ、通信装置90からサーバ10に転送されることにより、合成音声の生成要求が行われる(S106)。
これにより、サーバ10では、音声の生成を要求された文言の合成音声を生成するとともに、管理ファイルを生成する(S107)。なお、ここでいう管理ファイルとは、生成した合成音声の音声データと文言との対応関係を記憶したリストファイルである。
そして、通信装置90は、サーバ10から合成音声の音声データ及び管理ファイルをダウンロードし、外部記憶装置80に書き込む(S108)。その後、S113へ移行する。なお、S106〜S108及び後述するS110は、車載装置50による処理ではないため、図面上、破線で表している。
一方、S104で、合成音声の生成をデータ通信機75を介して直接的にサーバ10に要求すると判定した場合には、S109へ移行し、合成音声の生成を要求する文言(1つの文言又は文言リスト)と管理ファイルとをサーバ10に転送する処理を行うことで、合成音声の生成を要求する。
これにより、サーバ10では、S107と同様、音声の生成を要求された文言の合成音声を生成するとともに、管理ファイルを生成する(S110)。なお、このS110では、個別チューニングの場合に限り、サーバ10は、1つの文言について複数の合成音声候補を生成する。その後、S111へ移行する。
S111では、サーバ10から合成音声の音声データ及び管理ファイルをダウンロードする。
続いて、S112では、個別チューニングの場合に限り、サーバ10で生成された複数の合成音声候補の中から、採用すべき合成音声をユーザに選択させる。その後、S113へ移行する。
続いて、S112では、個別チューニングの場合に限り、サーバ10で生成された複数の合成音声候補の中から、採用すべき合成音声をユーザに選択させる。その後、S113へ移行する。
S113では、外部記憶装置80を介して間接的に、又は、サーバ10から直接的に取得した合成音声の音声データ及び管理ファイルをインストール(例えば、録音音声を内部ハードディスクにコピーし、読みデータと録音音声を紐付けした管理ファイルを更新)する。その後、本合成音声生成要求処理を終了する。
次に、サーバ10が実行する音声合成データ提供処理について、図5のフローチャートを用いて説明する。なお、この処理は、車載装置50から直接的に又は間接的に、合成音声の生成要求を受けることにより開始される。
サーバ10は、この音声合成データ提供処理を開始すると、まずS201で、生成する合成音声のプロファイル(音声ファイル形式/サンプリング周波数/ビット数/話者識別等)及びナレータ情報を決定する。すなわち、車載装置50に提供する合成音声のプロファイルが適切なものでないと、音声データの圧縮形式やサンプリング周波数の整合性が取れずに正しい音声が出力できないという問題が生じ得る。また、同種の情報に異なる複数のナレータの音声が用いられるといった不自然な現象も生じ得る。そこで、このS201では、要求元の車載装置50に応じた適切なプロファイル及びナレータ情報を決定する。
具体的には、ユーザによりプロファイル及びナレータ情報が選択されている場合にはそれに決定し、選択されていない場合には車載装置50の機種情報にあらかじめ対応付けられたプロファイル及びナレータ情報(紐付け情報テーブル34に基づき特定される)に決定する。なお、ユーザにより選択されているプロファイル及びナレータ情報は、前述したS105,S109の処理により管理ファイルとしてサーバ10に送られる。
続いて、S202では、合成音声の生成要求が複数音声一括処理か個別チューニングかを判定する。
そして、S202で、複数音声一括処理と判定した場合には、S203へ移行し、合成音声を生成する文言のリストを入力する。
そして、S202で、複数音声一括処理と判定した場合には、S203へ移行し、合成音声を生成する文言のリストを入力する。
続いて、S204では、表音文字列生成、韻律生成、波形生成の処理を行う。その後、S207へ移行する。
一方、S202で、個別チューニングと判定した場合には、S205へ移行し、チューニングする文言を入力する。
一方、S202で、個別チューニングと判定した場合には、S205へ移行し、チューニングする文言を入力する。
続いて、S206では、音声合成部40において、表音文字列生成、韻律生成、波形生成の処理を行う。具体的には、1つの文言について複数の合成音声候補を生成し、複数候補の中からユーザが選択できるようにする。その後、S207へ移行する。
S207では、生成した合成音声の音声データと文言との対応関係を記憶したリストファイル(管理ファイル)を生成する。
続いて、S208では、生成した合成音声及び管理ファイルをユーザ(要求元の装置)に送信する。その後、本音声合成データ提供処理を終了する。
続いて、S208では、生成した合成音声及び管理ファイルをユーザ(要求元の装置)に送信する。その後、本音声合成データ提供処理を終了する。
以上説明したように、第1実施形態の音声出力システムにおいて、車載装置50は、特定の文言の合成音声を表す音声データをサーバ10に要求し(S101〜S105,S109)、サーバ10は、そのデータを要求元に提供する(S201〜S208)。そして、車載装置50は、サーバ10から提供されるデータを取得して利用可能とする(S111〜S113)。
このような音声出力システムによれば、車載装置50に比べ格段に大容量の素片・音片データを管理可能な車両外部のサーバ10を利用することで、リソースの少ない車載装置50であっても合成音声により自然な音声を出力することができる。
すなわち、楽曲検索(曲名、アルバム名、アーティスト名等)、登録地点名称検索、電話帳検索等のガイド音声(音声操作のトークバック等)は、開発段階で文言を確定することができないため、高音質の録音音声をあらかじめ格納しておくことができない。そこで、楽曲検索ではCDDB54から取得した表音文字列を用いて、登録地点名称検索や電話帳検索では登録地点DB52や電話帳DB53から取得した読み情報(ユーザが入力したもの)を用いて、合成音声を出力することになる。しかしながら、車載装置では、音声合成のための大リソースを確保することができず、肉声感のない機械的な音声になってしまい、聞きにくいという問題があった。
そこで、本実施形態の音声出力システムでは、大規模なリソースを確保できるサーバ10側で肉声感のある高音質な合成音声を生成して車載装置50にインストールすることで、高音質音声出力を可能としている。
また、第1実施形態の音声出力システムでは、車載装置50がサーバ10と直接的に通信を行うことができるため(S109,S111)、合成音声を表す音声データを早期に取得することができる。
さらに、第1実施形態の音声出力システムでは、サーバ10は、車載装置50のユーザにより合成音声のプロファイル及びナレータ情報が選択されている場合にはそれを用い、選択されていない場合には車載装置50の機種情報にあらかじめ対応付けられたプロファイル及びナレータ情報を用いる(S201)。このため、車載装置50に対して適切な音声データを提供することができる。
すなわち、サーバ10から車載装置50に音声データを提供しても、その音声データの圧縮形式やサンプリング周波数の整合性が取れないと正しい音声が出力できないという問題が生じる。また、同種の情報に異なる複数のナレータの音声が用いられるのは不自然である。そこで、本実施形態の音声出力システムでは、サーバ10側で、ユーザにより選択されたプロファイル等を選択したり、紐付け情報テーブル34に基づき適切なプロファイル等を自動選択したりすることができるようにしている。
一方、第1実施形態の音声出力システムでは、特定の文言の合成音声を表す音声データを、複数の文言について一括して要求可能としているため(S102)、複数の文言についてのデータを効率的に要求することができる。
すなわち、サーバ10で生成した合成音声をインストールすることで高音質化が期待できる文言をユーザが一文言ずつ選択することは非常に面倒である。そこで、本実施形態の音声出力システムでは、車載装置50で文言リストを生成して直接的又は間接的にサーバ10へ送信し、サーバ10が、その文言リストを入力することで、全音声データを一括生成する。このため、簡単な操作で音質向上を実現することが可能となる。なお、文言リストは、例えば、(1)合成音声か録音音声か、(2)外部から登録された音声か否か、(3)ハードディスク等のインストール先の空き容量は十分か、(4)メモリやCPUの処理能力、(5)音声改善を実施した文言か否か、などといった種々の条件を考慮して、車載装置50で自動的に生成するようにしてもよい。
また、第1実施形態の音声出力システムでは、サーバ10が、特定の文言の合成音声を表す音声データとして、1つの文言に付き複数種類のデータを提供するようにしているため(S206)、車載装置50側で好みのデータを選択することが可能となる。
すなわち、合成音声は、同じ文言であっても、選択する素片・音片データによってリズムや抑揚などが異なってくる。音声出力システムが常に最適な音声を生成することができれば問題ないが、必ずしも、ユーザが好む音声を選定できるとは限らない。そこで、本実施形態の音声出力システムでは、複数候補の音声データを提示し、ユーザに選択させるようにしている。なお、音片/素片の接続数が少なく、かつ、韻律特性(高低や強弱)の整合性の良い候補から順に提示することで、利便性が向上する。
なお、第1実施形態の音声出力システムでは、S101〜S105,S109の処理が本発明の要求手段に相当し、S111〜S113の処理が本発明の取得手段に相当し、S201〜S208の処理が本発明の提供手段に相当する。
[2.第2実施形態]
次に、第2実施形態の音声出力システムについて説明する。
第2実施形態の音声出力システムは、基本的な構成は第1実施形態(図1)と同一であるが、サーバ10から車載装置50へ、要求された文言の合成音声そのものではなく、その文言の合成音声の生成に必要な素片・音片データを提供する点が異なる。具体的には、サーバ10により実行される処理内容が第1実施形態と異なっている。
次に、第2実施形態の音声出力システムについて説明する。
第2実施形態の音声出力システムは、基本的な構成は第1実施形態(図1)と同一であるが、サーバ10から車載装置50へ、要求された文言の合成音声そのものではなく、その文言の合成音声の生成に必要な素片・音片データを提供する点が異なる。具体的には、サーバ10により実行される処理内容が第1実施形態と異なっている。
ここで、第2実施形態の音声出力システムで実行される処理について説明する。
まず、図5の音声合成データ提供処理に代えてサーバ10が実行する音声合成データ提供処理について、図6のフローチャートを用いて説明する。なお、図6の処理のうち、S302〜S306の処理は、図5のS202〜S206の処理と同様の処理であるため、説明を省略する。
まず、図5の音声合成データ提供処理に代えてサーバ10が実行する音声合成データ提供処理について、図6のフローチャートを用いて説明する。なお、図6の処理のうち、S302〜S306の処理は、図5のS202〜S206の処理と同様の処理であるため、説明を省略する。
サーバ10は、この音声合成データ提供処理を開始すると、まずS301で、生成する合成音声のプロファイル及びナレータ情報を、車載装置50の機種情報にあらかじめ対応付けられたもの(紐付け情報テーブル34に基づき特定される)に決定する。
そして、S302〜S306の後、S307では、生成した合成音声から素片・音片データを抽出する。つまり、この合成音声を車載装置50で生成可能とするための素片・音片データを生成する。
続いて、S308では、生成した素片・音片データと素片・音片表記との対応関係を記憶したリストファイル(管理ファイル)を生成する。
続いて、S309では、S307で生成(抽出)した素片・音片データ及びS308で生成した管理ファイルをユーザ(要求元の装置)に送信する。その後、本音声合成データ提供処理を終了する。
続いて、S309では、S307で生成(抽出)した素片・音片データ及びS308で生成した管理ファイルをユーザ(要求元の装置)に送信する。その後、本音声合成データ提供処理を終了する。
以上説明したように、第2実施形態の音声出力システムでは、車載装置50が、要求する文言の合成音声そのものではなく、その文言の合成音声の生成に必要な素片・音片データをサーバ10から取得して利用可能とする。このような第2実施形態の音声出力システムによっても、第1実施形態の音声出力システムと同様の効果を得ることができる。
なお、第2実施形態の音声出力システムでは、S101〜S105,S109の処理が本発明の要求手段に相当し、S111〜S113の処理が本発明の取得手段に相当し、S301〜S309の処理が本発明の提供手段に相当する。
[3.他の形態]
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されることなく、種々の形態を採り得ることは言うまでもない。
以上、本発明の実施形態について説明したが、本発明は、上記実施形態に限定されることなく、種々の形態を採り得ることは言うまでもない。
例えば、サーバ10が、生成した音声データを暗号化した上で車載装置50に提供するようにし、車載装置50にそれを復号する手段を設けるようにしてもよい。このようにすれば、サーバ10で生成した音声データが他用途で使用(悪用)されることを防ぐことができる。
また、上記実施形態では、合成音声の生成を要求する文言を車載装置50からサーバ10へ送るようにしているが、この文言に加え、この文言の前後の文章情報も付加して送るようにしてもよい。すなわち、録音音声と合成音声とをつなぎ合わせて音声出力する場合(例えば、「○○さんの家」という合成音声を用いて「もうすぐ○○さんの家に到着します」といったアナウンスを行う場合など)には、文章全体(合成音声部分の前後)の韻律を考慮して音声合成することが好ましい。この点、前後の文章情報を付加してサーバ10へ送るようにすれば、サーバ10では、その情報を利用して韻律解析をすることが可能となる。その際、カタカナの読み情報だけでなく、韻律情報を付加した表音文字列や、漢字などのテキスト情報があると、より精度の高い文脈解析が可能である。
一方、上記実施形態では、車載装置50は、サーバ10から取得したデータを内部ハードディスク等にインストールするが、例えば、車両や車載装置50の買い換え時など、車載装置50のバッテリー電源を外した際に、データが破損してしまう可能性がある。そこで、素片・音片データ、音声データ、管理ファイル等のデータをバックアップする手段を備えていることが好ましい。具体的には、上記実施形態で例示した構成(図1)において、例えば、音声データ管理部58が、外部記憶装置80が接続された状態で、ユーザ操作時に又はあらかじめ定められたタイミングで(例えば定期的に)、録音音声DB57や音片・素片DB64のデータを外部記憶装置80にバックアップする処理を行うようにする。また、外部記憶装置80の代わりに、例えばバックアップ用の外部ハードディスクを更に備えるようにしてもよい。このようにすることで、車載装置50のデータが破損した場合にも、サーバ10から取得したデータをその後も継続して利用することができる。なお、バックアップデータを暗号化することで、バックアップデータが他の目的に転用されることを防ぐことができる。
1…インターネット、10…サーバ、20…通信制御部、30…データ管理部、31…機種情報DB、32…ナレータ情報DB、33…音声プロファイル情報DB、34…紐付け情報テーブル、40…音声合成部、41…表音文字列生成部、42…韻律生成部、43…波形生成部、44…音片・素片DB44、50…車載装置、51…機能制御部、52…登録地点DB、53…電話帳DB、54…CDDB、55…表示出力制御部、56…音声出力制御部、57…録音音声DB、58…音声データ管理部、60…音声合成部、61…表音文字列生成部、62…韻律生成部、63…波形生成部、64…音片・素片DB、71…表示装置、72…マイク、73…音声操作開始スイッチ、74…スピーカ、75…データ通信機、80…外部記憶装置、90…通信装置
Claims (10)
- 音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバと、を備える音声出力システムであって、
前記車載装置は、
特定の文言の合成音声を出力するために必要なデータを前記サーバに要求する要求手段と、
前記要求手段による要求に対して前記サーバから提供されるデータを取得する取得手段と、を備え、
前記サーバは、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供する提供手段を備えること
を特徴とする音声出力システム。 - 前記特定の文言の合成音声を出力するために必要なデータとは、その特定の文言の合成音声を表す音声データであること
を特徴とする請求項1に記載の音声出力システム。 - 前記特定の文言の合成音声を出力するために必要なデータとは、その特定の文言の合成音声を生成するために必要な要素データであること
を特徴とする請求項1に記載の音声出力システム。 - 前記要求手段は、特定の文言の合成音声を出力するために必要なデータを前記サーバとの直接的な通信により要求し、
前記提供手段は、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元の車載装置に直接的な通信により提供し、
前記取得手段は、前記要求手段による要求に対して前記サーバから提供されるデータを前記サーバとの直接的な通信により取得すること
を特徴とする請求項1から請求項3までのいずれか1項に記載の音声出力システム。 - 前記提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元から指定された種類の合成音声を出力するために必要なデータをその要求元に提供すること
を特徴とする請求項1から請求項4までのいずれか1項に記載の音声出力システム。 - 前記提供手段は、同一の文言を表す複数種類の合成音声のうち、要求元の車載装置の機種に対応する種類の合成音声を出力するために必要なデータをその要求元に提供すること
を特徴とする請求項1から請求項5までのいずれか1項に記載の音声出力システム。 - 前記要求手段は、特定の文言の合成音声を出力するために必要なデータを、複数の文言について一括して要求可能であること
を特徴とする請求項1から請求項6までのいずれか1項に記載の音声出力システム。 - 前記提供手段は、特定の文言の合成音声を出力するために必要なデータとして、1つの文言に付き複数種類のデータを提供すること
を特徴とする請求項1から請求項7までのいずれか1項に記載の音声出力システム。 - 前記車載装置は、前記取得手段により取得されたデータを外部の記憶装置にバックアップするバックアップ手段を備えること
を特徴とする請求項1から請求項8までのいずれか1項に記載の音声出力システム。 - 音声出力機能を有する車載装置と、合成音声を出力するために必要なデータを提供するサーバと、を備え、前記サーバが、特定の文言の合成音声を出力するために必要なデータを要求された場合に、そのデータを要求元に提供するように構成された音声出力システムに用いられる車載装置であって、
特定の文言の合成音声を出力するために必要なデータを前記サーバに要求する要求手段と、
前記要求手段による要求に対して前記サーバから提供されるデータを取得する取得手段と、
を備えることを特徴とする車載装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008211970A JP2010048959A (ja) | 2008-08-20 | 2008-08-20 | 音声出力システム及び車載装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008211970A JP2010048959A (ja) | 2008-08-20 | 2008-08-20 | 音声出力システム及び車載装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010048959A true JP2010048959A (ja) | 2010-03-04 |
Family
ID=42066102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008211970A Pending JP2010048959A (ja) | 2008-08-20 | 2008-08-20 | 音声出力システム及び車載装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010048959A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173702A (ja) * | 2011-02-24 | 2012-09-10 | Denso Corp | 音声案内システム |
JP2013161038A (ja) * | 2012-02-08 | 2013-08-19 | Denso Corp | 音声出力装置、および、音声出力システム |
WO2022215284A1 (ja) * | 2021-04-09 | 2022-10-13 | パナソニックIpマネジメント株式会社 | 発話機器を制御する方法、サーバ、発話機器、およびプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH116743A (ja) * | 1997-04-22 | 1999-01-12 | Toyota Motor Corp | 移動端末装置及びそのための音声出力システム |
JP2003029774A (ja) * | 2001-07-19 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 |
JP2003233386A (ja) * | 2002-02-08 | 2003-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2003308083A (ja) * | 2002-04-17 | 2003-10-31 | Canon Inc | 音声合成処理装置 |
JP2005055607A (ja) * | 2003-08-01 | 2005-03-03 | Toyota Motor Corp | サーバ、情報処理端末、音声合成システム |
JP2008185911A (ja) * | 2007-01-31 | 2008-08-14 | Arcadia:Kk | 音声合成装置 |
-
2008
- 2008-08-20 JP JP2008211970A patent/JP2010048959A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH116743A (ja) * | 1997-04-22 | 1999-01-12 | Toyota Motor Corp | 移動端末装置及びそのための音声出力システム |
JP2003029774A (ja) * | 2001-07-19 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置 |
JP2003233386A (ja) * | 2002-02-08 | 2003-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2003308083A (ja) * | 2002-04-17 | 2003-10-31 | Canon Inc | 音声合成処理装置 |
JP2005055607A (ja) * | 2003-08-01 | 2005-03-03 | Toyota Motor Corp | サーバ、情報処理端末、音声合成システム |
JP2008185911A (ja) * | 2007-01-31 | 2008-08-14 | Arcadia:Kk | 音声合成装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012173702A (ja) * | 2011-02-24 | 2012-09-10 | Denso Corp | 音声案内システム |
JP2013161038A (ja) * | 2012-02-08 | 2013-08-19 | Denso Corp | 音声出力装置、および、音声出力システム |
WO2022215284A1 (ja) * | 2021-04-09 | 2022-10-13 | パナソニックIpマネジメント株式会社 | 発話機器を制御する方法、サーバ、発話機器、およびプログラム |
JPWO2022215284A1 (ja) * | 2021-04-09 | 2022-10-13 | ||
JP7398683B2 (ja) | 2021-04-09 | 2023-12-15 | パナソニックIpマネジメント株式会社 | 発話機器を制御する方法、サーバ、発話機器、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991360B2 (en) | System and method for generating customized text-to-speech voices | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US8352272B2 (en) | Systems and methods for text to speech synthesis | |
US8712776B2 (en) | Systems and methods for selective text to speech synthesis | |
US8352268B2 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US8583418B2 (en) | Systems and methods of detecting language and natural language strings for text to speech synthesis | |
US8355919B2 (en) | Systems and methods for text normalization for text to speech synthesis | |
US9092435B2 (en) | System and method for extraction of meta data from a digital media storage device for media selection in a vehicle | |
US20100082327A1 (en) | Systems and methods for mapping phonemes for text to speech synthesis | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP4620518B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP2010048959A (ja) | 音声出力システム及び車載装置 | |
JP2003271182A (ja) | 音響モデル作成装置及び音響モデル作成方法 | |
JP5693834B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2007200495A (ja) | 音楽再生装置、音楽再生方法及び音楽再生用プログラム | |
JP6809177B2 (ja) | 情報処理システムおよび情報処理方法 | |
JP2006330484A (ja) | 音声案内装置及び音声案内プログラム | |
JP4620517B2 (ja) | 音声データベース製造装置、音片復元装置、音声データベース製造方法、音片復元方法及びプログラム | |
JP5431817B2 (ja) | 楽曲データベース更新装置及び楽曲データベース更新方法 | |
KR20100003574A (ko) | 음성음원정보 생성 장치 및 시스템, 그리고 이를 이용한음성음원정보 생성 방법 | |
JP2003150185A (ja) | 音声合成システムとその方法及びそれを実現するためのプログラム | |
JP2009204872A (ja) | 音声認識用辞書生成システム | |
JP2009244790A (ja) | 歌唱指導機能を備えるカラオケシステム | |
US20050137880A1 (en) | ESPR driven text-to-song engine | |
JP2006047866A (ja) | 電子辞書装置およびその制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120918 |