JP5853746B2 - Audio output device and audio output system - Google Patents
Audio output device and audio output system Download PDFInfo
- Publication number
- JP5853746B2 JP5853746B2 JP2012025052A JP2012025052A JP5853746B2 JP 5853746 B2 JP5853746 B2 JP 5853746B2 JP 2012025052 A JP2012025052 A JP 2012025052A JP 2012025052 A JP2012025052 A JP 2012025052A JP 5853746 B2 JP5853746 B2 JP 5853746B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- voice
- synthesized
- data
- hybrid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Navigation (AREA)
Description
本発明は、予め設定された案内ポイントに関する案内音声として、予め録音された録音音声と新たに生成した合成音声とからなる混成音声を出力する音声出力装置、および、この音声出力装置と当該音声出力装置に通信可能に接続される外部の装置とからなる音声出力システムに関する。 The present invention relates to a voice output device that outputs a hybrid voice composed of a pre-recorded voice and a newly generated synthesized voice as guidance voice related to a preset guidance point, and the voice output device and the voice output. The present invention relates to an audio output system including an external device that is communicably connected to the device.
従来より、音声合成用のライブラリを搭載し、入力された音声から合成音声データを生成し、その合成音声データに基づいて合成音声を出力する装置が公知である(例えば、特許文献1参照)。ところが、合成音声データを生成する処理は負荷が大きく、従って、合成音声データの生成が遅れてしまう傾向がある。そのため、予め録音された録音音声と新たに生成した合成音声とからなる混成音声を出力する場合には、録音音声と生成が遅れた合成音声との間に音切れ、つまり、録音音声の出力と合成音声の出力とが滑らかに連続せず途中で途切れてしまうという不具合が発生してしまう。 2. Description of the Related Art Conventionally, a device that has a library for speech synthesis, generates synthesized speech data from input speech, and outputs synthesized speech based on the synthesized speech data is known (see, for example, Patent Document 1). However, the process of generating the synthesized voice data has a heavy load, and therefore the generation of the synthesized voice data tends to be delayed. For this reason, when outputting a mixed sound composed of a pre-recorded recording sound and a newly generated synthesized sound, the sound is interrupted between the recorded sound and the synthesized sound delayed in generation, that is, the output of the recorded sound There is a problem that the output of the synthesized speech is not smoothly continuous and is interrupted in the middle.
本発明は上記した事情に鑑みてなされたものであり、その目的は、予め録音された録音音声と新たに生成した合成音声とからなる混成音声を出力する場合に、録音音声の出力と合成音声の出力とが途切れてしまうことを回避することができる音声出力装置、および、この音声出力装置と当該音声出力装置に通信可能に接続される外部の装置とからなる音声出力システムを提供することにある。 The present invention has been made in view of the above-described circumstances, and an object of the present invention is to output recorded speech and synthesized speech when outputting mixed speech composed of pre-recorded recorded speech and newly generated synthesized speech. To provide an audio output system including the audio output device and an external device that is communicably connected to the audio output device. is there.
本発明によれば、移動体に搭載された音声出力装置は、移動体の進行方向前方に存在する案内ポイントに対応する混成音声データを、当該案内ポイントに移動体が到達する前に、録音音声データ抽出手段が録音音声データ記憶部から抽出した録音音声データと、音声出力装置に通信可能に接続される外部の装置が生成した合成音声データとを用いて生成する。そして、移動体が進行方向前方に存在する案内ポイントに到達すると、その混成音声データに基づいて混成音声を出力する。
即ち、例えば車両などの移動体の進行方向前方に存在する案内ポイントに対応する混成音声データを当該案内ポイントに移動体が到達する前に事前に生成するように構成した。これにより、処理の負荷が大きい合成音声データの生成が遅れたとしても、音声出力装置を搭載する移動体が案内ポイントに到達する前に、余裕を持って録音音声データと合成音声データとからなる混成音声データを生成することができる。従って、生成した混成音声データに基づいて案内音声として混成音声を出力する場合に、録音音声の出力と合成音声の出力とが途切れてしまうことを回避することができる。
According to the present invention, the audio output device mounted on the moving body records the mixed audio data corresponding to the guidance point existing ahead in the traveling direction of the moving body before the moving body reaches the guidance point. It is generated using the recorded voice data extracted from the recorded voice data storage unit by the data extraction means and the synthesized voice data generated by an external device communicably connected to the voice output device. When the moving body reaches a guidance point existing forward in the traveling direction, the hybrid voice is output based on the hybrid voice data.
That is, for example, mixed voice data corresponding to a guide point existing in front of a moving body such as a vehicle is generated in advance before the mobile body reaches the guide point. As a result, even if the generation of the synthesized voice data with a large processing load is delayed, before the mobile object equipped with the voice output device reaches the guide point, it is composed of the recorded voice data and synthesized voice data with a margin. Hybrid audio data can be generated. Therefore, it is possible to avoid the interruption of the output of the recorded voice and the output of the synthesized voice when outputting the mixed voice as the guidance voice based on the generated mixed voice data.
以下、本発明の一実施形態について図面を参照しながら説明する。図1に示すように、音声出力システム10は、例えば車両などの移動体に搭載されるナビゲーション装置11と、このナビゲーション装置11に通信可能に接続される携帯通信端末41と、からなる。なお、ナビゲーション装置11は、特許請求の範囲に記載した「音声出力装置」に相当し、携帯通信端末41は、特許請求の範囲に記載した「外部の装置」に相当する。
ナビゲーション装置11は、制御部12、位置検出部13、データ通信部14、外部記憶部15、内部記憶部16、表示出力部17、音声出力部18、操作入力部19、ナビゲーション機能部20、ユーザ設定機能部21、音声合成機能部22などを備える。制御部12は、図示しないCPU、RAM、ROMおよびI/Oバスなどを有するマイクロコンピュータを主体として構成されている。制御部12は、ROMなどの記憶媒体に記憶されているコンピュータプログラムに従って、各種の表示出力動作、音声出力動作、経路案内動作などナビゲーション装置11の動作全般を制御する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. As shown in FIG. 1, the audio |
The
また、この制御部12は、コンピュータプログラムを実行することにより、案内ポイント検出処理部31、録音音声データ抽出処理部32、合成音声データ保持処理部33、混成音声データ生成処理部34、混成音声出力処理部35をソフトウェアによって仮想的に実現する。なお、録音音声データ抽出処理部32は、特許請求の範囲に記載した録音音声データ抽出手段に相当し、混成音声データ生成処理部34は、特許請求の範囲に記載した混成音声データ生成手段に相当し、混成音声出力処理部35は、特許請求の範囲に記載した混成音声出力手段に相当し、合成音声データ生成処理部36は、特許請求の範囲に記載した音声出力装置が備える合成音声データ生成手段に相当する。
In addition, the
位置検出部13は、ナビゲーション装置11を搭載した車両の現在位置を検出するための検出モジュールである。位置検出部13は、方位センサ13a、ジャイロセンサ13b、距離センサ13c、測位用電波受信器13dなどの各種のセンサ類を有している。方位センサ13aは、車両の方位を検出する。ジャイロセンサ13bは、車両の回転角度を検出する。距離センサ13cは、車両の走行距離を検出する。測位用電波受信器13dは、測位システムにより車両の現在位置を測位するために、図示しない測位用衛星から送信される電波を受信する。位置検出部13は、これらのセンサ類から得られる検出データを相互に補完しながら車両の現在位置を検出し、その現在位置を示す現在位置情報を制御部12に出力する。
The
データ通信部14は、後述する携帯通信端末41のデータ通信部43との間に通信回線を確立し、この通信回線を介して携帯通信端末41との間で各種のデータを送受信する通信モジュールである。この場合、データ通信部14およびデータ通信部43は、無線の近距離通信回線を確立する。なお、本実施形態における近距離通信は、一般的な車両の車室内をカバーする程度の距離を主として想定しているが、例えば、車両のタイプ(型)や大きさ、ナビゲーション装置11および携帯通信端末41の通信性能など種々の要因に応じて、その距離範囲を適宜変更して実施することができ、その距離範囲に適した通信機能を採用することができる。
The
外部記憶部15は、特許請求の範囲に記載した録音音声データ記憶部に相当するものであり、この場合、ナビゲーション装置11に対して着脱可能な例えばSDカードなどの記憶媒体で構成されている。
この外部記憶部15には、図2(a)に示す音声データテーブルT1が記憶されており、この音声データテーブルT1には、各音声IDに対応付けて録音音声データあるいはテキストデータが格納されている。録音音声データは、予め録音された録音音声のデータであり、例えば録音音声データ[In half of a mile,]は、予め録音された「イン ハーフ オブ ア マイル」という音声を出力するためのデータである。また、テキストデータ[ABC Street]は、「A」,「B」,「C」,「S」,「t」,「r」,「e」,「e」,「t」という文字列を格納したデータである。
The
The
また、この外部記憶部15には、図2(b)に示す必要音声データテーブルT2が記憶されている。この必要音声データテーブルT2は、特許請求の範囲に記載の「必要音声識別情報」を含むデータテーブルであり、予め設定された複数の案内ポイントについて、これら案内ポイントのそれぞれに対応する混成音声データを生成するために必要な録音音声データおよび合成音声データを、各音声データに付与された音声IDに基づいて案内ポイントごとに指定するデータテーブルである。即ち、例えば案内ポイントaに対応する混成音声データを生成するために必要な音声データは、音声ID=1,2,3,4の音声データ、つまり、図2(a)に示す音声ID[1]の録音音声データ[In half of a mile,]、音声ID[2]の録音音声データ[right turn]、音声ID[3]の録音音声データ[onto]、および、詳しくは後述するようにして音声ID[4]のテキストデータ[ABC Street]に基づいて新たに生成される合成音声データ[ABC Street]である。
なお、「案内ポイント」とは、例えば現在走行中の走行道路と当該走行道路に続く案内対象となる道路との交差点などのポイントを示すものではなく、このような交差点などのポイントの手前において案内音声の出力を開始する案内音声出力開始ポイントとして設定されたポイントを示す。
The
Note that the “guidance point” does not indicate a point such as an intersection between a currently traveling road and a road to be guided following the road, but guides before such a point. The point set as the guidance audio | voice output start point which starts an audio | voice output is shown.
内部記憶部16は、ナビゲーション装置11に内蔵された例えばメモリなどの記憶媒体で構成されており、この場合、合成音声データ用バッファ部16Aと混成音声データ用バッファ部16Bとを有する。これら合成音声データ用バッファ部16Aおよび混成音声データ用バッファ部16Bは、図3に示すように、何れも複数の記憶領域を有しており、各記憶領域に1つの音声データが格納されるようになっている。合成音声データ用バッファ部16Aは、詳しくは後述するようにして携帯通信端末41から受信した合成音声データを一時的に保持するための記憶領域である。一方、混成音声データ用バッファ部16Bは、録音音声データと合成音声データとからなる混成音声データを生成し保持するための記憶領域である。この場合、混成音声データ用バッファ部16Bには、録音音声データを格納するための録音音声データ格納部16Baと、合成音声データを格納するための合成音声データ格納部16Bbとが設けられている。
The
表示出力部17は、例えば液晶や有機ELなどのカラーディスプレイからなる表示画面を有しており、制御部12からの表示出力信号に基づいて各種の情報を表示する。この表示出力部17の画面は、タッチパネルで構成されている。この表示出力部17に表示される内容は、例えば図4に示す経路案内用の画面G1、図示しない各種の設定用画面などである。
The
音声出力部18は、例えばスピーカなどで構成されており、制御部12からの音声出力信号に基づいて各種の音声を出力する。この音声出力部18から出力される音声は、詳しくは後述する混成音声データに基づく案内音声、および、その他の経路案内用の音声、あるいは、操作説明用の音声などである。
操作入力部19は、表示出力部17の画面の近傍に設けられたメカニカルスイッチ、あるいは、表示出力部17の画面に設けられているタッチパネルスイッチなど各種のスイッチ群から構成されている。ユーザは、操作入力部19の各スイッチを用いて各種の設定操作が可能である。
The
The operation input unit 19 includes various switch groups such as a mechanical switch provided near the screen of the
ナビゲーション機能部20は、例えば、位置検出部13から入力される現在位置情報に基づいて特定した車両の現在位置から、操作入力部19を介して入力された目的地までの経路を探索し、その経路に基づいて車両を案内する機能、いわゆるナビゲーション機能を実行するものである。このナビゲーション機能部20は、車両の経路案内を実行しない場合には、デフォルト表示として、車両の現在位置周辺の地図を表示出力部17に表示するとともに、この表示中の地図に重ねて車両の現在位置および進行方向を示す現在位置マークを表示する。このとき、ナビゲーション機能部20は、車両の現在位置マークを地図中の道路上に合わせるマップマッチング処理を実施する。この現在位置マークは、車両の走行に伴い地図上を移動する。また、表示出力部17の画面に表示される地図は、車両の現在位置に応じてスクロールされる。また、ナビゲーション機能部20は、車両の経路案内を実行する場合には、表示出力部17に例えば図4に示す経路案内用の画面G1を表示し、探索した案内経路R1を強調表示するとともに当該案内経路R1に基づいて車両を案内する。この場合も、ナビゲーション機能部20は、車両の現在位置マークNを地図中の道路上に合わせるマップマッチング処理を実施し、現在位置マークNを車両の走行に伴い地図上を移動させるとともに、表示出力部17の画面に表示される地図を車両の現在位置に応じてスクロールする。
For example, the
ユーザ設定機能部21は、音声出力システム10を使用するユーザを設定し、その設定したユーザに関する情報を、図示しないユーザ情報記憶部にユーザ情報として保持する。このユーザ情報記憶部に保持される情報には、少なくとも、音声出力システム10を使用するユーザが所有する携帯通信端末41を識別するための端末IDが含まれる。ユーザ設定機能部21は、例えば表示出力部17に表示される図示しないユーザ設定画面を介してユーザが入力した情報をユーザ情報として保持する。また、ユーザ設定機能部21は、複数のユーザについてそれぞれのユーザ情報を保持することが可能であり、複数のユーザ情報を保持している場合には、例えば表示出力部17に表示される図示しないユーザ切替画面を介して、音声出力システム10を使用する現在のユーザを切り替え可能となっている。なお、ユーザ情報記憶部は、外部記憶部15、内部記憶部16、あるいは、制御部12が備えるメモリなどと共用してもよいし、これらとは独立して別個に設けてもよい。
The user
音声合成機能部22は、音声合成用の音声合成ライブラリや音声合成辞書などを有している。この音声合成機能部22は、ナビゲーション装置11に接続されている図示しない車載マイクを介して入力された音声、あるいは、操作入力部19を介して入力されたテキストを音声合成ライブラリや音声合成辞書などを用いて音声データに変換し、その音声データを合成音声データとして出力する機能を有する。
The speech
案内ポイント検出処理部31は、この場合、ナビゲーション機能部20によって経路案内用に設定された案内経路上において車両の進行方向前方に存在する案内ポイントを検出する。なお、案内経路が確定した時点で、当該案内経路上に存在する案内ポイントの座標データは地図データなどに基づいて特定することができる。従って、この場合、この案内ポイント検出処理部31による案内ポイントの検出処理は、確定した案内経路のデータと地図データとに基づいて、案内経路上に存在する案内ポイントを制御部12が認識する処理として捉えることができる。
In this case, the guidance point
録音音声データ抽出処理部32は、案内ポイント検出処理部31が検出した移動体の進行方向前方に存在する案内ポイントに対応する混成音声データを生成するために必要な録音音声データを必要音声データテーブルT2に基づいて特定し、その特定した録音音声データを外部記憶部15の音声データテーブルT1から抽出する。
合成音声データ保持処理部33は、案内ポイント検出処理部31が検出した移動体の進行方向前方に存在する案内ポイントに対応する混成音声データを生成するために、詳しくは後述するようにして携帯通信端末41が新たに生成した合成音声データを合成音声データ用バッファ部16Aに保持する。
The recorded voice data
The synthesized voice data holding
混成音声データ生成処理部34は、録音音声データ抽出処理部32が抽出した録音音声データと合成音声データ保持処理部33が保持している合成音声データとからなる混成音声データを混成音声データ用バッファ部16Bに生成する。この場合、混成音声データ生成処理部34は、案内ポイントよりも所定距離手前のポイントをデータ生成完了ポイントとして設定し、車両が当該データ生成完了ポイントに到達するまでに混成音声データを生成するようになっている。この所定距離は、車両が案内ポイントに到達するまでに混成音声データの生成が完了することを確実にするために、制御部12の処理能力や車両の速度などに応じて適宜変更して設定することができる。
The hybrid voice data
混成音声出力処理部35は、案内ポイント検出処理部31が検出した案内ポイントに車両が到達すると、混成音声データ生成処理部34が生成した混成音声データに基づいて音声出力部18を介して混成音声を出力する。合成音声データ生成処理部36は、上記した音声合成機能部22を用いて合成音声データを生成する。即ち、ナビゲーション装置11は、音声合成機能部22および合成音声データ生成処理部36を備えたことにより、外部の装置に依らずとも自身で合成音声データを生成することが可能である。
When the vehicle reaches the guidance point detected by the guidance point
次に、携帯通信端末41の構成について説明する。携帯通信端末41は、制御部42、データ通信部43、音声合成機能部44などを備える。制御部42は、図示しないCPU、RAM、ROMおよびI/Oバスなどを有するマイクロコンピュータを主体として構成されている。制御部42は、ROMなどの記憶媒体に記憶されているコンピュータプログラムに従って、各種の表示出力動作、音声出力動作、通話動作、音声合成動作など携帯通信端末41の動作全般を制御する。
また、この制御部42は、コンピュータプログラムを実行することにより、合成音声データ生成処理部51をソフトウェアによって仮想的に実現する。なお、合成音声データ生成処理部51は、特許請求の範囲に記載した外部の装置が備える合成音声データ生成手段に相当する。
データ通信部43は、上述したようにデータ通信部14との間に通信回線を確立し、この通信回線を介してナビゲーション装置11との間で各種のデータを送受信する通信モジュールである。
Next, the configuration of the
Further, the
As described above, the
音声合成機能部44は、音声合成用の音声合成ライブラリや音声合成辞書などを有している。この音声合成機能部44は、携帯通信端末41が備える図示しないマイクを介して入力された音声、あるいは、詳しくは後述するようにしてナビゲーション装置11から受信したテキストデータを音声合成ライブラリや音声合成辞書などを用いて音声データに変換し、その音声データを合成音声データとして出力する機能を有する。例えば、「ストリート」という音声がマイクを介して入力された場合、この音声合成機能部44は、その音声を解析して、「ストリート」という音声が出力される合成音声データを生成する。また、テキストデータ[ABC Street]が入力された場合、この音声合成機能部44は、そのテキストデータを解析して、「エービーシー ストリート」という音声が出力される合成音声データ[ABC Street]を生成する。
合成音声データ生成処理部51は、ナビゲーション装置11から受信したテキストデータに基づいて、案内ポイント検出処理部31が検出した案内ポイントに対応する混成音声データを生成するために必要な合成音声データを特定し、その特定した合成音声データを、上記した音声合成機能部44を用いて生成する。
The speech
Based on the text data received from the
次に、上記した構成の音声出力システム10の動作内容について図5を参照しながら説明する。なお、以下に説明する処理は、説明の便宜上、「ナビゲーション装置11」、「携帯通信端末41」を主体として説明するが、実際は「ナビゲーション装置11の制御部12」、「携帯通信端末41の制御部42」が実行する処理である。
ナビゲーション装置11は、起動すると、ユーザ情報記憶部に記憶されている現在のユーザのユーザ情報を読み出す(ステップA1)。そして、ナビゲーション装置11は、当該ナビゲーション装置11から所定範囲内に存在する携帯通信端末41を探索し、探索された携帯通信端末41との間に通信回線を確立して通信可能に接続する(ステップA2)。
Next, the operation content of the
When the
ナビゲーション装置11に接続された携帯通信端末41は、当該携帯通信端末41の端末IDをナビゲーション装置11に送信する(ステップB1)。携帯通信端末41から端末IDを受信したナビゲーション装置11は、ステップA1にて読み出したユーザ情報に含まれる携帯通信端末の端末IDと受信した端末IDとを比較し、その比較結果、つまり、両端末IDが一致しているか、あるいは、不一致であるのかを記憶する(ステップA3)。ナビゲーション装置11は、両端末IDが一致した場合には、現在設定されているユーザの携帯通信端末41が通信可能に接続されたと認識する。
The
次に、ナビゲーション装置11は、現在設定されている案内経路と車両の現在位置とに基づいて、案内経路上において車両の進行方向前方であり且つ車両の現在位置から所定距離以内、この場合、1km以内に存在する案内ポイントを検出する(ステップA4)。例えば図4に示す例では、ナビゲーション装置11は、案内経路R1上において車両の進行方向前方であり且つ車両の現在位置Nから所定距離内に存在する案内ポイントaを検出する。なお、この所定距離は、例えば車両の速度、案内ポイント周辺の渋滞状況、天候や道路の状況などに応じて変更可能に構成するとよい。
Next, the
ナビゲーション装置11は、案内ポイントが検出されると(ステップA4:YES)、その案内ポイントに対応する混成音声データを生成するために必要な音声データの音声IDを必要音声データテーブルT2から読み出し、読み出した音声IDに基づいて、必要な音声データを特定する(ステップA5)。そして、ナビゲーション装置11は、上記したステップA3の比較結果が「一致」であるか否かを判断し(ステップA6)、「一致」である場合(ステップA6:YES)には、ステップA7に移行して合成音声データ先行生成依頼処理を実行する。なお、ナビゲーション装置11は、上記したステップA3の比較結果が「不一致」である場合(ステップA6:NO)には、ステップA7,A8に移行することなく、詳しくは後述するステップA9に移行する。
When the guidance point is detected (step A4: YES), the
ステップA7の合成音声データ先行生成依頼処理では、ナビゲーション装置11は、携帯通信端末41に合成音声データ先行生成依頼情報を送信する。このとき、ナビゲーション装置11は、この合成音声データ先行生成依頼情報に、上記のステップA5にて特定した音声データに含まれるテキストデータそのもの、および、そのテキストデータの音声IDを添付する。即ち、ステップA5にて特定した音声データに、例えばテキストデータ[ABC Street]が含まれている場合には、ナビゲーション装置11は、そのテキストデータ[ABC Street]そのもの、および、そのテキストデータ[ABC Street]の音声ID[4]を添付して送信する。
In the synthesized voice data advance generation request process in step A7, the
携帯通信端末41は、ナビゲーション装置11から合成音声データ先行生成依頼情報を受信すると、受信したテキストデータ[ABC Street]そのものを音声合成機能部44によって解析することにより、合成音声データ[ABC Street]を生成する(ステップB2)。そして、携帯通信端末41は、生成した合成音声データ[ABC Street]をナビゲーション装置11に送信する(ステップB3)。このとき、携帯通信端末41は、受信した合成音声データ先行生成依頼情報に含まれる音声ID、この場合、音声ID[4]を合成音声データ[ABC Street]に添付して送信する。ナビゲーション装置11は、受信した合成音声データ[ABC Street]を、図6(a)に示すように合成音声データ用バッファ部16Aに格納する(ステップA8)。そして、ナビゲーション装置11は、混成音声データ生成処理を実行する(ステップA9)。
When the
ここで、この混成音声データ生成処理の内容について図7を参照しながら説明する。この混成音声データ生成処理では、ナビゲーション装置11は、上記のステップA5にて特定した音声データに含まれる録音音声データを録音音声データ格納部16Baに格納する(ステップC1)。即ち、ステップA5にて特定した音声データに、例えば録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]が含まれている場合には、図6(b)に示すように、ナビゲーション装置11は、それら録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]を、音声IDが小さいデータから順に録音音声データ格納部16Baに格納していく。
Here, the contents of the hybrid audio data generation process will be described with reference to FIG. In this hybrid voice data generation process, the
そして、ナビゲーション装置11は、ステップA5にて特定した音声データに含まれるテキストデータの音声IDと、携帯通信端末41から受信した合成音声データに添付されている音声IDとを比較する(ステップC2)。この場合、ステップA5にて特定した音声データに含まれるテキストデータ[ABC Street]の音声ID[4]と、携帯通信端末41から受信した合成音声データ[ABC Street]に添付されている音声ID[4]とが一致するので(ステップC2:YES)、ナビゲーション装置11は、図6(c)に示すように、合成音声データ用バッファ部16Aに格納されている合成音声データ[ABC Street]を合成音声データ格納部16Bbに移動させる(ステップC3)。これにより、ナビゲーション装置11は、検出した案内ポイントに対応する混成音声データとして、録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]と合成音声データ[ABC Street]とが連続する一連の混成音声データを生成する。
Then, the
なお、ナビゲーション装置11は、両音声IDが一致しない場合(ステップC2:NO)には、合成音声データ用バッファ部16Aに格納されている合成音声データ[ABC Street]を合成音声データ格納部16Bbに移動させないようになっている。この場合、図8に示すように、ナビゲーション装置11は、合成音声データ先行生成依頼処理を再度実行(ステップC4)するように構成するとよい。この再度の合成音声データ先行生成依頼処理を受けて、携帯通信端末41は、再度受信したテキストデータの音声IDと現在生成している合成音声データに添付する音声IDとが一致するか否かを判断する。そして、両音声IDが一致する場合には、携帯通信端末41は、現在生成中の合成音声データが生成され次第、直ちにナビゲーション装置11に送信する。そして、ナビゲーション装置11は、受信した合成音声データを含む混成音声データを生成する。一方、両音声IDが一致しない場合には、携帯通信端末41は、新たに受信したテキストデータに対応する合成音声データを生成してナビゲーション装置11に送信する。そして、ナビゲーション装置11は、その合成音声データを含む混成音声データを生成する。
In the case where the two voice IDs do not match (step C2: NO), the
また、ナビゲーション装置11は、合成音声データ先行生成依頼処理を再度実行したにも関わらず、所定時間内、即ち、遅くとも案内ポイントに車両が到達するまでに、より好ましくは案内ポイント手前のデータ生成完了ポイントに車両が到達するまでに携帯通信端末41から合成音声データを受信できない場合には、合成音声データ生成中止依頼処理を実行して、携帯通信端末41による合成音声データの生成処理を中止する。そして、ナビゲーション装置11は、合成音声データを有さず録音音声データのみからなる音声データ、この場合、録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]からなる音声データを生成する。
In addition, the
ナビゲーション装置11は、ステップA9の混成音声データ生成処理にて混成音声データを生成すると、その混成音声データに基づいて混成音声を出力する(ステップA10)。即ち、録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]と合成音声データ[ABC Street]とが連続する一連の混成音声データが生成されている場合には、ナビゲーション装置11は、その混成音声データに基づいて「イン ハーフ オブ ア マイル、ライト ターン オントゥ エービーシー ストリート」という音声を出力する。なお、混成音声データ生成処理にて合成音声データを有しない音声データ、この場合、録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]からなる音声データが生成された場合には、ナビゲーション装置11は、当該音声データの末端の録音音声データ、この場合、録音音声データ[onto]を削除して、「イン ハーフ オブ ア マイル、ライト ターン」という音声を出力する。
When the
なお、ステップA3の比較結果が「不一致」である場合(ステップA6:NO)も、携帯通信端末41は合成音声データを生成しない。よって、この場合も、混成音声データ生成処理にて合成音声データを有しない音声データ、この場合、録音音声データ[In half of a mile,]、録音音声データ[right turn]、録音音声データ[onto]からなる音声データが生成される。そのため、ナビゲーション装置11は、音声データの末端の録音音声データを削除して、「イン ハーフ オブ ア マイル、ライト ターン」という音声を出力する。
Note that the
以上に説明したように本実施形態によれば、例えば車両などの経路案内用に設定された案内経路上において進行方向前方に存在する案内ポイントを予め検出して、その案内ポイントに対応する混成音声データを、当該案内ポイントに車両が到達する前に事前に生成するように構成した。これにより、処理の負荷が大きい合成音声データの生成が遅れたとしても、車両が案内ポイントに到達する前に、余裕を持って録音音声データと合成音声データとからなる混成音声データを生成することができ、生成した混成音声データに基づいて案内音声として混成音声を出力する場合に、録音音声の出力と合成音声の出力とが途切れてしまうことを回避することができる。 As described above, according to the present embodiment, for example, a guidance point existing ahead in the traveling direction on a guidance route set for route guidance such as a vehicle is detected in advance, and the hybrid voice corresponding to the guidance point is detected. The data is configured to be generated in advance before the vehicle reaches the guidance point. As a result, even if the generation of the synthesized voice data with a large processing load is delayed, before the vehicle reaches the guidance point, the mixed voice data composed of the recorded voice data and the synthesized voice data is generated with a margin. It is possible to prevent the output of the recorded voice and the output of the synthesized voice from being interrupted when the mixed voice is output as the guidance voice based on the generated mixed voice data.
また、合成音声データ生成処理部51を、ナビゲーション装置11とは別体の外部の携帯通信端末41に設け、ナビゲーション装置11は、外部の携帯通信端末41に合成音声データの生成を依頼し、当該携帯通信端末41が生成した合成音声データを用いて混成音声データを生成する構成とした。即ち、音声出力の主体となるナビゲーション装置11は、処理の負荷が大きい合成音声データの生成処理を、自身では行わず外部の携帯通信端末41に行わせる構成とした。これにより、ナビゲーション装置11の処理負荷を低減することができ、音声出力処理を無理なく実行することができる。
In addition, the synthesized voice data
また、混成音声データは、案内音声の出力を開始する案内ポイントよりも所定距離手前に設定されるデータ生成完了ポイントに車両が到達するまでに生成されるから、車両が案内ポイントに到達する前に十分に余裕を持って混成音声データを準備することができ、案内ポイントにおける混成音声データに基づく案内音声の出力を、遅延することなく円滑に実行することができる。
ナビゲーション装置11は、予め整備された必要音声データテーブルT2に基づいて、外部記憶部15から抽出する録音音声データおよび新たに生成する合成音声データを精度良く特定することができ、ひいては、最終的に生成される混成音声データを精度良く生成することができる。
Further, since the hybrid voice data is generated before the vehicle reaches the data generation completion point set a predetermined distance before the guidance point at which the guidance voice starts to be output, before the vehicle reaches the guidance point, The mixed voice data can be prepared with a sufficient margin, and the output of the guidance voice based on the hybrid voice data at the guidance point can be smoothly executed without delay.
The
なお、本発明は、上述した一実施形態のみに限定されるものではなく、その要旨を逸脱しない範囲で種々の実施形態に適用可能であり、例えば、以下のように変形または拡張することができる。
ナビゲーション装置11は、案内ポイント検出処理部31により、案内経路上に存在する案内ポイントのうち車両の進行方向前方に存在する「直近」の案内ポイントを、車両の進行に伴いながら随時検出し、その直近の1つの案内ポイントに対応する混成音声データを随時生成する構成としてもよい。あるいは、ナビゲーション装置11は、案内経路が設定された時点で当該案内経路上に存在する全ての案内ポイントを検出し、それら複数の案内ポイントにそれぞれ対応する混成音声データを一括して生成する構成としてもよい。この場合、ナビゲーション装置11は、車両が各案内ポイントに到達するごとに、その案内ポイントに対応する混成音声データに基づいて案内音声を随時出力する。
In addition, this invention is not limited only to one embodiment mentioned above, It can apply to various embodiment in the range which does not deviate from the summary, For example, it can deform | transform or expand as follows. .
The
携帯通信端末41が存在しない場合には、ナビゲーション装置11は、自身が備える音声合成機能部22および合成音声データ生成処理部36により該当する合成音声データを生成することができる。この場合、ナビゲーション装置11に合成音声データの生成処理の負荷がかかることから、データ生成完了ポイントを設定する際の所定距離を長く設定し、データ生成完了ポイントから案内ポイントまでの距離を一層長く確保するように構成するとよい。これにより、ナビゲーション装置11は、車両が変更後のデータ生成完了ポイントに到達するまでに、自身が生成した合成音声データを用いて混成音声データを生成することができる。従って、ナビゲーション装置11にて合成音声データを生成する場合であっても、車両が案内ポイントに到達する前に十分に余裕を持って混成音声データを準備することができ、案内ポイントにおける案内音声の出力を遅延なく円滑に実行することができる。
When the
合成音声データ生成処理部51が備えられる外部の装置は、携帯通信端末41に限られるものではなく、例えば、ナビゲーション装置11に、渋滞情報や事故情報などの交通情報、天候情報などを提供する情報提供サーバに合成音声データ生成処理部51を備える構成としてもよい。また、ナビゲーション装置11に合成音声データ生成処理部51を備える構成としてもよい。
The external device provided with the synthesized voice data
一旦設定された案内経路が変更された場合、例えば、車両が案内経路から外れ、ナビゲーション装置11が備えるリルート機能により新たな案内経路が設定される場合も考慮して、ナビゲーション装置11は、現在走行中の案内経路上において進行方向前方に存在する案内ポイントのみならず、車両が走行する可能性のある経路、つまり、現在走行中の案内経路とは異なる経路上に存在する案内ポイントも検出し、検出した複数の案内ポイントについて、それぞれ、各案内ポイントに対応する混成音声データを予め生成する構成としてもよい。即ち、例えば図9に示すように、ナビゲーション装置11は、案内ポイントaのみならず、車両が走行する可能性のある経路R2上に存在する案内ポイントbも検出し、その案内ポイントbに対応する混成音声データも予め生成する。
When the guide route once set is changed, for example, in consideration of the case where the vehicle deviates from the guide route and a new guide route is set by the reroute function provided in the
さらに、ナビゲーション装置11は、通過する可能性がなくなった案内ポイントに関連する音声データを消去する構成とするとよい。例えば図9に示す例では、車両が案内経路R1から外れ経路R2を走行し始めた場合には、予め生成した案内ポイントaに対応する混成音声データを消去する。これにより、ナビゲーション装置11が備える記憶媒体を無駄なく有効に活用することができる。
また、ナビゲーション装置11は、車両が案内経路R1から外れ経路R2を走行し始めたときに、未だ携帯通信端末41から合成音声データを受信していない場合には、合成音声データ生成中止依頼処理を実行して、携帯通信端末41による案内ポイントaに対応する合成音声データの生成処理を中止する構成としてもよい。
ナビゲーション装置11および携帯通信端末41は、データ通信ケーブルを介して相互に有線通信可能に接続する構成としてもよい。
Further, the
In addition, when the vehicle has started to travel on the route R2 deviating from the guide route R1, the
The
図面中、11はナビゲーション装置(音声出力装置)、15は外部記憶部(録音音声データ記憶部)、31は案内ポイント検出処理部(案内ポイント検出手段)、32は録音音声データ抽出処理部(録音音声データ抽出手段)、33は合成音声データ保持処理部(合成音声データ保持手段)、34は混成音声データ生成処理部(混成音声データ生成手段)、35は混成音声出力処理部(混成音声出力手段)、36は合成音声データ生成処理部(合成音声データ生成手段)、41は携帯通信端末(外部の装置)、51は合成音声データ生成処理部(合成音声データ生成手段)を示す。 In the drawing, 11 is a navigation device (voice output device), 15 is an external storage unit (recorded voice data storage unit), 31 is a guidance point detection processing unit (guidance point detection means), and 32 is a recorded voice data extraction processing unit (sound recording). (Speech data extraction means), 33 is a synthesized voice data holding processing section (synthetic voice data holding means), 34 is a hybrid voice data generation processing section (hybrid voice data generation means), and 35 is a hybrid voice output processing section (hybrid voice output means). , 36 denotes a synthesized voice data generation processing unit (synthetic voice data generation means), 41 denotes a portable communication terminal (external device), and 51 denotes a synthesized voice data generation processing unit (synthetic voice data generation means).
Claims (7)
前記案内ポイントに対応する前記混成音声データを生成するために必要な前記録音音声データを前記録音音声データ記憶部から抽出する録音音声データ抽出手段(32)と、
前記移動体が前記案内ポイントに到達する前に、前記録音音声データ抽出手段が抽出した前記録音音声データと、前記案内ポイントに対応する前記混成音声データを生成するために前記音声出力装置に通信可能に接続される外部の装置が生成した前記合成音声データと、からなる前記混成音声データを生成する混成音声データ生成手段(34)と、
前記移動体が前記案内ポイントに到達すると、前記混成音声データ生成手段が生成した前記混成音声データに基づいて前記混成音声を出力する混成音声出力手段(35)と、
前記案内ポイントに対応する前記混成音声データを生成するために必要な前記合成音声データを生成する合成音声データ生成手段(36)と、
を備え、
前記混成音声データ生成手段は、前記案内ポイントよりも所定距離手前のポイントをデータ生成完了ポイントとして設定し、前記移動体が前記データ生成完了ポイントに到達するまでに前記混成音声データを生成するように構成され、前記外部の装置から前記合成音声データが得られない場合には、前記所定距離を長く設定して前記データ生成完了ポイントから前記案内ポイントまでの距離を長くするとともに、前記移動体が変更後の前記データ生成完了ポイントに到達するまでに、前記合成音声データ生成手段が生成した前記合成音声データを用いて前記混成音声データを生成する音声出力装置。 A recording voice data storage unit (15) that is mounted on the mobile body and stores prerecorded recording voice data, and when reaching a guide point existing ahead in the traveling direction of the mobile body, the recording voice data storage unit A voice output device (11) for outputting a hybrid voice based on the hybrid voice data composed of the recorded voice data extracted from the synthesized voice data;
A recorded voice data extracting means (32) for extracting the recorded voice data necessary for generating the hybrid voice data corresponding to the guidance point from the recorded voice data storage unit;
Before the moving body reaches the guide point, the recorded voice data extracted by the recorded voice data extraction means and the mixed voice data corresponding to the guide point can be communicated with the voice output device. Mixed voice data generating means (34) for generating the mixed voice data consisting of the synthesized voice data generated by an external device connected to
When the mobile body reaches the guidance point, a hybrid voice output means (35) for outputting the hybrid voice based on the hybrid voice data generated by the hybrid voice data generation means;
Synthesized voice data generating means (36) for generating the synthesized voice data necessary for generating the hybrid voice data corresponding to the guidance point;
Equipped with a,
The hybrid voice data generation means sets a point a predetermined distance before the guide point as a data generation completion point, and generates the hybrid voice data until the mobile body reaches the data generation completion point. When the synthesized voice data cannot be obtained from the external device, the predetermined distance is set longer to increase the distance from the data generation completion point to the guide point, and the moving body is changed. An audio output device that generates the mixed audio data by using the synthesized audio data generated by the synthesized audio data generating means until reaching a later data generation completion point .
前記音声出力装置に設けられ、前記案内ポイントに対応する前記混成音声データを生成するために必要な前記録音音声データを前記録音音声データ記憶部から抽出する録音音声データ抽出手段(32)と、
前記外部の装置に設けられ、前記案内ポイントに対応する前記混成音声データを生成するために必要な前記合成音声データを生成する合成音声データ生成手段(51)と、
前記音声出力装置に設けられ、前記移動体が前記案内ポイントに到達する前に、前記録音音声データ抽出手段が抽出した前記録音音声データと、前記合成音声データ生成手段が生成した前記合成音声データと、からなる前記混成音声データを生成する混成音声データ生成手段(34)と、
前記音声出力装置に設けられ、前記移動体が前記案内ポイントに到達すると、前記混成音声データ生成手段が生成した前記混成音声データに基づいて前記混成音声を出力する混成音声出力手段(35)と、
前記音声出力装置に設けられ、前記案内ポイントに対応する前記混成音声データを生成するために必要な前記合成音声データを生成する合成音声データ生成手段(36)と、
を備え、
前記混成音声データ生成手段は、前記案内ポイントよりも所定距離手前のポイントをデータ生成完了ポイントとして設定し、前記移動体が前記データ生成完了ポイントに到達するまでに前記混成音声データを生成するように構成され、前記外部の装置から前記合成音声データが得られない場合には、前記所定距離を長く設定して前記データ生成完了ポイントから前記案内ポイントまでの距離を長くするとともに、前記移動体が変更後の前記データ生成完了ポイントに到達するまでに、前記音声出力装置が備える前記合成音声データ生成手段が生成した前記合成音声データを用いて前記混成音声データを生成する音声出力システム。 A recording voice data storage unit (15) that is mounted on the mobile body and stores prerecorded recording voice data, and when reaching a guide point existing ahead in the traveling direction of the mobile body, the recording voice data storage unit An audio output device (11) for outputting mixed audio based on the mixed audio data composed of the recorded audio data extracted from the synthesized audio data and an external device (communication connected to the audio output device) 41) and an audio output system (10) comprising:
Recorded voice data extracting means (32) provided in the voice output device for extracting the recorded voice data necessary for generating the mixed voice data corresponding to the guidance point from the recorded voice data storage unit;
A synthesized voice data generating means (51) provided in the external device for generating the synthesized voice data necessary for generating the hybrid voice data corresponding to the guidance point;
Provided in the voice output device, the recorded voice data extracted by the recorded voice data extracting means before the moving body reaches the guide point, and the synthesized voice data generated by the synthesized voice data generating means Hybrid voice data generating means (34) for generating the hybrid voice data comprising:
A hybrid voice output means (35) provided in the voice output device for outputting the hybrid voice based on the hybrid voice data generated by the hybrid voice data generating means when the mobile body reaches the guidance point;
A synthesized voice data generating means (36) provided in the voice output device for generating the synthesized voice data necessary for generating the hybrid voice data corresponding to the guidance point;
Equipped with a,
The hybrid voice data generation means sets a point a predetermined distance before the guide point as a data generation completion point, and generates the hybrid voice data until the mobile body reaches the data generation completion point. When the synthesized voice data cannot be obtained from the external device, the predetermined distance is set longer to increase the distance from the data generation completion point to the guide point, and the moving body is changed. An audio output system that generates the mixed audio data by using the synthesized audio data generated by the synthesized audio data generating means included in the audio output device before reaching a later data generation completion point .
The voice output system according to claim 6 , wherein when the requested synthesized voice data cannot be obtained, the voice output device executes the synthetic voice data generation request again.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012025052A JP5853746B2 (en) | 2012-02-08 | 2012-02-08 | Audio output device and audio output system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012025052A JP5853746B2 (en) | 2012-02-08 | 2012-02-08 | Audio output device and audio output system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013161038A JP2013161038A (en) | 2013-08-19 |
JP5853746B2 true JP5853746B2 (en) | 2016-02-09 |
Family
ID=49173292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012025052A Expired - Fee Related JP5853746B2 (en) | 2012-02-08 | 2012-02-08 | Audio output device and audio output system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5853746B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018025706A (en) * | 2016-08-12 | 2018-02-15 | 株式会社カプコン | Voice generator |
JP6170604B1 (en) * | 2016-09-20 | 2017-07-26 | 株式会社カプコン | Speech generator |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2509523B2 (en) * | 1993-06-25 | 1996-06-19 | 株式会社エクォス・リサーチ | Vehicle audio output device |
JP4653572B2 (en) * | 2005-06-17 | 2011-03-16 | 日本電信電話株式会社 | Client terminal, speech synthesis information processing server, client terminal program, speech synthesis information processing program |
JP2007256456A (en) * | 2006-03-22 | 2007-10-04 | Denso It Laboratory Inc | Content providing apparatus and content providing method |
JP2010048959A (en) * | 2008-08-20 | 2010-03-04 | Denso Corp | Speech output system and onboard device |
-
2012
- 2012-02-08 JP JP2012025052A patent/JP5853746B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013161038A (en) | 2013-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9562787B2 (en) | Travel guidance device, travel guidance method, and computer program | |
US20170197634A1 (en) | Automated drive assisting system, automated drive assisting method, and computer program | |
JP5463922B2 (en) | In-vehicle machine | |
KR20140007282A (en) | Speech recognition apparatus and method thereof | |
JP6098419B2 (en) | Traffic information guidance system, traffic information guidance device, traffic information guidance method, and computer program | |
US20110288871A1 (en) | Information presentation system | |
JP2012132744A (en) | Route guidance device, route guidance method and computer program | |
JP6558129B2 (en) | Driving support system, driving support method, and computer program | |
JP6476870B2 (en) | Movement guide device, map information update method for movement guide device, and computer program | |
JP6664469B2 (en) | Communication terminal, route search system, and computer program | |
JP2017181390A (en) | Information providing service, information providing system, and computer program | |
JP2011179883A (en) | Navigation system, in-vehicle apparatus, program, and method of navigation | |
JP2012215398A (en) | Travel guide system, travel guide apparatus, travel guide method, and computer program | |
KR101562581B1 (en) | Navigation apparatus and method thereof | |
JPWO2017170141A1 (en) | Server device, communication terminal, route search system, and computer program | |
JP2008232821A (en) | On-vehicle navigation system | |
JP2013029427A (en) | Stop line detection system, stop line detection device, stop line detection method, and computer program | |
JP5853746B2 (en) | Audio output device and audio output system | |
JP2017032440A (en) | Driving assistance system, driving assistance method, and computer program | |
JP4788561B2 (en) | Information communication system | |
JP7056311B2 (en) | Driving support device and computer program | |
KR20100064248A (en) | Navigation apparatus and method thereof | |
JP2009128316A (en) | Route guide system and program | |
JP6834693B2 (en) | Communication terminals, mobile guidance systems and computer programs | |
JP2009250622A (en) | Navigation device, route guiding method, and route guiding program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141010 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151123 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5853746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |