JP3862478B2 - Speech synthesis apparatus and speech synthesis method - Google Patents
Speech synthesis apparatus and speech synthesis method Download PDFInfo
- Publication number
- JP3862478B2 JP3862478B2 JP2000158908A JP2000158908A JP3862478B2 JP 3862478 B2 JP3862478 B2 JP 3862478B2 JP 2000158908 A JP2000158908 A JP 2000158908A JP 2000158908 A JP2000158908 A JP 2000158908A JP 3862478 B2 JP3862478 B2 JP 3862478B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- congestion
- parameter
- voice
- road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、車両に搭載し、テキストに基づいて音声合成を行う音声合成装置および音声合成方法に関するものである。
【0002】
【従来の技術】
従来のカーナビゲーション装置は、自車内のディスプレイに映し出された地図上に自車位置を表示させるものである。また、走行前、または走行中に目的地を設定することにより、目的地までの経路を検索し、ディスプレイ上の経路表示や音声案内により目的地までの経路を運転手に誘導することができる。
【0003】
カーナビゲーション装置の音声案内は、実際の人間の案内音声を収録したものを再生する方式や、規則音声合成技術を用いたものもある。また、自車が曲がるべき交差点に近づくにつれ、自車の速度、道路の混雑状況を考慮し、経路案内のタイミングを変化させ、運転手への経路誘導の確実性を向上させたものもある。
【0004】
【発明が解決しようとする課題】
音声案内で規則音声合成を用いている場合、音声を録音するよりも記憶領域が少なくてすむメリットがあるが、現状では人間の肉声に比べて聞き取りやすさが劣っており、車速が上がり、周囲の雑音が大きくなったときには、なおさら聞き取りにくくなる。しかし従来の合成音声生成部は、自車の周囲状況まで考慮して合成波形を作成することはなかったため、周囲状況にあった合成音声を生成することができなかった。
【0005】
本発明は上述の問題点に対して鑑みたものであり、車両や周囲の状況に応じて合成音声に関するパラメータを制御することで、音声合成結果を車両に乗車している人に聞き取り可能にすることを目的とする。
【0006】
【課題を解決するための手段】
本発明の目的を達成するために、例えば本発明の音声合成装置は以下の構成を備える。すなわち、テキストに対応する合成音声を生成する音声合成手段と、
道路の混雑状況を取得する取得手段と、
前記道路の混雑状況が第1の混雑状況である場合は前記合成音声の話者を変更し、前記道路の混雑状況が第2の混雑状況である場合は前記合成音声の韻律に関するパラメータである韻律パラメータを変更する変更手段と
を備えることを特徴とする。
本発明の目的を達成するために、例えば本発明の音声合成方法は以下の構成を備える。すなわち、テキストに対応する合成音声を生成する音声合成工程と、
道路の混雑状況を取得する取得工程と、
前記道路の混雑状況が第1の混雑状況である場合は前記合成音声の話者を変更する第1の変更工程と、
前記道路の混雑状況が第2の混雑状況である場合は前記合成音声の韻律に関するパラメータである韻律パラメータを変更する第2の変更工程と
を有することを特徴とする。
【0007】
【発明の実施の形態】
以下添付図面に従って、本発明を好適な実施形態に従って詳細に説明する。なお、以下の実施形態では情報再生装置としてカーナビゲーション装置を用いた場合について説明する。
【0008】
[第1の実施形態]
図1に本実施形態におけるカーナビゲーション装置の概略構成を示す。
【0009】
101はカーナビゲーション装置が発声する内容のテキスト文である発声内容テキストを格納している発声内容格納メモリである。カーナビゲーション装置がアナウンスをする場合は、発声内容選択部102がこの発声内容格納メモリ101を参照し、発声すべき内容に該当する発声内容テキストを選択する。場合により、この発声内容は、カーナビゲーション装置が無線や携帯電話を通して接続された情報発信サーバからダウンロードした運転手へのメールや、ニュースなどでもよい。
【0010】
発声内容選択部102で選択された発声内容テキストは、カーナビゲーション装置内の韻律パラメータ生成部103に送られる。
【0011】
韻律パラメータ生成部103では発声内容が書かれたテキストから、音パワー(声の大きさ)、ピッチ周波数(声の高さ)、音韻時間長(声の速度)といった韻律パラメータ(合成音声パラメータ)を生成する。本来、これらのパラメータはアクセントの位置や強さが付加された発声内容テキストから生成することが可能であるが、本実施形態では、走行状態情報取得部105を介して得られた後述の情報も反映する。走行状態情報取得部105は、音声合成装置107外の自車速度測定部109、自車位置測定部110、混雑状況取得部111と接続している。
【0012】
韻律パラメータ生成部103において作成された韻律パラメータは音素片接続部104に送られ、音素片接続部104はその韻律パラメータ通りに規則合成音の元となる音素データを、この音素データを格納している音素片辞書106から獲得し、獲得した音素データを接続していくことで、合成音声を生成する。
【0013】
また、走行状態情報取得部105は音素片接続部104も制御しており、用いる音素データなどを変更する場合もある。音素データが変わることで、合成音の話者が変わったようになる。
【0014】
音声合成装置107で合成音声が作成されると、そのデータはスピーカなどの音声出力装置108に送られて、音声出力される。
【0015】
図2は、本実施形態におけるカーナビゲーション装置が上述の処理を行う際のフローチャートである。なお、同図に示したフローチャートに従ったプログラムコードは、本実施形態におけるカーナビゲーション装置内の不図示のROMやRAMなどのメモリ内に格納され、CPUにより読み出され、実行される。その結果、本実施形態のカーナビゲーション装置は後述する各処理を行うことができる。
【0016】
なお、ここでは例として、自車速度により韻律パラメータを変え、自車速度が早くなるに従って、大きく、はっきり、ゆっくりと発声する合成音を作成する処理について説明する。又、本フローチャートに従った処理が実行される前に、カーナビゲーション装置が発声すべき内容は決定しているものとする。
【0017】
まず発声内容格納メモリ101から、発声内容選択部102により発声すべき内容に該当するテキストデータを選択、取り込む(ステップS201)。取り込んだテキストに基づいて韻律パラメータ生成部103によりデフォルトの韻律パラメータを作成する(ステップS202)。ここでの処理は一般の規則音声合成処理と同様である。
【0018】
次に、自車速度測定部109から現在の自車速度(時速)Sを取得する(ステップS203)。このSの値をもとに、先ほど決定したデフォルトの韻律パラメータを更新する(ステップS204〜ステップS209)。同図の例では、自車速度Sが上がるに連れて、大きく、ゆっくりとした合成音を出力する処理になっている。また、この例では、自車速度Sが80Km、50km、20kmで階段状の制御を行っているが、
韻律パラメータ=α×S+β (α,βは定数)
のように自車速度Sを変数とする関数で算出してもよい。
【0019】
次に、音素片接続部104は発声内容選択部102が選択したテキスト文に従って音素片辞書106から必要な音素データを獲得し、自車速度Sに基づいて更新された上述の韻律パラメータ上に獲得した音素データを貼り付け、合成音声を生成する(ステップS210)。そして生成された合成音声は音声出力装置108に出力され、音声出力装置108から合成音声を出力する(ステップS211)。
【0020】
以上の説明により、本実施形態におけるカーナビゲーション装置は、自車速度に基づいて合成音声パラメータとしての韻律パラメータを制御することが可能である。その結果、自車速度の増加に起因する例えばエンジン音の音量の増加により、アナウンスが聞こえにくい場合にでも、例えば合成音声の音量を増加させることで、よりアナウンスの内容が聞き取りやすくなる。
【0021】
[第2の実施形態]
第1の実施形態では自車速度を、合成音声パラメータを制御するパラメータとして用いたが、本実施形態では、自車の周囲の状況(道路の混雑状況)を韻律パラメータを制御するパラメータとして用いる場合を説明する。なお本実施形態で用いるカーナビゲーション装置の構成は第1の実施形態で用いたものと同じものとする。
【0022】
図3は、本実施形態におけるカーナビゲーション装置が行う処理のフローチャートである。なお、同図に示したフローチャートに従ったプログラムコードは、本実施形態におけるカーナビゲーション装置内の不図示のROMやRAMなどのメモリ内に格納され、CPUにより読み出され、実行される。その結果、本実施形態のカーナビゲーション装置は後述する各処理を行うことができる。
【0023】
なお、ここでは例として、デフォルトで男性音声の合成音が、道路の混雑状況によって落ち着いた合成音(女性音声の合成音)になる例を示す。又、第1の実施形態と同様、本フローチャートに従った処理が実行される前に、カーナビゲーション装置が発声すべき内容は決定しているものとする。
【0024】
まず発声内容格納メモリ101から、発声内容選択部102により発声すべき内容に該当するテキストデータを選択、取り込む(ステップS301)。また、デフォルトの音素片辞書を男性のものに設定し(ステップS302)、発声内容選択部102が取り込んだテキストを用いて、韻律パラメータ生成部103によりデフォルトの韻律パラメータを作成する(ステップS303)。
【0025】
次に、走行状態情報取得部105は、混雑状況取得部111により測定された現在の自車がいる道路の混雑状況を取得する(ステップS304)。ここで道路が渋滞していると判断された場合(ステップS305)、運転手の気持ちを解きほぐすためにデフォルト話者が女性の音声になるように、韻律パラメータ生成部103は上述のデフォルトの韻律パラメータを更新する(ステップS307)。具体的には、ピッチ周波数をあげることで、より女性らしい音声にする。
【0026】
一般に男性の音声のピッチ周波数の帯域は大まかには80から160Hz程度で、女性の音声のピッチ周波数の帯域は大まかには120〜250Hz程度で、平均的に見て、女性の音声のピッチ周波数は男性のそれよりも高い。よってデフォルトでは男性の話者の音声データなので、デフォルトのピッチ周波数を例えば120Hzと設定すると、ステップS307で、女性の音声にするためには、ピッチ周波数を200Hzにあげる処理を行う。
【0027】
また、道路が渋滞とまではいかなくても混雑していると判断された場合(ステップS306)、デフォルトの韻律パラメータを操作し(ステップS308)、更新する。本フローチャートの例では、ピッチ周波数を下げることで低い音声にし、音韻時間長を長くすることでゆっくりとアナウンスを行うようにし、音パワーを下げることで音量を下げる。その結果、ゆったりと落ち着いた音声に更新している。
【0028】
次に、音素片接続部104は発声内容選択部102が選択したテキスト文に従って音素片辞書106から必要な音素データを獲得し、上述の通り更新された韻律パラメータ上に獲得した音素データを貼り付け、合成音声を生成する(ステップS309)。そして生成された合成音声は音声出力装置108に出力され、音声出力装置108から合成音声を出力する(ステップS310)。
【0029】
以上の説明により、本実施形態におけるカーナビゲーション装置は、自車の周囲の状況に応じて韻律パラメータを変更することができる。その結果、自車が混雑した道路を運転している場合には、落ち着いた音声を、渋滞した道路では女性の音声を聞かせることが可能となる。
【0030】
[第3の実施形態]
本実施形態では、次の経路案内をしなければならない地点への到達時間を考慮し、その時間内にテキストの読み上げが終わるように、韻律パラメータを更新する場合について説明する。なお本実施形態で用いるカーナビゲーション装置は第1の実施形態で用いたものと同じものとする。
【0031】
本実施形態のカーナビゲーション装置が動作する状況を図5に示す。501は自車で、同図の時点では速度vの速度で走っているものとする。502は上述の次の経路案内をしなければならない地点で、自車501は地点502に着くまでに、後述するテキスト文を読み終えなければいけない。なお同図で示した時点では自車501の位置から地点502まではLの距離があるものとする。
【0032】
図4は、本実施形態におけるカーナビゲーション装置が行う処理のフローチャートである。なお、同図に示したフローチャートに従ったプログラムコードは、本実施形態におけるカーナビゲーション装置内の不図示のROMやRAMなどのメモリ内に格納され、CPUにより読み出され、実行される。その結果、本実施形態のカーナビゲーション装置は後述する各処理を行うことができる。
【0033】
又本フローチャートに従った処理は、ある一つの経路案内文発声(例えば「その交差点を右に曲がってください」など)が終了した時点で呼び出される。まず、自車速度測定部109,自車位置測定部110により夫々自車速度、自車位置が測定され、走行状態情報取得部105によりこの自車速度、自車位置を取得する(ステップS401)。その結果、走行状態情報取得部105は次の経路案内を行う地点(例えば図5における地点502)に自車が到着するまでの時間Tを推定する(ステップS402)。時間Tは、次の式で推定可能である。
【0034】
T=次の経路案内をする地点までの距離 / 自車速度
さらに現在の自車速度ではなく、現在までの数分間の自車速度の平均値を用いることで、更に信頼度の高い時間Tの推定値となる。
【0035】
ここで時間Tの値が十分に大きくなければ(例では時間Tが10分以下であれば)、本処理を終了する(ステップS403)。一方、時間Tの値が10分以上であれば、発声内容選択部102は時間T以内に読み上げ可能な未読の運転手へのメールやニュース(のテキスト文)を選択する(ステップS404)。つまり、カーナビゲーション装置(の発声内容格納メモリ101)と無線ネットワークでつながった情報発信サーバに格納した上述のメールやニュースのテキスト文を参照し、選択してもよいし、既にこの情報発信サーバにアクセスして、カーナビゲーション装置内の発声内容格納メモリ101にダウンロードした上述のメールやニュースのテキスト文を参照し、選択してもよい。また、時間T以内に読み上げ可能かどうかは、テキスト文を構成する音節数と各音節を発声する際に要する時間とを獲得し、そのテキスト文を読み上げる時間を(音節数×各音節を発声する際に要する時間)と演算し、その結果が時間T以内か否かを判定する必要がある。
【0036】
テキスト全体の音節数については、上述の情報発信サーバ内で格納しているメールやニュースのテキスト文を構成している音節の数を予め測定しておき、測定した音節数をこのテキストに添付しておいて、カーナビゲーション装置でこのテキストを参照もしくはダウンロードする際に、この音節数を獲得する。その他にも、発声内容選択部102において、形態素解析などを用いてテキスト文の読み方を決定し、この読み方から音節数を数えてもよい。又、各音節を発声する際の要する時間は一定とする。
【0037】
図6に、発声すべき内容を発声する際に要する時間の算出方法を示す。
【0038】
601は発声すべき内容で、ここでは例として「あかさか」という言葉を用いる。601a〜601dは発声すべき内容701を構成する各音節である。各音節を発声する際に要する時間は夫々t1,t2,t3,t4であり、夫々の時間(t1、t2、t3、t4)は、予め測定された厳密な値であってもよいし、全て同じ平均的な値であってもよい。そしてその結果、発声すべき内容601を発声する際に要する(推定)時間は(t1+t2+t3+t4)となる。
【0039】
また、上述の参照したメールやニュースが未読か否かを判断するには、各メールやニュースに未読フラグを添付することで判断可能である。図7にメールを例として、各メールにこの未読フラグを添付したテーブルの構成を示す。701は各メールに添付された未読フラグの項目で、この未読フラグが0のメールはすでに読んだメールで、未読フラグが1のメールは未読であることを示す。702は各メールの内容が記載されている項目である。なおこのテーブルは、上述の情報発信サーバに格納しておき、カーナビゲーション装置が情報発信サーバ内のメールを参照する際にはこのテーブルを参照することになる。なお、この未読フラグはメールが情報発信サーバに到着したときに1に設定され、メールの内容と共にこのテーブルに付け加える。
【0040】
以上のテーブルの構成はメールを例として説明したが、ニュースであってもそのテーブルの構成は同じで、項目702の部分をニュースの内容が記載された項目とすることでニュースを例とするテーブルとすることができる。なお、ステップS404において、選択した(メールの内容の、もしくはニュースの内容の)テキスト文に対応する未読フラグを0に設定する。
【0041】
次に、読み上げようとするテキスト文(文章)がまだあるか否かを判断し(ステップS405)、読み上げるテキスト文がもう無ければ、本フローチャートに従った処理を終了する。一方、読み上げるテキスト文がまだある場合、韻律パラメータ生成部103は発声内容選択部101が上述の通り選択したテキスト文から1文を取り込み(ステップS406)、また再び自車速度測定部109,自車位置測定部110より夫々自車速度、自車位置を測定、走行状態情報取得部105で取得し(ステップS407)、走行状態情報取得部105において次の経路案内までの時間Tを再推定する(ステップS408)。ここでも自車速度のかわりに、現在まで数分間の自車速度の平均値を用いることで、Tの精度が向上する。また、1文を読み上げるごとにこの再推定を繰り返すことにより、文章を読み上げ始めてから車速が急に変化した場合にも対応が可能である。
【0042】
韻律パラメータ生成部103は取り込んだ1文のテキストに、デフォルトの韻律パラメータを設定し(ステップS409)、設定した韻律パラメータを、Tの値に応じて更新する(ステップS410〜ステップS413)。同図の例では、音韻時間長を操作しているが、これは次の経路案内までの時間が少ないときに、なるべく早口になることに相当する。
【0043】
音素片接続部104では韻律パラメータ生成部103において得られた韻律パラメータを用いて、第1,2の実施形態と同じようにして合成音声を生成し、この合成音声は音声出力装置108で出力される(ステップS414)。
【0044】
以上の説明により、本実施形態におけるカーナビゲーション装置は、次の経路案内をしなければならない地点への到達時間を考慮して、その時間内にテキストを読み上げ終わるように合成音声パラメータとして韻律パラメータを更新する。その結果、テキストを読み上げる速度を上述の到着時間に応じて変更することができ、上述の到着時間内にこのテキストを読み上げることが可能である。
【0045】
[他の実施形態]
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェイス機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
【0046】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0047】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0048】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明した(図2又は3又は4に示す)フローチャートに対応するプログラムコードが格納されることになる。
【0049】
【発明の効果】
車両や周囲の状況に応じて合成音声に関するパラメータを制御することで、音声合成結果を車両に乗車している人に聞き取り可能にする効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施形態におけるカーナビゲーション装置の概略構成を示す図である。
【図2】本発明の第1の実施形態におけるカーナビゲーション装置が行う処理のフローチャートである。
【図3】本発明の第2の実施形態におけるカーナビゲーション装置が行う処理のフローチャートである。
【図4】本発明の第3の実施形態におけるカーナビゲーション装置が行う処理のフローチャートである。
【図5】本発明の第3の実施形態におけるカーナビゲーション装置が動作する状況を示す図である。
【図6】発声すべき内容を発声する際に要する時間の算出方法を示す図である。
【図7】メールを例として、各メールに未読フラグを添付したテーブルの構成を示す図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech synthesizer and a speech synthesis method that are mounted on a vehicle and perform speech synthesis based on text.
[0002]
[Prior art]
A conventional car navigation device displays the position of the vehicle on a map displayed on a display in the vehicle. Further, by setting the destination before or during traveling, the route to the destination can be searched, and the route to the destination can be guided to the driver by displaying the route on the display or by voice guidance.
[0003]
The voice guidance of the car navigation apparatus includes a method of reproducing a recording of actual human guidance voice and a method using a regular voice synthesis technique. In addition, as the vehicle approaches the intersection where the vehicle should bend, the route guidance timing is changed in consideration of the speed of the vehicle and the congestion of the road, thereby improving the reliability of route guidance to the driver.
[0004]
[Problems to be solved by the invention]
When regular voice synthesis is used for voice guidance, there is an advantage that it requires less storage space than recording voice, but currently it is inferior to human voices and the speed of the vehicle increases and the surroundings increase. When the noise increases, it becomes more difficult to hear. However, since the conventional synthesized speech generation unit does not create a synthesized waveform in consideration of the surrounding situation of the host vehicle, it cannot generate synthesized speech that matches the surrounding situation.
[0005]
The present invention has been made in view of the above-described problems, and by controlling parameters related to synthesized speech in accordance with the vehicle and surrounding conditions, the speech synthesis result can be heard by a person riding in the vehicle. For the purpose.
[0006]
[Means for Solving the Problems]
In order to achieve the object of the present invention, for example, a speech synthesizer of the present invention comprises the following arrangement. That is, speech synthesis means for generating synthesized speech corresponding to text,
An acquisition means for acquiring road congestion conditions;
When the road congestion situation is the first congestion situation, the speaker of the synthesized speech is changed, and when the road congestion situation is the second congestion situation, the prosody is a parameter related to the prosody of the synthesized speech. And a changing means for changing the parameter.
In order to achieve the object of the present invention, for example, the speech synthesis method of the present invention comprises the following arrangement. That is, a speech synthesis process for generating synthesized speech corresponding to text,
An acquisition process for acquiring road congestion;
A first changing step of changing a speaker of the synthesized speech when the congestion situation of the road is a first congestion situation;
And a second changing step of changing a prosodic parameter that is a parameter related to the prosody of the synthesized speech when the road congestion state is a second congestion state.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described in detail according to preferred embodiments with reference to the accompanying drawings. In the following embodiment, a case where a car navigation device is used as the information reproducing device will be described.
[0008]
[First Embodiment]
FIG. 1 shows a schematic configuration of a car navigation apparatus according to the present embodiment.
[0009]
An utterance
[0010]
The utterance content text selected by the utterance content selection unit 102 is sent to the prosodic
[0011]
In the prosody
[0012]
The prosody parameters created in the prosody
[0013]
The driving state
[0014]
When the synthesized speech is created by the
[0015]
FIG. 2 is a flowchart when the car navigation apparatus according to this embodiment performs the above-described processing. The program code according to the flowchart shown in the figure is stored in a memory such as a ROM or a RAM (not shown) in the car navigation apparatus according to this embodiment, and is read and executed by the CPU. As a result, the car navigation device of the present embodiment can perform each process described below.
[0016]
Here, as an example, a process for changing a prosodic parameter according to the own vehicle speed and creating a synthesized sound that is uttered louder, clearly and slowly as the own vehicle speed increases will be described. Further, it is assumed that the content to be uttered by the car navigation device is determined before the processing according to this flowchart is executed.
[0017]
First, text data corresponding to the content to be uttered is selected and fetched by the utterance content selection unit 102 from the utterance content storage memory 101 (step S201). A default prosodic parameter is created by the prosodic
[0018]
Next, the current vehicle speed (speed) S is acquired from the vehicle speed measuring unit 109 (step S203). Based on the value of S, the previously determined default prosodic parameter is updated (steps S204 to S209). In the example shown in the figure, as the host vehicle speed S increases, a large and slow synthesized sound is output. In this example, the vehicle speed S is 80 km, 50 km, 20 km, and stepwise control is performed.
Prosodic parameter = α x S + β (α and β are constants)
As described above, the vehicle speed S may be calculated as a variable.
[0019]
Next, the phoneme
[0020]
As described above, the car navigation apparatus according to the present embodiment can control the prosodic parameters as the synthesized speech parameters based on the own vehicle speed. As a result, even if the announcement is difficult to hear due to, for example, an increase in the volume of the engine sound due to an increase in the vehicle speed, the content of the announcement can be heard more easily by increasing the volume of the synthesized speech, for example.
[0021]
[Second Embodiment]
In the first embodiment, the own vehicle speed is used as a parameter for controlling the synthesized voice parameter. In this embodiment, the situation around the own vehicle (road congestion situation) is used as a parameter for controlling the prosodic parameter. Will be explained. The configuration of the car navigation device used in the present embodiment is the same as that used in the first embodiment.
[0022]
FIG. 3 is a flowchart of processing performed by the car navigation device according to the present embodiment. The program code according to the flowchart shown in the figure is stored in a memory such as a ROM or a RAM (not shown) in the car navigation apparatus according to this embodiment, and is read and executed by the CPU. As a result, the car navigation device of the present embodiment can perform each process described below.
[0023]
Here, as an example, an example in which the synthesized sound of the male voice becomes a synthesized sound (synthetic sound of the female voice) calmed by the congestion situation of the road by default is shown. Similarly to the first embodiment, it is assumed that the content to be uttered by the car navigation device is determined before the processing according to the flowchart is executed.
[0024]
First, text data corresponding to the content to be uttered is selected and taken in by the utterance content selection unit 102 from the utterance content storage memory 101 (step S301). The default phoneme dictionary is set to male (step S302), and the prosody
[0025]
Next, the driving state
[0026]
In general, the pitch frequency band of male voice is roughly 80 to 160 Hz, and the pitch frequency band of female voice is roughly 120 to 250 Hz. On average, the pitch frequency of female voice is Higher than that of men. Therefore, since the voice data of a male speaker is the default, if the default pitch frequency is set to 120 Hz, for example, in step S307, processing for increasing the pitch frequency to 200 Hz is performed in order to obtain female voice.
[0027]
If it is determined that the road is congested even if it is not traffic jam (step S306), the default prosodic parameters are manipulated (step S308) and updated. In the example of this flowchart, the voice is lowered by lowering the pitch frequency, the announcement is made slowly by lengthening the phoneme length, and the volume is lowered by lowering the sound power. As a result, it has been updated to a relaxed and calm voice.
[0028]
Next, the phoneme
[0029]
As described above, the car navigation device according to the present embodiment can change the prosodic parameters according to the situation around the host vehicle. As a result, it is possible to hear a calm voice when driving on a crowded road and a female voice on a congested road.
[0030]
[Third Embodiment]
In the present embodiment, a case will be described in which the prosodic parameters are updated so that the arrival time at the point where the next route guidance should be performed is taken into account and the text is read out within that time. The car navigation apparatus used in this embodiment is the same as that used in the first embodiment.
[0031]
FIG. 5 shows a situation in which the car navigation device of this embodiment operates.
[0032]
FIG. 4 is a flowchart of processing performed by the car navigation device according to this embodiment. The program code according to the flowchart shown in the figure is stored in a memory such as a ROM or a RAM (not shown) in the car navigation apparatus according to this embodiment, and is read and executed by the CPU. As a result, the car navigation device of the present embodiment can perform each process described below.
[0033]
The process according to this flowchart is called when a certain route guidance sentence utterance (for example, “turn right at the intersection”) is completed. First, the own vehicle speed and the own vehicle position are measured by the own vehicle
[0034]
T = Distance to the point where the next route guidance is to be provided / Own vehicle speed Furthermore, by using the average value of the own vehicle speed for several minutes up to the present time instead of the current own vehicle speed, Estimated value.
[0035]
If the value of the time T is not sufficiently large (in the example, the time T is 10 minutes or less), the process is terminated (step S403). On the other hand, if the value of the time T is 10 minutes or more, the utterance content selection unit 102 selects an e-mail or news (text text) to an unread driver that can be read out within the time T (step S404). That is, the above-mentioned mail or news text stored in the information transmission server connected to the car navigation device (speech content storage memory 101) via the wireless network may be referred to and selected, or the information transmission server You may access and select the above-mentioned mail or news text sentence downloaded to the utterance
[0036]
As for the number of syllables in the entire text, measure the number of syllables that make up the text sentence of the mail or news stored in the above information transmission server in advance, and attach the measured number of syllables to this text. The syllable number is acquired when the text is referred to or downloaded by the car navigation device. In addition, the utterance content selection unit 102 may determine how to read a text sentence using morphological analysis and count the number of syllables based on this reading. The time required to utter each syllable is constant.
[0037]
FIG. 6 shows a method for calculating the time required to utter the content to be uttered.
[0038]
[0039]
In addition, in order to determine whether or not the above-described mail or news is unread, it can be determined by attaching an unread flag to each mail or news. FIG. 7 shows the structure of a table in which this unread flag is attached to each mail, taking mail as an example.
[0040]
Although the structure of the above table has been described by taking e-mail as an example, the structure of the table is the same even for news, and the table exemplarily includes news by setting the
[0041]
Next, it is determined whether or not there is still a text sentence (sentence) to be read out (step S405). If there is no more text sentence to be read out, the process according to this flowchart is terminated. On the other hand, if there is still a text sentence to be read, the prosodic
[0042]
The prosodic
[0043]
The phoneme
[0044]
As described above, the car navigation apparatus according to the present embodiment considers the arrival time to the point where the next route guidance should be taken into consideration, and uses the prosodic parameters as synthesized speech parameters so that the text is read out within that time. Update. As a result, the speed at which the text is read out can be changed according to the above arrival time, and the text can be read out within the above arrival time.
[0045]
[Other Embodiments]
Note that the present invention can be applied to a system including a plurality of devices (for example, a host computer, an interface device, a reader, and a printer), and a device (for example, a copying machine and a facsimile device) including a single device. You may apply to.
[0046]
Another object of the present invention is to supply a storage medium (or recording medium) in which a program code of software that realizes the functions of the above-described embodiments is recorded to a system or apparatus, and the computer (or CPU or Needless to say, this can also be achieved by the MPU) reading and executing the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention. In addition, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) running on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
[0047]
Furthermore, after the program code read from the storage medium is written into a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the function is determined based on the instruction of the program code. It goes without saying that the CPU or the like provided in the expansion card or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
[0048]
When the present invention is applied to the above-described storage medium, the storage medium stores program codes corresponding to the above-described flowchart (shown in FIG. 2, 3 or 4).
[0049]
【The invention's effect】
By controlling the parameters related to the synthesized speech in accordance with the vehicle and surrounding conditions, there is an effect that the speech synthesis result can be heard by a person riding in the vehicle.
[Brief description of the drawings]
FIG. 1 is a diagram showing a schematic configuration of a car navigation device according to a first embodiment of the present invention.
FIG. 2 is a flowchart of processing performed by the car navigation device according to the first embodiment of the present invention.
FIG. 3 is a flowchart of processing performed by a car navigation device according to a second embodiment of the present invention.
FIG. 4 is a flowchart of processing performed by a car navigation device according to a third embodiment of the present invention.
FIG. 5 is a diagram illustrating a situation in which a car navigation device according to a third embodiment of the present invention operates.
FIG. 6 is a diagram illustrating a method of calculating a time required for uttering content to be uttered.
FIG. 7 is a diagram illustrating a configuration of a table in which an unread flag is attached to each mail, taking mail as an example.
Claims (15)
道路の混雑状況を取得する取得手段と、
前記道路の混雑状況が第1の混雑状況である場合は前記合成音声の話者を変更し、前記道路の混雑状況が第2の混雑状況である場合は前記合成音声の韻律に関するパラメータである韻律パラメータを変更する変更手段と
を備えることを特徴とする音声合成装置。Speech synthesis means for generating synthesized speech corresponding to text;
An acquisition means for acquiring road congestion conditions;
When the road congestion situation is the first congestion situation, the speaker of the synthesized speech is changed, and when the road congestion situation is the second congestion situation, the prosody is a parameter related to the prosody of the synthesized speech. A speech synthesizer comprising: a changing unit that changes a parameter.
道路の混雑状況を取得する取得工程と、
前記道路の混雑状況が第1の混雑状況である場合は前記合成音声の話者を変更する第1の変更工程と、
前記道路の混雑状況が第2の混雑状況である場合は前記合成音声の韻律に関するパラメータである韻律パラメータを変更する第2の変更工程と
を有することを特徴とする音声合成方法。A speech synthesis step for generating synthesized speech corresponding to the text;
An acquisition process for acquiring road congestion;
A first changing step of changing a speaker of the synthesized speech when the congestion situation of the road is a first congestion situation;
And a second changing step of changing a prosodic parameter that is a parameter relating to the prosody of the synthesized speech when the road congestion state is a second congestion state.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000158908A JP3862478B2 (en) | 2000-05-29 | 2000-05-29 | Speech synthesis apparatus and speech synthesis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000158908A JP3862478B2 (en) | 2000-05-29 | 2000-05-29 | Speech synthesis apparatus and speech synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001337690A JP2001337690A (en) | 2001-12-07 |
JP3862478B2 true JP3862478B2 (en) | 2006-12-27 |
Family
ID=18663308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000158908A Expired - Fee Related JP3862478B2 (en) | 2000-05-29 | 2000-05-29 | Speech synthesis apparatus and speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3862478B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348367A (en) * | 2003-05-21 | 2004-12-09 | Nissan Motor Co Ltd | In-vehicle information providing device |
JP2005308536A (en) * | 2004-04-21 | 2005-11-04 | Pioneer Electronic Corp | Information processing device, guidance conducting device, information processing method, its program, and recording medium for recording program |
JP2007206522A (en) * | 2006-02-03 | 2007-08-16 | Toyota Motor Corp | Voice output apparatus |
JP4984708B2 (en) * | 2006-07-21 | 2012-07-25 | 富士通株式会社 | Information processing apparatus having voice dialogue function |
JP4747052B2 (en) * | 2006-08-08 | 2011-08-10 | クラリオン株式会社 | Navigation device |
US8165881B2 (en) * | 2008-08-29 | 2012-04-24 | Honda Motor Co., Ltd. | System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle |
-
2000
- 2000-05-29 JP JP2000158908A patent/JP3862478B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001337690A (en) | 2001-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839583B2 (en) | Emotive advisory system and method | |
US9076435B2 (en) | Apparatus for text-to-speech delivery and method therefor | |
US7881934B2 (en) | Method and system for adjusting the voice prompt of an interactive system based upon the user's state | |
JP3862478B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP4784156B2 (en) | Speech synthesizer for performing voice guidance by a plurality of characters, speech synthesis method, program thereof, and information recording medium on which the program is recorded | |
JP2012173702A (en) | Voice guidance system | |
US11437016B2 (en) | Information processing method, information processing device, and program | |
JP2002169582A (en) | Voice synthesizing device and its control method, and computer-readable memory | |
JP2003202233A (en) | Information regeneration device, information regeneration method, and storage medium | |
JP4684609B2 (en) | Speech synthesizer, control method, control program, and recording medium | |
JP3805065B2 (en) | In-car speech synthesizer | |
RU2425330C2 (en) | Text to speech device and method | |
JP3263572B2 (en) | Audio output device | |
JPH0934490A (en) | Method and device for voice synthetization, navigation system, and recording medium | |
JP2004294813A (en) | Speech synthesizer, control method, control program, and recording medium | |
JP2009157065A (en) | Voice output device, voice output method, voice output program and recording medium | |
JPH11126087A (en) | Method and device for synthesizing voice, navigation system, and information recording medium | |
CN112241248A (en) | Information providing device, information providing method, and storage medium | |
JPH0950296A (en) | Voice synthetic device | |
JPH10149188A (en) | Text voice synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040402 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060926 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091006 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101006 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101006 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111006 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111006 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121006 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131006 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |