JP3955881B2

JP3955881B2 - 音声合成方法および情報提供装置

Info

Publication number: JP3955881B2
Application number: JP2006550642A
Authority: JP
Inventors: 夏樹齋藤; 孝浩釜井; 弓子加藤; 良文廣瀬
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-12-28
Filing date: 2005-12-06
Publication date: 2007-08-08
Anticipated expiration: 2025-12-06
Also published as: WO2006070566A1; CN1918628A; US20070094029A1; JPWO2006070566A1

Description

本発明は再生タイミングに制約のある複数の合成音コンテンツを漏れなく分かりやすく読み上げるための音声合成方法および音声合成装置に関する。

従来より、所望のテキストに対する合成音を生成して出力する音声合成装置が提供されている。状況に応じてメモリから自動で選択した文章を音声合成装置で読み上げることによって、ユーザに音声で情報提供を行う装置の用途は多く、例えばカーナビゲーションシステムでは、現在の位置や走行速度、設定された案内経路等の情報から、分岐点の数百メートル手前で分岐情報を報知したり、渋滞情報を受信してユーザに提示したりといったことを行う。

このような用途では、あらかじめ全ての合成音コンテンツの再生タイミングを決定しておくことは難しい。また、あらかじめ予測不能なタイミングで新たなテキストの読み上げを行う必要が生じることもある。例えば、曲がらなければならない交差点に差し掛かったところで、その先の渋滞情報を受信したような場合は、道案内の情報と渋滞情報の両方を、分かりやすくユーザに提示することが求められる。このための技術として、例えば特許文献１〜４がある。

特許文献１及び２の方式では、提示する音声コンテンツをあらかじめ優先度付けしておき、同時に複数の音声コンテンツを読み上げる必要が生じたときには優先度の高い方を再生し、優先度の低い方の再生を抑制するものである。

特許文献３の方式は、合成音の無音部分を短縮する等の方法で再生時間長に関する制約条件を満たすようにする方法である。特許文献４の方式では、環境の変化に応じて動的に圧縮率を変化させ、圧縮率に応じて文書を要約する。
特開昭６０−１２８５８７号公報特開２００２−２３６０２９号公報特開平６−６７６８５号公報特開２００４−３２６８７７号公報

しかしながら、従来の方法では音声で読み上げるべきテキストを定型文として持っているだけであり、２つの音声を同時に再生する必要が生じた際、片方の音声の再生をキャンセルするか、もしくは再生を後回しにするか、もしくは再生スピードを上げることによって短い時間に多くの情報を詰め込むかというような方策しか取れない。このうち片方の音声のみ優先的に再生する方法では、２つの音声がどちらも同等の優先度を持っていた場合に問題が生じる。また、早送りや音声の短縮を用いる方法では、音声が聞き取りにくくなるという問題が生じる。また、特許文献４の方式では未出力の文書の文字数を減らすことにより要約を行なっている。このような要約方法では、圧縮率が高くなると、文書の中の文字数が多く削除されてしまい、要約後の文書の内容を明確に伝えることが難しくなるという問題がある。

本発明はこのような課題に鑑み、読み上げるテキストの内容を時間的制約条件に応じて変更することで、音声の聞きやすさを保ったままできるだけ多くの情報をユーザに提示することができるようにすることを目的とする。

上記目的を達成するために、本発明の音声合成方法は、テキストから合成される合成音声の再生時間長を予測する時間長予測ステップと、予測された再生時間長に基づいて、前記合成音声の再生タイミングに関する制約条件が満たされているか否かを判定する判定ステップと、前記制約条件が満たされないと判定された場合、前記テキストの合成音声の再生開始タイミングを前又は後にずらし、前記ずらした時間に相当する分、当該テキストに含まれる時間又は距離を表す内容を変更する内容変更ステップと、前記内容が変更された前記テキストから合成音声を合成し再生する音声合成ステップとを含む。従って、本発明によれば、合成音声の再生タイミングに関する制約条件が満たされないと判定された場合、前記テキストの合成音声の再生開始タイミングを前又は後にずらし、前記ずらした時間に相当する分、当該テキストに含まれる時間又は距離を表す内容を変更するので、タイミングをずらして合成音声を再生する場合でも、時間とともに変化する内容（時間又は距離）を元のテキストの本来の内容を変えずにユーザに伝えることができるという効果がある。

また、前記時間長予測ステップでは、複数の合成音声のうち、第１の合成音声の再生開始前に、再生を完了する必要のある第２の合成音声の再生時間長を予測し、前記判定ステップでは、前記第２の合成音声に対して予測された前記再生時間長に基づいて、前記第２の合成音声の再生完了が前記第１の合成音声の再生開始に間に合わないようであれば、前記制約条件が満たされないと判定し、前記内容変更ステップでは、前記制約条件が満たされないと判定された場合、前記第１の合成音声の再生開始タイミングを前記第２の合成音声の再生完了予測時刻まで遅らせ、前記第１の合成音声の元となるテキストの前記内容を変更し、前記音声合成ステップでは、前記第２の合成音声の再生完了後、前記内容が変更された前記テキストから前記第１の合成音声を合成し再生するとしてもよい。従って、本発明によれば、第１の合成音声と第２の合成音声の再生が重ならないように第１の合成音声の再生開始タイミングを遅らせることができ、かつ、第１の合成音声の元となるテキストに示されている時間又は距離を表す内容を、第１の合成音声再生開始タイミングを遅らせた分だけ変更することができる。これにより、第１の合成音声と第２の合成音声との両方を再生することができ、かつ、テキストが意味している本来の内容を正確にユーザに伝えることができるという効果がある。

また、前記内容変更ステップでは、さらに、前記第２の合成音声の元となるテキストを要約することによって前記第２の合成音声の再生時間を短縮し、前記第１の合成音声の再生開始タイミングを、短縮された前記第２の合成音声の再生完了後まで遅らせるとしてもよい。これにより、第１の合成音声の再生開始タイミングを遅らせる時間を短くすることができ、または、第１の合成音声の再生開始タイミングを遅らせずにすませることができるという効果がある。

なお、本発明は、このような音声合成装置として実現することができるだけでなく、このような音声合成装置が備える特徴的な手段をステップとする音声合成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。

本発明の音声合成装置では、所定の時刻までに読み上げる必要があるスケジュールを何らかの理由でその時刻までに読み上げられなかった場合でも、そのスケジュールが開始してしまうまでの間であれば、読み上げ時刻を変更して読み上げを行なうことができる。また、複数の合成音を同時に再生する必要が生じた場合、どの音声も再生されないことがないように、合成音の内容変更及び再生開始時刻の変更という手法を用いて、複数の合成音コンテンツを限られた時間内に再生することができるという効果を有する。さらに、単に合成音の再生開始時刻を変更するだけだと、再生される合成音の元になるテキストに含まれている、時間とともに変化する内容、具体的には、（予定）時刻や（移動）距離などが本来の内容と異なってくる。これに対し、本発明では、合成音の再生開始時刻が変更された分だけ、テキストに含まれている時間又は距離を表す内容を変更した後、音声を合成して再生するので、本来のテキストの内容を正しく再生することができるという効果がある。

以下、本発明の実施の形態について図面を用いて詳細に説明する。
（実施の形態１）
図１は、本発明の実施の形態１に係る音声合成装置の構成を示す構造図である。

本実施の形態の音声合成装置は、入力される２つのテキスト１０５ａおよび１０５ｂを音声合成して再生する際に再生時間の重なりが無いかどうか判定し、重なりがある場合にはテキスト内容の要約と再生タイミングの変更によって再生時間の重なりを解消するものであって、テキスト記憶部１００、時間長予測部１０２、時間制約充足判定部１０３、音声合成部１０４及びスケジュール管理部１０９を備える。テキスト記憶部１００は、スケジュール管理部１０９から入力されるテキスト１０５ａ、ｂを保存する。表現変換部１０１は、請求項でいう「制約条件が満たされないと判定された場合、テキストの合成音声の再生開始タイミングを前又は後にずらし、ずらした時間に相当する分、当該テキストに含まれる時間又は距離を表す内容を変更する内容変更手段」の機能を備え、時間制約充足判定部１０３による判定結果に従って、テキスト記憶部１００からテキスト１０５ａ、ｂを読み出して、読み出されたテキスト１０５ａ、ｂの要約を行なったり、合成音声の再生タイミングの変更に伴って、テキスト１０５ａ、ｂに含まれる、時間又は距離を表す内容を、ずらした時間（変更された再生タイミング）に相当する分、変更したりする。時間長予測部１０２は、請求項でいう「テキストから合成される合成音声の再生時間長を予測する」機能を有し、表現変換部１０１から出力されたテキスト１０５ａ、ｂを音声合成した際の再生時間長を予測する。時間制約充足判定部１０３は、請求項でいう「予測された再生時間長に基づいて、合成音声の再生タイミングに関する制約条件が満たされているか否かを判定する」機能を有し、時間長予測部１０２によって予測された再生時間長、スケジュール管理部１０９から入力される時間制約条件１０７及び再生時刻情報１０８ａ、ｂに基づいて、生成される合成音の再生時刻（再生タイミング）及び再生時間長に関する制約が充足されているかどうか判定する。音声合成部１０４は、請求項でいう「内容が変更されたテキストから合成音声を合成し再生する」機能を有し、表現変換部１０１を介して入力されるテキスト１０５ａ、ｂから合成音波形１０６ａ、ｂを生成する。スケジュール管理部１０９は、ユーザの入力等によってあらかじめ設定されたスケジュール情報を時刻に応じて呼び出し、テキスト１０５ａ、ｂ、時間制約条件１０７及び再生時刻情報１０８ａ、ｂを生成して、音声合成部１０４に合成音を再生させる。時間制約充足判定部１０３は、２つの合成音波形１０６ａ、ｂの再生時刻情報１０８ａ、ｂと、時間長予測部１０２から得られるテキスト１０１ａの時間長予測結果と、それらの満たすべき時間制約条件１０７を元に合成音の再生時間の重なりを判定する。なお、スケジュール管理部１０９によって、テキスト１０５ａ、ｂはあらかじめテキスト記憶部１００内で再生開始時刻の順にソートされており、さらに再生の優先順位は全て同じで、テキスト１０５ａより先にテキスト１０５ｂが再生されることは無いものとする。

図２は本実施の形態の音声合成装置の動作の流れを示すフローチャートである。以下、図２のフローチャートに沿って動作説明を行う。

初期状態Ｓ９００から動作が開始し、まずテキスト記憶部１００からテキストの取得が行われる（Ｓ９０１）。表現変換部１０１は、テキストが１つしか無く、後続テキストが存在しないか判定を行い（Ｓ９０２）、存在しなければ音声合成部１０４がそのテキストを音声合成して（Ｓ９０３）次のテキストが入力されるのを待つ。

後続テキストが存在する場合、時間制約充足判定部１０３による時間制約充足の判定が行われる（Ｓ９０４）。図３に、時間制約充足判定部１０３へのデータフローを示す。図３において、テキスト１０５ａは「１キロ先で事故渋滞があります。速度に気を付けて下さい。」という文章であり、テキスト１０５ｂは「５００メートル先、左折して下さい。」という文章である。テキスト１０５ａとテキスト１０５ｂの再生時間が重ならないよう、時間制約条件１０７は「１０５ｂの再生開始前に１０５ａの再生が完了する」というものになっている。一方再生時刻情報１０８ａにより、テキスト１０５ａはすぐ再生を始める必要があり、再生時刻情報１０８ｂにより、テキスト１０５ｂは３秒以内に再生を始める必要がある。時間制約充足判定部１０３は、時間長予測部１０２によってテキスト１０５ａを音声合成した際の再生時間長の予測値を得て、それが３秒未満であるかどうか判定すればよい。もしテキスト１０５ａの再生時間長の予測値が３秒未満であれば、テキスト１０５ａ及びテキスト１０５ｂは変更無しで音声合成され、出力される（Ｓ９０５）。

図４は、テキスト１０５ａの再生時間長の予測値が３秒以上であり、時間制約充足判定部１０３が時間制約条件１０７を満たさないと判定した際の、表現変換部１０１に関わるデータフローを表す説明図である。

時間制約条件１０７を満たせない場合、時間制約充足判定部１０３は表現変換部１０１に指示して、テキスト１０５ａの内容を要約させる（Ｓ９０６）。図４では、テキスト１０５ａの「１キロ先で事故渋滞があります。速度に気を付けて下さい。」という文章からテキスト１０５ａ'の「１キロ先事故渋滞。速度に気を付けて。」という要約文が得られる。要約を行う具体的方法は何を用いても良いが、例えば文内の単語の重要度をｔｆ＊ｉｄｆという指標で計り、ある適当な閾値以下の単語を含む文節を文章から削るようにすればよい。ｔｆ＊ｉｄｆとはある文書内に現れる単語の重要度を計るために広く使用されている指標で、当該文書内での当該単語の出現頻度ｔｆ（term frequency）に、当該単語の現れる文書の頻度の逆数（inverse document frequency）を掛けたものである。この値が大きいほど、当該単語が当該文書内でのみ頻出していることになり、重要度が高いと判断できる。この要約方法は、野畑周、関根聡、伊佐原均、Ralph Grishman著「自動獲得した言語的パタンを用いた重要文抽出システム」（言語処理学会第８回年次大会発表論文集、pp539-542, 2002）および特開平１１−２８２８８１号公報などに開示されているので、ここでの詳細な説明は省略する。

こうして得られた要約文１０５ａ'について再度時間長予測部１０２により再生時間長の予測値を得て、制約が満たされているかどうか時間制約充足判定部１０３において判定する（Ｓ９０７）。制約が満たされていれば、要約文１０５ａ'を音声合成して合成音波形１０６ａとして再生し、その後テキスト１０５ｂを音声合成して合成音波形１０６ｂとして再生すればよい（Ｓ９０８）。

図５は、要約文１０５ａ'の再生時間長の予測値も３秒以上であり、時間制約充足判定部１０３が時間制約条件１０７を満たせないと判定した際の、表現変換部１０１に関わるデータフローを表す説明図である。

要約文１０５ａ'でも時間制約条件１０７を満たせない場合、時間制約充足判定部１０３は次に合成音波形１０６ｂの出力タイミングを変更させることを試みる（Ｓ９０９）。例えば、合成音波形１０６ｂの再生開始時刻を遅らせることを試みる。即ち、もし要約文１０５ａ'の再生時間長の予測値が５秒であったとすれば、再生時刻情報１０８ｂを「５秒後に再生」と変更した上で、それに伴ってテキスト１０５ｂの文言を変更するように表現変換部１０１に指示する。この場合、表現変換部１０１は、現在の車速から計算して５秒後には１００メートル進んでいるならば、「４００メートル先、左折して下さい。」というテキスト１０５ｂ'を作る。なお、合成音波形１０６ｂの再生時刻を変更せず、さらに、テキスト１０５ｂの内容を要約することで時間制約条件１０７が充足可能であれば、そのような処理を行っても良い。さらに、合成音波形１０６ａの再生時刻情報１０８ａが「直ちに再生」ではなく、例えば、「２秒後に再生」のように、合成音波形１０６ａの再生時刻を例えば、「２秒」早めることができるだけの余裕がある場合には、合成音波形１０６ａの再生時刻を早めて時間制約条件１０７を充足するようにしてもよい。このようにして作られたテキスト１０５ｂ'を音声合成部１０４で音声合成して出力する（Ｓ９１０）。

以上のような方法を用いることで、２つの合成音コンテンツを同時に再生する必要が生じた際、その両方を限られた時間内に意味を変えずに再生することが可能となる。特に、車載のカーナビゲーション装置などの場合には、音声による道順案内の最中にも、予測できないタイミングで渋滞情報などの音声案内を行なう必要が頻繁に生じる。これに対して、本発明の音声合成装置では、時間制約充足判定部１０３は、出力タイミングのずれ分だけ、テキスト１０５ｂの時間又は距離を表す内容、例えば、車の走行距離などの内容を表す文言を変更するように表現変換部１０１に指示した上で、音声合成部１０４による合成音波形１０６ｂの出力タイミングを変更させる。具体的には、表現変換部１０１は、あるタイミングで「５００メートル先、左折して下さい。」というテキスト１０５ｂの合成音声を再生すべき場合に、それをその２秒後に再生する場合、車の速度計から速度を取得して、現在の車速から計算して２秒後には１００メートル進んでいるならば、「４００メートル先、左折して下さい。」というテキスト１０５ｂ'を作る。これにより、音声合成部１０４は、再生のタイミングが２秒遅れても、本来のテキスト１０５ｂと同じ意味内容を表す合成音声を出力することができる。要約によって多くの文字数が減じられた場合、ユーザが文言の内容を正しく聞き取りにくくなる傾向があるが、本発明の音声合成装置がカーナビゲーション装置などに組み込まれる場合には、このような不具合を抑制し、ユーザがより正確に本来のテキストの意味を聞き取ることができる案内を提供できるという効果がある。

なお、本実施の形態では入力されたテキストが全て同じ再生優先度を持っているとしたが、もし各テキストが違った再生優先度を持っている場合は、あらかじめ優先度順にテキストを並べ替えた上で処理を行えばよい。例えば、テキスト取得（Ｓ９０１）を行った直後の段階で、優先度が高いテキストをテキスト１０５ａ、優先度が低いテキストをテキスト１０５ｂとして並べ替えた上で、後の処理を同様に行う。さらに、優先度が高いテキストは要約せずに再生開始時刻どおりに再生して、優先度が低いテキストは要約して再生時間を短くしたり、再生開始時刻を早めるまたは遅くしたりするとしてもよい。また、優先度が低いテキストは、一旦、読み上げを中断して、優先度が高いテキストの合成音声を読み上げた後に、優先度の低い方をもう一度読み上げるとしてもよい。

なお、本実施の形態ではカーナビゲーションシステムへの適用を例として説明を行ったが、本発明の方法は再生時刻に制約条件の設定された合成音が複数同時に再生される可能性のある用途に対し汎用的に使える。

例えば音声合成を利用して広告の配信を行いつつ停留所の案内をも行う路線バスの車内アナウンスにおいて、「次は、○○停留所、○○停留所です」という案内の再生が終了した後に「小児科・内科の××医院はこの停留所で降りて徒歩２分です」という広告の読み上げを行おうとすると広告の読み上げの終了前に停留所に着いてしまうような場合、先の案内を「次は○○停留所です」のように要約して短くし、それでも足りなければ広告文も「××医院はこの停留所です」のように要約すればよい。

また、本発明は、上記の例以外にも、ユーザが登録したスケジュールを、設定された時刻になると合成音声で読み上げるスケジューラにも適用することができる。例えば、スケジューラが、１０分後に会議が始まることを合成音声で案内するよう設定されていた場合、読み上げを開始する直前に、ユーザが他のアプリケーションを起動して作業をしたために、スケジューラは音声で案内することができず、ユーザの作業終了時には３〜４分経過してしまったという場合である。ただし、スケジュールを読み上げるべき設定時刻は、会議が始まる時刻より前に読み上げを完了できるよう、設定されている必要がある。この場合、スケジューラに本発明を適用することにより、何もなければ「１０分後に会議が始まります。」と合成音声を再生したところであるが、直前の作業のために３〜４分経過してしまっているので、会議が始まる５分前まで音声の再生を遅らせ、合成音声のテキストを「１０分後」から「５分後」に修正して音声を合成し、「５分後に会議が始まります。」と読み上げを行なうことができる。従って、本発明をスケジューラに適用した場合には、ユーザが登録したスケジュールを設定された時刻に読み上げることができなかった場合であっても、登録されたスケジュールが示す予定時刻（例えば、「１０分後」）を、読み上げのタイミングを遅らせた分だけ（例えば、５分）変更するので、タイミングを（例えば、５分）遅らせて読み上げても、登録されたスケジュールと同じ予定時刻を表す内容（例えば、「５分後」）を読み上げることができる。すなわち、本発明によれば、スケジュールの読み上げタイミングをずらしても、本来の内容を正しく読み上げることができるという効果がある。

なお、ここでは、会議が始まる時刻より前にスケジュール（会議予定）の読み上げを完了する場合についてのみ説明したが、本発明はこれに限定されず、会議が始まってしまってからでも、例えば、あらかじめユーザに登録された時間の範囲内であれば、スケジュールの読みあげを行うとしてもよい。例えば、ユーザが「５分以内であれば、スケジュールの予定時刻を過ぎてしまってもスケジュールの読み上げを行なう」と登録していたとする。ユーザは、会議の１０分前をスケジュールの読み上げ時刻と設定していたが、何らかの理由でスケジューラの読み上げが可能になるまでに、設定した時刻から１３分が経過してしまったとする。このような場合でも、本発明のスケジューラによれば「会議は３分前に始まっています。」と読み上げを行なうことができる。

（実施の形態２）
上記実施の形態１では、先に再生されるべき合成音声と後に再生されるべき合成音声の再生タイミングが重なるようであれば、先に再生されるべき合成音声のテキストを要約して再生時間を短縮する。それでも、直後に再生される合成音声の再生開始までに再生が完了されない場合には、直後に再生される合成音声の再生開始時刻を遅らせるようにした。これに対し、本実施の形態２では、第１及び第２のテキストをまず連結し、その後、表現変換を行なう。すなわち、以下では、先に再生が開始される第１のテキストから合成された合成音波形１０６ａは、すでに再生が一部開始されている場合について説明する。

図６は、本発明の実施の形態２に係る音声合成装置の構成を示す構造図である。

本実施の形態の音声合成装置は、入力される第１のテキスト１０５ａの再生が既に開始した後に第２のテキスト１０５ｂが与えられ、かつ第１のテキスト１０５ａの合成音波形１０６ａを再生し終わった後に第２のテキスト１０５ｂの音声合成をして再生するのでは時間制約条件１０７を満たすことができないような状況に対処するためのものである。図１に示される構成と比較して、図６の構成はテキスト記憶部１００に記憶されたテキスト１０５ａ及び１０５ｂを連結して１つのテキスト１０５ｃにするテキスト連結部５００と、生成された合成音波形を再生するスピーカ装置５０７と、スピーカ装置５０７が再生する合成音波形データの参照を行う波形再生バッファ５０２と、スピーカ装置が波形再生バッファ５０２内のどの時間位置を再生中か表す再生位置ポインタ５０４と、音声合成部１０４が生成可能な合成音波形１０６のラベル情報５０１及び合成音波形５０５のラベル情報５０８と、前記再生位置ポインタ５０４を参照して波形再生バッファ５０２内の既読部分と合成音波形５０５内の位置の対応付けを行う既読部特定部５０３と、波形再生バッファ５０２内の未読部分を合成音波形５０５の対応する部分以降で置き換える未読部入替部５０６を持つ。

図７はこの音声合成装置の動作を示すフローチャートである。以下、このフローチャートに沿って本実施の形態における音声合成装置の動作の説明を行う。

動作開始（Ｓ１０００）後、まず音声合成対象のテキストの取得が行われる（Ｓ１００１）。次に、このテキストの合成音の再生に関わる制約条件の充足判定が行われる（Ｓ１００２）が、最初の合成音は自由なタイミングで再生が行えるのでそのまま音声合成処理が行われ（Ｓ１００３）、生成された合成音の再生が開始される（Ｓ１００４）。

図８（ａ）は、先に入力されたテキスト１０５ａの合成音を既に再生中の状態を示し、図８（ｂ）はテキスト１０５ｂが後から与えられたときのデータフローを示す説明図である。テキスト１０５ａとして「１キロ先で事故渋滞があります。速度に気を付けてください。」という文章が与えられており、そこへテキスト１０５ｂとして「５００メートル先、左折して下さい。」という文章が与えられたとする。テキスト１０５ｂが与えられた時点で合成音波形１０６及びラベル情報５０１は既に生成済みであり、スピーカ装置５０７は波形再生バッファ５０２を介して合成音波形１０６を再生中であるものとする。また、時間制約条件１０７として、「テキスト１０５ａの合成音の再生終了後にテキスト１０５ｂの合成音を再生し、２つの合成音の再生が５秒以内に完了する」という条件が与えられているものとする。

図９に、このときの波形再生バッファ５０２に関する処理の状態を示す。合成音波形１０６は波形再生バッファ５０２に保存されており、先頭から順番にスピーカ装置５０７で再生されている。再生位置ポインタ５０４には、スピーカ装置５０７が合成音波形１０６の先頭から何秒の部分を現在再生中なのかという情報が入っている。ラベル情報５０１は合成音波形１０６に対応するもので、テキスト１０５ａ内の各形態素が合成音波形１０６の先頭から何秒目に現れるかという情報や、各形態素がテキスト１０５ａの先頭から数えて何番目に現れる形態素かという情報を含む。例えば、合成音波形１０６は先頭に０．５秒の無音区間を持ち、０．５秒の位置から最初の形態素「１」があり、０．８秒の位置から２番目の形態素「キロ」があり、１．０秒の位置から３番目の形態素「先」があり…という情報がラベル情報５０１には含まれる。

この状態で、時間制約充足判定部１０３は「時間制約条件１０７が満たされていない」という出力をテキスト連結部５００及び表現変換部１０１に送る（Ｓ１００２）。テキスト連結部はこの出力を受け取り、テキスト１０５ａ及びテキスト１０５ｂの内容を連結して、連結テキスト１０５ｃを生成する（Ｓ１００５）。表現変換部１０１はこの連結テキスト１０５ｃを受け取って、前記実施の形態１と同様にして重要度の低い文節を削る（Ｓ１００６）。このようにしてできた要約文について時間制約条件１０７が満たされているかどうか判定を行い（Ｓ１００７）、満たされていない場合は、表現変換部１０７にさらに短く要約をやり直させることを繰り返す。その後、音声合成部１０４によって要約文を音声合成して変換合成音波形５０５と変換ラベル情報５０８を作る（Ｓ１００８）。既読部特定部５０３は変換ラベル情報５０８に加え、現在再生中の合成音のラベル情報５０１及び再生位置ポインタ５０４から、合成音波形１０６の、現在までに再生が完了した部分が要約文ではどの部分までに当たるのかを特定する（Ｓ１００９）。

既読部特定部５０３の行う処理の概略を、図１０に示す。図１０（ａ）は連結テキストの一例を示すラベル情報１である。図１０（ｂ）は、再生位置ポインタ５０４が示している再生完了位置の一例を示す図である。図１０（ｃ）は、変換ラベル情報の一例を示す図である。表現変換部１０１によってテキスト１０５ｃの「１キロ先で事故渋滞があります。速度に気を付けて下さい。５００メートル先左折して下さい。」の再生が完了した部分はそのままで「１キロ先で事故渋滞があります。５００メートル先左折。」に要約されたとすると、ラベル情報５０１と変換ラベル情報５０８を付き合わせることにより、要約文のどの位置に当たる部分までを既に再生したかが分かる。

また、合成音声がどこまで再生済みであるかは無視して、２つのテキストを連結し、自由に要約し、既に再生済みとなっている位置よりもあとの要約文から再生するとしてもよい。例えば、テキスト１０５ｃが「１キロ先渋滞。５００メートル先左折。」に要約されたとする。図１０（ｂ）では再生位置ポインタ５０４が２．６ｓを示しており、ラベル情報５０１における２．６ｓの位置は８番目の形態素である「あり」の途中なので、要約文側では「１キロ先渋滞。」に当たる部分までが既に再生完了していると考えてよい。

既読部特定部５０３が計算した以上の情報を元に、時間制約充足判定部１０３は時間制約条件１０７が満たされているかどうかを判定する。変換ラベル情報５０８の内容から、要約文側でまだ再生されていない部分の時間長は２．４秒となり、ラベル情報５０１における８番目の形態素「あり」の残りの再生時間は０．３秒なので、波形再生バッファ５０２内の音声を続けて再生する変わりに９番目の形態素以降の音声波形を変換合成音波形５０５で入れ替えれば、２．７秒後に合成音の再生が終了することになる。本実施例の時間制約条件１０７はテキスト１０５ａ及び１０５ｂの内容が５秒以内に再生完了することであるため、前記のとおり要約文側でまだ再生されていない「５００メートル先左折。」の部分の波形で波形再生バッファ５０２内の「ます。速度に気を付けて下さい。５００メートル先、左折して下さい。」の部分の波形を上書きすればよい。未読部入替部５０６がこの処理を行う（Ｓ１０１０）。

以上のような方法を用いることで、先に第１の合成音が再生されている状態で第２の合成音の再生を要求された場合にも、２つの合成音コンテンツを限られた時間内に意味を変えずに再生することが可能となる。

（実施の形態３）
図１１は、本発明の実施の形態３に係る音声合成装置の動作イメージを示す説明図である。

本実施の形態では、音声合成装置はスケジュール管理部１１００の指示に従ってスケジュールの読み上げを行うとともに、緊急メッセージ受信部１１０１により突発的に割り込まれる緊急のメッセージの読み上げも行う。スケジュール管理部１１００はユーザの入力等によってあらかじめ設定されたスケジュール情報を時刻に応じて呼び出し、テキスト情報１０５及び時間制約条件１０７を生成して合成音を再生させる。また、緊急メッセージ受信部は他ユーザからの緊急メッセージを受信してスケジュール管理部１１００に受け渡し、スケジュール情報の読み上げタイミングを変更させて緊急メッセージの割り込みを行わせる。

図１２は、本実施の形態の音声合成装置の動作を示すフローチャートである。本実施の形態の音声合成装置は、動作開始後にまず緊急メッセージ受信部１１０１が緊急メッセージを受け取っているか調べ（Ｓ１２０１）、緊急メッセージがあれば取得し（Ｓ１２０２）、合成音として再生を行う（Ｓ１２０３）。緊急メッセージの再生が完了するか、緊急メッセージが存在しなかった場合、スケジュール管理部１１００は直ちに報知する必要のあるスケジュールテキストが存在するかどうか調べる（Ｓ１２０４）。存在しなければ再び緊急メッセージの待ち受けに戻り、存在すればスケジュールテキストの取得を行う（Ｓ１２０５）。取得したスケジュールテキストは、先に割り込まれた緊急メッセージの再生により、本来の再生タイミングから遅れている可能性がある。そこでまず、再生時間に関する制約の充足判定が行われる（Ｓ１２０６）。制約が満たされていなければ表現変換が行われ（Ｓ１２０７）、例えば「５分後に会議が始まります」というテキストが、緊急メッセージの読み上げによって本来の読み上げ時刻よりも読み上げ開始が３分遅れてしまった場合には、「２分後に会議が始まります」というテキストに変換された上で、音声合成処理が行われる（Ｓ１２０８）。その後、さらに後続テキストが存在するかどうか判定を行い（Ｓ１２０９）、存在する場合は制約充足判定から繰り返して音声合成処理を続行する。

以上のような方法を用いることで、ユーザに音声でスケジュールの報知を行いつつ、他ユーザなどから緊急メッセージなどを受け取ったときは、その緊急メッセージの読み上げをも行う。緊急メッセージの読み上げによって報知タイミングのずれてしまったスケジュールに関しては、タイミングのずれをテキストに反映させつつ、すなわち、読み上げのタイミングがずれた時間分、テキストに含まれる、時間又は距離を表す内容を修正しながら読み上げを行うことができるという効果がある。

なお、ブロック図（図１、６、８及び１１など）の各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。

（例えばメモリ以外の機能ブロックが１チップ化されていても良い。）
ここでは、LSIとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

また、各機能ブロックのうち、符号化または復号化の対象となるデータを格納する手段だけ１チップ化せずに別構成としても良い。

本発明は、音声合成技術を用いてリアルタイムな情報提供を行うアプリケーションに利用でき、特にカーナビゲーションシステムや合成音によるニュース配信、およびＰＤＡ（Personal Digital Assistant）やパソコンなどでユーザのスケジュールを管理するスケジューラなど、合成音再生タイミングの事前のスケジューリングが困難な用途に特に有用である。

図１は、本発明の実施の形態１の音声合成装置の構成を示す構造図である。図２は、本発明の実施の形態１の音声合成装置の動作を示すフローチャートである。図３は、制約充足判定部へのデータフローを表す説明図である。図４は、表現変換部に関わるデータフローを表す説明図である。図５は、表現変換部に関わるデータフローを表す説明図である。図６は、本発明の実施の形態２の音声合成装置の構成を示す構造図である。図７は、本発明の実施の形態２の音声合成装置の動作を示すフローチャートである。図８は、合成音の再生中に新たなテキストが与えられた状態を表す説明図である。図９は、波形再生バッファに関する処理の状態を表す説明図である。図１０は、ラベル情報と再生位置ポインタの実例を表す説明図である。図１１は、本発明の実施の形態３の音声合成装置の構成を示す構造図である。図１２は、本発明の実施の形態３の音声合成装置の動作を示すフローチャートである。

符号の説明

１００テキスト記憶部
１０１表現変換部
１０２時間長予測部
１０３時間制約充足判定部
１０４音声合成部
１０５テキスト
１０６合成音波形
１０７時間制約条件
１０８再生時刻情報
５００テキスト連結部
５０１ラベル情報
５０２波形再生バッファ
５０３既読部特定部
５０４再生位置ポインタ
５０５合成音波形
５０６未読部入替部
５０７スピーカ装置
５０８変換ラベル情報
Ｓ９００〜Ｓ１０１０フローチャート内の各状態
１１００緊急メッセージ受信部
１１０１スケジュール管理部
Ｓ９００〜Ｓ１２０９フローチャート内の各状態

Claims

テキストから合成される合成音声の再生時間長を予測する時間長予測ステップと、
予測された再生時間長に基づいて、前記合成音声の再生タイミングに関する制約条件が満たされているか否かを判定する判定ステップと、
前記制約条件が満たされないと判定された場合、前記テキストの合成音声の再生開始タイミングを前又は後にずらし、前記ずらした時間に相当する分、当該テキストに含まれる時間又は距離を表す内容を変更する内容変更ステップと、
前記内容が変更された前記テキストから合成音声を合成し再生する音声合成ステップと
を含むことを特徴とする音声合成方法。
前記時間長予測ステップでは、複数の合成音声のうち、第１の合成音声の再生開始前に、再生を完了する必要のある第２の合成音声の再生時間長を予測し、
前記判定ステップでは、前記第２の合成音声に対して予測された前記再生時間長に基づいて、前記第２の合成音声の再生完了が前記第１の合成音声の再生開始に間に合わないようであれば、前記制約条件が満たされないと判定し、
前記内容変更ステップでは、前記制約条件が満たされないと判定された場合、前記第１の合成音声の再生開始タイミングを前記第２の合成音声の再生完了予測時刻まで遅らせ、前記第１の合成音声の元となるテキストの前記内容を変更し、
前記音声合成ステップでは、前記第２の合成音声の再生完了後、前記内容が変更された前記テキストから前記第１の合成音声を合成し再生する
ことを特徴とする請求項１記載の音声合成方法。
前記内容変更ステップでは、さらに、前記第２の合成音声の元となるテキストを要約することによって前記第２の合成音声の再生時間を短縮し、前記第１の合成音声の再生開始タイミングを、短縮された前記第２の合成音声の再生完了後まで遅らせる
ことを特徴とする請求項２記載の音声合成方法。
前記時間長予測ステップでは、あらかじめ設定された時刻までに再生を完了する必要のある合成音声の再生時間長を予測し、
前記判定ステップでは、前記合成音声に対して予測された前記再生時間長に基づいて、前記合成音声の再生完了が前記設定時刻に間に合わないようであれば、前記制約条件が満たされないと判定し、
前記内容変更ステップでは、前記制約条件が満たされないと判定された場合、前記合成音声の再生開始タイミングを前記設定時刻より所定の時間だけ遅らせ、前記合成音声の再生開始タイミングを遅らせた分だけ前記合成音声の元となるテキストに示されている前記時間を変更し、
前記音声合成ステップでは、前記合成音声の再生完了後、前記内容が変更された前記テキストから前記合成音声を合成し再生する
ことを特徴とする請求項１記載の音声合成方法。
テキストから合成される合成音声の再生時間長を予測する時間長予測手段と、
予測された再生時間長に基づいて、前記合成音声の再生タイミングに関する制約条件が満たされているか否かを判定する判定手段と、
前記制約条件が満たされないと判定された場合、前記テキストの合成音声の再生開始タイミングを前又は後にずらし、前記ずらした時間に相当する分、当該テキストに含まれる時間又は距離を表す内容を変更する内容変更手段と、
前記内容が変更された前記テキストから合成音声を合成し再生する音声合成手段と
を備えることを特徴とする情報提供装置。
前記情報提供装置は、目的地までの経路に関する情報を音声で案内するカーナビゲーション装置として動作し、
前記情報提供装置は、さらに、車の移動速度を取得する速度取得手段を備え、
前記時間長予測手段は、複数の合成音声のうち、第１の合成音声の再生開始前に、再生を完了する必要のある第２の合成音声の再生時間長を予測し、
前記判定手段は、前記第２の合成音声に対して予測された前記再生時間長に基づいて、前記第２の合成音声の再生完了が前記第１の合成音声の再生開始に間に合わないようであれば、前記制約条件が満たされないと判定し、
前記内容変更手段は、前記制約条件が満たされないと判定された場合、前記第１の合成音声の再生開始タイミングを前記第２の合成音声の再生完了予測時刻まで遅らせ、前記速度取得手段によって取得された前記移動速度に基づいて、前記第１の合成音声の再生開始タイミングを、遅らせた分の移動距離だけ前記第１の合成音声の元となるテキストに示されている予め定められた地点までの距離を変更し、
前記音声合成手段は、前記第２の合成音声の再生完了後、前記内容が変更された前記テキストから前記第１の合成音声を合成し再生する
ことを特徴とする請求項５記載の情報提供装置。
前記情報提供装置は、ユーザが登録したスケジュールを、前記スケジュールの時刻より前のあらかじめ設定された時刻になると合成音声で読み上げるスケジューラとして動作し、
前記情報提供装置は、さらに、ユーザのスケジュール、その時刻及び前記設定時刻の登録を受け付ける登録手段を備え、
前記時間長予測手段は、前記設定時刻までに再生を完了する必要のある合成音声の再生時間長を予測し、
前記判定手段は、前記合成音声に対して予測された前記再生時間長に基づいて、前記合成音声の再生完了が前記設定時刻に間に合わないようであれば、前記制約条件が満たされないと判定し、
前記内容変更手段は、前記制約条件が満たされないと判定された場合、前記合成音声の再生開始タイミングを前記スケジュールの時刻より早い一定の時刻まで遅らせ、前記合成音声の再生開始タイミングを遅らせた分だけ前記合成音声の元となるテキストに示されている前記スケジュール開始までの時間を変更し、
前記音声合成手段は、前記合成音声の再生完了後、前記内容が変更された前記テキストから前記合成音声を合成し再生する
ことを特徴とする請求項５記載の情報提供装置。
情報提供装置のためのプログラムであって、コンピュータに
テキストから合成される合成音声の再生時間長を予測する時間長予測ステップと、予測された再生時間長に基づいて、前記合成音声の再生タイミングに関する制約条件が満たされているか否かを判定する判定ステップと、前記制約条件が満たされないと判定された場合、前記テキストの合成音声の再生開始タイミングを前又は後にずらし、前記ずらした時間に相当する分、当該テキストに含まれる時間又は距離を表す内容を変更する内容変更ステップと、前記内容が変更された前記テキストから合成音声を合成し再生する音声合成ステップとを実行させるプログラム。