JP2008191292A

JP2008191292A - 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置

Info

Publication number: JP2008191292A
Application number: JP2007023858A
Authority: JP
Inventors: Tsutomu Kaneyasu; 勉兼安
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2007-02-02
Filing date: 2007-02-02
Publication date: 2008-08-21

Abstract

【課題】再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置を得る。
【解決手段】テキスト情報を取得し、当該テキスト情報を、音声ＤＢ１４を参照して音声データに変換し、音声合成を行う音声合成ステップと、音声データに関する情報と、再生される音楽データに関する情報とを取得し、音声データに関する情報と音楽データに関する情報とに応じて、音声合成された音声の出力タイミングを制御する制御ステップとを有するものである。
【選択図】図１

Description

本発明は、音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置に関し、特に、音声データの出力タイミングに関する。

従来のテキスト情報読み上げ装置として、例えば「音楽データとともにテキスト情報が記録された媒体からテキスト情報を読み上げるテキスト情報読み上げ装置であって、テキスト情報を抽出するテキスト情報抽出部と、抽出されたテキスト情報から音声データを得るための音声合成部と、音楽データの再生に同期して音声データの読み上げ時点を制御する制御部とを備えている。」ものが提案されている（例えば、特許文献１参照）。

また、日本語テキスト音声合成方法として、例えば「日本語テキスト音声合成方法において、母音と母音との連鎖における波形接続において、それらの境界での接続と、それらの母音中心での接続との両方を考慮して音声合成単位の選択を行うようにした。」ものが提案されている（例えば、特許文献２参照）。

特開２００１−３４３９９０号公報（要約）特開２００３−２０８１８８号公報（要約）

従来、音声データの読み上げタイミング（以下、挿入位置ともいう）は、音楽データが再生される開始時点から任意の時間を指定しており、音楽再生中のどのタイミングでも音声データを読み上げて良いものになっている。
しかしながら、音声の挿入位置によっては、音楽と音声とが混在して双方が聞きづらくなる場合や、音楽の曲調、旋律などによっては、音声を挿入することにより音楽の雰囲気を害してしまう可能性がある。特に、音楽制作者は、自らが制作した音楽作品を害する、上述のような音声の挿入は望まない。一方、聴取者に対しては、音声の読み上げを行うことにより所定の情報を提供することができるため、各々の立場を考慮する必要がある。
したがって、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置が望まれていた。

本発明に係る音声合成方法は、音楽データの再生に同期してテキスト情報を読み上げる音声合成方法であって、テキスト情報を取得し、該テキスト情報を、音声データベースを参照して音声データに変換し、音声合成を行う音声合成ステップと、前記音声データに関する情報と、再生される音楽データに関する情報とを取得し、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御ステップとを有するものである。

また、本発明に係るプログラムは、上記音声合成方法をコンピュータに実行させるものである。

また、本発明に係る音声合成装置は、音楽データの再生に同期してテキスト情報を読み上げる音声合成装置であって、音声合成に用いられる情報が格納された音声データベースと、テキスト情報が入力され、該テキスト情報を、前記音声データベースを参照して音声データに変換し、音声合成を行う音声合成部と、前記音声データに関する情報と、再生される音楽データに関する情報とが入力され、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御部とを備えたものである。

また、本発明に係る音楽音声再生装置は、上記音声合成装置と、前記音楽データと前記音声データとが入力され、該音楽データと該音声データとを合成して、音楽及び音声を出力するミキシング部とを備えたものである。

本発明は、音声データに関する情報と音楽データに関する情報とに応じて、音声合成された音声の出力タイミングを制御することにより、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる。

実施の形態１．
図１は実施の形態１に係る音楽音声再生装置のブロック構成図である。図１に示すように、実施の形態１に係る音楽音声再生装置は、音楽データの再生に同期してテキスト情報（テキストデータ）を読み上げる音声合成装置１０と、音声データと音楽データとを合成して音楽及び音声を出力するミキシング部２０とにより構成される。尚、音楽データの再生に同期とは、音楽データの再生に対して、テキストデータの読み上げ開始時期を調整することを言う。
さらに、音声合成装置１０は、音声データベース（ＤＢ）選択部１１、音声合成部１２、音声データベース（ＤＢ）１４、及び制御部１３により構成されている。

音声ＤＢ選択部１１は、音楽データに関する情報が入力され、この音楽データに関する情報と、音声ＤＢ１４の音声種別（後述）とを対応付けたテーブルをあらかじめ保持している。例えば、音楽データのボーカルと、音声ＤＢの話者とを対応付けることも挙げられる。
この音声ＤＢ選択部１１は、入力された音楽データに関する情報に応じて、複数の音声種別のうち、何れかを選択する機能を有する。ここで、音楽データに関する情報は、例えば、再生される音楽データの楽曲名、ミュージシャン名等であり、音楽データの付属情報として記録された情報を用いる。この音楽データの付属情報は、例えば、ＭＰ３形式（ＭＰＥＧの音声データ規格）におけるＩＤ３タグや、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）、ＭＤ（ＭｉｎｉＤｉｓｃ）におけるＴＯＣ（ＴａｂｌｅＯｆＣｏｎｔｅｎｔｓ）などのメタデータとして記録されたものや、ネットワークを介して音楽データ固有の情報を取得しても良い（例えば、インターネット上の音楽ＣＤデータベースなど）。

音声合成部１２は、コーパスベース方式により音声合成を行うものであり、テキストデータが入力され、入力されたテキストデータを、音声ＤＢ選択部１１により選択された音声ＤＢ１４を参照して、音声種別（話者）に応じた音声データに変換する機能を有する。ここでのテキストデータは、例えば、再生される音楽データの曲名であり、呼びかけ口調の音声種別を選択して、曲名を読み上げることを想定している。

制御部１３は、音楽データに対して、予め音声データの挿入可能な位置を指定したテキスト長参照データ（後述）を保持している。ここで、音声データの挿入位置とは、音楽データの再生開始時からの時間をいい、例えば、メロディの背景音として音声で曲名を呼びかける所望の時間や、曲中にある間奏部分等の時間が設定される。尚、このテキスト長参照データは、当該情報を制御部１３に入力することにより更新可能である。

また、制御部１３には、音声データに関する情報と、音楽データに関する情報とが入力される。この音声データに関する情報としては、テキストデータのモーラ数など、テキスト長に関する情報が入力される。制御部１３は、このテキスト長の長さに関する情報と、再生される音楽データに関する情報（例えば、楽曲名など）とに応じて、音声合成された音声の出力タイミングを制御する機能を有する。

音声ＤＢ１４は、音声素片を格納したコーパスベース音声合成用のデータベースである。この音声ＤＢ１４は、例えば、音声の話者、口調などがそれぞれ異なる複数の種類の音声（以下、「音声種別」という）に対応した音声合成に用いられる情報が格納されている。本実施の形態１においては、音声種別ごとに複数の音声ＤＢ１４を有している。尚、単一の音声ＤＢ１４に複数の音声種別ごとの情報を格納しても良い。

ミキシング部２０は、音楽データと音声データとが入力され、制御部１３による音声の出力タイミングの制御に応じて、音楽データの指定された挿入位置に音声データをミックス（合成）して音楽及び音声を出力する機能を有する。例えば、曲によって、ユーザ唯一のライブ風な音楽データが作成される。

音声ＤＢ選択部１１、音声合成部１２、及び制御部１３は、回路デバイスのようなハードウェアで構成することもできるし、ＣＰＵやマイコンのような演算装置により実行されるソフトウェアとして構成することもできる。ソフトウェアとして実現する場合は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等にこれら各部の機能を実現するプログラムを格納しておき、ＣＰＵやマイコンなどの演算装置がそのプログラムを読み込んで、プログラムの指示に従って各部の機能に相当する処理を実行することにより、構成することができる。
音声ＤＢ１４は、ＨＤＤのような比較的容量の大きい記憶装置に音声素片データを格納することにより、構成することができる。
ミキシング部２０は、音楽及び音声データをアナログ信号に変換するためのＤ／Ａコンバータなどにより構成することができ、出力形式は、スピーカーのような音声出力デバイスを介しても良いし、音声波形データ又は信号を出力するようにしても良い。

図２は実施の形態１に係る音声ＤＢ対応テーブルの構成とデータ例を示す図、図３は実施の形態１に係るテキスト長参照データの構成とデータ例を示す図、図４は実施の形態１に係る音声読み上げ動作を示すフローチャートである。
以下、実施の形態１に係る音声読み上げ動作を、図４に基づき、図１〜図３を参照しながら説明する。

（Ｓ３０１）
音声ＤＢ選択部１１には図１に示すように、音楽データが入力される。音声ＤＢ選択部１１は、音楽データが入力されると、当該音楽データの付属情報から楽曲名、ミュージシャン名等を抽出して、音声ＤＢ対応テーブルに基づき、付属情報に対応する音声ＤＢを選択して、音声ＤＢ選択情報を音声合成部１２へ入力する。
例えば、図２に示す音声ＤＢ対応テーブルのデータ例において、楽曲名「Ｂ」、ミュージシャン名「グループＢＢ」という情報が音楽データから抽出されると、それに対応する「音声ＤＢｂ」が選択される。
（Ｓ３０２）
音声合成部１２には図１に示すように、テキストデータが入力される。ここでのテキストデータ（日本語テキスト）は、曲名を対象としている。尚、テキストデータは曲名に限らず、ミュージシャン名やその他の任意の情報でも良い。音声合成部１２は、テキストデータが入力されると、音声ＤＢ選択部１１から入力された音声ＤＢ選択情報に応じた音声ＤＢを音声ＤＢ１４から選択し、コーパスベース方式で、選択した音声ＤＢ１４を用いて、テキストデータを音声データに変換する。ここでの、音声ＤＢの口調は、呼びかけ口調で読み上げることで曲名らしさを強調することができる。尚、音声ＤＢの口調は、呼びかけ口調に限るものではない。
（Ｓ３０３）
制御部１３には図１に示すように、テキストデータと音楽データとが入力される。制御部１３は、入力されたテキストデータの長さに関する情報としてモーラ数を検出する。尚、テキストの長さに関する情報としてモーラ数としているが、カナ数や、音素数などでも良い。
（Ｓ３０４）
制御部１３は、予め保持しているテキスト長参照データに基づき、ステップＳ３０３で検出したテキスト長と入力された音楽データとに対応する音声挿入位置を検出する。ここで、テキスト長参照データとは、図３に示すように、曲名と、テキストデータ長と、音楽データとに応じて、予め音声データの挿入可能な位置を対応付けたものになっている。
例えば、図３に示すデータ例において、曲名「Ａ」については、テキストのモーラ数が「０≦モーラ数＜５」であれば、音楽データの開始位置から９０秒後に挿入される。ここでの挿入位置とは、開始位置からの秒数としている。
（Ｓ３０５）
ミキシング部２０には図１に示すように、ステップＳ３０４で検出された挿入位置を示した制御データと、音楽データと、音声データとが入力される。ミキシング部２０は、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。

このような動作により、テキスト長に応じた所望のタイミングで音声を読み上げることができるので、例えば、曲中の間奏時間内のみテキストを読み上げることができ、音楽と音声とが混在して双方が聞きづらくなることがない。

以上のように本実施の形態１においては、テキスト長に関する情報と、音楽データの付属情報とに応じて、音声合成された音声の出力タイミングを制御することにより、曲名等を読み上げさせた音声データを、テキスト長に応じて、音楽データの最適な場所でミックスすることができる。
また、音楽データの付属情報に応じた音声種別の音声ＤＢを選択することにより、再生する音楽に応じて、曲名等を読み上げる音声の話者等を変更することができる。

実施の形態２．
本実施の形態２における音楽音声再生装置は、曲名等のテキストデータを読み上げる音声データを、自然性を表す物理的指標であるコスト値によって、音楽データの最適な場所でミックスすることを可能とするものである。

図５は実施の形態２に係る音楽音声再生装置のブロック構成図、図６は実施の形態２に係るコスト値参照データの構成とデータ例を示す図である。
図５に示すように、本実施の形態における音楽音声再生装置は、上述した実施の形態１の構成に換えて、制御部１３へはテキストデータの入力をせず、音声合成部１２から、音声データに関する情報としてコスト値の情報を制御部１３へ入力する構成である。
ここで、コスト値とは、韻律（基本周波数、音素持続時間）、Ｆ０の不連続、音素環境代替、スペクトルの不連続、音素の不適合性に関するサブコストから構成されているものである。このコスト値が０に近づけば近づくほど、音質は良いものといえる。尚、このようなコスト値の導出は公知（例えば、特許文献２参照）であるので、詳細の説明は省略する。

さらに、制御部１３には、音楽データに対して、予め音声データの挿入可能な位置を指定したコスト値参照データを保持している。ここで、コスト値参照データとは、図６に示すように、曲名と、自然性を表す物理的指標であるコスト値と、音楽データと応じて、予め音声データの挿入可能な位置を対応付けたものになっている。制御部１３は、このコスト値参照データを用いて、音声合成された音声の出力タイミングを制御する機能を有する。即ち、本実施の形態２の制御部１３には、上述した実施の形態１のテキスト長に変えて、コスト値に対する挿入位置を示すコスト値参照データが保持される。尚、その他の構成は上述した実施の形態１と同様である。

図７は実施の形態２に係る音声読み上げ動作を示すフローチャートである。
以下、実施の形態２に係る音声読み上げ動作を、図７に基づき、図５及び図６を参照しながら、実施の形態１との相違点を中心に説明する。

（Ｓ５０１）
音声ＤＢ選択部１１は、上述した実施の形態１のステップＳ３０１と同様の動作により、音声ＤＢ対応テーブルに基づき、音楽データに対応する音声ＤＢ選択を行う。
（Ｓ５０２）
音声合成部１２は、上述した実施の形態１のステップＳ３０２と同様の動作により、テキストデータを音声データに変換する。さらに、本実施の形態２における音声合成部１２は、音声合成した音声データのコスト値の情報を制御部１３へ出力する。
（Ｓ５０３）
本実施の形態２における制御部１３には図５に示すように、コスト値の情報が音声合成部１２から入力される。制御部１３は、入力された情報からコスト値を検出する。
（Ｓ５０４）
制御部１３は、予め保持しているコスト値参照データに基づき、ステップＳ５０３で検出したコスト値と入力された音楽データとに対応する音声データの挿入位置を検出する。
例えば、図６に示すデータ例において、曲名「Ａ」については、コスト値が「０≦コスト値＜０．５」であれば、音楽データの開始位置から９０秒後に挿入される。ここでの挿入位置とは、開始位置からの秒数としている。
（Ｓ５０５）
ミキシング部２０は、上述した実施の形態１のステップＳ３０５と同様の動作により、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。

このような動作により、コスト値に応じた所望のタイミングで音声を読み上げることができるので、例えば、音質の良い音声データは音楽の静かなときに読み上げ、音質の悪い音声データは音楽の賑やかなときに読み上げるなどにより、音楽の雰囲気を害してしまうことがない。

以上のように本実施の形態２においては、コスト値の情報と、音楽データの付属情報とに応じて、音声合成された音声の出力タイミングを制御することにより、曲名等を読み上げさせた音声データを、コスト値によって表す音質に応じて、音楽データの最適な場所でミックスすることができる。

実施の形態３．
上記実施の形態１及び２においては、テキスト長又はコスト値の情報を用いて、音声データの挿入位置を検出したが、本実施の形態３における音楽音声再生装置は、テキスト長及びコスト値の両情報を用いて、音楽データの最適な場所でミックスすることを可能とするものである。

図８は実施の形態３に係る音楽音声再生装置のブロック構成図、図９は実施の形態３に係るテキスト長・コスト値参照データの構成とデータ例を示す図である。
図８に示すように、本実施の形態における音楽音声再生装置は、制御部１３にテキスト長に関する情報及び音声合成部１２からのコスト値の情報を入力する構成である。
さらに、制御部１３には予め、図９に示すような、テキスト長及びコスト値に応じた挿入位置を対応づけたテキスト長・コスト値参照データを予め保持し、制御部１３は、このテキスト長・コスト値参照データを用いて、テキスト長及びコスト値の両情報に応じて挿入位置を検出する。尚、その他の構成は上述した実施の形態１又は２と同様である。

以下、実施の形態３に係る音声読み上げ動作を、上記実施の形態１及び３との相違点を中心に説明する。
上述した実施の形態１又は２と同様の動作により音声ＤＢ選択が選択された後、制御部１３は、実施の形態１又は２と同様の動作により、テキストデータのモーラ数及び入力されたコスト値を検出し、予め保持しているテキスト長・コスト値参照データに基づき、モーラ数及びコスト値と音楽データとに対応する音声データの挿入位置を検出する。
例えば、図９に示すデータ例において、曲名「Ａ」については、テキスト長が「０≦モーラ数＜５」でコスト値が「０≦コスト値＜０．５」であれば、音楽データの開始位置から９０秒後に挿入され、テキスト長が同じく「０≦モーラ数＜５」でコスト値が「０．５≦コスト値」であれば、音楽データの開始位置から４０秒後に挿入される。

ミキシング部２０は、上述した実施の形態１又は２と同様の動作により、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。

以上のように本実施の形態３においては、上記実施の形態１又は２の効果に加え、テキスト長とコスト値とに応じて、音声合成された音声の出力タイミングを制御することができる。これにより、例えば、音楽が静かな間奏時間には、音質が良く且つ間奏時間内に音声読み上げが完了するテキストデータを読み上げることができる。

実施の形態４．
上記実施の形態１〜３においては、音声合成装置１０から出力された音声データを、ミキシング部２０により、音楽データとミックスして音楽及び音声を出力したが、本実施の形態４においては音楽及び音声をそれぞれ単独で出力する構成とするものである。

図１０は実施の形態４に係る音声合成装置及び再生装置のブロック構成図である。図１０に示すように、本実施の形態における音声合成装置は、音声合成部１０から出力された音声データを、例えばスピーカーのような音声出力デバイスを介し音声として出力する。
さらに、ミキシング２０に換えて、入力された音楽データを再生する例えばオーディオプレーヤーなどの再生装置３０を設け、音楽のみを単独で出力する構成とする。

本実施の形態における音声合成部１２は、制御部１３から制御データが入力され、当該制御データに応じて、音楽の再生開始時から、挿入位置に相当する時間が経過したときに当該テキストデータを音声合成した音声を出力する。尚、本実施の形態における音声合成装置１０のその他の構成及び動作は上述した実施の形態１と同様であり、制御部１３はテキスト長参照データに基づいて音声挿入位置を検出する。

以上のように実施の形態４においては、上記実施の形態１〜３の効果に加え、ミキシング部を設けることなく、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる。

尚、本実施の形態において、音声合成装置１０は、上記実施の形態１と同様にテキスト長参照データに基づいて音声挿入位置を検出したが、本発明はこれに限るものではなく、実施の形態２又は３の構成を用いて、コスト値参照データ又はテキスト長・コスト値参照データに基づいて音声挿入位置を検出しても良い。

実施の形態１に係る音楽音声再生装置のブロック構成図である。実施の形態１に係る音声ＤＢ対応テーブルの構成とデータ例を示す図である。実施の形態１に係るテキスト長参照データの構成とデータ例を示す図である。実施の形態１に係る音声読み上げ動作を示すフローチャートである。実施の形態２に係る音楽音声再生装置のブロック構成図である。実施の形態２に係るコスト値参照データの構成とデータ例を示す図である。実施の形態２に係る音声読み上げ動作を示すフローチャートである。実施の形態３に係る音楽音声再生装置のブロック構成図である。実施の形態３に係るテキスト長・コスト値参照データの構成とデータ例を示す図である。実施の形態４に係る音楽合成装置及び再生装置のブロック構成図である。

符号の説明

１０音声合成装置、１１音声ＤＢ選択部、１２音声合成部、１３制御部、１４音声ＤＢ、２０ミキシング部、３０再生装置。

Claims

音楽データの再生に同期してテキスト情報を読み上げる音声合成方法であって、
テキスト情報を取得し、該テキスト情報を、音声データベースを参照して音声データに変換し、音声合成を行う音声合成ステップと、
前記音声データに関する情報と、再生される音楽データに関する情報とを取得し、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御ステップと
を有することを特徴とする音声合成方法。
前記音声合成ステップは、
前記音楽データに関する情報に応じて、複数の音声種別のうち、何れかを選択する音声データベース選択ステップを有し、
前記音声データベースを参照し、前記選択された音声種別に応じた音声データに変換して、前記テキスト情報の音声合成を行うことを特徴とする請求項１記載の音声合成方法。
前記制御ステップは、
前記音声データに関する情報として、前記テキスト情報のテキスト長に関する情報を取得し、該テキスト長に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項１又は２記載の音声合成方法。
前記制御ステップは、
前記音声データに関する情報として、前記音声データのコスト値に関する情報を取得し、該コスト値に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項１又は２記載の音声合成方法。
前記制御ステップは、
前記音楽データに関する情報として、前記音楽データの曲名に関する情報を取得し、前記音声データに関する情報と前記曲名に関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項１〜４の何れかに記載の音声合成方法。
前記音声合成ステップは、
音声素片を格納したコーパスベース音声合成用のデータベースを用いたコーパスベース方式により音声合成を行うことを特徴とする請求項１〜５の何れかに記載の音声合成方法。
請求項１〜６の何れかに記載の音声合成方法をコンピュータに実行させることを特徴とするプログラム。
音楽データの再生に同期してテキスト情報を読み上げる音声合成装置であって、
音声合成に用いられる情報が格納された音声データベースと、
テキスト情報が入力され、該テキスト情報を、前記音声データベースを参照して音声データに変換し、音声合成を行う音声合成部と、
前記音声データに関する情報と、再生される音楽データに関する情報とが入力され、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御部と
を備えたことを特徴とする音声合成装置。
前記音楽データに関する情報が入力される音声データベース選択部を備え、
前記音声データベースは、
複数の音声種別に対応した音声合成に用いられる情報が格納され、
前記音声データベース選択部は、
前記音楽データに関する情報に応じて、前記複数の音声種別のうち、何れかを選択し、
前記音声合成部は、
前記音声データベースを参照し、前記選択された音声種別に応じた音声データに変換して、前記テキスト情報の音声合成を行うことを特徴とする請求項８記載の音声合成装置。
前記制御部は、
前記音声データに関する情報として、前記テキスト情報のテキスト長に関する情報を取得し、該テキスト長に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項８又は９記載の音声合成装置。
前記制御部は、
前記音声データに関する情報として、前記音声データのコスト値に関する情報を取得し、該コスト値に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項８又は９記載の音声合成装置。
前記制御部は、
前記音楽データに関する情報として、前記音楽データの曲名に関する情報を取得し、前記音声データに関する情報と前記曲名に関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項８〜１１の何れかに記載の音声合成装置。
前記音声データベースは、音声素片を格納したコーパスベース音声合成用のデータベースであり、
前記音声合成部は、前記音声データベースを用いたコーパスベース方式により音声合成を行うことを特徴とする請求項８〜１２の何れかに記載の音声合成装置。
請求項８〜１３の何れかに記載の音声合成装置と、
前記音楽データと前記音声データとが入力され、該音楽データと該音声データとを合成して、音楽及び音声を出力するミキシング部と
を備えたことを特徴とする音楽音声再生装置。
前記ミキシング部は、
前記制御部による音声の出力タイミングの制御に応じて、前記音楽データに前記音声データを合成して音楽及び音声を出力することを特徴とする請求項１４記載の音楽音声再生装置。