JP2008191292A - 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置 - Google Patents
音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置 Download PDFInfo
- Publication number
- JP2008191292A JP2008191292A JP2007023858A JP2007023858A JP2008191292A JP 2008191292 A JP2008191292 A JP 2008191292A JP 2007023858 A JP2007023858 A JP 2007023858A JP 2007023858 A JP2007023858 A JP 2007023858A JP 2008191292 A JP2008191292 A JP 2008191292A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- music
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置を得る。
【解決手段】テキスト情報を取得し、当該テキスト情報を、音声DB14を参照して音声データに変換し、音声合成を行う音声合成ステップと、音声データに関する情報と、再生される音楽データに関する情報とを取得し、音声データに関する情報と音楽データに関する情報とに応じて、音声合成された音声の出力タイミングを制御する制御ステップとを有するものである。
【選択図】図1
【解決手段】テキスト情報を取得し、当該テキスト情報を、音声DB14を参照して音声データに変換し、音声合成を行う音声合成ステップと、音声データに関する情報と、再生される音楽データに関する情報とを取得し、音声データに関する情報と音楽データに関する情報とに応じて、音声合成された音声の出力タイミングを制御する制御ステップとを有するものである。
【選択図】図1
Description
本発明は、音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置に関し、特に、音声データの出力タイミングに関する。
従来のテキスト情報読み上げ装置として、例えば「音楽データとともにテキスト情報が記録された媒体からテキスト情報を読み上げるテキスト情報読み上げ装置であって、テキスト情報を抽出するテキスト情報抽出部と、抽出されたテキスト情報から音声データを得るための音声合成部と、音楽データの再生に同期して音声データの読み上げ時点を制御する制御部とを備えている。」ものが提案されている(例えば、特許文献1参照)。
また、日本語テキスト音声合成方法として、例えば「日本語テキスト音声合成方法において、母音と母音との連鎖における波形接続において、それらの境界での接続と、それらの母音中心での接続との両方を考慮して音声合成単位の選択を行うようにした。」ものが提案されている(例えば、特許文献2参照)。
従来、音声データの読み上げタイミング(以下、挿入位置ともいう)は、音楽データが再生される開始時点から任意の時間を指定しており、音楽再生中のどのタイミングでも音声データを読み上げて良いものになっている。
しかしながら、音声の挿入位置によっては、音楽と音声とが混在して双方が聞きづらくなる場合や、音楽の曲調、旋律などによっては、音声を挿入することにより音楽の雰囲気を害してしまう可能性がある。特に、音楽制作者は、自らが制作した音楽作品を害する、上述のような音声の挿入は望まない。一方、聴取者に対しては、音声の読み上げを行うことにより所定の情報を提供することができるため、各々の立場を考慮する必要がある。
したがって、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置が望まれていた。
しかしながら、音声の挿入位置によっては、音楽と音声とが混在して双方が聞きづらくなる場合や、音楽の曲調、旋律などによっては、音声を挿入することにより音楽の雰囲気を害してしまう可能性がある。特に、音楽制作者は、自らが制作した音楽作品を害する、上述のような音声の挿入は望まない。一方、聴取者に対しては、音声の読み上げを行うことにより所定の情報を提供することができるため、各々の立場を考慮する必要がある。
したがって、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置が望まれていた。
本発明に係る音声合成方法は、音楽データの再生に同期してテキスト情報を読み上げる音声合成方法であって、テキスト情報を取得し、該テキスト情報を、音声データベースを参照して音声データに変換し、音声合成を行う音声合成ステップと、前記音声データに関する情報と、再生される音楽データに関する情報とを取得し、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御ステップとを有するものである。
また、本発明に係るプログラムは、上記音声合成方法をコンピュータに実行させるものである。
また、本発明に係る音声合成装置は、音楽データの再生に同期してテキスト情報を読み上げる音声合成装置であって、音声合成に用いられる情報が格納された音声データベースと、テキスト情報が入力され、該テキスト情報を、前記音声データベースを参照して音声データに変換し、音声合成を行う音声合成部と、前記音声データに関する情報と、再生される音楽データに関する情報とが入力され、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御部とを備えたものである。
また、本発明に係る音楽音声再生装置は、上記音声合成装置と、前記音楽データと前記音声データとが入力され、該音楽データと該音声データとを合成して、音楽及び音声を出力するミキシング部とを備えたものである。
本発明は、音声データに関する情報と音楽データに関する情報とに応じて、音声合成された音声の出力タイミングを制御することにより、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる。
実施の形態1.
図1は実施の形態1に係る音楽音声再生装置のブロック構成図である。図1に示すように、実施の形態1に係る音楽音声再生装置は、音楽データの再生に同期してテキスト情報(テキストデータ)を読み上げる音声合成装置10と、音声データと音楽データとを合成して音楽及び音声を出力するミキシング部20とにより構成される。尚、音楽データの再生に同期とは、音楽データの再生に対して、テキストデータの読み上げ開始時期を調整することを言う。
さらに、音声合成装置10は、音声データベース(DB)選択部11、音声合成部12、音声データベース(DB)14、及び制御部13により構成されている。
図1は実施の形態1に係る音楽音声再生装置のブロック構成図である。図1に示すように、実施の形態1に係る音楽音声再生装置は、音楽データの再生に同期してテキスト情報(テキストデータ)を読み上げる音声合成装置10と、音声データと音楽データとを合成して音楽及び音声を出力するミキシング部20とにより構成される。尚、音楽データの再生に同期とは、音楽データの再生に対して、テキストデータの読み上げ開始時期を調整することを言う。
さらに、音声合成装置10は、音声データベース(DB)選択部11、音声合成部12、音声データベース(DB)14、及び制御部13により構成されている。
音声DB選択部11は、音楽データに関する情報が入力され、この音楽データに関する情報と、音声DB14の音声種別(後述)とを対応付けたテーブルをあらかじめ保持している。例えば、音楽データのボーカルと、音声DBの話者とを対応付けることも挙げられる。
この音声DB選択部11は、入力された音楽データに関する情報に応じて、複数の音声種別のうち、何れかを選択する機能を有する。ここで、音楽データに関する情報は、例えば、再生される音楽データの楽曲名、ミュージシャン名等であり、音楽データの付属情報として記録された情報を用いる。この音楽データの付属情報は、例えば、MP3形式(MPEGの音声データ規格)におけるID3タグや、CD(Compact Disc)、MD(Mini Disc)におけるTOC(Table Of Contents)などのメタデータとして記録されたものや、ネットワークを介して音楽データ固有の情報を取得しても良い(例えば、インターネット上の音楽CDデータベースなど)。
この音声DB選択部11は、入力された音楽データに関する情報に応じて、複数の音声種別のうち、何れかを選択する機能を有する。ここで、音楽データに関する情報は、例えば、再生される音楽データの楽曲名、ミュージシャン名等であり、音楽データの付属情報として記録された情報を用いる。この音楽データの付属情報は、例えば、MP3形式(MPEGの音声データ規格)におけるID3タグや、CD(Compact Disc)、MD(Mini Disc)におけるTOC(Table Of Contents)などのメタデータとして記録されたものや、ネットワークを介して音楽データ固有の情報を取得しても良い(例えば、インターネット上の音楽CDデータベースなど)。
音声合成部12は、コーパスベース方式により音声合成を行うものであり、テキストデータが入力され、入力されたテキストデータを、音声DB選択部11により選択された音声DB14を参照して、音声種別(話者)に応じた音声データに変換する機能を有する。ここでのテキストデータは、例えば、再生される音楽データの曲名であり、呼びかけ口調の音声種別を選択して、曲名を読み上げることを想定している。
制御部13は、音楽データに対して、予め音声データの挿入可能な位置を指定したテキスト長参照データ(後述)を保持している。ここで、音声データの挿入位置とは、音楽データの再生開始時からの時間をいい、例えば、メロディの背景音として音声で曲名を呼びかける所望の時間や、曲中にある間奏部分等の時間が設定される。尚、このテキスト長参照データは、当該情報を制御部13に入力することにより更新可能である。
また、制御部13には、音声データに関する情報と、音楽データに関する情報とが入力される。この音声データに関する情報としては、テキストデータのモーラ数など、テキスト長に関する情報が入力される。制御部13は、このテキスト長の長さに関する情報と、再生される音楽データに関する情報(例えば、楽曲名など)とに応じて、音声合成された音声の出力タイミングを制御する機能を有する。
音声DB14は、音声素片を格納したコーパスベース音声合成用のデータベースである。この音声DB14は、例えば、音声の話者、口調などがそれぞれ異なる複数の種類の音声(以下、「音声種別」という)に対応した音声合成に用いられる情報が格納されている。本実施の形態1においては、音声種別ごとに複数の音声DB14を有している。尚、単一の音声DB14に複数の音声種別ごとの情報を格納しても良い。
ミキシング部20は、音楽データと音声データとが入力され、制御部13による音声の出力タイミングの制御に応じて、音楽データの指定された挿入位置に音声データをミックス(合成)して音楽及び音声を出力する機能を有する。例えば、曲によって、ユーザ唯一のライブ風な音楽データが作成される。
音声DB選択部11、音声合成部12、及び制御部13は、回路デバイスのようなハードウェアで構成することもできるし、CPUやマイコンのような演算装置により実行されるソフトウェアとして構成することもできる。ソフトウェアとして実現する場合は、HDD(Hard Disk Drive)等にこれら各部の機能を実現するプログラムを格納しておき、CPUやマイコンなどの演算装置がそのプログラムを読み込んで、プログラムの指示に従って各部の機能に相当する処理を実行することにより、構成することができる。
音声DB14は、HDDのような比較的容量の大きい記憶装置に音声素片データを格納することにより、構成することができる。
ミキシング部20は、音楽及び音声データをアナログ信号に変換するためのD/Aコンバータなどにより構成することができ、出力形式は、スピーカーのような音声出力デバイスを介しても良いし、音声波形データ又は信号を出力するようにしても良い。
音声DB14は、HDDのような比較的容量の大きい記憶装置に音声素片データを格納することにより、構成することができる。
ミキシング部20は、音楽及び音声データをアナログ信号に変換するためのD/Aコンバータなどにより構成することができ、出力形式は、スピーカーのような音声出力デバイスを介しても良いし、音声波形データ又は信号を出力するようにしても良い。
図2は実施の形態1に係る音声DB対応テーブルの構成とデータ例を示す図、図3は実施の形態1に係るテキスト長参照データの構成とデータ例を示す図、図4は実施の形態1に係る音声読み上げ動作を示すフローチャートである。
以下、実施の形態1に係る音声読み上げ動作を、図4に基づき、図1〜図3を参照しながら説明する。
以下、実施の形態1に係る音声読み上げ動作を、図4に基づき、図1〜図3を参照しながら説明する。
(S301)
音声DB選択部11には図1に示すように、音楽データが入力される。音声DB選択部11は、音楽データが入力されると、当該音楽データの付属情報から楽曲名、ミュージシャン名等を抽出して、音声DB対応テーブルに基づき、付属情報に対応する音声DBを選択して、音声DB選択情報を音声合成部12へ入力する。
例えば、図2に示す音声DB対応テーブルのデータ例において、楽曲名「B」、ミュージシャン名「グループBB」という情報が音楽データから抽出されると、それに対応する「音声DBb」が選択される。
(S302)
音声合成部12には図1に示すように、テキストデータが入力される。ここでのテキストデータ(日本語テキスト)は、曲名を対象としている。尚、テキストデータは曲名に限らず、ミュージシャン名やその他の任意の情報でも良い。音声合成部12は、テキストデータが入力されると、音声DB選択部11から入力された音声DB選択情報に応じた音声DBを音声DB14から選択し、コーパスベース方式で、選択した音声DB14を用いて、テキストデータを音声データに変換する。ここでの、音声DBの口調は、呼びかけ口調で読み上げることで曲名らしさを強調することができる。尚、音声DBの口調は、呼びかけ口調に限るものではない。
(S303)
制御部13には図1に示すように、テキストデータと音楽データとが入力される。制御部13は、入力されたテキストデータの長さに関する情報としてモーラ数を検出する。尚、テキストの長さに関する情報としてモーラ数としているが、カナ数や、音素数などでも良い。
(S304)
制御部13は、予め保持しているテキスト長参照データに基づき、ステップS303で検出したテキスト長と入力された音楽データとに対応する音声挿入位置を検出する。ここで、テキスト長参照データとは、図3に示すように、曲名と、テキストデータ長と、音楽データとに応じて、予め音声データの挿入可能な位置を対応付けたものになっている。
例えば、図3に示すデータ例において、曲名「A」については、テキストのモーラ数が「0≦モーラ数<5」であれば、音楽データの開始位置から90秒後に挿入される。ここでの挿入位置とは、開始位置からの秒数としている。
(S305)
ミキシング部20には図1に示すように、ステップS304で検出された挿入位置を示した制御データと、音楽データと、音声データとが入力される。ミキシング部20は、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。
音声DB選択部11には図1に示すように、音楽データが入力される。音声DB選択部11は、音楽データが入力されると、当該音楽データの付属情報から楽曲名、ミュージシャン名等を抽出して、音声DB対応テーブルに基づき、付属情報に対応する音声DBを選択して、音声DB選択情報を音声合成部12へ入力する。
例えば、図2に示す音声DB対応テーブルのデータ例において、楽曲名「B」、ミュージシャン名「グループBB」という情報が音楽データから抽出されると、それに対応する「音声DBb」が選択される。
(S302)
音声合成部12には図1に示すように、テキストデータが入力される。ここでのテキストデータ(日本語テキスト)は、曲名を対象としている。尚、テキストデータは曲名に限らず、ミュージシャン名やその他の任意の情報でも良い。音声合成部12は、テキストデータが入力されると、音声DB選択部11から入力された音声DB選択情報に応じた音声DBを音声DB14から選択し、コーパスベース方式で、選択した音声DB14を用いて、テキストデータを音声データに変換する。ここでの、音声DBの口調は、呼びかけ口調で読み上げることで曲名らしさを強調することができる。尚、音声DBの口調は、呼びかけ口調に限るものではない。
(S303)
制御部13には図1に示すように、テキストデータと音楽データとが入力される。制御部13は、入力されたテキストデータの長さに関する情報としてモーラ数を検出する。尚、テキストの長さに関する情報としてモーラ数としているが、カナ数や、音素数などでも良い。
(S304)
制御部13は、予め保持しているテキスト長参照データに基づき、ステップS303で検出したテキスト長と入力された音楽データとに対応する音声挿入位置を検出する。ここで、テキスト長参照データとは、図3に示すように、曲名と、テキストデータ長と、音楽データとに応じて、予め音声データの挿入可能な位置を対応付けたものになっている。
例えば、図3に示すデータ例において、曲名「A」については、テキストのモーラ数が「0≦モーラ数<5」であれば、音楽データの開始位置から90秒後に挿入される。ここでの挿入位置とは、開始位置からの秒数としている。
(S305)
ミキシング部20には図1に示すように、ステップS304で検出された挿入位置を示した制御データと、音楽データと、音声データとが入力される。ミキシング部20は、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。
このような動作により、テキスト長に応じた所望のタイミングで音声を読み上げることができるので、例えば、曲中の間奏時間内のみテキストを読み上げることができ、音楽と音声とが混在して双方が聞きづらくなることがない。
以上のように本実施の形態1においては、テキスト長に関する情報と、音楽データの付属情報とに応じて、音声合成された音声の出力タイミングを制御することにより、曲名等を読み上げさせた音声データを、テキスト長に応じて、音楽データの最適な場所でミックスすることができる。
また、音楽データの付属情報に応じた音声種別の音声DBを選択することにより、再生する音楽に応じて、曲名等を読み上げる音声の話者等を変更することができる。
また、音楽データの付属情報に応じた音声種別の音声DBを選択することにより、再生する音楽に応じて、曲名等を読み上げる音声の話者等を変更することができる。
実施の形態2.
本実施の形態2における音楽音声再生装置は、曲名等のテキストデータを読み上げる音声データを、自然性を表す物理的指標であるコスト値によって、音楽データの最適な場所でミックスすることを可能とするものである。
本実施の形態2における音楽音声再生装置は、曲名等のテキストデータを読み上げる音声データを、自然性を表す物理的指標であるコスト値によって、音楽データの最適な場所でミックスすることを可能とするものである。
図5は実施の形態2に係る音楽音声再生装置のブロック構成図、図6は実施の形態2に係るコスト値参照データの構成とデータ例を示す図である。
図5に示すように、本実施の形態における音楽音声再生装置は、上述した実施の形態1の構成に換えて、制御部13へはテキストデータの入力をせず、音声合成部12から、音声データに関する情報としてコスト値の情報を制御部13へ入力する構成である。
ここで、コスト値とは、韻律(基本周波数、音素持続時間)、F0の不連続、音素環境代替、スペクトルの不連続、音素の不適合性に関するサブコストから構成されているものである。このコスト値が0に近づけば近づくほど、音質は良いものといえる。尚、このようなコスト値の導出は公知(例えば、特許文献2参照)であるので、詳細の説明は省略する。
図5に示すように、本実施の形態における音楽音声再生装置は、上述した実施の形態1の構成に換えて、制御部13へはテキストデータの入力をせず、音声合成部12から、音声データに関する情報としてコスト値の情報を制御部13へ入力する構成である。
ここで、コスト値とは、韻律(基本周波数、音素持続時間)、F0の不連続、音素環境代替、スペクトルの不連続、音素の不適合性に関するサブコストから構成されているものである。このコスト値が0に近づけば近づくほど、音質は良いものといえる。尚、このようなコスト値の導出は公知(例えば、特許文献2参照)であるので、詳細の説明は省略する。
さらに、制御部13には、音楽データに対して、予め音声データの挿入可能な位置を指定したコスト値参照データを保持している。ここで、コスト値参照データとは、図6に示すように、曲名と、自然性を表す物理的指標であるコスト値と、音楽データと応じて、予め音声データの挿入可能な位置を対応付けたものになっている。制御部13は、このコスト値参照データを用いて、音声合成された音声の出力タイミングを制御する機能を有する。即ち、本実施の形態2の制御部13には、上述した実施の形態1のテキスト長に変えて、コスト値に対する挿入位置を示すコスト値参照データが保持される。尚、その他の構成は上述した実施の形態1と同様である。
図7は実施の形態2に係る音声読み上げ動作を示すフローチャートである。
以下、実施の形態2に係る音声読み上げ動作を、図7に基づき、図5及び図6を参照しながら、実施の形態1との相違点を中心に説明する。
以下、実施の形態2に係る音声読み上げ動作を、図7に基づき、図5及び図6を参照しながら、実施の形態1との相違点を中心に説明する。
(S501)
音声DB選択部11は、上述した実施の形態1のステップS301と同様の動作により、音声DB対応テーブルに基づき、音楽データに対応する音声DB選択を行う。
(S502)
音声合成部12は、上述した実施の形態1のステップS302と同様の動作により、テキストデータを音声データに変換する。さらに、本実施の形態2における音声合成部12は、音声合成した音声データのコスト値の情報を制御部13へ出力する。
(S503)
本実施の形態2における制御部13には図5に示すように、コスト値の情報が音声合成部12から入力される。制御部13は、入力された情報からコスト値を検出する。
(S504)
制御部13は、予め保持しているコスト値参照データに基づき、ステップS503で検出したコスト値と入力された音楽データとに対応する音声データの挿入位置を検出する。
例えば、図6に示すデータ例において、曲名「A」については、コスト値が「0≦コスト値<0.5」であれば、音楽データの開始位置から90秒後に挿入される。ここでの挿入位置とは、開始位置からの秒数としている。
(S505)
ミキシング部20は、上述した実施の形態1のステップS305と同様の動作により、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。
音声DB選択部11は、上述した実施の形態1のステップS301と同様の動作により、音声DB対応テーブルに基づき、音楽データに対応する音声DB選択を行う。
(S502)
音声合成部12は、上述した実施の形態1のステップS302と同様の動作により、テキストデータを音声データに変換する。さらに、本実施の形態2における音声合成部12は、音声合成した音声データのコスト値の情報を制御部13へ出力する。
(S503)
本実施の形態2における制御部13には図5に示すように、コスト値の情報が音声合成部12から入力される。制御部13は、入力された情報からコスト値を検出する。
(S504)
制御部13は、予め保持しているコスト値参照データに基づき、ステップS503で検出したコスト値と入力された音楽データとに対応する音声データの挿入位置を検出する。
例えば、図6に示すデータ例において、曲名「A」については、コスト値が「0≦コスト値<0.5」であれば、音楽データの開始位置から90秒後に挿入される。ここでの挿入位置とは、開始位置からの秒数としている。
(S505)
ミキシング部20は、上述した実施の形態1のステップS305と同様の動作により、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。
このような動作により、コスト値に応じた所望のタイミングで音声を読み上げることができるので、例えば、音質の良い音声データは音楽の静かなときに読み上げ、音質の悪い音声データは音楽の賑やかなときに読み上げるなどにより、音楽の雰囲気を害してしまうことがない。
以上のように本実施の形態2においては、コスト値の情報と、音楽データの付属情報とに応じて、音声合成された音声の出力タイミングを制御することにより、曲名等を読み上げさせた音声データを、コスト値によって表す音質に応じて、音楽データの最適な場所でミックスすることができる。
実施の形態3.
上記実施の形態1及び2においては、テキスト長又はコスト値の情報を用いて、音声データの挿入位置を検出したが、本実施の形態3における音楽音声再生装置は、テキスト長及びコスト値の両情報を用いて、音楽データの最適な場所でミックスすることを可能とするものである。
上記実施の形態1及び2においては、テキスト長又はコスト値の情報を用いて、音声データの挿入位置を検出したが、本実施の形態3における音楽音声再生装置は、テキスト長及びコスト値の両情報を用いて、音楽データの最適な場所でミックスすることを可能とするものである。
図8は実施の形態3に係る音楽音声再生装置のブロック構成図、図9は実施の形態3に係るテキスト長・コスト値参照データの構成とデータ例を示す図である。
図8に示すように、本実施の形態における音楽音声再生装置は、制御部13にテキスト長に関する情報及び音声合成部12からのコスト値の情報を入力する構成である。
さらに、制御部13には予め、図9に示すような、テキスト長及びコスト値に応じた挿入位置を対応づけたテキスト長・コスト値参照データを予め保持し、制御部13は、このテキスト長・コスト値参照データを用いて、テキスト長及びコスト値の両情報に応じて挿入位置を検出する。尚、その他の構成は上述した実施の形態1又は2と同様である。
図8に示すように、本実施の形態における音楽音声再生装置は、制御部13にテキスト長に関する情報及び音声合成部12からのコスト値の情報を入力する構成である。
さらに、制御部13には予め、図9に示すような、テキスト長及びコスト値に応じた挿入位置を対応づけたテキスト長・コスト値参照データを予め保持し、制御部13は、このテキスト長・コスト値参照データを用いて、テキスト長及びコスト値の両情報に応じて挿入位置を検出する。尚、その他の構成は上述した実施の形態1又は2と同様である。
以下、実施の形態3に係る音声読み上げ動作を、上記実施の形態1及び3との相違点を中心に説明する。
上述した実施の形態1又は2と同様の動作により音声DB選択が選択された後、制御部13は、実施の形態1又は2と同様の動作により、テキストデータのモーラ数及び入力されたコスト値を検出し、予め保持しているテキスト長・コスト値参照データに基づき、モーラ数及びコスト値と音楽データとに対応する音声データの挿入位置を検出する。
例えば、図9に示すデータ例において、曲名「A」については、テキスト長が「0≦モーラ数<5」でコスト値が「0≦コスト値<0.5」であれば、音楽データの開始位置から90秒後に挿入され、テキスト長が同じく「0≦モーラ数<5」でコスト値が「0.5≦コスト値」であれば、音楽データの開始位置から40秒後に挿入される。
上述した実施の形態1又は2と同様の動作により音声DB選択が選択された後、制御部13は、実施の形態1又は2と同様の動作により、テキストデータのモーラ数及び入力されたコスト値を検出し、予め保持しているテキスト長・コスト値参照データに基づき、モーラ数及びコスト値と音楽データとに対応する音声データの挿入位置を検出する。
例えば、図9に示すデータ例において、曲名「A」については、テキスト長が「0≦モーラ数<5」でコスト値が「0≦コスト値<0.5」であれば、音楽データの開始位置から90秒後に挿入され、テキスト長が同じく「0≦モーラ数<5」でコスト値が「0.5≦コスト値」であれば、音楽データの開始位置から40秒後に挿入される。
ミキシング部20は、上述した実施の形態1又は2と同様の動作により、入力された音楽データに対して、制御データの挿入位置に音声データをミックスし、音楽及び音声を出力する。
以上のように本実施の形態3においては、上記実施の形態1又は2の効果に加え、テキスト長とコスト値とに応じて、音声合成された音声の出力タイミングを制御することができる。これにより、例えば、音楽が静かな間奏時間には、音質が良く且つ間奏時間内に音声読み上げが完了するテキストデータを読み上げることができる。
実施の形態4.
上記実施の形態1〜3においては、音声合成装置10から出力された音声データを、ミキシング部20により、音楽データとミックスして音楽及び音声を出力したが、本実施の形態4においては音楽及び音声をそれぞれ単独で出力する構成とするものである。
上記実施の形態1〜3においては、音声合成装置10から出力された音声データを、ミキシング部20により、音楽データとミックスして音楽及び音声を出力したが、本実施の形態4においては音楽及び音声をそれぞれ単独で出力する構成とするものである。
図10は実施の形態4に係る音声合成装置及び再生装置のブロック構成図である。図10に示すように、本実施の形態における音声合成装置は、音声合成部10から出力された音声データを、例えばスピーカーのような音声出力デバイスを介し音声として出力する。
さらに、ミキシング20に換えて、入力された音楽データを再生する例えばオーディオプレーヤーなどの再生装置30を設け、音楽のみを単独で出力する構成とする。
さらに、ミキシング20に換えて、入力された音楽データを再生する例えばオーディオプレーヤーなどの再生装置30を設け、音楽のみを単独で出力する構成とする。
本実施の形態における音声合成部12は、制御部13から制御データが入力され、当該制御データに応じて、音楽の再生開始時から、挿入位置に相当する時間が経過したときに当該テキストデータを音声合成した音声を出力する。尚、本実施の形態における音声合成装置10のその他の構成及び動作は上述した実施の形態1と同様であり、制御部13はテキスト長参照データに基づいて音声挿入位置を検出する。
以上のように実施の形態4においては、上記実施の形態1〜3の効果に加え、ミキシング部を設けることなく、再生される音楽と読み上げる音声とに応じた所望のタイミングで、音声を読み上げることができる。
尚、本実施の形態において、音声合成装置10は、上記実施の形態1と同様にテキスト長参照データに基づいて音声挿入位置を検出したが、本発明はこれに限るものではなく、実施の形態2又は3の構成を用いて、コスト値参照データ又はテキスト長・コスト値参照データに基づいて音声挿入位置を検出しても良い。
10 音声合成装置、11 音声DB選択部、12 音声合成部、13 制御部、14 音声DB、20 ミキシング部、30 再生装置。
Claims (15)
- 音楽データの再生に同期してテキスト情報を読み上げる音声合成方法であって、
テキスト情報を取得し、該テキスト情報を、音声データベースを参照して音声データに変換し、音声合成を行う音声合成ステップと、
前記音声データに関する情報と、再生される音楽データに関する情報とを取得し、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御ステップと
を有することを特徴とする音声合成方法。 - 前記音声合成ステップは、
前記音楽データに関する情報に応じて、複数の音声種別のうち、何れかを選択する音声データベース選択ステップを有し、
前記音声データベースを参照し、前記選択された音声種別に応じた音声データに変換して、前記テキスト情報の音声合成を行うことを特徴とする請求項1記載の音声合成方法。 - 前記制御ステップは、
前記音声データに関する情報として、前記テキスト情報のテキスト長に関する情報を取得し、該テキスト長に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項1又は2記載の音声合成方法。 - 前記制御ステップは、
前記音声データに関する情報として、前記音声データのコスト値に関する情報を取得し、該コスト値に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項1又は2記載の音声合成方法。 - 前記制御ステップは、
前記音楽データに関する情報として、前記音楽データの曲名に関する情報を取得し、前記音声データに関する情報と前記曲名に関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項1〜4の何れかに記載の音声合成方法。 - 前記音声合成ステップは、
音声素片を格納したコーパスベース音声合成用のデータベースを用いたコーパスベース方式により音声合成を行うことを特徴とする請求項1〜5の何れかに記載の音声合成方法。 - 請求項1〜6の何れかに記載の音声合成方法をコンピュータに実行させることを特徴とするプログラム。
- 音楽データの再生に同期してテキスト情報を読み上げる音声合成装置であって、
音声合成に用いられる情報が格納された音声データベースと、
テキスト情報が入力され、該テキスト情報を、前記音声データベースを参照して音声データに変換し、音声合成を行う音声合成部と、
前記音声データに関する情報と、再生される音楽データに関する情報とが入力され、該音声データに関する情報と該音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御する制御部と
を備えたことを特徴とする音声合成装置。 - 前記音楽データに関する情報が入力される音声データベース選択部を備え、
前記音声データベースは、
複数の音声種別に対応した音声合成に用いられる情報が格納され、
前記音声データベース選択部は、
前記音楽データに関する情報に応じて、前記複数の音声種別のうち、何れかを選択し、
前記音声合成部は、
前記音声データベースを参照し、前記選択された音声種別に応じた音声データに変換して、前記テキスト情報の音声合成を行うことを特徴とする請求項8記載の音声合成装置。 - 前記制御部は、
前記音声データに関する情報として、前記テキスト情報のテキスト長に関する情報を取得し、該テキスト長に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項8又は9記載の音声合成装置。 - 前記制御部は、
前記音声データに関する情報として、前記音声データのコスト値に関する情報を取得し、該コスト値に関する情報と前記音楽データに関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項8又は9記載の音声合成装置。 - 前記制御部は、
前記音楽データに関する情報として、前記音楽データの曲名に関する情報を取得し、前記音声データに関する情報と前記曲名に関する情報とに応じて、前記音声合成された音声の出力タイミングを制御することを特徴とする請求項8〜11の何れかに記載の音声合成装置。 - 前記音声データベースは、音声素片を格納したコーパスベース音声合成用のデータベースであり、
前記音声合成部は、前記音声データベースを用いたコーパスベース方式により音声合成を行うことを特徴とする請求項8〜12の何れかに記載の音声合成装置。 - 請求項8〜13の何れかに記載の音声合成装置と、
前記音楽データと前記音声データとが入力され、該音楽データと該音声データとを合成して、音楽及び音声を出力するミキシング部と
を備えたことを特徴とする音楽音声再生装置。 - 前記ミキシング部は、
前記制御部による音声の出力タイミングの制御に応じて、前記音楽データに前記音声データを合成して音楽及び音声を出力することを特徴とする請求項14記載の音楽音声再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007023858A JP2008191292A (ja) | 2007-02-02 | 2007-02-02 | 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007023858A JP2008191292A (ja) | 2007-02-02 | 2007-02-02 | 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008191292A true JP2008191292A (ja) | 2008-08-21 |
Family
ID=39751479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007023858A Pending JP2008191292A (ja) | 2007-02-02 | 2007-02-02 | 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008191292A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9472181B2 (en) | 2011-02-03 | 2016-10-18 | Panasonic Intellectual Property Management Co., Ltd. | Text-to-speech device, speech output device, speech output system, text-to-speech methods, and speech output method |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048808A (ja) * | 2004-08-03 | 2006-02-16 | Fujitsu Ten Ltd | オーディオ装置 |
-
2007
- 2007-02-02 JP JP2007023858A patent/JP2008191292A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006048808A (ja) * | 2004-08-03 | 2006-02-16 | Fujitsu Ten Ltd | オーディオ装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9472181B2 (en) | 2011-02-03 | 2016-10-18 | Panasonic Intellectual Property Management Co., Ltd. | Text-to-speech device, speech output device, speech output system, text-to-speech methods, and speech output method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2538668Y2 (ja) | メッセージ機能付き音楽再生装置 | |
KR101136974B1 (ko) | 재생장치 및 재생방법 | |
JP2019066649A (ja) | 歌唱音声の編集支援方法、および歌唱音声の編集支援装置 | |
JP2001215979A (ja) | カラオケ装置 | |
JP7367835B2 (ja) | 録音再生装置、録音再生装置の制御方法及び制御プログラム並びに電子楽器 | |
JP2000156049A (ja) | オーディオメディアおよびメディア再生装置 | |
JP2007322544A (ja) | 楽曲再生装置 | |
JP2008191292A (ja) | 音声合成方法、プログラム及び音声合成装置並びに音楽音声再生装置 | |
JP4994890B2 (ja) | 録音した自分の歌声と模範歌唱とを厳しく比較できるカラオケ装置 | |
JP4553013B2 (ja) | カラオケ装置 | |
JP5375869B2 (ja) | 楽曲再生装置、楽曲再生方法及びプログラム | |
JP6920489B1 (ja) | カラオケ装置 | |
JP2005107285A (ja) | 楽曲再生装置 | |
JP2011197663A (ja) | 電子楽器及びプログラム | |
JP4229064B2 (ja) | 音声合成装置および音声合成プログラム | |
JP3892433B2 (ja) | カラオケ装置、カラオケ方法、ならびに、プログラム | |
JPWO2005091296A1 (ja) | 音情報出力装置、音情報出力方法、および音情報出力プログラム | |
JPH0413200A (ja) | 発声機能付きカラオケ装置 | |
JP2005284076A (ja) | 電子楽器 | |
JP4267513B2 (ja) | カラオケ録音装置 | |
JP2010186029A (ja) | サウンド編集プログラム、サウンド編集システム及びサウンド編集方法 | |
JP2019144419A (ja) | 音楽再生装置、音楽再生方法、及び、音楽再生プログラム | |
JPWO2020208811A1 (ja) | 再生制御装置、プログラムおよび再生制御方法 | |
JP2005242059A (ja) | 録音ファイルの昇順ソート表示およびアップロード機能を有するカラオケ演奏装置 | |
JP2006337965A (ja) | カラオケ装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111129 |