JP2014098802A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2014098802A
JP2014098802A JP2012250441A JP2012250441A JP2014098802A JP 2014098802 A JP2014098802 A JP 2014098802A JP 2012250441 A JP2012250441 A JP 2012250441A JP 2012250441 A JP2012250441 A JP 2012250441A JP 2014098802 A JP2014098802 A JP 2014098802A
Authority
JP
Japan
Prior art keywords
phoneme
information
synthesis
speech
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012250441A
Other languages
English (en)
Other versions
JP6167503B2 (ja
Inventor
Hiroshi Kayama
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012250441A priority Critical patent/JP6167503B2/ja
Publication of JP2014098802A publication Critical patent/JP2014098802A/ja
Application granted granted Critical
Publication of JP6167503B2 publication Critical patent/JP6167503B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】従来よりも表現力の豊な音声をリアルタイム方式で合成することを可能にする。
【解決手段】合成対象の歌唱音声の音韻列を示す音韻列情報と当該音韻列情報の示す音韻列の一部の音韻を変化させることを示す音韻制御情報とを含む複数種類の合成情報を取得する手段であって、前記複数種類の合成情報の少なくとも一部の合成情報を操作子の操作により取得する取得手段と、前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の子音の継続長を音韻制御情報にしたがって変化させて音声合成を行う音声合成手段とを有する音声合成装置を提供する。
【選択図】図3

Description

この発明は、音声合成技術に関し、特に、リアルタイム音声合成技術に関する。
音声ガイダンスにおける案内音声や文芸作品の朗読音声、或いは歌唱曲の歌唱音声などを表す音声信号を、複数種類の合成情報を用いて電気的な信号処理により合成する音声合成技術が普及している。例えば、歌唱音声の合成の場合は、歌唱音声の合成対象の歌唱曲における韻律変化を示す韻律情報(例えば、当該歌唱曲のメロディを構成する各音符の音高や継続長を表す音符情報)と当該歌唱曲の歌詞の音韻列を表す情報などの音楽表現情報が上記合成情報として用いられる。音声ガイダンスにおける案内音声や文芸作品の朗読音声の音声信号を合成する場合は、案内文や文芸作品の文章の音韻列を表す情報と、イントネーションやアクセントなどの韻律変化を示す韻律情報が上記合成情報として用いられる。従来、この種の音声合成は、合成対象の音声全体に亙る各種合成情報を予め音声合成装置に全て入力しておき、合成対象の音声全体の音波形を表す音声信号をそれら合成情報に基づいて一括して生成する所謂バッチ処理方式が一般的であった。しかし、近年ではリアルタイム方式の音声合成技術も提案されている(例えば、特許文献1参照)。
リアルタイム方式の音声合成の一例としては、楽曲全体の歌詞の音韻列を示す情報を歌唱合成装置に予め入力しておき、ピアノ鍵盤を模したキーボードの操作により音符毎に歌詞を発音する際の音高や継続長を表す音符情報を逐次入力することで音符毎に歌唱音声を合成する技術が挙げられる。また、近年では、歌詞の音韻列を構成する各音韻(子音や母音)を入力するための操作子を配列した音韻情報入力部とピアノ鍵盤を模した音符情報入力部とを左右に並べた歌唱合成用キーボードを用いて、音符毎に音符情報と当該音符に合わせて発音する歌詞の音韻列を示す音韻列情報とをリアルタイムでユーザに逐次入力させ、音符毎に歌唱音声の合成を行うことも提案されている。
特許3879402号
電子ピアノなどの電子鍵盤楽器のなかには、押鍵速度によって音符毎の音の強さ(ベロシティ)を指定することができるものがあり、このような電子鍵盤楽器によれば表現力の豊な演奏を行うことができる。歌唱合成用キーボードのなかにも押鍵速度によってベロシティを指定可能なものもあるが、歌唱音声の場合、音符毎の音の強さを変えるだけでは十分な表現力を得られないことが多い。これは案内音声や朗読音声のリアルタイム合成においても同様である。
本発明は上記課題に鑑みて為されたものであり、従来よりも表現力の豊な音声をリアルタイム方式で合成することを可能にする技術を提供することを目的とする。
上記課題を解決するために本発明は、合成対象の音声の音韻列を示す音韻列情報と前記音声の韻律変化を示す韻律情報と前記音韻列情報の示す音韻列の一部の音韻を変化させることを示す音韻制御情報とを含む複数種類の合成情報を取得する手段であって、前記音韻列情報と前記韻律情報と前記音韻制御情報のうちの少なくとも1つについては操作子の操作により取得する取得手段と、前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の一部の音韻を当該複数種類の合成情報に含まれる音韻制御情報にしたがって変化させて音声合成を行う音声合成手段とを有することを特徴とする音声合成装置、を提供する。
本発明の音声合成装置では、取得手段により複数種類の合成情報が取得されたことを契機として音声合成手段による音声合成が行われる。上記複数種類の合成情報のうち音韻列情報、韻律情報および音韻制御情報のうちの少なくとも1つは操作子の操作により取得されるのであるから、本発明の音声合成装置ではリアルタイム方式の音声合成が行われる。本発明の音声合成装置の音声合成手段は、音韻列情報の示す音韻列の一部の音韻を音韻制御情報にしたがって変化させて音声合成を行う。ここで、合成対象が日本語の歌唱音声であり、かつ音韻列情報の表す音韻列が「子音+母音」である場合、音韻列の一部を変化させる処理の具体例としては、子音の継続長を変化させる(例えば、短くする)処理、子音を欠落させる処理、子音を音の近似した他の子音に差し替える処理、子音の繰り返しを発生させる(すなわち、母音の手前に1または複数の子音を挿入する)処理等が挙げられる。これらの処理によって音韻列の一部の音韻を変化させて歌唱合成を行うと、合成結果の歌唱音声では子音の聴き取り易さが低下する。人の歌唱音声や朗読音声には、発音が早口であるほど子音を聴き取り難くなる(子音の聴き取り易さが低下する)といった傾向があるため、本発明によれば、人の歌唱音声や朗読音声特有の傾向を再現することができ、従来よりも表現力の豊な音声をリアルタイム方式で合成することが可能になる。なお、合成対象が例えば英語などの日本語以外の言語の歌唱音声である場合には、音符に合わせて歌唱する歌詞の末尾に子音が位置している場合があり、この場合は末尾の子音について、継続長を変化させる処理、子音を欠落させる処理、子音を音の近似した他の子音に差し替える処理、子音の繰り返しを発生させる(例えば、当該子音とこれに先行する音素の間に当該子音を1または複数個挿入する)処理を行えば良い。
より好ましい態様においては、音韻制御情報に応じた頻度で子音の継続長を変化させる処理等を音声合成手段に実行させる態様や、子音の継続長の調整量や欠落或いは挿入する子音の個数、差し替える子音の個数を音韻制御情報に応じた可変値とする態様が考えられる。このような態様によれば、合成歌唱音声における子音の聴き取り易さをきめ細かく制御することが可能になり、合成歌唱音声の表現力をさらに向上させることができる。
複数種類の合成情報に基づいて歌唱音声を合成する歌唱合成装置に本発明を適用する場合には、音韻列情報や韻律情報をユーザに入力させるための入力装置として歌唱合成用キーボードを用いるようにすれば良い。この場合、歌唱合成用キーボードを用いて入力される一連の音符情報が韻律情報の役割を果たす。また、歌唱合成用キーボードを用いて音韻制御情報を入力できるようにするために、音韻情報入力部または音符情報入力部の何れかに音韻制御情報を入力するための専用の操作子を設けても良く、音符情報を入力するための操作子に音韻制御情報を入力する役割を担わせても良い。具体的には、音高を指定する際の押鍵速度に応じたベロシティに音韻制御情報の役割を担わせることが考えられる。
また、別の好ましい態様としては、前記複数種類の合成情報には、理想的な韻律変化からズレを生じさせて音声合成することを指示する韻律制御情報が含まれており、当該ズレが生じるように韻律制御情報にしたがって韻律変化を調整しつつ音声合成を行う処理を音声合成手段に実行させる態様が考えられる。ここで、理想的な韻律変化からのズレを生じさせる方法の具体例としては、アタック(子音から母音への過渡的な韻律変化)の深さを変化させる態様、アタックの継続長を変化させる態様、アタックの欠落を発生させる態様が挙げられる。また、韻律変化の調整の他の具体例としては、アンダーシュート(無音から子音への韻律変化)の深さまたはオーバーシュート(子音から母音への韻律変化)の高さ(或いは両者)を変化させる態様、アンダーシュートまたはオーバーシュート(或いは両者)の継続長を変化させる態様、アンダーシュートまたはオーバシュート(或いは両者)の欠落を発生させる態様が挙げられる。このように韻律変化に調整を加えることによっても合成音声における子音の聴き取り易さを調整することができる。
この発明の第1実施形態の歌唱合成装置1の構成例を示す図である。 同歌唱合成装置1の動作を説明するための図である。 子音の継続長の調整により、音韻列の一部の音韻を変化させる態様を説明するための図である。 子音の欠落を発生させることで、音韻列の一部の音韻を変化させる態様を説明するための図である。 子音の差し替えにより、音韻列の一部の音韻を変化させる態様を説明するための図である。 子音の挿入により、音韻列の一部の音韻を変化させる態様を説明するための図である。 アタックの深さの調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。 アタックの継続長の調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。 アタックを欠落させることにより理想的な韻律変化からのズレを生じさせる態様を説明するための図である。 アンダーシュートの深さおよびオーバーシュートの高さの調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。 アンダーシュートおよびオーバーシュートの継続長の調整により理想的な韻律変化からのズレを生じさせる態様を説明するための図である。 アンダーシュートおよびオーバーシュートを欠落させることにより理想的な韻律変化からのズレを生じさせる態様を説明するための図である。
以下、図面を参照しつつ、本発明の実施形態について説明する。
(A:第1実施形態)
図1は、本発明の音声合成装置の一実施形態の歌唱合成装置1の構成例を示すブロック図である。この歌唱合成装置1は、音韻列情報および韻律情報などの複数種類の合成情報をユーザに入力させ、それら合成情報を用いてリアルタイム方式の歌唱合成を行う装置である。図1に示すように、歌唱合成装置1は、制御部110、操作部120、表示部130、音声出力部140、外部機器インタフェース(以下、「I/F」と略記)部150、記憶部160、および、これら構成要素間のデータ授受を仲介するバス170を含んでいる。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部160に記憶されている歌唱合成プログラムにしたがって作動することにより、上記複数種類の合成情報に基づいて歌唱音声を合成する音声合成手段として機能する。この歌唱合成プログラムにしたがって制御部110が実行する処理の詳細については後に明らかにする。本実施形態では制御部110としてCPUを用いるがDSP(Digital Signal Processor)を用いても勿論良い。
操作部120は、前述した歌唱合成用キーボードであり、音韻情報入力部と音符情報入力部とを有している。歌唱合成装置1のユーザは、操作部120を操作することによって、歌唱音声の合成対象の歌唱曲のメロディを構成する音符と音符に合わせて発音する歌詞の音韻列を指定することができる。例えば、「さ」という歌詞を指定する場合には音韻情報入力部に設けられている複数の操作子のうちの子音「s」に対応した操作子と母音「a」に対応した操作子を順次押下すれば良く、当該歌詞に対応する音符の音高として「C4」を指定する場合には音符情報入力部に設けられている複数の操作子(鍵)のうち当該音高に応じた鍵を押下してその発音開始を指示し、当該鍵から指を離すことで発音終了を指示すれば良い。つまり、当該鍵を押下している時間の長さが当該音符の継続長となる。また、ユーザは、音符に対応する鍵の押鍵速度によって当該音符に合わせて歌詞を発音する際のベロシティを指定することができる。なお、ベロシティの指定を含む音符情報を押鍵操作によって入力することを可能にする仕組みとしては、従来の電子鍵盤楽器におけるものを採用すれば良い。
操作部120は、音韻列を指定する操作が為された場合には当該音韻列を示す音韻列情報を制御部110に与える。また、操作部120は、発音開始を指示する押鍵操作が為された場合には、押下された鍵に応じたノートオンイベント(MIDI(Musical Instrument Digital Interface)イベント)を発音開始を指示する音符情報として制御部110に与える。このノートオンイベントには、押下された鍵に対応した音高を示す情報とその押鍵速度に応じたベロシティの大きさを示す情報(1〜127の整数値)とが含まれている。そして、操作部120は、押鍵が解除されたことを契機として当該鍵に応じたノートオフイベント(MIDIイベント)を発音終了を指示する音符情報として制御部110に与える。このように音符情報入力部の操作子に対する操作により入力される音符情報は前述した韻律情報の役割を果たす。
詳細については後述するが、歌唱合成装置1のユーザは、音符に対応する鍵の押鍵速度によって、合成後の歌唱音声における子音の聴き取り易さを調整する(低下させる)ことができる。このような子音の聴き取り易さの調整は、音韻情報入力部の操作により指定した音韻列(すなわち、操作部120を介して入力された音韻列情報の示す音韻列)の一部の音韻を変化させて歌唱合成を行うことで実現される。本実施形態では、発音開始を指示する音符情報に含まれているベロシティには、音韻列情報の示す音韻列の一部の音韻を変化させて歌唱合成を行うことを指示する音韻制御情報の役割が与えられている。つまり、操作部120は、歌唱音声の合成に用いる複数種類の合成情報(本実施形態では、音韻列情報、韻律情報および音韻制御情報)を制御部110に取得させるための取得手段の役割を果たす。
表示部130は、例えば液晶ディスプレイとその駆動回路であり、制御部110による制御の下、歌唱合成装置1の使用を促すメニュー画像などの各種画像を表示する。音声出力部140は、図1に示すように、D/A変換器142、増幅器144、およびスピーカ
146を含んでいる。D/A変換器142は、制御部110から与えられるデジタル形式の音声データ(合成歌唱音声の音波形を表す音声データ)にD/A変換を施し、変換結果のアナログ音声信号を増幅器144に与える。増幅器144は、D/A変換器142から与えられる音声信号の信号レベル(すなわち、音量)をスピーカ駆動に適したレベルまで増幅してスピーカ146に与える。スピーカ146は、増幅器144から与えられる音声信号を音として出力する。
外部機器I/F部150は、例えばUSB(Universal Serial Buss)インタフェースやオーディオインタフェースなど、歌唱合成装置1に他の外部機器を接続するためのインタフェースの集合体である。本実施形態では、歌唱合成用キーボード(操作部120)や音声出力部140が歌唱合成装置1の構成要素である場合について説明するが、歌唱合成用キーボードや音声出力部140を外部機器I/F部150に接続される外部機器としても勿論良い。
記憶部160は、不揮発性記憶部162と揮発性記憶部164とを含んでいる。不揮発性記憶部162は、例えばROM(Read Only Memory)やフラッシュメモリ或いはハードディスクなどの不揮発性メモリにより構成されており、揮発性記憶部164は例えばRAM(Random Access Memory)などの揮発性メモリにより構成されている。揮発性記憶部164は各種プログラムを実行する際のワークエリアとして制御部110によって利用される。一方、不揮発性記憶部162には、図1に示すように、歌唱合成用ライブラリ162aと、歌唱合成プログラム162bとが予め格納されている。
歌唱合成用ライブラリ162aとは、様々な音素やダイフォン(音素から異なる音素(無音を含む)への遷移)の音声波形を表す素片データを格納したデータベースである。なお、歌唱合成用ライブラリ162aは、モノフォンやダイフォンの他にトライフォンの素片データを格納したデータベースであっても良く、また、音声波形の音素の定常部や他の音素への遷移部(過渡部)が格納されたデータベースであっても良い。歌唱合成プログラム162bは、歌唱合成用ライブラリ162aを利用した歌唱合成を制御部110に実行させるためのプログラムである。歌唱合成プログラム162bにしたがって作動している制御部110は明瞭度調整処理および歌唱合成処理の2種類の処理を実行する。
歌唱合成処理とは、操作部120を介して取得した複数種類の合成情報に基づいて歌唱音声の音波形を表す音声データを合成して出力する処理である。例えば、図2(a)に示すように、合成対象の歌詞として「ま」が指定され、当該歌詞を発音する際の音高として「C4」が指定されたとする。この場合、子音「m」+母音「a」を表す音韻列情報と音高「C4」の音の発音開始を指示する音符情報とが操作部120から制御部110に与えられる。制御部110は、当該音韻列情報の示す音韻列を生成する処理を歌唱合成処理の前処理として実行する。図2(a)に示すように、合成対象の歌詞として「ま」が指定された場合には、制御部110は、図2(b)に示すように、無音(図2(b)では、#により表記、以降の図面においても同様)から子音「m」への遷移、子音「m」から母音「a」への遷移、母音「a」、および母音「a」から無音への遷移を配列した音韻列を生成する。また、この前処理では、制御部110は、発音開始を指示する音符情報に基づいて図2(c)に示すピッチカーブを生成する。そして、歌唱合成処理では、制御部110は、上記音韻列を構成する各音素(或いはダイフォン)の素片データを歌唱合成用ライブラリ162aから読み出して周波数領域のデータに変換し、周波数領域のデータに変換済の各素片データに上記ピッチカーブにしたがってピッチ変換を施して結合し、さらに時間領域のデータに戻して合成歌唱音声の音声データを生成する。
図2(c)に示すピッチカーブは、自然な聴感の歌唱音声が得られるという点において理想的な韻律変化を示すピッチカーブである。図2(c)に示すピッチカーブにおいて、区間T1における韻律変化は無音から子音「m」への過渡的な遷移(アンダーシュート)に対応する。同区間T2における韻律変化は子音「m」におけるアタックに対応する。同区間T3における韻律変化は子音「m」から母音「a」への過渡的な遷移(オーバーシュート)に対応する。同区間T4における音高の変化は母音「a」における音高の定常的な変化(サスティン)に対応する。そして、同区間T5における音高の変化は母音「a」から無音への遷移(リリース)に対応する。本実施形態では、図2(c)に示す理想的なピッチカーブを特徴付けるピッチカーブデータ(区間T1〜T5の各区間の継続長(継続時間)、アンダーシュートの深さ(D)、アタックの勾配(α)、オーバーシュートの高さHの各々を示すデータなど)が不揮発性記憶部162に予め格納されており、制御部110はピッチカーブデータと、発音開始を指示する音符情報の示す音高と、に基づいてピッチカーブを生成し、そのピッチカーブにしたがって各素片データのピッチ変換を実行する。また、合成歌唱音声の音量についても同様に、自然な聴感を得られるという点において理想的な音量の時間変化を示すデータを不揮発性記憶部162に予め記憶させておき、このデータにしたがって音量を制御しつつ合成歌唱音声を出力するようにしても良い。
明瞭度調整処理とは、発音開始を指示する音符情報に含まれているベロシティの値vに応じて、当該音符に合わせて発音する歌詞の子音の聴き取り易さを調整する処理である。前述したように、本実施形態では、音韻列情報の示す音韻列(上記前処理にて生成した音韻列)の一部の音韻を変化させることで子音の聴き取り易さの調整が実現される。この明瞭度調整処理は歌唱合成処理に先立って(上記前処理と並列に、或いは前処理に後続して)実行される処理であり、(a)子音の継続長を変化させる(例えば、短くする)こと、(b)子音の欠落を発生させること、(c)子音を音の近似した他の子音に差し替えること、および(d)子音の繰り返しを発生させることの何れかによって、音韻列情報の示す音韻列の一部の音韻を変化させる。以下、図2(a)に示す場合と同様に、「ま」(すなわち、子音「m」+母音「a」)を示す音韻列情報が操作部120から制御部110へ与えられた場合を例にとって、明瞭度調整処理の具体的な処理内容を説明する。
(A−1:子音の継続長の短縮により、音韻列の一部の音韻を変化させる態様)
音韻列情報の示す音韻列の一部の音韻を、子音の継続長の短縮により変化させる態様の具体例としては、図3に示すように、無音から子音への過渡的な遷移(図3に示す例では、[#−m])および子音から母音への過渡的な遷移(図3に示す例では、[m−a])の各々の継続長をベロシティの値vに応じた調整量(ベロシティの値vが大きいほど大きい値)だけ短縮し、母音の継続長を当該短縮した分だけ延長する態様が挙げられる。無音から子音への過渡的な遷移および子音から母音への過渡的な遷移が短縮されると、早口で発音された場合のように、子音の聴き取り易さが低下する。このように、子音の聴き取り易さを低下させる調整を施すのは、従来の歌唱合成技術によれば十分に子音を聴き取り易い歌唱音声が合成されるため、敢えて聴き取り易さが低下するように(すなわち、聴き取り難くなるように)調整することで、早口で発音されたかのような歌唱音声を合成することができるからである。
本実施形態では、子音の継続長の調整量をベロシティvの値に応じた可変値としたが、当該調整量を固定値とし、ベロシティの値vが所定の閾値th1を上回っている場合に、子音の継続長の調整を行うようにしても良い。また、子音の継続長の短縮をベロシティの値vに応じた頻度(すなわち、ベロシティが大きいほど高い頻度)で発生させる制御を制御部110に実行させも良い。具体的には、1〜127範囲で発生させた疑似乱数とベロシティの大小比較を行い、前者が後者以下である場合に子音の継続長を短縮する処理を制御部110に実行させるようにすれば良い。なお、子音の継続長の短縮をベロシティの値vに応じた頻度で発生させる場合には、子音の継続長の短縮量は固定値であっても良く、ベロシティの値vに応じた可変値であっても良い。
(A−2:子音の欠落を発生させることで音韻列の一部の音韻を変化させる態様)
子音の欠落を発生させることで音韻列の一部の音韻を変化させる態様の具体例としては、ベロシティの値vに応じた頻度で子音の欠落を発生させる態様が挙げられる。具体的には、図4に示すように、音韻列情報の示す音韻列から、無音から子音への過渡的な遷移および子音から母音への過渡的な遷移の各々に対応するダイフォンを欠落させ、代わりに無音から母音への遷移に対応するダイフォンを補う処理をベロシティの値vに応じた頻度で制御部110に実行させるのである。無音から母音への過渡的な遷移に対応するダイフォンを補うのは、歌唱音声が滑らかに立ち上がるようにするためである。このような態様によれば、子音は最早発音されなくなる。なお、ベロシティの値vに応じた頻度で子音の欠落を発生させるのではなく、ベロシティの値vが所定の閾値th1を上回っている場合には常に子音の欠落を発生させるようにしても良い。また、子音部分が複数の音韻で構成されている場合(例えば、図5における[#−m]を[#−m]+[m]と置き換えた場合など)には、子音部分を構成する複数の音韻のうちのベロシティの値vに応じた個数の音韻を欠落させる(或いは、当該個数の音韻を当該ベロシティの値vに応じた頻度で欠落させる)ことで子音の欠落を発生させても良い。
(A−3:子音の差し替えにより音韻列の一部の音韻を変化させる態様)
子音の差し替えにより音韻列の一部の音韻を変化させる態様の具体例としては、子音の差し替えをベロシティの値vに応じた頻度で発生させる態様が挙げられる。具体的には、図5に示すように、音韻列情報の示す音韻列における子音を、音の近似した他の子音に差し替える処理をベロシティの値vに応じた頻度で制御部110に実行させるのである。図5には、子音「m」を子音「n」に差し替える場合について例示されている。このような子音の差し替えを可能にするには、子音毎に差し替え候補となる子音を示す差し替え制御情報を不揮発性記憶部162に予め記憶させておき、この差し替え制御情報にしたがって制御部110に子音の差し替えを行わせるようにすれば良い。なお、ベロシティの値vに応じた頻度で子音の差し替えを発生させるのではなく、ベロシティの値vが所定の閾値th1を上回っている場合には常に子音の差し替えを発生させても良い。また、子音部分が複数の音韻で構成されている場合には、子音部分を構成する複数の音韻のうちのベロシティの値vに応じた個数の音韻を音の近似した他の音韻に差し替える(或いは、当該個数の音韻を当該ベロシティの値vに応じた頻度で差し替える)ようにしても良い。
(A−4:子音の挿入により音韻列の一部の音韻を変化させる態様)
子音の挿入により音韻列の一部の音韻を変化させる態様の具体例としては、図6に示すように、音韻列情報の示す音韻列に含まれる子音に関連するダイフォン(図6に示す例では、子音から無音への過渡的な変化に対応するダイフォンD1と無音から子音への過渡的な変化に対応するダイフォンD2)を当該子音と母音の間に挿入する処理をベロシティvの値に応じた頻度で制御部110に実行させる態様が挙げられる。このような子音の挿入を行うことによって、あたかも噛みながら発音しているかのような歌唱音声を合成し、子音の聴き取り易さを低下させることができる。なお、挿入するダイフォンの数については予め定めた固定値としても良く、ベロシティの値vに応じた可変値(ベロシティの値vが大きいほど、大きくなる値)としても良い。また、ベロシティの値vに応じた頻度で子音の挿入を発生させるのではなく、ベロシティの値vが所定の閾値th1を上回っている場合には予め定めた数(或いはベロシティの値vに応じて定まる数)の子音を挿入する処理を常に制御部110に実行させるようにしても良く、また、ベロシティの値vに応じて定まる数の子音を挿入する処理を制御部110に実行させても良い。
以上説明したように本実施形態の歌唱合成装置1によれば、発音開始を指示する操作にて指定されたベロシティの値vに応じた頻度(或いは調整量)で音韻列情報の示す音韻列の一部の音韻を変化させた後に、歌唱音声の合成が行われる。このため、本実施形態によれば、発音開始を指示する際の押鍵速度によって歌唱音声における子音の聴き取り易さを制御し、早口で発音しているかのような歌唱音声や、噛みながら発音しているかのような歌唱音声など様々な態様の歌唱音声を合成することが可能になり、歌唱合成の表現力が向上する。なお、音韻列情報の示す音韻列の一部の音韻を変化させることを、(a)子音の継続長の短縮、(b)子音の欠落を発生させること、(c)子音の差し替え、および(d)子音の挿入の何れにより実現するのかについては予め定めておいても良く、また、ユーザに選択させるようにしても良い。
また、上記(a)〜(d)の態様の何れか1つにより、音韻列の一部の音韻を変化させるのではなく、これらのうちの複数の組み合わせ(例えば、子音の継続長の短縮と子音の差し替えの組み合わせ、或いは子音の差し替えと子音の挿入の組み合わせ)により音韻列の一部の音韻を変化させても良い。また、子音のみを対象とするのではなく母音についても、継続長の調整、欠落、他の母音への差し替え、或いは挿入の各処理を施しても良い。このような態様によれば、「さいた」という歌詞の歌唱音声を合成する場合に、「さ、さ、さ、いた」(子音+母音部分を繰り返し)という歌唱音声を合成したり、「あ、あ、あいた」(子音の欠落+母音の繰り返し)という歌唱音声を合成するなど、多様な歌唱音声を合成することが可能になり、表現力をさらに豊にすることが可能になる。また、英語などの日本語以外の言語で記述された歌詞では、末尾が子音の場合(例えば、fanなど)があるため、末尾の子音についても上記(a)〜(d)の何れかの態様(或いはこれらのうちの複数の組み合わせ)によって聴き取り易さを調整しても良い。要は、音韻の継続長の調整、欠落、差し替え、或いは挿入により、音韻列情報の示す音韻の一部を変化させる態様であれば良い。
(B:第2実施形態)
上記第1実施形態の明瞭度調整処理では、音韻列情報に示す音韻列の一部の音韻(子音)を変化させて歌唱音声を合成することで子音の聴き取り易さを低下させた。これに対して本実施形態の明瞭度調整処理では、図2(c)に示す理想的な韻律変化からのズレが生じるように歌唱音声を合成することで子音の聴き取り易さを低下させる点に特徴がある。ここで、理想的な韻律変化からのズレを生じさせる方法の具体例としては、理想的な韻律変化におけるものから、アタックの深さや継続長を変更する態様、アタックの欠落を発生させる態様、オーバーシュートの高さおよびアンダーシュートの深さや継続長を変更する態様、オーバーシュートおよびアンダーシュートの欠落を発生させる態様が挙げられる。なお、本実施形態の歌唱合成装置の構成は第1実施形態におけるものと特段に変わるところはないため詳細な説明を省略し、以下では韻律変化の具体的な調整態様について説明する。
(B−1:アタックの調整により理想的な韻律変化からのズレを生じさせる態様)
図7には、アタックの深さの調整により理想的な韻律変化からのズレを生じさせる態様が例示されている。図7では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。なお、図7では、両ピッチカーブのオーバーシュート以降は重なっている(図8〜図12においても両ピッチカーブの一部は重なっている)。本態様では、制御部110は、ピッチカーブデータ(より正確には、アタックの勾配αを表すデータ)に対して、発音開始を指示する音符情報に含まれているベロシティの値vに応じた調整量だけアタックの深さを変化させる(例えば、浅くする)調整を施し、当該調整後のピッチカーブデータと当該音符情報の示す音高とに基づいてピッチカーブを生成する。アタックの深さを理想的なピッチカーブにおける深さよりも浅くすることによって子音の聴き取り易さは低下するからである。本実施形態では、アタックの深さを理想的なピッチカーブにおける深さよりも浅くすることで子音の聴き取り易さを低下させるが、アタックの深さを理想的なピッチカーブにおける深さよりも深くすることでも子音の聴き取り易さは低下する。したがって、発音開始を指示する音符情報に含まれているベロシティの値vに応じてアタックの深さを深くする態様であっても良い。アタックの深さを変化させる態様として、理想的なピッチカーブにおける深さよりも浅くする態様と、理想的なピッチカーブにおける深さよりも深くする態様の何れを採用するのかについては予め定めておいても良いし、ユーザに選択させるようにしても良い。
本実施形態では、発音開始を指示する音符情報に含まれているベロシティは、理想的な韻律変化からズレを生じさせて歌唱音声を合成すること、およびそのズレの大きさを指示する韻律制御情報の役割を担っている。なお、発音開始を指示する音符情報に含まれているベロシティの値vに応じた頻度でアタックの深さを所定量(或いは当該ベロシティの値vに応じた量)だけ理想的なピッチカーブにおける深さから変化させる処理を制御部110に実行させても良い。また、発音開始を指示する音符情報に含まれているベロシティの値vが所定の閾値th2(第1実施形態における閾値th1と同じ値であっても良く、異なる値であっても良い)を上回っている場合に、アタックの深さを所定量(或いは当該ベロシティの値vに応じた量)だけ理想的なピッチカーブにおける深さから変化させる処理を制御部110に実行させても良い。
図8には、アタックの継続長の調整により理想的な韻律変化からのズレを生じさせる態様が例示されている。図8では、前掲図7と同様に、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。本態様では、制御部110は、発音開始を指示する音符情報に含まれているベロシティの値vに応じた調整量だけアタックの継続長を理想的なピッチカーブにおける継続長から変化させ(具体的には、短縮し)、その変化分だけ母音におけるサスティンを変化させて(具体的には、延長して)ピッチカーブを生成する。このように、アタックの継続長を理想的なピッチカーブにおける継続長から変化させることによっても、子音の聴き取り易さは低下する。ここで、図8にて実線で示すピッチカーブの具体的な生成方法としては、ピッチカーブデータ(より正確には、図2(c)の区間T2の長さを示すデータ、アタックの勾配αを示すデータおよび区間T4の長さを示すデータ)に対して区間T2がベロシティの値vに応じた長さだけ短くなり、かつその分だけ区間T4が長くるように調整を施し、当該調整後のピッチカーブデータと発音開始を指示する音符情報の示す音高とに基づいてピッチカーブを生成する方法が考えられる。なお、本態様においても、発音開始を指示する音符情報に含まれているベロシティの値vに応じた頻度でアタックの継続長を所定量(或いは当該ベロシティの値vに応じた量)だけ理想的なピッチカーブにおける継続長から変化させる処理を制御部110に実行させても良い。また、発音開始を指示する音符情報に含まれているベロシティの値vが所定の閾値th2を上回っている場合に、アタックの継続長を所定量(或いは当該ベロシティの値vに応じた量)だけ理想的なピッチカーブにおける継続長から変化させる処理を制御部110に実行させても良い。
図9には、アタックを欠落させる(アタックの継続長をゼロにしてピッチカーブを生成する)ことで理想的な韻律変化からのズレを生じさせる態様が例示されている。図9では、前掲図7と同様に、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。このように、アタックを欠落させる調整を施すことによっても子音の聴き取り易さが低下する。アタックの欠落については、発音開始を指示する音符情報に含まれているベロシティの値vに応じた頻度で発生させる態様や、当該ベロシティの値vが所定の閾値th2を上回っている場合にアタックの欠落を発生させる態様が考えられる。
(B−2:アンダーシュートおよびオーバーシュートの調整により理想的な韻律変化からのズレを生じさせる態様)
図10には、アンダーシュートの深さDおよびオーバーシュートの高さHの調整により、理想的な韻律変化からのズレを生じさせる態様が例示されている。図10では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。本態様では、制御部110は、発音開始を指示する音符情報に含まれているベロシティの値vに応じた調整量だけアンダーシュートの深さDを理想的な韻律変化における深さから変化させ(例えば、浅くし)、かつオーバーシュートの高さHを当該ベロシティの値vに応じた調整量だけ理想的な韻律変化における高さから変化させて(例えば、低くして)ピッチカーブを生成する。このような態様によっても、子音の聴き取り易さが低下する。なお、アタックの深さの調整と同様に、発音開始を指示する音符情報に含まれているベロシティの値vに応じた調整量だけアンダーシュートの深さDを深くし、かつオーバーシュートの高さHを当該ベロシティの値vに応じた調整量だけ高くする態様であっても良い。また、発音開始を指示する音符情報に含まれているベロシティの値vに応じた頻度でアンダーシュートの深さDおよびオーバーシュートの高さHを所定量(或いは当該ベロシティの値vに応じた量)だけ変化させる処理を制御部110に実行させても良い。また、当該ベロシティの値vが所定の閾値th2を上回っている場合に、アンダーシュートの深さDおよびオーバーシュートの高さHを所定量(或いは当該ベロシティの値vに応じた量)だけ変化させる処理を制御部110に実行させても良い。
図11には、アンダーシュートおよびオーバーシュートの継続長の調整により、理想的な韻律変化からのズレを生じさせる態様が例示されている。図11では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。本態様では、制御部110は、発音開始を指示する音符情報に含まれているベロシティの値vに応じた調整量だけアンダーシュートおよびオーバーシュートの各々の継続長を理想的な韻律変化における継続長から変化させ(具体的には、短縮し)、その変化分だけ母音のサスティンの継続長を変化させて(具体的には、延長して)ピッチカーブを生成する。このような態様によっても子音の聴き取り易さは低下する。なお、発音開始を指示する音符情報に含まれているベロシティの値vに応じた頻度でアンダーシュートおよびオーバーシュートの継続長を所定量(或いは当該ベロシティの値vに応じた量)だけ理想的なピッチカーブにおけるものから変化させる処理を制御部110に実行させても良い。また、当該ベロシティの値vが所定の閾値th2を上回っている場合に、アンダーシュートおよびオーバーシュートの継続長を所定量(或いは当該ベロシティの値vに応じた量)だけ変化させる処理を制御部110に実行させても良い。
図12には、アンダーシュートおよびオーバーシュートを欠落させる(アンダーシュートの継続長およびオーバーシュートの継続長を共にゼロにしてピッチカーブを生成する)ことにより、理想的な韻律変化からのズレを生じさせる態様が例示されている。図12では、理想的な韻律変化におけるピッチカーブが破線で描画されており、本態様にて用いるピッチカーブが実線で描画されている。このような態様によっても子音の聴き取り易さは低下する。アンダーシュートおよびオーバーシュートの欠落については、発音開始を指示する音符情報に含まれているベロシティの値vに応じた頻度で発生させても良く、また、当該ベロシティの値vが所定の閾値th2を上回っている場合に発生させても良い。
以上説明したように、理想的な韻律変化からズレを生じさせて音声合成することを指示する韻律制御情報にしたがって韻律変化を調整しつつ歌唱音声を合成することによっても、歌唱音声における子音の聴き取り易さを制御することができる。本実施形態では、発音開始を指示する音符情報に含まれているベロシティの値が上記韻律制御情報として用いられるため、ユーザは歌唱音声の音高を指定する際の押鍵速度によって、合成歌唱音声における子音の聴き取り易さを制御することができ、表現力の豊な歌唱音声をリアルタイム方式で合成することが可能になる。なお、アタックの調整態様として、深さの調整、継続長の調整、および欠落の発生の何れを採用するのかについては予め定めておいても良く、ユーザに選択させるようにしても良い。アンダーシュートおよびオーバーシュートの調整についても同様に、深さおよび高さの調整、継続長の調整、欠落の発生の何れを採用するのかについては予め定めておいても良く、ユーザに選択させても良い。また、オーバーシュートとアンダーシュートの両者を同時に調整するのではなく、何れか一方のみを調整する態様であっても良い。
(C:変形)
以上本発明の各実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
(1)上記第1実施形態では音韻列情報の示す音韻列の一部の音韻を変化させることで子音の聴き取り易さを調整する態様について説明し、上記第2実施形態では理想的な韻律変化からのズレを発生させることで子音の聴き取り易さを調整する態様について説明した。しかし、複数種類の合成情報として、音韻列情報、韻律情報、音韻制御情報および韻律制御情報を歌唱合成装置へ入力し、音韻列の一部の音韻を音韻制御情報に応じて変化させる処理と、理想的な韻律変化からのズレを韻律制御情報に応じて発生させる処理とを併用して子音の聴き取り易さを調整するようにしても勿論良い。両者を併用することで、何れか一方のみを行う場合に比較して、より多様な歌唱音声を合成することが可能になると期待されるからである。なお、音韻制御情報と韻律制御情報は互いに別個の情報であっても良いし、1つの情報に音韻制御情報と韻律制御情報の役割を兼ねさせても良い。例えば、後者の態様の一例としては、発音開始を指示する音符情報(ノートオンイベント)に含まれているベロシティに音韻制御情報の役割と韻律制御情報の役割の両方を担わせる態様が考えられる。
(2)上記第1実施形態では、発音開始を指示する音符情報に含まれているベロシティに音韻制御情報の役割を担わせ、上記第2実施形態では同ベロシティに韻律制御情報の役割を担わせた。しかし、当該ベロシティと音符情報の示す音高の組み合わせに音韻制御情報または韻律制御情報(或いは両者)の役割を担わせても勿論良い。また、歌唱合成用キーボードに音韻制御情報または韻律制御情報をユーザに入力させるための専用の操作子を設け、当該操作子に対する操作によって、発音開始を指示する音符情報とは別個に音韻制御情報または韻律制御情報を入力させるようにしても良い。
(3)上記各実施形態では、歌唱合成に用いる複数種類の合成情報(音韻列情報、韻律情報(上記各実施形態では、音符の音高、発音開始タイミングおよび発音終了タイミングを示す音符情報)、および音韻制御情報(或いは韻律制御情報))を歌唱合成装置1に取得させる取得手段の役割を果たす操作部120と、合成歌唱音声を出力するための音声出力部140が歌唱合成装置1に内蔵されていた。しかし、操作部120および音声出力部140の何れか一方或いは両方を歌唱合成装置1の外部機器I/F部150に接続する態様であっても良い。操作部120を外部機器I/F部150を介して歌唱合成装置1に接続する態様では、外部機器I/F部150が上記取得手段の役割を果たす。
操作部120および音声出力部140の両者を外部機器I/F部150に接続する態様の一例としては、外部機器I/F部150としてイーサネット(登録商標)インタフェースを用い、この外部機器I/F部150にLAN(Local Area Network)やインターネットなどの電気通信回線を接続するとともに、この電気通信回線に操作部120および音声出力部140を接続する態様が挙げられる。このような態様によれば、所謂クラウドコンピューティング形式の歌唱合成サービスを提供することが可能になる。具体的には、操作部120に設けられた各種操作子の操作により入力された複数種類の合成情報を電気通信回線を介して歌唱合成装置に与え、歌唱合成装置には、電気通信回線を介して取得した複数種類の合成情報に基づいて歌唱合成処理を実行させる。このようにして、歌唱合成装置により合成された合成歌唱音声の音声データは電気通信回線を介して音声出力部140に与えられ、当該音声データに応じた音が音声出力部140から出力される。
(4)上記各実施形態では、複数種類の合成情報を歌唱合成装置1に入力するための操作部120として歌唱合成用キーボードを用いた。しかし、テンキーやカーソルキー、アルファベットの各文字に対応したキーなどを配列した一般的なキーボードと、所謂MIDIキーボードの組み合わせを操作部120として用いても良い。一般的なキーボードとMIDIキーボードの組み合わせを操作部120として用いる場合には、MIDIキーボードに音符情報入力部の役割を担わせ、一般的なキーボードに音韻情報入力部の役割を担わせれば良い。また、マウスなどのポインティングデバイスとGUIとの組み合わせにより音符情報入力部或いは音韻情報入力部を実現しても良い。ポインティングデバイスとGUIの組み合わせにより音符情報入力部を実現する場合には、音韻情報入力部の役割を担う一般的なキーボードと当該音符情報入力部との組み合わせにより操作部120を構成すれば良い。また、ポインティングデバイスとGUIの組み合わせにより音韻情報入力部を実現する場合には、音符情報入力部の役割を担うMIDIキーボードと当該音韻情報入力部との組み合わせにより操作部120を構成すれば良い。
(5)上記各実施形態では、歌唱合成処理と明瞭度調整処理とを制御部110に実行させる歌唱合成プログラム162bが歌唱合成装置1の不揮発性記憶部162に予め格納されていた。しかし、この歌唱合成プログラム162bをCD−ROM(Compact Disk- Read Only Memory)などのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムをパーソナルコンピュータなどの一般的なコンピュータに実行させることによって、そのコンピュータを上記実施形態の歌唱合成装置1として機能させることが可能になるからである。また、リアルタイム方式の歌唱合成処理を一部に含むゲームのゲームプログラムに本発明を適用しても勿論良い。具体的には、当該ゲームプログラムに含まれている歌唱合成プログラムを歌唱合成プログラム162bに差し替えても良い。このような態様によれば、ゲームの進行にしたがって合成される歌唱音声の表現力を向上させることが可能になる。
(6)上記各実施形態では、リアルタイム方式の歌唱合成装置への本発明の適用例を説明した。しかし、本発明の適用対象はリアルタイム方式の歌唱合成装置に限定されるものではない。例えば、音声ガイダンスにおける案内音声をリアルタイム方式で合成する音声合成装置、或いは小説や詩などの文芸作品の朗読音声をリアルタイム方式で合成する音声合成装置に本発明を適用しても良い。また、本発明の適用対象は歌唱合成機能や音声合成機能を有する玩具(歌唱合成装置や音声合成装置を内蔵した玩具)であっても良い。
(7)上記第1実施形態では、歌唱音声の合成に用いる複数種類の合成情報として、音韻列情報、韻律情報および音韻制御情報を用い、第2実施形態では、歌唱音声の合成に用いる複数種類の合成情報として、音韻列情報、韻律情報、および韻律制御情報を用いた。しかし、歌唱音声の合成に用いる複数種類の合成情報は、音韻列情報、韻律情報および音韻制御情報(或いは韻律制御情報)のみに限定される訳ではない。例えば、歌唱合成用ライブラリ162aに複数種類の声質の素片データが声質毎に分類されて格納されている場合には、音韻列情報、韻律情報および音韻制御情報(或いは韻律制御情報)の他に、声質を指定する声質指定情報を合成情報に含め、当該声質指定情報により指定された声質の素片データを用いて歌唱音声の合成を行うようにしても良い。
また、上記各実施形態では、音韻列情報、韻律情報、および音韻制御情報(或いは韻律制御情報)を操作部120の操作子に対する操作により歌唱合成装置1に入力したが、これらのうちの少なくとも1つを操作部120の操作子に対する操作により入力し、他のものは予め歌唱合成装置1に記憶させておいても良い。具体的には、歌唱音声の合成対象の歌唱曲全体の歌詞の音韻列を示す音韻列情報を予め不揮発性記憶部162に記憶させておき、韻律情報の役割を果たす音符情報と音韻制御情報を操作部120の操作子に対する操作によって音符毎に入力させるようにしても良い。この場合、操作部120と、不揮発性記憶部162に記憶されている音韻列情報を読み出す手段(例えば、制御部110)が、複数種類の合成情報を取得する取得手段の役割を果たす。また、韻律情報と音韻制御情報(音韻制御情報に換えて韻律制御情報、または音韻制御情報と韻律制御情報の両者)を歌唱合成装置1に予め記憶させておき、音韻列情報のみを操作部120の操作子に対する操作により歌唱合成装置1に入力させても良い。
(8)上記各実施形態では、子音の聴き取り易さを低下させる調整を行う場合について説明したが、ベロシティの大きさ等に応じて子音の聴き取り易さを向上させる調整を行うようにしても良い。例えば、図2(c)に示す理想的なピッチカーブとはアタックの深さ等が異なるピッチカーブを表すピッチカーブデータが不揮発性記憶部162に記憶されている場合には、理想的なピッチカーブに近づくにようにアタックの深さ等を韻律制御情報にしたがって調整する処理を当該ピッチカーブデータに施した後に音声合成を行うようにすれば良い。
1…歌唱合成装置、110…制御部、120…操作部、130…表示部、140…音声出力部、142…D/A変換器、144…増幅器、146…スピーカ、150…外部機器I/F、160…記憶部、162…不揮発性記憶部、162a…歌唱合成ライブラリ、162b…歌唱合成プログラム、164…揮発性記憶部、170…バス。

Claims (5)

  1. 合成対象の音声の音韻列を示す音韻列情報と前記音声の韻律変化を示す韻律情報と前記音韻列情報の示す音韻列の一部の音韻を変化させることを示す音韻制御情報とを含む複数種類の合成情報を取得する手段であって、前記音韻列情報と前記韻律情報と前記音韻制御情報のうちの少なくとも1つについては操作子の操作により取得する取得手段と、
    前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の一部の音韻を当該複数種類の合成情報に含まれる音韻制御情報にしたがって変化させて音声合成を行う音声合成手段と
    を有することを特徴とする音声合成装置。
  2. 前記音声合成手段は、音韻列情報が示す音韻列の一部の音韻の継続長を変化させる処理、当該音韻列の一部の音韻を欠落させる処理、当該音韻列の一部の音韻を差し替える処理、および当該音韻列に音韻を挿入する処理のうちの予め定められた1または複数を、前記取得手段により取得された複数種類の合成情報に含まれる音韻列情報の示す音韻列の一部の音韻を変化させる処理として実行することを特徴とする請求項1に記載の音声合成装置。
  3. 前記音声合成手段は、音韻列情報が示す音韻列の一部の音韻の変化を前記取得手段により取得された複数種類の合成情報に含まれる音韻制御情報に応じた頻度で発生させることを特徴とする請求項2に記載の音声合成装置。
  4. 前記音声合成手段は、音韻列情報が示す音韻列の一部の音韻の継続長を変化させる処理においては前記取得手段により取得された複数種類の合成情報に含まれる音韻制御情報に応じて当該継続長を制御し、音韻列情報が示す音韻列に音韻を挿入する処理においては挿入する音韻の数を当該音韻制御情報に応じて制御し、音韻列情報が示す音韻列の一部の音韻を欠落させる処理においては欠落させる音韻の数を当該音韻制御情報に応じて制御し、音韻列情報が示す音韻列の一部の音韻を差し替える処理においては差し替える音韻の数を当該音韻制御情報に応じて制御することを特徴とする請求項2または請求項3に記載の音声合成装置。
  5. 前記取得手段により取得される複数種類の合成情報には、理想的な韻律変化からズレを生じさせて音声合成することを指示する韻律制御情報が含まれており、前記音声合成手段は、当該ズレが生じるように当該韻律制御情報にしたがって韻律変化を調整しつつ音声合成を行うことを特徴とする請求項1〜4の何れか1項に記載の音声合成装置。
JP2012250441A 2012-11-14 2012-11-14 音声合成装置 Expired - Fee Related JP6167503B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012250441A JP6167503B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012250441A JP6167503B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Publications (2)

Publication Number Publication Date
JP2014098802A true JP2014098802A (ja) 2014-05-29
JP6167503B2 JP6167503B2 (ja) 2017-07-26

Family

ID=50940854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012250441A Expired - Fee Related JP6167503B2 (ja) 2012-11-14 2012-11-14 音声合成装置

Country Status (1)

Country Link
JP (1) JP6167503B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016090916A (ja) * 2014-11-10 2016-05-23 ヤマハ株式会社 音声合成装置
EP3065130A1 (en) * 2015-03-05 2016-09-07 Yamaha Corporation Voice synthesis
JP2019015761A (ja) * 2017-07-03 2019-01-31 株式会社第一興商 カラオケ装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58208793A (ja) * 1982-05-29 1983-12-05 ヤマハ株式会社 電子楽器
JPH08123459A (ja) * 1994-10-26 1996-05-17 Sony Corp 自然言語処理方法および音声合成装置
JPH11184490A (ja) * 1997-12-25 1999-07-09 Nippon Telegr & Teleph Corp <Ntt> 規則音声合成による歌声合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58208793A (ja) * 1982-05-29 1983-12-05 ヤマハ株式会社 電子楽器
JPH08123459A (ja) * 1994-10-26 1996-05-17 Sony Corp 自然言語処理方法および音声合成装置
JPH11184490A (ja) * 1997-12-25 1999-07-09 Nippon Telegr & Teleph Corp <Ntt> 規則音声合成による歌声合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
平沢 英司: "IA−ARIA ON THE PLANETES−総力特集", DTM MAGAZINE, vol. 第19巻 第4号, JPN6016039677, 8 March 2012 (2012-03-08), JP, pages 007 - 009, ISSN: 0003420563 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016090916A (ja) * 2014-11-10 2016-05-23 ヤマハ株式会社 音声合成装置
EP3065130A1 (en) * 2015-03-05 2016-09-07 Yamaha Corporation Voice synthesis
US10176797B2 (en) 2015-03-05 2019-01-08 Yamaha Corporation Voice synthesis method, voice synthesis device, medium for storing voice synthesis program
JP2019015761A (ja) * 2017-07-03 2019-01-31 株式会社第一興商 カラオケ装置

Also Published As

Publication number Publication date
JP6167503B2 (ja) 2017-07-26

Similar Documents

Publication Publication Date Title
JP5821824B2 (ja) 音声合成装置
US10354629B2 (en) Sound control device, sound control method, and sound control program
US20210193114A1 (en) Electronic musical instruments, method and storage media
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
US20210295819A1 (en) Electronic musical instrument and control method for electronic musical instrument
US20230034572A1 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
US11854521B2 (en) Electronic musical instruments, method and storage media
JP2013045082A (ja) 楽曲生成装置
JP6167503B2 (ja) 音声合成装置
JP4929604B2 (ja) 歌データ入力プログラム
JP6044284B2 (ja) 音声合成装置
US20220044662A1 (en) Audio Information Playback Method, Audio Information Playback Device, Audio Information Generation Method and Audio Information Generation Device
JP4277697B2 (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP7186476B1 (ja) 音声合成装置
WO2016152708A1 (ja) 音制御装置、音制御方法、および音制御プログラム
JPWO2019003350A1 (ja) 歌唱音生成装置及び方法、プログラム
WO2023171522A1 (ja) 音響生成方法、音響生成システムおよびプログラム
JP2018151548A (ja) 発音装置及びループ区間設定方法
KR100994340B1 (ko) 문자음성합성을 이용한 음악 컨텐츠 제작장치
JP2022065566A (ja) 音声合成方法およびプログラム
CN117043846A (zh) 歌唱音输出系统及方法
JP2015079065A (ja) 合成情報管理装置および音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170612

R151 Written notification of patent or utility model registration

Ref document number: 6167503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees