JP4277697B2

JP4277697B2 - 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末

Info

Publication number: JP4277697B2
Application number: JP2004015777A
Authority: JP
Inventors: 清志山木
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-01-23
Filing date: 2004-01-23
Publication date: 2009-06-10
Anticipated expiration: 2024-01-23
Also published as: JP2005208394A; HK1077390A1; CN1661674A; CN100342426C

Description

本発明は、音声合成による歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末に関する。

例えば、携帯電話機の場合、現在では自作のメロディを登録し、このメロディを着信音として再生できる機能をもつものが製品化されている。
一方、特許文献１に開示された技術では、従来の規則音声合成方式による音声合成では、テキストからなる単語や文章を単に朗読できるのみで、これにメロディを付け歌声とすることができなかったことから、歌詞と音符情報から歌声を合成することができる歌声合成方法が提案されている。具体的には、楽譜やＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）ファイル等を読み込み、これに含まれる音符の情報からその基本周波数と時間長を抽出し、さらに、各音符に歌詞をひらがなで付け、これを音韻系列に分解し、抽出された基本周波数・時間長を韻律情報として、また、音韻系列をテキスト入力として、規則音声合成方式による音声合成を行うことが記述されている。
特開平１１−１８４４９０号公報

ところで、上記のような携帯電話機にて利用可能な自作メロディは、あくまでもメロディのみの登録とその再生をできるようにしたものであり、歌声を再生するための機能を有するものではない。
一方、特許文献１には、歌声の再生をさせることができるものとして記述はされているが、例えば、各音符に歌詞をひらがなで付ける仕組み等、具体的な手法が記載されていない。また、音声合成の単位として音声波形を用いる場合には、データ量が大きくなり、記憶容量が少ない携帯電話機等の小型の機器にはむかない。

本発明は、上記の点に鑑みてなされたもので、携帯通信端末等の小型の機器においても、歌声生成のためのデータ入力が容易にでき、かつ該データに従い音声合成により歌声を生成することができる歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末を提供するものである。

上記課題を解決するため、請求項１に記載の発明の歌声生成装置は、歌声にするためのメロディを表す楽譜データであって、所望の音符とその音符の音高が順次記述された楽譜データを入力する入力手段と、音声を発音する発音手段と、一つの発声文字と該発声文字を前記発音手段に発音させる際の音高・音長を規定するテキストとにより規定された該発声文字の音声を表す発音データを、種々の音高・音長毎に記憶する記憶手段と、前記楽譜データにおける各音符の音高・音長に相当する前記発音データを順次前記記憶手段から抽出し、抽出した発音データを並べていくことで発音データ列を生成する制御手段とを具備し、前記制御手段は、前記抽出された発音データの発声文字を、前記入力手段により入力されたユーザの所望の文字に変換し、前記発音手段は、前記制御手段によって生成した前記発音データ列に従って音声を発音することを特徴とする。

また、請求項２に記載の発明は、請求項１に記載の歌声生成装置において、歌詞を表すテキスト文字列の入力を受け、前記制御手段は、前記発音データ列を生成する際には、前記楽譜データで示される各音符の音高・音長毎に、ある一つの発声文字に対する発音データを抽出し、その後生成される前記発音データ列を構成する各発音データに含まれる発声文字を、対応する歌詞のテキスト文字に置き換えることを特徴としている。

また、請求項３に記載の発明は、請求項１または請求項２に記載の歌声生成装置において、前記発音データは、少なくとも一つのテンポに対応するものであり、前記制御手段は、前記楽譜データのテンポが、前記記憶手段に記憶される発音データが対応するテンポと異なる場合、これらのテンポの比に従って、前記発音データ列を生成する際に、これに含まれる発音データの韻律記号に対し音長を調整する変更を加え、入力された楽譜データのテンポに合わせることを特徴としている。

また、請求項４に記載の発明は、請求項１から請求項３のいずれかに記載の歌声生成装置において、一つの発声文字に対応する前記発音データは、その発声文字を前記発音手段に発音させる際、最初は楽譜データで指定された音高より低い音高で発音させ、その後指定された音高に戻すように記述されていることを特徴としている。

また、請求項５に記載の発明は、請求項１から請求項４のいずれかに記載の歌声生成装置において、一つの発声文字を前記発音手段に発音させる際に発音途中で音高を上下させるように記述されているビブラート用の発音データをさらに記憶していることを特徴としている。

また、請求項６に記載の発明は、発音データ列に従って音声を発音する発音手段を有するコンピュータシステムに、一つの発声文字と該発声文字を前記発音手段に発音させる際の音高・音長を規定するテキストとにより規定された該発声文字の音声を表す発音データを、種々の音高・音長毎に記憶させるステップと、歌声にするためのメロディを表す楽譜データであって、所望の音符とその音符の音高が順次記述された楽譜データの入力を受けるステップと、前記楽譜データにおける各音符の音高・音長に相当する前記発音データを順次前記記憶手段から抽出するステップと、抽出した発音データを並べていくことで発音データ列を生成するステップとを実行させるためのプログラムであって、前記発音データ列を生成するステップは、前記抽出された発音データの発声文字を、前記楽譜データの入力を受けるステップにより入力されたユーザの所望の文字に変換することを特徴としている。

また、請求項７に記載の発明は、携帯通信端末において、歌声にするためのメロディを表す楽譜データであって、所望の音符とその音符の音高が順次記述された楽譜データを入力する入力手段と、音声を発音する発音手段と、一つの発声文字と該発声文字を前記発音手段に発音させる際の音高・音長を規定するテキストとにより規定された該発声文字の音声を表す発音データを、種々の音高・音長毎にする記憶手段と、前記楽譜データにおける各音符の音高・音長に相当する前記発音データを順次前記記憶手段から抽出し、抽出した発音データを並べていくことで発音データ列を生成する制御手段とを具備し、前記制御手段は、前記抽出された発音データの発声文字を、前記入力手段により入力されたユーザの所望の文字に変換し、前記発音手段は、前記制御手段によって生成した前記発音データ列に従って音声を発音することを特徴としている。

本発明によれば、楽譜データを入力するだけで、この楽譜データに従ったメロディで、少なくともある一つの発声文字の声で歌声が生成される。このように本発明によれば簡単に歌声を生成することができる。
また、本発明によれば、歌詞を表すテキスト文字列の入力を受け、楽譜データ列を構成する各発音データに含まれる発声文字を、対応する歌詞のテキスト文字に置き換え、置換後の発音データ列に従って発音するので、歌詞に基づく歌声を簡単に生成させることができる。

また、本発明によれば、楽譜データのテンポが、前記記憶手段に記憶される発音データが対応するテンポと異なる場合、これらのテンポの比に従って、前記発音データ列を生成する際に、これに含まれる発音データの韻律記号に対し音長を調整する変更を加え、入力された楽譜データのテンポに合わせるので、記憶手段に記憶された発音データが、楽譜データのテンポに対応するものでなくとも、楽譜データのテンポで歌声を再生することができる。

また、本発明によれば、一つの発声文字に対応する発音データは、その発声文字を前記発音手段に発音させる際、最初は楽譜データで指定された音高より低い音高で発音させ、その後指定された音高に戻すように記述されているので、より自然な発音で歌声を生成することができる。
また、本発明によれば、楽譜を書くがごとく、楽譜データの入力者が、望みの音高・音調を指定するデータを順次選択して入力できるようにしたので、発音データを１つづつ記述・設定するのに比べ、かかる労力は各段に少なくて済み、操作が簡単なものとなる。

以下、本発明の実施の形態を、図面を参照して説明する。
図１及び図７にそれぞれ、本発明の一実施の形態である歌声生成装置を構成する歌声再生装置及び歌声データ作成装置の機能構成を示している。

本実施の形態において、ＨＶ歌声データ（発音データ列）とは、音声を再生させるために用いる所定の記号を含んだテキストで記述されるＨＶ−Ｓｃｒｉｐｔ（ＨＶ：ＨｕｍａｎＶｏｉｃｅ）データであって、特に歌声再生用に記述された歌声用ＨＶ−Ｓｃｒｉｐｔデータ（発音データ）の並びからなるデータを言う。
ここでＨＶ−Ｓｃｒｉｐｔは、韻律記号（アクセント、音高（音階、音程）、発音長（音長、発音時間）などの発音態様を指定するための記号）を含む音声合成の対象となるテキスト文字列からなるものであるが、本実施の形態では、特に歌声の生成をするため、１つのＨＶ−Ｓｃｒｉｐｔは、１つの発声文字とその音程・音長等を規定する韻律記号からなるものとする（詳細は後述する）。

図１において、１ａはＨＶ歌声再生プレイヤーであり、ＨＶ歌声データの再生やその停止などを制御する。ＨＶ歌声データの再生指示を受けた場合、ＨＶ歌声プレイヤー１は、当該ＨＶ歌声データに含まれる各歌声用ＨＶ−Ｓｃｒｉｐｔの解釈を開始する。そして、これに記述されている内容に応じて、ＨＶドライバ２に対して以下の処理を行わせる。

ＨＶドライバ２ａは、合成辞書用メモリ３ａから合成辞書を参照し下記の処理を行う。人の声は声帯や口腔などの形状に依存するフォルマント（固有の周波数スペクトル）を有しており、合成辞書はこのフォルマントに係るパラメータを保持している。合成辞書は、実際の音が発音文字単位で（例えば「あ」・「い」など）サンプリングおよび分析された結果によって得られたパラメータを、フォルマントフレームデータとして発音文字単位で予め保持しているデータベースである。このデータベースは、さらに、後述の韻律記号に応じて上記フォルマントに係るパラメータを変えるためのデータを保持している。

ＨＶドライバ２ａは、ＨＶ−Ｓｃｒｉｐｔ中の韻律記号を含んだ発声文字列を解釈し、上記合成辞書を用いて標準の発音のフォルマントフレームデータに、韻律記号で指定されたアクセント、音階、音長等をもたせる変更を加えたフォルマントフレーム列へと変換し、ＨＶ音源４ａへ出力する。ＨＶ音源４ａは（詳細は後述する）、ＨＶドライバ２ａによって出力されたフォルマントフレーム列に基づいて発音信号を生成しスピーカ５ａへ出力する。スピーカ５ａは入力される信号に従って歌声を発する。

以上のように歌声再生装置は、ＨＶ歌声プレイヤー１ａ、ＨＶドライバ２ａ、合成辞書用メモリ３ａ、ＨＶ音源４ａ、スピーカ５ａから構成される。
なお、ＨＶ歌声プレイヤー１ａ、ＨＶドライバ２ａは、メモリおよびＣＰＵ（中央処理装置）等により構成される制御手段と、ＨＶ歌声プレイヤー１ａ、ＨＶドライバ２ａの機能を実現するためのプログラム（図示せず）をメモリにロードして実行することによりその機能が実現されるものとする。

ここで、ＨＶ音源４ａの詳細について、図２，３を参照し説明する。
ＨＶ音源４ａは、ＣＳＭ（複合正弦波モデル）音声合成方式によるものであるが、この場合、１つの音素が８種のフォルマントから構成されるものとして、前述の合成辞書には、８組のフォルマント周波数、フォルマントレベルおよびピッチ情報などをパラメータとして保持させている。

図１に示すＨＶ音源４ａは、図２に示すように８個のフォルマント生成部４０ａ〜４０ｈと１個のピッチ生成部５０を有しており、発音用シーケンサ（図示せず）から出力されるフォルマントに関するパラメータ及びピッチ情報に基づいて各フォルマント生成部４０ａ〜４０ｈで対応するフォルマント信号を発生し、このフォルマント生成部４０ａ〜４０ｈにおいて生成された各フォルマントをミキシング部６０で合成して音素を生成する。そしてこの音素の生成を連続して行うことにより、合成した音声を生成する。なお、各フォルマント生成部４０ａ〜４０ｈはフォルマント信号を発生させるためにその元となる基本波形を発生させるが、この基本波形の発生には、例えば、周知のＦＭ音源の波形発生器を利用することができる。ピッチ生成部５０は、演算によりピッチ（音程）を生成する機能を有し、発音する音素が有声音の場合にのみ、演算したピッチを生成される音素に付加する。

次に、図３を用いて、上記フォルマント生成部４０ａ〜４０ｈの構成について説明する。
図３に示すように、フォルマント生成部４０ａ〜４０ｈの各々は、波形発生器４１と、ノイズ発生器４２と、加算器４３と、増幅器４４とから構成されている。

波形発生器４１は、音素毎フォルマント毎に指定されるフォルマント周波数、フォルマントの基本波形（正弦波、三角波、…）及び波形の位相に基づき、１音素を構成するフォルマントの１つを順次発生する。ノイズ発生器４２は、波形発生器４１にて発生されたフォルマントが有声音か無声音かに従って、無声音の場合にはノイズを発生し加算器４３に供給する。

加算器４３は、波形発生器４１にて生成されたフォルマントに、ノイズ発生器４２から供給されるノイズを加算する。そして加算器４３の出力は、増幅器４４によりフォルマントレベルに増幅され出力される。
上記各フォルマント生成部４０ａ〜４０ｈの構成は、音素を構成する１つのフォルマントに関するものである。１つの音素は、いくつものフォルマント（ここでは８種）が合成されて形成されている。したがって、１つの音素を生成するためには、音素を構成する各フォルマントを生成して、これを合成する必要がある。そのために図２の構成をとりフォルマントパラメータを用いた音声合成を行っている。

以上のように、ＣＳＭ音声合成では、周波数パラメータ、振幅パラメータ等に基づき合成されるフォルマント音を複数合成することにより音素を決定し音声合成することができる。例えば、「さくら」を音声合成する場合、数ｍｓから数十ｍｓ毎に複数組の上記パラメータを設定することにより、／Ｓ／→／Ａ／→／Ｋ／→／Ｕ／→／Ｒ／→／Ａ／の６音素を合成して発音させる。

各フォルマント生成部４０ａ〜４０ｈに与えるパラメータは、前述のように各音素毎に予め定義され、合成辞書に登録されている。また、各文字を構成する音素に関する情報、例えば、「さ」の場合、この文字の音素／Ｓ／、／Ａ／からなること等の情報も、同様に合成辞書内に登録されている。また、韻律記号によりアクセントが変えられる場合は、当該韻律記号が適用される各音素に対応するフォルマントフレームデータに韻律記号に応じた変更が加えられＨＶ音源４ａに与えられる。

次に、ＨＶ−Ｓｃｒｉｐｔ及び歌声用ＨＶ−Ｓｃｒｉｐｔについて、その詳細を説明する。
ＨＶ−Ｓｃｒｉｐｔに含まれる韻律記号は、発声文字にその発音をする際のアクセント等を指定するものであり、歌声生成以外にも一般的な音声合成にも利用できるものである。ここで、一般的な音声合成に利用されるＨＶ−Ｓｃｒｉｐｔの一例を示す。

（例）「か＿３さがほ＾５し＿４い’４ね＄２ー」
このＨＶ−Ｓｃｒｉｐｔ「か＿３さがほ＾５し＿４い’４ね＄２ー」は、「かさがほしいねー」という言葉にイントネーションを付加して音声合成させるための韻律記号を用いた記述である。この例に記述された記号「’」、「＾」、「＿」、「＄」等が韻律記号であり、文字（かな文字または長音「−」）に付加するイントネーションの種別を示すもので、この記号の後の文字（この記号の直後に数値がある場合は、この数値に続く文字）に対して、所定のアクセントを付加するものである。

図４（ａ）に、各韻律記号（代表例）の意味を示している。同図に示す「’」は、語頭でピッチを上げ（図４（ｂ）（１）参照）、「＾」では発音中ピッチを上げ（図４（ｃ）（３）参照）、「＿」は、語頭でピッチを下げ（図４（ｂ）（２）参照）、「＄」では、発音中ピッチを下げるように（図４（ｃ）（４）参照）音声合成を行うことを意味している。また、上記記号の直後に数値が付加される場合は、その数値は付加するアクセントの変化量を指定するものである。例えば、「か＿３さが」では、「さ」を語頭でピッチを３の量だけ下げることを示し、「が」をその下げたピッチで発音し、「か」は、標準の高さで発音することを示す。

このように、発音させる言葉に含まれる文字にアクセント（イントネーション）を付加する場合に、その文字の直前に、図４に示すような記号（さらには、イントネーションの変化量を示す数値）を付加する記述をする。なお、本実施の形態ではピッチを制御する記号についてのみ説明したが、これら以外に音の強弱、速度、音質等を制御する記号を用いることもできる。

本実施の形態では、発声文字を発音する際その音高・音長等を制御するための情報として上記に例示したような韻律記号を用いてテキスト記述されるＨＶ−Ｓｃｒｉｐｔデータであって、特に歌声生成に用いるための歌声用ＨＶ−Ｓｃｒｉｐｔを後述するＨＶ歌声ＤＢに登録しておき、歌声生成に利用する。なお、このＨＶ歌声ＤＢには、テンポ毎に、各発声文字について、各音高・発音長毎の歌声用ＨＶ−Ｓｃｒｉｐｔが登録されている。

ここで、歌声用ＨＶ−Ｓｃｒｉｐｔについて、その記述例（一例）を示し説明する。
前述のように一般的な音声合成に利用できるＨＶ−Ｓｃｒｉｐｔと、ここで示す歌声用ＨＶ−Ｓｃｒｉｐｔの違いの１つとして、歌声用ＨＶ−Ｓｃｒｉｐｔでは、１つの歌声用ＨＶ−Ｓｃｒｉｐｔに含まれる発声文字が１文字のみである点が挙げられる。

例えば、テンポ１２０で、発声文字が「ら」、４分音符の音長で音階がＣ２（基準のオクターブにおける“ド”；なお、Ｃ１は基準より１オクターブ下の“ド”であり、Ｃ３は基準より１オクターブ上の“ド”である）を表す歌声用ＨＶ−Ｓｃｒｉｐｔは、韻律記号に含まれる制御記号「Ｌ１Ｗ２Ｓ５４」に続いて、「Ｃ２＄４ら＾４＞２−−＞−−−＞＆」と記述される。
ここで、制御記号“Ｓ＊＊”（＊＊は、所定の数値が設定される）は、一つの発声文字または長音の発音長を規定するものであり、例えばＳ５４は、８０ｍｓの長さを示すものである。従って、発声文字が「ら」と、長音「−」を合計６個用いて、全体で８０ｍｓ×６＝４８０ｍｓとなり、それを、テンポ１２０の４分音符の長さとしている（テンポ１２０の４分音符は、正確には５００ｍｓであるが、ここでは４８０ｍｓとする）。

なお、制御記号“Ｌ＊”（ただし、＊は０または１）は、合成辞書をもとに発声文字を音声合成する場合、発声文字毎に発音長が異なることから、歌などのリズムに合わせる際不都合な場合があるので、合成辞書通りの発音長を用いる場合、これをＬ０を用いて指定し、再定義する場合、これをＬ１を用いて指定する。「Ｌ１Ｗ２Ｓ５４」では、合成辞書通りではなく「Ｓ５４」の発音長とすることを意味している。

また、制御記号“Ｗ＊”（ただし、＊は１〜５）は、ピッチを変化させる韻律記号（’、＾、＿、＄等）において各記号１つ分で変化するピッチ量を変える場合に指定する制御記号である。Ｗ３がデフォルトで、Ｗ１では最も変化量が少なく、Ｗ５で最も変化量が大きくなる。また、末尾の＆は、韻律記号による変化量を元に戻すためのものであり、この記号が表れるまでは、変化量を累積していく。

上記例で「Ｃ２」は、Ｃ２の音程で発音することを指定するものであるが、上記例に示すように、発声文字「ら」の発音を、指定された音階がＣ２（基準のオクターブにおける“ド”）のところ、最初、「＄４」の“４”で示される分だけピッチを下げ「ら」を発音し、その後「＾４」の“４”の分だけピッチを上げ（すなわちＣ２の音階に戻し）ている。そして、引き続き「＞２」で予め設定されている音量より“２”の分だけ音量を下げ（例えば、２ｄＢ下げ）、さらに“−”で規定される長さ（時間）の２倍の長さだけ発音を伸ばしてさらに「＞」で規定される所定量の音量を下げ（例えば、１ｄＢ下げる）、引き続き“−”で規定される長さの３倍の長さだけ発音を伸ばしてさらに「＞」で規定される所定量の音量を下げ発音することを意味している。ここで、このようにピッチや音量を変化させた「ら」は、テンポ１２０の４分音符の音階Ｃ２の「ら」に最も適していると制作者が思って採用したものである。従って、同じ音符を表すＨＶ−Ｓｃｒｉｐｔでも、制作者によって様々となる。

このように、歌声用ＨＶ−Ｓｃｒｉｐｔでは、発声文字をＨＶ音源４ａ及びスピーカ５ａに発音させる際、最初は、音符・音高等を示すデータである楽譜データで指定された音高（上記例では、Ｃ２）より低い音高で発音させ、その後指定された音高に戻すように記述される。このように記述するのは、人の歌声が、歌いだしが少し低いピッチから上昇して望みの音程になるので、人が歌唱する際のより自然な発音に近づけるためである。あるいは、歌声の表現を豊かにするため、上記に限らず、最初、音符・音高等を示すデータである楽譜データで指定された音高で発音させすぐにより低い音高で発音させ、その後指定された音高に戻すなど、様々な「ゆらし」のパターンを記述することもできる。
また、歌声用ＨＶ−Ｓｃｒｉｐｔでは、上記例にて用いている長音“−”に加え、発声文字の発音長を規定する制御記号“Ｓ＊＊”を用いて、歌声の中で発音される発声文字の発音長が指定された音符の音長に一致するように記述される。

上記のように記述される歌声用ＨＶ−Ｓｃｒｉｐｔは、図５に示す例（一部）のように規定されている。同図に示す例は、テンポ（ＢＰＭ）１２０の場合で、発声文字「ら」に対するものであり、各音符と各音高毎に同図に示すように歌声用ＨＶ−Ｓｃｒｉｐｔ（ヘッダー、制御記号、スクリプト（メイン））が規定されている。ファイル名は、各歌声用ＨＶ−Ｓｃｒｉｐｔを格納するファイルのファイル名を示し、その拡張子として“ｈｖｓ”を用いる。同図に示すノートＮｏ．は、音高（音程）を示すものである。ヘッダー（制御記号の一種）は、当該ファイルがＨＶ−Ｓｃｒｉｐｔファイル（すなわち、ＨＶ−Ｓｃｒｉｐｔの記述からなるファイル）であることを示し、制御記号及びスクリプト（メイン）は同図の内容及び前述の通りである。このように規定されるヘッダー、制御記号、スクリプト（メイン）が、ファイルのそれぞれに含められる。

次に、ＨＶ歌声データについて説明する。
例えば図６に示す楽譜に対応する歌声データを、発声文字「ら」だけで作ると以下のようになる。

ＨＶ＃Ｊ
Ｌ１Ｗ２Ｓ５４
Ｃ２＄４ら＾４＞２−−＞−−−＞＆
Ｃ２＄４ら＾４＞２−＞−＞＆
Ｄ２＄４ら＾４＞２−＞−＞＆
Ｓ５３Ｅ２＄４ら＾４＞２−−＞−−＞−−＞−−−＞＆

このＨＶ歌声データを再生すると、図６に示すメロディで、「ら、ら、ら、ら…」と発音され、鼻歌のように再生される。
上記に対し、実際の歌詞でＨＶ歌声データを作ると以下のようになる。

ＨＶ＃Ｊ
Ｌ１Ｗ２Ｓ５４
Ｃ２＄４お＾４＞２−−＞−−−＞＆
Ｃ２＄４し＾４＞２−＞−＞＆
Ｄ２＄４え＾４＞２−＞−＞＆
Ｓ５３Ｅ２＄４て＾４＞２−−＞−−＞−−＞−−−＞＆

このＨＶ歌声データでは、図６に示すメロディで、実際の歌詞「お、し、え、て…」の歌声が再生されることとなる。
なお、ＨＶ歌声データは、歌声用ＨＶ−Ｓｃｒｉｐｔを並べて記述されるものであるが、各歌声用ＨＶ−Ｓｃｒｉｐｔに共通する制御記号は、上記例のようにまとめて記述することができる。もちろん、各歌声用ＨＶ−Ｓｃｒｉｐｔ毎に制御記号の列を記述するようにしてもよい。上記例にて、制御記号の列Ｌ１Ｗ２Ｓ５４は、続く３つの歌声用ＨＶ−Ｓｃｒｉｐｔに作用し、最後の歌声用ＨＶ−Ｓｃｒｉｐｔには、制御記号“Ｓ＊＊”について、元々この歌声用ＨＶ−Ｓｃｒｉｐｔに含まれるＳ５３が（他のものと異なるので）記述されている。
ところで、休符を表すＨＶ−Ｓｃｒｉｐｔはスペースであり、発声文字も同様に、そのスペースの前に置かれている制御記号“Ｓ＊＊”でその時間が規定される。スペースを置くことにより、その時間は無音となる。

また、歌声用ＨＶ−Ｓｃｒｉｐｔは、すべてのテンポ、音高、音長、発声文字についてすべて用意してもよいが、基本となるスクリプトのみを用意しておき、実際に歌声用ＨＶ−Ｓｃｒｉｐｔを用いる際、その記述内容を変更するようにしてもよい。
例えば、発声文字「ら」の歌声用ＨＶ−Ｓｃｒｉｐｔしか用意されてなく、発声文字「う」の歌声用ＨＶ−Ｓｃｒｉｐｔは、これがテンポ１２０で、４分音符かつＣ２であれば、テンポ１２０で４分音符かつＣ２の発声文字「ら」の歌声用ＨＶ−Ｓｃｒｉｐｔの「Ｃ２＄４ら＾４＞２−−＞−−−＞＆」を用いて、「Ｃ２＄４う＾４＞２−−＞−−−＞＆」とする。後述する歌声生成装置の動作説明では、このような変更処理を行うものとしている。

また、歌声用ＨＶ−Ｓｃｒｉｐｔには、ビブラート（Ｖｉｂｒａｔｏ）を付加したデータを用意し利用するようにしてもよい。この場合、例えば、ビブラートなしの歌声用ＨＶ−Ｓｃｒｉｐｔ「ＨＶ＃ＪＬ１Ｗ２Ｓ５３Ｃ２＄４ら＾４＞２−−>−−＞−−＞−−−>＆」に対して、ビブラートを付加した「ＨＶ＃ＪＬ１Ｗ３Ｓ５３Ｃ２＄ら＾＞２−−>−−＞３＞−＾＞−＄−＞＾−＞＄−＞＾−＞＾＆」を用いることができる。ビブラートを付加したデータは、このように韻律記号“＄”、“＾”を用いて記述することにより、発音する際のピッチを上下させビブラートを表現している。

このようにビブラートを付加した歌声用ＨＶ−Ｓｃｒｉｐｔを複数用意したり、その他の表現（音量の変化、音質の変化など）を持たせた歌声用ＨＶ−Ｓｃｒｉｐｔのバリエーションを用意し利用することで、さらに表現力を増すことができる。
なお、こうした歌声用ＨＶ−Ｓｃｒｉｐｔの記述は、その制作者がその発音を試聴して最も適したものが選ばれる。

次に、上記ＨＶ歌声データを作成する歌声データ作成装置について、図７を参照し説明する。
図７は、歌声データ作成装置の機能構成を示すブロック図である。

同図に示す歌声データ作成装置は、１ｂに示す制御部、２ｂに示す表示部、３ｂに示す操作部、４ｂに示すＨＶ歌声ＤＢを備え、制御部１ｂは、１ｂ−１に示す選択入力部、１ｂ−２に示す歌声用ＨＶ−Ｓｃｒｉｐｔ抽出部、１ｂ−３に示すＨＶ歌声データ生成部、１ｂ−４示す歌詞入力部、１ｂ−５に示す発声文字置換部からなっている。

表示部２ｂは、制御部１ｂの制御により所定の情報を表示する。操作部３ｂは、ユーザにより所定の操作を受け入力されたデータを制御部１ｂに与える。ＨＶ歌声ＤＢ４ｂは、前述の通りである。
選択入力部１ｂ−１は、表示部２ｂに、テンポと、音符（休符を含む）及びその音高を選択させるための表示をさせ、ユーザによりその選択された音符（すなわちその音長）とその音高を示す情報からなる楽譜データの入力を受ける。具体的には、例えば、各音符の絵、音高を示すＣ２、Ｅ３…等を表示し、その中からユーザに所望の音符とその音高等を選択できるようにし、これらの入力を受け付ける。

歌声用ＨＶ−Ｓｃｒｉｐｔ抽出部１ｂ−２は、選択入力部１ｂ−１に入力された楽譜データ（音符・音高）に相当する歌声用ＨＶ−Ｓｃｒｉｐｔを、下記のＨＶ歌声ＤＢ４ｂから抽出する。
ＨＶ歌声データ生成部１ｂ−３は、ユーザが入力した楽譜データの並びに応じて、歌声用ＨＶ−Ｓｃｒｉｐｔ抽出部１ｂ−２がＨＶ歌声ＤＢ４ｂから抽出した歌声用ＨＶ−Ｓｃｒｉｐｔを順に並べてＨＶ歌声データとする。

歌詞入力部１ｂ−４は、歌詞入力時に、表示部２ｂに歌詞入力画面（図示せず）を表示させ、ユーザが操作部３ｂを用いて入力する、ＨＶ歌声データに付ける歌詞のデータ（テキスト文字列）を受け付ける。
発声文字置換部１ｂ−５は、ＨＶ歌声データ生成部１ｂ−３が生成したＨＶ歌声データに含まれる各発声文字を、歌詞入力部１ｂ−４に入力された歌詞をなす各文字に置換する。

ＨＶ歌声ＤＢ４ｂは、テンポ毎、音符（休符を含む）の種類及び音階毎に、発音文字をその音階と音長で発音させるための韻律記号を含む上記ＨＶ−Ｓｃｒｉｐｔデータを保持している。
なお、制御部１ｂはメモリおよびＣＰＵ（中央処理装置）等により構成され、上記各部の機能を実現するためのプログラム（図示せず）をメモリにロードして実行することによりその機能が実現されるものとする。

このように構成される歌声データ作成装置及び前述の歌声再生装置を含む本実施の形態の歌声生成装置用いて、ユーザは歌声データを作成し、その再生をすることができる。
ここで、本実施の形態の歌声生成装置の動作について、図８，図９を参照し説明する。

はじめに、選択入力部１ｂ−１が、表示部２ｂにテンポ入力画面を表示させる（ステップＳ１０１）。ここで、ユーザによる操作部３ｂを用いた所定操作によりテンポが入力されると、ステップＳ１０２の判断で、Ｙｅｓと判定されステップＳ１０３に移行する。
ステップＳ１０３では、制御部１ｂのメモリのＨＶ歌声データ用領域にヘッダー（ＨＶ＃Ｊ）を置く。

次いで、選択入力部１ｂ−１は、表示部２ｂに音符入力画面を表示させる（ステップＳ１０４）。ここで、ユーザの、操作部３ｂを用いた所定操作により音符及び音高等が選択入力されると、ステップＳ１０５の判断で、Ｙｅｓと判定されステップＳ１０６に移行する。この段階では、ユーザは、例えば譜面を参照しこれに記載された楽譜をもとに、表示部２ｂに表示された音符とその音高を選択させるための表示を見て、所定の操作により所望の音符とその音高（すなわち楽譜データ）を順次選択入力する。

ステップＳ１０６では、歌声用ＨＶ−Ｓｃｒｉｐｔ抽出部１ｂ−２が、ＨＢ歌声ＤＢ４ｂに格納された、規定の文字（例えば、「ら」）の歌声用ＨＶ−Ｓｃｒｉｐｔ群から入力された楽譜データに相当する歌声用ＨＶ−Ｓｃｒｉｐｔを選択・抽出する。ＨＶ歌声ＤＢ４ｂは、テンポ毎、音符（休符を含む）の種類及び音階毎に、歌声用ＨＶ−Ｓｃｒｉｐｔのファイルを保持しているので、当該テンポで、当該音符とその音高をもつ歌声用ＨＶ−Ｓｃｒｉｐｔを選択・抽出する。

そして、抽出した歌声用ＨＶ−Ｓｃｒｉｐｔデータを、ＨＶ歌声データ用領域に、先に抽出されたデータに続けて置き、ステップＳ１０５に戻る。以後、入力される音符及び音高に対応する歌声用ＨＶ−ＳｃｒｉｐｔがＨＶ歌声ＤＢ４ｂから選択・抽出され、ＨＶ歌声データ用領域に順次並べられる。この段階で生成されたＨＶ歌声データは、ＨＶ歌声再生プレイヤー１に、ある発声文字（例えば、“ら”など）の声でメロディを発音させるものとなっている。

ここで、音符及び音高等の入力が無く、音符入力終了の操作があったとする。すると、ステップＳ１０５でＮｏと判定され、さらにステップＳ１０７でＹｅｓと判定されて、ステップＳ１０８に移行する。そして、ステップＳ１０８にて、歌詞入力開始の操作があるか否かの判断がなされる。ここで、歌詞入力開始の操作がされず、試聴操作がなされた場合、ステップＳ１０８にてＮｏと判定され、さらにステップＳ１０９にてＹｅｓと判定されてステップＳ１１０に移行する。

ステップＳ１１０では、ＨＶ歌声プレイヤー１ａ及びＨＶドライバ２ａによって、ＨＶ歌声データを、フォルマントフレーム列に変換する処理をしてＨＶ音源４ａに送る。ＨＶ音源４ａは、与えられたフォルマントフレーム列に従った音声信号をスピーカ５ａに出力し、スピーカ５ａから歌声が発音される。

一方、ステップＳ１０８の段階で、歌詞入力開始の操作がなされると、ステップＳ１１１に移行する。ステップＳ１１１では、歌詞入力部１ｂ−４が、表示部２ｂに歌詞入力画面を表示させる。そして、歌詞入力が終了すると（ステップＳ１１２の判断で、Ｙｅｓの判定）、ステップＳ１１３に移行する。ステップＳ１１３では、先に作成されたＨＶ歌声データの各発声文字を、入力された歌詞の各文字に順次置き換える。

ここでは、発声文字置換部１ｂ−５が、先に生成されたＨＶ歌声データに含まれる各発声文字（例えば、“ら”、“ら”、“ら”、“ら”、…）を、歌詞入力部１ｂ−４が入力を受け付けた歌詞を構成する文字（例えば、“お”、“し”、“え”、“て”、…）に置換する。この段階で生成されるＨＶ歌声データは、ＨＶ歌声再生プレイヤー１に、入力された歌詞とメロディをもつ歌声を発音させるものとなる。
そして、ステップＳ１１４にて、置き換えられたＨＶ歌声データを制御部１ｂが有するメモリに保存して終了する。

以上のように、本実施の形態では、テンポ毎に、各音符・休符の種類（音長）、音の高さ（ドレミ...）に対応する部品となる歌声用ＨＶ−Ｓｃｒｉｐｔを、発声文字の「あ」「い」等に対しそれぞれ揃えておき、上記歌声データ作成装置により、歌詞付きの楽譜を書くように音符・音高を選択していくと、順に歌声用ＨＶ−Ｓｃｒｉｐｔが並べられ、ＨＶ歌声データが自動的に生成される。

なお、上記例では、１音符を入力するごとに歌声用ＨＶ−Ｓｃｒｉｐｔを置いているが、すべての音符を入力してからまとめて置いてもよい。また、試聴はどのタイミングで行ってもよい。また、試聴により変更したい場合は前に戻って音符や歌詞を変更するようにしてもよい。また、すべての歌詞を入力してからＨＶを置き換えているが、歌詞の１文字入力するごとに対応するＨＶ歌声データの発声文字を置き換えてもよい。

また、ビブラートを付加した歌声用ＨＶ−Ｓｃｒｉｐｔ等、歌声用ＨＶ−Ｓｃｒｉｐｔのその他のバリエーションを利用できる場合は、上記フローにおいて、それらの選択のための処理が付加される。例えば、ビブラートを付ける場合は、入力した音符の直後に“Ｖ”を入力することで、この場合にその音符に対してはビブラート有りのデータが選択されるような処理を付加する。
以上のようにして生成されたＨＶ歌声データは、歌声生成装置に含まれるＨＶ歌声再生プレイヤー１によって下記のように再生される。なお、上記ステップＳ１１０における試聴時も同様にして再生される。

ここで、ＨＶ歌声再生プレイヤー１の動作を、図１０のフローチャートを用いて説明する。はじめに、ユーザによってスタート指示がなされると、図１０に示す処理が実行される。

ＨＶ−Ｓｃｒｉｐｔプレイヤー１はＨＶ歌声データに記述された各歌声用ＨＶ−Ｓｃｒｉｐｔをなすテキスト文字列の解釈を開始する。ＨＶ−Ｓｃｒｉｐｔプレイヤー１は、ＨＶ歌声データに含まれる歌声用ＨＶ−Ｓｃｒｉｐｔ（ただし、ヘッダーを除く）を順次ＨＶドライバ２へ出力する（ステップＳ２０１）。
上記発声文字列を受けたＨＶドライバ２は、合成辞書用メモリ３に格納された合成辞書を参照し、フォルマントフレーム列に変換する。さらに、この発声文字列に含まれる韻律記号に応じて変更を加えたフォルマントフレーム列をＨＶ音源４ａに出力する（ステップＳ２０２）。

ＨＶ音源４ａは、ＨＶドライバ２から受けたフォルマントフレーム列に基づき音声合成を行い、その音声信号をスピーカ５ａへ出力する（ステップＳ２０３）。これにより、スピーカ５ａから音声合成された歌声が発音される。
以後、ステップＳ２０４の判断で当該ＨＶ歌声データの最後が検出されるまで、ＨＶ歌声プレイヤー１は、ステップＳ２０１〜Ｓ２０４の処理を繰り返し、ＨＶ歌声データの最後が検出された時点で以上の処理を終了する。

なお、上記で説明した各動作フローは一例であり、本発明は上記の処理の流れに限定されるものではない。
以上に説明したように、本実施の形態の歌声生成装置では、楽譜と歌詞を見て、その音符と音高を選択入力し、さらに、その音符を発音したい文字（歌詞）との組み合わせで選んでいくだけで、歌声再生のためのデータを作ることができるので、テキスト記述によるＨＶ−Ｓｃｒｉｐｔを１から構成するのに比べて、労力がかからず、また、簡単に歌声の再生を行うことができる。

次に、上述の歌声生成装置を携帯電話機に適用した場合の例を説明する。
図１１は本実施形態による歌声再生装置を具備する携帯電話機の構成例を示すブロック図である。
同図において２１は各部を制御するＣＰＵである。２２はデータ送受信用のアンテナである。２３は通信部であり、送信用データを変調してアンテナ２２へ出力すると共に、アンテナ２２によって受信された受信用データを復調する。２４は音声処理部であり、通話時に通信部２３から出力される通話相手の音声データを音声信号に変換してイヤスピーカ（図示せず）へ出力し、マイク（図示せず）から出力される音声信号を音声データに変換して通信部２３へ出力する。

２５は音源であり、楽曲データを読み込んで楽曲を再生する機能を有しており、例えば着信時に着信メロディを再生する。また、音源２５は、図１で示したＨＶ音源４ａと同様の機能も有している。２６はスピーカであり、歌声や楽音を発音する。２７はユーザによる操作を受け付ける入力部である。２８はＨＶ歌声データや楽曲データなどを記憶するＲＡＭである。無線通信によってＷｅｂサーバから楽曲フレーズデータがダウンロードされた場合、この楽曲フレーズデータがＲＡＭ２８に格納される。２９はＣＰＵ２１が実行するプログラムや、前述の合成辞書、ＨＶ歌声ＤＢなどが格納されたＲＯＭである。３０は表示部であり、ユーザによる操作結果や携帯電話機の状態などを表示する。なお、上記各部はバスを介して接続されている。

ＣＰＵ２１はＲＯＭ２９に格納されたプログラムに従って、図１で示したＨＶ−Ｓｃｒｉｐｔプレイヤー１、ＨＶドライバ２、ならびに図７に示した制御部１ｂと同様の動作を実行できる。ＣＰＵ２１は、前述のようにして作成されるＨＶ歌声データをＲＡＭ２８に保存し、再生指示がなされた場合には、ＲＡＭ２８から、ＨＶ歌声データを読み出し、その中の記述を解釈する。このとき、ＣＰＵ２１はＲＯＭ２９から合成辞書を参照し、このＨＶ歌声データをフォルマントフレーム列へ変換し、音源２５へ出力する。

音源２５は、ＣＰＵ２１からフォルマントフレーム列が出力された場合、そのフォルマントフレーム列に基づいて音声信号を生成し、スピーカ２６へ出力する。また、ＣＰＵ２１の制御のもと、ＲＡＭ２８から楽曲データが出力された場合、この楽曲データに基づいて楽音信号を生成し、スピーカ２６へ出力する。そして、スピーカ２６は音声信号、または楽音信号に基づいて音声（歌声）または楽音を発する。

ユーザは入力部２７を操作することによって、前述した歌声データ作成装置の制御部１ｂの機能を実現するソフトウェアを起動し、表示部３０に表示される表示内容を視認しながら楽譜データ（音符及びその音高等）を選択入力しＨＶ歌声データを作成することができる。また作成したＨＶ歌声データをＲＡＭ２８に保存することができる。

さらに、作成したＨＶ歌声データを着信メロディに応用することもできる。この場合の動作は以下のようになる。なお、着信時にＨＶ歌声データを用いることが設定情報としてＲＡＭ２８に予め格納されているとする。通信部２３がアンテナ２２を介して、他の携帯電話等から送信された発呼情報を受信すると、通信部２３はＣＰＵ２１へ着信を通知する。通知を受けたＣＰＵ２１はＲＡＭ２８から設定情報を読み出し、設定情報が示すＨＶ歌声データをＲＡＭ２８から読み出し、その解釈を開始する。以後の動作は前述した通りであり、ＨＶ歌声データの記述に従って、スピーカ２６から歌声が発せられる。

ユーザは電子メールにＨＶ歌声データを含ませて他の端末に送信することもできる。例えば、所定の添付ファイル（例えば、その拡張子（ｈｖｓ）により、ＨＶ歌声データが含まれていることが識別できる添付ファイル）の中に記述し、送信する電子メールに添付するようにしてもよい。そして、ＣＰＵ２１がこの添付ファイルの内容をＨＶ歌声データとして解釈し、ユーザによって指示がなされたときに添付ファイル中の記述に従って音源２５へ再生指示を出力するようにしてもよい。

なお、ＨＶ−Ｓｃｒｉｐｔプレイヤー１、ＨＶドライバ２の機能は必ずしもＣＰＵ２１（ＣＰＵ２１が実行するプログラムを含む）が具備する必要はない。音源２５が前記機能のいずれかを具備するようにしてもよい。また、携帯電話機に限らず、ＰＨＳ（登録商標）（Ｐｅｒｓｏｎａｌｈａｎｄｙｐｈｏｎｅｓｙｓｔｅｍ）、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）などの携帯端末が本実施形態による歌声生成装置と同様の構成を備えていてもよい。
また、図１におけるＨＶ−Ｓｃｒｉｐｔプレイヤー１及びＨＶドライバ２、あるいは、図７における制御部１ｂの機能を実現するためのプログラムを、音声合成可能が可能なコンピュータシステムに読み込ませ、実行することによりＨＶ−Ｓｃｒｉｐｔによる歌声の生成を行ってもよい。

なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態を、図面を参照して詳述してきたが、本発明の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含む。例えば、（１）音符の入力は、楽曲データ（ＭＩＤＩデータ等）を入力することによって、そこから音符及び音高の情報を抽出するようにしてもよい。例えば、メロディを含む複数パートの楽曲であれば、メロディのパートから音符を抽出する。（２）歌声を再生する際に、伴奏の楽曲も同時に再生させることで伴奏付の歌とすることもできる。その場合、（１）の方法で制作したのであれば、その楽曲データのメロディパートのみ消音して歌声と同時に再生すればよい。

また、上記実施形態では、テンポ毎に前述の歌声用ＨＶ−Ｓｃｒｉｐｔのデータをもつものとしているが、特定のテンポ用のデータのみ持ち、その他のテンポに対しては、ＨＶ歌声ＤＢが保持している特定のテンポ用のデータから自動生成させるようにしてもよい。上記実施形態で示した歌声用ＨＶ−Ｓｃｒｉｐｔの例では、テンポ＝１２０の場合を説明しているが、この場合四分音符は、音長が０．５秒であり、テンポ＝６０の場合は、これが１秒となる（発音時間が２倍になる）関係にある。

各歌声用ＨＶ−Ｓｃｒｉｐｔは、その記述からその発音時間が一義的に定まるので、テンポ＝１２０用のデータを基に、テンポ＝６０用のデータを生成する場合、発音の長さが倍となるように、制御記号“Ｓ＊＊”を変更したりまたは長音“−”を付加することで、テンポ＝６０のときの四分音符に相当する歌声用ＨＶ−Ｓｃｒｉｐｔを自動生成することができる。こうしたテンポの比に応じた発音の時間長を変えるための歌声用ＨＶ−Ｓｃｒｉｐｔの記述の変更ルールは別途定めればよい。

本発明の一実施の形態である歌声生成装置を構成する歌声再生装置の機能構成を示すブロック図である。ＨＶ音源の構成を示す図である。フォルマント生成部の構成を示す図である。韻律記号（代表例）の意味を示す図である。歌声用ＨＶ−Ｓｃｒｉｐｔを説明する表である。ＨＶ歌声データについて説明するための楽譜の例である。同実施の形態の歌声生成装置を構成する歌声データ作成装置の機能構成を示すブロック図である。同実施形態の歌声生成装置の動作（ＨＶ歌声データ作成）を説明するフローチャートである。同実施形態の歌声生成装置の動作（ＨＶ歌声データ作成）を説明するフローチャート（図８の続き）である。同実施形態の歌声生成装置の動作（ＨＶ歌声データ再生）を説明するフローチャートである。同実施形態による歌声生成装置を具備する携帯電話機の構成例を示すブロック図である。

符号の説明

１ａ…ＨＶ歌声プレイヤー、２ａ…ＨＶドライバ、３ａ…合成辞書、４ａ…ＨＶ音源（発音手段）、５ａ…スピーカ（発音手段）、１ｂ…制御部（制御手段）、１ｂ−１…選択入力部、１ｂ−２…歌声用ＨＶ−Ｓｃｒｉｐｔ抽出部、１ｂ−３…ＨＶ歌声データ生成部、１ｂ−４…歌詞入力部、１ｂ−５…発声文字置換部、２ｂ…表示部、３ｂ…操作部（入力手段）、４ｂ…ＨＶ歌声ＤＢ（記憶手段）、２１…ＣＰＵ（制御手段）、２２…アンテナ、２３…通信部、２４…音声処理部、２５…音源（発音手段）、２６…スピーカ（発音手段）、２７…入力部（入力手段）、２８…ＲＡＭ、２９…ＲＯＭ（記憶手段）、３０…表示部、４０ａ〜４０ｈ…フォルマント生成部、４１…波形発生器、４２…ノイズ発生器、４３…加算器、４４…増幅器、５０…ピッチ生成部、６０…ミキシング部

Claims

歌声にするためのメロディを表す楽譜データであって、所望の音符とその音符の音高が順次記述された楽譜データを入力する入力手段と、
音声を発音する発音手段と、
一つの発声文字と該発声文字を前記発音手段に発音させる際の音高・音長を規定するテキストとにより規定された該発声文字の音声を表す発音データを、種々の音高・音長毎に記憶する記憶手段と、
前記楽譜データにおける各音符の音高・音長に相当する前記発音データを順次前記記憶手段から抽出し、抽出した発音データを並べていくことで発音データ列を生成する制御手段と
を具備し、
前記制御手段は、前記抽出された発音データの発声文字を、前記入力手段により入力されたユーザの所望の文字に変換し、
前記発音手段は、前記制御手段によって生成した前記発音データ列に従って音声を発音することを特徴とする歌声生成装置。
前記入力手段は、歌詞を表すテキスト文字列の入力を受け、
前記制御手段は、前記発音データ列を生成する際には、前記楽譜データで示される各音符の音高・音長毎に、ある一つの発声文字に対する発音データを抽出し、その後生成される前記発音データ列を構成する各発音データに含まれる発声文字を、対応する歌詞のテキスト文字に置き換えることを特徴とする請求項１に記載の歌声生成装置。
前記発音データは、少なくとも一つのテンポに対応するものであり、
前記制御手段は、前記楽譜データのテンポが、前記記憶手段に記憶される発音データが対応するテンポと異なる場合、これらのテンポの比に従って、前記発音データ列を生成する際に、これに含まれる発音データの韻律記号に対し音長を調整する変更を加え、入力された楽譜データのテンポに合わせることを特徴とする請求項１または請求項２に記載の歌声生成装置。
一つの発声文字に対応する前記発音データは、その発声文字を前記発音手段に発音させる際、最初は楽譜データで指定された音高より低い音高で発音させ、その後指定された音高に戻すように記述されていることを特徴とする請求項１から請求項３のいずれかに記載の歌声生成装置。
前記記憶手段は、一つの発声文字を前記発音手段に発音させる際に発音途中で音高を上下させるように記述されているビブラート用の発音データをさらに記憶していることを特徴とする請求項１から請求項４のいずれかに記載の歌声生成装置。
発音データ列に従って音声を発音する発音手段を有するコンピュータシステムに、
一つの発声文字と該発声文字を前記発音手段に発音させる際の音高・音長を規定するテキストとにより規定された該発声文字の音声を表す発音データを、種々の音高・音長毎に記憶させるステップと、
歌声にするためのメロディを表す楽譜データであって、所望の音符とその音符の音高が順次記述された楽譜データの入力を受けるステップと、
前記楽譜データにおける各音符の音高・音長に相当する前記発音データを順次前記記憶手段から抽出するステップと、
抽出した発音データを並べていくことで発音データ列を生成するステップとを実行させるためのプログラムであって、
前記発音データ列を生成するステップは、前記抽出された発音データの発声文字を、前記楽譜データの入力を受けるステップにより入力されたユーザの所望の文字に変換することを特徴とするプログラム。
携帯通信端末において、
歌声にするためのメロディを表す楽譜データであって、所望の音符とその音符の音高が順次記述された楽譜データを入力する入力手段と、
音声を発音する発音手段と、
一つの発声文字と該発声文字を前記発音手段に発音させる際の音高・音長を規定するテキストとにより規定された該発声文字の音声を表す発音データを、種々の音高・音長毎にする記憶手段と、
前記楽譜データにおける各音符の音高・音長に相当する前記発音データを順次前記記憶手段から抽出し、抽出した発音データを並べていくことで発音データ列を生成する制御手段と
を具備し、
前記制御手段は、前記抽出された発音データの発声文字を、前記入力手段により入力されたユーザの所望の文字に変換し、
前記発音手段は、前記制御手段によって生成した前記発音データ列に従って音声を発音することを特徴とする携帯通信端末。