JP2005156946A

JP2005156946A - 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム

Info

Publication number: JP2005156946A
Application number: JP2003395286A
Authority: JP
Inventors: Takahiro Kawashima; 隆宏川嶋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-11-26
Filing date: 2003-11-26
Publication date: 2005-06-16
Also published as: CN1622194A; KR20050050583A; CN100369107C; KR100650071B1; HK1073169A1

Abstract

【課題】直感的に理解できるテキスト記述で楽音の再生ができ、さらに、テキスト記述される言葉の再生を行うことができる楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラムを提供する。
【解決手段】楽曲を構成する楽音の擬音を表現したテキストからなるテキストデータに基づいて楽曲を再生する。また、音声合成させる文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータ（ＨＶ−Ｓｃｒｉｐｔ）が入力されると、楽曲用テキストを解釈して楽音データに変換し、この楽音データを再生するとともに、音声合成させる文字列を解釈して音声を再生する。
【選択図】図１

Description

本発明は、楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラムに関する。

従来より、楽曲等を再生する技術として、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）などの時間情報付きのデータを音源に供給し楽曲を再生する方法が知られている。一方、ＭＭＬ（ＭｕｓｉｃＭａｃｒｏＬａｎｇｕａｇｅ）などのテキスト文字を使って楽音を作成する方法のように、所定の記号を用い、テキスト形式で記述された記号に基づき発音をさせる技術が知られている。特許文献１では、楽曲を構成する音符、休符などを英数字で表現する技術が開示されている。
特開２００２−４９３７１号公報

しかしながら、ＭＩＤＩなどの時間情報付きのデータで音源により楽曲を再生する方法では、そのデータの入力に、ＭＩＤＩシーケンサなどの専用の入力アプリケーションが必要であり、一般人には馴染みがなく、わかりにくい。また、ＭＭＬ等のような所定のテキスト文字・記号を用いて、これに従い発音を制御する方法も、同様に一般人には馴染みがなく、わかりにくい。例えば、特許文献１では、使用する英数字はテキストエディタで作成することはできるが、その英数字がどのような音を表すのかが直感的に分からないという問題があった。

他方、テキスト形式で記述された文字列を音声合成する技術が知られているが、この技術では、音声合成用の文字列を人の声に近い態様で発音するものであって、楽音の発音には対応していない。
そこで、テキスト記述での楽音の再生が容易に行えるとともに、さらに混在されて記述された発音用の言葉を音声合成できる技術が要望された。

本発明は、上記の点に鑑みてなされたもので、直感的に理解できるテキスト記述で楽音の再生ができ、さらに、テキスト記述される言葉の再生を行うことができる楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラムを提供するものである。

請求項１に記載の発明は、楽曲再生装置であって、楽曲を構成する楽音の擬音を表現したテキストからなるテキストデータに基づいて前記楽曲を再生することを特徴としている。
また、請求項２に記載の発明は、請求項１に記載の楽曲再生装置のおいて、前記テキストデータにおいて記述された擬音を表現する各テキストに対し、少なくとも発音される楽音の音色が定義されていることを特徴としている。
また、請求項３に記載の発明は、請求項２に記載の楽曲再生装置のおいて、前記テキストデータにおいて記述された擬音を表現したテキストに対し、さらに、発音される楽音の音高、音長の何れかが定義されていることを特徴としている。

また、請求項４に記載の発明は、音声合成させる文字を記述した文字列を解釈して音声を発生する音声再生装置において、前記文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータが入力されると、前記楽曲用テキストを解釈して楽音データに変換する変換部と、前記楽音データを再生する音源部と、前記文字列を解釈して音声を再生する音声再生部と、を具備することを特徴としている。

また、請求項５に記載の発明は、音声合成可能かつ楽音データの再生が可能な音声再生装置における制御方法であって、音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、前記楽曲用テキストを解釈して楽音データに変換する手順と、前記楽音データを再生する手順と、前記文字列を解釈して音声を再生する手順と、を含むことを特徴としている。

また、請求項６に記載の発明は、音合成可能かつ楽音データの再生が可能なコンピュータに、音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、前記楽曲用テキストを解釈して楽音データに変換する手順と、前記楽音データを再生する手順と、前記文字列を解釈して音声を再生する手順とを実行させるためのプログラムである。

本発明によれば、再生させる楽音を、擬音を表す文字で記述するので、その記述は直感的に理解できるものであり一般人にも分かりやすい。
また、再生される楽音または言葉（あるいはさらに韻律を付加した言葉）は、テキストで記述されるので、いわゆるテキストエディタがあればその記述を容易に作成することができる。
また、１つのテキストファイルで、音声合成させる言葉に加え、再生させる楽音の記述ができるので、ユーザは、手軽にこれらを組み合わせ、その再生を行うことができる。

以下、本発明の実施の形態を、図面を参照して説明する。
図１は、この発明の一実施形態である楽曲及び音声を再生する再生装置の構成を示す図である。同図において、ＨＶ−Ｓｃｒｉｐｔ（ＨＶ：ＨｕｍａｎＶｏｉｃｅ）は、テキスト・ファイルであり、音声及び楽音を再生するために所定の記号を含んで記述されたファイルである。ここでのＨＶ−Ｓｃｒｉｐｔは、韻律記号（アクセントなどの発音態様を指定するための記号）を含む音声合成の対象となる発音文字列、及び後述の音符単語を含んでいる。

図１において、１はＨＶ−Ｓｃｒｉｐｔプレイヤーであり、ＨＶ−Ｓｃｒｉｐｔの再生や停止などを制御する。ＨＶ−Ｓｃｒｉｐｔが入力され、その再生指示を受けた場合、ＨＶ−Ｓｃｒｉｐｔプレイヤー１はＨＶ−Ｓｃｒｉｐｔの解釈を開始する。そして、ＨＶ−Ｓｃｒｉｐｔに記述されている内容に応じて、ＨＶドライバ２、音符単語コンバータ５、のいずれかに対して処理を行わせる。また、ＨＶ−Ｓｃｒｉｐｔに後述の音符単語が記述されている場合、その音符間隔（デュレーション）の時間管理も行う。

ＨＶドライバ２は合成辞書用メモリ３から合成辞書を参照し下記の処理を行う。人の声は声帯や口腔などの形状に依存するフォルマント（固有の周波数スペクトル）を有しており、合成辞書はこのフォルマントに係るパラメータを保持している。合成辞書は、実際の音が発音文字単位で（例えば「あ」・「い」など）サンプリングおよび分析された結果によって得られたパラメータをフォルマントフレームデータとして発音文字単位で予め保持しているデータベースである。このデータベースは、さらに、後述の韻律記号に応じて上記フォルマントに係るパラメータを変えるためのデータを保持している。

ＨＶドライバ２は、ＨＶ−Ｓｃｒｉｐｔ中の韻律記号を含んだ発音文字列などを解釈し、上記合成辞書を用いて標準の発音のフォルマントフレームデータに、韻律記号で指定されたイントネーション等を変える変更を加えたフォルマントフレーム列へと変換し、ＨＶ音源４へ出力する。ＨＶ音源４は（詳細は後述する）、ＨＶドライバ２によって出力されたフォルマントフレーム列に基づいて発音信号を生成し、加算器８へ出力する。

ここで、上記韻律記号について説明する。図２に、ＨＶ−Ｓｃｒｉｐｔを含む文章の一例を示している。
この例では、同図の符号（１）の専用制御文字で挟まれた「か＿３さがほ＾５し＿４い’４ね＄２ー」の部分がＨＶ−Ｓｃｒｉｐｔであり、他の部分が通常のテキスト文である。このＨＶ−Ｓｃｒｉｐｔ「か＿３さがほ＾５し＿４い’４ね＄２ー」は、「かさがほしいねー」という言葉にイントネーションを付加して音声合成させるための韻律記号を用いた記述である。この例に記述された記号「’」、「＾」、「＿」、「＄」等が韻律記号であり、文字（かな文字）に付加するイントネーションの種別を示すもので、この記号の後の文字（この記号の直後に数値がある場合は、この数値に続く文字）に対して、所定のアクセントを付加するものである。

図３（ａ）に、各韻律記号（代表例）の意味を示している。同図に示す「’」は、語頭でピッチを上げ（図３（ｂ）（１）参照）、「＾」では発音中ピッチを上げ（図３（ｃ）（３）参照）、「＿」は、語頭でピッチを下げ（図３（ｂ）（２）参照）、「＄」では、発音中ピッチを下げるように（図３（ｃ）（４）参照）音声合成を行うことを意味している。また、上記記号の直後に数値が付加される場合は、その数値は付加するアクセントの変化量を指定するものである。例えば、「か＿３さが」では、「さ」を語頭でピッチを３の量だけ下げることを示し、「が」をその下げたピッチで発音し、「か」は、標準の高さで発音することを示す。

このように、発音させる言葉に含まれる文字にアクセント（イントネーション）を付加する場合に、その文字の直前に、図２に示すような記号（さらには、イントネーションの変化量を示す数値）を付加する記述をする。なお、本実施の形態ではピッチを制御する記号についてのみ説明したが、これら以外に音の強弱、速度、音質等を制御する記号を用いることもできる。
以上、韻律記号について説明した。

音符単語コンバータ５は、ＨＶ−Ｓｃｒｉｐｔに含まれる音符単語を、下記のデフォルト音符単語テーブル、さらにユーザ定義音符単語テーブルが登録されている場合にはそれを参照し、これらに基づき音符情報（楽音データ）に変換して音源７に出力する。６はデフォルト音符単語テーブルを記憶する音符単語テーブル用メモリである。このデフォルト音符単語テーブルには、図４に示すように、予め定義された音符単語毎に、音色名、プログラムチェンジ、ノート番号、発音長が定義されている。

ここで音符単語とは、人が直感的に分かる擬音（例えば、「どん」、「ぱん」等）を表現する文字または文字列を基本として記述される単語である。この音符単語には、図４に示す例のように、さらに音階を表す記号（Ｃ３，Ｃ＃３，Ｃ４，Ｅ３，Ｆ３，Ｇ３等）等を付加してもよい。
また、ＨＶ−Ｓｃｒｉｐｔでは、それ以降の文字・文字列を音符単語とみなす音符単語モードを指定する所定の記号（本実施の形態では、この記号をＺ１として説明する）と、この音符単語モードを解除する記号（以下では、Ｚ０とする）を用いる。

音符単語テーブルにおいて、音色名は、対応する音符単語を再生した場合の音色を示す。プログラムチェンジ、ノート番号、発音長の組は、上記音符情報に相当する。図４に示す例は、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）を利用する場合の例であり、プログラムチェンジは、楽器の別（ドラムの場合は、このプログラムチェンジによりさらに区別される）を表すものであり、ノート番号は音程を表し、発音長は発音する音符の長さを表している（ただし、同図において発音長は音符の種類を例示しているが、データとしては対応する発音長となるゲートタイムが定義される）。

また、さらに詳細な音符間隔や音符長の入力を支援するために図５のように音符間隔や音符長あるいはテンポを指定する記述を定義してもよい。同図において、Ｘ［数値］は、前の発音から次の発音までの時間間隔（音符間隔）を指定された数値とすることを指定するものである。また、Ｙ［数値］は、該当する楽音を指定された数値だけのばして発音するために指定するものである（いずれも、図６（ａ）参照）。Ｔ［数値］は、テンポを指定するものである（図６（ｂ）参照）。

ここで、音符単語を含むＨＶ−Ｓｃｒｉｐｔの記述例を示す。
（例１）
「えいとびいとだよＺ１Ｘ４００どんぱんどどぱんＺ０いかが？」
この例では、Ｚ１からＺ０までが音符単語であり、これを再生すると、「８ビートだよ」と発音し、続いてドラムの８ビートのリズムを再生して（ただし、最初の“どん”を発音するまで４００ｍｓの時間間隔をとる）、「いかが？」と発音することになる。
（例２）
「Ｔ１００ぶＥ３ぶＦ３ぶんＧ３ぶんＥ４ぶんＣ４Ｙ８００」
１００のテンポでベースの音色が記載通りに再生する。最後の「ぶんＣ４Ｙ８００」では、ぶんＣ４の再生音を８００ｍｓ延ばしている。

また、ユーザはユーザデータ用メモリ１０中のユーザ定義音符単語テーブルを登録ＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）１１を経由して音符単語テーブル用メモリ６に格納することができる。音符単語コンバータ５は、ＨＶ−Ｓｃｒｉｐｔプレイヤー１から音符単語を受けると、音符単語テーブル用メモリ６の音符単語テーブルを参照して音符単語を音符情報に変換し、音源７へ出力する。音源７は音符単語コンバータ５から出力された音符情報に基づいて楽音信号を生成し、加算器８へ出力する。なお、音源７としては、ＭＩＤＩ対応の、ＦＭ（ＦｒｅｑｕｅｎｃｙＭｏｄｕｌａｔｉｏｎＳｏｕｎｄ）音源やＰＣＭ（ＰｕｌｓｅＣｏｄｅｄＭｏｄｕｌｅＳｏｕｎｄＳｏｕｒｃｅ）音源などが利用できる。

加算器８はＨＶ音源４によって出力される発音信号、および音源７によって出力される楽音信号を合成し、合成された信号をスピーカ９へ出力する。スピーカ９は加算器８によって合成された信号に基づいて音声または楽音を発する。

ここで、ＨＶ音源４の詳細について、図７，８を参照し説明する。
ＨＶ音源４は、ＣＳＭ（複合正弦波モデル）音声合成方式によるものであるが、この場合、１つの音素が８種のフォルマントから構成されるものとして、前述の合成辞書には、８組のフォルマント周波数、フォルマントレベルおよびピッチ情報などをパラメータとして保持させている。

図１に示すＨＶ音源４は、図７に示すように８個のフォルマント生成部４０ａ〜４０ｈと１個のピッチ生成部５０を有しており、発音用シーケンサ（図示せず）から出力されるフォルマントに関するパラメータ及びピッチ情報に基づいて各フォルマント生成部４０ａ〜４０ｈで対応するフォルマント信号を発生し、このフォルマント生成部４０ａ〜４０ｈにおいて生成された各フォルマントをミキシング部６０で合成して音素を生成する。そしてこの音素の生成を連続して行うことにより、合成した音声を生成する。なお、各フォルマント生成部４０ａ〜４０ｈはフォルマント信号を発生させるためにその元となる基本波形を発生させるが、この基本波形の発生には、例えば、周知のＦＭ音源の波形発生器を利用することができる。ピッチ生成部５０は、演算によりピッチ（音程）を生成する機能を有し、発音する音素が有声音の場合にのみ、演算したピッチを生成される音素に付加する。

次に、図８を用いて、上記フォルマント生成部４０ａ〜４０ｈの構成について説明する。
図８に示すように、フォルマント生成部４０ａ〜４０ｈの各々は、波形発生器４１と、ノイズ発生器４２と、加算器４３と、増幅器４４とから構成されている。

波形発生器４１は、音素毎フォルマント毎に指定されるフォルマント周波数、フォルマントの基本波形（正弦波、三角波、…）及び波形の位相に基づき、１音素を構成するフォルマントの１つを順次発生する。ノイズ発生器４２は、波形発生器４１にて発生されたフォルマントが有声音か無声音かに従って、無声音の場合にはノイズを発生し加算器４３に供給する。

加算器４３は、波形発生器４１にて生成されたフォルマントに、ノイズ発生器４２から供給されるノイズを加算する。そして加算器４３の出力は、増幅器４４によりフォルマントレベルに増幅され出力される。
上記各フォルマント生成部４０ａ〜４０ｈの構成は、音素を構成する１つのフォルマントに関するものである。１つの音素は、いくつものフォルマント（ここでは８種）が合成されて形成されている。したがって、１つの音素を生成するためには、音素を構成する各フォルマントを生成して、これを合成する必要がある。そのために図７の構成をとりフォルマントパラメータを用いた音声合成を行っている。

以上のように、ＣＳＭ音声合成では、周波数パラメータ、振幅パラメータ等に基づき合成されるフォルマント音を複数合成することにより音素を決定し音声合成することができる。例えば、「さくら」を音声合成する場合、数ｍｓから数十ｍｓ毎に複数組の上記パラメータを設定することにより、／Ｓ／→／Ａ／→／Ｋ／→／Ｕ／→／Ｒ／→／Ａ／の６音素を合成して発音させる。

各フォルマント生成部に与えるパラメータは、前述のように各音素毎に予め定義され、合成辞書に登録されている。また、各文字を構成する音素に関する情報、例えば、「さ」の場合、この文字の音素／Ｓ／、／Ａ／からなること等の情報も、同様に合成辞書内に登録されている。また、韻律記号によりアクセントが変えられる場合は、当該韻律記号が適用される各音素に対応するフォルマントフレームデータに韻律記号に応じた変更が加えられＨＶ音源４に与えられる。
以上、本実施の形態の再生装置１の構成の詳細を説明した。

次に、上述した再生装置１の動作を、図９、１０のフローチャートを用いて説明する。
まず、図９に示すように、必要であればユーザによってユーザ定義音符単語テーブルが入力され登録される（ステップＳ０１）。ユーザがデフォルト音符単語テーブルのみを利用する場合は、この登録は省略される。ユーザにより入力されユーザデータ用メモリ１０に格納されたユーザ定義音符単語テーブルは、登録ＡＰＩ１１がユーザデータ用メモリ１０から読み込み、このテーブルを音符単語用メモリ６に格納する。
次いで、ユーザによってＨＶ−Ｓｃｒｉｐｔがテキストエディタなどにより作成され、ＨＶ−Ｓｃｒｉｐｔプレイヤー１に登録される（ステップＳ０２）。

次いで、ユーザによってスタート指示がなされると、図１０に示す処理が実行される。
以下では、登録されたＨＶ−Ｓｃｒｉｐｔは、音声合成の対象となる発音文字列が記述されており、また、その発音文字列の並びの中に音符単語が記述されているものとしている。

ＨＶ−Ｓｃｒｉｐｔプレイヤー１はＨＶ−Ｓｃｒｉｐｔに記述された文字列の解釈を開始する。ＨＶ−Ｓｃｒｉｐｔプレイヤー１は、ＨＶ−Ｓｃｒｉｐｔ中の記述を順に解釈し、音符単語モード指定記号である「Ｚ１」があるかどうか判定する（ステップＳ１１）。
音符単語モード指定記号（Ｚ１）が検出された場合、さらに音符単語モード解除記号である「Ｚ０」があるか判定する（ステップＳ１２）。

ステップＳ１２でＮｏと判定された場合、すなわち音符単語モード指定記号（Ｚ１）が検出され、音符単語モード解除記号（Ｚ０）ではない場合、ＨＶ−Ｓｃｒｉｐｔプレイヤー１は、以降の文字列で次に出現する音符単語モード解除記号（Ｚ０）の前（音符単語モード解除記号（Ｚ０）が全くない場合は最後）の文字までを音符単語として音符単語コンバータ５に出力する（ステップＳ１３）。

音符単語のデータを受けた音符単語コンバータ５は、音符単語用メモリ６に格納されたデフォルト音符単語テーブル及びユーザ定義音符単語テーブルを参照し、当該音符単語に対応する前述の音符情報に変換する。また、音符単語コンバータ５は、音符単語の付帯情報として記述された時間情報を解釈し、時間管理を行い、該当時間に達したときに必要な音符情報を音源７へ出力する（ステップＳ１４）。
音符単語コンバータ５から音符情報を受けた音源７は、この音符情報に基づき楽音信号を加算器８を介してスピーカ９へ出力する（ステップＳ１５）。これにより、スピーカ９から楽音が再生される。

一方、ステップＳ１１またはステップＳ１２の判断で、音符単語モード指定記号（Ｚ１）がない、または、音符単語モード解除記号（Ｚ０）があると判定された場合、解釈対象の文字以降の文字列で、音符単語モード指定記号（Ｚ１）の前の文字までを発音文字列としてＨＶドライバ２へ出力する（ステップＳ１６）。

上記発音文字列を受けたＨＶドライバ２は、合成辞書用メモリ３に格納された合成辞書を参照し、フォルマントフレーム列に変換する。発音文字列に韻律記号が含まれる場合には、それに応じ変更を加えたフォルマントフレーム列をＨＶ音源４に出力する（ステップＳ１７）。
ＨＶ音源４は、ＨＶドライバ２から受けたフォルマントフレーム列に基づき音声合成を行い、音声信号を加算器８を介してスピーカ９へ出力する（ステップＳ１８）。これにより、スピーカ９から音声合成された発音文字列が発音される。

以後、ステップＳ１９の判断で当該ＨＶ−Ｓｃｒｉｐｔの最後が検出されるまで、ＨＶ−Ｓｃｒｉｐｔプレイヤー１は、ステップＳ１１〜Ｓ１９の処理を繰り返し、ＨＶ−Ｓｃｒｉｐｔの最後が検出された時点で終了する。
なお、上記で説明した動作フローは一例であり、本発明は上記の処理の流れに限定されるものではない。

次に、上述の再生装置を携帯電話機に適用した場合の例を説明する。
図１１は本実施形態による楽曲及び音声を再生する再生装置を具備する携帯電話の構成例を示すブロック図である。
同図において２１は各部を制御するＣＰＵである。２２はデータ送受信用のアンテナである。２３は通信部であり、送信用データを変調してアンテナ２２へ出力すると共に、アンテナ２２によって受信された受信用データを復調する。２４は音声処理部であり、通話時に通信部２３から出力される通話相手の音声データを音声信号に変換してイヤスピーカ（図示せず）へ出力し、マイク（図示せず）から出力される音声信号を音声データに変換して通信部２３へ出力する。

２５は音源であり、図１で示したＨＶ音源４、音源７と同様の機能を有している。２６はスピーカであり、音声や楽音を発音する。２７はユーザによる操作を受け付ける操作部である。２８はＨＶ−Ｓｃｒｉｐｔや、ユーザが定義するユーザ定義音符単語テーブルなどを記憶するＲＡＭである。２９はＣＰＵ２１が実行するプログラムや、合成辞書、デフォルト音符単語テーブルなどが格納されたＲＯＭである。３０は表示部であり、ユーザによる操作結果や携帯電話の状態などを表示する。３１はバイブレータであり、着信時などにＣＰＵ２１から指示を受け、振動する。上記各部はバスＢを介して接続されている。

携帯電話は音声から波形データを生成する機能を備えており、マイクから入力された音声が音声処理部２４によって波形データに変換され、この波形データがＲＡＭ２８に格納される。また、通信部２３によってＷｅｂサーバから楽曲フレーズデータがダウンロードされた場合、この楽曲フレーズデータがＲＡＭ２８に格納される。

ＣＰＵ２１はＲＯＭ２９に格納されたプログラムに従って、図１で示したＨＶ−Ｓｃｒｉｐｔプレイヤー１、ＨＶドライバ２、音符単語コンバータ５と同様の動作を行う。ＣＰＵ２１はＲＡＭ２８からＨＶ−Ｓｃｒｉｐｔを読み出し、ＨＶ−Ｓｃｒｉｐｔの中の記述を解釈する。その記述の中で、所定の専用制御文字で挟まれている部分は、音声合成による発音対象の発音文字列であるので、ＣＰＵ２１はＲＯＭ２９から合成辞書を参照し、この発音文字列をフォルマントフレーム列へ変換し、音源２５へ出力する。

一方、ＨＶ−Ｓｃｒｉｐｔの中の記述が、音符単語モード指定記号（Ｚ１）と音符単語モード解除記号（Ｚ０）で挟まれている部分は、楽音再生用の音符単語であるので、ＣＰＵ２１はＲＡＭ２８に格納されたデフォルト音符単語テーブル及びユーザ定義音符単語テーブルを参照し、この音符単語を前述の音符情報に変換し、音源２５へ出力する。

音源２５は、ＣＰＵ２１からフォルマントフレーム列が出力された場合、そのフォルマントフレーム列に基づいて音声信号を生成し、スピーカ２６へ出力する。また、ＣＰＵ２１から楽音信号が出力された場合、この楽音信号に基づいて発音信号を生成し、スピーカ２６へ出力する。そして、スピーカ２６は音声信号、または楽音信号に基づいて音声または楽音を発する。

ユーザは操作部２７を操作することによって、テキスト編集に対応したソフトウェアを起動し、表示部３０に表示される内容を確認しながらＨＶ−Ｓｃｒｉｐｔを作成することができる。また作成したＨＶ−ＳｃｒｉｐｔをＲＡＭ２８に保存することができる。

さらに、作成したＨＶ−Ｓｃｒｉｐｔを着信メロディに応用することもできる。この場合の動作は以下のようになる。なお、着信時にＨＶ−Ｓｃｒｉｐｔを用いることが設定情報としてＲＡＭ２８に予め格納されているとする。通信部２３がアンテナ２２を介して、他の携帯電話等から送信された発呼情報を受信すると、通信部２３はＣＰＵ２１へ着信を通知する。通知を受けたＣＰＵ２１はＲＡＭ２８から設定情報を読み出し、設定情報が示すＨＶ−ＳｃｒｉｐｔをＲＡＭ２８から読み出し、その解釈を開始する。以後の動作は前述した通りであり、ＨＶ−Ｓｃｒｉｐｔの記述に従って、スピーカ２６から音声または楽音が発せられる。

ユーザは電子メールにＨＶ−Ｓｃｒｉｐｔを含ませて他の端末に送信することもできる。ＨＶ−Ｓｃｒｉｐｔは、図２に示す例のように、符号（１）の専用制御文字で挟んで電子メールの本文中や、電子メールのタイトル部分に記述してもよいし、あるいは、所定の添付ファイル（例えば、その拡張子により、ＨＶ−Ｓｃｒｉｐｔが含まれていることが識別できる添付ファイル）の中に記述し、送信する電子メールに添付するようにしてもよい。そして、ＣＰＵ２１が電子メールの本文または添付ファイルをＨＶ−Ｓｃｒｉｐｔとして解釈し、ユーザによって指示がなされたときに電子メール中の記述に従って音声処理部２４へ再生指示を出力するようにしてもよい。なお、ＨＶ−Ｓｃｒｉｐｔが図２の様にその他の文字列に含まれる形である場合、ＣＰＵ２１は専用制御文字で挟まれている以外の文字列は読み飛ばし音声合成や楽音再生の対象としない。

なお、ＨＶ−Ｓｃｒｉｐｔプレイヤー１、ＨＶドライバ２、波形再生プレイヤー４、およびフレーズ再生プレイヤー７の機能は必ずしもＣＰＵ２１が具備する必要はない。音源２５が前記機能のいずれかを具備するようにしてもよい。また、携帯電話に限らず、ＰＨＳ（登録商標）（Ｐｅｒｓｏｎａｌｈａｎｄｙｐｈｏｎｅｓｙｓｔｅｍ）、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｃｅ）などの携帯端末が本実施形態による楽曲及び音声を再生する再生装置と同様の構成を備えていてもよい。

また、図１におけるＨＶ−Ｓｃｒｉｐｔプレイヤー１、ＨＶドライバ２、音符単語コンバータ５の機能を実現するためのプログラムを、音声合成可能かつ楽音データの再生が可能なコンピュータシステムに読み込ませ、実行することによりＨＶ−Ｓｃｒｉｐｔによる楽曲及び音声の再生を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
以上、この発明の実施形態を、図面を参照して詳述してきたが、本発明の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれることは言うまでもない。

本発明の一実施形態である楽曲及び音声を再生する再生装置の構成を示す図である。同実施の形態における韻律記号を含む文章の一例である。韻律記号（代表例）の意味を示す図である。音符単語テーブルの一例である。音符間隔や音符長あるいはテンポを指定する記述の定義（一例）を示す図である。音符間隔や音符長あるいはテンポを指定する記述を説明する図である。ＨＶ音源の構成を示す図である。フォルマント生成部の構成を示す図である。同実施の形態の再生装置の動作を説明するフローチャートである。同実施の形態の再生装置の動作を説明するフローチャートである。同実施の形態による楽曲及び音声を再生する再生装置を具備する携帯電話の構成例を示すブロック図である。

符号の説明

１…ＨＶ−Ｓｃｒｉｐｔプレイヤー、２…ＨＶドライバ（音声再生部の一部）、３…合成辞書用メモリ、４…ＨＶ音源（音声再生部の一部）、５…音符単語コンバータ（変換部）、６…音符単語テーブル用メモリ、７…音源、８…加算器、９…スピーカ、１０…ユーザデータ用メモリ、１１…登録ＡＰＩ、２１…ＣＰＵ、２２…アンテナ、２３…通信部、２４…音声処理部、２５…音源、２６…スピーカ、２７…操作部、２８…ＲＡＭ、２９…ＲＯＭ、３０…表示部、３１…バイブレータ、４０ａ〜４０ｍ…フォルマント生成部、４１…波形発生器、４２…ノイズ発生器、４３…加算器、４４…増幅器、５０…ピッチ生成部、６０…ミキシング部

Claims

楽曲を構成する楽音の擬音を表現したテキストからなるテキストデータに基づいて前記楽曲を再生する
ことを特徴とする楽曲再生装置。
前記テキストデータにおいて記述された擬音を表現する各テキストに対し、少なくとも発音される楽音の音色が定義されている
ことを特徴とする請求項１に記載の楽曲再生装置。
前記テキストデータにおいて記述された擬音を表現したテキストに対し、さらに、発音される楽音の音高、音長の何れかが定義されている
ことを特徴とする請求項２に記載の楽曲再生装置。
音声合成させる文字を記述した文字列を解釈して音声を発生する音声再生装置において、
前記文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータが入力されると、前記楽曲用テキストを解釈して楽音データに変換する変換部と、
前記楽音データを再生する音源部と、
前記文字列を解釈して音声を再生する音声再生部と、を具備する
ことを特徴とする音声再生装置。
音声合成可能かつ楽音データの再生が可能な音声再生装置における制御方法であって、
音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、
前記楽曲用テキストを解釈して楽音データに変換する手順と、
前記楽音データを再生する手順と、
前記文字列を解釈して音声を再生する手順と、を含む
ことを特徴とする楽曲・音声再生方法。
音合成可能かつ楽音データの再生が可能なコンピュータに、
音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、
前記楽曲用テキストを解釈して楽音データに変換する手順と、
前記楽音データを再生する手順と、
前記文字列を解釈して音声を再生する手順とを実行させるためのプログラム。