JP2005156946A - 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム - Google Patents

楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム Download PDF

Info

Publication number
JP2005156946A
JP2005156946A JP2003395286A JP2003395286A JP2005156946A JP 2005156946 A JP2005156946 A JP 2005156946A JP 2003395286 A JP2003395286 A JP 2003395286A JP 2003395286 A JP2003395286 A JP 2003395286A JP 2005156946 A JP2005156946 A JP 2005156946A
Authority
JP
Japan
Prior art keywords
music
text
data
reproducing
musical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003395286A
Other languages
English (en)
Inventor
Takahiro Kawashima
隆宏 川嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2003395286A priority Critical patent/JP2005156946A/ja
Priority to CNB2004100953808A priority patent/CN100369107C/zh
Priority to KR1020040097317A priority patent/KR100650071B1/ko
Publication of JP2005156946A publication Critical patent/JP2005156946A/ja
Priority to HK05105624A priority patent/HK1073169A1/xx
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech

Abstract

【課題】 直感的に理解できるテキスト記述で楽音の再生ができ、さらに、テキスト記述される言葉の再生を行うことができる楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラムを提供する。
【解決手段】 楽曲を構成する楽音の擬音を表現したテキストからなるテキストデータに基づいて楽曲を再生する。また、音声合成させる文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータ(HV−Script)が入力されると、楽曲用テキストを解釈して楽音データに変換し、この楽音データを再生するとともに、音声合成させる文字列を解釈して音声を再生する。
【選択図】 図1

Description

本発明は、楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラムに関する。
従来より、楽曲等を再生する技術として、MIDI(Musical Instrument Digital Interface)などの時間情報付きのデータを音源に供給し楽曲を再生する方法が知られている。一方、MML(Music Macro Language)などのテキスト文字を使って楽音を作成する方法のように、所定の記号を用い、テキスト形式で記述された記号に基づき発音をさせる技術が知られている。特許文献1では、楽曲を構成する音符、休符などを英数字で表現する技術が開示されている。
特開2002−49371号公報
しかしながら、MIDIなどの時間情報付きのデータで音源により楽曲を再生する方法では、そのデータの入力に、MIDIシーケンサなどの専用の入力アプリケーションが必要であり、一般人には馴染みがなく、わかりにくい。また、MML等のような所定のテキスト文字・記号を用いて、これに従い発音を制御する方法も、同様に一般人には馴染みがなく、わかりにくい。例えば、特許文献1では、使用する英数字はテキストエディタで作成することはできるが、その英数字がどのような音を表すのかが直感的に分からないという問題があった。
他方、テキスト形式で記述された文字列を音声合成する技術が知られているが、この技術では、音声合成用の文字列を人の声に近い態様で発音するものであって、楽音の発音には対応していない。
そこで、テキスト記述での楽音の再生が容易に行えるとともに、さらに混在されて記述された発音用の言葉を音声合成できる技術が要望された。
本発明は、上記の点に鑑みてなされたもので、直感的に理解できるテキスト記述で楽音の再生ができ、さらに、テキスト記述される言葉の再生を行うことができる楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラムを提供するものである。
請求項1に記載の発明は、楽曲再生装置であって、楽曲を構成する楽音の擬音を表現したテキストからなるテキストデータに基づいて前記楽曲を再生することを特徴としている。
また、請求項2に記載の発明は、請求項1に記載の楽曲再生装置のおいて、前記テキストデータにおいて記述された擬音を表現する各テキストに対し、少なくとも発音される楽音の音色が定義されていることを特徴としている。
また、請求項3に記載の発明は、請求項2に記載の楽曲再生装置のおいて、前記テキストデータにおいて記述された擬音を表現したテキストに対し、さらに、発音される楽音の音高、音長の何れかが定義されていることを特徴としている。
また、請求項4に記載の発明は、音声合成させる文字を記述した文字列を解釈して音声を発生する音声再生装置において、前記文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータが入力されると、前記楽曲用テキストを解釈して楽音データに変換する変換部と、前記楽音データを再生する音源部と、前記文字列を解釈して音声を再生する音声再生部と、を具備することを特徴としている。
また、請求項5に記載の発明は、音声合成可能かつ楽音データの再生が可能な音声再生装置における制御方法であって、音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、前記楽曲用テキストを解釈して楽音データに変換する手順と、前記楽音データを再生する手順と、前記文字列を解釈して音声を再生する手順と、を含むことを特徴としている。
また、請求項6に記載の発明は、音合成可能かつ楽音データの再生が可能なコンピュータに、音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、前記楽曲用テキストを解釈して楽音データに変換する手順と、前記楽音データを再生する手順と、前記文字列を解釈して音声を再生する手順とを実行させるためのプログラムである。
本発明によれば、再生させる楽音を、擬音を表す文字で記述するので、その記述は直感的に理解できるものであり一般人にも分かりやすい。
また、再生される楽音または言葉(あるいはさらに韻律を付加した言葉)は、テキストで記述されるので、いわゆるテキストエディタがあればその記述を容易に作成することができる。
また、1つのテキストファイルで、音声合成させる言葉に加え、再生させる楽音の記述ができるので、ユーザは、手軽にこれらを組み合わせ、その再生を行うことができる。
以下、本発明の実施の形態を、図面を参照して説明する。
図1は、この発明の一実施形態である楽曲及び音声を再生する再生装置の構成を示す図である。同図において、HV−Script(HV:Human Voice)は、テキスト・ファイルであり、音声及び楽音を再生するために所定の記号を含んで記述されたファイルである。ここでのHV−Scriptは、韻律記号(アクセントなどの発音態様を指定するための記号)を含む音声合成の対象となる発音文字列、及び後述の音符単語を含んでいる。
図1において、1はHV−Scriptプレイヤーであり、HV−Scriptの再生や停止などを制御する。HV−Scriptが入力され、その再生指示を受けた場合、HV−Scriptプレイヤー1はHV−Scriptの解釈を開始する。そして、HV−Scriptに記述されている内容に応じて、HVドライバ2、音符単語コンバータ5、のいずれかに対して処理を行わせる。また、HV−Scriptに後述の音符単語が記述されている場合、その音符間隔(デュレーション)の時間管理も行う。
HVドライバ2は合成辞書用メモリ3から合成辞書を参照し下記の処理を行う。人の声は声帯や口腔などの形状に依存するフォルマント(固有の周波数スペクトル)を有しており、合成辞書はこのフォルマントに係るパラメータを保持している。合成辞書は、実際の音が発音文字単位で(例えば「あ」・「い」など)サンプリングおよび分析された結果によって得られたパラメータをフォルマントフレームデータとして発音文字単位で予め保持しているデータベースである。このデータベースは、さらに、後述の韻律記号に応じて上記フォルマントに係るパラメータを変えるためのデータを保持している。
HVドライバ2は、HV−Script中の韻律記号を含んだ発音文字列などを解釈し、上記合成辞書を用いて標準の発音のフォルマントフレームデータに、韻律記号で指定されたイントネーション等を変える変更を加えたフォルマントフレーム列へと変換し、HV音源4へ出力する。HV音源4は(詳細は後述する)、HVドライバ2によって出力されたフォルマントフレーム列に基づいて発音信号を生成し、加算器8へ出力する。
ここで、上記韻律記号について説明する。図2に、HV−Scriptを含む文章の一例を示している。
この例では、同図の符号(1)の専用制御文字で挟まれた「か_3さが ほ^5し_4い’4ね$2ー」の部分がHV−Scriptであり、他の部分が通常のテキスト文である。このHV−Script「か_3さが ほ^5し_4い’4ね$2ー」は、「かさがほしいねー」という言葉にイントネーションを付加して音声合成させるための韻律記号を用いた記述である。この例に記述された記号「’」、「^」、「_」、「$」等が韻律記号であり、文字(かな文字)に付加するイントネーションの種別を示すもので、この記号の後の文字(この記号の直後に数値がある場合は、この数値に続く文字)に対して、所定のアクセントを付加するものである。
図3(a)に、各韻律記号(代表例)の意味を示している。同図に示す「’」は、語頭でピッチを上げ(図3(b)(1)参照)、「^」では発音中ピッチを上げ(図3(c)(3)参照)、「_」は、語頭でピッチを下げ(図3(b)(2)参照)、「$」では、発音中ピッチを下げるように(図3(c)(4)参照)音声合成を行うことを意味している。また、上記記号の直後に数値が付加される場合は、その数値は付加するアクセントの変化量を指定するものである。例えば、「か_3さが」では、「さ」を語頭でピッチを3の量だけ下げることを示し、「が」をその下げたピッチで発音し、「か」は、標準の高さで発音することを示す。
このように、発音させる言葉に含まれる文字にアクセント(イントネーション)を付加する場合に、その文字の直前に、図2に示すような記号(さらには、イントネーションの変化量を示す数値)を付加する記述をする。なお、本実施の形態ではピッチを制御する記号についてのみ説明したが、これら以外に音の強弱、速度、音質等を制御する記号を用いることもできる。
以上、韻律記号について説明した。
音符単語コンバータ5は、HV−Scriptに含まれる音符単語を、下記のデフォルト音符単語テーブル、さらにユーザ定義音符単語テーブルが登録されている場合にはそれを参照し、これらに基づき音符情報(楽音データ)に変換して音源7に出力する。6はデフォルト音符単語テーブルを記憶する音符単語テーブル用メモリである。このデフォルト音符単語テーブルには、図4に示すように、予め定義された音符単語毎に、音色名、プログラムチェンジ、ノート番号、発音長が定義されている。
ここで音符単語とは、人が直感的に分かる擬音(例えば、「どん」、「ぱん」等)を表現する文字または文字列を基本として記述される単語である。この音符単語には、図4に示す例のように、さらに音階を表す記号(C3,C#3,C4,E3,F3,G3等)等を付加してもよい。
また、HV−Scriptでは、それ以降の文字・文字列を音符単語とみなす音符単語モードを指定する所定の記号(本実施の形態では、この記号をZ1として説明する)と、この音符単語モードを解除する記号(以下では、Z0とする)を用いる。
音符単語テーブルにおいて、音色名は、対応する音符単語を再生した場合の音色を示す。プログラムチェンジ、ノート番号、発音長の組は、上記音符情報に相当する。図4に示す例は、MIDI(Musical Instrument Digital Interface)を利用する場合の例であり、プログラムチェンジは、楽器の別(ドラムの場合は、このプログラムチェンジによりさらに区別される)を表すものであり、ノート番号は音程を表し、発音長は発音する音符の長さを表している(ただし、同図において発音長は音符の種類を例示しているが、データとしては対応する発音長となるゲートタイムが定義される)。
また、さらに詳細な音符間隔や音符長の入力を支援するために図5のように音符間隔や音符長あるいはテンポを指定する記述を定義してもよい。同図において、X[数値]は、前の発音から次の発音までの時間間隔(音符間隔)を指定された数値とすることを指定するものである。また、Y[数値]は、該当する楽音を指定された数値だけのばして発音するために指定するものである(いずれも、図6(a)参照)。T[数値]は、テンポを指定するものである(図6(b)参照)。
ここで、音符単語を含むHV−Scriptの記述例を示す。
(例1)
「えいとびいとだよZ1X400どんぱんどどぱんZ0いかが?」
この例では、Z1からZ0までが音符単語であり、これを再生すると、「8ビートだよ」と発音し、続いてドラムの8ビートのリズムを再生して(ただし、最初の“どん”を発音するまで400msの時間間隔をとる)、「いかが?」と発音することになる。
(例2)
「T100ぶE3ぶF3ぶんG3ぶんE4ぶんC4Y800」
100のテンポでベースの音色が記載通りに再生する。最後の「ぶんC4Y800」では、ぶんC4の再生音を800ms延ばしている。
また、ユーザはユーザデータ用メモリ10中のユーザ定義音符単語テーブルを登録API(Application Program Interface)11を経由して音符単語テーブル用メモリ6に格納することができる。音符単語コンバータ5は、HV−Scriptプレイヤー1から音符単語を受けると、音符単語テーブル用メモリ6の音符単語テーブルを参照して音符単語を音符情報に変換し、音源7へ出力する。音源7は音符単語コンバータ5から出力された音符情報に基づいて楽音信号を生成し、加算器8へ出力する。なお、音源7としては、MIDI対応の、FM(Frequency Modulation Sound)音源やPCM(Pulse Coded Module Sound Source)音源などが利用できる。
加算器8はHV音源4によって出力される発音信号、および音源7によって出力される楽音信号を合成し、合成された信号をスピーカ9へ出力する。スピーカ9は加算器8によって合成された信号に基づいて音声または楽音を発する。
ここで、HV音源4の詳細について、図7,8を参照し説明する。
HV音源4は、CSM(複合正弦波モデル)音声合成方式によるものであるが、この場合、1つの音素が8種のフォルマントから構成されるものとして、前述の合成辞書には、8組のフォルマント周波数、フォルマントレベルおよびピッチ情報などをパラメータとして保持させている。
図1に示すHV音源4は、図7に示すように8個のフォルマント生成部40a〜40hと1個のピッチ生成部50を有しており、発音用シーケンサ(図示せず)から出力されるフォルマントに関するパラメータ及びピッチ情報に基づいて各フォルマント生成部40a〜40hで対応するフォルマント信号を発生し、このフォルマント生成部40a〜40hにおいて生成された各フォルマントをミキシング部60で合成して音素を生成する。そしてこの音素の生成を連続して行うことにより、合成した音声を生成する。なお、各フォルマント生成部40a〜40hはフォルマント信号を発生させるためにその元となる基本波形を発生させるが、この基本波形の発生には、例えば、周知のFM音源の波形発生器を利用することができる。ピッチ生成部50は、演算によりピッチ(音程)を生成する機能を有し、発音する音素が有声音の場合にのみ、演算したピッチを生成される音素に付加する。
次に、図8を用いて、上記フォルマント生成部40a〜40hの構成について説明する。
図8に示すように、フォルマント生成部40a〜40hの各々は、波形発生器41と、ノイズ発生器42と、加算器43と、増幅器44とから構成されている。
波形発生器41は、音素毎フォルマント毎に指定されるフォルマント周波数、フォルマントの基本波形(正弦波、三角波、…)及び波形の位相に基づき、1音素を構成するフォルマントの1つを順次発生する。ノイズ発生器42は、波形発生器41にて発生されたフォルマントが有声音か無声音かに従って、無声音の場合にはノイズを発生し加算器43に供給する。
加算器43は、波形発生器41にて生成されたフォルマントに、ノイズ発生器42から供給されるノイズを加算する。そして加算器43の出力は、増幅器44によりフォルマントレベルに増幅され出力される。
上記各フォルマント生成部40a〜40hの構成は、音素を構成する1つのフォルマントに関するものである。1つの音素は、いくつものフォルマント(ここでは8種)が合成されて形成されている。したがって、1つの音素を生成するためには、音素を構成する各フォルマントを生成して、これを合成する必要がある。そのために図7の構成をとりフォルマントパラメータを用いた音声合成を行っている。
以上のように、CSM音声合成では、周波数パラメータ、振幅パラメータ等に基づき合成されるフォルマント音を複数合成することにより音素を決定し音声合成することができる。例えば、「さくら」を音声合成する場合、数msから数十ms毎に複数組の上記パラメータを設定することにより、/S/→/A/→/K/→/U/→/R/→/A/の6音素を合成して発音させる。
各フォルマント生成部に与えるパラメータは、前述のように各音素毎に予め定義され、合成辞書に登録されている。また、各文字を構成する音素に関する情報、例えば、「さ」の場合、この文字の音素/S/、/A/からなること等の情報も、同様に合成辞書内に登録されている。また、韻律記号によりアクセントが変えられる場合は、当該韻律記号が適用される各音素に対応するフォルマントフレームデータに韻律記号に応じた変更が加えられHV音源4に与えられる。
以上、本実施の形態の再生装置1の構成の詳細を説明した。
次に、上述した再生装置1の動作を、図9、10のフローチャートを用いて説明する。
まず、図9に示すように、必要であればユーザによってユーザ定義音符単語テーブルが入力され登録される(ステップS01)。ユーザがデフォルト音符単語テーブルのみを利用する場合は、この登録は省略される。ユーザにより入力されユーザデータ用メモリ10に格納されたユーザ定義音符単語テーブルは、登録API11がユーザデータ用メモリ10から読み込み、このテーブルを音符単語用メモリ6に格納する。
次いで、ユーザによってHV−Scriptがテキストエディタなどにより作成され、HV−Scriptプレイヤー1に登録される(ステップS02)。
次いで、ユーザによってスタート指示がなされると、図10に示す処理が実行される。
以下では、登録されたHV−Scriptは、音声合成の対象となる発音文字列が記述されており、また、その発音文字列の並びの中に音符単語が記述されているものとしている。
HV−Scriptプレイヤー1はHV−Scriptに記述された文字列の解釈を開始する。HV−Scriptプレイヤー1は、HV−Script中の記述を順に解釈し、音符単語モード指定記号である「Z1」があるかどうか判定する(ステップS11)。
音符単語モード指定記号(Z1)が検出された場合、さらに音符単語モード解除記号である「Z0」があるか判定する(ステップS12)。
ステップS12でNoと判定された場合、すなわち音符単語モード指定記号(Z1)が検出され、音符単語モード解除記号(Z0)ではない場合、HV−Scriptプレイヤー1は、以降の文字列で次に出現する音符単語モード解除記号(Z0)の前(音符単語モード解除記号(Z0)が全くない場合は最後)の文字までを音符単語として音符単語コンバータ5に出力する(ステップS13)。
音符単語のデータを受けた音符単語コンバータ5は、音符単語用メモリ6に格納されたデフォルト音符単語テーブル及びユーザ定義音符単語テーブルを参照し、当該音符単語に対応する前述の音符情報に変換する。また、音符単語コンバータ5は、音符単語の付帯情報として記述された時間情報を解釈し、時間管理を行い、該当時間に達したときに必要な音符情報を音源7へ出力する(ステップS14)。
音符単語コンバータ5から音符情報を受けた音源7は、この音符情報に基づき楽音信号を加算器8を介してスピーカ9へ出力する(ステップS15)。これにより、スピーカ9から楽音が再生される。
一方、ステップS11またはステップS12の判断で、音符単語モード指定記号(Z1)がない、または、音符単語モード解除記号(Z0)があると判定された場合、解釈対象の文字以降の文字列で、音符単語モード指定記号(Z1)の前の文字までを発音文字列としてHVドライバ2へ出力する(ステップS16)。
上記発音文字列を受けたHVドライバ2は、合成辞書用メモリ3に格納された合成辞書を参照し、フォルマントフレーム列に変換する。発音文字列に韻律記号が含まれる場合には、それに応じ変更を加えたフォルマントフレーム列をHV音源4に出力する(ステップS17)。
HV音源4は、HVドライバ2から受けたフォルマントフレーム列に基づき音声合成を行い、音声信号を加算器8を介してスピーカ9へ出力する(ステップS18)。これにより、スピーカ9から音声合成された発音文字列が発音される。
以後、ステップS19の判断で当該HV−Scriptの最後が検出されるまで、HV−Scriptプレイヤー1は、ステップS11〜S19の処理を繰り返し、HV−Scriptの最後が検出された時点で終了する。
なお、上記で説明した動作フローは一例であり、本発明は上記の処理の流れに限定されるものではない。
次に、上述の再生装置を携帯電話機に適用した場合の例を説明する。
図11は本実施形態による楽曲及び音声を再生する再生装置を具備する携帯電話の構成例を示すブロック図である。
同図において21は各部を制御するCPUである。22はデータ送受信用のアンテナである。23は通信部であり、送信用データを変調してアンテナ22へ出力すると共に、アンテナ22によって受信された受信用データを復調する。24は音声処理部であり、通話時に通信部23から出力される通話相手の音声データを音声信号に変換してイヤスピーカ(図示せず)へ出力し、マイク(図示せず)から出力される音声信号を音声データに変換して通信部23へ出力する。
25は音源であり、図1で示したHV音源4、音源7と同様の機能を有している。26はスピーカであり、音声や楽音を発音する。27はユーザによる操作を受け付ける操作部である。28はHV−Scriptや、ユーザが定義するユーザ定義音符単語テーブルなどを記憶するRAMである。29はCPU21が実行するプログラムや、合成辞書、デフォルト音符単語テーブルなどが格納されたROMである。30は表示部であり、ユーザによる操作結果や携帯電話の状態などを表示する。31はバイブレータであり、着信時などにCPU21から指示を受け、振動する。上記各部はバスBを介して接続されている。
携帯電話は音声から波形データを生成する機能を備えており、マイクから入力された音声が音声処理部24によって波形データに変換され、この波形データがRAM28に格納される。また、通信部23によってWebサーバから楽曲フレーズデータがダウンロードされた場合、この楽曲フレーズデータがRAM28に格納される。
CPU21はROM29に格納されたプログラムに従って、図1で示したHV−Scriptプレイヤー1、HVドライバ2、音符単語コンバータ5と同様の動作を行う。CPU21はRAM28からHV−Scriptを読み出し、HV−Scriptの中の記述を解釈する。その記述の中で、所定の専用制御文字で挟まれている部分は、音声合成による発音対象の発音文字列であるので、CPU21はROM29から合成辞書を参照し、この発音文字列をフォルマントフレーム列へ変換し、音源25へ出力する。
一方、HV−Scriptの中の記述が、音符単語モード指定記号(Z1)と音符単語モード解除記号(Z0)で挟まれている部分は、楽音再生用の音符単語であるので、CPU21はRAM28に格納されたデフォルト音符単語テーブル及びユーザ定義音符単語テーブルを参照し、この音符単語を前述の音符情報に変換し、音源25へ出力する。
音源25は、CPU21からフォルマントフレーム列が出力された場合、そのフォルマントフレーム列に基づいて音声信号を生成し、スピーカ26へ出力する。また、CPU21から楽音信号が出力された場合、この楽音信号に基づいて発音信号を生成し、スピーカ26へ出力する。そして、スピーカ26は音声信号、または楽音信号に基づいて音声または楽音を発する。
ユーザは操作部27を操作することによって、テキスト編集に対応したソフトウェアを起動し、表示部30に表示される内容を確認しながらHV−Scriptを作成することができる。また作成したHV−ScriptをRAM28に保存することができる。
さらに、作成したHV−Scriptを着信メロディに応用することもできる。この場合の動作は以下のようになる。なお、着信時にHV−Scriptを用いることが設定情報としてRAM28に予め格納されているとする。通信部23がアンテナ22を介して、他の携帯電話等から送信された発呼情報を受信すると、通信部23はCPU21へ着信を通知する。通知を受けたCPU21はRAM28から設定情報を読み出し、設定情報が示すHV−ScriptをRAM28から読み出し、その解釈を開始する。以後の動作は前述した通りであり、HV−Scriptの記述に従って、スピーカ26から音声または楽音が発せられる。
ユーザは電子メールにHV−Scriptを含ませて他の端末に送信することもできる。HV−Scriptは、図2に示す例のように、符号(1)の専用制御文字で挟んで電子メールの本文中や、電子メールのタイトル部分に記述してもよいし、あるいは、所定の添付ファイル(例えば、その拡張子により、HV−Scriptが含まれていることが識別できる添付ファイル)の中に記述し、送信する電子メールに添付するようにしてもよい。そして、CPU21が電子メールの本文または添付ファイルをHV−Scriptとして解釈し、ユーザによって指示がなされたときに電子メール中の記述に従って音声処理部24へ再生指示を出力するようにしてもよい。なお、HV−Scriptが図2の様にその他の文字列に含まれる形である場合、CPU21は専用制御文字で挟まれている以外の文字列は読み飛ばし音声合成や楽音再生の対象としない。
なお、HV−Scriptプレイヤー1、HVドライバ2、波形再生プレイヤー4、およびフレーズ再生プレイヤー7の機能は必ずしもCPU21が具備する必要はない。音源25が前記機能のいずれかを具備するようにしてもよい。また、携帯電話に限らず、PHS(登録商標)(Personal handyphone system)、携帯情報端末(PDA:Personal Digital Assistance)などの携帯端末が本実施形態による楽曲及び音声を再生する再生装置と同様の構成を備えていてもよい。
また、図1におけるHV−Scriptプレイヤー1、HVドライバ2、音符単語コンバータ5の機能を実現するためのプログラムを、音声合成可能かつ楽音データの再生が可能なコンピュータシステムに読み込ませ、実行することによりHV−Scriptによる楽曲及び音声の再生を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態を、図面を参照して詳述してきたが、本発明の具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の構成等も含まれることは言うまでもない。
本発明の一実施形態である楽曲及び音声を再生する再生装置の構成を示す図である。 同実施の形態における韻律記号を含む文章の一例である。 韻律記号(代表例)の意味を示す図である。 音符単語テーブルの一例である。 音符間隔や音符長あるいはテンポを指定する記述の定義(一例)を示す図である。 音符間隔や音符長あるいはテンポを指定する記述を説明する図である。 HV音源の構成を示す図である。 フォルマント生成部の構成を示す図である。 同実施の形態の再生装置の動作を説明するフローチャートである。 同実施の形態の再生装置の動作を説明するフローチャートである。 同実施の形態による楽曲及び音声を再生する再生装置を具備する携帯電話の構成例を示すブロック図である。
符号の説明
1…HV−Scriptプレイヤー、2…HVドライバ(音声再生部の一部)、3…合成辞書用メモリ、4…HV音源(音声再生部の一部)、5…音符単語コンバータ(変換部)、6…音符単語テーブル用メモリ、7…音源、8…加算器、9…スピーカ、10…ユーザデータ用メモリ、11…登録API、21…CPU、22…アンテナ、23…通信部、24…音声処理部、25…音源、26…スピーカ、27…操作部、28…RAM、29…ROM、30…表示部、31…バイブレータ、40a〜40m…フォルマント生成部、41…波形発生器、42…ノイズ発生器、43…加算器、44…増幅器、50…ピッチ生成部、60…ミキシング部

Claims (6)

  1. 楽曲を構成する楽音の擬音を表現したテキストからなるテキストデータに基づいて前記楽曲を再生する
    ことを特徴とする楽曲再生装置。
  2. 前記テキストデータにおいて記述された擬音を表現する各テキストに対し、少なくとも発音される楽音の音色が定義されている
    ことを特徴とする請求項1に記載の楽曲再生装置。
  3. 前記テキストデータにおいて記述された擬音を表現したテキストに対し、さらに、発音される楽音の音高、音長の何れかが定義されている
    ことを特徴とする請求項2に記載の楽曲再生装置。
  4. 音声合成させる文字を記述した文字列を解釈して音声を発生する音声再生装置において、
    前記文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータが入力されると、前記楽曲用テキストを解釈して楽音データに変換する変換部と、
    前記楽音データを再生する音源部と、
    前記文字列を解釈して音声を再生する音声再生部と、を具備する
    ことを特徴とする音声再生装置。
  5. 音声合成可能かつ楽音データの再生が可能な音声再生装置における制御方法であって、
    音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、
    前記楽曲用テキストを解釈して楽音データに変換する手順と、
    前記楽音データを再生する手順と、
    前記文字列を解釈して音声を再生する手順と、を含む
    ことを特徴とする楽曲・音声再生方法。
  6. 音合成可能かつ楽音データの再生が可能なコンピュータに、
    音声合成させる文字を記述した文字列と、楽曲を構成する楽音の擬音を表現したテキストからなる楽曲用テキストとが混在して記述されているテキストデータの入力を受ける手順と、
    前記楽曲用テキストを解釈して楽音データに変換する手順と、
    前記楽音データを再生する手順と、
    前記文字列を解釈して音声を再生する手順とを実行させるためのプログラム。

JP2003395286A 2003-11-26 2003-11-26 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム Pending JP2005156946A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003395286A JP2005156946A (ja) 2003-11-26 2003-11-26 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム
CNB2004100953808A CN100369107C (zh) 2003-11-26 2004-11-24 乐音及语音再现装置和乐音及语音再现方法
KR1020040097317A KR100650071B1 (ko) 2003-11-26 2004-11-25 악음·음성 재생 장치 및 악음·음성 재생 방법
HK05105624A HK1073169A1 (en) 2003-11-26 2005-07-05 Musical tone and human speech reproduction apparatus and musica tone and human speech reproduction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003395286A JP2005156946A (ja) 2003-11-26 2003-11-26 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2005156946A true JP2005156946A (ja) 2005-06-16

Family

ID=34721096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003395286A Pending JP2005156946A (ja) 2003-11-26 2003-11-26 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム

Country Status (4)

Country Link
JP (1) JP2005156946A (ja)
KR (1) KR100650071B1 (ja)
CN (1) CN100369107C (ja)
HK (1) HK1073169A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157274A (zh) * 2014-05-24 2014-11-19 熊世林 用于程序中的基于文本格式的记谱法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070059253A (ko) * 2005-12-06 2007-06-12 최종민 언어를 상징적 선율로 변환시키는 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067572A (ja) * 1999-08-24 2001-03-16 Dainippon Printing Co Ltd 信号監視用音楽再生システム
US6694297B2 (en) * 2000-03-30 2004-02-17 Fujitsu Limited Text information read-out device and music/voice reproduction device incorporating the same
JP2002048371A (ja) * 2000-08-02 2002-02-15 Hazama Gumi Ltd エアシャワー装置
JP2002162966A (ja) * 2000-11-24 2002-06-07 Yamaha Corp 演奏情報編集装置、演奏情報編集方法及び記憶媒体
FR2830666B1 (fr) * 2001-10-05 2004-01-02 Thomson Multimedia Sa Procede et dispositif de generation musicale automatique et applications
JP3932258B2 (ja) * 2002-01-09 2007-06-20 株式会社ナカムラ 緊急脱出用梯子
US20030200858A1 (en) * 2002-04-29 2003-10-30 Jianlei Xie Mixing MP3 audio and T T P for enhanced E-book application

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104157274A (zh) * 2014-05-24 2014-11-19 熊世林 用于程序中的基于文本格式的记谱法

Also Published As

Publication number Publication date
CN1622194A (zh) 2005-06-01
KR20050050583A (ko) 2005-05-31
CN100369107C (zh) 2008-02-13
KR100650071B1 (ko) 2006-11-27
HK1073169A1 (en) 2005-09-23

Similar Documents

Publication Publication Date Title
US5704007A (en) Utilization of multiple voice sources in a speech synthesizer
JP3938015B2 (ja) 音声再生装置
US5930755A (en) Utilization of a recorded sound sample as a voice source in a speech synthesizer
JP2014501941A (ja) クライアント端末機を用いた音楽コンテンツ製作システム
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP4277697B2 (ja) 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
JP6474518B1 (ja) 簡易操作声質変換システム
KR100634142B1 (ko) 휴대 단말 장치
TW529018B (en) Terminal apparatus, guide voice reproducing method, and storage medium
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2005156946A (ja) 楽曲再生装置、音声再生装置、楽曲及び音声を再生する方法及びそのプログラム
JP2001051688A (ja) 音声合成を用いた電子メール読み上げ装置
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
KR100612780B1 (ko) 음성 및 악곡 재생 장치
JPH11249679A (ja) 音声合成装置
JP5471138B2 (ja) 音素符号変換装置および音声合成装置
JP3233036B2 (ja) 歌唱音合成装置
JPH0895588A (ja) 音声合成装置
JP4366918B2 (ja) 携帯端末
JP2000231396A (ja) セリフデータ作成装置、セリフ再生装置、音声分析合成装置及び音声情報転送装置
JP5481957B2 (ja) 音声合成装置
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
JPH1039896A (ja) 歌唱音声合成装置及び方法
JP2005107136A (ja) 音声および楽曲再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090224