JP6299141B2

JP6299141B2 - 楽音情報生成装置および楽音情報生成方法

Info

Publication number: JP6299141B2
Application number: JP2013216251A
Authority: JP
Inventors: 入山　達也; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2018-03-28
Anticipated expiration: 2033-10-17
Also published as: JP2015079130A

Description

本発明は歌詞に楽音情報を付与する技術に関する。

入力された歌詞に応じたメロディをつける、いわゆる自動作曲の技術がある。特許文献１には、入力された歌詞を単語に分解し、単語の抑揚情報を参照することによって、各単語に対して音高情報を生成する装置が開示されている。この技術によれば、ユーザは、楽音情報を指定する作業を行う必要なく、歌詞を入力するだけでメロディを取得することができる。

特開２００２−１４９１７９号公報

従来の技術では、入力した歌詞に対応して自動的に１つのメロディが生成される。つまり、歌詞を決定するとメロディが一意に決定されてしまうので、ユーザの好み等に応じて、１つの歌詞から様々なメロディを生成することはできない。
本発明は、歌詞に応じて生成される楽音情報に自由度を持たせることを目的とする。

本発明は、一の態様において、互いに異なる抑揚表現に対応する第１の楽音情報と第２の楽音情報とを記憶する記憶部と、歌詞を入力する入力部と、楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定する指定部と、前記入力部にて入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成する生成部と、前記指定部により指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正する補正部であって、その補正量を前記第１の楽音情報と前記第２の楽音情報と前記パラメータとを用いて決定する前記補正部とを有する楽音情報生成装置を提供する。
好ましい態様において、前記楽音情報には、各形態素について、前記音高に加え、音の長さ、音の強弱、音高の時間変化および音の強弱の時間変化のうち少なくともいずれか一つが含まれる。
好ましい態様において、前記第１の楽音情報は音楽的な表現を代表し、前記第２の楽音情報は非音楽的な表現を代表する。
好ましい態様において、前記指定部は、前記パラメータの値と当該値が適用される期間とを指定する。
本発明は、他の観点において、互いに異なる抑揚表現に対応する第１の楽音情報と第２の楽音情報とを記憶するステップと、歌詞を入力するステップと、楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定するステップと、該入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成するステップと、該指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正するステップとを有し、前記補正するステップにおいて、その補正量を、前記第１の楽音情報と前記第２の楽音情報と前記パラメータとを用いて決定することを特徴とする楽音情報生成方法を提供する。

本発明によれば、歌詞に応じて生成される楽音情報に自由度を持たせることができる。

楽音情報生成装置１０の機能ブロック図である。楽音情報生成装置１０の動作フローである。入力画面の一例を表す図である。歌詞に基づいて生成されるピッチカーブの一例である。歌詞に基づいて生成されるピッチカーブの一例である。パラメータに対応するピッチカーブの一例である。入力画面の他の例を表す図である。入力画面の他の例を表す図である。入力画面の他の例を表す図である。入力画面の他の例を表す図である。入力画面の他の例を表す図である。

図１は楽音情報生成装置１０の機能ブロック図である。楽音情報生成装置１０は、制御部１１、入力部１２、記憶部１３、表示部１４、放音部１８を含む。好ましい態様において、楽音情報生成装置１０は、一般的なコンピュータとしての機能を有する。コンピュータには、デスクトップＰＣの他、スマートフォンなどの携帯端末が含まれる。

入力部１２は、キーボード、マウス、タッチパネル、マイクなどの、ユーザが情報や指示を楽音情報生成装置１０に入力するために用いられる入力装置である。ユーザは、入力部１２を介して、所望の歌詞およびパラメータを入力する。パラメータとは、決定部１６にて生成された複数の楽音情報によって表されるメロディを補正する際に補正部１７が用いる情報である。この実施例では、パラメータは、補正後の楽音情報の歌らしさまたは話し言葉らしさを表す一の指標である。なお、以下における「歌詞」とは、音階や拍などによって表される一般的な楽曲によって規定される音程や音長に従って発声を行うもののみを意味するのではなく、一般的な言葉を含み、文字によって特定することができる文字情報をいう。同様に、「メロディ」とは、音階や拍などによって表される一般的な楽曲の枠組みに従って生成されるもののみを意味するものでなく、少なくとも音程の情報を含む、歌詞を発話するガイドとなる楽音情報をいう。例えば、「今日はいい天気」という文字情報は歌詞になり得るし、ピッチを時間の関数であらわした場合に連続的に変化するものも「メロディ」となり得る。

表示部１４は、液晶パネルやその駆動回路を含み、画像を表示する。具体的には、表示部１４は、補正部１７から出力された楽音情報に基づいて生成されたメロディを表す画面を生成する。

記憶部１３は、ハードディスクや半導体メモリ等の記憶装置である。記憶部１３には、制御部１１の機能を発揮させるためのプログラムの他、データベース１５が格納される。データベース１５は、形態素と抑揚（イントネーション）の情報とを対応付けて記憶している。抑揚の情報には、その形態素がどのような音程で発音されるべきなのか、発音中に音高がどのような時間変化するのか、発音がどれくらい持続するのか（発音開始および発音終了のタイミングによって定まる音の長さ）が含まれる。より具体的には、抑揚の情報は一のパラメータに対して２種類記憶される。本実施例の歌らしさを表すパラメータに対しては、１つは、その歌詞が発音されたとき最も歌らしく聞こえる抑揚の付け方（いわば歌らしさ１００％に対応）を表すものであり、他方は、その歌詞が発音されたとき話し言葉らしく聞こえる（いわば歌らしさ０％に対応）抑揚の付け方を規定するものである。なお、ここでいう抑揚とは、抑揚がゼロの場合をも含む概念である。
なお、歌らしさが「１００％」、「０％」という概念は、抑揚の程度の表現の仕方の一例にすぎない。例えば、２つの楽音情報は、それぞれ音楽的（または歌唱的）な表現を代表するものと、非音楽的（または非歌唱的）な表現を代表するもの把握することも可能である。要するに、２つの楽音情報は互いに異なる抑揚表現に対応する。

なお、形態素とは、一般的には、意味をもつ最小の単位をいい、一の形態素は一の音素または複数の音素（音素のまとまり）に対応するものである。しかし、本実施例における形態素とは、このような音声学または言語学上の意味に必ずしも限定されない。要するに、その形態素に意味のある音の割り当てを行うことができる最小の単位、またはこの最小単位を所定の規則でまとめたものである。
例えば、日本語の場合、五十音の清音とこれに濁音、半濁音、長音、促音、撥音、拗音を組み合わせてえられる音、およびこれらの音を複数組み合わせたものを形態素と定義することができる。このように形態素の定義は任意であり、言語によって適切な適宜は異なり得るが、本発明はすべての言語に適用することが可能である。
以下では、入力される言語は日本語であり、形態素として五十音およびこれらの濁音、半濁音、長音、促音、撥音、拗音の組み合わせ（五十音等という）を採用する。すなわち、入力された歌詞は五十音等に分解され、分解された各音に対して楽音情報の付与が行われる例を示す。

制御部１１は、ＣＰＵや音声処理プロセッサ等のプロセッサによって実現され、決定部１６および補正部１７を含む。
決定部１６は、入力部１２にて入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成する。具体的には、決定部１６は、既存の形態素解析アルゴリズムを用いて、歌詞から単語や文章から形態素を抽出する。続いて、決定部１６は、データベース１５を参照し、各形態素に対し楽音情報を生成する。一の形態素についての楽音情報には、当該形態素を発音する際の音高が少なくとも含まれ、好ましくは、これに加えて音長の情報が含まれる。好ましい態様において、楽音情報は、音程や音長の情報に加えて、強弱（音量）についての情報を含んでいてもよい。この実施例では、音高および音長のみを含む楽音情報が生成される例を説明する。

各形態素に対して楽音情報が決定されることは、歌詞を構成する全ての形態素についての、発音の開始タイミング、発音の終了タイミング、および発音されている期間における音高の変化（変化しない場合も含む）が決定されることを意味する。従って、全ての形態素について楽音情報をつなぎ合わせれば、入力された歌詞に対応する一つのメロディが生成されることになる。本実施例では、歌詞に対応して生成される楽音情報には、各形態素に対応して発音される音の高さ（ピッチ）に関する情報が少なくとも含まれるため、歌詞に対応するメロディ（つまり歌詞を構成する各形態素の楽音情報をつなぎ合わせたもの）をピッチカーブとして表現する。

上述の通り、抑揚の情報には２種類あり、それぞれの情報を用いた楽音情報が生成される。つまり、歌らしさが０％に対応する第１の楽音情報と、歌らしさが１００％に対応する第２楽音情報とが生成される。換言すると、一の歌詞に対応して複数の第１の楽音情報からなる第１のメロディと、当該一の歌詞に対応して複数の第２の楽音情報からなる第２のメロディとが生成される。
例えば、第１の楽音情報については、歌詞の時間軸方向のタイミングを保つ（すなわち各形態素の発音タイミング間の間隔を一定にする）ように、既存の音声合成技術を用いて作成される。この際、例えば形態素または形態素の一定のまとまりに対応付けられた楽音情報（音程や音程の時間変化に関する情報）をデータベース１５からから読み出して使用して参照してもよい。あるいは、既存の音声合成技術を用いてピッチカーブ情報を生成し、このピッチカーブ情報に基づいて第１のメロディを生成してもよい。なお、生成された第１のメロディや第２のメロディは、入力部１２を用いてユーザが修正できるようにしてもよい。換言すると、入力された歌詞に対応する第１のメロディおよび第２のメロディは、自動的または半自動的に決定される。なお、第２の楽音情報は、全ての音高および音量が一定であるという情報（換言すると、実質的な楽音情報が存在しない状態）であってもよい。
生成された第１のメロディおよび第２のメロディは、補正部１７における補正処理の基準として用いられる。

補正部１７は、入力部１２から入力されたパラメータに基づいて、入力部１２にて入力された歌詞に対応して生成された複数の楽音情報を一括して補正することによって、ユーザに提供する最終的な楽音情報を決定する。具体的には、指定されたパラメータを用いて第１のメロディと第２のメロディを補間することにより、ユーザに提供する最終的な一の第３のメロディを生成する。

放音部１８は、音声処理回路、スピーカ、アンプ等によって実現され、補正部１７から供給される楽音情報と、入力部１２から供給される所定の指示とに基づいて放音の開始や停止を行う。

図２は楽音情報生成装置１０の動作を表す。まず、ユーザは歌詞を入力する（Ｓ１００）。続いて、ユーザは、入力部１２を用いてパラメータを入力する（Ｓ１０２）。決定部１６は、入力された歌詞を解析し（Ｓ１０４）、データベース１５を参照し、上述した基準メロディを２つ生成する（Ｓ１０６）。補正部１７は生成された基準メロディとパラメータとに基づいて一のメロディを生成する（Ｓ１０８）。補正部１７にて生成されたメロディは、表示部１４にて表示される（Ｓ１１０）。以下、各処理について詳説する。

図３は、歌詞の入力およびパラメータの指定を行う画面の一例を表す。
この画面は、大きく、エリアＲ１とエリアＲ２とボタンＢ１とボタンＢ２によって構成される。
エリアＲ１は、歌詞すなわちテキスト情報を入力するフィールドである。エリアＲ２には、パラメータを指定するためのオブジェクトとしてスライダＤ１および入力フィールドＦ１が配置される。ユーザはスライダＤ１を動かすもしくは入力フィールドＦ１内に数値を入力することにより、入力された歌詞が放音部にて発音されたときに歌らしく聞こえるのか話し言葉らしく聞こえるのかを規定するパラメータの値（０％〜１００％）を指定する。ここでは、歌らしさ１００％は話し言葉らしさ０％と同義であり、歌らしさ０％は話し言葉らしさ１００％と同義であると定義している。ユーザは所望の歌詞を入力し、所望のパラメータを指定し、ボタンＢ１を押すと、その内容が制御部１１に供給される。同図は、歌詞として「おなかすいたな」が入力され、パラメータ（歌らしさ６０％）が指定された例を表す。

図４および図５は、歌詞に基づいて生成されたメロディのピッチカーブの例（Ｓ１、Ｓ２）を表す。
決定部１６は、入力された歌詞「おなかすいたな」を構成する形態素として「お」、「な」、「か」、「す」、「い」、「た」、「な」を抽出する。決定部１６は、データベース１５の抑揚情報を参照し、歌らしさ１００％の場合と、歌らしさ０％の場合とのそれぞれについて、各形態素ついて、発音タイミング（発音開始時点および発音終了時点）音高（の変化）を決定する。この結果、１００％の場合について図４に示すピッチカーブが、０％の場合について図５に示すピッチカーブが、それぞれ一例として得られる。

図４について詳説する。ピッチカーブＳ１は、歌詞「おなかすいたな」が時刻ｔ０（１００％）で発音が開始され、時刻ｔｆ（１００％）で発音が終了し、音程がどのように時間変化するかを示している。ここで、各形態素に対応して描かれている長方形のブロックは、その音が発音されている期間を表す。例えば、形態素「な」は、時刻ｔ１からｔ１eまでの期間Ｔａにわたって、一定のピッチＰ２で発音されることを意味する。

ピッチカーブＳ１の決定においては、発音が歌らしく（換言すると音楽的に）聞こえるようにするため、歌詞を構成する文や単語が持つ自然な抑揚感を逸脱しない範囲で、（ア）歌詞に含まれる形態素を発音する際の音程の幅（最高音と最低音との差）が比較的大きく（換言すると、抑揚に富んでいる）、（イ）音高が音階に対応した離散的な値をとる（換言すると、発音中にピッチの時間変化がないまたは乏しく、次の形態素の発音に移行する際にはピッチが非連続的になる）、（ウ）発音持続時間が長め（典型的には、１つの形態素についての発音持続時間が四分音符または二分音符相当となる）となるように設定するのが好ましい。

図５について詳説する。ピッチカーブＳ２は、歌詞「おなかすいたな」が時刻ｔ０（０％）で発音が開始され、時刻ｔｆ（０％）で発音が終了し、途中、音程がどのように変化するかを示したものである。各形態素に対応する長方形ブロックは、その音が発音されている期間を表す。例えば、形態素「な」は、時刻ｔ１（０％）にてピッチＰ５にて発音が開始され、時刻ｔ１e（０％）までＴｂの間、ピッチＰ６となるまで連続的に音程が変化する発音処理がなされることを意味する。
話し言葉に対応するピッチカーブの決定においては、話し言葉らしく聞こえるようにするため、歌詞を構成する文や単語が持つ抑揚感を逸脱しない範囲で、（ア）各形態素の発音の音程の幅（最高音と最低音の差）が比較的小さく（換言すると、抑揚に乏しい）、（イ）連続的な音程値をとる（換言すると、発音中にピッチが連続的に時間変化する）、（ウ）発音持続時間が短め（典型的には、１つの形態素の発音が十六分音符に相当長さ）となるように設定するのが好ましい。

図６は、生成された２つのピッチカーブＳ１およびＳ２に基づいて一のピッチカーブＳ３を生成する方法を模式的に表す。この例では、パラメータに従って、生成された２つの基準となるピッチカーブを線形補完する。具体的には、歌らしさ１００％、０％に対応する、時刻ｔにおけるピッチＰの関数であるピッチカーブを、それぞれＰ＝Ｐ_A(t)、Ｐ＝Ｐ_B(t)、Ｐ＝Ｐ_A(t)、Ｐ＝Ｐ_B(t)において、ｎ番目の形態素の発音開始時刻をそれぞれt_A(i)、t_B(i)、発音終了時刻をt_A(j)、t_B(j)、パラメータをα（０＜α＜１）とすると、
補正後の各形態素に対応するピッチカーブＰ_final（ｔ）は、
Ｐ_final(t;α*t_A(i)*(１-α)*t_B(i)<t<α＊t_A(j)*(１-α)t_B(j))＝
α*P_A(t;t_A(i)≦(１-α)t_A<(j))+(１-α)*P_B(t;t_B(i)≦t<t_B(j))・・・（１）
と表すことができる。
これは、各形態素の発音開始時刻、終了時刻、発音持続時間、当該形態素の部分に対応する２つのピッチカーブを係数αで重み付けして重ね合わせることに相当する。
なお、補間の方法としては、線形補完に替えて、非線形補間や、その他の既存演算アルゴリズムを用いることができる。
なお、一の形態素が子音と母音とで構成される場合は、発音の音程や音長さを決定するのは実質的に母音だといえるので、形態素を子音と母音とに分解し、子音と母音とのそれぞれについての楽音情報に対して処理をしてもよい。例えば、楽音情報（音高や発音持続時間）を母音のみに付与する。こうすることで、音程や音長が変化しても、発音が不自然に聞こえることを防ぐことができる。

この実施例によれば、ユーザは、１つの所望のパラメータ値を指定するだけで、入力した歌詞にマッチし、且つユーザの好みが反映されたメロディが生成される。また、パラメータ値を変更することにより、１つの歌詞から多様なメロディを得ることができる。また、パラメータの種類として、歌らしさ（話し言葉らしさ）という概念を導入することで、単なる楽曲の作成でもなく単なる人工合成音声の生成でもない、新たらしい創作への意欲をユーザに掻き立てることが期待される。

また、この実施例によれば、パラメータは形態素のすべてに一括して適用されるので、生成されるメロディにユーザの好みを反映させるために、入力した歌詞の例えば形態素ごとに、逐一、楽音情報を編集するといった作業が必要ない。これにより、手軽に作曲の面白さをユーザに味わってもらうことができる。
仮に、手作業で形態素ごとにピッチ等を調整する場合、全体のバランスをとるのが大変な場合であるが、この実施例によれば、予め用意されたモデルに基づいて基準ピッチカーブを計算し、これに基づいて全体を一括して補正することによって最終的なメロディが決定されるため、得られたメロディ全体の整合性が崩れる虞は小さい。

加えて、この実施例によれば、パラメータに対応するメロディを決定する際に、代表的なパラメータ値（０％および１００％）に対応するメロディを少なくとも２つ用意しておけばよい。代表値以外についてのピッチカーブは、代表値を用いてそれぞれ生成した２つのピッチカーブをパラメータの値に従って補間することによって生成されるからである。これにより、記憶しておくべきデータ量を節約することができ、且つ演算量が低減できる。

＜変形例＞
上記実施例に対して種々の変形を行うことが可能である。以下、変形を行う際の観点について例示する。
図７は、歌詞を入力する画面の他の例を表す図である。エリアＲ２において、スライダＤ１および入力フィールドＦ１に加え、スライダＤ２と入力フィールドＦ２が設けられる。スライダＤ１、入力フィールドＦ１は、音程について、歌らしさ（話し言葉らしさ）の度合いを指定するためのものであり、スライダＤ２，入力フィールドＦ２は、速度（発音時間＝音の長さ）について、歌らしさ（話し言葉らしさ）の度合いを指定するためのものである。すなわち、この入力画面では、音程と速度のそれぞれについて、独立に、歌らしさ（話し言葉らしさ）を指定することができる。換言すると、歌らしさ（話し言葉らしさ）を規定するパラメータが２つ用意されている。

決定部１６は、データベース１５を参照し、この画面で入力された歌詞に対し、ユーザによって指定された音程および速度（音の長さ）のそれぞれについて、歌らしさ０％と１００％の２つの楽音情報を生成する。そして、補正部１７は、音程について指定されたパラメータに従って、歌らしさ０％と１００％のそれぞれに対応して生成された楽音情報（ただし音程に関する情報のみを含む）を用いて補完処理を行うことにより、一の楽音情報（音程に関する情報のみを含む）を決定する。加えて、補正部１７は、歌らしさ０％と１００％のそれぞれに対応して生成された楽音情報（ただし音長に関する情報のみを含む）を用いて補完処理を行うことにより、一の楽音情報（音長に関する情報のみを含む）を決定する。そして、補正部１７は、こうして得られた音程と音長とを含む楽音情報から一のピッチカーブを生成する。この例によれば、速度に関するパラメータと音程に関するパラメータとを独立して指定することで、生成できるメロディの自由度が増える。

音程や速度に加えて、アクセント（主に、その形態素の発音開始から所定の期間における音程の時間変化として表現される）、強弱（音量の大小）、ビブラート（音程の揺らぎ）等の、メロディを構成する他の要素のそれぞれについて、歌らしさ（話し言葉らしさ）を個別に指定できるようにしてもよい。
あるいは、これらの要素を個別に指定するか、一つのパラメータで指定するか（一括指定）を、ユーザに選択させてもよい。一括指定するためのパラメータは、所定の規則によって個別パラメータの組み合わせに対応づけられている。よって、一括指定した場合は、その一のパラメータ（例えば「６０％」）に対して、個別のパラメータ（例えば、「音程」については基準音程の６０％、速度については基準速度の７０％、アクセントについては基準アクセントの６５％、強弱については基準値の５５％という値、ビブラートについては基準値の５０％）が決定される。なお、音程、速度、アクセント、強弱、ブブラートの振幅や周期等に対する基準値の設定方法は任意である。例えば、ビブラートについては、歌らしさ１００％においては所定の振幅および周期が設定され、歌らしさが０％（話し言葉らしさ１００％）に近づくに従って少なくとも振幅が減少するように設定される。

換言すると、本発明においてユーザによって指定される情報は、一種類のパラメータの値に限られず、複数のパラメータ種類の値を含む一のパラメータセットであってもよい。このようなパラメータの指定を実現するための入力画面の例を示したのが図８である。この入力画面は、エリアＲ３とエリアＲ４とに大別される。エリアＲ３は、個別のパラメータ（同図の例では、ピッチ、速さ、アクセント、ビブラート）を指定するためのスライダＤ３、Ｄ４、Ｄ５、およびＤ６を有する。エリアＲ４は、パラメータを一括指定するためのスライダＤ１を含む。ユーザは、ラジオボタンＢ３およびＢ４によってパラメータの指定方法を選択する。

パラメータの値は、時間によって変化してもよい。具体的には、入力部１２を介して、ユーザはパラメータの値に加えて当該値が適用される期間を入力する。例えば、演奏時間が計３分のメロディにおいて、メロディの再生時間が０〜６０秒までの間は「歌らしさ２０％」で、６０秒から１２０秒までの間は「歌らしさ５０％」で、１２０秒から１８０秒までの間は「歌らしさ８０％」と指定される。このように、パラメータの値を時間の関数とすることで、例えば、再生が進むにつれて歌唱っぽい雰囲気から話し言葉らしく聞こえるような効果や、再生の途中の所定期間だけ雰囲気が大幅に変わるといった効果を与えることができる。

本発明においてユーザに指定させるパラメータは、「歌らしさ（話し言葉らしさの対極の概念）」という一種類のパラメータだけでなく、２種類以上であってもよい。２種類パラメータを独立に指定するための入力画面の一例を図９に示す。この入力画面は、歌詞を入力するためエリアＲ５に加えて、パラメータを指定するためのエリアＲ６を備える。そして、エリアＲ６において、２次元平面内の一点（同図のＷ）の座標（例えば、Ｗ（６０％、７０％））として指定する。Ｘは例えば「歌らしさ」の指標であり、Ｙは例えば「声質の男性(女性)らしさ」の指標と設定することができる。この場合であっても、上記実施例と同様、制御部１１は、全てのｘ、ｙの値に対応するの楽音情報を記憶しておく必要はなく、二次元平面内の代表点（少なくとも２点）に対応する楽音情報を記憶しておき、代表点以外の点については、補間によって計算することができる。

本発明においてユーザに指定させるパラメータは、入力された歌詞を構成する歌詞の一部の形態素のみに対して有効となるように定義してもよい。換言すると、歌詞の一部にのみ適用されるパラメータをユーザが指定してもよい。
具体的には、図１０に示すように、歌詞を入力する際に、歌詞とパラメータを適用させたい部分とその内容とを、スクリプト言語によって記述する。同図の第１文の例では、「おなか」という歌詞部分の前後にタグを付加することで、「おなか」という歌詞部分がパラメータの適用対象であることを表し、パラメータの種類が"Rate song“という再生音の速度を表すものであって、その値が−２０％であることを記述している。同図の第２文の例では、「すいたな」の歌詞部分に対し、基準よりも７０％増しの速度で発音することを記述している。この入力内容に基づいて制御部１１にて生成されるメロディは、「おなか」という歌詞部分が基準よりも−２０％の速度（つまり２割遅い速度）で発音され、「すいたな」の歌詞部分は基準よりも７０％増しの速度で発音される。
ここで、発音速度（音長）の基準は、例えば、歌らしさ１００％における発音速度（音長）であってもよいし、別途、入力画面においてユーザ指定した値（０％〜１００％）に対応する発音速度(音長)であってもよい。
この例によれば、全体として、歌らしさを指定しつつ、特定の歌詞部分についてのみ有効な速度パラメータを指定することができるので、細かいニュアンスを表現することが可能となる。

特定の形態素についてのみ有効となるパラメータは、速度を指定するものに限られず、強調（特定の音の音量を変化させる）に関係するもの、強拍／弱拍（特定の音の音長を大きく／小さくする）に関係するもの、音程等を指定するもの等であってもよい。図１１（ａ）〜（ｃ）は、それぞれ、「す」を強調する、「い」を強拍にする、「な」のピッチを上げることを指定するタグの例である。

楽音情報生成装置１０からデータベース１５を省略してもよい。この場合、データベース１５をサーバ内に格納し、楽音情報生成装置１０にネットワークを介して他の装置と通信を行う手段を設け、楽音情報生成装置１０は必要に応じてサーバに歌詞の解析を依頼し、サーバにて基準メロディの生成を行って楽音情報生成装置１０に送信してもよい。また、表示部１４や放音部１８を楽音情報生成装置１０から省略してもよい。要するに、本発明は、システム全体として、歌詞を入力するステップと、パラメータを指定するステップと、該入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成するステップと、該指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正するステップとを実行する機能を有していればよく、これらの機能を全て一のハードウェアに実装してもよいし、複数のハードウェアに分散して実装させてもよい。

本発明は、これらの機能を実行するためのプログラムおよびプログラムを記憶した記録媒体を提供する。記録媒体とは、例えば、半導体メモリ、光ディスク、磁気ディスクである。あるいは、このプログラムは、ネットワークを介してダウンロードされるものであってもよい。

１０：楽音情報生成装置
１１：制御部
１２：入力部
１３：記憶部
１４：表示部
１５：データベース
１６：決定部
１７：補正部
１８：放音部

Claims

互いに異なる抑揚表現に対応する第１の楽音情報と第２の楽音情報とを記憶する記憶部と、
歌詞を入力する入力部と、
楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定する指定部と、
前記入力部にて入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成する生成部と、
前記指定部により指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正する補正部であって、その補正量を前記第１の楽音情報と前記第２の楽音情報と前記パラメータとを用いて決定する前記補正部と
を有する楽音情報生成装置。
前記楽音情報には、各形態素について、前記音高に加え、音の長さ、音の強弱、音高の時間変化および音の強弱の時間変化のうち少なくともいずれか一つが含まれる
ことを特徴とする請求項１に記載の楽音情報生成装置。
前記第１の楽音情報は音楽的な表現を代表し、前記第２の楽音情報は非音楽的な表現を代表する
ことを特徴とする請求項１または２に記載の楽音情報生成装置。
前記指定部は、前記パラメータの値と当該値が適用される期間とを指定する
ことを特徴とする請求項１ないし３のいずれか一つの記載の楽音情報生成装置。
互いに異なる抑揚表現に対応する第１の楽音情報と第２の楽音情報とを記憶するステップと、
歌詞を入力するステップと、
楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定するステップと、
該入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成するステップと、
該指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正するステップと
を有し、
前記補正するステップにおいて、その補正量を、前記第１の楽音情報と前記第２の楽音情報と前記パラメータとを用いて決定することを特徴とする楽音情報生成方法。