JP2005004106A

JP2005004106A - 信号合成方法及び装置、歌声合成方法及び装置、プログラム及び記録媒体並びにロボット装置

Info

Publication number: JP2005004106A
Application number: JP2003170000A
Authority: JP
Inventors: Kenichiro Kobayashi; 賢一郎小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-06-13
Filing date: 2003-06-13
Publication date: 2005-01-06
Also published as: WO2004111993A1

Abstract

【課題】ＭＩＤＩデータ等の演奏データを活用して歌声を合成すると共に、歌唱スタイルに応じて歌唱パターンを変更することを可能とする。
【解決手段】入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する（Ｓ２、Ｓ３）。歌唱スタイルの変更がある場合には、条件に適合する音符に対して表現変化を付与するように歌声データを変更する（Ｓ７，Ｓ８，Ｓ９）。歌唱パターン変更された歌声情報に基づき歌声を生成する（Ｓ１１）。
【選択図】図９

Description

【０００１】
【発明の属する技術分野】
本発明は、演奏データから歌声や楽音等の信号を合成する信号合成方法及び装置、歌声合成方法及び装置、プログラム及び記録媒体、並びにロボット装置に関する。
【０００２】
【従来の技術】
コンピュータ等により、与えられた歌唱データから歌声を生成する技術は特許文献１に代表されるように既に知られている。
【０００３】
ＭＩＤＩ（ｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔｄｉｇｉｔａｌｉｎｔｅｒｆａｃｅ）データは代表的な演奏データであり、事実上の業界標準である。代表的には、ＭＩＤＩデータはＭＩＤＩ音源と呼ばれるデジタル音源（コンピュータ音源や電子楽器音源等のＭＩＤＩデータにより動作する音源）を制御して楽音を生成するのに使用される。ＭＩＤＩファイル（例えば、ＳＭＦ（ｓｔａｎｄａｒｄＭＩＤＩｆｉｌｅ））には歌詞データを入れることができ、歌詞付きの楽譜の自動作成に利用される。
【０００４】
また、ＭＩＤＩデータを歌声又は歌声を構成する音素セグメントのパラメータ表現（特殊データ表現）として利用する試みも特許文献２に代表されるように提案されている。
【０００５】
しかし、これらの従来の技術においてはＭＩＤＩデータのデータ形式の中で歌声を表現しようとしているが、あくまでも楽器をコントロールする感覚でのコントロールであり、ＭＩＤＩ本来が持っている歌詞データを利用するものではなかった。
【０００６】
また、ほかの楽器用に作成されたＭＩＤＩデータを、修正を加えることなく歌声にすることはできなかった。
【０００７】
また、電子メールやホームページを読み上げる音声合成ソフトはソニー（株）の「ＳｉｍｐｌｅＳｐｅｅｃｈ」をはじめ多くのメーカーから発売されているが、読み上げ方は普通の文章を読み上げるのと同じような口調であった。
【０００８】
ところで、電気的又は磁気的な作用を用いて人間（生物）の動作に似た運動を行う機械装置を「ロボット」という。我が国においてロボットが普及し始めたのは、１９６０年代末からであるが、その多くは、工場における生産作業の自動化・無人化等を目的としたマニピュレータや搬送ロボット等の産業用ロボット（ＩｎｄｕｓｔｒｉａｌＲｏｂｏｔ）であった。
【０００９】
最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットの開発が進められている。このような実用ロボットは、産業用ロボットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように４足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、或いは、２足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」ロボット（ＨｕｍａｎｏｉｄＲｏｂｏｔ）等のロボット装置は、既に実用化されつつある。
【００１０】
これらのロボット装置は、産業用ロボットと比較して、エンターテインメント性を重視した様々な動作を行うことができるため、エンターテインメントロボットと呼称される場合もある。また、そのようなロボット装置には、外部からの情報や内部の状態に応じて自律的に動作するものがある。
【００１１】
この自律的に動作するロボット装置に用いられる人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）は、推論・判断等の知的な機能を人工的に実現したものであり、さらに感情や本能等の機能をも人工的に実現することが試みられている。このような人工知能の外部への表現手段としての視覚的な表現手段や自然言語の表現手段等のうちで、自然言語表現機能の一例として、音声を用いることが挙げられる。
【００１２】
【特許文献１】
特許第３２３３０３６号公報
【特許文献２】
特開平１１−９５７９８号公報
【００１３】
【発明が解決しようとする課題】
以上のように従来の歌声合成は特殊な形式のデータを用いていたり、仮にＭＩＤＩデータを用いていてもその中に埋め込まれている歌詞データを有効に活用できなかったり、ほかの楽器用に作成されたＭＩＤＩデータを鼻歌感覚で歌い上げたりすることはできなかった。
【００１４】
また、歌唱スタイル等も特に考慮されておらず、表現力も乏しいものとならざるを得ないのが現状であった。
【００１５】
本発明は、このような従来の実情に鑑みて提案されたものであり、例えばＭＩＤＩデータのような演奏データを活用して歌声を合成することが可能であり、さらに歌声のみならず楽音についてもスタイルを考慮した表現を可能とするような歌声や楽音等の信号合成方法及び装置、歌声合成方法及び装置を提供することを目的とする。
【００１６】
さらに、本発明の目的は、このような歌声合成機能をコンピュータに実施させるプログラム及び記録媒体を提供することである。
【００１７】
さらに、本発明の目的は、このような歌声合成機能を実現するロボット装置を提供することである。
【００１８】
【課題を解決するための手段】
本発明に係る歌声や楽音等の信号合成方法及び装置は、上記目的を達成するため、演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより歌唱又は演奏パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声又は楽音を生成することを特徴とする。
【００１９】
また、本発明に係る歌声合成方法及び装置は、上記目的を達成するため、歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータを予め用意しておき、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とし、上記解析された音楽情報の音符列の音符に対応して、予め用意された上記パターンデータに基づいて音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声を生成することを特徴とする。
【００２０】
この構成によれば、歌声を生成する際に、指定された歌唱スタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与し、歌い方を変更することができる。
【００２１】
上記演奏データはＭＩＤＩファイルの演奏データであることが好ましい。また、上記表現変化を付与するためのパラメータは、上記歌唱スタイルと、上記音符の長さ、強さ、強さの増減状態、高さ及び楽曲の速度の少なくとも１つとに応じて設定されることが挙げられる。上記表現変化は、対象となる音符の音に対してビブラート、ピッチベンド、エクスプレッションの少なくとも１つを付与することが挙げられる。上記ビブラートを付与するためのパラメータは、振幅開始の遅れの情報と、振幅の情報と、周期の情報と、振幅の増減の情報と、周期の増減の情報との少なくとも１つを含み、上記エクスプレッションを付与するためのパラメータは、音符の長さに対する比の時間情報とその時間軸上での特徴的な任意の点における強さの情報の少なくとも１つを含むことが挙げられる。上記歌唱スタイルは、ユーザ設定、演奏データのトラック名、楽曲名、マーカのいずれかにより選択されることが挙げられる。
【００２２】
また、本発明に係るプログラムは、本発明の歌声合成機能をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュータ読み取り可能なものである。
【００２３】
さらに、本発明に係るロボット装置は、上記目的を達成するため、供給された入力情報に基づいて動作を行う自律型のロボット装置であって、歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータが蓄積された記憶手段と、演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とする歌詞付与手段と、上記解析手段により解析された音楽情報の音符列の音符に対応して、上記記憶手段により読み出された音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更するパターン変更手段と、パターン変更された音楽情報の音符列に基づいて歌声を生成する歌声生成手段とを有することを特徴とする。これにより、ロボットの持っているエンターテインメント性を格段に向上させることができる。
【００２４】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。本発明の実施の形態においては、主として歌声を合成する歌声合成装置であって、さらに楽音を合成する機能も有するような楽音合成機能付きの歌声合成装置の例を示しているが、歌声のみを合成する歌声合成装置や、楽音を合成する楽音合成装置、あるいは歌声や楽音等のオーディオ信号を合成する信号合成装置等にも本発明を容易に適用できることは勿論である。
【００２５】
図１は、本実施の形態における楽音合成機能付きの歌声合成装置の概略システム構成を示すブロック図である。この図１に示す歌声合成装置は、少なくとも感情モデル、音声合成手段及び発音手段を有する例えばロボット装置に適用することを想定しているが、これに限定されず、各種ロボット装置や、ロボット以外の各種コンピュータＡＩ（ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）等への適用も可能であることは勿論である。
【００２６】
図１において、ＭＩＤＩデータに代表される演奏データ１を解析する演奏データ解析部２は入力された演奏データ１を解析し演奏データ内にあるトラックやチャンネルの音の高さや長さ、強さを表す楽譜情報４に変換する。
【００２７】
図２に楽譜情報４に変換された演奏データ（ＭＩＤＩデータ）の例を示す。図２において、トラック毎、チャンネル毎にイベントが書かれている。イベントにはノートイベントとコントロールイベントが含まれる。ノートイベントは発生時刻（図中の時間の欄）、高さ、長さ、強さ（ｖｅｌｏｃｉｔｙ）の情報を持つ。したがって、ノートイベントのシーケンスにより音符列又は音列が定義される。コントロールイベントは発生時刻、コントロールのタイプデータ（例えばビブラート（ｖｉｂｒａｔｏ）、演奏ダイナミクス表現（ｅｘｐｒｅｓｓｉｏｎ））及びコントロールのコンテンツを示すデータを持つ。例えば、ビブラートの場合、コントロールのコンテンツとして、音の振れの大きさを指示する「深さ」、音の揺れの周期を指示する「幅」、音の揺れの開始タイミング（発音タイミングからの遅れ時間）を指示する「遅れ」の項目を有する。特定のトラック、チャンネルに対するコントロールイベントはそのコントロールタイプについて新たなコントロールイベント（コントロールチェンジ）が発生しない限り、そのトラック、チャンネルの音符列の楽音再生に適用される。さらに、ＭＩＤＩファイルの演奏データにはトラック単位で歌詞を記入することができる。図２において、上方に示す「あるうひ」はトラック１に記入された歌詞の一部であり、下方に示す「あるうひ」はトラック２に記入された歌詞の一部である。すなわち図２の例は、解析した音楽情報（楽譜情報）の中に歌詞が埋め込まれた例である。
【００２８】
なお、図２において、時間は「小節：拍：ティック数」で表され、長さは「ティック数」で表され、強さは「０−１２７」の数値で表され、高さは４４０Ｈｚが「Ａ４」で表される。また、ビブラートは、深さ、幅、遅れがそれぞれ「０−６４−１２７」の数値で表される。
【００２９】
図１に戻り、変換された楽譜情報４は歌詞付与部５に渡される。歌詞付与部５では楽譜情報４をもとに音符に対応した音の長さ、高さ、強さ、表情などの情報とともにその音に対する歌詞が付与された歌声情報６の生成を行う。
【００３０】
図３に歌声情報６の例を示す。図３において、「￥ｓｏｎｇ￥」は歌詞情報の開始を示すタグである。タグ「￥ＰＰ，Ｔ１０６７３０７５￥」は１０６７３０７５μｓｅｃの休みを示し、タグ「￥ｔｄｙｎａ１１０６４９０７５￥」は先頭から１０６７３０７５μｓｅｃの全体の強さを示し、タグ「￥ｆｉｎｅ−１００￥」はＭＩＤＩのファインチューンに相当する高さの微調整を示し、タグ「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｐ＝６４￥」、［￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｌ＝５０￥］、「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｒａｔ＝６４￥」はそれぞれ、ビブラートの深さ、遅れ、幅を示す。また、タグ「￥ｄｙｎａ１００￥」は音毎の強弱を示し、タグ「￥Ｇ４，Ｔ２８８４６１￥あ」はＧ４の高さで、長さが２８８４６１μｓｅｃの歌詞「あ」を示す。図３の歌声情報は図２に示す楽譜情報（ＭＩＤＩデータの解析結果）から得られたものである。
【００３１】
図２と図３の比較から分かるように、楽器制御用の演奏データ（例えば音符情報）が歌声情報の生成において十分に活用されている。例えば、歌詞「あるうひ」の構成要素「あ」について、「あ」以外の歌唱属性である「あ」の音の発生時刻、長さ、高さ、強さ等について、楽譜情報（図２）中のコントロール情報やノートイベント情報に含まれる発生時刻、長さ、高さ、強さ等が直接的に利用され、次の歌詞要素「る」についても楽譜情報中の同じトラック、チャンネルにおける次のノートイベント情報が直接的に利用され、以下同様である。
【００３２】
図１に戻り、歌声情報６は歌声生成部７に渡され、歌声生成部７においては歌声情報６をもとに歌声波形８の生成を行う。ここで、歌声情報６から歌声波形８を生成する歌声生成部７は例えば図４に示すように構成される。
【００３３】
図４において、歌声韻律生成部７−１は歌声情報６を歌声韻律データに変換する。波形生成部７−２は歌声韻律データを歌声波形８に変換する。
【００３４】
具体例として、「Ａ４」の高さの歌詞要素「ら」を一定時間伸ばす場合について説明する。ビブラートをかけない場合の歌声韻律データは、以下の表のように表される。
【００３５】
【表１】

【００３６】
この表において、［ＬＡＢＥＬ］は、各音韻の継続時間長を表したものである。すなわち、「ｒａ」という音韻（音素セグメント）は、０サンプルから１０００サンプルまでの１０００サンプルの継続時間長であり、「ｒａ」に続く最初の「ａａ」という音韻は、１０００サンプルから３９６００サンプルまでの３８６００サンプルの継続時間長である。また、［ＰＩＴＣＨ］は、ピッチ周期を点ピッチで表したものである。すなわち、０サンプル点におけるピッチ周期は５０サンプルである。ここでは「ら」の高さを変えないので全てのサンプルに渡り５０サンプルのピッチ周期が適用される。また、［ＶＯＬＵＭＥ］は、各サンプル点での相対的な音量を表したものである。すなわち、デフォルト値を１００％としたときに、０サンプル点では６６％の音量であり、３９６００サンプル点では５７％の音量である。以下同様にして、４０１００サンプル点では４８％の音量等が続き４２６００サンプル点では３％の音量となる。これにより「ら」の音声が時間の経過と共に減衰することが実現される。
【００３７】
これに対して、ビブラートをかける場合には、例えば、以下に示すような歌声韻律データが作成される。
【００３８】
【表２】

【００３９】
この表の［ＰＩＴＣＨ］の欄に示すように、０サンプル点と１０００サンプル点におけるピッチ周期は５０サンプルで同じであり、この間は音声の高さに変化がないが、それ以降は、２０００サンプル点で５３サンプルのピッチ周期、４００９サンプル点で４７サンプルのピッチ周期、６００９サンプル点で５３のピッチ周期というようにピッチ周期が約４０００サンプルの周期（幅）を以て上下（５０±３）に振れている。これにより音声の高さの揺れであるビブラートが実現される。この［ＰＩＴＣＨ］の欄のデータは歌声情報６における対応歌声要素（例えば「ら」）に関する情報、特にノートナンバー（例えばＡ４）とビブラートコントロールデータ（例えば、タグ「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｐ＝６４￥」、［￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｌ＝５０￥］、「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｒａｔ＝６４￥」）に基づいて生成される。
【００４０】
波形生成部７−２はこのような歌声音韻データに基づき内部の波形メモリ（図示せず）からサンプルを読み出して歌声波形８を生成する。なお、歌声情報６から歌声波形８を生成する歌声生成部７については上記の例に限らず、任意の適当な公知の歌声生成器を使用できる。
【００４１】
図１に戻り、演奏データ１はＭＩＤＩ音源９に渡され、ＭＩＤＩ音源９は演奏データをもとに楽音の生成を行う。この楽音は伴奏波形１０である。
【００４２】
歌声波形８と伴奏波形１０はともに同期を取りミキシングを行うミキシング部１１に渡される。
【００４３】
ミキシング部１１では、歌声波形８と伴奏波形１０との同期を取りそれぞれを重ね合わせて出力波形３として再生を行うことにより、演奏データ１をもとに伴奏を伴った歌声による音楽再生を行う。
【００４４】
楽譜情報４をもとに歌詞付与部５により歌声情報６に変換する段階において、楽譜情報４において歌詞情報が存在する場合には、情報として存在する歌詞を優先して歌声情報６の付与を行う。上述したように図２は歌詞が付与された状態の楽譜情報４の例であり、図３は図２の楽譜情報４から生成された歌声情報６の例である。
【００４５】
ここで、歌声を生成する際にオペレータにより歌唱スタイルの指定がある場合には、楽譜情報４から歌声情報６に変換される際に、楽譜情報４に記載されている音楽情報は、歌唱パターン変更部１２に渡される。
【００４６】
歌唱パターン変更部１２においては、歌唱パターンデータ１３（歌唱スタイルデータともいう。）と楽譜情報４とを照らし合わせて、指定された歌唱スタイルに適合する歌唱パターンデータ１３を参照し、そこに記載されている条件に適合する楽譜情報４の音（音符）に対して、歌唱パターンデータ１３記載されている歌唱パターンのパラメータを付与して歌声情報６を生成する。具体的には、歌唱スタイルに応じて、楽譜情報の音符列の所定の音（音符）に対して、ビブラート、エクスプレッション、タイミング、ピッチベンド等のような音量変化、音程変化、タイミング変化を含む表現変化を付与するためのパラメータが設定されており、これらのパラメータが歌唱パターンデータ１３（歌唱スタイルデータ）として記憶手段に蓄積されており、歌唱パターン変更部１２は、楽譜情報４と歌唱パターンデータ１３とを用いて、歌唱スタイルに応じた変更が加えられた歌声情報６を生成する。
【００４７】
図５は、各歌唱スタイルに応じた歌唱パターンデータ１３（歌唱スタイルデータ）の具体例を示す図である。この図５の例において、歌唱パターンデータ１３は、条件部と実行部の２つに分かれており、条件部の項目には「ポピュラー」、「クラシック」、「演歌」などの歌唱スタイルと、表現変化を付与する対象となる音（音符）を選択する条件となる音の高さ、長さ、強さ、強さの増減パターン、曲のテンポ等が含まれており、実行部には、条件部に記載されている条件に適合した音（音符）に付与する表現変化のパラメータとしてのビブラート（ｖｉｂｒａｔｏ）、エクスプレッション（ｅｘｐｒｅｓｓｉｏｎ：音の強弱変化、演奏ダイナミクス表現）、タイミング、ピッチベンド（フレーズ頭、フレーズ終わりのピッチベンド）、ピッチ調整等が含まれている。
【００４８】
実行部のビブラートとしては、ビブラートがかかるまでの遅れ、周期、振幅、周期の増減、振幅の増減のパラメータが指定される。エクスプレッションでは音の始まりから終わりまでの時間を１００とした場合の先頭、終端、大きな変化点などの特徴点となる何点かでの音量のパラメータが指定される。タイミングはビートに対しての遅れや進み具合を示すのパラメータが指定される。ピッチベンドは、フレーズの頭や終端の音に対してピッチのずり上げやずり下げ処理を行う場合のピッチの上げ下げの度合いを、音の長さを１００として特徴となる時間での音程のずらし幅をセント数で表したパラメータが指定される。フレーズ内の音に対しては適応されない。ピッチ調整はピッチ全体を上げたり下げたりする際のセント数のパラメータが指定される。ここでセントとは１００セントで半音を表す音程の幅の単位である。
【００４９】
この歌唱スタイルの適用例（歌唱パターンデータのパラメータの付与例）を、図６、図７に示す。図６は歌唱スタイル適用前の歌声情報を示し、この図６の破線で囲った部分ｐｔＡに対して、例えば「演歌」の歌唱スタイルの歌唱パターンデータの各パラメータが適用された後の歌声情報を図７の破線で囲った部分ｐｔＢに示している。これらの図６、図７において、例えば図６の歌声情報の歌詞の「ひ」の音（音符）「Ｅ４，Ｔ１４４２３１」に対しては、図７に示すように、タイミングの補正や、フレーズ頭ピッチベンド、フレーズ終わりピッチベンド、エクスプレッションの変更等のパラメータによる表現変化が付与され、「演歌」の歌唱スタイルの歌声情報に変更される。
【００５０】
このような歌唱スタイルに応じた歌声情報の変更は、図１の歌唱パターン変更部１２にて、楽譜情報４と歌唱パターンデータ１３とを用いて実現されるものであるが、他の例として、図８に示すように、歌詞付与部５からの（歌唱スタイル適用前の）歌声情報６Ａを歌唱パターン変更部１２に送り、歌唱パターン変更部１２では適用前の歌声情報６Ａ中の各音（音符）の内、上記図５の歌唱パターンデータ（歌唱スタイルデータ）の条件に合致するものに対して歌唱パターンに応じたパラメータ変更を加え、歌唱スタイル適用された歌声情報６Ｂを出力して歌声生成部７に送るように構成してもよい。他の構成は上記図１と同様であるため、図示せず説明を省略する。
【００５１】
上記歌唱スタイルは、上述したようにオペレータにより予め指示することも可能であるが、ＭＩＤＩデータに格納されておりＳＭＦ（ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ）によって規定された一般的な楽曲名、トラック名、マーカ等の付属情報により歌唱パターン変更部１２において判断することも可能である。例えば、楽曲名やトラック名にスタイル名自体やスタイル名を含む注釈等が記載されていたり、楽曲名やトラック名からスタイルを推定できたり、マーカ等の付属情報にスタイル名が記載されているような場合が挙げられる。
【００５２】
ここで、上述の例では、歌声の場合を主として説明したが、楽音の場合にも同様にスタイル（演奏スタイル）を適用することができる。これは、指定された演奏スタイルに応じて、例えばサキソフォン、バイオリン等の楽音の演奏パターンに変更を加えるものである。具体的には、楽譜情報の内の所望の楽音（サキソフォン、バイオリン等の楽音）について、例えば図５と同様な演奏パターンデータを用意すればよく、この演奏パターンデータは、上記図５と同様に、条件部と実行部とを有し、条件部の項目には「ポピュラー」、「クラシック」、「演歌」などの歌唱スタイルと、表現変化を付与する対象となる音（音符）を選択する条件となる音の高さ、長さ、強さ、曲のテンポ等が含まれ、実行部には、条件部の条件に適合した音（音符）に付与する表現変化のパラメータとしてのビブラート（ｖｉｂｒａｔｏ）、エクスプレッション（ｅｘｐｒｅｓｓｉｏｎ）、タイミング、ピッチベンド（フレーズ頭、フレーズ終わりのピッチベンド）、ピッチ調整等が含まれるようにすればよい。
【００５３】
図１の例では、楽譜情報４の所望の楽音（サキソフォン、バイオリン等の楽音）の情報（例えば音符列の情報）を、演奏パターン変更部１５に送って、上述したような演奏パターンデータ１６から、指定された演奏スタイルに応じて、所定条件を満たす音（音符）に対して、ビブラート（ｖｉｂｒａｔｏ）、エクスプレッション（ｅｘｐｒｅｓｓｉｏｎ）、タイミング、ピッチベンド（フレーズ頭、フレーズ終わりのピッチベンド）、ピッチ調整等の表現変化のパラメータを付与し、演奏スタイルが適用された演奏データ１４を得るようにしている。この演奏スタイルが適用された演奏データ１４はＭＩＤＩ音源９に送られ、ＭＩＤＩ音源９は演奏データをもとに演奏スタイルが適用された楽音の生成を行う。
【００５４】
次に図９は、図１に示す（あるいは図８に一部を示す）歌声合成装置の全体動作を説明するためのフローチャートである。
【００５５】
この図９において、先ずＭＩＤＩファイルの演奏データ１を入力する（ステップＳ１）。次に演奏データ１を解析し、楽譜データ４を作成する（ステップＳ２、Ｓ３）。次に、必要に応じてオペレータに問い合わせ、オペレータの設定処理、例えば、演奏スタイルの選択、歌詞の選択、歌詞の対象であるトラック、チャンネルの選択、ミュートするＭＩＤＩトラック、チャンネルの選択等を行う。なおオペレータが設定しなかった部分については、演奏データ１の楽曲名、トラック名、マーカ等の付属情報に基づいて選択したり、予め定められたデフォルト情報を後続処理で使用するようにしている。
【００５６】
続くステップＳ５では、歌詞を割り当てるトラックにおけるチャンネルの楽譜情報４を用いて歌詞から歌声情報６を作成する。次に、全てのトラックについて処理を完了したかどうか検査し（ステップＳ６）、完了してなければトラックを次に進めて、ステップＳ５に戻る。
【００５７】
したがって、複数のトラックにそれぞれ歌詞を付加する場合に、互いに独立して歌詞が付加され歌声情報６が作成されることになる。
【００５８】
次に、ステップＳ７において、歌唱スタイル（あるいは演奏スタイル）の変更の指定があったか否かを判別し、Ｙｅｓ（スタイル変更あり）の場合はステップＳ８に進み、Ｎｏ（変更無し）の場合はステップＳ１１に進む。
【００５９】
ステップＳ８では、楽譜情報の音（音符）について、上記歌唱パターンデータ１３（あるいは演奏パターンデータ１６）の条件部に示された条件に適合するか否かを判別し、条件に適合する音（音符）に対しては、ステップＳ９にて、上記歌唱パターンデータ１３（あるいは演奏パターンデータ１６）の実行部に示された表現変化のためのパラメータを適用し、歌声データ（あるいは演奏データ）を変更する。
【００６０】
次のステップＳ１０では、全ての音（音符）に対して条件チェックが終了したか否かを判別し、ＮｏのときはステップＳ８に戻り、Ｙｅｓのときは次のステップＳ１１に進む。
【００６１】
ステップＳ１１では、歌声生成部７により歌声情報６から歌声波形８を作成する。次のステップＳ１２では、ＭＩＤＩ音源９によりＭＩＤＩを再生して伴奏波形１０を作成する。
【００６２】
ここまでの処理で、歌声波形８及び伴奏波形１０が得られた。そこで、ミキシング部１１により、歌声波形８と伴奏波形１０との同期を取りそれぞれを重ね合わせて出力波形３として再生を行う（ステップＳ１３、Ｓ１４）。この出力波形３は図示しないサウンドシステムを介して音響信号として出力される。
【００６３】
以上説明した本発明の実施の形態をまとめると、歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータを予め用意しておき、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とし、上記解析された音楽情報の音符列の音符に対応して、予め用意された上記パターンデータに基づいて音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声を生成することが挙げられる。
【００６４】
このような本発明の実施の形態によれば、歌唱の際の歌声に対して、歌唱スタイルに応じた表現変化を付与することができ、音楽表現の拡大が図れる。また、従来において、固定された歌唱スタイルで表現力の乏しい歌い方しかできなかったのに対して、歌唱スタイルを任意に選択することにより、表現力が向上し、また、楽曲に合わせた歌唱スタイルにより自然な歌声を実現したり、ミスマッチなスタイルにより滑稽さを表現することもでき、エンタテインメント性をさらに向上させることができる。
【００６５】
また、歌声のみならず、楽音に対しても演奏スタイルを適用することができ、この場合には、演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより歌唱又は演奏パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声又は楽音を生成することが好ましい。これによって、歌唱の際の歌声や演奏の際の楽音に対して、歌唱又は演奏のスタイルに応じた表現変化を付与することができ、音楽表現が格段に向上する。
【００６６】
以上説明した歌声合成機能は例えば、ロボット装置に搭載される。
【００６７】
以下、一構成例として示す２足歩行タイプのロボット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、内部状態（怒り、悲しみ、喜び、楽しみ等）に応じて行動できるほか、人間が行う基本的な動作を表出できるエンターテインメントロボットである。
【００６８】
図１０に示すように、ロボット装置６０は、体幹部ユニット６２の所定の位置に頭部ユニット６３が連結されると共に、左右２つの腕部ユニット６４Ｒ／Ｌと、左右２つの脚部ユニット６５Ｒ／Ｌが連結されて構成されている（ただし、Ｒ及びＬの各々は、右及び左の各々を示す接尾辞である。以下において同じ。）。
【００６９】
このロボット装置１が具備する関節自由度構成を図１１に模式的に示す。頭部ユニット６３を支持する首関節は、首関節ヨー軸１０１と、首関節ピッチ軸１０２と、首関節ロール軸１０３という３自由度を有している。
【００７０】
また、上肢を構成する各々の腕部ユニット６４Ｒ／Ｌは、肩関節ピッチ軸１０７と、肩関節ロール軸１０８と、上腕ヨー軸１０９と、肘関節ピッチ軸１１０と、前腕ヨー軸１１１と、手首関節ピッチ軸１１２と、手首関節ロール軸１１３と、手部１１４とで構成される。手部１１４は、実際には、複数本の指を含む多関節・多自由度構造体である。ただし、手部１１４の動作は、ロボット装置６０の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は７自由度を有するとする。
【００７１】
また、体幹部ユニット６２は、体幹ピッチ軸１０４と、体幹ロール軸１０５と、体幹ヨー軸１０６という３自由度を有する。
【００７２】
また、下肢を構成する各々の脚部ユニット６５Ｒ／Ｌは、股関節ヨー軸１１５と、股関節ピッチ軸１１６と、股関節ロール軸１１７と、膝関節ピッチ軸１１８と、足首関節ピッチ軸１１９と、足首関節ロール軸１２０と、足部１２１とで構成される。本明細書中では、股関節ピッチ軸１１６と股関節ロール軸１１７の交点は、ロボット装置１の股関節位置を定義する。人体の足部１２１は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット装置６０の足底は、ゼロ自由度とする。したがって、各脚部は、６自由度で構成される。
【００７３】
以上を総括すれば、ロボット装置６０全体としては、合計で３＋７×２＋３＋６×２＝３２自由度を有することになる。ただし、エンターテインメント向けのロボット装置１が必ずしも３２自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
【００７４】
上述したようなロボット装置６０がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、２足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型且つ軽量であることが好ましい。また、アクチュエータは、ギア直結型で且つサーボ制御系をワンチップ化してモータユニット内に搭載したタイプの小型ＡＣサーボ・アクチュエータで構成することがより好ましい。
【００７５】
図１２には、ロボット装置６０の制御システム構成を模式的に示している。図１２に示すように、制御システムは、ユーザ入力などに動的に反応して情緒判断や感情表現を司る思考制御モジュール２００と、アクチュエータ３５０の駆動などロボット装置１の全身協調運動を制御する運動制御モジュール３００とで構成される。
【００７６】
思考制御モジュール２００は、情緒判断や感情表現に関する演算処理を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１１や、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２１３、及び、外部記憶装置（ハード・ディスク・ドライブなど）２１４で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。
【００７７】
この思考制御モジュール２００は、画像入力装置２５１から入力される画像データや音声入力装置２５２から入力される音声データなど、外界からの刺激などに従って、ロボット装置６０の現在の感情や意思を決定する。ここで、画像入力装置２５１は、例えばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラを複数備えており、また、音声入力装置２５２は、例えばマイクロホンを複数備えている。
【００７８】
また、思考制御モジュール２００は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール３００に対して指令を発行する。
【００７９】
一方の運動制御モジュール３００は、ロボット装置６０の全身協調運動を制御するＣＰＵ３１１や、ＲＡＭ３１２、ＲＯＭ３１３、及び外部記憶装置（ハード・ディスク・ドライブなど）３１４で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。外部記憶装置３１４には、例えば、オフラインで算出された歩行パターンや目標とするＺＭＰ軌道、その他の行動計画を蓄積することができる。ここで、ＺＭＰとは、歩行中の床反力によるモーメントがゼロとなる床面上の点のことであり、また、ＺＭＰ軌道とは、例えばロボット装置１の歩行動作期間中にＺＭＰが動く軌跡を意味する。なお、ＺＭＰの概念並びにＺＭＰを歩行ロボットの安定度判別規範に適用する点については、ＭｉｏｍｉｒＶｕｋｏｂｒａｔｏｖｉｃ著“ＬＥＧＧＥＤＬＯＣＯＭＯＴＩＯＮＲＯＢＯＴＳ”（加藤一郎外著『歩行ロボットと人工の足』（日刊工業新聞社））に記載されている。
【００８０】
運動制御モジュール３００には、図１１に示したロボット装置６０の全身に分散するそれぞれの関節自由度を実現するアクチュエータ３５０、体幹部ユニット２の姿勢や傾斜を計測する姿勢センサ３５１、左右の足底の離床又は着床を検出する接地確認センサ３５２，３５３、バッテリなどの電源を管理する電源制御装置３５４などの各種の装置が、バス・インターフェース（Ｉ／Ｆ）３０１経由で接続されている。ここで、姿勢センサ３５１は、例えば加速度センサとジャイロ・センサの組み合わせによって構成され、接地確認センサ３５２，３５３は、近接センサ又はマイクロ・スイッチなどで構成される。
【００８１】
思考制御モジュール２００と運動制御モジュール３００は、共通のプラットフォーム上で構築され、両者間はバス・インターフェース２０１，３０１を介して相互接続されている。
【００８２】
運動制御モジュール３００では、思考制御モジュール２００から指示された行動を体現すべく、各アクチュエータ３５０による全身協調運動を制御する。すなわち、ＣＰＵ３１１は、思考制御モジュール２００から指示された行動に応じた動作パターンを外部記憶装置３１４から取り出し、又は、内部的に動作パターンを生成する。そして、ＣＰＵ３１１は、指定された動作パターンに従って、足部運動、ＺＭＰ軌道、体幹運動、上肢運動、腰部水平位置及び高さなどを設定するとともに、これらの設定内容に従った動作を指示する指令値を各アクチュエータ３５０に転送する。
【００８３】
また、ＣＰＵ３１１は、姿勢センサ３５１の出力信号によりロボット装置６０の体幹部ユニット６２の姿勢や傾きを検出するとともに、各接地確認センサ３５２，３５３の出力信号により各脚部ユニット６５Ｒ／Ｌが遊脚又は立脚のいずれの状態であるかを検出することによって、ロボット装置６０の全身協調運動を適応的に制御することができる。
【００８４】
また、ＣＰＵ３１１は、ＺＭＰ位置が常にＺＭＰ安定領域の中心に向かうように、ロボット装置６０の姿勢や動作を制御する。
【００８５】
さらに、運動制御モジュール３００は、思考制御モジュール２００において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール２００に返すようになっている。
【００８６】
このようにしてロボット装置６０は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。
【００８７】
このロボット装置６０において、上述した歌声合成機能をインプリメントしたプログラム（データを含む）は例えば思考制御モジュール２００のＲＯＭ２１３に置かれる。この場合、歌声合成プログラムの実行は思考制御モジュール２００のＣＰＵ２１１により行われる。
【００８８】
このようなロボット装置に上記歌声合成機能を組み込むことにより、伴奏に合わせて歌うロボットとしての表現能力が新たに獲得され、エンターテインメント性が広がり、人間との親密性が深められる。
【００８９】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【００９０】
例えば、本件出願人が先に提案した特願２００２−７３３８５の明細書及び図面に記載の音声合成方法及び装置等に用いられる歌声合成部及び波形生成部に対応した歌声生成部７に使用可能な歌声情報を例示しているが、この他種々の歌声生成部を用いることができ、この場合、各種の歌声生成部によって歌声生成に必要とされる情報を含むような歌声情報を、上記演奏データから生成するようにすればよいことは勿論である。また、演奏データは、ＭＩＤＩデータに限定されず、種々の規格の演奏データを使用可能である。
【００９１】
【発明の効果】
以上詳細に説明したように、歌声や楽音等の信号を合成するための本発明に係る信号合成方法及び装置によれば、演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより歌唱又は演奏パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声又は楽音を生成することにより、歌唱の際の歌声や演奏の際の楽音に対して、歌唱又は演奏のスタイルに応じた表現変化を付与することができ、音楽表現が格段に向上する。
【００９２】
また、本発明に係る歌声合成方法及び装置によれば、歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータを予め用意しておき、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とし、上記解析された音楽情報の音符列の音符に対応して、予め用意された上記パターンデータに基づいて音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声を生成することにより、歌唱の際の歌声に対して、歌唱スタイルに応じた表現変化を付与することができ、音楽表現が格段に向上する。したがって、従来において、固定された歌唱スタイルで表現力の乏しい歌い方しかできなかったのに対して、歌唱スタイルを任意に選択することにより、表現力が向上し、また、楽曲に合わせた歌唱スタイルにより自然な歌声を実現したり、ミスマッチなスタイルにより滑稽さを表現することもでき、エンタテインメント性をさらに向上させることができる。
【００９３】
また、本発明に係るプログラムは、本発明の歌声合成機能をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュータ読み取り可能なものである。
【００９４】
また、本発明に係るロボット装置は本発明の歌声合成機能を実現する。すなわち、本発明のロボット装置によれば、歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータを予め用意しておき、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とし、上記解析された音楽情報の音符列の音符に対応して、予め用意された上記パターンデータに基づいて音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更し、パターン変更された音楽情報の音符列に基づいて歌声を生成することにより、歌唱の際の歌声に対して、歌唱スタイルに応じた表現変化を付与することができ、音楽表現の拡大が図れ、また、楽曲に合わせた歌唱スタイルにより自然な歌声を実現したり、ミスマッチなスタイルにより滑稽さを表現することもでき、エンタテインメント性をさらに向上させることができる。したがって、ロボット装置の表現能力が向上し、エンターテインメント性を高めることができると共に、人間との親密性を深めることができる。
【図面の簡単な説明】
【図１】本実施の形態における歌声合成装置のシステム構成を説明するブロック図である。
【図２】解析結果の楽譜情報の例を示す図である。
【図３】歌声情報の例を示す図である。
【図４】歌声生成部の構成例を説明するブロック図である。
【図５】歌唱パターンデータの例を示す図である。
【図６】歌唱スタイル適用前の歌声情報の例を示す図である。
【図７】図６の歌声情報に対して「演歌」の歌唱スタイルが適用された後の歌声情報を示す図である。
【図８】本実施の形態における歌声合成装置の他の構成例の要部を示すブロック図である。
【図９】本実施の形態における歌声合成装置の動作を説明するためのフローチャートである。
【図１０】本実施の形態におけるロボット装置の外観構成を示す斜視図である。
【図１１】同ロボット装置の自由度構成モデルを模式的に示す図である。
【図１２】同ロボット装置のシステム構成を示すブロック図である。
【符号の説明】
１演奏データ解析部、５歌詞付与部、７歌声生成部、１３歌詞選択部、１２歌唱パターン変更部、１００ロボット装置、２１１ＣＰＵ、２１３ＲＯＭ

Claims

演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、
解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより歌唱又は演奏パターンを変更するパターン変更工程と、
パターン変更された音楽情報の音符列に基づいて歌声又は楽音を生成する生成工程と
を有することを特徴とする信号合成方法。
上記演奏データはＭＩＤＩファイルの演奏データであることを特徴とする請求項１記載の信号合成方法。
上記表現変化を付与するためのパラメータは、上記歌唱又は演奏のスタイルと、上記音符の長さ、強さ、強さの増減状態、高さ及び楽曲の速度の少なくとも１つとに応じて設定されること特徴とする請求項１記載の信号合成方法。
演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、
歌唱又は演奏のスタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータが蓄積された記憶手段と、
上記解析手段により解析された音楽情報の音符列の音符に対応して、上記記憶手段により読み出された音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより歌唱又は演奏パターンを変更するパターン変更手段と、
パターン変更された音楽情報の音符列に基づいて歌声又は楽音を生成する生成手段と
を有することを特徴とする信号合成装置。
上記演奏データはＭＩＤＩファイルの演奏データであることを特徴とする請求項４記載の信号合成装置。
上記表現変化を付与するためのパラメータは、上記歌唱又は演奏のスタイルと、上記音符の長さ、強さ、強さの増減状態、高さ及び楽曲の速度の少なくとも１つとに応じて設定されること特徴とする請求項４記載の信号合成装置。
演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とする歌詞付与工程と、
上記解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更するパターン変更工程と、
パターン変更された歌声情報に基づき歌声を生成する歌声生成工程と
を有することを特徴とする歌声合成方法。
上記演奏データはＭＩＤＩファイルの演奏データであることを特徴とする請求項７記載の歌声合成方法。
上記表現変化を付与するためのパラメータは、上記歌唱スタイルと、上記音符の長さ、強さ、高さ及び楽曲の速度の少なくとも１つとに応じて設定されることを特徴とする請求項７記載の歌声合成方法。
上記表現変化は、対象となる音符の音に対してビブラート、ピッチベンド、エクスプレッションの少なくとも１つを付与することを特徴とする請求項７記載の歌声合成方法。
上記ビブラートを付与するためのパラメータは、振幅開始の遅れの情報と、振幅の情報と、周期の情報と、振幅の増減の情報と、周期の増減の情報との少なくとも１つを含み、上記エクスプレッションを付与するためのパラメータは、音符の長さに対する比の時間情報とその時間軸上での特徴的な任意の点における強さの情報の少なくとも１つを含むことを特徴とする請求項１０記載の歌声合成方法。
上記歌唱スタイルは、ユーザ設定、演奏データのトラック名、楽曲名、マーカのいずれかにより選択されることを特徴とする請求項７記載の歌声合成方法。
歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータが蓄積された記憶手段と、
演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とする歌詞付与手段と、
上記解析手段により解析された音楽情報の音符列の音符に対応して、上記記憶手段により読み出された音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更するパターン変更手段と、
パターン変更された音楽情報の音符列に基づいて歌声を生成する歌声生成手段と
を有することを特徴とする歌声合成装置。
上記演奏データはＭＩＤＩファイルの演奏データであることを特徴とする請求項１３記載の歌声合成装置。
上記表現変化を付与するためのパラメータは、上記歌唱スタイルと、上記音符の長さ、強さ、強さの増減状態、高さ及び楽曲の速度の少なくとも１つとに応じて設定されることを特徴とする請求項１３記載の歌声合成装置。
上記表現変化は、対象となる音符の音に対してビブラート、ピッチベンド、エクスプレッションの少なくとも１つを付与することを特徴とする請求項１３記載の歌声合成装置。
上記ビブラートを付与するためのパラメータは、振幅開始の遅れの情報と、振幅の情報と、周期の情報と、振幅の増減の情報と、周期の増減の情報との少なくとも１つを含み、上記エクスプレッションを付与するためのパラメータは、音符の長さに対する比の時間情報とその時間軸上での特徴的な任意の点における強さの情報の少なくとも１つを含むことを特徴とする請求項１６記載の歌声合成装置。
上記歌唱スタイルは、ユーザ設定、演奏データのトラック名、楽曲名、マーカのいずれかにより選択されることを特徴とする請求項１３記載の歌声合成装置。
所定の処理をコンピュータに実行させるためのプログラムであって、
入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とする歌詞付与工程と、
上記解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更するパターン変更工程と、
パターン変更された歌声情報に基づき歌声を生成する歌声生成工程と
を有することを特徴とするプログラム。
所定の処理をコンピュータに実行させるためのプログラムが記録されたコンピュータ読取可能な記録媒体であって、
入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とする歌詞付与工程と、
上記解析された音楽情報の音符列の音符に対して、歌唱又は演奏のスタイルに応じて、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更するパターン変更工程と、
パターン変更された歌声情報に基づき歌声を生成する歌声生成工程と
を有することを特徴とするプログラムが記録された記録媒体。
供給された入力情報に基づいて動作を行う自律型のロボット装置であって、
歌唱スタイルに応じて、音楽情報の音符に対して、音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与するためのパラメータが設定されたパターンデータが蓄積された記憶手段と、
演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与して歌声情報とする歌詞付与手段と、
上記解析手段により解析された音楽情報の音符列の音符に対応して、上記記憶手段により読み出された音量変化、音程変化、タイミング変化の少なくとも１つを含む表現変化を付与することにより上記歌声情報の歌唱パターンを変更するパターン変更手段と、
パターン変更された音楽情報の音符列に基づいて歌声を生成する歌声生成手段と
を有することを特徴とするロボット装置。