JP3864918B2

JP3864918B2 - 歌声合成方法及び装置

Info

Publication number: JP3864918B2
Application number: JP2003079149A
Authority: JP
Inventors: 賢一郎小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-03-20
Filing date: 2003-03-20
Publication date: 2007-01-10
Anticipated expiration: 2023-03-20
Also published as: US20040243413A1; JP2004287096A; US7241947B2

Description

【０００１】
【発明の属する技術分野】
本発明は、演奏データから歌声を合成する歌声合成方法及び装置に関する。
【０００２】
【従来の技術】
コンピュータ等により、与えられた歌唱データから歌声を生成する技術は特許文献１に代表されるように既に知られている。
【０００３】
ＭＩＤＩ（musical instrument digital interface）データは代表的な演奏データであり、事実上の業界標準である。代表的には、ＭＩＤＩデータはＭＩＤＩ音源と呼ばれるデジタル音源（コンピュータ音源や電子楽器音源等のＭＩＤＩデータにより動作する音源）を制御して楽音を生成するのに使用される。ＭＩＤＩファイル（例えば、ＳＭＦ（standard MIDI file））には歌詞データを入れることができ、歌詞付きの楽譜の自動作成に利用される。
【０００４】
また、ＭＩＤＩデータを歌声又は歌声を構成する音素セグメントのパラメータ表現（特殊データ表現）として利用する試みも特許文献２に代表されるように提案されている。
【０００５】
しかし、これらの従来の技術においてはＭＩＤＩデータのデータ形式の中で歌声を表現しようとしているが、あくまでも楽器をコントロールする感覚でのコントロールに過ぎなかった。
【０００６】
また、ほかの楽器用に作成されたＭＩＤＩデータを、修正を加えることなく歌声にすることはできなかった。
【０００７】
また、電子メールやホームページを読み上げる音声合成ソフトはソニー(株)の「Simple Speech」をはじめ多くのメーカーから発売されているが、読み上げ方は普通の文章を読み上げるのと同じような口調であった。
【０００８】
ところで、電気的又は磁気的な作用を用いて人間（生物）の動作に似た運動を行う機械装置を「ロボット」という。我が国においてロボットが普及し始めたのは、１９６０年代末からであるが、その多くは、工場における生産作業の自動化・無人化等を目的としたマニピュレータや搬送ロボット等の産業用ロボット（Industrial Robot）であった。
【０００９】
最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットの開発が進められている。このような実用ロボットは、産業用ロボットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように４足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、あるいは、２足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」ロボット（Humanoid Robot）等のロボット装置は、既に実用化されつつある。
【００１０】
これらのロボット装置は、産業用ロボットと比較して、エンターテインメント性を重視した様々な動作を行うことができるため、エンターテインメントロボットと呼称される場合もある。また、そのようなロボット装置には、外部からの情報や内部の状態に応じて自律的に動作するものがある。
【００１１】
この自律的に動作するロボット装置に用いられる人工知能（ＡＩ：artificial intelligence）は、推論・判断等の知的な機能を人工的に実現したものであり、さらに感情や本能等の機能をも人工的に実現することが試みられている。このような人工知能の外部への表現手段としての視覚的な表現手段や自然言語の表現手段等のうちで、自然言語表現機能の一例として、音声を用いることが挙げられる。
【００１２】
【特許文献１】
特許第３２３３０３６号公報
【特許文献２】
特開平１１−９５７９８号公報
【００１３】
【発明が解決しようとする課題】
以上のように従来の歌声合成は特殊な形式のデータを用いていたり、仮にＭＩＤＩデータを用いていてもその中に埋め込まれている歌詞データを有効に活用できなかったり、ほかの楽器用に作成されたＭＩＤＩデータを歌い上げたりすることはできなかった。
【００１４】
本発明は、このような従来の実情に鑑みて提案されたものであり、例えばＭＩＤＩデータのような演奏データを活用して歌声を合成することが可能な歌声合成方法及び装置を提供することを目的とする。
【００１５】
さらに、本発明の目的は、ＭＩＤＩデータのような演奏データを活用する際、歌声に使用する合成音声の音域にあった歌唱を可能にする歌声合成方法及び装置を提供することである。
【００１８】
【課題を解決するための手段】
本発明に係る歌声合成方法は、上記目的を達成するため、楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、解析された音楽情報に基づき、音声合成器を介して、歌声を生成する歌声生成工程と、上記歌声を生成する際に上記楽曲のキーを変更するキー変更工程とを有し、上記キー変更工程は、上記楽曲の最高音と最低音の中間にある音が、上記音声合成器の歌声として再生可能な音域内の所定の最高音と最低音の中間になるように歌声生成の際に上記演奏データのキーを変更することを特徴とする。
【００１９】
ここで、「キー」とは、例えば音楽用語の「調」のことであり、主音の位置によって定まる音階の種類に対応している。キーを変更するとは、具体的には、音のピッチあるいは周波数を変更（シフト、移動）することに相当する。
【００２０】
楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、解析された音楽情報に基づき、音声合成器を介して、歌声を生成する歌声生成手段と、上記歌声を生成する際に上記楽曲のキーを変更するキー変更手段とを有し、上記キー変更手段は、上記楽曲の最高音と最低音の中間にある音が、上記音声合成器の歌声として再生可能な音域内の所定の最高音と最低音の中間になるように歌声生成の際に上記演奏データのキーを変更することを特徴とする。
【００２１】
この構成によれば、本発明に係る歌声合成方法及び装置は、楽曲を構成する演奏データを解析してそれから得られる歌詞や音の高さ、長さ、強さをもとにした音符情報に基づき歌声情報を生成し、その歌声情報をもとに歌声の生成を行うことができる。さらに、演奏データの音域が歌声を合成する音声合成器にとって望ましくない音域であるような場合を配慮して、キー変更機能により音声合成器の再生可能な音域に歌声が収まるように歌声生成の際に演奏データのキーを変更しているのでふさわしい音域での歌唱が可能である。
【００２２】
上記演奏データはＭＩＤＩファイル（例えばＳＭＦ）の演奏データであることが好ましい。
【００２３】
また、上記キー変更工程又は手段は、上記楽曲のキーを変更する際に、上記演奏データにおいて同一フレーズが複数回出現する部分をサビと判断することにより上記サビの部分を検出し、検出されたサビの部分の最高音と最低音の中間にある音が上記音声合成器の音域内の所定の最高音と最低音の中間になるように上記楽曲のキーを調整することが好ましい。
【００２４】
上記音声合成器が合成することが可能な音域を示す音域データを用意し、上記キー変更工程又は手段は、この音域データに基づき上記キーの変更をするとよい。この音域データはオペレータにより指示、又は設定されるようにしてよい。また、上記音声合成器が複数種類の音声を合成可能な合成器である場合、音域データは音声合成器の声の種類毎に用意することが好ましい。
【００２６】
また、上記キー変更工程又は手段は、上記キーの変更を行うか行わないかをオペレータにより指示されるようにしてよい。
【００２９】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【００３０】
先ず、本実施の形態における歌声合成装置の概略システム構成を図１に示す。ここで、この歌声合成装置は、少なくとも感情モデル、音声合成手段及び発音手段を有する例えばロボット装置に適用することを想定しているが、これに限定されず、各種ロボット装置や、ロボット以外の各種コンピュータＡＩ（artificial
intelligence）等への適用も可能であることは勿論である。
【００３１】
図１において、ＭＩＤＩデータに代表される演奏データ１を解析する演奏データ解析部２は入力された演奏データ１を解析し演奏データ内にあるトラックやチャンネルの音の高さや長さ、強さを表す楽譜情報４に変換する。
【００３２】
図２に楽譜情報４に変換された演奏データ（ＭＩＤＩデータ）の例を示す。図２において、トラック毎、チャンネル毎にイベントが書かれている。イベントにはノートイベントとコントロールイベントが含まれる。ノートイベントは発生時刻（図中の時間の欄）、高さ、長さ、強さ（velocity）の情報を持つ。したがって、ノートイベントのシーケンスにより音符列又は音列が定義される。コントロールイベントは発生時刻、コントロールのタイプデータ（例えばビブラート、演奏ダイナミクス表現（expression））及びコントロールのコンテンツを示すデータを持つ。例えば、ビブラートの場合、コントロールのコンテンツとして、音の振れの大きさを指示する「深さ」、音の揺れの周期を指示する「幅」、音の揺れの開始タイミング（発音タイミングからの遅れ時間）を指示する「遅れ」の項目を有する。特定のトラック、チャンネルに対するコントロールイベントはそのコントロールタイプについて新たなコントロールイベント（コントロールチェンジ）が発生しない限り、そのトラック、チャンネルの音符列の楽音再生に適用される。さらに、ＭＩＤＩファイルの演奏データにはトラック単位で歌詞を記入することができる。図２において、上方に示す「あるうひ」はトラック１に記入された歌詞の一部であり、下方に示す「あるうひ」はトラック２に記入された歌詞の一部である。すなわち図２の例は、解析した音楽情報（楽譜情報）の中に歌詞が埋め込まれた例である。
【００３３】
なお、図２において、時間は「小節：拍：ティック数」で表され、長さは「ティック数」で表され、強さは「０−１２７」の数値で表され、高さは４４０Hzが「Ａ４」で表される。また、ビブラートは、深さ、幅、遅れがそれぞれ「０−６４−１２７」の数値で表される。
【００３４】
図１に戻り、変換された楽譜情報４は歌詞付与部５に渡される。歌詞付与部５では楽譜情報４をもとに音符に対応した音の長さ、高さ、強さ、表情などの情報とともにその音に対する歌詞が付与された歌声情報６の生成を行う。
【００３５】
図３に歌声情報６の例を示す。図３において、「￥ｓｏｎｇ￥」は歌詞情報の開始を示すタグである。タグ「￥ＰＰ，Ｔ１０６７３０７５￥」は１０６７３０７５μsecの休みを示し、タグ「￥ｔｄｙｎａ１１０６４９０７５￥」は先頭から１０６７３０７５μsecの全体の強さを示し、タグ「￥ｆｉｎｅ−１００￥」はＭＩＤＩのファインチューンに相当する高さの微調整を示し、タグ「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｐ＝６４￥」、［￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｌ＝５０￥］、「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｒａｔ＝６４￥」はそれぞれ、ビブラートの深さ、遅れ、幅を示す。また、タグ「￥ｄｙｎａ１００￥」は音毎の強弱を示し、タグ「￥Ｇ４，Ｔ２８８４６１￥あ」はＧ４の高さで、長さが２８８４６１μsecの歌詞「あ」を示す。図３の歌声情報は図２に示す楽譜情報（ＭＩＤＩデータの解析結果）から得られたものである。図２と図３の比較から分かるように、楽器制御用の演奏データ（例えば音符情報）が歌声情報の生成において十分に活用されている。例えば、歌詞「あるうひ」の構成要素「あ」について、「あ」以外の歌唱属性である「あ」の音の発生時刻、長さ、高さ、強さ等について、楽譜情報（図２）中のコントロール情報やノートイベント情報に含まれる発生時刻、長さ、高さ、強さ等が直接的に利用され、次の歌詞要素「る」についても楽譜情報中の同じトラック、チャンネルにおける次のノートイベント情報が直接的に利用され、以下同様である。
【００３６】
図１に戻り、歌声情報６は歌声生成部７に渡される。歌声生成部７は音声合成器（speech synthesizer）を構成する。歌声生成部７においては歌声情報６をもとに歌声波形８の生成を行う。ここで、歌声情報６から歌声波形８を生成する歌声生成部７は例えば図４に示すように構成される。
【００３７】
図４において、歌声韻律生成部７−１は歌声情報６を歌声韻律データに変換する。波形生成部７−２は声質別波形メモリ７−３を介して歌声韻律データを歌声波形８に変換する。
【００３８】
具体例として、「Ａ４」の高さの歌詞要素「ら」を一定時間伸ばす場合について説明する。ビブラートをかけない場合の歌声韻律データは、以下の表のように表される。
【００３９】
【表１】

【００４０】
この表において、[LABEL]は、各音韻の継続時間長を表したものである。すなわち、「ｒａ」という音韻（音素セグメント）は、０サンプルから１０００サンプルまでの１０００サンプルの継続時間長であり、「ｒａ」に続く最初の「ａａ」という音韻は、１０００サンプルから３９６００サンプルまでの３８６００サンプルの継続時間長である。また、[ＰＩＴＣＨ]は、ピッチ周期を点ピッチで表したものである。すなわち、０サンプル点におけるピッチ周期は５６サンプルである。ここでは「ら」の高さを変えないので全てのサンプルに渡り５６サンプルのピッチ周期が適用される。また、[VOLUME]は、各サンプル点での相対的な音量を表したものである。すなわち、デフォルト値を１００％としたときに、０サンプル点では６６％の音量であり、３９６００サンプル点では５７％の音量である。以下同様にして、４０１００サンプル点では４８％の音量等が続き４２６００サンプル点では３％の音量となる。これにより「ら」の音声が時間の経過と共に減衰することが実現される。
【００４１】
これに対して、ビブラートをかける場合には、例えば、以下に示すような歌声韻律データが作成される。
【００４２】
【表２】

【００４３】
この表の［ＰＩＴＣＨ］の欄に示すように、０サンプル点と１０００サンプル点におけるピッチ周期は５０サンプルで同じであり、この間は音声の高さに変化がないが、それ以降は、２０００サンプル点で５３サンプルのピッチ周期、４００９サンプル点で４７サンプルのピッチ周期、６００９サンプル点で５３のピッチ周期というようにピッチ周期が約４０００サンプルの周期（幅）を以て上下（５０±３）に振れている。これにより音声の高さの揺れであるビブラートが実現される。この［ＰＩＴＣＨ］の欄のデータは歌声情報６における対応歌声要素（例えば「ら」）に関する情報、特にノートナンバー（例えばＡ４）とビブラートコントロールデータ（例えば、タグ「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｐ＝６４￥」、［￥ｖｉｂｒａｔｏＮＲＰＮ＿ｄｅｌ＝５０￥］、「￥ｖｉｂｒａｔｏＮＲＰＮ＿ｒａｔ＝６４￥」）に基づいて生成される。
【００４４】
波形生成部７−２はこのような歌声音韻データに基づき、声質別に音素セグメントデータを記憶する声質別波形メモリ７−３から該当する声質のサンプルを読み出して歌声波形８を生成する。すなわち、波形生成部７−２は、声質別波形メモリ７−３を参照しながら、歌声韻律データに示される音韻系列、ピッチ周期、音量等をもとに、なるべくこれに近い音素セグメントデータを検索してその部分を切り出して並べ、音声波形データを生成する。すなわち、声質別波形メモリ７−３には、声質別に、例えば、ＣＶ（Consonant, Vowel）や、ＶＣＶ、ＣＶＣ等の形で音素セグメントデータが記憶されており、波形生成部７−２は、歌声韻律データに基づいて、必要な音素セグメントデータを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加することで、歌声波形８を生成する。なお、歌声情報６から歌声波形８を生成する歌声生成部７については上記の例に限らず、任意の適当な公知の音声合成器を使用できる。
【００４５】
図１に戻り、演奏データ１はＭＩＤＩ音源９に渡され、ＭＩＤＩ音源９は演奏データをもとに楽音の生成を行う。この楽音は伴奏波形１０である。
【００４６】
歌声波形８と伴奏波形１０はともに同期を取りミキシングを行うミキシング部１１に渡される。
【００４７】
ミキシング部１１では、歌声波形８と伴奏波形１０との同期を取りそれぞれを重ね合わせて出力波形３として再生を行うことにより、演奏データ１をもとに伴奏を伴った歌声による音楽再生を行う。
【００４８】
ここで、歌声生成部７の出力にとって歌声情報６は必ずしも適切な音域をもつとは限らない。この点を配慮して、実施の形態では、歌声生成部７の最も声が綺麗に聞こえる音域をベスト音域データ１４として用意すると共に、歌声として生成可能な音域は音域データ１３として用意している。これらのデータ１３、１４はオペレータの指示により変更することも可能である。
【００４９】
解析された楽譜情報４は歌詞付与部５に渡されると同時にサビ検出部１５に渡される。
【００５０】
サビ検出部１５では楽譜情報４をもとに同じ音符の動きのパターン（フレーズ）が複数回出現する部分を楽曲におけるサビと判断することによりサビの楽曲部分を検出し、サビデータ１６として保存する。サビデータ１６は音域を示し、例えばサビの楽曲部分が検出された場合、サビにおける最高音と最低音の情報を有する。このサビデータ１６はオペレータが指示することも可能である。
【００５１】
歌詞付与部５によって生成された歌声情報６は歌声生成部７に渡される前にキー変更部１２に渡される。キー変更部１２でははじめにサビデータ１６を参照し、このサビデータ１６に基づき歌声情報６のキーの移動を行う。
【００５２】
詳細には、キー変更部１２は先ずベスト音域データ１４をもとにサビの部分の最高音と最低音の中間にある音が、ベスト音域データ１４の最高音と最低音の中間にある音と同じ音になるようにキーの移動を行う。
【００５３】
ここで中間点を求める際に音域の音数が偶数の場合は中間点に近い低い音を中間点の音として採用する。例えば、ベスト音域データがC4からC5の間であった場合は中間の音はF#4の音になり、サビ情報がG４からD5の間の場合はA#4がサビデータの中間になる。
【００５４】
キー変更部１２は、これらの中間点から楽曲のサビの中間点A#4がベストな音域の中間点F#4よりも長３度（４半音分）高いことを判断し、楽曲のキーを長３度下げた歌声情報６に変換する。このことにより楽曲のサビの音域を歌声としてベストな音域になるようにキーの調整が行われる。
【００５５】
また、サビの指定がない場合や、サビ検出部１５においてサビが検出できなかった場合は楽譜情報４に示される楽曲中の最高音と最低音がサビデータとして生成される。
【００５６】
サビが検出されなかったり指定されていない場合もこの楽曲中の最低音と最高音をもとにサビが検出された場合と同様のキーの変更が行われる。
【００５７】
また、サビデータ１６がベスト音域データ１４に示す音域の範囲を高いほう又は低いほうのいずれかでも超えている場合は歌声として可能な音域を表す音域データ１３の範囲にサビデータが収まるようにキーの調整を行う。この際の方法も同じように各音域の中間点をそろえる形で行う。
【００５８】
ここで、中間点をそろえてもサビデータ１６の音域が音域データ１３の音域に収まらない場合は、その音域を上に超えている場合は１オクターブ下げ、下に超えている場合は１オクターブ上げる処理を行なう。また、このオクターブ移動処理の指示がなされていない場合は何もしない。
【００５９】
これらにより移調されたキーの移動幅はＭＩＤＩ音源９を再生する際に制御情報として渡され、歌声と同時に再生されるＭＩＤＩからの出力のキーも変更される。
【００６０】
なお、歌声生成部７が複数種類の音声を合成可能な音声合成器である場合、ベスト音域データ１４と歌声として可能な音域を表す音域データ１３は声の種類毎に用意される。
【００６１】
また、上記キーの変更を行うか行わないかをオペレータにより指示することができる。
【００６２】
なお、歌声情報に関して、演奏データに歌詞が含まれている場合を説明したが、これには限られず、演奏データに歌詞が含まれない場合に任意の歌詞、例えば「ら」や「ぼん」等を自動生成し、又はオペレータにより入力し、歌詞の対象とする演奏データ（トラック、チャンネル）を、歌詞付与部を介して選択して歌詞を割り振るようにしてもよい。
【００６３】
図５に図１に示す歌声合成装置の全体動作をフローチャートで示す。
【００６４】
この図５において、先ずＭＩＤＩファイルの演奏データ１を入力する（ステップＳ１）。次に演奏データ１を解析し、楽譜データ４を作成する（ステップＳ２、Ｓ３）。次にオペレータに問い合わせオペレータの設定処理（例えば、キー変更をするかしないかの指示、声質の選択、音域データ１３の設定、ベスト音域データ１４の設定、歌詞の対象とするトラックの指定等）を行う（ステップＳ４）。なおオペレータが設定しなかった部分についてはデフォルトが後続処理で使用される。
【００６５】
次に、作成した楽譜データに基づき、歌詞を対象とするトラック又はチャンネルの演奏データに割り振って歌声情報６を作成する（ステップＳ５、Ｓ６）。
【００６６】
次にオペレータからのキー変更指示をチェックし（ステップＳ７）、指示なしなら移調することなくステップＳ８に進んで音声波形（歌声波形８）を生成するが、キー変更指示なら、移調ルーチンの最初のステップＳ９に進む。
【００６７】
ステップＳ９ではサビデータを作成する。詳細には、例えば、（ａ１）先ずオペレータにサビの指定を問い合わせ、サビ指定があればそれに基づきサビデータを作成し、（ａ２）サビ指定がなければ上述したサビ検出器１５によりサビ検出ルーチンを実行してサビの検出、すなわち同じ音符の動きのパターン（フレーズ）が複数回出現する部分の検出を試みる。（ａ３）サビの検出に成功したときはサビの最高音と最低音をサビデータとして作成し、（ａ４）サビの検出に失敗したときは歌声情報６の最高音と最低音をサビデータとして作成する。
【００６８】
次のステップＳ１０では、ベスト音域内のチェックを行う。詳細には、例えば（ｂ１）サビデータの中間の音Ｐ２とベスト音域データの中間の音Ｐ１の差Ｄを求め、（ｂ２）差Ｄだけずらしたサビデータの音域がベスト音域データの音域に収まるか判定し、（ｂ３）収まれば、「ベスト音域内である」として差ＤをステップＳ１２に渡し、（ｂ４）収まらなければ「ベスト音域内でない」としてステップＳ１１に進む。
【００６９】
ステップＳ１１では使用可能な音域内のチェックを行う。詳細には、（ｃ１）サビデータの中間の音Ｐ２と音域データの中間の音Ｐ１の差Ｄを求め、（ｃ２）差Ｄだけずらしたサビデータの音域が音域データの音域に収まるか判定し、（ｃ３）収まれば、「音域内である」として差ＤをステップＳ１２に渡し、（ｃ４）収まらなければステップＳ１２をスキップして波形生成ステップＳ１３に進む。
【００７０】
ステップＳ１２では差Ｄだけ歌声情報６に含まれる各音のノートナンバーをシフトして楽曲のキーを変更する。
【００７１】
波形生成ステップＳ１３では歌声生成部７により、これまでの処理で得られている歌声情報６から歌声の音声波形を作成する。
【００７２】
次に演奏データ１の各音のノートナンバーについて差ＤだけシフトしてＭＩＤＩデータを歌声と同じキーに移調する（ステップＳ１４）。
【００７３】
ステップＳ１４又はＳ８の後、ＭＩＤＩ音源９によりＭＩＤＩを再生して伴奏波形１０を作成する（ステップＳ１５）。
【００７４】
ここまでの処理で、歌声波形８、及び伴奏波形１０が得られた。
【００７５】
そこで、ミキシング部１１により、歌声波形８と伴奏波形１０との同期を取りそれぞれを重ね合わせて出力波形３として再生を行う（ステップＳ１６、Ｓ１７）。この出力波形３は図示しないサウンドシステムを介して音響信号として出力される。
【００７６】
以上説明した歌声合成機能は例えば、ロボット装置に搭載される。
【００７７】
以下、一構成例として示す２足歩行タイプのロボット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、内部状態（怒り、悲しみ、喜び、楽しみ等）に応じて行動できるほか、人間が行う基本的な動作を表出できるエンターテインメントロボットである。
【００７８】
図６に示すように、ロボット装置６０は、体幹部ユニット６２の所定の位置に頭部ユニット６３が連結されると共に、左右２つの腕部ユニット６４Ｒ／Ｌと、左右２つの脚部ユニット６５Ｒ／Ｌが連結されて構成されている（ただし、Ｒ及びＬの各々は、右及び左の各々を示す接尾辞である。以下において同じ。）。
【００７９】
このロボット装置６０が具備する関節自由度構成を図７に模式的に示す。頭部ユニット６３を支持する首関節は、首関節ヨー軸１０１と、首関節ピッチ軸１０２と、首関節ロール軸１０３という３自由度を有している。
【００８０】
また、上肢を構成する各々の腕部ユニット６４Ｒ／Ｌは、、肩関節ピッチ軸１０７と、肩関節ロール軸１０８と、上腕ヨー軸１０９と、肘関節ピッチ軸１１０と、前腕ヨー軸１１１と、手首関節ピッチ軸１１２と、手首関節ロール軸１１３と、手部１１４とで構成される。手部１１４は、実際には、複数本の指を含む多関節・多自由度構造体である。ただし、手部１１４の動作は、ロボット装置６０の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は７自由度を有するとする。
【００８１】
また、体幹部ユニット６２は、体幹ピッチ軸１０４と、体幹ロール軸１０５と、体幹ヨー軸１０６という３自由度を有する。
【００８２】
また、下肢を構成する各々の脚部ユニット６５Ｒ／Ｌは、股関節ヨー軸１１５と、股関節ピッチ軸１１６と、股関節ロール軸１１７と、膝関節ピッチ軸１１８と、足首関節ピッチ軸１１９と、足首関節ロール軸１２０と、足部１２１とで構成される。本明細書中では、股関節ピッチ軸１１６と股関節ロール軸１１７の交点は、ロボット装置６０の股関節位置を定義する。人体の足部１２１は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット装置６０の足底は、ゼロ自由度とする。したがって、各脚部は、６自由度で構成される。
【００８３】
以上を総括すれば、ロボット装置６０全体としては、合計で３＋７×２＋３＋６×２＝３２自由度を有することになる。ただし、エンターテインメント向けのロボット装置６０が必ずしも３２自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
【００８４】
上述したようなロボット装置６０がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、２足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型かつ軽量であることが好ましい。また、アクチュエータは、ギア直結型でかつサーボ制御系をワンチップ化してモータユニット内に搭載したタイプの小型ＡＣサーボ・アクチュエータで構成することがより好ましい。
【００８５】
図８には、ロボット装置６０の制御システム構成を模式的に示している。図８に示すように、制御システムは、ユーザ入力などに動的に反応して情緒判断や感情表現を司る思考制御モジュール２００と、アクチュエータ３５０の駆動などロボット装置６０の全身協調運動を制御する運動制御モジュール３００とで構成される。
【００８６】
思考制御モジュール２００は、情緒判断や感情表現に関する演算処理を実行するＣＰＵ（Central Processing Unit）２１１や、ＲＡＭ（Random Access Memory）２１２、ＲＯＭ（Read only Memory）２１３、及び、外部記憶装置（ハード・ディスク・ドライブなど）２１４で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。
【００８７】
この思考制御モジュール２００は、画像入力装置２５１から入力される画像データや音声入力装置２５２から入力される音声データなど、外界からの刺激などに従って、ロボット装置６０の現在の感情や意思を決定する。ここで、画像入力装置２５１は、例えばＣＣＤ（Charge Coupled Device）カメラを複数備えており、また、音声入力装置２５２は、例えばマイクロホンを複数備えている。
【００８８】
また、思考制御モジュール２００は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール３００に対して指令を発行する。
【００８９】
一方の運動制御モジュール３００は、ロボット装置６０の全身協調運動を制御するＣＰＵ３１１や、ＲＡＭ３１２、ＲＯＭ３１３、及び外部記憶装置（ハード・ディスク・ドライブなど）３１４で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。外部記憶装置３１４には、例えば、オフラインで算出された歩行パターンや目標とするＺＭＰ軌道、その他の行動計画を蓄積することができる。ここで、ＺＭＰとは、歩行中の床反力によるモーメントがゼロとなる床面上の点のことであり、また、ＺＭＰ軌道とは、例えばロボット装置６０の歩行動作期間中にＺＭＰが動く軌跡を意味する。なお、ＺＭＰの概念並びにＺＭＰを歩行ロボットの安定度判別規範に適用する点については、Miomir Vukobratovic 著“LEGGED LOCOMOTION ROBOTS”（加藤一郎外著『歩行ロボットと人工の足』（日刊工業新聞社））に記載されている。
【００９０】
運動制御モジュール３００には、図８に示したロボット装置６０の全身に分散するそれぞれの関節自由度を実現するアクチュエータ３５０、体幹部ユニット６２の姿勢や傾斜を計測する姿勢センサ３５１、左右の足底の離床又は着床を検出する接地確認センサ３５２，３５３、バッテリなどの電源を管理する電源制御装置３５４などの各種の装置が、バス・インターフェース（Ｉ／Ｆ）３０１経由で接続されている。ここで、姿勢センサ３５１は、例えば加速度センサとジャイロ・センサの組み合わせによって構成され、接地確認センサ３５２，３５３は、近接センサ又はマイクロ・スイッチなどで構成される。
【００９１】
思考制御モジュール２００と運動制御モジュール３００は、共通のプラットフォーム上で構築され、両者間はバス・インターフェース２０１，３０１を介して相互接続されている。
【００９２】
運動制御モジュール３００では、思考制御モジュール２００から指示された行動を体現すべく、各アクチュエータ３５０による全身協調運動を制御する。すなわち、ＣＰＵ３１１は、思考制御モジュール２００から指示された行動に応じた動作パターンを外部記憶装置３１４から取り出し、又は、内部的に動作パターンを生成する。そして、ＣＰＵ３１１は、指定された動作パターンに従って、足部運動、ＺＭＰ軌道、体幹運動、上肢運動、腰部水平位置及び高さなどを設定するとともに、これらの設定内容に従った動作を指示する指令値を各アクチュエータ３５０に転送する。
【００９３】
また、ＣＰＵ３１１は、姿勢センサ３５１の出力信号によりロボット装置６０の体幹部ユニット６２の姿勢や傾きを検出するとともに、各接地確認センサ３５２，３５３の出力信号により各脚部ユニット６５Ｒ／Ｌが遊脚又は立脚のいずれの状態であるかを検出することによって、ロボット装置６０の全身協調運動を適応的に制御することができる。
【００９４】
また、ＣＰＵ３１１は、ＺＭＰ位置が常にＺＭＰ安定領域の中心に向かうように、ロボット装置６０の姿勢や動作を制御する。
【００９５】
さらに、運動制御モジュール３００は、思考制御モジュール２００において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール２００に返すようになっている。
【００９６】
このようにしてロボット装置６０は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。
【００９７】
このロボット装置６０において、上述した歌声合成機能をインプリメントしたプログラム（データを含む）は例えば思考制御モジュール２００のＲＯＭ２１３に置かれる。この場合、歌声合成プログラムの実行は思考制御モジュール２００のＣＰＵ２１１により行われる。
【００９８】
このようなロボット装置に上記歌声合成機能を組み込むことにより、伴奏に合わせて歌うロボットとしての表現能力が新たに獲得され、エンターテインメント性が広がり、人間との親密性が深められる。
【００９９】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【０１００】
例えば、本件出願人が先に提案した特願２００２−７３３８５の明細書及び図面に記載の音声合成方法及び装置等に用いられる歌声合成部及び波形生成部に対応した歌声生成部７に使用可能な歌声情報を例示しているが、この他種々の歌声生成部を用いることができ、この場合、各種の歌声生成部によって歌声生成に必要とされる情報を含むような歌声情報を、上記演奏データから生成するようにすればよいことは勿論である。また、演奏データは、ＭＩＤＩデータに限定されず、種々の規格の演奏データを使用可能である。
【０１０１】
【発明の効果】
以上詳細に説明したように、本発明に係る歌声合成方法及び装置によれば、楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報に基づき、音声合成器を介して、歌声を生成し、上記歌声を生成する際に上記楽曲のキーを変更し、その際上記音声合成器の再生可能な音域に上記歌声が収まるように歌声生成の際に上記演奏データのキーを変更することにより音声合成器にふさわしい音域での歌唱が可能である。したがって、従来、楽器の音のみにより表現していた音楽の作成や再生において特別な情報を加えることがなく歌声の再生を行ることによりその音楽表現は格段に向上する。
【０１０２】
また、本発明に係るプログラムは、本発明の歌声合成機能をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュータ読み取り可能なものである。
【０１０３】
本発明に係るプログラム及び記録媒体によれば、楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報に基づき、音声合成器を介して、歌声を生成し、上記歌声を生成する際に上記楽曲のキーを変更し、その際上記音声合成器の再生可能な音域に上記歌声が収まるように歌声生成の際に上記演奏データのキーを変更することにより音声合成器にふさわしい音域での歌唱が可能である。
【０１０４】
また、本発明に係るロボット装置は本発明の歌声合成機能を実現する。すなわち、本発明のロボット装置によれば、供給された入力情報に基づいて動作を行う自律型のロボット装置において、入力された、楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報に基づき、音声合成器を介して、歌声を生成し、上記歌声を生成する際に上記楽曲のキーを変更し、その際上記音声合成器の再生可能な音域に上記歌声が収まるように歌声生成の際に上記演奏データのキーを変更することにより音声合成器にふさわしい音域での歌唱が可能である。したがって、ロボット装置の表現能力が向上し、エンターテインメント性を高めることができると共に、人間との親密性を深めることができる。
【図面の簡単な説明】
【図１】本実施の形態における歌声合成装置のシステム構成を説明するブロック図である。
【図２】解析結果の楽譜情報の例を示す図である。
【図３】歌声情報の例を示す図である。
【図４】歌声生成部の構成例を説明するブロック図である。
【図５】本実施の形態における歌声合成装置の動作を説明するフローチャートである。
【図６】本実施の形態におけるロボット装置の外観構成を示す斜視図である。
【図７】同ロボット装置の自由度構成モデルを模式的に示す図である。
【図８】同ロボット装置のシステム構成を示すブロック図である。
【符号の説明】
２演奏データ解析部、５歌詞付与部、７歌声生成部（音声合成器）、１２キー変更部、１５サビ検出部、６０ロボット装置、２１１ＣＰＵ、２１３ＲＯＭ

Claims

楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析工程と、
解析された音楽情報に基づき、音声合成器を介して、歌声を生成する歌声生成工程と、
上記歌声を生成する際に上記楽曲のキーを変更するキー変更工程と
を有し、
上記キー変更工程は、上記楽曲の最高音と最低音の中間にある音が、上記音声合成器の歌声として再生可能な音域内の所定の最高音と最低音の中間になるように歌声生成の際に上記演奏データのキーを変更することを特徴とする歌声合成方法。
上記キー変更工程は、上記楽曲のキーを変更する際に、上記演奏データにおいて同一フレーズが複数回出現する部分をサビと判断することにより上記サビの部分を検出し、検出されたサビの部分の最高音と最低音の中間にある音が上記音声合成器の音域内の所定の最高音と最低音の中間になるように上記楽曲のキーを調整することを特徴とする請求項１記載の歌声合成方法。
楽曲を構成する演奏データを音の高さ、長さ、歌詞の音楽情報として解析する解析手段と、
解析された音楽情報に基づき、音声合成器を介して、歌声を生成する歌声生成手段と、
上記歌声を生成する際に上記楽曲のキーを変更するキー変更手段と
を有し、
上記キー変更手段は、上記楽曲の最高音と最低音の中間にある音が、上記音声合成器の歌声として再生可能な音域内の所定の最高音と最低音の中間になるように歌声生成の際に上記演奏データのキーを変更することを特徴とする歌声合成装置。