JP3858842B2 - 歌声合成方法及び装置 - Google Patents
歌声合成方法及び装置 Download PDFInfo
- Publication number
- JP3858842B2 JP3858842B2 JP2003079151A JP2003079151A JP3858842B2 JP 3858842 B2 JP3858842 B2 JP 3858842B2 JP 2003079151 A JP2003079151 A JP 2003079151A JP 2003079151 A JP2003079151 A JP 2003079151A JP 3858842 B2 JP3858842 B2 JP 3858842B2
- Authority
- JP
- Japan
- Prior art keywords
- singing voice
- lyrics
- information
- performance data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H5/00—Instruments in which the tones are generated by means of electronic generators
- G10H5/005—Voice controlled instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
Description
【発明の属する技術分野】
本発明は、演奏データから歌声を合成する歌声合成方法及び装置に関する。
【0002】
【従来の技術】
コンピュータ等により、与えられた歌唱データから歌声を生成する技術は特許文献1に代表されるように既に知られている。
【0003】
MIDI(musical instrument digital interface)データは代表的な演奏データであり、事実上の業界標準である。代表的には、MIDIデータはMIDI音源と呼ばれるデジタル音源(コンピュータ音源や電子楽器音源等のMIDIデータにより動作する音源)を制御して楽音を生成するのに使用される。MIDIファイル(例えば、SMF(standard MIDI file))には歌詞データを入れることができ、歌詞付きの楽譜の自動作成に利用される。
【0004】
また、MIDIデータを歌声又は歌声を構成する音素セグメントのパラメータ表現(特殊データ表現)として利用する試みも特許文献2に代表されるように提案されている。
【0005】
しかし、これらの従来の技術においてはMIDIデータのデータ形式の中で歌声を表現しようとしているが、あくまでも楽器をコントロールする感覚でのコントロールであり、MIDI本来が持っている歌詞データを利用するものではなかった。
【0006】
また、ほかの楽器用に作成されたMIDIデータを、修正を加えることなく歌声にすることはできなかった。
【0007】
また、電子メールやホームページを読み上げる音声合成ソフトはソニー(株)の「Simple Speech」をはじめ多くのメーカーから発売されているが、読み上げ方は普通の文章を読み上げるのと同じような口調であった。
【0008】
ところで、電気的又は磁気的な作用を用いて人間(生物)の動作に似た運動を行う機械装置を「ロボット」という。我が国においてロボットが普及し始めたのは、1960年代末からであるが、その多くは、工場における生産作業の自動化・無人化等を目的としたマニピュレータや搬送ロボット等の産業用ロボット(Industrial Robot)であった。
【0009】
最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットの開発が進められている。このような実用ロボットは、産業用ロボットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように4足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、あるいは、2足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」ロボット(Humanoid Robot)等のロボット装置は、既に実用化されつつある。
【0010】
これらのロボット装置は、産業用ロボットと比較して、エンターテインメント性を重視した様々な動作を行うことができるため、エンターテインメントロボットと呼称される場合もある。また、そのようなロボット装置には、外部からの情報や内部の状態に応じて自律的に動作するものがある。
【0011】
この自律的に動作するロボット装置に用いられる人工知能(AI:artificial intelligence)は、推論・判断等の知的な機能を人工的に実現したものであり、さらに感情や本能等の機能をも人工的に実現することが試みられている。このような人工知能の外部への表現手段としての視覚的な表現手段や自然言語の表現手段等のうちで、自然言語表現機能の一例として、音声を用いることが挙げられる。
【0012】
【特許文献1】
特許第3233036号公報
【特許文献2】
特開平11−95798号公報
【0013】
【発明が解決しようとする課題】
以上のように従来の歌声合成は特殊な形式のデータを用いていたり、仮にMIDIデータを用いていてもその中に埋め込まれている歌詞データを有効に活用できなかったり、ほかの楽器用に作成されたMIDIデータを歌い上げたりすることはできなかった。
【0014】
本発明は、このような従来の実情に鑑みて提案されたものであり、例えばMIDIデータのような演奏データを活用して歌声を合成することが可能な歌声合成方法及び装置を提供することを目的とする。
【0015】
さらに、本発明の目的は、MIDIデータのような演奏データを活用する際、歌声に使用し、かつ歌声と共にもとの演奏データから楽音も再生可能した歌声合成方法及び装置を提供することである。
【0018】
【課題を解決するための手段】
本発明に係る歌声合成方法は、上記目的を達成するため、入力された演奏データを解析し、演奏データを楽譜情報に変換する演奏データ解析工程と、上記楽譜情報のうち、歌詞を付与することが選択されたトラックの楽譜情報に歌詞が含まれていない場合には所定の歌詞を生成して歌声情報を生成し、上記選択されたトラックの楽譜情報に歌詞が含まれている場合には含まれている歌詞に基づいて歌声情報を生成する歌詞付与工程と、上記歌声情報に基づき、歌声を生成する歌声生成工程と、上記演奏データに基づき、上記歌詞を付与することが選択された楽譜情報についての演奏データに係る楽音をミュート又は上記歌声の音量よりも小さな音量とすることで上記歌声の伴奏としての楽音を生成する楽音生成工程と、上記歌声と上記楽音の同期を取ってミキシングするミキシング工程とを有することを特徴とする。
【0019】
また、本発明に係る歌声合成装置は、上記目的を達成するため、入力された演奏データを解析し、演奏データを楽譜情報に変換する演奏データ解析手段と、上記楽譜情報のうち、歌詞を付与することが選択されたトラックの楽譜情報に歌詞が含まれていない場合には所定の歌詞を生成して歌声情報を生成し、上記選択されたトラックの楽譜情報に歌詞が含まれている場合には含まれている歌詞に基づいて歌声情報を生成する歌詞付与手段と、上記歌声情報に基づき、歌声を生成する歌声生成手段と、上記演奏データに基づき、上記歌詞を付与することが選択された楽譜情報についての演奏データに係る楽音をミュート又は上記歌声の音量よりも小さな音量とすることで上記歌声の伴奏としての楽音を生成する楽音生成手段と、上記歌声と上記楽音の同期を取ってミキシングするミキシング手段とを有することを特徴とする。
【0020】
この構成によれば、本発明に係る歌声合成方法及び装置は、演奏データを解析してそれから得られる歌詞や音の高さ、長さ、強さをもとにした音符情報に基づき歌声情報を生成し、その歌声情報をもとに歌声の生成を行うことができる。さらに、演奏データから歌声の伴奏としての楽音を再生することにより、伴奏のもとで歌詞を歌い上げることができる。
【0021】
上記演奏データはMIDIファイル(例えばSMF)の演奏データであることが好ましい。
【0022】
上記楽音生成工程又は手段は歌声を目立たせるために上記歌声の対象とした演奏データに係る楽音をミュートする(楽音として出力しない)ことが好ましい。
【0023】
あるいは、上記楽音生成工程又は手段は上記歌声の対象とした演奏データに係る楽音を上記歌声の音量よりも小さな音量で再生することにより、カラオケ等におけるメロディガイド機能を果たすことができる。
【0024】
また、上記楽音生成工程又は手段は上記MIDIファイルの演奏データのうち、歌詞の対象等として予め指定されたトラックの演奏データに係る楽音をミュートすることが好ましい。
【0025】
さらに、上記歌声と上記楽音の同期を取ってミキシングするミキシング工程又は手段を設けることが好ましい。ミキシングの方式としては、歌声と楽音のそれぞれの波形データを予め作成し重ね合わせることによりミキシングをすることとし、ミキシング結果を保存してもよい。
【0028】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
【0029】
先ず、本実施の形態における歌声合成装置の概略システム構成を図1に示す。ここで、この歌声合成装置は、少なくとも感情モデル、音声合成手段及び発音手段を有する例えばロボット装置に適用することを想定しているが、これに限定されず、各種ロボット装置や、ロボット以外の各種コンピュータAI(artificial
intelligence)等への適用も可能であることは勿論である。
【0030】
図1において、MIDIデータに代表される演奏データ1を解析する演奏データ解析部2は入力された演奏データ1を解析し演奏データ内にあるトラックやチャンネルの音の高さや長さ、強さを表す楽譜情報4に変換する。
【0031】
図2に楽譜情報4に変換された演奏データ(MIDIデータ)の例を示す。図2において、トラック毎、チャンネル毎にイベントが書かれている。イベントにはノートイベントとコントロールイベントが含まれる。ノートイベントは発生時刻(図中の時間の欄)、高さ、長さ、強さ(velocity)の情報を持つ。したがって、ノートイベントのシーケンスにより音符列又は音列が定義される。コントロールイベントは発生時刻、コントロールのタイプデータ(例えばビブラート、演奏ダイナミクス表現(expression))及びコントロールのコンテンツを示すデータを持つ。例えば、ビブラートの場合、コントロールのコンテンツとして、音の振れの大きさを指示する「深さ」、音の揺れの周期を指示する「幅」、音の揺れの開始タイミング(発音タイミングからの遅れ時間)を指示する「遅れ」の項目を有する。特定のトラック、チャンネルに対するコントロールイベントはそのコントロールタイプについて新たなコントロールイベント(コントロールチェンジ)が発生しない限り、そのトラック、チャンネルの音符列の楽音再生に適用される。さらに、MIDIファイルの演奏データにはトラック単位で歌詞を記入することができる。図2において、上方に示す「あるうひ」はトラック1に記入された歌詞の一部であり、下方に示す「あるうひ」はトラック2に記入された歌詞の一部である。すなわち図2の例は、解析した音楽情報(楽譜情報)の中に歌詞が埋め込まれた例である。
【0032】
なお、図2において、時間は「小節:拍:ティック数」で表され、長さは「ティック数」で表され、強さは「0−127」の数値で表され、高さは440Hzが「A4」で表される。また、ビブラートは、深さ、幅、遅れがそれぞれ「0−64−127」の数値で表される。
【0033】
図1に戻り、変換された楽譜情報4は歌詞付与部5に渡される。歌詞付与部5では楽譜情報4をもとに音符に対応した音の長さ、高さ、強さ、表情などの情報とともにその音に対する歌詞が付与された歌声情報6の生成を行う。
【0034】
図3に歌声情報6の例を示す。図3において、「¥song¥」は歌詞情報の開始を示すタグである。タグ「¥PP,T10673075¥」は10673075μsecの休みを示し、タグ「¥tdyna 110 649075¥」は先頭から10673075μsecの全体の強さを示し、タグ「¥fine100¥」はMIDIのファインチューンに相当する高さの微調整を示し、タグ「¥vibrato NRPN_dep=64¥」、[¥vibrato NRPN_del=50¥]、「¥vibrato NRPN_rat=64¥」はそれぞれ、ビブラートの深さ、遅れ、幅を示す。また、タグ「¥dyna 100¥」は音毎の強弱を示し、タグ「¥G4,T288461¥あ」はG4の高さで、長さが288461μsecの歌詞「あ」を示す。図3の歌声情報は図2に示す楽譜情報(MIDIデータの解析結果)から得られたものである。
【0035】
図3と図2の比較から分かるように、楽器制御用の演奏データ(例えば音符情報)が歌声情報の生成において十分に活用されている。例えば、歌詞「あるうひ」の構成要素「あ」について、「あ」以外の歌唱属性である「あ」の音の発生時刻、長さ、高さ、強さ等について、楽譜情報(図2)中のコントロール情報やノートイベント情報に含まれる発生時刻、長さ、高さ、強さ等が直接的に利用され、次の歌詞要素「る」についても楽譜情報中の同じトラック、チャンネルにおける次のノートイベント情報が直接的に利用され、以下同様である。
【0036】
図1に戻り、歌声情報6は歌声生成部7に渡される。歌声生成部7は音声合成器(speech synthesizer)を構成する。歌声生成部7においては歌声情報6をもとに歌声波形8の生成を行う。ここで、歌声情報6から歌声波形8を生成する歌声生成部7は例えば図4に示すように構成される。
【0037】
図4において、歌声韻律生成部7−1は歌声情報6を歌声韻律データに変換する。波形生成部7−2は歌声韻律データを歌声波形8に変換する。
【0038】
具体例として、「A4」の高さの歌詞要素「ら」を一定時間伸ばす場合について説明する。ビブラートをかけない場合の歌声韻律データは、以下の表のように表される。
【0039】
【表1】
【0040】
この表において、[LABEL]は、各音韻の継続時間長を表したものである。すなわち、「ra」という音韻(音素セグメント)は、0サンプルから1000サンプルまでの1000サンプルの継続時間長であり、「ra」に続く最初の「aa」という音韻は、1000サンプルから39600サンプルまでの38600サンプルの継続時間長である。また、[PITCH]は、ピッチ周期を点ピッチで表したものである。すなわち、0サンプル点におけるピッチ周期は56サンプルである。ここでは「ら」の高さを変えないので全てのサンプルに渡り56サンプルのピッチ周期が適用される。また、[VOLUME]は、各サンプル点での相対的な音量を表したものである。すなわち、デフォルト値を100%としたときに、0サンプル点では66%の音量であり、39600サンプル点では57%の音量である。以下同様にして、40100サンプル点では48%の音量等が続き42600サンプル点では3%の音量となる。これにより「ら」の音声が時間の経過と共に減衰することが実現される。
【0041】
これに対して、ビブラートをかける場合には、例えば、以下に示すような歌声韻律データが作成される。
【0042】
【表2】
【0043】
この表の[PITCH]の欄に示すように、0サンプル点と1000サンプル点におけるピッチ周期は50サンプルで同じであり、この間は音声の高さに変化がないが、それ以降は、2000サンプル点で53サンプルのピッチ周期、4009サンプル点で47サンプルのピッチ周期、6009サンプル点で53のピッチ周期というようにピッチ周期が約4000サンプルの周期(幅)を以て上下(50±3)に振れている。これにより音声の高さの揺れであるビブラートが実現される。この[PITCH]の欄のデータは歌声情報6における対応歌声要素(例えば「ら」)に関する情報、特にノートナンバー(例えばA4)とビブラートコントロールデータ(例えば、タグ「¥vibrato NRPN_dep=64¥」、[¥vibrato NRPN_del=50¥]、「¥vibrato NRPN_rat=64¥」)に基づいて生成される。
【0044】
波形生成部7−2はこのような歌声音韻データに基づき、音素セグメントデータを記憶するデータメモリ(図示せず)から該当するサンプルを読み出して歌声波形8を生成する。すなわち、波形生成部7−2は、データメモリを参照しながら、歌声韻律データに示される音韻系列、ピッチ周期、音量等をもとに、なるべくこれに近い音素セグメントデータを検索してその部分を切り出して並べ、音声波形データを生成する。すなわち、データメモリには、例えば、CV(Consonant, Vowel)や、VCV、CVC等の形で音素セグメントデータが記憶されており、波形生成部7−2は、歌声韻律データに基づいて、必要な音素セグメントデータを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加することで、歌声波形8を生成する。なお、歌声情報6から歌声波形8を生成する歌声生成部7については上記の例に限らず、任意の適当な公知の音声合成器を使用できる。
【0045】
図1に戻り、演奏データ1はMIDI音源9に渡され、MIDI音源9は演奏データをもとに楽音の生成を行う。この楽音は伴奏波形10である。
【0046】
歌声波形8と伴奏波形10はともに同期を取りミキシングを行うミキシング部11に渡される。
【0047】
ミキシング部11では、歌声波形8と伴奏波形10との同期を取りそれぞれを重ね合わせて出力波形3として再生を行うことにより、演奏データ1をもとに伴奏を伴った歌声による音楽再生を行う。
【0048】
ここで、MIDI音源9での楽音の再生はMIDI制御部12によりMIDI制御データ16に指示されているトラック又はチャンネルに対して、ミュートや音量の調節を行った上で再生が行われる。
【0049】
MIDI制御データ16は、歌詞付与部5において歌詞を付与する際にどのトラックに対して歌詞を付与するかを判別、設定するトラック選択部13において選択されたトラック又はチャンネルの情報も反映され、MIDI音源9からの楽音と歌声生成部7が生成する歌声データを同時に再生する際に、歌声の対象となるトラック又はチャンネルに対して自動的にミュート又は音量の調整の処置を施すことができる。
【0050】
また、これとは別にオペレータの指示により、任意のトラック又はチャンネルに対してもミュート又は音量の調整を施すことができる。
【0051】
これらのMIDI制御データ16は演奏の対象となるMIDIデータと例えばファイル名が同じで拡張子が異なるなどの形で関連付けを持って保存することが可能である。
【0052】
一般にMIDI音源9は再生する楽音をwav形式などの波形データとして保存することも可能である。ミキシング部11は歌声データとのミキシングを行う際に、この予め用意されたMIDI楽音データの波形データと歌声データの波形を重ね合わせることによりミキシングを行うことも可能である。
【0053】
DTM(desk top music)等のシーケンサでは音声波形(wav形式)のデータを扱えるのは一般的である。上記のように音声波形としてまとめてしまえばDTM等のシーケンサにおいて、音声波形として取り込むことが可能になり、MIDIの楽音とのミキシング処理自体もシーケンサにより行うことが可能である。
【0054】
一般にMIDI音源9はそのクロック等の違いにより音源の種類により再生される楽音が長い場合にわずかながらズレを生じることが知られている。ズレ補正部14ではこのズレを補正するためにMIDI音源9の種類にあわせてズレ補正データ15内に予め用意された閾値を歌声生成部7において歌声を生成する際の時間データに対して掛け合わせることにより補正を行う。
【0055】
このズレ補正データ15は歌声生成部7が動作しているCPUやOS(operating system)などの環境とMIDI音源の種類の組み合わせによって決まるが、それ以外にオペレータの指示によりこの閾値を変更することも可能である。
【0056】
なお、歌声情報に関して、演奏データに歌詞が含まれている場合を説明したが、これには限られず、演奏データに歌詞が含まれない場合に任意の歌詞、例えば「ら」や「ぼん」等を自動生成し、又はオペレータにより入力し、歌詞の対象とする演奏データ(トラック、チャンネル)を、トラック選択部、歌詞付与部を介して選択して歌詞を割り振るようにしてもよい。
【0057】
図5に図1に示す歌声合成装置の全体動作をフローチャートで示す。
【0058】
先ずMIDIファイルの演奏データ1を入力する(ステップS1)。次に演奏データ1を解析し、楽譜データ4を作成する(ステップS2、S3)。次にオペレータに問い合わせオペレータの設定処理(例えば、歌詞の対象とするトラックやチャンネルの指定、ミュート又は音量調整すべきトラック又はチャンネルの指定、wavの作成指示、DTMへの取込指示等)を行う(ステップS4)。なおオペレータが設定しなかった部分についてはデフォルトが後続処理で使用される。
【0059】
次に、作成した楽譜データに基づき、歌詞を対象とするトラック又はチャンネルの演奏データに割り振って歌声情報6を作成する(ステップS5、S6)。
【0060】
次に上述したタイミングのズレ補正閾値を取得し(ステップS7)、歌声生成部7において歌声情報6から歌声を生成する際の時間データに対して掛け合わせることにより補正を行って、音声波形(歌声波形8)を作成する。
【0061】
次に、MIDI制御データ16を参照して、ミュートすべきトラック、チャンネル又は音量調整すべきトラック、チャンネルがあるかチェックし(ステップ9)該当するMIDIトラック、チャンネルについては対応する処理をする(ステップS10)。代表的には、歌詞の対象とした演奏データ(MIDIトラック、チャンネル)は再生されないか、歌声に比べ小さな音量で再生されるよう音量調整処理される。
【0062】
次に、MIDIからwav形式の作成が指示されているかチェックする(ステップS11)。指示されてなければ、MIDI再生をスタートさせ(ステップS13)、歌声波形8と伴奏波形10との同期を取りながらミキシングする(ステップS17)。
【0063】
MIDIからwav形式の作成が指示されているときは、伴奏波形10を作成した(ステップS14)後、DTMへの取込が指示されているかチェックする(ステップS15)。指示されていれば歌声波形8と共に伴奏波形10をDTMに引き渡す。指示されてなければ歌声波形8と伴奏波形10を重ね合わせる(ステップS16)。
【0064】
ステップS13又はS16の後、D/A変換器、アンプ、スピーカを含むサウンドシステム(図示せず)を介して歌声に伴奏の付いた音響信号を出力する(ステップS17)。
【0065】
なお、ステップS12、S13を通ってS17に進む処理は、代表的には逐次的に実行される。すなわち、MIDIの再生スタートを合図に、順次、リアルタイムでミキシングの実行とサウンドシステムによる音再生が行われる。これに対し、ステップS8からステップS14、S16を経てステップS17に至る処理の場合、代表的には、いったん(予め)歌声と伴奏音の波形を作成し、重ね合わせてミキシングし、その結果を保存した後に、楽曲のサウンド再生要求に応じて音再生が行われる。
【0066】
以上説明した歌声合成機能は例えば、ロボット装置に搭載される。
【0067】
以下、一構成例として示す2足歩行タイプのロボット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、内部状態(怒り、悲しみ、喜び、楽しみ等)に応じて行動できるほか、人間が行う基本的な動作を表出できるエンターテインメントロボットである。
【0068】
図6に示すように、ロボット装置60は、体幹部ユニット62の所定の位置に頭部ユニット63が連結されると共に、左右2つの腕部ユニット64R/Lと、左右2つの脚部ユニット65R/Lが連結されて構成されている(ただし、R及びLの各々は、右及び左の各々を示す接尾辞である。以下において同じ。)。
【0069】
このロボット装置60が具備する関節自由度構成を図7に模式的に示す。頭部ユニット63を支持する首関節は、首関節ヨー軸101と、首関節ピッチ軸102と、首関節ロール軸103という3自由度を有している。
【0070】
また、上肢を構成する各々の腕部ユニット64R/Lは、、肩関節ピッチ軸107と、肩関節ロール軸108と、上腕ヨー軸109と、肘関節ピッチ軸110と、前腕ヨー軸111と、手首関節ピッチ軸112と、手首関節ロール軸113と、手部114とで構成される。手部114は、実際には、複数本の指を含む多関節・多自由度構造体である。ただし、手部114の動作は、ロボット装置60の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部は7自由度を有するとする。
【0071】
また、体幹部ユニット62は、体幹ピッチ軸104と、体幹ロール軸105と、体幹ヨー軸106という3自由度を有する。
【0072】
また、下肢を構成する各々の脚部ユニット65R/Lは、股関節ヨー軸115と、股関節ピッチ軸116と、股関節ロール軸117と、膝関節ピッチ軸118と、足首関節ピッチ軸119と、足首関節ロール軸120と、足部121とで構成される。本明細書中では、股関節ピッチ軸116と股関節ロール軸117の交点は、ロボット装置60の股関節位置を定義する。人体の足部121は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット装置60の足底は、ゼロ自由度とする。したがって、各脚部は、6自由度で構成される。
【0073】
以上を総括すれば、ロボット装置60全体としては、合計で3+7×2+3+6×2=32自由度を有することになる。ただし、エンターテインメント向けのロボット装置60が必ずしも32自由度に限定されるわけではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
【0074】
上述したようなロボット装置60がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型かつ軽量であることが好ましい。また、アクチュエータは、ギア直結型でかつサーボ制御系をワンチップ化してモータユニット内に搭載したタイプの小型ACサーボ・アクチュエータで構成することがより好ましい。
【0075】
図8には、ロボット装置60の制御システム構成を模式的に示している。図8に示すように、制御システムは、ユーザ入力などに動的に反応して情緒判断や感情表現を司る思考制御モジュール200と、アクチュエータ350の駆動などロボット装置60の全身協調運動を制御する運動制御モジュール300とで構成される。
【0076】
思考制御モジュール200は、情緒判断や感情表現に関する演算処理を実行するCPU(Central Processing Unit)211や、RAM(Random Access Memory)212、ROM(Read only Memory)213、及び、外部記憶装置(ハード・ディスク・ドライブなど)214で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。
【0077】
この思考制御モジュール200は、画像入力装置251から入力される画像データや音声入力装置252から入力される音声データなど、外界からの刺激などに従って、ロボット装置60の現在の感情や意思を決定する。ここで、画像入力装置251は、例えばCCD(Charge Coupled Device)カメラを複数備えており、また、音声入力装置252は、例えばマイクロホンを複数備えている。
【0078】
また、思考制御モジュール200は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール300に対して指令を発行する。
【0079】
一方の運動制御モジュール300は、ロボット装置60の全身協調運動を制御するCPU311や、RAM312、ROM313、及び外部記憶装置(ハード・ディスク・ドライブなど)314で構成される、モジュール内で自己完結した処理を行うことができる、独立駆動型の情報処理装置である。外部記憶装置314には、例えば、オフラインで算出された歩行パターンや目標とするZMP軌道、その他の行動計画を蓄積することができる。ここで、ZMPとは、歩行中の床反力によるモーメントがゼロとなる床面上の点のことであり、また、ZMP軌道とは、例えばロボット装置60の歩行動作期間中にZMPが動く軌跡を意味する。なお、ZMPの概念並びにZMPを歩行ロボットの安定度判別規範に適用する点については、Miomir Vukobratovic 著“LEGGED LOCOMOTION ROBOTS”(加藤一郎外著『歩行ロボットと人工の足』(日刊工業新聞社))に記載されている。
【0080】
運動制御モジュール300には、図8に示したロボット装置60の全身に分散するそれぞれの関節自由度を実現するアクチュエータ350、体幹部ユニット62の姿勢や傾斜を計測する姿勢センサ351、左右の足底の離床又は着床を検出する接地確認センサ352,353、バッテリなどの電源を管理する電源制御装置354などの各種の装置が、バス・インターフェース(I/F)301経由で接続されている。ここで、姿勢センサ351は、例えば加速度センサとジャイロ・センサの組み合わせによって構成され、接地確認センサ352,353は、近接センサ又はマイクロ・スイッチなどで構成される。
【0081】
思考制御モジュール200と運動制御モジュール300は、共通のプラットフォーム上で構築され、両者間はバス・インターフェース201,301を介して相互接続されている。
【0082】
運動制御モジュール300では、思考制御モジュール200から指示された行動を体現すべく、各アクチュエータ350による全身協調運動を制御する。すなわち、CPU311は、思考制御モジュール200から指示された行動に応じた動作パターンを外部記憶装置314から取り出し、又は、内部的に動作パターンを生成する。そして、CPU311は、指定された動作パターンに従って、足部運動、ZMP軌道、体幹運動、上肢運動、腰部水平位置及び高さなどを設定するとともに、これらの設定内容に従った動作を指示する指令値を各アクチュエータ350に転送する。
【0083】
また、CPU311は、姿勢センサ351の出力信号によりロボット装置60の体幹部ユニット62の姿勢や傾きを検出するとともに、各接地確認センサ352,353の出力信号により各脚部ユニット65R/Lが遊脚又は立脚のいずれの状態であるかを検出することによって、ロボット装置60の全身協調運動を適応的に制御することができる。
【0084】
また、CPU311は、ZMP位置が常にZMP安定領域の中心に向かうように、ロボット装置60の姿勢や動作を制御する。
【0085】
さらに、運動制御モジュール300は、思考制御モジュール200において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール200に返すようになっている。
【0086】
このようにしてロボット装置60は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。
【0087】
このロボット装置60において、上述した歌声合成機能をインプリメントしたプログラム(データを含む)は例えば思考制御モジュール200のROM213に置かれる。この場合、歌声合成プログラムの実行は思考制御モジュール200のCPU211により行われる。
【0088】
このようなロボット装置に上記歌声合成機能を組み込むことにより、伴奏に合わせて歌うロボットとしての表現能力が新たに獲得され、エンターテインメント性が広がり、人間との親密性が深められる。
【0089】
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
【0090】
例えば、本件出願人が先に提案した特願2002−73385の明細書及び図面に記載の音声合成方法及び装置等に用いられる歌声合成部及び波形生成部に対応した歌声生成部7に使用可能な歌声情報を例示しているが、この他種々の歌声生成部を用いることができ、この場合、各種の歌声生成部によって歌声生成に必要とされる情報を含むような歌声情報を、上記演奏データから生成するようにすればよいことは勿論である。また、演奏データは、MIDIデータに限定されず、種々の規格の演奏データを使用可能である。
【0091】
【発明の効果】
以上詳細に説明したように、本発明に係る歌声合成方法及び装置によれば、演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報に基づき、歌声を生成するとともに、上記演奏データに基づき、上記歌声の伴奏としての楽音を生成することにより、MIDIデータに代表されるような演奏データ(楽器制御データ)から楽音の再生のみならず楽音を伴奏として歌詞を歌い上げることができる。したがって、従来、楽器の音のみにより表現していた音楽の作成や再生において特別な情報を加えることがなく歌声の合成を行うことによりその音楽表現は格段に向上する。
【0092】
また、本発明に係るプログラムは、本発明の歌声合成機能をコンピュータに実行させるものであり、本発明に係る記録媒体は、このプログラムが記録されたコンピュータ読み取り可能なものである。
【0093】
本発明に係るプログラム及び記録媒体によれば、演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報に基づき、歌声を生成するとともに、上記演奏データに基づき、上記歌声の伴奏としての楽音を生成することにより、演奏データ(楽器制御データ)から楽音の再生のみならず楽音を伴奏とした歌唱が可能となる。
【0094】
また、本発明に係るロボット装置は本発明の歌声合成機能を実現する。すなわち、本発明のロボット装置によれば、供給された入力情報に基づいて動作を行う自律型のロボット装置において、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析し、解析された音楽情報に基づき、歌声を生成するとともに、上記演奏データに基づき、上記歌声の伴奏としての楽音を生成することにより、MIDIデータに代表されるような演奏データ(楽器制御データ)から楽音の再生のみならず楽音を伴奏として歌詞を歌い上げることができる。したがって、ロボット装置の表現能力が向上し、エンターテインメント性を高めることができると共に、人間との親密性を深めることができる。
【図面の簡単な説明】
【図1】本実施の形態における歌声合成装置のシステム構成を説明するブロック図である。
【図2】解析結果の楽譜情報の例を示す図である。
【図3】歌声情報の例を示す図である。
【図4】歌声生成部の構成例を説明するブロック図である。
【図5】本実施の形態における歌声合成装置の動作を説明するフローチャートである。
【図6】本実施の形態におけるロボット装置の外観構成を示す斜視図である。
【図7】同ロボット装置の自由度構成モデルを模式的に示す図である。
【図8】同ロボット装置のシステム構成を示すブロック図である。
【符号の説明】
2 演奏データ解析部、5 歌詞付与部、7 歌声生成部、9 MIDI音源11 ミキシング部、12 MIDI制御部、60 ロボット装置、211 CPU、213 ROM
Claims (2)
- 入力された演奏データを解析し、演奏データを楽譜情報に変換する演奏データ解析工程と、
上記楽譜情報のうち、歌詞を付与することが選択されたトラックの楽譜情報に歌詞が含まれていない場合には所定の歌詞を生成して歌声情報を生成し、上記選択されたトラックの楽譜情報に歌詞が含まれている場合には含まれている歌詞に基づいて歌声情報を生成する歌詞付与工程と、
上記歌声情報に基づき、歌声を生成する歌声生成工程と、
上記演奏データに基づき、上記歌詞を付与することが選択された楽譜情報についての演奏データに係る楽音をミュート又は上記歌声の音量よりも小さな音量とすることで上記歌声の伴奏としての楽音を生成する楽音生成工程と、
上記歌声と上記楽音の同期を取ってミキシングするミキシング工程と
を有することを特徴とする歌声合成方法。 - 入力された演奏データを解析し、演奏データを楽譜情報に変換する演奏データ解析手段と、
上記楽譜情報のうち、歌詞を付与することが選択されたトラックの楽譜情報に歌詞が含まれていない場合には所定の歌詞を生成して歌声情報を生成し、上記選択されたトラックの楽譜情報に歌詞が含まれている場合には含まれている歌詞に基づいて歌声情報を生成する歌詞付与手段と、
上記歌声情報に基づき、歌声を生成する歌声生成手段と、
上記演奏データに基づき、上記歌詞を付与することが選択された楽譜情報についての演奏データに係る楽音をミュート又は上記歌声の音量よりも小さな音量とすることで上記歌声の伴奏としての楽音を生成する楽音生成手段と、
上記歌声と上記楽音の同期を取ってミキシングするミキシング手段とを有することを特徴とする歌声合成装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003079151A JP3858842B2 (ja) | 2003-03-20 | 2003-03-20 | 歌声合成方法及び装置 |
US10/799,779 US7173178B2 (en) | 2003-03-20 | 2004-03-15 | Singing voice synthesizing method and apparatus, program, recording medium and robot apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003079151A JP3858842B2 (ja) | 2003-03-20 | 2003-03-20 | 歌声合成方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004287098A JP2004287098A (ja) | 2004-10-14 |
JP3858842B2 true JP3858842B2 (ja) | 2006-12-20 |
Family
ID=33293348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003079151A Expired - Fee Related JP3858842B2 (ja) | 2003-03-20 | 2003-03-20 | 歌声合成方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7173178B2 (ja) |
JP (1) | JP3858842B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304430B2 (en) | 2017-03-23 | 2019-05-28 | Casio Computer Co., Ltd. | Electronic musical instrument, control method thereof, and storage medium |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7176372B2 (en) * | 1999-10-19 | 2007-02-13 | Medialab Solutions Llc | Interactive digital music recorder and player |
US9818386B2 (en) | 1999-10-19 | 2017-11-14 | Medialab Solutions Corp. | Interactive digital music recorder and player |
JP3879402B2 (ja) * | 2000-12-28 | 2007-02-14 | ヤマハ株式会社 | 歌唱合成方法と装置及び記録媒体 |
EP1326228B1 (en) | 2002-01-04 | 2016-03-23 | MediaLab Solutions LLC | Systems and methods for creating, modifying, interacting with and playing musical compositions |
US7076035B2 (en) | 2002-01-04 | 2006-07-11 | Medialab Solutions Llc | Methods for providing on-hold music using auto-composition |
US7928310B2 (en) | 2002-11-12 | 2011-04-19 | MediaLab Solutions Inc. | Systems and methods for portable audio synthesis |
US7169996B2 (en) | 2002-11-12 | 2007-01-30 | Medialab Solutions Llc | Systems and methods for generating music using data/music data file transmitted/received via a network |
JP2004287099A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 |
JP4682602B2 (ja) * | 2004-11-30 | 2011-05-11 | ヤマハ株式会社 | 音楽再生装置 |
KR20050014037A (ko) * | 2005-01-18 | 2005-02-05 | 서문종 | 음악과 음성의 합성 시스템 및 방법과 이를 이용한 서비스시스템 및 방법 |
US8119897B2 (en) * | 2008-07-29 | 2012-02-21 | Teie David Ernest | Process of and apparatus for music arrangements adapted from animal noises to form species-specific music |
US9009052B2 (en) * | 2010-07-20 | 2015-04-14 | National Institute Of Advanced Industrial Science And Technology | System and method for singing synthesis capable of reflecting voice timbre changes |
US9159310B2 (en) | 2012-10-19 | 2015-10-13 | The Tc Group A/S | Musical modification effects |
US9123315B1 (en) * | 2014-06-30 | 2015-09-01 | William R Bachand | Systems and methods for transcoding music notation |
JP6728754B2 (ja) * | 2015-03-20 | 2020-07-22 | ヤマハ株式会社 | 発音装置、発音方法および発音プログラム |
US11257471B2 (en) * | 2020-05-11 | 2022-02-22 | Samsung Electronics Company, Ltd. | Learning progression for intelligence based music generation and creation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4527274A (en) * | 1983-09-26 | 1985-07-02 | Gaynor Ronald E | Voice synthesizer |
JPH05341793A (ja) * | 1991-04-19 | 1993-12-24 | Pioneer Electron Corp | カラオケ演奏装置 |
JP3333022B2 (ja) * | 1993-11-26 | 2002-10-07 | 富士通株式会社 | 歌声合成装置 |
US5703311A (en) * | 1995-08-03 | 1997-12-30 | Yamaha Corporation | Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
JP2000105595A (ja) * | 1998-09-30 | 2000-04-11 | Victor Co Of Japan Ltd | 歌唱装置及び記録媒体 |
-
2003
- 2003-03-20 JP JP2003079151A patent/JP3858842B2/ja not_active Expired - Fee Related
-
2004
- 2004-03-15 US US10/799,779 patent/US7173178B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304430B2 (en) | 2017-03-23 | 2019-05-28 | Casio Computer Co., Ltd. | Electronic musical instrument, control method thereof, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2004287098A (ja) | 2004-10-14 |
US7173178B2 (en) | 2007-02-06 |
US20040231499A1 (en) | 2004-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3864918B2 (ja) | 歌声合成方法及び装置 | |
JP4483188B2 (ja) | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 | |
EP1605435B1 (en) | Singing voice synthesizing method, singing voice synthesizing device, program, recording medium, and robot | |
JP3858842B2 (ja) | 歌声合成方法及び装置 | |
JP4150198B2 (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 | |
EP1345207B1 (en) | Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus | |
US20020198717A1 (en) | Method and apparatus for voice synthesis and robot apparatus | |
WO2002076686A1 (fr) | Appareil d'apprentissage d'actions et procede d'apprentissage d'actions pour systeme robotique, et support de memoire | |
JP4415573B2 (ja) | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 | |
JP2001322079A (ja) | 脚式移動ロボット及びその動作教示方法 | |
Savery et al. | Shimon sings-robotic musicianship finds its voice | |
JP2005004106A (ja) | 信号合成方法及び装置、歌声合成方法及び装置、プログラム及び記録媒体並びにロボット装置 | |
JP2002318594A (ja) | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 | |
Cosentino et al. | Human–robot musical interaction | |
JP2003271172A (ja) | 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置 | |
JP2002346958A (ja) | 脚式移動ロボットのための制御装置及び制御方法 | |
Ellenberg et al. | Exploring creativity through humanoids and dance | |
JP2003071762A (ja) | ロボット装置およびロボット制御方法、記録媒体、並びにプログラム | |
JP2001043126A (ja) | ロボットシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060911 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100929 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100929 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110929 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110929 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120929 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120929 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130929 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |