JP2005266671A

JP2005266671A - ロボット及び音声再生方法

Info

Publication number: JP2005266671A
Application number: JP2004082504A
Authority: JP
Inventors: Takahiro Kawashima; 隆宏川嶋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2004-03-22
Filing date: 2004-03-22
Publication date: 2005-09-29

Abstract

【課題】読み上げる音声に抑揚等を付けて再生することができるとともに、メッセージに合わせた動作を行うことができるロボットを提供する。
【解決手段】発音する文字を示す発声文字列と該発声文字の抑揚や発音長を制御する制御記号を発音する時間順にテキストで記述した発音文字列とからなる音声合成用データと、動作を指示する動作データとを一括して受信するデータ受信手段と、音声合成用データを解釈して音声再生する音声再生手段と、動作データを解釈して、音声再生手段によって再生した音声に同期して動作を行う動作制御手段とを備える。
【選択図】図１

Description

本発明は、通信手段を介して受信したメッセージの内容を読み上げるとともに、メッセージの音声に合わせて行動を起こすロボットに関する。

従来から、電子メールにてメッセージが送られると、送られたメッセージの文字列に埋め込まれている動作制御情報を抽出し、この制御情報に合致する動作制御データをテーブルから読み込み、その動作をロボットに動作せるとともに、同時に送られたメッセージを音声で読み上げるメッセージ処理システムが知られている（例えば、特許文献１参照）。
特開２００３−３０８１４２号公報

しかしながら、特許文献１に示すシステムにあっては、音声に抑揚の変化を与えることができないために、読み上げたメッセージの音声が単調になってしまうという問題がある。また、メッセージの文字列中に埋め込まれている動作制御情報に基づいて、ロボットの動作の制御を行っていたため、メッセージに合わせたより細かい動作の制御を行うことが困難であるという問題もある。

本発明は、このような事情に鑑みてなされたもので、読み上げる音声に抑揚等を付けて再生することができるとともに、メッセージに合わせた動作を行うことができるロボット及び音声再生方法を提供することを目的とする。

請求項１に記載の発明は、発音する文字を示す発声文字列と該発声文字の抑揚や発音長を制御する制御記号を発音する時間順にテキストで記述した発音文字列とからなる音声合成用データと、動作を指示する動作データとを一括して受信するデータ受信手段と、前記音声合成用データを解釈して音声再生する音声再生手段と、前記動作データを解釈して、前記音声再生手段によって再生した音声に同期して動作を行う動作制御手段とを備えたことを特徴とする。

請求項２に記載の発明は、前記動作データは、ロボットの各部の動作を指示する動作イベントと、該動作イベントを実行するタイミングを表す時間データからなることを特徴とする。

請求項３に記載の発明は、前記動作データは、ロボットの各部の動作を指示する動作イベントであり、該動作イベントが動作させるタイミングに合わせて発音文字列間に記述されていることを特徴とする。

請求項４に記載の発明は、前記データ受信手段は、前記音声合成用データと前記動作データに加え、さらに声色データを受信し、前記音声再生手段は、受信した声色データに基づいて、発音させる音声の声色を変化させて再生することを特徴とする。

請求項５に記載の発明は、前記データ受信手段は、前記音声合成用データと前記動作データに加え、さらに表示手段に表示する表示データを受信し、前記表示データを解釈して、前記音声再生手段によって再生した音声に同期して表示データを表示する表示手段をさらに備えたことを特徴とする。

請求項６に記載の発明は、音声合成用データとロボットの動作データとを作成するデータ作成手段と、前記音声合成用データと前記動作データを送信する送信手段と、前記音声合成用データと前記動作データとを受信する受信手段を備え、受信したデータに基づいてメッセージを再生するロボットとからなる装置における音声再生方法であって、前記データ作成手段により、発音する文字を示す発声文字と該発声文字の抑揚や発音長を制御する制御記号を発音する時間順にテキストで記述した発音文字列とからなる音声合成用データ及び前記ロボットの各部の動作を指示する動作データを作成する過程と、前記送信手段により、前記音声合成用データ及び動作データを一括して前記ロボットへ送信する過程と、前記受信手段により、前記音声合成用データ及び動作データを受信する過程と、前記ロボットが、受信した前記音声合成用データを解釈して音声再生するとともに、前記動作データを並行して解釈し、音声再生した音声に同期して各部の動作を行う過程と有することを特徴とする。

本発明によれば、読み上げる文字列に抑揚やテンポをつけることができ、より人間に近い音声によって、メッセージを読み上げることができるという効果が得られる。
また、再生音声に同期させて、動作を行うようにしたため、より表現力の高いメッセージ再生を実現することができるという効果が得られる。
また、発音させる音声の声色を変化させて再生するようにしたため、メッセージの表現力をより高めることができるという効果が得られる。
また、再生した音声に同期して表示データを表示するようにしたため、メッセージの表現力をより高めることができるという効果が得られる。

以下、本発明の一実施形態によるペット型ロボットを図面を参照して説明する。図１は同実施形態の構成を示すブロック図である。この図において、符号１は、動作部を有する犬や猫の姿をしたペット型ロボット（以下、ロボットと称する）である。符号２は、ロボット１との間で無線通信を確立して情報通信を行う基地局である。符号３は、基地局２との間で通信を確立したロボット１をインターネット４に接続するためのインターネット接続サーバである。符号５は、パソコン８や基地局６を介した携帯電話端末７をインターネット４へ接続するためのインターネット接続サーバである。

符号１０は、基地局２との間で無線通信を確立し、インターネット４に接続可能なパソコン８や携帯電話端末７とロボット１との間で情報通信を行う通信部である。符号１１は、ロボットの動作及び通信処理を統括するＣＰＵである。符号１２は、ロボットの動作を制御するプログラムや通信プログラムが予め記憶されたＲＯＭである。符号１３は、パソコン８や携帯電話端末７から受信した情報を一時的に記憶するＲＡＭである。符号１４は、入力操作を行う操作部である。符号１５は、液晶のディスプレイ等からなる表示部である。符号１６は、文字情報に基づいて発生させる音声信号を合成して出力する音声再生部である。符号１７は、音声再生部１６から出力される音声信号に基づいて、音声を発音させるスピーカである。符号１８は、ロボット１の動作部である足や頭部の動作を制御する動作制御部である。符号１９は、ロボット１に備えられている足（図示せず）を動作制御部１８から出力される制御情報に基づいて駆動する足駆動部であり、回転数や回転速度が制御可能なモータ等で構成される。符号２０は、ロボット１に備えられている頭部（図示せず）を動作制御部１８から出力される制御情報に基づいて駆動する頭駆動部であり、回転数や回転速度が制御可能なモータ等で構成される。ここでは、足と頭の駆動部のみを図示したが、動作部として尾、首、耳、目等を動作させることが可能なペット型ロボットである場合は、それぞれに対応する駆動部が動作制御部１８に接続され、動作制御部１８から出力される制御情報に基づいて各駆動部により、尾、首、耳、目等の各動作部が動作する。

次に、図２、図３を参照して、パソコン８や携帯電話端末７からロボット１へメッセージを送る場合に使用するＨＶデータについて説明する。ＨＶデータは、図２に示すように、ＨＶデータコンテナというデータチャンクの集合体（符号Ｄ１）であり、ＨＶ−ｓｃｒｉｐｔデータチャンクＤ２、ＨＶボイスデータチャンクＤ３及びキャラクタデータチャンクＤ４から構成される。キャラクタデータチャンクＤ４は、さらに動作データチャンクＤ５と表示データチャンクＤ６とから構成される。

ＨＶとは「Humanoid Voice」の略で、人の声をシミュレートする音声合成機能のことであり、サイン波などの波形からフォルマント周波数を作り出して音声合成を行なうものである。ＨＶ−ｓｃｒｉｐｔデータは、テキストで記述され、このテキストデータをフォルマント辞書を元に音声合成用のデータを生成し、スピーカから発音させるためのデータである。ＨＶボイスデータは、声質（声色）を変更するためのデータであり、フォルマントのパラメータを基準値からシフトする量などである。フォルマントのパラメータは、ピッチ、８個のフォルマントの周波数、レベル、フォルマント波形などがあり、これらを規定量シフトすることで声質を変えることが可能である。動作データは、ロボット１が備えている前述の各動作部に対応する各駆動部を動作させるためのデータである。表示データは、表示部１５（ディスプレイ）に画像やテキストを表示するためのデータである。パソコン８や携帯端末７には、このようなＨＶデータを制作し、このＨＶデータを電子メールに添付してロボット１へ送信するためのソフトウェアを備えている。

ここで、図３を参照して、ＨＶ−ｓｃｒｉｐｔデータと動作データの一例を説明する。
図３に示すように、ＨＶ−ｓｃｒｉｐｔデータは、メッセージとして発声させる文字列（この例では、「Ｋ０＠たんじょ＿２うび＊お‘めでＳ５２とお〜＊」）からなる。これからＲＯＭ１２内のフォルマント辞書を元に音声合成用のデータを生成し、スピーカから「たんじょうびおめでとう」と発音させるためのものである。このとき、ＨＶボイスデータを参照して、声質を決定して、音声合成用データを生成する。

ここで、上記ＨＶ−ｓｃｒｉｐｔに使われている各種記号について説明する。「Ｋ０」は、ＨＶボイスデータを参照して、声質を決定するための記号であり、デフォルトとして決められている標準の男性の声であることを意味している。「＠」は、文節の先頭に記述してその文節に韻律を与えるための記号であり、文節中の発声する文字の二つ目でピッチを高くし、最後の文字で下げるという意味である。つまり、「＊」が文節区切りを示す記号であるため、「たんじょうび」という文節に対して、「ん」でピッチを高くし、「び」で下げることを表している。「＿」はこの記号の後の文字（この記号の直後に数値がある場合は、この数値に続く文字）に対して、その文字の語頭でピッチを下げるという意味である。また、次の数字「２」は「＿」の記号の変化量を表すものであり、数字が大きくなるほどピッチを下げる量を増大することを意味している。「‘」はこの記号の後の文字に対して、その文字の語頭でピッチを上げるという意味である。「Ｓ５２」は１文字の発話速度を変化させる記号であり、この記号以降の文字における速度を指定している。Ｓの次に続く数字が大きいほど速く発音される。「〜」はピッチの揺れを持った長音であることを表す。このように、発声させる文字に各種記号を付けることにより、発声させたい文字に様々な抑揚を持たせるように記述することが可能となっている。

また、動作データは、時間データ（この例では、「３」）と動作イベント（この例では、「Ｕ１」）とからなるシーケンスデータである。この動作データは、再生を開始してから「３」秒後に「Ｕ１」に対応する動作を行い、さらに、その動作を開始してから「５」秒後に「Ｕ２」に対応する動作を行うことを意味している。「Ｕ１」は、例えば、「足を上げる」という動作制御データであり、「Ｕ２」は、「足を下げる」という動作制御データが予めＲＯＭ１２内に定義されている。すなわち、動作制御データとは、動作部に対応する駆動部の動作を規定するデータであり、動作イベントに対して設定されるものである。したがって、図３に示す例のデータを再生すると、音声で「たんじょうびおめでとう」と発音しながら、ロボット１の足が３秒後に上がり、その５秒後に足が下がるように、メッセージ再生が実行される。
なお、表示データも動作データと同様に、時間データと表示イベントからなるデータであり、表示イベントは表示させるための画像（テキスト）データを示すデータである。画像（テキスト）データは、ＨＶデータに付加してもよいし、ロボット１のＲＡＭ１３等に予め記憶されていてもよい。

次に、図４を参照して、図１に示す装置の基本動作を説明する。ここでは、パソコン８において作成したメッセージをロボット１において再生するものとして動作を説明する。まず、ロボット１のユーザは、ロボット１を留守番再生モードに設定するか、リアルタイム再生モードに設定するかを決定し、操作部１４から留守番再生モード、リアルタイム再生モードのいずれかに設定をしておく。留守番再生モードは、受信したＨＶデータをＲＡＭ１３内に記憶しておき、ユーザからの指示に基づいて再生を始めるモードである。また、リアルタイム再生モードは、ＨＶデータを受信するとただちに再生を始めるモードである。ここで設定した内容は、ＣＰＵ１１が読み取り、ＲＡＭ１３へ記憶する。

次に、メッセージを送る者（以下、送信者と称する）は、パソコン８のＨＶデータ制作用ソフトウェアを使用してロボット１へ送信するメッセージを含むＨＶデータを作成する（ステップＳ１）。このとき、文字列に対して付与したい抑揚を指定するとともに、必要であればＨＶボイスデータを付加する。さらに、表示部１５へ表示する画像データとロボット１の動作指示を指定する。例えば、「たんじょうびおめでとう」というメッセージを作成する場合は、元気な抑揚で明るい声色になるようにＨＶ−Ｓｃｒｉｐｔを記述する。また、キャラクタがケーキを差し出すような画像データを付与するとともに、メッセージの読み上げに合わせたロボットの動作を指定するように記述することによりＨＶデータを作成する。そして、送信者は、作成したＨＶデータを添付した電子メールをロボット１に割り当てられた電子メールアドレスに対して送信する（ステップＳ２）。

この電子メールは、通信部１０が受信し、添付されていたＨＶデータをＲＡＭ１３へ記憶する（ステップＳ３）。これを受けて、ＣＰＵ１１は、ＲＡＭ１３から再生モードの設定を読み込み、現時点の設定が留守番再生モードであるか否かを判定する（ステップＳ４）。現時点で留守番再生モードが設定されていれば、ＣＰＵ１１は、操作部１４からの再生指示待ちとなる。そして、操作部１４から再生指示が入力された場合（ステップＳ５）、または、リアルタイム再生モードが設定されている場合、ＣＰＵ１１は、ＲＡＭ１３からＨＶデータを読み込み、先頭から順に解釈する（ステップＳ６）。続いて、ＣＰＵ１１は、ＨＶデータを解釈して得られたデータを、表示部１５、音声再生部１６、動作制御部１８へ出力することによって、ＨＶデータを再生する（ステップＳ７）。

次に、図５を参照して、図４に示すステップＳ３〜Ｓ７の詳細を説明する。図５は、ロボット１において、メッセージを含むＨＶデータを再生する動作を示すフローチャートである。まず、ＣＰＵ１１は、操作部１４から入力される情報を読み取り、入力された情報が再生指示であるか否かを判定し、再生指示があるまで待機する（ステップＳ１１）。ここでいう再生指示とは、リアルタイム再生モードであるときにＨＶデータを受信した場合を含む。そして、再生指示があった場合、ＣＰＵ１１は、ＨＶデータ処理（ステップＳ１２１〜Ｓ１２３）、動作データ処理（ステップＳ１３１〜Ｓ１３２）、表示データ処理（ステップＳ１４１〜１４２）をそれぞれスタートさせ、それぞれの処理を並行して処理する。

ここで、並行して処理する各処理動作を説明する。まず、ＣＰＵ１１は、ＲＡＭ１３からＨＶデータ中のＨＶ−Ｓｃｒｉｐｔデータを抽出し、抽出したＨＶ−Ｓｃｒｉｐｔデータを先頭から順に解釈し、フォルマントフレーム列データに変換する（ステップＳ１２１、Ｓ１２２）。そして、ＣＰＵ１１は、ＨＶ−Ｓｃｒｉｐｔデータを変換して得られたフォルマントフレーム列データを音声再生部１６へ出力する（ステップＳ１２３）。これを受けて、音声再生部１６は、フォルマントフレーム列データを再生することにより、メッセージを読み上げる音声信号を生成して、スピーカ１７へ出力する。これにより、メッセージを読み上げる音声がスピーカ１７から発音する。

ＨＶデータ処理と並行して、ＣＰＵ１１は、ＲＡＭ１３からＨＶデータ中のシーケンスデータである動作データを抽出し、抽出した動作データを先頭から順に解釈し、時間データに基づくタイミングで動作イベントして設定されている動作制御データを動作制御部１８へ出力する（ステップＳ１３１、Ｓ１３２）。動作制御部１８は、これを受けたタイミングで、動作制御データに基づいて、足駆動部１９及び頭駆動部２０へ制御情報を出力する。これにより、ロボット１の足や頭が動作する。

また、ＨＶデータ処理と並行して、ＣＰＵ１１は、ＲＡＭ１３からＨＶデータ中の表示データを抽出し、抽出した表示データを先頭から順に解釈し、この表示データを表示部１５へ出力する（ステップＳ１４１、Ｓ１４２）。これを受けて、表示部１５は、表示データに基づいて画像もしくはテキストのデータをディスプレイに出力する。これにより、表示部１５のディスプレイに画像もしくはテキストが表示される。

そして、ＣＰＵ１１は、この３つの処理を並行して処理し、全てのＨＶデータについて処理が終了した時点でＨＶデータ再生処理を終了する（ステップＳ１５）。

次に、図６〜図８を参照して、他の実施形態を説明する。この実施形態におけるＨＶ
データの構造を図６を参照して説明する。このＨＶデータコンテナＤ１は、ＨＶ−ＳｃｒｉｐｔデータチャンクＤ２、ＨＶボイスデータチャンクＤ３及びキャラクタデータチャンクとから構成される。そして、キャラクタデータチャンクＤ４は、複数の動作それぞれに対応した動作制御データＤ５０からなる。また、ＨＶ−Ｓｃｒｉｐｔデータ内には、読み上げる文字列中に、動作を起こす動作イベントが埋め込まれている。

ここで、図７を参照して、ＨＶ−ｓｃｒｉｐｔデータの一例を説明する。図７に示すように、ＨＶ−ｓｃｒｉｐｔデータは、図３のＨＶ−Ｓｃｒｉｐｔと同様の文字列が記述されているが、「た」と「ん」の間に「Ｕ１」という動作イベントが埋め込まれている。また、「び」の後の記号「＊」と「お」の間に「Ｕ２」という動作イベントが埋め込まれている。これは、「た」を発音した後に「Ｕ１」という動作を起こし、「び」を発音した後に「Ｕ２」という動作を起こすことを意味する。そして、「Ｕ１」、「Ｕ２」に対応する動作制御データが、キャラクタデータチャンクＤ４内に定義されている。

次に、図８を参照して、他の実施形態における図１に示すロボット１の動作を説明する。まず、ＣＰＵ１１は、操作部１４から入力される情報を読み取り、入力された情報が再生指示であるか否かを判定し、再生指示があるまで待機する（ステップＳ２１）。ここでいう再生指示とは、リアルタイム再生モードであるときにＨＶデータを受信した場合を含む。そして、再生指示があった場合、ＣＰＵ１１は、ＲＡＭ１３からＨＶデータ中のＨＶ−Ｓｃｒｉｐｔデータを抽出し、抽出したＨＶ−Ｓｃｒｉｐｔデータを先頭から順に解釈する（ステップＳ２２）。この解釈した結果、得られた内容が動作イベントであるか否かを判定する（ステップＳ２３）。そして、動作イベントであれば、この動作イベントに対応する動作制御データに変換し、この動作制御データを動作制御部１８へ出力する（ステップＳ２４）。これを受けて、動作制御部１８は、動作制御データに基づいて、足駆動部１９及び頭駆動部２０へ制御情報を出力する。これにより、ロボット１の足や頭が動作する。

一方、動作イベントでない場合、ＣＰＵ１１は、解釈した結果、得られたＨＶ−Ｓｃｒｉｐｔをフォルマントフレーム列データに変換する（ステップＳ２５）。そして、ＣＰＵ１１は、ＨＶ−Ｓｃｒｉｐｔデータを変換して得られたフォルマントフレーム列データを音声再生部１６へ出力する（ステップＳ２６）。これを受けて、音声再生部１６は、フォルマントフレーム列データを再生することにより、メッセージを読み上げる音声信号を生成して、スピーカ１７へ出力する。これにより、メッセージを読み上げる音声がスピーカ１７から発音する。

そして、ＣＰＵ１１は、全てのＨＶデータについて処理が終了した時点でＨＶデータ再生処理を終了する（ステップＳ２７）。
なお、動作イベントに対応する動作制御データは、それ自体が図３のキャラクタデータのような時間情報を含むシーケンスデータであってもよい。このようにすることで、一つの動作イベントで複雑な動作をさせることが可能となる。

このように、読み上げる文字列に抑揚やテンポをつけることができ、より人間に近い音声によって、メッセージを読み上げることができるとともに、再生音声に同期させて、動作を行うようにしたため、より表現力の高いメッセージ再生を実現することができる。また、発音させる音声の声色を変化させたり、表示データを表示するようにしたため、メッセージの表現力をより高めることができるという効果が得られる。

なお、図１における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声再生処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の一実施形態の構成を示すブロック図である。ＨＶデータのデータ構造を示す説明図である。ＨＶデータの一例を示す説明図である。図１に示す装置の動作を示すフローチャートである。図１に示す装置の動作を示すフローチャートである。ＨＶデータのデータ構造を示す説明図である。ＨＶデータの一例を示す説明図である。図１に示す装置の動作を示すフローチャートである。

符号の説明

１・・・ペット型ロボット、１０・・・通信部、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ、１４・・・操作部、１５・・・表示部、１６・・・音声再生部、１７・・・スピーカ、１８・・・動作制御部、１９・・・足駆動部、２０・・・頭駆動部、２、６・・・基地局、３、５・・・インターネット接続サーバ、４・・・インターネット、７・・・携帯電話端末、８・・・パソコン

Claims

発音する文字を示す発声文字列と該発声文字の抑揚や発音長を制御する制御記号を発音する時間順にテキストで記述した発音文字列とからなる音声合成用データと、動作を指示する動作データとを一括して受信するデータ受信手段と、
前記音声合成用データを解釈して音声再生する音声再生手段と、
前記動作データを解釈して、前記音声再生手段によって再生した音声に同期して動作を行う動作制御手段と
を備えたことを特徴とするロボット。
前記動作データは、ロボットの各部の動作を指示する動作イベントと、該動作イベントを実行するタイミングを表す時間データからなることを特徴とする請求項１に記載のロボット。
前記動作データは、ロボットの各部の動作を指示する動作イベントであり、該動作イベントが動作させるタイミングに合わせて発音文字列間に記述されていることを特徴とする請求項１に記載のロボット。
前記データ受信手段は、前記音声合成用データと前記動作データに加え、さらに声色データを受信し、
前記音声再生手段は、受信した声色データに基づいて、発音させる音声の声色を変化させて再生することを特徴とする請求項１に記載のロボット。
前記データ受信手段は、前記音声合成用データと前記動作データに加え、さらに表示手段に表示する表示データを受信し、
前記表示データを解釈して、前記音声再生手段によって再生した音声に同期して表示データを表示する表示手段をさらに備えたことを特徴とする請求項１に記載のロボット。
音声合成用データとロボットの動作データとを作成するデータ作成手段と、前記音声合成用データと前記動作データを送信する送信手段と、前記音声合成用データと前記動作データとを受信する受信手段を備え、受信したデータに基づいてメッセージを再生するロボットとからなる装置における音声再生方法であって、
前記データ作成手段により、発音する文字を示す発声文字と該発声文字の抑揚や発音長を制御する制御記号を発音する時間順にテキストで記述した発音文字列とからなる音声合成用データ及び前記ロボットの各部の動作を指示する動作データを作成する過程と、
前記送信手段により、前記音声合成用データ及び動作データを一括して前記ロボットへ送信する過程と、
前記受信手段により、前記音声合成用データ及び動作データを受信する過程と、
前記ロボットが、受信した前記音声合成用データを解釈して音声再生するとともに、前記動作データを並行して解釈し、音声再生した音声に同期して各部の動作を行う過程と
有することを特徴とする音声再生方法。