JP2003248837A

JP2003248837A - 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体

Info

Publication number: JP2003248837A
Application number: JP2002322340A
Authority: JP
Inventors: Masayasu Yamamoto; 正育山本; Atsushi Yasunaka; 篤安中; Takashi Sugimoto; 杉本　　隆; Hiroshi Hasegawa; 弘長谷川
Original assignee: MegaChips Corp
Current assignee: MegaChips Corp
Priority date: 2001-11-12
Filing date: 2002-11-06
Publication date: 2003-09-05

Abstract

(57)【要約】【課題】音声を発する人の顔を表示することなく、音
声データの入力に合わせて、音声を発する人のプライバ
シーを守りつつ、感情の伝達が可能な技術を提供するこ
とを目的とする。【解決手段】音声認識部１１でマイクＭ１より入力さ
れる音声データの特徴周波数成分を抽出し、音声分類部
１２で言語音データと感情データとを含む予め設定され
た基準音声データに分類する。そして、画像データ選択
部１３で基準音声データに対応するキャラクタ表情画像
データを記憶部１４から選択し、画像を表示画面Ｄ１に
表示する。一方、音声加工部１６でマイクＭ１から入力
される音声データを変換してスピーカＳ１から音声を発
する。このとき、制御部２０の制御の下で、画像表示と
音声出力とを同期させる。この画像表示と音声出力は通
信先のゲーム端末機器Ｇ２〜Ｇ４でも同様に実施可能で
ある。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声データの入力
に合わせて、アニメーションデータの作成や音声データ
の生成を実行する技術に関する。

【０００２】

【従来の技術】従来、通信ゲームシステムなどにおける
プレイヤー間のコミュニケーションの方法としては、プ
レイヤーがキーボードなどの入力装置から直接会話を入
力するか、若しくは、用意されている会話や単語、喜怒
哀楽などの感情を選択することによって他のプレイヤー
に会話内容や感情などの状態を伝えるもので、他のプレ
イヤー側で会話を表示する際には、簡単なキャラクタが
ごく限られた表情を組み合わせて吹き出しに会話が表示
されて喋っているかのように表現されたり、画面の特定
場所に文字のみが表示されたりするものなどが一般的で
ある。

【０００３】したがって、ゲーム中に会話をする場合
は、表示される文字などを読むために、一時的若しくは
瞬間的に会話に集中しなければならず、ゲーム中の会話
を自然に行うことが不可能であり、また、他のプレイヤ
ーに感情などの状態を十分に伝えることもできなかっ
た。

【０００４】そこで、昨今の通信速度の向上によって、
ゲーム中においても電話のような形で、生の音声を会話
として利用することにより、リアルタイムで相互に会話
する方法が考えられている（例えば、特許文献１）。

【０００５】このような技術に関する先行技術文献とし
ては、以下のようなものがある。

【０００６】

【特許文献１】特開２００１−２０４９７３号公報

【０００７】

【発明が解決しようとする課題】しかしながら、上記の
方法では、他のプレイヤーの表情が分からないという欠
点を抱えており、また、テレビ電話のように他のプレイ
ヤーの顔も表示するという方法も考えられるが、現状で
は通信速度の点で問題があり、さらに、個人によって
は、ゲーム相手に素顔を見られたくないといった事情も
あり、プライバシーを守ることができないなどといった
問題点があった。

【０００８】そして、このような問題は、テレビゲーム
におけるプレイヤー間のコミュニケーションに限らず、
音声データの入力に合わせて、画像を出力するような場
合一般に共通する問題となっている。

【０００９】本発明は、上記課題に鑑みてなされたもの
であり、音声を発する人の顔を表示することなく、音声
を発する人のプライバシーを守りつつ、音声データの入
力に合わせて、感情の伝達が可能な技術を提供すること
を目的とする。

【００１０】

【課題を解決するための手段】上記の課題を解決するた
めに、請求項１の発明は、アニメーションデータを作成
する画像作成装置であって、入力される音声に対応する
音声データを受け取り、前記音声データの周波数を解析
することにより前記音声データの特徴周波数成分を抽出
する音声認識手段と、前記音声データを前記特徴周波数
成分に基づいて、言語音データと感情データとを含む予
め設定された基準音声データに分類する音声分類手段
と、前記基準音声データと対応する、キャラクタの表情
全体と口形とを含むキャラクタ画像データを記憶する画
像データベースと、前記音声分類手段による分類結果で
ある基準音声データに対応するキャラクタ画像データを
前記画像データベースから選択する画像データ選択手段
と、前記画像データ選択手段によって選択されたキャラ
クタ画像データを出力する画像データ出力手段とを備え
ることを特徴とする。

【００１１】また、請求項２の発明は、請求項１に記載
の画像作成装置であって、当該画像作成装置は通信回線
に接続された通信端末として構成されており、前記音声
分類手段による分類結果である基準音声データを指定さ
れた通信先の通信端末に送信する通信手段をさらに備え
ることを特徴とする。

【００１２】また、請求項３の発明は、請求項１または
請求項２に記載の画像作成装置であって、前記入力され
る音声に基づいた出力音声データを出力する音声データ
出力手段と、前記画像データ出力手段から出力されるキ
ャラクタ画像データに基づく画像の表示と、前記音声デ
ータ出力手段から出力される出力音声データに基づく音
声の出力とを同期させる手段とを備えることを特徴とす
る。

【００１３】また、請求項４の発明は、請求項３に記載
の画像作成装置であって、前記入力される音声に対応す
る音声データを異なる音声データである前記出力音声デ
ータに変換する音声変換手段をさらに備えることを特徴
とする。

【００１４】また、請求項５の発明は、アニメーション
データを作成する画像作成装置であって、当該画像作成
装置は通信回線に接続された通信端末として構成されて
おり、言語音データと感情データとを含む予め設定され
た基準音声データに対応する、キャラクタの表情全体と
口形とを含むキャラクタ画像データを記憶する画像デー
タベースと、入力される音声に対応する音声データに基
づいた基準音声データを通信先の通信端末から受信する
受信手段と、前記受信手段によって受信された基準音声
データに対応するキャラクタ画像データを前記画像デー
タベースから選択する画像データ選択手段と、前記画像
データ選択手段によって選択されたキャラクタ画像デー
タを出力する画像データ出力手段とを備えることを特徴
とする。

【００１５】また、請求項６の発明は、請求項５に記載
の画像作成装置であって、前記入力される音声に基づい
た出力音声データを出力する音声データ出力手段と、前
記画像データ出力手段から出力されるキャラクタ画像デ
ータに基づく画像の表示と、前記音声データ出力手段か
ら出力される出力音声データに基づく音声の出力とを同
期させる手段とをさらに備えることを特徴とする。

【００１６】また、請求項７の発明は、請求項５または
請求項６に記載の画像作成装置であって、通信端末ごと
に対応する前記キャラクタの種類がそれぞれ異なること
を特徴とする。

【００１７】また、請求項８の発明は、請求項１から請
求項７のいずれかに記載の画像作成装置であって、前記
基準音声データは、５つの母音に対応する言語音データ
を備えることを特徴とする。

【００１８】また、請求項９の発明は、アニメーション
データを作成する画像作成装置であって、音声に起因す
る情報を示す音声関連データを入力する音声関連データ
入力手段と、前記音声を発する人の前記音声を発した際
の感情を示す感情データを入力する感情データ入力手段
と、前記音声に起因する情報と前記感情とに対応する、
キャラクタの表情全体と口形とを含むキャラクタ画像デ
ータを記憶する画像データベースと、前記音声関連デー
タと、前記感情データとに対応するキャラクタ画像デー
タを前記画像データベースから選択する画像データ選択
手段と、前記画像データ選択手段によって選択されたキ
ャラクタ画像データを出力する画像データ出力手段とを
備えることを特徴とする。

【００１９】また、請求項１０の発明は、請求項９に記
載の画像作成装置であって、前記音声関連データを解析
することによって得られる感情を示す音声感情データを
入力する音声感情データ入力手段と、前記音声を発する
人の前記音声を発した際の顔に係る顔画像データを解析
することによって得られる感情を示す表情感情データを
入力する表情感情データ入力手段と、前記音声感情デー
タと前記表情感情データとに基づいて、前記感情データ
入力手段に入力される前記感情データを指定する感情デ
ータ指定手段とをさらに備えることを特徴とする。

【００２０】また、請求項１１の発明は、請求項１０に
記載の画像作成装置であって、前記音声を発する人の所
定時における顔の構成要素の位置と、前記音声を発する
人の前記音声を発した時における顔の構成要素の位置と
の差分に基づいて、前記表情感情データ入力手段に入力
される前記表情感情データを指定する表情感情データ指
定手段をさらに備えることを特徴とする。

【００２１】また、請求項１２の発明は、請求項９から
請求項１１のいずれかに記載の画像作成装置であって、
前記音声関連データに基づいた出力音声データを出力す
る音声データ出力手段と、前記画像データ出力手段から
出力されるキャラクタ画像データに基づくキャラクタ画
像の表示と、前記音声データ出力手段から出力される出
力音声データに基づく音声の出力とを同期させる手段と
をさらに備えることを特徴とする。

【００２２】また、請求項１３の発明は、請求項１２に
記載の画像作成装置であって、音声に起因する情報と感
情とに対応する、キャラクタ特有のキャラクタ音声デー
タを記憶するキャラクタ音声データベースと、前記音声
関連データと前記感情データとに対応するキャラクタ音
声データを前記キャラクタ音声データベースから選択す
る音声データ選択手段とをさらに備え、前記音声データ
出力手段が、前記音声データ選択手段によって選択され
たキャラクタ音声データを出力することを特徴とする。

【００２３】また、請求項１４の発明は、請求項９から
請求項１３のいずれかに記載の画像作成装置であって、
前記音声関連データが、音声に起因するテキストデータ
であることを特徴とする。

【００２４】また、請求項１５の発明は、請求項１から
請求項１４のいずれかに記載の画像作成装置であって、
前記キャラクタ画像データは、３次元コンピュータグラ
フィックスによる画像データを含むことを特徴とする。

【００２５】また、請求項１６の発明は、請求項１から
請求項１４のいずれかに記載の画像作成装置であって、
前記キャラクタ画像データは、実在する人物を実写する
ことによって取得された画像データを含むことを特徴と
する。

【００２６】また、請求項１７の発明は、請求項１から
請求項１６のいずれかに記載の画像作成装置であって、
前記画像データベースは、１つのキャラクタに関して、
前記感情データの種類にそれぞれ対応する、キャラクタ
の表情全体を含むキャラクタ画像データを備えることを
特徴とする。

【００２７】また、請求項１８の発明は、請求項１から
請求項１６のいずれかに記載の画像作成装置であって、
前記画像データベースは、前記感情データの種類にそれ
ぞれ対応させた異なるキャラクタについてのキャラクタ
画像データを備えることを特徴とする。

【００２８】また、請求項１９の発明は、画像作成装置
に含まれるコンピュータによって実行されることによ
り、前記画像作成装置を、請求項１から請求項１８のい
ずれかに記載の画像作成装置として機能させるプログラ
ムである。

【００２９】また、請求項２０の発明は、音声データを
生成する音声生成装置であって、音声に起因する情報を
示す音声関連データを入力する音声関連データ入力手段
と、前記音声を発する人の前記音声を発した際の感情を
示す感情データを入力する感情データ入力手段と、前記
音声に起因する情報と前記感情とに対応する、キャラク
タ特有のキャラクタ音声データを記憶するキャラクタ音
声データベースと、前記音声関連データと前記感情デー
タとに対応するキャラクタ音声データを前記キャラクタ
音声データベースから選択する音声データ選択手段と、
前記音声データ選択手段によって選択されたキャラクタ
音声データを出力する音声データ出力手段とを備えるこ
とを特徴とする。

【００３０】また、請求項２１の発明は、請求項２０に
記載の音声生成装置であって、前記キャラクタ音声デー
タに対応する、キャラクタの表情全体と口形とを含むキ
ャラクタ画像データを記憶する画像データベースと、前
記音声データ選択手段によって選択されたキャラクタ音
声データに対応するキャラクタ画像データを前記画像デ
ータベースから選択する画像データ選択手段と、前記画
像データ選択手段によって選択されたキャラクタ画像デ
ータを出力する画像データ出力手段と、前記画像データ
出力手段から出力されるキャラクタ画像データに基づく
キャラクタ画像の表示と、前記音声データ出力手段から
出力されるキャラクタ音声データに基づくキャラクタ音
声の出力とを同期させる手段とをさらに備えることを特
徴とする。

【００３１】また、請求項２２の発明は、請求項２０に
記載の音声生成装置であって、音声に起因する情報と感
情とに対応する、キャラクタの表情全体と口形とを含む
キャラクタ画像データを記憶する画像データベースと、
前記音声関連データと前記感情データとに対応するキャ
ラクタ画像データを前記画像データベースから選択する
画像データ選択手段と、前記画像データ選択手段によっ
て選択されたキャラクタ画像データを出力する画像デー
タ出力手段と、前記画像データ出力手段から出力される
キャラクタ画像データに基づくキャラクタ画像の表示
と、前記音声データ出力手段から出力されるキャラクタ
音声データに基づくキャラクタ音声の出力とを同期させ
る手段とを備えることを特徴とする。

【００３２】また、請求項２３の発明は、請求項２０か
ら請求項２２のいずれかに記載の音声生成装置であっ
て、前記音声関連データが、音声に起因するテキストデ
ータであることを特徴とする。

【００３３】また、請求項２４の発明は、音声生成装置
に含まれるコンピュータによって実行されることによ
り、前記音声生成装置を、請求項２０から請求項２３の
いずれかに記載の音声生成装置として機能させるプログ
ラムである。

【００３４】また、請求項２５の発明は、アニメーショ
ンデータを作成する画像作成システムにおいて使用され
る画像作成用サーバであって、言語音データと感情デー
タとを含む予め設定された基準音声データに対応する、
キャラクタの表情全体と口形とを含むキャラクタ画像デ
ータを記憶する画像データベースと、入力される音声に
対応する音声データに基づいた基準音声データを受信す
る受信手段と、前記受信手段によって受信された基準音
声データに対応するキャラクタ画像データを前記画像デ
ータベースから選択する画像データ選択手段と、前記画
像データ選択手段によって選択されたキャラクタ画像デ
ータを通信回線を介して送信する送信手段とを備えるこ
とを特徴とする。

【００３５】また、請求項２６の発明は、サーバに含ま
れるコンピュータによって実行されることにより、前記
サーバを、請求項２５に記載のサーバとして機能させる
プログラムである。

【００３６】また、請求項２７の発明は、請求項１９、
請求項２４および請求項２６のいすれかに記載されたプ
ログラムを記録してあることを特徴とする、コンピュー
タ読み取り可能な記録媒体である。

【００３７】また、請求項２８の発明は、アニメーショ
ンデータを作成する画像作成システムであって、通信回
線と、前記通信回線を介して接続された第１および第２
の通信端末とを備え、前記第１の通信端末が、音声に起
因する情報を示す音声関連データを前記通信回線を介し
て前記第２の通信端末に送信する音声関連データ送信手
段と、前記音声を発する人の前記音声を発した際の感情
を示す感情データを前記通信回線を介して前記第２の通
信端末に送信する感情データ送信手段とを有し、前記第
２の通信端末が、前記音声関連データを受信する音声関
連データ受信手段と、前記感情データを受信する感情デ
ータ受信手段と、音声に起因する情報と感情とに対応す
る、キャラクタの表情全体と口形とを含むキャラクタ画
像データを記憶する画像データベースと、前記感情デー
タと前記音声関連データとに対応するキャラクタ画像デ
ータを前記画像データベースから選択する画像データ選
択手段と、前記画像データ選択手段によって選択された
キャラクタ画像データを出力する画像データ出力手段と
を有することを特徴とする。

【００３８】また、請求項２９の発明は、請求項２８に
記載の画像作成システムであって、通信端末ごとに対応
する前記キャラクタの種類がそれぞれ異なることを特徴
とする。

【００３９】また、請求項３０の発明は、音声データを
生成する音声生成システムであって、通信回線と、前記
通信回線を介して接続された第１および第２の通信端末
とを備え、前記第１の通信端末が、音声に起因する情報
を示す音声関連データを前記通信回線を介して前記第２
の通信端末に送信する音声関連データ送信手段と、前記
音声を発する人の前記音声を発した際の感情を示す感情
データを前記通信回線を介して前記第２の通信端末に送
信する感情データ送信手段とを有し、前記第２の通信端
末が、前記音声関連データを受信する音声関連データ受
信手段と、前記感情データを受信する感情データ受信手
段と、音声に起因する情報と感情とに対応する、キャラ
クタ特有のキャラクタ音声データを記憶するキャラクタ
音声データベースと、前記音声関連データと前記感情デ
ータとに対応するキャラクタ音声データを前記キャラク
タ音声データベースから選択する音声データ選択手段
と、前記音声データ選択手段によって選択されたキャラ
クタ音声データを出力する音声データ出力手段とを有す
ることを特徴とする。

【００４０】この明細書において、「音声関連データ」
とは、音声に対応する音声データや音声データを変換し
たテキストデータなど、音声に起因する情報を示すデー
タ一般を指す用語として使用する。

【００４１】

【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。

【００４２】＜１．第１実施形態＞＜１−１．第１実施形態に係る通信ゲームシステム概要
＞図１は、本発明に係る第１実施形態の通信ゲームシス
テムの概要を示す図であり、図１では、一例として、複
数の通信端末であるゲーム端末機器Ｇ１〜Ｇ４がネット
ワーク１００に接続された通信ゲームシステムについて
示している。ここでは、ゲーム端末機器Ｇ１〜Ｇ４が、
ゲームプログラムに従って動画に対応するキャラクタの
表情を示す画像データ（以下、「キャラクタ表情画像デ
ータ」と称する）（アニメーションデータ）を作成して
表示する画像作成装置として機能し、さらに、通信ゲー
ムシステムが、アニメーションデータを作成する画像作
成システムとして機能する。

【００４３】また、ここでは、ゲーム端末機器Ｇ１〜Ｇ
４は、後述するゲーム情報などを相互に送受信し合うた
め、ゲーム端末機器Ｇ１〜Ｇ４のそれぞれの操作者は、
１つのゲーム空間を共有しつつ、お互いにコミュニケー
ションを取り合ってゲームを進行することができる。

【００４４】ここで、「ネットワーク」とは、データ通
信を行う通信回線網であり、具体的には、インターネッ
ト、ＬＡＮ、ＷＡＮ、ＣＡＴＶなどの、電気通信回線
（光通信回線を含む）により構成される各種の通信回線
網である。ネットワークに対する接続形態は、専用回線
などを利用した常時接続であってもよいし、アナログ回
線あるいはデジタル回線（ＩＳＤＮ）などの電話回線を
利用したダイアルアップ接続などの一時的な接続のいず
れであってもよい。また、その伝送方式は、無線方式お
よび有線方式のいずれであってもよい。

【００４５】ゲーム端末機器Ｇ１〜Ｇ４には、それぞ
れ、音声を入力するためのマイクＭ１〜Ｍ４、画像を表
示するための表示画面Ｄ１〜Ｄ４、音声を出力するため
のスピーカＳ１〜Ｓ４、および画像を取得するためのカ
メラＣ１〜Ｃ４が接続されている。

【００４６】なお、ここでは、複数のゲーム端末機器Ｇ
１〜Ｇ４は、同様であるため、ゲーム端末機器Ｇ１を例
に挙げて説明する。

【００４７】マイクＭ１は、ゲーム端末機器Ｇ１の操作
者の音声を入力するためのものであり、このマイクＭ１
から入力された音声をもとに後述する画像が表示画面Ｄ
１などに出力され、後述する音声がスピーカＳ１などか
ら出力される。表示画面Ｄ１は、例えば、テレビ画面や
液晶ディスプレイなどであり、カメラＣ１は、ゲーム端
末機器Ｇ１の操作者などを撮影し、その画像をゲーム端
末機器Ｇ１内に取り込むデジタルカメラなどである。な
お、図１では、マイクＭ１、表示画面Ｄ１、スピーカＳ
１、およびカメラＣ１は、ゲーム端末機器Ｇ１とは別個
の形となっているが、これに限られず、ゲーム端末機器
Ｇ１と一体の形態となっているものなどでも良い。

【００４８】本発明に係る第１実施形態では、ゲーム端
末機器Ｇ１が、操作者自らの音声に対応する画像データ
および音声データを出力する場合と、他のゲーム端末機
器Ｇ２〜Ｇ４の操作者である通信相手の音声に対応する
画像データおよび音声データを出力する場合があり、実
際のゲーム中では、両方の場合が同時に生じながらゲー
ムが進行する。

【００４９】まず、ゲーム端末機器Ｇ１の操作者自らの
音声に対応する画像および音声を、それぞれ表示画面Ｄ
１およびスピーカＳ１において表示および出力する場合
について説明する。

【００５０】＜１−２．操作者自らの音声に対応する画
像および音声の出力＞ゲーム端末機器Ｇ１の操作者がマ
イクＭ１に向けて音声を発すると、音声はマイクＭ１に
入力される。マイクＭ１に入力された音声は、マイクＭ
１において音声データに変換されて、ゲーム端末機器Ｇ
１内の音声認識部１１および音声加工部１６に向けて出
力される。

【００５１】音声認識部１１は、マイクＭ１から入力さ
れる音声データの周波数を解析することにより音声デー
タの特徴周波数部分を抽出し、音声分類部１２に向けて
出力する。

【００５２】音声分類部１２は、音声データを、音声認
識部１１において抽出した特徴周波数部分に基づいて、
言語音データと感情データとを含む予め設定された基準
音声データに分類し、分類結果である基準音声データ
（Ａ１）を画像データ選択部１３、および通信部３０に
向けて出力する。

【００５３】ここで、言語音データは、「あ」「い」
「う」「え」「お」「ん」といった５つの母音と「ん」
の音を合わせた６つの言語音データを示し、感情データ
は、「喜」「怒」「哀」「楽」「普通」といった５つの
感情データを示す。したがって、音声分類部１２は、全
ての音声データを、６つの言語音に分類し、例えば、
「か」「さ」「た」「な」のように、子音＋母音から構
成される言語音については、母音部分に対応する「あ」
の言語音データとして分類する。また、全ての音声デー
タを、上述した５つの感情データに分類する。なお、音
声データの特徴周波数成分に基づいて感情データに分類
する方法は、一般的に広く知られている公知の方法など
によって達成可能である。

【００５４】記憶部１４は、予め設定された基準音声デ
ータと対応する、表情全体と口形とを含むキャラクタの
画像データであるキャラクタ表情画像データを記憶する
画像データベースを格納する。つまり、このキャラクタ
表情画像データは、音声に起因する情報である言語音と
感情とに対応する。なお、この画像データベースについ
ては、後程さらに詳述する。

【００５５】また、ゲーム情報記憶部１５には、ゲーム
プログラムなどが記憶されている。ここでは、画像デー
タベースに記憶されているキャラクタ表情画像データ
は、制御部２０を介してゲーム情報記憶部１５から記憶
部１４に読み出されて記憶されるゲームプログラムに固
有の画像データであっても良いし、カメラＣ１によって
実在する人物を実写することによって取得された画像デ
ータ、例えば、ゲーム端末機器Ｇ１の外部において実在
する人物などを実写することによって取得された画像デ
ータを記憶した記録媒体２２からインターフェイス（Ｉ
／Ｆ）２１を介して取り込んで記憶したものでも良い。
すなわち、画像データベースに記憶されるキャラクタ表
情画像データは、実在する人物を実写することによって
取得された画像データを含むものでも良い。このような
構成とすると、表示画面Ｄ１〜Ｄ４に表示されるキャラ
クタを実在する人物で表現することができるため、音声
を発する操作者は、実在する人物になりきることができ
る。なお、キャラクタ表情画像データについてはさらに
後述する。

【００５６】また、記憶部１４とゲーム情報記憶部１５
は、不揮発性の記憶装置などであり、図１では、記憶部
１４とゲーム情報記憶部１５とを別々としているが、こ
れに限られるものではなく、１つの不揮発性の記憶装置
などとしても良い。

【００５７】画像データ選択部１３は、音声分類部１２
による分類結果である基準音声データ（Ａ１）に対応す
るキャラクタ表情画像データを記憶部１４に格納される
画像データベースから選択し、制御部２０に出力する。

【００５８】つまり、画像データ選択部１３には、操作
者の発する音声に起因する情報である言語音を示す言語
音データと、その操作者の音声を発した際の感情を示す
感情データとを含む基準音声データが入力され、画像デ
ータ選択部１３は、基準音声データ、すなわち、言語音
データと感情データとに対応するキャラクタ表情画像デ
ータを画像データベースから選択し、制御部２０に出力
する。したがって、画像データ選択部１３が、音声関連
データを入力する手段、感情データを入力する手段、キ
ャラクタ表情画像データを画像データベースから選択す
る手段、および選択されたキャラクタ表情画像データを
出力する手段として機能する。

【００５９】音声加工部１６は、マイクＭ１から入力さ
れる音声データに対して、多少の変換を施し、音声デー
タを異なる音声データ（以下、「出力音声データ（Ａ
２）と称する」）に変換する。そして、出力音声データ
（Ａ２）をスピーカＳ１および通信部３０に出力する。
つまり、音声加工部１６が、マイクＭ１から入力される
音声に基づいた出力音声データ（Ａ２）を出力する手段
として機能する。

【００６０】なお、音声加工部１６では、後述するリッ
プシンク処理を行うために、制御部２０の制御にしたが
って、音声加工部１６は出力音声データ（Ａ２）をスピ
ーカＳ１に出力する。また、音声データの変換方法の一
例としては、音声を早回ししたり、遅回ししたりするよ
うな変換を音声データに施したりすることによって、音
声の高低を変化させたりするような方法がある。ここで
は、音声データを変換することによって、後述する指定
された通信先の他のゲーム端末機器Ｇ２〜Ｇ４に音声デ
ータを送信して、通信相手側で音声が出力される場合な
どにおいて、出力される音声が変化しているため、プラ
イバシーの保護などを図ることが可能となる。また、操
作者の声に種々の効果を付与して、少し異なる声などに
することで、表示画面に表示されるキャラクタになりき
ることなどが可能となる。

【００６１】スピーカＳ１は、音声加工部１６から入力
される出力音声データ（Ａ２）をもとに音声を出力す
る。

【００６２】制御部２０は、主にＣＰＵから構成され、
ゲーム情報記憶部１５に格納されているプログラムにし
たがって種々の制御および処理を行う。また、制御部２
０は、画像データ選択部１３から入力されるキャラクタ
表情画像データを表示画面Ｄ１に出力して、表示画面Ｄ
１において画像を表示する。つまり、制御部２０が、画
像データ選択部１３によって選択されたキャラクタ画像
データを出力する手段として機能する。

【００６３】そして、ここでは、制御部２０において、
制御部２０から表示画面Ｄ１へのキャラクタ表情画像デ
ータの出力と、音声加工部１６からスピーカＳ１への出
力音声データ（Ａ２）の出力とを同期させる。つまり、
スピーカＳ１から出力される音声と、表示画面Ｄ１上に
表示される画像とを同期させるリップシンク処理が行わ
れる。したがって、画像上のキャラクタがあたかも喋っ
ているかのように見せることができる。

【００６４】したがって、ここでは、制御部２０が、キ
ャラクタ画像データに基づく画像の表示画面Ｄ１におけ
る表示と、出力音声データ（Ａ２）に基づく音声のスピ
ーカＳ１における出力とを同期させる手段として機能す
る。その結果、音声の入力に合わせて、音声を発する操
作者の顔を表示することなく、音声を発する操作者のプ
ライバシーを守りつつ、操作者の音声に基づく声と感情
とを伝えることができる。

【００６５】また、通信部３０は、音声加工部１６から
入力される出力音声データ（Ａ２）、および音声分類部
１２から入力される基準音声データ（Ａ１）をネットワ
ーク１００を介して指定された通信先の通信端末にあた
る他のゲーム端末機器Ｇ２〜Ｇ４に送信する。

【００６６】以上では、操作者の音声に対応するキャラ
クタ表情画像データおよび音声データの出力について注
目して説明したが、実際には、ゲームを進行する上で、
その他の画像データや音声データが存在する。この点に
ついて、以下説明する。制御部２０は、ゲーム情報記憶
部１５に記憶されているゲームプログラムにしたがっ
て、ゲーム端末機器Ｇ１全体の制御を行うため、上述し
たキャラクタ表情画像データ、後述する他のゲーム端末
機器Ｇ２〜Ｇ４に対応するキャラクタ表情画像データ、
その他のゲーム画面を示す画像データなどを合成して表
示画面Ｄ１に出力し、表示画面Ｄ１は、ゲーム画面全体
を表示する。さらに、制御部２０は、上述したゲームプ
ログラムにしたがって、ゲームにおける効果音や音楽な
どを示すゲーム音声データを音声加工部１６に出力し、
音声加工部１６において出力音声データ（Ａ２）と、後
述する他のゲーム端末機器Ｇ２〜Ｇ４に対応する出力音
声データ（Ｂ２）と、ゲーム音声データとを合成してス
ピーカＳ１に出力して、スピーカＳ１において音声を出
力する。

【００６７】また、制御部２０は、ゲーム情報記憶部１
５に記憶されるゲームプログラムにしたがって、ゲーム
全体を制御するが、ゲームの進行状況などのゲーム情報
（Ａ３）を通信部３０、ネットワーク１００を介して他
のゲーム端末機器Ｇ２〜Ｇ４に送信する。一方、ゲーム
端末機器Ｇ１は、その他のゲーム端末機器Ｇ２〜Ｇ４か
らもゲームの進行状況などのゲーム情報（Ｂ３）をネッ
トワーク１００を介し、通信部３０を通じて制御部２０
で受信する。そして、制御部２０は、ゲーム情報（Ｂ
３）を反映させながらゲーム全体を制御する。

【００６８】＜１−３．通信相手の音声に対応する画像
および音声の出力＞次に、ゲーム端末機器Ｇ１が、その
他のゲーム端末機器Ｇ２〜Ｇ４の操作者である通信相手
の音声に対応する画像および音声を、それぞれ表示画面
Ｄ１およびスピーカＳ１において表示および出力する場
合について説明する。

【００６９】ゲーム端末機器Ｇ２〜Ｇ４は、ゲーム端末
機器Ｇ１と同様な機器であり、通信先の通信端末である
ゲーム端末機器Ｇ２〜Ｇ４から送信される基準音声デー
タ（Ｂ１）、出力音声データ（Ｂ２）、およびゲーム情
報（Ｂ３）をネットワーク１００経由で、ゲーム端末機
器Ｇ１の通信部３０で受信する。

【００７０】通信部３０は、受信した基準音声データ
（Ｂ１）、出力音声データ（Ｂ２）、およびゲーム情報
（Ｂ３）を、制御部２０に送信する。

【００７１】制御部２０は、出力音声データ（Ｂ２）を
音声加工部１６に出力し、音声加工部１６は、出力音声
データ（Ｂ２）をスピーカＳ１に出力して、スピーカＳ
１において音声を出力する。

【００７２】また、制御部２０は、基準音声データ（Ｂ
１）を、画像データ選択部１３に出力し、画像データ選
択部１３は、基準音声データ（Ｂ１）に対応するキャラ
クタ表情画像データを記憶部１４に格納される画像デー
タベースから選択し、制御部２０に出力する。そして、
制御部２０は、画像データ選択部１３から入力されたキ
ャラクタ表情画像データを表示画面Ｄ１に出力して、表
示画面Ｄ１において画像を表示する。

【００７３】ここでも、ゲーム端末機器Ｇ１の操作者自
らの音声に対応する画像および音声を出力する場合と同
様に、制御部２０において、制御部２０から表示画面Ｄ
１へのキャラクタ表情画像データの出力と、音声加工部
１６からスピーカＳ１への出力音声データ（Ｂ２）の出
力とを同期させる。つまり、表示画面Ｄ１上に表示され
る基準音声データ（Ｂ１）に対応する画像と、スピーカ
Ｓ１から出力される出力音声データ（Ｂ２）に対応する
音声とを同期させるリップシンク処理が行われる。した
がって、通信相手に対応する画像上のキャラクタがあた
かも喋っているかのように見せることができるため、通
信相手の表情を含めた話す様子を表示画面Ｄ１に表示さ
れるキャラクタを通じて、認識することができ、臨場感
のあるコミュニケーションを図ることができる。

【００７４】また、以上では、ゲーム端末機器Ｇ１の操
作者自らの音声に対応する画像および音声を表示および
出力する場合と同様に、通信相手の音声に対応するキャ
ラクタ表情画像データおよび音声データの出力について
注目して説明したが、実際には、ゲームを進行する上
で、その他の画像データや音声データが存在する。この
点については、上述したため、ここでは省略する。

【００７５】＜１−４．通信ゲームシステムの通信形態
とその他の機能＞ここでは、図２に示すように、ネット
ワーク１００を介して、ゲーム端末機器Ｇ１〜Ｇ４は、
音声加工部１６による変換結果である出力音声データ、
音声分類部１２による分類結果である基準音声データ、
および制御部２０において制御されるゲーム情報を相互
に送受信し合うことによって、表示画面Ｄ１〜Ｄ４に表
示されるゲーム端末機器Ｇ１〜Ｇ４のそれぞれに対応す
るキャラクターの画像が、スピーカＳ１〜Ｓ４において
出力されるゲーム端末機器Ｇ１〜Ｇ４それぞれの操作者
の音声を変換した音声と同期して、表情全体や口形を変
化させるため、１つのゲーム空間を共有するプレーヤー
が、お互いにコミュニケーションを取り合いながら、ゲ
ームを楽しむことができる。

【００７６】また、図１に示すように、ゲーム端末機器
Ｇ１では、外部の記録媒体２２からＩ／Ｆ２１、制御部
２０を介して、ゲーム情報記憶部１５にプログラムをイ
ンストールすることも可能である。ここでは、ゲーム端
末機器Ｇ１の音声認識部１１、音声分類部１２、画像デ
ータ選択部１３、および音声加工部１６は、専用の電子
回路により構築されており、ゲーム端末機器Ｇ１におけ
る各データの流れおよび各機能の動作等は、主にＣＰＵ
から構成されている制御部２０において統括制御され
る。なお、図１では、ゲーム端末機器Ｇ１の音声認識部
１１、音声分類部１２、画像データ選択部１３、および
音声加工部１６は、専用の電子回路により構築されてい
るが、これに限られるものではなく、音声認識部１１、
音声分類部１２、画像データ選択部１３、および音声加
工部１６において実行されるデータ処理および演算処理
を、主にＣＰＵから構成される制御部２０において、ゲ
ーム情報記憶部１５内のプログラムに従って実施するよ
うにしても良い。

【００７７】＜１−５．画像データベースについて＞上
述のごとく記憶部１４に格納される画像データベースに
は、言語音データと感情データとを含む予め設定された
基準音声データに対応する、表情全体と口形とを含むキ
ャラクタの画像データであるキャラクタ表情画像データ
が記憶されており、以下、このキャラクタ表情画像デー
タについて説明する。

【００７８】図３は、言語音データに対応するキャラク
タ表情画像データの一例を説明する図であり、ここで
は、キャラクタの表情全体は変化させずに、口形のみを
言語音データに対応させて変化させた図を例示してい
る。言語音データは、「あ」「い」「う」「え」「お」
「ん」といった５つの母音と「ん」の音を合わせた６つ
の言語音を示し、図３に示すような６つの言語音を発声
する口形に対応するキャラクタ表情画像データが記憶部
１４に記憶されている。

【００７９】図４は、感情データに対応するキャラクタ
表情画像データの一例を説明する図であり、ここでは、
キャラクタの口形は変化させずに、表情全体のみを感情
データに対応させて変化させた図を例示している。感情
データは、「喜」「怒」「哀」「楽」「普通」といった
５つの感情を示し、図４に示すような５つの感情を表す
表情全体に対応するキャラクタ表情画像データが記憶部
１４に記憶されている。つまり、画像データベースは、
１つのキャラクタに関して感情データの種類にそれぞれ
対応するキャラクタの表情全体を含むキャラクタ表情画
像データを備えている。言い換えれば、１つのキャラク
タに関して、音声を発する操作者の感情に対応させた表
情を備える。その結果、表示画面Ｄ１〜Ｄ４に表示され
る１つのキャラクタが、音声を発する人の感情に対応し
た表情を表現するため、音声を発する操作者は１つのキ
ャラクタになりきることができる。

【００８０】なお、ここでは、１つのキャラクタのキャ
ラクタ表情画像データのみについて説明したが、キャラ
クターは１つに限られるものではなく、ゲームプログラ
ムに元から記憶された複数のキャラクタであっても良い
し、カメラＣ１から取り込まれた人などの表情を記憶し
たものや、ゲーム端末機器Ｇ１の外部において取得され
た画像データを記憶した記録媒体２２からＩ／Ｆ２１を
介して画像データを取り込んで記憶し、キャラクタを複
数としても良い。

【００８１】また、各ゲーム端末機器Ｇ１〜Ｇ４の操作
者に対応するキャラクタの設定を、図示を省略する操作
部を種々操作することによって実施することができる。
したがって、各ゲーム端末機器Ｇ１〜Ｇ４ごとに対応す
るキャラクタの種類がそれぞれ異なることによって、ゲ
ーム空間上で、各ゲーム端末機器Ｇ１〜Ｇ４に対応する
キャラクタをそれぞれ特定することが容易に可能であ
り、各ゲーム端末機器Ｇ１〜Ｇ４の操作者が特定のキャ
ラクタになったものと感じることができる。さらに、画
面に表示される１つのキャラクタが、操作者の感情に対
応した表情を表現するため、操作者は１つのキャラクタ
になりきることができる。

【００８２】＜１−６．キャラクタの画像の表示につい
て＞図５は、音声に基づいてキャラクタ表情画像データ
が変化する様子を示す図であり、楽しそうに「もしも
し」と発声した際の音声データに対応するキャラクタ表
情画像データを例示している。なお、ここでは、ゲーム
端末機器Ｇ１における動作を例にとって説明する。マイ
クＭ１から「もしもし」という音声に対応する音声デー
タが音声認識部１１に入力されると、音声認識部１１で
は、音声データの特徴周波数成分を抽出し、その後、音
声分類部１２において、音声認識部１１において抽出さ
れた音声データの特徴周波数成分に基づいて、「もしも
し」という音声データは、６つの言語音データに分類さ
れて、「おいおい」という言語音データに分類される。
また、楽しそうに音声を発しているため、音声分類部１
２において、「楽」の感情データに分類される。

【００８３】したがって、画像データ選択部１３におい
て、言語音データである「おいおい」に対応するキャラ
クタの口形が選択されるとともに、感情データである
「楽」に対応するキャラクタの表情全体が選択されて、
図５の最下段に示すような画像を示す画像データがキャ
ラクタ表情画像データとして選択される。

【００８４】そして、制御部２０の制御に基づいて、ス
ピーカＳ１から出力される音声と、表示画面Ｄ１に表示
されるキャラクタ表情画像データに基づく画像とを同期
させるリップシンク処理が行われて、「もしもし」とい
う音声と同期して、キャラクタ表情画像データに対応す
る画像が表示画面Ｄ１上に表示される。このときの模式
図を図６に示す。なお、紙面上では、動画を表現するこ
とができないため、図６においては、便宜的に「もしも
し」のうちの「も」に対応するキャラクタの口形を示す
画像を示している。ここでは、表示画面Ｄ１上に表示さ
れているキャラクタが動画となって、自然に話をしてい
るかのごとく感じさせることができる。

【００８５】したがって、ここでは、予め設定された基
準音声データが５つの母音や「ん」の音などに対応する
言語音データを備えるため、表示画面Ｄ１〜Ｄ４に表示
されるキャラクタが自然に話しをしているかのごとく感
じさせることができる。

【００８６】なお、以上のように、ゲーム端末機器Ｇ１
〜Ｇ４の操作者それぞれに対応するキャラクタ表情画像
データに基づく画像を表示画面Ｄ１〜Ｄ４に表示し、お
互いの感情表現を認識することができる自然な会話が可
能となる。その結果、ゲームにおける臨場感が増すこと
となる。この臨場感が増すゲームの形態としては、例え
ば、対戦型麻雀ゲームにおいて、お互いに心理的な駆け
引きを行う形態や、格闘技系の対戦型ゲームにおいて、
お互いのキャラクタの攻防に対応して、各操作者の発す
る音声がキャラクタの表情に反映されつつ、音声を伝達
する形態などが考えられる。

【００８７】以上説明したように、第１実施形態におけ
るゲーム端末機器Ｇ１〜Ｇ４では、操作者の発する音声
から操作者の感情と発声した言語音とを認識し、この感
情および言語音に対応する表情全体および口形を含む画
像データを出力する。よって、表情を含めた操作者が話
す様子を表示画面において表示されるキャラクタを通じ
て表現することができ、また、操作者は、表示画面に表
示されるキャラクタになりきることなどもできる。

【００８８】また、ゲーム端末機器Ｇ１〜Ｇ４では、操
作者の発する音声に対応する音声データを分類した結果
である基準音声データを通信先に送信し、通信先の表示
画面Ｄ１〜Ｄ４に表示されるキャラクタの画像を通じ
て、操作者の表情を含めた話す様子を通信先の相手に伝
達することができる。よって、相手に素顔を知られるこ
となく、通信先の相手に感情を伝達することができる。

【００８９】また、ゲーム端末機器Ｇ１〜Ｇ４では、通
信先のゲーム端末機器Ｇ１〜Ｇ４から、言語音データと
感情データとを含む基準音声データを受信し、そのデー
タに対応する表情全体および口形を含むキャラクタ表情
画像データを出力する。つまり、表示画面Ｄ１〜Ｄ４に
表示されるキャラクタの画像を通じて、通信相手が話す
様子を表情を含めて表現することができる。よって、通
信相手の素顔を見ることなく、通信相手の感情を認識す
ることができる。

【００９０】その結果、音声を発する人の顔を表示する
ことなく、音声データなどの音声に起因する情報を示す
音声関連データなどの入力に合わせて、音声を発する人
の顔を表示することなく、音声を発する人のプライバシ
ーを守りつつ、感情の伝達を行うことができる。

【００９１】＜２．第２実施形態＞＜２−１．第２実施形態に係る通信ゲームシステム概要
＞図７は、本発明の第２実施形態に係る通信ゲームシス
テムの概要を説明する図である。図７では、一例とし
て、複数の通信端末であるゲーム端末機器Ｇ１１〜Ｇ１
４、およびサーバ２００がネットワーク１００に接続さ
れた通信ゲームシステムについて示している。ここで
は、ゲーム端末機器Ｇ１１〜Ｇ１４が、ゲームプログラ
ムに従って動画に対応するキャラクタ表情画像データ
（アニメーションデータ）を作成して表示する画像作成
装置として機能し、さらに、通信ゲームシステムが、ア
ニメーションデータを作成する画像作成システムとして
機能する。

【００９２】また、ここでは、ゲーム端末機器Ｇ１１〜
Ｇ１４は、後述するゲーム情報などを直接またはサーバ
２００を介して相互に送受信し合うため、ゲーム端末機
器Ｇ１１〜Ｇ１４のそれぞれの操作者は、１つのゲーム
空間を共有しつつ、お互いにコミュニケーションを取り
合ってゲームを進行することができる。

【００９３】図１に示す第１実施形態においては、ゲー
ム端末機器Ｇ１〜Ｇ４内において、記憶部１４が、キャ
ラクタ表情画像データを記憶する画像データベースを格
納し、画像データ選択部１３が、基準音声データ（Ａ
１，Ｂ１）に対応するキャラクタ表情画像データを画像
データベースから選択していたが、図７に示す第２実施
形態においては、記憶部１４および画像データ選択部１
３の機能をゲーム端末機器Ｇ１１〜Ｇ１４に備えず、専
用のサーバ２００に備えた形になっている。

【００９４】図７に示す通信ゲームシステムにおいて
は、複数のゲーム端末機器Ｇ１１〜Ｇ１４は、同様の機
能構成を有するため、ゲーム端末機器Ｇ１１〜Ｇ１４に
ついては、ゲーム端末機器Ｇ１１を例に挙げて説明す
る。なお、図７に示すゲーム端末機器Ｇ１１およびサー
バ２００内の各機能については、図１に示した第１実施
形態と同様な部分が多いため、異なる部分のみについて
説明する。なお、同様な部分については、図１と同じ符
号を付しており、ここでは説明を省略する。

【００９５】本発明に係る第２実施形態では、第１実施
形態と同様に、ゲーム端末機器Ｇ１１が、操作者自らの
音声に対応する画像データおよび音声データを出力する
場合と、他のゲーム端末機器Ｇ１２〜Ｇ１４の操作者で
ある通信相手の音声に対応する画像データおよび音声デ
ータを出力する場合があり、実際のゲーム中では、両方
の場合が同時に生じながらゲームが進行する。

【００９６】まず、ゲーム端末機器Ｇ１１の操作者自ら
の音声に対応する画像および音声を、それぞれ表示画面
Ｄ１およびスピーカＳ１において表示および出力する場
合について説明する。

【００９７】＜２−２．操作者自らの音声に対応する画
像および音声の出力＞ゲーム端末機器Ｇ１１内には、画
像データ選択部１３がないため、音声分類部１２による
分類結果である基準音声データ（Ａ１）は通信部３０に
のみ送信される。

【００９８】そして、ゲーム端末機器Ｇ１１は、基準音
声データ（Ａ１）、音声加工部１６による変換結果であ
る出力音声データ（Ａ２）、および制御部２０で制御さ
れているゲーム情報（Ａ３）を通信部３０からネットワ
ーク１００を介して送信する。ゲーム端末機器Ｇ１１か
ら送信した基準音声データ（Ａ１）、出力音声データ
（Ａ２）、ゲーム情報（Ａ３）のうち、基準音声データ
（Ａ１）はサーバ２００に送信され、残りの変換された
出力音声データ（Ａ２）、およびゲーム情報（Ａ３）は
他のゲーム端末機器Ｇ１２〜Ｇ１４に送信される。

【００９９】サーバ２００の通信部２３０において、基
準音声データ（Ａ１）を受信し、画像データ選択部１３
に出力される。ここでは、画像データ選択部１３、およ
び記憶部１４は、第１実施形態と同様な機能を果たすた
め、画像データ選択部１３において、第１実施形態と同
様に、基準音声データ（Ａ１）に対応するキャラクタ表
情画像データ（Ａ４）を記憶部１４に格納される画像デ
ータベースから選択し、サーバ制御部２２０を経由して
通信部２３０に出力する。そして、通信部２３０から画
像データ選択部１３によって選択されたキャラクタ表情
画像データ（Ａ４）をゲーム端末機器Ｇ１１〜Ｇ１４に
送信する。なお、ここでは、サーバ制御部２２０は、記
憶部１４に格納されているプログラムにしたがってサー
バ２００内の各機能を統括制御する。

【０１００】通信部２３０から送信されたキャラクタ表
情全体画像データ（Ａ４）は、ゲーム端末機器Ｇ１１〜
Ｇ１４において受信されるが、受信後のデータの処理は
すべてのゲーム端末機器Ｇ１１〜Ｇ１４において同様と
なるため、代表してゲーム端末機器Ｇ１１におけるデー
タの処理についてのみ説明する。

【０１０１】通信部２３０から送信されたキャラクタ表
情画像データ（Ａ４）は、ゲーム端末機器Ｇ１１の通信
部３０において受信されて、制御部２０に出力される。
制御部２０は、通信部３０から入力されたキャラクタ表
情画像データ（Ａ４）を表示画面Ｄ１に出力して、表示
画面Ｄ１上に画像を出力する。ここでは、制御部２０に
おいて、スピーカＳ１から出力される音声加工部１６に
よる変換結果である出力音声データ（Ａ２）に基づく音
声と、表示画面Ｄ１上に出力されるキャラクタ表情画像
データ（Ａ４）に基づく画像とを同期させるリップシン
ク処理が行われる。したがって、表示画面Ｄ１に表示さ
れるゲーム端末機器Ｇ１１の操作者に対応するキャラク
タがあたかも喋っているかのように見せることができ
る。

【０１０２】以上では、操作者の音声に対応するキャラ
クタ表情画像データおよび音声データの出力について注
目して説明したが、実際には、ゲームを進行する上で、
その他の画像データや音声データが存在する。この点に
ついては、第１実施形態と同様に、制御部２０は、ゲー
ム情報記憶部１５に記憶されているゲームプログラムに
したがって、ゲーム端末機器Ｇ１１全体の制御を行うた
め、上述したキャラクタ表情画像データ（Ａ４）と、後
述する他のゲーム端末機器Ｇ１２〜Ｇ１４の操作者に対
応するキャラクタ表情画像データ（Ｂ４）と、その他の
ゲーム画面を示す画像データなどとを合成して表示画面
Ｄ１に出力し、表示画面Ｄ１は、ゲーム画面全体を表示
する。さらに、制御部２０は、上述したゲームプログラ
ムにしたがって、ゲームにおける効果音や音楽などを示
すゲーム音声データを音声加工部１６に送信し、音声加
工部１６による変換結果である出力音声データ（Ａ２）
と、後述する他のゲーム端末機器Ｇ１２〜Ｇ１４におい
て入力される音声データから変換された結果である出力
音声データ（Ｂ２）と、ゲーム音声データとを合成して
スピーカＳ１に送信して、スピーカＳ１において音声を
出力する。

【０１０３】また、制御部２０は、第１実施形態と同様
に、ゲーム情報記憶部１５に記憶されるゲームプログラ
ムにしたがって、ゲーム全体を制御するが、ゲームの進
行状況などのゲーム情報（Ａ３）を通信部３０、ネット
ワーク１００を介して他のゲーム端末機器Ｇ１２〜Ｇ１
４に送信する。一方、ゲーム端末機器Ｇ１１は、その他
のゲーム端末機器Ｇ１２〜Ｇ１４からもゲームの進行状
況などのゲーム情報（Ｂ３）をネットワーク１００を介
し、通信部３０を通じて制御部２０で受信する。そし
て、制御部２０は、ゲーム情報（Ｂ３）を反映させなが
らゲーム全体を制御する。

【０１０４】＜２−３．通信相手の音声に対応する画像
および音声の出力＞次に、他のゲーム端末機器Ｇ１２〜
Ｇ１４において音声が分類された結果である基準音声デ
ータ（Ｂ１）に対応するキャラクタ表情画像が、他のゲ
ーム端末機器Ｇ１２〜Ｇ１４において音声データから変
換された結果である出力音声データ（Ｂ２）に基づく音
声と同期しながら、それぞれゲーム端末機器Ｇ１１の表
示画面Ｄ１およびスピーカＳ１において表示および出力
されるデータの処理について説明する。

【０１０５】ゲーム端末機器Ｇ１２〜Ｇ１４は、ゲーム
端末機器Ｇ１１と同様な機器であるため、ゲーム端末機
器Ｇ１２〜Ｇ１４において、音声が分類された結果であ
る基準音声データ（Ｂ１）、音声データから変換された
結果である出力音声データ（Ｂ２）、およびゲーム情報
（Ｂ３）は、ゲーム端末機器Ｇ１２〜Ｇ１４から送信さ
れて、ネットワーク１００を介して送信される。そし
て、ゲーム端末機器Ｇ１２〜Ｇ１４から送信した基準音
声データ（Ｂ１）、出力音声データ（Ｂ２）、ゲーム情
報（Ｂ３）のうち、基準音声データ（Ｂ１）はサーバ２
００に送信され、出力音声データ（Ｂ２）、およびゲー
ム情報（Ｂ３）は他のゲーム端末機器Ｇ１１〜Ｇ１４に
送信される。そして、ゲーム端末機器Ｇ１１では、通信
部３０が、出力音声データ（Ｂ２）、およびゲーム情報
（Ｂ３）を受信し、制御部２０に出力する。

【０１０６】制御部２０は、出力音声データ（Ｂ２）を
音声加工部１６に送信し、音声加工部１６は、出力音声
データ（Ｂ２）をスピーカＳ１に出力して、スピーカＳ
１において音声を出力する。

【０１０７】サーバ２００は、通信部２３０において、
基準音声データ（Ｂ１）を受信し、通信部２３０は、基
準音声データ（Ｂ１）を画像データ選択部１３に出力す
る。ここでは、上述したように、画像データ選択部１
３、および記憶部１４は、第１実施形態と同様な機能を
果たすため、画像データ選択部１３において、第１実施
形態と同様に、基準音声データ（Ｂ１）に対応するキャ
ラクタ表情画像データ（Ｂ４）を記憶部１４に格納され
る画像データベースから選択し、サーバ制御部２２０に
出力する。その後、サーバ制御部２２０から画像データ
選択部１３において選択したキャラクタ表情画像データ
（Ｂ４）を通信部２３０に出力し、通信部２３０は、キ
ャラクタ表情画像データ（Ｂ４）をネットワーク１００
を介してゲーム端末機器Ｇ１１〜Ｇ１４に送信する。

【０１０８】通信部２３０から送信されたキャラクタ表
情画像データ（Ｂ４）は、ゲーム端末機器Ｇ１１〜Ｇ１
４において受信されるが、受信後のデータの処理はすべ
てのゲーム端末機器Ｇ１１〜Ｇ１４において同様となる
ため、代表してゲーム端末機器Ｇ１１におけるデータの
処理についてのみ説明する。

【０１０９】通信部２３０から送信されたキャラクタ表
情画像データ（Ｂ４）は、ゲーム端末機器Ｇ１１の通信
部３０において受信されて、制御部２０に出力される。
制御部２０は、通信部３０から入力されたキャラクタ表
情画像データ（Ｂ４）を表示画面Ｄ１に出力して、表示
画面Ｄ１上に画像を表示する。ここでは、制御部２０に
おいて、制御部２０から表示画面Ｄ１へのキャラクタ表
情画像データ（Ｂ４）の出力と、音声加工部１６からス
ピーカＳ１への出力画像データ（Ｂ２）の出力とを同期
させる。つまり、スピーカＳ１から出力される音声と、
表示画面Ｄ１上に表示される画像とを同期させるリップ
シンク処理が行われる。したがって、表示画面Ｄ１上に
表示する通信相手に対応したキャラクタをあたかも喋っ
ているかのように見せることができるため、操作者は、
通信相手の表情を含めた話す様子を表示画面Ｄ１上に表
示するキャラクタを通じて、認識することができ、臨場
感のあるコミュニケーションを図ることができる。

【０１１０】また、以上では、ゲーム端末機器Ｇ１１の
操作者自らの音声に対応する画像および音声を出力およ
び表示する場合と同様に、通信相手の音声に対応するキ
ャラクタ表情画像データおよび音声データの出力につい
て注目して説明したが、実際には、ゲームを進行する上
で、その他の画像データや音声データが存在する。この
点については、上述したため、ここでは省略する。

【０１１１】＜２−４．通信ゲームシステムの通信形態
とその他の機能＞ここでは、図８に示すように、ゲーム
端末機器Ｇ１１〜Ｇ１４は、それぞれの音声分類部１２
において音声が分類した結果である基準音声データを、
ネットワーク１００を介してサーバ２００に送信し、サ
ーバ２００において、基準音声データに対応するキャラ
クタ表情画像データが選択されて、この画像データが各
ゲーム端末機器Ｇ１〜Ｇ４に送信される。また、音声加
工部１６において音声データが変換された結果である出
力音声データ、および制御部２０において制御されるゲ
ーム情報については、第１実施形態と同様に、ゲーム端
末機器Ｇ１１〜Ｇ１４は、ネットワーク１００を介し
て、相互に送受信し合うことによって、表示画面Ｄ１〜
Ｄ４に表示されるゲーム端末機器Ｇ１１〜Ｇ１４の操作
者それぞれに対応するキャラクタの画像が、ゲーム端末
機器Ｇ１１〜Ｇ１４の操作者の音声を変換してスピーカ
Ｓ１〜Ｓ４において出力される音声と同期して、表情全
体や口形を変化させるため、１つのゲーム空間を共有す
るプレーヤーが、お互いにコミュニケーションを取り合
いながら、ゲームを楽しむことができる。

【０１１２】また、図７に示すように、ゲーム端末機器
Ｇ１１では、外部の記録媒体２２からＩ／Ｆ２１、制御
部２０を介して、ゲーム情報記憶部１５にプログラムを
インストールすることも可能である。ここでは、ゲーム
端末機器Ｇ１１の音声認識部１１、音声分類部１２、お
よび音声加工部１６は、専用の電子回路により構築され
ており、ゲーム端末機器Ｇ１１における各データの流れ
および各機能の動作等は、主にＣＰＵから構成されてい
る制御部２０において統括制御される。なお、図７で
は、ゲーム端末機器Ｇ１の音声認識部１１、音声分類部
１２、および音声加工部１６は、専用の電子回路により
構築されているが、これに限られるものではなく、音声
認識部１１、音声分類部１２、および音声加工部１６に
おいて実行されるデータ処理および演算処理を、主にＣ
ＰＵから構成される制御部２０において、ゲーム情報記
憶部１５内のプログラムに従って実施しても良い。

【０１１３】さらに、ここでは、サーバ２００は、外部
の記録媒体２２２からＩ／Ｆ２２１を介して、記憶部１
４にプログラムをインストールすることも可能である。
ここでは、サーバ２００の画像データ選択部１３は、専
用の電子回路により構築されており、サーバ２００にお
ける各データの流れおよび各機能の動作等は、主にＣＰ
Ｕから構成されているサーバ制御部２２０において統括
制御される。なお、図７では、画像データ選択部１３
は、専用の電子回路により構築されているが、これに限
られるものではなく、画像データ選択部１３において実
行されるデータ処理および演算処理を、主にＣＰＵから
構成されるサーバ制御部２２０において、記憶部１４内
のプログラムに従って実施しても良い。

【０１１４】以上説明したように、第２実施形態のゲー
ム端末機器Ｇ１１〜Ｇ１４では、サーバ２００が、基準
音声データに対応する、キャラクタの表情全体と口形と
を含むキャラクタ表情画像データを記憶する画像データ
ベースを備える。そして、言語音データと感情データと
を含む基準音声データを受信し、感情および言語音に対
応する表情全体および口形を含むキャラクタ表情画像デ
ータを選択して、通信先のゲーム端末機器Ｇ１１〜Ｇ１
４に送信する。よって、ゲーム端末機器Ｇ１１〜１４の
表示画面Ｄ１〜Ｄ４に、感情および言語音に対応する表
情全体および口形を含むキャラクタ表情画像データに基
づく画像を表示することができる。その結果、表示画面
Ｄ１〜Ｄ４に表示されるキャラクタを通じて、音声を発
した人が話す様子を表情を含めて表現することができ
る。

【０１１５】＜３．第３実施形態＞＜３−１．第３実施形態に係る通信ゲームシステム概要
＞図９は、本発明に係る第３実施形態の通信ゲームシス
テム３の概要を示す図であり、図９では、一例として、
複数の通信端末であるゲーム端末機器Ｇ３１〜Ｇ３４が
ネットワーク１００に接続された通信ゲームシステム３
について示している。よって、図９に示す第３実施形態
の通信ゲームシステム３では、第１実施形態の通信ゲー
ムシステムにおけるゲーム端末機器Ｇ１〜Ｇ４のかわり
に、ゲーム端末機器Ｇ３１〜Ｇ３４がネットワーク１０
０に接続されているような構成となっている。そして、
ここでは、ゲーム端末機器Ｇ３１〜Ｇ３４が、ゲームプ
ログラムに従って動画であるキャラクタ表情画像データ
（アニメーションデータ）を作成して出力する画像作成
装置として機能する。さらに、通信ゲームシステム３
が、アニメーションデータを作成して出力する画像作成
システムとして機能する。

【０１１６】また、例えば、ゲーム端末機器Ｇ３１およ
びゲーム端末機器Ｇ３２をそれぞれ第１および第２の通
信端末と仮定すると、通信ゲームシステム３は、通信回
線であるネットワーク１００と、ネットワーク１００を
介して接続された第１および第２の通信端末を備えてい
ることとなる。なお、ゲーム端末機器Ｇ３１〜Ｇ３４の
うちいずれか二つのゲーム端末機器をそれぞれ第１およ
び第２の通信端末と仮定しても良い。

【０１１７】そして、第３実施形態のゲーム端末機器Ｇ
３１〜Ｇ３４の機能構成は、第１実施形態のゲーム端末
機器Ｇ１〜Ｇ４の機能構成と類似しており、ゲーム端末
機器Ｇ３１〜Ｇ３４は、後述するゲーム情報などを相互
に送受信し合うため、ゲーム端末機器Ｇ３１〜Ｇ３４の
それぞれの操作者は、１つのゲーム空間を共有しつつ、
お互いにコミュニケーションを取り合ってゲームを進行
することができる。

【０１１８】図１に示す第１実施形態においては、マイ
クＭ１〜Ｍ４から入力される音声データを、音声を発す
る人の音声を発した際の感情を示す感情データに分類し
たが、図９に示す第３実施形態においては、マイクＭ１
〜Ｍ４から入力される音声データ、およびカメラＣ１〜
Ｃ４から入力される画像データの双方に基づいて、音声
を発する人の音声を発した際の感情を示す感情データを
指定する構成となっている。

【０１１９】図９に示す通信ゲームシステム３において
は、複数のゲーム端末機器Ｇ３１〜Ｇ３４は、それぞれ
同様の機能構成を有するため、図９ではゲーム端末機器
Ｇ３１のみの機能構成を示すブロック図を示し、以下で
は、ゲーム端末機器Ｇ３１を例に挙げて説明する。な
お、図９に示すゲーム端末機器Ｇ３１の各機能について
は、図１に示した第１実施形態のゲーム端末機器Ｇ１と
同様な部分が多いため、主に異なる部分のみについて説
明する。また、同様な部分については、図１と同じ符号
を付しており、ここでは説明を省略する。

【０１２０】まず、図９に示す第３実施形態のゲーム端
末機器Ｇ３１が図１に示す第１実施形態のゲーム端末機
器Ｇ１と異なる点について概説する。第３実施形態で
は、第１実施形態と感情データの指定の方法が異なるた
め、感情データの指定に係る部分が異なってくる。具体
的には、図１に示すゲーム端末機器Ｇ１では音声分類部
１２および記憶部１４であったものが、図９に示すゲー
ム端末機器Ｇ３１ではそれぞれ音声分類部１２ａおよび
記憶部１４ａとなっている。そして、感情データの指定
に画像データも用いるため、顔検出部１７、表情分析部
１８、および感情指定部１９が新たに追加されている。

【０１２１】また、図９では、説明の便宜上、音声認識
部１１、音声分類部１２ａ、顔検出部１７、表情分析部
１８、および感情指定部１９などを含む部分を音声画像
処理部１０として示している。そして、音声画像処理部
１０は制御部２０とデータ送受信可能に接続され、各種
データを相互に送受信するとともに、音声画像処理部１
０内の各部は制御部２０によって制御される。なお、こ
こで、記憶部１４ａについては、記憶部１４と同様な画
像データベースを格納するが、さらに、表情分析部１８
などで用いるデータを記憶するため、異なる符合を付し
ている。

【０１２２】そして、本発明に係る第３実施形態のゲー
ム端末機器Ｇ３１では、第１実施形態のゲーム端末機器
Ｇ１と同様に、操作者自らの音声に対応する画像データ
および音声データを出力する場合と、他のゲーム端末機
器Ｇ３２〜Ｇ３４の操作者である通信相手の音声に対応
する画像データおよび音声データを出力する場合があ
り、実際のゲーム中では、両方の場合が同時に生じなが
らゲームが進行する。

【０１２３】まず、ゲーム端末機器Ｇ３１の操作者自ら
の音声に対応する画像および音声を、それぞれ表示画面
Ｄ１およびスピーカＳ１において表示および出力する場
合について説明する。

【０１２４】＜３−２．操作者自らの音声に対応する画
像および音声の出力＞マイクＭ１から入力される音声デ
ータは、制御部２０を介して音声加工部１６に出力され
るとともに、音声認識部１１に入力される。音声認識部
１１における音声データの処理については、第１実施形
態の音声認識部１１と同様な機能を有するため、説明を
省略する。

【０１２５】そして、図１に示すゲーム端末機器Ｇ１の
音声分類部１２では、音声認識部１１において抽出され
た音声データの特徴周波数成分に基づき、音声データを
言語音データと感情データとを含む予め設定された基準
音声データに分類したが、図９に示すゲーム端末機器Ｇ
３１の音声分類部１２ａでは、音声認識部１１において
抽出された音声データの特徴周波数成分に基づき、音声
データを言語音データ（ＡＳ）と感情を示すデータ（以
下、「音声感情データ」と称する）とに分類する。つま
り、音声分類部１２ａは、操作者の発する音声に起因す
る音声データを解析することによって音声感情データを
得る。

【０１２６】なお、ここで言う言語音データは、第１実
施形態と同様に「あ」「い」「う」「え」「お」「ん」
といった５つの母音と「ん」の音を合わせた６つの言語
音データを示す。また、ここで言う音声感情データは、
第１実施形態における「喜」「怒」「哀」「楽」「普
通」といった５つの感情データに相当するものである。
そして、音声データの特徴周波数成分に基づき、音声デ
ータを言語音データと音声感情データとに分類する方法
は、一般的に広く知られている公知の方法などによって
達成可能である。

【０１２７】音声分類部１２ａにおける分類結果である
言語音データ（ＡＳ）は、画像データ選択部１３および
制御部２０に向けて出力され、音声分類部１２ａにおけ
る分類結果である音声感情データは感情指定部１９に向
けて出力される。なお、制御部２０に向けて出力された
言語音データ（ＡＳ）は、制御部２０を介して通信部３
０に出力される。

【０１２８】また、音声分類部１２ａでは、マイクＭ１
から入力される音声データに雑音の成分が多く含まれる
ために、音声データを言語音データ（ＡＳ）および音声
感情データに正確に分類出来ないときには、その旨を制
御部２０に出力する。なお、音声データを言語音データ
（ＡＳ）および音声感情データに正確に分類出来ないと
きとは、例えば、二人の発する音声がマイクＭ１に同時
に入力される場合などが考えられ、この場合には、音声
分類部１２ａにおいて、二つの言語音データおよび二つ
の音声感情データに分類されることとなり、正確に分類
出来ない。

【０１２９】顔検出部１７は、カメラＣ１で取得される
画像データが入力されるようにカメラＣ１と接続されて
おり、顔検出部１７は、カメラＣ１から入力される画像
データから、操作者の顔に相当する部分を検出して抽出
する部位である。そして、顔検出部１７は、抽出した顔
に相当する部分を示すデータ（以下、「顔画像データ」
と称する）を表情分析部１８に向けて出力する。顔に相
当する部分の検出および抽出については、例えば、画像
から肌色の部分を検出することによって顔に相当する部
分を検出することなどにより達成することができる。

【０１３０】また、顔検出部１７では、カメラＣ１で操
作者の顔が適正に撮影されていない場合には、その旨を
制御部２０に出力する。ここで言う操作者の顔が適正に
撮影されていない場合とは、例えば、カメラＣ１から入
力される画像データに基づく画像に占める顔の面積が所
定の閾値よりも小さく検出された場合や、カメラＣ１か
ら入力される画像データに基づく画像がぼけている場合
などがある。よって、顔検出部１７では、カメラＣ１か
ら入力される画像データに基づく画像に占める肌色の部
分の面積が所定の閾値よりも小さいか否かを検出した
り、カメラＣ１から入力される画像データの高周波成分
が所定の閾値よりも少ないか否かを検出したりすること
によって、画像に占める顔の面積が所定の閾値よりも小
さいか否かや、画像がぼけているか否かを検出すること
などで、カメラＣ１で操作者の顔が適正に撮影されてい
ない場合を検出することができる。

【０１３１】表情分析部１８は、顔検出部１７から入力
される顔画像データに基づいて、操作者の表情を分析し
て、音声を発する操作者の音声を発した際の感情を示す
データ（以下、「表情感情データ」と称する）を指定
し、感情指定部１９に向けて出力する。言い換えれば、
表情分析部１８が、音声を発する操作者の音声を発した
際の顔に係る顔画像データを解析することによって、感
情を示す音声感情データを得る。

【０１３２】ここで、表情分析部１８における具体的な
処理内容の例について簡単に説明する。予め「喜」
「怒」「哀」「楽」「普通」の５つの感情などと対応す
る顔の構成要素の位置を示すモデル（以下、「表情感情
モデル」と称する）を用意する。この表情感情モデル
は、例えば、記憶部１４ａに格納しておくことができ
る。そして、表情分析部１８において、顔検出部１７で
抽出された顔に相当する画像データに基づく画像から
目、鼻、口、眉毛などの顔の構成要素の特徴点を抽出す
ることによって、顔の構成要素の位置を検出する。引き
続いて、表情分析部１８において、予め用意された表情
感情モデルと、検出された顔の構成要素の位置とを照合
することによって、「喜」「怒」「哀」「楽」「普通」
などの表情感情データを指定することができる。

【０１３３】なお、上記では、表情感情データの指定に
ついては、予め「喜」「怒」「哀」「楽」「普通」の５
つの感情などと対応する顔の構成要素の位置を示す表情
感情モデルを用意したが、これに限られるものではな
く、例えば、以下のような構成のものであっても良い。

【０１３４】例えば、予め、操作者の無表情にあたる顔
を撮影して得られた画像データから目、鼻、口、眉毛な
どの顔の構成要素の特徴点を抽出して、操作者の無表情
における顔の構成要素の位置（以下、「無表情位置」と
称する）を検出し、その位置を「普通」を示す表情感情
データに対応する顔の構成要素の位置として記憶部１４
ａに格納しておく。さらに、顔の構成要素について、無
表情位置との差分、つまり、顔の構成要素の特徴点の位
置が無表情位置から動いた距離・方向と、「喜」「怒」
「哀」「楽」を示す表情感情データとを対応付けたデー
タ（以下、「差分−感情データ」と称する）を記憶部１
４ａに格納しておく。

【０１３５】そして、表情分析部１８において、顔検出
部１７で抽出された顔に相当する画像データに基づく画
像から目、鼻、口、眉毛などの顔の構成要素の特徴点を
抽出することによって、顔の構成要素の位置を検出し、
無表情位置との差分を差分データとして算出する。そし
て、算出された差分データと差分−感情データとに基づ
いて、「喜」「怒」「哀」「楽」「普通」などの表情感
情データを指定することができる。このような構成にお
いては、表情分析部１８が、音声を発する操作者の所定
時における顔の構成要素の位置と、音声を発した時の顔
の構成要素の位置との差分に基づいて、表情感情データ
を指定する手段として機能することとなる。

【０１３６】なお、本実施形態におけるデータの送受信
とは異なるが、上述のように、表情感情データを、所定
時における顔の構成要素の位置と、音声を発した時の顔
の構成要素の位置との差分に基づいて指定するような構
成とすることによって、ゲーム端末機器Ｇ３１では、顔
の構成要素の位置を示すデータなどが入力された場合な
どにも、表情感情データを指定することができる。その
結果、通信相手の機器などでは、表情感情データを指定
する部位を省略することができるため、通信相手の機器
などの小型化を図ることができるとともに、顔画像デー
タなどの画像データよりも、顔の構成要素の位置を示す
データの方が容量を小さくできるため、表情感情データ
を指定するためのデータの送信時間を短縮することがで
きる。したがって、通信相手が音声を発してから感情の
伝達に至るまでの時間を短縮することができる。

【０１３７】感情指定部１９は、音声を発する操作者の
音声を発した際の感情を示す感情データ（ＡＦ）を指定
するための部位であり、音声分類部１２ａから入力され
る音声感情データと、表情分析部１８から入力される表
情感情データとに基づいて、音声を発する操作者の音声
を発した際の感情を示す感情データ（ＡＦ）を指定し、
画像データ選択部１３および制御部２０に向けて出力す
る。すなわち、感情指定部１９が、音声分類部１２ａか
ら出力される音声感情データおよび表情分析部１８から
出力される表情感情データを入力し、入力された音声感
情データと表情感情データとに基づいて感情データを指
定する手段として機能する。なお、制御部２０に向けて
出力された感情データ（ＡＦ）は、制御部２０を介して
通信部３０に出力される。

【０１３８】また、この感情指定部１９では、マイクＭ
１から入力される音声データおよびカメラＣ１から入力
される画像データの状態によって、感情データの指定方
法を変更する。感情指定部１９における感情データの指
定方法の変更について以下説明する。

【０１３９】上述したように、音声分類部１２ａが、雑
音が多く、音声データを言語音データ（ＡＳ）および音
声感情データに正確に分類出来ないときには、その旨を
制御部２０に出力し、また、顔検出部１７が、カメラＣ
１で操作者の顔が適正に撮影されていない場合には、そ
の旨を制御部２０に出力する。すなわち、マイクＭ１か
ら入力される音声データおよびカメラＣ１から入力され
る画像データの状態は、制御部２０によって管理され
る。そして、制御部２０の制御によって、感情指定部１
９における感情データの指定方法は変更される。

【０１４０】例えば、カメラＣ１で操作者の顔が適正に
撮影されている場合には、感情指定部１９は、表情分析
部１８から入力される表情感情データに基づいて感情デ
ータを指定する。具体的には、表情感情データが「喜」
を示す場合には、「喜」を示す感情データを指定すると
いった具合に、感情データを指定する。一方、カメラＣ
１で操作者の顔が適正に撮影されていない場合には、感
情指定部１９は、音声分類部１２ａから入力される音声
感情データに基づいて感情データを指定する。具体的に
は、音声感情データが「怒」を示す場合には、「怒」を
示す感情データを指定するといった具合に、感情データ
を指定する。

【０１４１】また、感情指定部１９における感情データ
の指定方法の変更については、上述したものに限られ
ず、例えば、音声分類部１２ａが音声データを音声感情
データ等に正確に分類出来る場合には、感情指定部１９
が、音声分類部１２ａから入力される音声感情データに
基づいて感情データを指定し、音声分類部１２ａが音声
データを音声感情データ等に正確に分類出来ない場合に
は、感情指定部１９が、表情分析部１８から入力される
表情感情データに基づいて感情データを指定するように
しても良い。

【０１４２】なお、感情指定部１９における感情データ
の指定方法については、ゲーム情報記憶部１５内に格納
されるゲームプログラムにしたがって変更されても良い
し、各ゲーム端末機器ごとに操作者の操作によって感情
データの指定方法を設定することによって変更しても良
い。

【０１４３】このように、雑音が多く、音声分類部１２
ａが音声データを音声感情データに正確に分類出来ない
場合や、カメラＣ１で操作者の顔が適正に撮影されてい
ない場合など、音声データと顔画像データの状況に応じ
て、感情指定部１９が感情データの指定方法を変更す
る。

【０１４４】第１実施形態のゲーム端末機器Ｇ１の記憶
部１４は、予め設定された言語音データおよび感情デー
タとからなる基準音声データと対応する、キャラクタ表
情画像データを記憶する画像データベースを格納した。
つまり、第１実施形態のゲーム端末機器Ｇ１の記憶部１
４は、言語音データと感情データとに対応する、キャラ
クタ表情画像データを記憶する画像データベースを格納
した。そして、第３実施形態のゲーム端末機器Ｇ３１の
記憶部１４ａにおいても、言語音データと感情データと
に対応する、表情全体と口形とを含むキャラクタの画像
データであるキャラクタ表情画像データを記憶する画像
データベースを格納する。すなわち、第１実施形態の画
像データベースと第３実施形態の画像データベースとは
同様のものである。この画像データベースについては、
第１実施形態において詳述したため、ここでは説明を省
略する。

【０１４５】画像データ選択部１３は、音声分類部１２
ａから入力される言語音データ（ＡＳ）および感情指定
部１９から入力される感情データ（ＡＦ）に対応するキ
ャラクタ表情画像データ（ＡＰ）を記憶部１４に格納さ
れる画像データベースから選択し、制御部２０に出力す
る。言い換えれば、画像データ選択部１３には、操作者
の発する音声に起因する情報である言語音を示す言語音
データ（ＡＳ）（音声関連データ）、および音声を発す
る操作者の音声を発した際の感情を示す感情データ（Ａ
Ｆ）とが入力され、画像データ選択部１３は、言語音デ
ータ（ＡＳ）と感情データ（ＡＦ）とに対応する、キャ
ラクタ表情画像データを画像データベースから選択し、
制御部２０に出力する。つまり、画像データ選択部１３
が、音声関連データを入力する手段、感情データを入力
する手段、キャラクタ表情画像データを画像データベー
スから選択する手段、および選択されたキャラクタ表情
画像データを出力する手段として機能する。

【０１４６】音声加工部１６は、マイクＭ１から制御部
２０を介して入力された音声データに対して、第１実施
形態と同様に、多少の変換を施し、音声データを異なる
音声データである出力音声データ（Ａ２）に変換する。
そして、出力音声データ（Ａ２）を制御部２０を介して
通信部３０に出力するとともに、スピーカＳ１に向けて
出力する。つまり、音声加工部１６が、マイクＭ１から
制御部２０を介して入力された音声関連データである音
声データに基づいた出力音声データ（Ａ２）を出力する
手段として機能する。

【０１４７】なお、ここでは、スピーカＳ１による出力
音声データ（Ａ２）に基づく音声の出力と、表示画面Ｄ
１によるキャラクタ表情画像データ（ＡＰ）に基づく画
像（以下、「キャラクタ画像」と称する）の出力とを同
期させるリップシンク処理を行うために、制御部２０の
制御にしたがって、音声加工部１６による変換結果であ
る出力音声データ（Ａ２）をスピーカＳ１に出力する。
そして、ここでは、音声データを変換しているため、後
述する指定された通信先の他のゲーム端末機器Ｇ３２〜
Ｇ３４に出力音声データ（Ａ２）を送信して通信相手側
で音声を出力する場合、操作者とは異なる音声が出力さ
れる。その結果、操作者のプライバシーの保護などを図
ることが可能である。

【０１４８】制御部２０は、第１実施形態のものと同様
に、主にＣＰＵを備えて構成され、ゲーム情報記憶部１
５に格納されているプログラムにしたがって種々の制御
および処理を行う。また、制御部２０は、画像データ選
択部１３から受信したキャラクタ表情画像データ（Ａ
Ｐ）を表示画面Ｄ１に出力して、表示画面Ｄ１において
キャラクタ画像を表示する。

【０１４９】そして、ここでは、制御部２０の制御によ
って、表示画面Ｄ１によるキャラクタ表情画像データ
（ＡＰ）に基づくキャラクタ画像の表示と、スピーカＳ
１による出力音声データ（Ａ２）に基づく音声の出力と
を同期させる。言い換えれば、制御部２０が、画像デー
タ選択部１３から出力されるキャラクタ表情画像データ
（ＡＰ）に基づくキャラクタ画像の表示画面Ｄ１による
表示と、音声加工部１６から出力される出力音声データ
（Ａ２）に基づくキャラクタ音声のスピーカＳ１による
出力とを同期させる手段として機能する。

【０１５０】このように、キャラクタ画像の表示と音声
の出力とを同期させることによって、キャラクタが音声
を発している人の感情を表現しつつ、音声を発している
人の代わりに話しているように感じさせることができ
る。また、音声を発する人はキャラクタになりきること
ができる。

【０１５１】また、通信部３０は、音声加工部１６によ
る音声データの変換結果である出力音声データ（Ａ２）
と、音声分類部１２ａによる分類結果である言語音デー
タ（ＡＳ）と、感情指定部１９で指定された感情データ
（ＡＦ）とをネットワーク１００を介して指定された通
信先の通信端末にあたる他のゲーム端末機器Ｇ３２〜Ｇ
３４に送信する。言い換えれば、通信部３０が、音声関
連データである言語音データ（ＡＳ）と感情データ（Ａ
Ｆ）とをネットワーク１００を介して指定された通信先
の通信端末にあたる他のゲーム端末機器Ｇ３２〜Ｇ３４
に送信する手段として機能する。

【０１５２】以上では、操作者の音声に対応するキャラ
クタ表情画像データおよび音声データの出力について注
目して説明したが、実際には、第１実施形態と同様に、
ゲームを進行する上で、その他の画像データや音声デー
タが存在する。この点については、第１実施形態と同様
に制御部２０が、ゲーム端末機器Ｇ３１に対応するキャ
ラクタ表情画像データ（ＡＰ）、他のゲーム端末機器Ｇ
３２〜Ｇ３４に対応するキャラクタ表情画像データ（Ｂ
Ｐ）、およびその他のゲーム画面を示す画像データなど
を合成して表示画面Ｄ１に出力することで、表示画面Ｄ
１はゲーム画面全体を表示する。また、第１実施形態と
同様に制御部２０の制御の下で、ゲーム端末機器Ｇ３１
に対応する出力音声データ（Ａ２）、他のゲーム端末機
器Ｇ３２〜Ｇ３４に対応する出力音声データ（Ｂ２）、
およびゲーム音声データとを音声加工部１６が合成して
スピーカＳ１に出力し、スピーカＳ１から音声が出力さ
れる。

【０１５３】また、制御部２０は、第１実施形態と同様
に、ゲーム情報記憶部１５に記憶されるゲームプログラ
ムにしたがってゲーム全体を制御し、ゲームの進行状況
などのゲーム情報（Ａ３）を通信部３０、ネットワーク
１００を介して他のゲーム端末機器Ｇ３２〜Ｇ３４に送
信する。一方、ゲーム端末機器Ｇ３１は、その他のゲー
ム端末機器Ｇ３２〜Ｇ３４からもゲームの進行状況など
のゲーム情報（Ｂ３）をネットワーク１００を介し、通
信部３０を通じて制御部２０で受信する。そして、制御
部２０は、ゲーム情報（Ｂ３）を反映させながらゲーム
全体を制御する。

【０１５４】＜３−３．通信相手に対応する画像および
音声の出力＞次に、ゲーム端末機器Ｇ３１が、その他の
ゲーム端末機器Ｇ３２〜Ｇ３４の操作者である通信相手
の画像および音声に対応するキャラクタ画像および音声
を、それぞれ表示画面Ｄ１およびスピーカＳ１によって
表示および出力する場合について説明する。

【０１５５】上述したように、ゲーム端末機器Ｇ３２〜
Ｇ３４は、ゲーム端末機器Ｇ３１と同様な機器であり、
ゲーム端末機器Ｇ３２〜Ｇ３４から送信される言語音デ
ータ（ＢＳ）、感情データ（ＢＦ）、出力音声データ
（Ｂ２）、およびゲーム情報（Ｂ３）をネットワーク１
００を介して、ゲーム端末機器Ｇ３１の通信部３０にお
いて受信する。言い換えれば、通信部３０が、音声関連
データである言語音データ（ＢＳ）と感情データ（Ｂ
Ｆ）とゲーム情報（Ｂ３）とをネットワーク１００を介
して受信する手段として機能する。

【０１５６】通信部３０は、受信した言語音データ（Ｂ
Ｓ）、感情データ（ＢＦ）、出力音声データ（Ｂ２）、
およびゲーム情報（Ｂ３）を、制御部２０に出力する。

【０１５７】制御部２０は、出力音声データ（Ｂ２）を
音声加工部１６に送信し、音声加工部１６は、出力音声
データ（Ｂ２）をスピーカＳ１に出力して、スピーカＳ
１によって出力音声データ（Ｂ２）に基づく音声を出力
する。

【０１５８】また、制御部２０は、言語音データ（Ｂ
Ｓ）、および感情データ（ＢＦ）を、画像データ選択部
１３に送信し、画像データ選択部１３は、言語音データ
（ＢＳ）と感情データ（ＢＦ）とに対応するキャラクタ
表情画像データ（ＢＰ）を記憶部１４ａに格納される画
像データベースから選択し、制御部２０に出力する。そ
して、制御部２０は、画像データ選択部１３から入力さ
れるキャラクタ表情画像データ（ＢＰ）を表示画面Ｄ１
に出力し、表示画面Ｄ１によってキャラクタ表情画像デ
ータ（ＢＰ）に基づくキャラクタ画像を表示する。

【０１５９】ここでも、ゲーム端末機器Ｇ３１の操作者
自らの画像および音声に対応するキャラクタ画像の表示
および音声の出力を行う場合と同様に、制御部２０の制
御によって、表示画面Ｄ１におけるキャラクタ表情画像
データ（ＢＰ）に基づくキャラクタ画像の表示と、音声
加工部１６から出力される出力音声データ（Ｂ２）に基
づく音声の出力とを同期させる。つまり、表示画面Ｄ１
上に表示される言語音データ（ＢＳ）と感情データ（Ｂ
Ｆ）とに対応するキャラクタ画像と、スピーカＳ１から
出力される出力音声データ（Ｂ２）に対応する音声とを
同期させるリップシンク処理が行われる。したがって、
通信相手に対応する画像上のキャラクタがあたかも喋っ
ているかのように見せることができるため、通信相手の
表情を含めた話す様子を表示画面Ｄ１に表示されるキャ
ラクタを通じて、認識することができ、臨場感のあるコ
ミュニケーションを図ることができる。

【０１６０】また、以上では、ゲーム端末機器Ｇ３１の
操作者自らの画像および音声に対応するキャラクタ画像
および音声を表示・出力する場合と同様に、通信相手の
画像および音声に対応するキャラクタ表情画像データ
（ＢＰ）に基づく画像の表示、および出力音声データ
（Ｂ２）に基づく音声の出力について注目して説明した
が、実際には、ゲームを進行する上で、その他の画像デ
ータや音声データが存在する。この点については、上述
したため、ここでは説明を省略する。

【０１６１】＜３−４．通信ゲームシステムとその他の
機能＞ここでは、第１実施形態の通信ゲームシステムと
同様、図２に示すように、ネットワーク１００を介し
て、ゲーム端末機器Ｇ３１〜Ｇ３４は、音声加工部１６
における変換結果である出力音声データ、音声分類部１
２ａにおける音声データの分類結果である言語音デー
タ、感情指定部１９によって指定された感情データ、お
よび制御部２０において制御されるゲーム情報を相互に
送受信し合う。よって、表示画面Ｄ１〜Ｄ４に表示され
るゲーム端末機器Ｇ３１〜Ｇ３４のそれぞれに対応する
キャラクターが、ゲーム端末機器Ｇ３１〜Ｇ３４それぞ
れの操作者の音声を変換してスピーカＳ１〜Ｓ４におい
て出力される音声と同期して、表情全体や口形を変化さ
せる。その結果、１つのゲーム空間を共有するプレーヤ
ーが、お互いにコミュニケーションを取り合いながら、
ゲームを楽しむことができる。

【０１６２】また、第１実施形態のゲーム端末機器Ｇ１
と同様、図９に示すように、ゲーム端末機器Ｇ３１で
は、外部の記録媒体２２からＩ／Ｆ２１、制御部２０を
介して、ゲーム情報記憶部１５にプログラムをインスト
ールすることも可能である。ここでは、ゲーム端末機器
Ｇ３１の音声認識部１１、音声分類部１２ａ、画像デー
タ選択部１３、音声加工部１６、顔検出部１７、表情分
析部１８、および感情指定部１９は、専用の電子回路に
より構築され、ゲーム端末機器Ｇ３１における各データ
の流れおよび各機能の動作等は、主にＣＰＵから構成さ
れている制御部２０において統括制御される。

【０１６３】＜３−５．キャラクタ画像の表示について
＞第３実施形態においても、第１実施形態と同様に、操
作者の音声などに基づいて、表示画面Ｄ１に表示される
キャラクタ画像が変化する。そして、第３実施形態にお
けるキャラクタ画像の表示については、感情データの指
定方法が異なるのみで、図５に示すキャラクタ画像の変
化を例にとって説明したものとほぼ同様となる。

【０１６４】そこで、以下では、ゲーム端末機器Ｇ３１
における動作の一例について説明する。なお、ここで
は、操作者が楽しそうな表情で、楽しそうに「もしも
し」と音声を発しているものとする。さらに、ここで
は、説明を簡単とするために、雑音が少なく、音声デー
タを言語音データ（ＡＳ）および音声感情データに正確
に分類でき、カメラＣ１で操作者の顔が適正に撮影され
ているものとして説明する。

【０１６５】まず、マイクＭ１から「もしもし」という
操作者の音声に対応する音声データが音声認識部１１に
入力されるとともに、カメラＣ１によって操作者が音声
を発した際の表情に係る画像データを取得して顔検出部
１７に入力される。ここでは、音声データに関する処理
と画像データに関する処理とが並行して行われることと
なるが、まず、音声データに関する処理について説明
し、続いて画像データに関する処理について説明する。

【０１６６】音声認識部１１では、マイクＭ１から入力
される音声データの特徴周波数成分を抽出する。そし
て、音声分類部１２ａにおいて、音声認識部１１におい
て抽出された音声データの特徴周波数成分に基づいて、
「もしもし」という音声データは、６つの言語音データ
に分類されて、「おいおい」という言語音データに分類
される。また、ここでは、操作者が楽しそうに音声を発
しているため、音声分類部１２ａにおいて、「楽」の音
声感情データに分類され、その音声感情データが感情指
定部１９に出力される。

【０１６７】一方、顔検出部１７では、カメラＣ１から
入力される画像データから、操作者の顔に相当する部分
を示す顔画像データを検出して抽出し、表情分析部１８
に出力する。そして、ここでは、操作者が楽しそうな表
情で音声を発しているため、表情分析部１８において、
顔画像データに基づいて操作者の表情が分析され、
「楽」の感情を示す表情感情データが指定され、その表
情感情データが感情指定部１９に出力される。

【０１６８】そして、ここでは、カメラＣ１で操作者の
顔が適正に撮影されているため、感情指定部１９は、表
情分析部１８から入力される「楽」を示す表情感情デー
タに基づいて「楽」を示す感情データを指定する。言語
音データと感情データとに対応するキャラクタ表情画像
データの選択およびそれ以降の動作については、第１実
施形態と同様となるため、ここでは、説明を省略する。

【０１６９】以上説明したように、第３実施形態に係る
通信ゲームシステム３では、操作者の感情を示す感情デ
ータと、操作者の発する音声に起因する情報示す音声デ
ータとに基づいて、キャラクタの表情全体と口形とを含
むキャラクタ表情画像データを選択して出力する。その
結果、音声を発する人の感情を反映したキャラクタ画像
を表示画面Ｄ１〜Ｄ４などに表示することができる。

【０１７０】したがって、音声を発する人の顔を表示す
ることなく、音声データやテキストデータなどの音声に
起因する情報を示す音声関連データなどの入力に合わせ
て、音声を発する人の顔を表示することなく、音声を発
する人のプライバシーを守りつつ、感情の伝達が可能な
画像作成装置を提供することができる。

【０１７１】また、特に、音声データと顔画像データの
状況に応じて、感情指定部１９が感情データの指定方法
を変更する。このとき、感情指定部１９が、音声感情デ
ータと表情感情データとの双方に基づいて感情データを
指定するため、音声データと顔画像データの状況に応じ
て、音声を発する人の感情をより正確に反映させたキャ
ラクタ画像を表示することができる。

【０１７２】さらに、通信ゲームシステム３では、ネッ
トワーク１００を介して、相手側のゲーム端末機器から
送信されてきた音声データと、感情データとに基づい
て、キャラクタの表情全体と口形とを含むキャラクタ表
情画像データを選択して出力する。その結果、通信相手
の発する音声に係る音声データの入力に合わせて、音声
を発する通信相手の顔を表示することなく、音声を発す
る通信相手のプライバシーを守りつつ、感情を伝達でき
る。

【０１７３】＜４．第４実施形態＞＜４−１．第４実施形態に係る通信ゲームシステム概要
＞図１０は、本発明に係る第４実施形態の通信ゲームシ
ステム４の概要を示す図であり、図１０では、一例とし
て、複数の通信端末であるゲーム端末機器Ｇ４１〜Ｇ４
４がネットワーク１００に接続された通信ゲームシステ
ム４について示している。よって、図１０に示す第４実
施形態の通信ゲームシステム４では、第１実施形態の通
信ゲームシステムにおけるゲーム端末機器Ｇ１〜Ｇ４の
かわりに、ゲーム端末機器Ｇ４１〜Ｇ４４がネットワー
ク１００に接続されているような構成となっている。そ
して、ここでは、ゲーム端末機器Ｇ４１〜Ｇ４４が、ゲ
ームプログラムに従ってキャラクタ特有の音声データ
（以下、「キャラクタ音声データ」と称する）を生成す
る音声生成装置として機能する。さらに、通信ゲームシ
ステム４が、キャラクタ音声データを生成して出力する
音声生成システムとして機能する。

【０１７４】また、第３実施形態と同様に、例えば、ゲ
ーム端末機器Ｇ４１およびゲーム端末機器Ｇ４２をそれ
ぞれ第１および第２の通信端末と仮定すると、通信ゲー
ムシステム４は、通信回線であるネットワーク１００
と、ネットワーク１００を介して接続された第１および
第２の通信端末を備えていることとなる。なお、第３実
施形態と同様に、ゲーム端末機器Ｇ４１〜Ｇ４４のうち
いずれか二つのゲーム端末機器をそれぞれ第１および第
２の通信端末としても良い。

【０１７５】そして、ゲーム端末機器Ｇ４１〜Ｇ４４
は、第１実施形態のゲーム端末機器Ｇ１〜Ｇ４と同様
に、後述するゲーム情報などを相互に送受信し合うた
め、ゲーム端末機器Ｇ４１〜Ｇ４４のそれぞれの操作者
は、１つのゲーム空間を共有しつつ、お互いにコミュニ
ケーションを取り合ってゲームを進行することができ
る。

【０１７６】図１０に示す第４実施形態の通信ゲームシ
ステム４と、図１に示す第１実施形態の通信ゲームシス
テムとでは、各ゲーム端末機器の操作者が発する音声に
基づいて、キャラクタ表情画像データが選択されるとい
う点では同様であるが、音声に起因するデータの処理な
どが異なる。具体的には、図１に示す通信ゲームシステ
ムでは、マイクＭ１〜Ｍ４から入力される音声データを
言語音データと感情データとに分類し、それらの言語音
データと感情データとに対応するキャラクタ表情画像デ
ータを選択したが、図１０に示す第４実施形態の通信ゲ
ームシステム４では、音声データを感情データに分類す
るとともに、音声データをテキストデータに変換し、感
情データとテキストデータとに対応するキャラクタ特有
のキャラクタ音声データを選択して、選択されたキャラ
クタ音声データに対応するキャラクタ表情画像データを
選択するような構成となっている。

【０１７７】以下、第４実施形態の通信ゲームシステム
４の内部構成について説明する。

【０１７８】図１０に示す通信ゲームシステム４におい
ては、複数のゲーム端末機器Ｇ４１〜Ｇ４４は、それぞ
れ同様の機能構成を有するため、図１０ではゲーム端末
機器Ｇ４１のみの機能構成を示すブロック図を示し、以
下では、ゲーム端末機器Ｇ４１を例に挙げて説明する。
なお、図１０に示すゲーム端末機器Ｇ４１の各機能につ
いては、図１に示した第１実施形態のゲーム端末機器Ｇ
１と同様な部分もあるため、同様な部分については、図
１と同じ符号を付しており、ここでは説明を省略する。

【０１７９】そして、図１０では、音声認識部１１、感
情指定部１９ｂ、およびデータ変換部６３などを含む部
分を音声処理部６０として示している。そして、音声処
理部６０は制御部２０ｂとデータ送受信可能に接続さ
れ、各種データを相互に送受信するとともに、音声処理
部６０内の各部は制御部２０ｂによって制御される。

【０１８０】本発明に係る第４実施形態のゲーム端末機
器Ｇ４１では、第１実施形態のゲーム端末機器Ｇ１と同
様に、操作者自らの音声に対応するキャラクタ表情画像
データおよびキャラクタ音声データを出力する場合と、
他のゲーム端末機器Ｇ４２〜Ｇ４４の操作者である通信
相手の音声に対応するキャラクタ表情画像データおよび
キャラクタ音声データを出力する場合があり、実際のゲ
ーム中では、両方の場合が同時に生じながらゲームが進
行する。

【０１８１】まず、ゲーム端末機器Ｇ４１の操作者自ら
の音声に対応するキャラクタ表情画像データおよびキャ
ラクタ音声データに基づいた画像（以下、「キャラクタ
画像」と称する）および音声（以下、「キャラクタ音
声」と称する）を、それぞれ表示画面Ｄ１およびスピー
カＳ１によって表示および出力する場合について説明す
る。

【０１８２】＜４−２．操作者自らの音声に対応する画
像および音声の出力＞ゲーム端末機器Ｇ４１の操作者が
マイクＭ１に向けて音声を発すると、音声はマイクＭ１
に入力される。マイクＭ１に入力された音声は、マイク
Ｍ１において音声データに変換されて、ゲーム端末機器
Ｇ４１内の音声認識部１１およびデータ変換部６３に入
力される。

【０１８３】音声認識部１１は、第１実施形態において
説明したものと同様であり、マイクＭ１から入力された
音声データの周波数を解析することにより音声データの
特徴周波数部分を抽出し、感情指定部１９ｂに出力す
る。

【０１８４】感情指定部１９ｂは、音声認識部１１にお
いて抽出した特徴周波数部分に基づいて感情データ（Ａ
Ｆ）を指定し、この指定した感情データ（ＡＦ）を音声
・画像データ選択部７０に出力するとともに、制御部２
０ｂを介して通信部３０に出力する。なお、ここで言う
感情データは、第１実施形態における「喜」「怒」
「哀」「楽」「普通」といった５つの感情を示すデータ
と同様なものである。そして、音声データの特徴周波数
成分に基づいて感情データを指定する方法は、一般的に
広く知られている公知の方法などによって達成可能であ
る。

【０１８５】一方、データ変換部６３は、マイクＭ１か
ら入力された音声データをテキストデータ（ＡＴ）に変
換する。言い換えれば、データ変換部６３は、操作者が
何を言っているのかを認識して、テキストデータ（Ａ
Ｔ）を生成するのである。そして、データ変換部６３
は、この変換結果であるテキストデータ（ＡＴ）を音声
・画像データ選択部７０に出力するとともに、制御部２
０ｂを介して通信部３０に出力する。なお、この変換
は、一般的にSpeech To Textと呼ばれる公知の方法など
によって達成することができる。なお、このSpeech To
Textおよび後述するText To Speechと呼ばれる公知の方
法については、ＨＭＭ（隠れマルコフモデル）やニュー
ラルネットワークを利用した手法が良く用いられる。そ
して、データ変換部６３では、例えば、「もしもし」と
操作者がマイクＭ１に向かって音声を発すると、データ
変換部６３では、音声データが「もしもし」という文字
列を示す情報に変換される。

【０１８６】記憶部１４ｂは、テキスト（文字）と感情
とに対応する、キャラクタ特有の音声の周波数（スペク
トル）を示すデータであるキャラクタ音声データを記憶
するデータベース（以下、「キャラクタ音声データベー
ス」と称する）を格納する。すなわち、キャラクタ音声
データベースは、操作者の発する音声に起因する情報で
あるテキスト（文字）と、感情と、キャラクタ音声デー
タとが対応づけられたデータベースとなっている。

【０１８７】ここで、キャラクタ音声データベースの構
築方法の例について、簡単に説明する。なお、以下で
は、キャラクタ音声データベースは外部の専用機器で構
築した後に、キャラクタ音声データベースを記憶した記
録媒体２２をゲーム端末機器Ｇ４１に着装し、Ｉ／Ｆ２
１を介して、記憶部１４ｂにキャラクタ音声データベー
スをコピーすることによって、記憶部１４ｂにキャラク
タ音声データベースが格納されるものとして説明を行
う。

【０１８８】まず、キャラクタの音声を担当する声優
に、キャラクタ特有の口調で種々のパターンの台詞を話
してもらい、そのときの音声に係る音声データを解析す
ることによって、音声を発している際の感情を識別し、
日本語の五十音や英語のアルファベットなど会話で用い
る可能性のある音素ごとに「喜」「怒」「哀」「楽」
「普通」などの感情に対応するスペクトルを生成する。
このようなスペクトルを生成することによって、日本語
の五十音などの文字（テキスト）と感情とスペクトル
（キャラクタ音声データ）とを関連付けたキャラクタ音
声データベースを構築することができる。上述した音声
に係る音声データを解析して音声を発している際の感情
を識別する方法は、例えば、話すスピードや強弱などに
基づいて識別することができる。

【０１８９】なお、上記では、各音素ごとに「喜」
「怒」「哀」「楽」「普通」などの感情に対応するスペ
クトルを生成したが、これに限られるものではなく、あ
る程度まとまった音節ごとに「喜」「怒」「哀」「楽」
「普通」などの感情に対応するスペクトルを生成して、
日本語の五十音などの文字（テキスト）と感情とスペク
トル（キャラクタ音声データ）とを関連付けたキャラク
タ音声データベースを構築しても良い。このときには、
例えば、音節ごとの言葉の意味と「喜」「怒」「哀」
「楽」「普通」などの感情とを対応付けることで、音節
ごとに「喜」「怒」「哀」「楽」「普通」などの感情に
対応するスペクトルを生成することもできる。

【０１９０】また、記憶部１４ｂは、キャラクタ音声デ
ータと、キャラクタの表情全体と口形とを含むキャラク
タ表情画像データとを関連付けたデータベース（以下、
「音声−画像データベース」と称する）を格納する。な
お、記憶部１４ｂは、例えば、不揮発性の記憶装置など
で構成され、図１０では、記憶部１４ｂとｌゲーム情報
記憶部１５とを別々としているが、これに限られるもの
ではなく、例えば、１つの不揮発性の記憶装置などであ
っても良い。

【０１９１】さらに、記憶部１４ｂに格納される音声−
画像データベースに記憶されるキャラクタ表情画像デー
タは、制御部２０を介してゲーム情報記憶部１５から記
憶部１４ｂに読み出されて記憶されるゲームプログラム
に固有の画像データであっても良いし、カメラＣ１によ
って実在する人物を実写することによって取得された画
像データ、例えば、ゲーム端末機器Ｇ４１の外部におい
て実在する人物などを実写することによって取得された
画像データを記録媒体２２などからＩ／Ｆ２１を介して
取り込んで記憶したものでも良い。つまり、キャラクタ
表情画像データに、実在する人物を実写することによっ
て取得された画像データを含めることによって、表示画
面Ｄ１に表示されるキャラクタ画像を実在する人で表現
することができる。その結果、音声を発する操作者は、
実在する人物になりきることができる。

【０１９２】なお、以上では、１つのキャラクタのキャ
ラクタ音声データおよびキャラクタ表情画像データのみ
について説明したが、キャラクターは１つに限られるも
のではなく、第１実施形態と同様に、ゲームプログラム
に元から記憶された複数のキャラクタであっても良い
し、カメラＣ１から取り込まれた人物などの表情を記憶
したものや、ゲーム端末機器Ｇ４１の外部において取得
された画像データを記憶した記録媒体２２からＩ／Ｆ２
１を介して取り込んで記憶し、キャラクタを複数として
も良い。

【０１９３】また、各ゲーム端末機器Ｇ４１〜Ｇ４４の
操作者に対応するキャラクタの設定を、図示を省略する
操作部を種々操作することによって実施することができ
る。したがって、各ゲーム端末機器Ｇ４１〜Ｇ４４ごと
に対応するキャラクタの種類がそれぞれ異なることによ
って、ゲーム空間上で、各ゲーム端末機器Ｇ４１〜Ｇ４
４に対応するキャラクタをそれぞれ特定することが容易
に可能であり、各ゲーム端末機器Ｇ４１〜Ｇ４４の操作
者が特定のキャラクタになったものと感じることができ
る。さらに、画面に表示される１つのキャラクタが、操
作者の感情に対応した表情を表現するため、操作者は１
つのキャラクタになりきることができる。

【０１９４】音声・画像データ選択部７０は、感情指定
部１９ｂから入力される感情データ（ＡＦ）と、データ
変換部６３から入力されるテキストデータ（ＡＴ）とに
対応するキャラクタ音声データ（ＡＶ）を記憶部１４ｂ
に格納されるキャラクタ音声データベースから選択す
る。つまり、音声・画像データ選択部７０が、操作者の
発する音声に起因する情報であるテキストデータ（Ａ
Ｔ）と音声を発する操作者の音声を発した際の感情を示
す感情データ（ＡＦ）とを入力する手段、テキストデー
タ（ＡＴ）と感情データ（ＡＦ）とに対応するキャラク
タ音声データ（ＡＶ）をキャラクタ音声データベースか
ら選択する手段として機能する。

【０１９５】また、音声・画像データ選択部７０は、選
択したキャラクタ音声データ（ＡＶ）に対応する、キャ
ラクタ表情画像データ（ＡＰ）を音声−画像データベー
スから選択する。つまり、音声・画像データ選択部７０
が、上述のごとく選択されたキャラクタ音声データ（Ａ
Ｖ）に対応するキャラクタ表情画像データ（ＡＰ）を記
憶部１４ｂに格納される音声−画像データベースから選
択する手段として機能する。

【０１９６】そして、音声・画像データ選択部７０は、
上述のごとく選択したキャラクタ音声データ（ＡＶ）と
キャラクタ表情画像データ（ＡＰ）とを制御部２０ｂに
出力する。

【０１９７】制御部２０ｂは、主にＣＰＵから構成さ
れ、ゲーム情報記憶部１５に格納されているプログラム
にしたがって種々の制御および処理を行う。また、制御
部２０ｂは、音声・画像データ選択部７０から入力した
キャラクタ音声データ（ＡＶ）に基づくキャラクタ音声
をスピーカＳ１において出力させるとともに、音声・画
像データ選択部７０から入力したキャラクタ表情画像デ
ータ（ＡＰ）に基づくキャラクタ画像を表示画面Ｄ１に
おいて出力させる。

【０１９８】そして、ここでは、制御部２０ｂからスピ
ーカＳ１へのキャラクタ音声データ（ＡＶ）の出力と、
制御部２０ｂから表示画面Ｄ１へのキャラクタ表情画像
データ（ＡＰ）の出力とを同期させる。このような制御
とすることで、スピーカＳ１によるキャラクタ音声デー
タ（ＡＶ）に基づくキャラクタ音声の出力と、表示画面
Ｄ１上に表示されるキャラクタ表情画像データ（ＡＰ）
に基づくキャラクタ画像の表示とを同期させるリップシ
ンク処理が行われる。

【０１９９】したがって、制御部２０ｂが、音声・画像
データ選択部７０によって選択されたキャラクタ音声デ
ータ（ＡＶ）とキャラクタ表情画像データ（ＡＰ）とを
出力する手段、およびキャラクタ表情画像データ（Ａ
Ｐ）に基づくキャラクタ画像の表示とキャラクタ音声デ
ータ（ＡＶ）に基づく音声の出力とを同期させる手段と
して機能する。

【０２００】その結果、画像上のキャラクタがあたかも
喋っているかのように見せることができる。また、ここ
では、音声がキャラクタ特有のキャラクタ音声に変換さ
れているため、通信相手側で音声が出力される場合など
においても、プライバシーの保護などを図ることが可能
となる。

【０２０１】なお、一般的にText To Speechと称される
公知の方法によっても、テキストデータから音声データ
に変換して音声データに基づいた音声を出力することが
できるが、この方法では、出力される音声に強弱や抑揚
がほとんどなく機械的な音声となるのが一般的である。
これに対して、本実施形態では、音声がキャラクタ特有
のキャラクタ音声となるため、感情を感じられる音声と
なり、画像上のキャラクタがあたかも喋っているかのよ
うにみせることができる。

【０２０２】また、通信部３０は、感情指定部１９ｂか
ら入力される感情データ（ＡＦ）、およびデータ変換部
６３から入力されるテキストデータ（ＡＴ）をネットワ
ーク１００を介して指定された通信先の通信端末にあた
る他のゲーム端末機器Ｇ４２〜Ｇ４４に送信する。言い
換えれば、通信部３０が、音声関連データであるテキス
トデータ（ＡＴ）と感情データ（ＡＦ）とをネットワー
ク１００を介して指定された通信先の通信端末にあたる
他のゲーム端末機器Ｇ４２〜Ｇ４４に送信する手段とし
て機能する。

【０２０３】以上では、操作者の発する音声に対応する
キャラクタ音声データおよびキャラクタ表情画像データ
の出力について注目して説明したが、実際には、ゲーム
を進行する上で、その他の画像データや音声データが存
在する。この点については、第１実施形態と同様に、制
御部２０ｂが、ゲーム端末機器Ｇ４１に対応するキャラ
クタ表情画像データ（ＡＰ）、他のゲーム端末機器Ｇ４
２〜Ｇ４４に対応するキャラクタ表情画像データ（Ｂ
Ｐ）、およびその他のゲーム画面を示す画像データなど
を合成して表示画面Ｄ１に出力することで、表示画面Ｄ
１はゲーム画面全体を表示する。また、制御部２０ｂの
制御の下で、ゲーム端末機器Ｇ４１に対応するキャラク
タ音声データ（ＡＶ）、他のゲーム端末機器Ｇ４２〜Ｇ
４４に対応するキャラクタ音声データ（ＢＶ）、および
ゲーム音声データとを制御部２０ｂが合成してスピーカ
Ｓ１に出力し、スピーカＳ１から音声が出力される。

【０２０４】また、制御部２０ｂは、第１実施形態と同
様に、ゲーム情報記憶部１５に記憶されるゲームプログ
ラムにしたがってゲーム全体を制御し、ゲームの進行状
況などのゲーム情報（Ａ３）を通信部３０、ネットワー
ク１００を介して他のゲーム端末機器Ｇ４２〜Ｇ４４に
送信する。一方、ゲーム端末機器Ｇ４１は、その他のゲ
ーム端末機器Ｇ４２〜Ｇ４４からもゲームの進行状況な
どのゲーム情報（Ｂ３）をネットワーク１００を介し、
通信部３０を通じて制御部２０ｂによって受信する。そ
して、制御部２０ｂは、ゲーム情報（Ｂ３）を反映させ
ながらゲーム全体を制御する。

【０２０５】＜４−３．通信相手の音声に対応する画像
および音声の出力＞次に、ゲーム端末機器Ｇ４１が、そ
の他のゲーム端末機器Ｇ４２〜Ｇ４４の操作者である通
信相手の音声に対応する画像および音声を、それぞれ表
示画面Ｄ１およびスピーカＳ１において表示および出力
する場合について説明する。

【０２０６】ゲーム端末機器Ｇ４２〜Ｇ４４は、上述し
たように、ゲーム端末機器Ｇ４１と同様な機器であり、
ゲーム端末機器Ｇ４１は、ゲーム端末機器Ｇ４２〜Ｇ４
４から送信される感情データ（ＢＦ）、テキストデータ
（ＢＴ）、およびゲーム情報（Ｂ３）をネットワーク１
００を介して、通信部３０によって受信する。言い換え
れば、通信部３０が、音声関連データであるテキストデ
ータ（ＢＴ）と感情データ（ＢＦ）とゲーム情報（Ｂ
３）とをネットワーク１００を介して受信する手段とし
て機能する。

【０２０７】通信部３０は、受信した感情データ（Ｂ
Ｆ）、テキストデータ（ＢＴ）、およびゲーム情報（Ｂ
３）を、制御部２０ｂに出力し、制御部２０ｂは、感情
データ（ＢＦ）、およびテキストデータ（ＢＴ）を音声
・画像データ選択部７０に出力する。

【０２０８】音声・画像データ選択部７０は、制御部２
０ｂから入力される感情データ（ＢＦ）およびテキスト
データ（ＢＴ）とに対応するキャラクタ音声データ（Ｂ
Ｖ）を記憶部１４ｂに格納されるキャラクタ音声データ
ベースから選択し、制御部２０ｂに出力する。また、音
声・画像データ選択部７０は、選択したキャラクタ音声
データ（ＢＶ）に対応する、キャラクタ表情画像データ
（ＢＰ）を音声−画像データベースから選択し、制御部
２０ｂに出力する。

【０２０９】そして、制御部２０ｂは、音声・画像デー
タ選択部７０から入力したキャラクタ音声データ（Ｂ
Ｖ）をスピーカＳ１から出力するとともに、音声・画像
データ選択部７０から入力したキャラクタ表情画像デー
タ（ＢＰ）を表示画面Ｄ１に出力する。そして、ここで
は、制御部２０ｂにおいて、スピーカＳ１へのキャラク
タ音声データ（ＢＶ）の出力と、表示画面Ｄ１へのキャ
ラクタ表情画像データ（ＢＰ）の出力とを同期させる。
つまり、スピーカＳ１によるキャラクタ音声データ（Ｂ
Ｖ）に基づくキャラクタ音声の出力と、表示画面Ｄ１に
よるキャラクタ表情画像データ（ＢＰ）に基づくキャラ
クタ画像の表示とを同期させるリップシンク処理が行わ
れる。

【０２１０】したがって、通信相手に対応する画像上の
キャラクタがあたかも喋っているかのように見せること
ができるため、通信相手の表情を含めた話す様子を表示
画面Ｄ１に表示されるキャラクタを通じて、認識するこ
とができ、臨場感のあるコミュニケーションを図ること
ができる。

【０２１１】また、以上では、ゲーム端末機器Ｇ４１の
操作者自らの音声に対応するキャラクタ画像およびキャ
ラクタ音声を表示および出力する場合と同様に、通信相
手の音声に対応するキャラクタ表情画像データおよびキ
ャラクタ音声データの出力について注目して説明した
が、実際には、ゲームを進行する上で、その他の画像デ
ータや音声データが存在する。この点については、上述
したため、ここでは省略する。

【０２１２】＜４−４．通信ゲームシステムとその他の
機能＞ここでは、第１実施形態の通信ゲームシステムと
同様、図２に示すように、ネットワーク１００を介し
て、ゲーム端末機器Ｇ４１〜Ｇ４４は、感情指定部１９
ｂにおいて指定した感情データ（ＡＦ，ＢＦ）、データ
変換部６３における音声データの変換結果であるテキス
トデータ（ＡＴ，ＢＴ）、および制御部２０ｂにおいて
制御されるゲーム情報（Ａ３，Ｂ３）を相互に送受信し
合う。よって、表示画面Ｄ１〜Ｄ４に表示されるゲーム
端末機器Ｇ４１〜Ｇ４４のそれぞれに対応するキャラク
ター画像が、スピーカＳ１〜Ｓ４において出力されるゲ
ーム端末機器Ｇ４１〜Ｇ４４それぞれの操作者の音声に
対応するキャラクタ音声と同期して、表情全体や口形を
変化させる。その結果、１つのゲーム空間を共有するプ
レーヤーが、お互いにコミュニケーションを取り合いな
がら、ゲームを楽しむことができる。

【０２１３】また、第１実施形態のゲーム端末機器Ｇ１
と同様、図１０に示すように、ゲーム端末機器Ｇ４１で
は、外部の記録媒体２２からＩ／Ｆ２１、制御部２０ｂ
を介して、ゲーム情報記憶部１５にプログラムをインス
トールすることも可能である。ここでは、ゲーム端末機
器Ｇ４１の音声認識部１１、感情指定部１９ｂ、データ
変換部６３、および音声・画像データ選択部７０は、専
用の電子回路により構築され、ゲーム端末機器Ｇ４１に
おける各データの流れおよび各機能の動作等は、主にＣ
ＰＵから構成されている制御部２０ｂにおいて統括制御
される。

【０２１４】＜４−５．キャラクタ画像の表示について
＞第４実施形態の通信ゲームシステム４においても、第
１実施形態の通信ゲームシステムと同様に、操作者の発
する音声に基づいて、表示画面Ｄ１に表示されるキャラ
クタ画像が変化する。そして、第４実施形態における表
示画面Ｄ１による画像表示およびスピーカＳ１による音
声出力については、キャラクタ表情画像データおよびキ
ャラクタ音声データの選択方法が異なるものの、第１実
施形態において図５に示すキャラクタ画像の変化を例に
とって説明したものとほぼ同様となる。

【０２１５】そこで、以下では、ゲーム端末機器Ｇ４１
における動作の一例を説明する。なお、ここでは、操作
者が楽しそうに「もしもし」と音声を発しているものと
して説明する。

【０２１６】まず、マイクＭ１から「もしもし」という
操作者の音声に対応する音声データが音声認識部１１お
よびデータ変換部６３に入力される。ここでは、音声認
識部１１から感情指定部１９ｂにおける処理と、データ
変換部６３における処理とが並行して行われることとな
るが、まず、音声認識部１１から感情指定部１９ｂにお
ける処理について説明し、続いてデータ変換部６３にお
ける処理について説明する。

【０２１７】音声認識部１１は、マイクＭ１から入力さ
れる音声データの特徴周波数成分を抽出し、その後、感
情指定部１９ｂにおいて、音声認識部１１において抽出
された音声データの特徴周波数成分に基づき、「楽」の
感情データ（ＡＦ）が指定され、その感情データ（Ａ
Ｆ）を音声・画像データ選択部７０に出力する。

【０２１８】一方、データ変換部６３は、マイクＭ１か
ら入力される音声データを「もしもし」という文字（テ
キスト）を示すテキストデータ（ＡＴ）に変換し、その
テキストデータ（ＡＴ）を音声・画像データ選択部７０
に出力する。

【０２１９】そして、音声・画像データ選択部７０は、
感情指定部１９ｂおよびデータ変換部６３から入力され
る感情データ（ＡＦ）およびテキストデータ（ＡＴ）に
対応するキャラクタ音声データを記憶部１４ｂに記憶さ
れるキャラクタ音声データベースから選択し、制御部２
０ｂに出力する。

【０２２０】その後、音声・画像データ選択部７０は、
音声−画像データベースからキャラクタ音声データに対
応するキャラクタ表情画像データを選択し、制御部２０
ｂに出力する。例えば、音声−画像データベースにおけ
るキャラクタ音声データとキャラクタ表情画像データと
の対応関係は、図５に示す上段の言語音と下段の画像デ
ータとの対応関係と同様な関係とすることができる。そ
して、このとき、音声・画像データ選択部７０は、
「楽」の感情データに対応し、かつ、「もしもし」とい
ったキャラクタ音声データに対応するキャラクタ表情画
像データとして、図５の下段に示す画像データを選択す
ることとなる。

【０２２１】そして、最終的に、制御部２０ｂの制御に
基づいて、スピーカＳ１によるキャラクタ音声データに
基づくキャラクタ音声の出力と、表示画面Ｄ１によるキ
ャラクタ表情画像データに基づくキャラクタ画像の表示
とを同期させるリップシンク処理が行われて、「もしも
し」というキャラクタ特有のキャラクタ音声と同期し
て、キャラクタ画像が表示画面Ｄ１上に表示される。こ
のときの模式図は第１実施形態において説明した図６に
示すようなものとなる。なお、ここでも第１実施形態に
おいて述べたように、紙面上では、動画を表現すること
も、キャラクタ特有のキャラクタ音声も表現することが
できないため、図６においては、便宜的に「もしもし」
のうちの「も」に対応するキャラクタの口形を示す画像
を示している。そして、ここでは、表示画面Ｄ１上に表
示されているキャラクタが動画となって、キャラクタが
自然に話をしているかのごとく感じさせることができ
る。

【０２２２】以上説明したように、第４実施形態のゲー
ム端末機器Ｇ４１〜Ｇ４４では、音声・画像データ選択
部７０において、感情を示す感情データと、テキストデ
ータとに基づいて、キャラクタ特有のキャラクタ音声デ
ータを選択して出力する。その結果、音声を発する人の
感情を反映したキャラクタ特有の口調を具現化すること
ができるため、テキストデータの入力に合わせて、音声
を発する人の顔を表示することなく、音声を発する人の
プライバシーを守りつつ、感情を伝達できる。

【０２２３】また、本実施形態では、制御部２０ｂの制
御のもとで、キャラクタ音声と、キャラクタ音声に対応
するキャラクタ画像とを同期させて出力する。その結
果、音声を発している人の化身としてキャラクタがあた
かも話しているかのごとく感じさせることができる。

【０２２４】また、通信ゲームシステム４では、データ
変換部６３などにおいて音声データをテキストデータ
（ＡＴ，ＢＴ）に変換して、そのテキストデータ（Ａ
Ｔ，ＢＴ）をネットワーク１００を介して送受信しつ
つ、そのテキストデータ（ＡＴ，ＢＴ）に基づいて、音
声・画像データ選択部７０でキャラクタ音声データやキ
ャラクタ表情画像データなどの選択処理を行う。このと
き、音声に起因する情報を示す音声関連データを音声の
周波数などを示す音声データではなく、テキストデータ
とすることで、音声関連データの容量を小さくしてい
る。その結果、音声・画像データ選択部７０におけるキ
ャラクタ表情画像データやキャラクタ音声データなどの
選択処理や、音声関連データの解析処理などの各種処理
速度を向上させることができる。また、音声関連データ
の入出力速度や送受信速度の向上なども図ることもでき
るため、音声を発する人が音声を発してからキャラクタ
画像やキャラクタ音声が出力されるまでの時間を短縮す
ることができる。

【０２２５】さらに、通信ゲームシステム４では、ネッ
トワーク１００を介して、相手側のゲーム端末機器Ｇ４
１〜Ｇ４４から送信されてきた感情データとテキストデ
ータとに基づいて、キャラクタ特有のキャラクタ音声デ
ータを選択して出力する。その結果、音声を発する通信
相手の感情を反映したキャラクタ特有の口調を具現化す
ることができるため、通信相手側における音声データな
どの音声関連データの入力などに合わせて、音声を発す
る通信相手の顔を表示することなく、音声を発する通信
相手のプライバシーを守りつつ、感情を伝達することが
できる。

【０２２６】特に、本実施形態では、音声をキャラクタ
特有の音声に変換するため、音声を発する人のプライバ
シーの保護も図ることができる。

【０２２７】＜５．変形例＞以上、この発明の実施形態
について説明したが、この発明は上記説明した内容のも
のに限定されるものではない。

【０２２８】◎例えば、上述した実施形態では、各ゲー
ム端末機器Ｇ１〜Ｇ４，Ｇ１１〜Ｇ１４，Ｇ３１〜Ｇ３
４，Ｇ４１〜Ｇ４４の操作者ごとに対応するキャラクタ
を設定し、そのキャラクタが操作者の音声に対応した表
情全体や口形を表現していたが、これに限られるもので
はなく、音声を発する操作者の感情の種類にそれぞれ対
応させた異なるキャラクタの画像データを画像データベ
ースに記憶し、音声を発する操作者の感情の種類にそれ
ぞれ対応させた異なるキャラクターをキャラクタ表情画
像データとして設定しても良い。このような構成とする
ことによって、操作者の話す様子を表すキャラクタの種
類が、操作者の話口調によって、種々変化するため、通
信相手に通信元の操作者の表情を含む話す様子をより分
かり易く伝えることができる。

【０２２９】すなわち、音声を発する操作者の感情の種
類にそれぞれ対応させたキャラクタを設定することによ
り、音声を発する人を表すキャラクタが、音声の調子な
どによって、種々変化する。その結果、音声を発する人
の表情を含む話す様子をより分かり易く表現することが
できる。

【０２３０】◎また、上述した実施形態では、キャラク
タ表情画像データは、平面画像や実際の人物などを表示
するための画像データであったが、これに限られるもの
ではなく、３次元コンピュータグラフィックスなどによ
る画像データであっても良い。このような構成とするこ
とにより、表示画面Ｄ１〜Ｄ４に表示されるキャラクタ
を３次元のコンピュータグラフィックスで表現するた
め、音声を発する人は好きな３Ｄキャラクタになりきる
ことができる。

【０２３１】◎また、上述した実施形態では、言語音デ
ータは、「あ」「い」「う」「え」「お」「ん」といっ
た５つの母音と「ん」の音を合わせた６つの言語音を示
していたが、これに限られるものではなく、「ぱ」
「ぷ」といった破裂音などの子音を含めたものであって
も良い。

【０２３２】◎また、上述した実施形態では、感情デー
タは、「喜」「怒」「哀」「楽」「普通」といった５つ
の感情を示していたが、これに限られるものではなく、
「苦」「驚愕」「疲労」「嘆き」といった他の感情を含
めたものであっても良い。

【０２３３】◎また、上述した第１実施形態では、記憶
部１４およびゲーム情報記憶部１５は、不揮発性の記憶
装置などであったが、これに限られるものではなく、第
１実施形態において記憶部１４およびゲーム情報記憶部
１５内に記憶されていたデータやプログラムに相当する
データやプログラムなどを記録媒体２２に格納し、これ
らのデータやプログラムなどをＩ／Ｆ２１を介して記録
媒体２２から制御部２０に読み出すものであっても良
い。

【０２３４】◎また、上述した第２実施形態では、ゲー
ム情報記憶部１５および記憶部１４は、不揮発性の記憶
装置などであったが、これに限られるものではなく、第
２実施形態においてゲーム情報記憶部１５および記憶部
１４内に記憶されていたデータやプログラムに相当する
データやプログラムなどをそれぞれ格納した記録媒体２
２，２２２に格納し、これらのデータやプログラムなど
をそれぞれＩ／Ｆ２１，２２１を介して、記録媒体２
２，２２２から制御部２０およびサーバ制御部２２０に
読み出すものであっても良い。

【０２３５】◎また、上述した第３および第４実施形態
では、ゲーム情報記憶部１５、および記憶部１４ａ，１
４ｂは不揮発性の記憶装置などであったが、これに限ら
れず、第３および第４実施形態においてゲーム情報記憶
部１５、および記憶部１４ａ，１４ｂ内に記憶されてい
た各種データやプログラムに相当するデータやプログラ
ムなどを光ディスクなどの記録媒体２２に格納し、記録
媒体２２に記憶されるデータやプログラムなどをそれぞ
れＩ／Ｆ２１を介して、記録媒体２２から制御部２０，
２０ｂに読み出すようなものとしても良い。

【０２３６】◎また、上述した第２実施形態では、出力
音声データ（Ａ２，Ｂ２）およびゲーム情報（Ａ３，Ｂ
３）を、ゲーム端末機器Ｇ１１〜Ｇ１４の間で相互に直
接送受信していたが、これに限られるものではなく、出
力音声データ（Ａ２，Ｂ２）およびゲーム情報（Ａ３，
Ｂ３）を、サーバ２００を経由して相互に送受信するよ
うにしても良い。

【０２３７】◎また、上述した第３実施形態では、各ゲ
ーム端末機器Ｇ３１〜Ｇ３４において、感情データ（Ａ
Ｆ，ＢＦ）と言語音データ（ＡＳ，ＢＳ）とに対応する
キャラクタ表情画像データを選択したが、これに限られ
るものではなく、例えば、ネットワーク１００に感情デ
ータ（ＡＦ，ＢＦ）と言語音データ（ＡＳ，ＢＳ）とに
対応するキャラクタ表情画像データを選択することがで
きるサーバを設けるようなものであっても良い。

【０２３８】なお、サーバを設けた構成では、サーバは
各ゲーム端末機器Ｇ３１〜Ｇ３４からネットワーク１０
０を介して感情データ（ＡＦ，ＢＦ）と言語音データ
（ＡＳ，ＢＳ）とを受信して、感情データ（ＡＦ，Ｂ
Ｆ）と言語音データ（ＡＳ，ＢＳ）とに対応するキャラ
クタ表情画像データを選択し、選択したキャラクタ表情
画像データを各ゲーム端末機器Ｇ３１〜Ｇ３４にネット
ワーク１００を介して送信することができる。

【０２３９】その結果、各ゲーム端末機器Ｇ３１〜Ｇ３
４には、感情データ（ＡＦ，ＢＦ）と言語音データ（Ａ
Ｓ，ＢＳ）とに対応するキャラクタ表情画像データを選
択するための画像データ選択部１３や画像データベース
などが不要となるため、各ゲーム端末機器Ｇ３１〜Ｇ３
４の小型化ならびにコスト低減を図ることができる。

【０２４０】◎また、上述した第４実施形態では、各ゲ
ーム端末機器Ｇ４１〜Ｇ４４において、感情データ（Ａ
Ｆ，ＢＦ）とテキストデータ（ＡＴ，ＢＴ）とに対応す
るキャラクタ音声データを選択し、さらに、キャラクタ
音声データに対応するキャラクタ表情画像データを選択
したが、これに限られるものではなく、例えば、ネット
ワーク１００に感情データ（ＡＦ，ＢＦ）とテキストデ
ータ（ＡＴ，ＢＴ）とに対応するキャラクタ音声データ
を選択し、さらに、キャラクタ音声データに対応するキ
ャラクタ表情画像データを選択可能なサーバを設けるよ
うなものであっても良い。

【０２４１】なお、サーバを設けた構成では、サーバは
各ゲーム端末機器Ｇ４１〜Ｇ４４からネットワーク１０
０を介して感情データ（ＡＦ，ＢＦ）とテキストデータ
（ＡＴ，ＢＴ）とを受信して、感情データ（ＡＦ，Ｂ
Ｆ）とテキストデータ（ＡＴ，ＢＴ）とに対応するキャ
ラクタ音声データを選択し、さらに、キャラクタ音声デ
ータに対応するキャラクタ表情画像データを選択して、
選択したキャラクタ音声データとキャラクタ表情画像デ
ータとを各ゲーム端末機器Ｇ４１〜Ｇ４４にネットワー
ク１００を介して送信することができる。

【０２４２】その結果、各ゲーム端末機器Ｇ４１〜Ｇ４
４には、感情データ（ＡＦ，ＢＦ）とテキストデータ
（ＡＴ，ＢＴ）とに対応するキャラクタ音声データおよ
びキャラクタ表情画像データを選択するための音声・画
像データ選択部７０やキャラクタ音声データベースや音
声−画像データベースなどが不要となるため、各ゲーム
端末機器Ｇ４１〜Ｇ４４の小型化ならびにコスト低減を
図ることができる。

【０２４３】◎また、上述した第３および第４実施形態
のゲーム端末機器Ｇ３１〜Ｇ３４，Ｇ４１〜Ｇ４４で
は、音声認識部１１、音声分類部１２ａ、画像データ選
択部１３、音声加工部１６、顔検出部１７、表情分析部
１８、感情指定部１９，１９ｂ、データ変換部６３、お
よび音声・画像データ選択部７０などの構成は、専用の
電子回路により構築されているが、これに限られるもの
ではなく、これらの構成において実行されるデータ処理
および演算処理を、主にＣＰＵから構成される制御部２
０，２０ｂにおいて、ゲーム情報記憶部１５内のプログ
ラムに従って実施するようにしても良い。

【０２４４】◎また、上述した第３実施形態では、マイ
クＭ１〜Ｍ４から入力される音声データを音声加工部１
６において異なる音声データである出力音声データ（Ａ
２，Ｂ２）に変換して、変換された出力音声データ（Ａ
２，Ｂ２）に基づく音声をスピーカＳ１〜Ｓ４によって
出力したが、これに限られるものではなく、例えば、第
４実施形態と同様に、音声データやテキストデータなど
の音声に起因する情報と感情とに対応する、キャラクタ
特有のキャラクタ音声データを記憶するキャラクタ音声
データベースを記憶部１４ａに格納し、マイクＭ１〜Ｍ
４から入力される音声データを対応するテキストデータ
（ＡＴ，ＢＴ）に変換し、感情データ（ＡＦ，ＢＦ）と
テキストデータ（ＡＴ，ＢＴ）とに対応するキャラクタ
音声データ（ＡＶ，ＢＶ）をキャラクタ音声データベー
スから選択して、選択されたキャラクタ音声データ（Ａ
Ｖ，ＢＶ）に基づくキャラクタ音声をスピーカＳ１〜Ｓ
４によって出力するようなものとしても良い。

【０２４５】このとき、感情を示す感情データと、音声
データやテキストデータなどの音声に起因する情報示す
音声関連データとに基づいて、キャラクタ音声データを
選択し、キャラクタ画像の表示とキャラクタ特有のキャ
ラクタ音声の出力とを同期させるため、音声を発してい
る人の化身としてキャラクタがあたかも話しているかの
ごとく感じさせることができる。

【０２４６】◎また、上述した第１実施形態から第３実
施形態では、ゲーム端末機器Ｇ１〜Ｇ４，Ｇ１１〜Ｇ１
４，Ｇ３１〜Ｇ３４は、出力音声データ（Ａ２，Ｂ２）
を送受信等していたが、これに限られるものではなく、
例えば、ゲーム端末機器Ｇ１〜Ｇ４，Ｇ１１〜Ｇ１４，
Ｇ３１〜Ｇ３４において、音声データをテキストデータ
に変換して、送受信などするようにしても良い。

【０２４７】なお、このとき、各ゲーム端末機器Ｇ１〜
Ｇ４，Ｇ１１〜Ｇ１４，Ｇ３１〜Ｇ３４には、音声デー
タをテキストデータに変換する部位、および受信したテ
キストデータを音声データに変換する部位が必要とな
る。しかし、出力音声データ（Ａ２，Ｂ２）に比べてテ
キストデータに変換した方が音声関連データの容量を小
さくすることができるため、キャラクタ表情画像データ
やキャラクタ音声データなどの選択処理や、音声関連デ
ータの解析処理などの各種処理速度を向上させることが
できる。また、音声関連データの入出力および送受信速
度の向上なども図ることもできるため、通信相手または
操作者などが音声を発してから音声が出力されるまでの
時間を短縮することができる。

【０２４８】◎また、上述した第４実施形態では、キャ
ラクタ音声データに対応するキャラクタ表情画像データ
を音声−画像データベースから選択したが、これに限ら
れるものではなく、例えば、第３実施形態と同様に、音
声に起因する言語音や文字列（テキスト）などの情報と
感情とに対応する、キャラクタの表情全体と口形とを含
むキャラクタ表情画像データを記憶する画像データベー
スを記憶部１４ｂに格納し、音声・画像データ選択部７
０が、感情データと音声に起因する言語音やテキストな
どの情報を示す音声関連データとに対応するキャラクタ
表情画像データを画像データベースから選択して、出力
するような構成としても良い。

【０２４９】すなわち、感情を示す感情データと音声デ
ータやテキストデータなどの音声に関する情報示す音声
関連データとに基づいて、キャラクタの表情全体と口形
とを含むキャラクタ表情画像データを選択し、キャラク
タ表情画像データに基づくキャラクタ画像の表示とキャ
ラクタ音声の出力とを同期させても良い。このような構
成とすることによって、音声を発している人の化身とし
てキャラクタがあたかも話しているかのごとく感じさせ
ることができる。

【０２５０】◎また、上述した第４実施形態では、記憶
部１４ｂに格納されるキャラクタ音声データベースが、
テキストデータと感情とキャラクタ音声データとを対応
付けたデータベースとなっているが、これに限られるも
のではなく、例えば、操作者の発する音声をテキストデ
ータに変換せず、キャラクタ音声データベースを、音声
の周波数などを示す音声データと感情とキャラクタ音声
データとを関連付けたデータベースとし、音声・画像デ
ータ選択部７０が、音声データと感情データ（ＡＦ，Ｂ
Ｆ）とに対応するキャラクタ音声データ（ＡＶ，ＢＶ）
を選択するようにしても良い。

【０２５１】

【発明の効果】以上説明したように、請求項１の発明に
よれば、入力される音声から音声を発する人の感情と発
声した言語音とを認識し、この感情および言語音に対応
する表情全体および口形を含む画像データを出力するこ
とによって、表情を含めた音声を発する人が話す様子
を、表示画面において表示されるキャラクタを通じて表
現することができ、また、音声を発する人は、表示画面
に表示されるキャラクタになりきることなどもできる。

【０２５２】また、請求項２の発明によれば、入力され
る音声に対応する音声データを分類した結果である基準
音声データを通信先に送信することにより、通信先の表
示画面に表示されるキャラクタを通じて、操作者などの
表情を含めた話す様子を通信先の相手に伝達することが
できるため、相手に素顔を知られることなく、感情を伝
達することができる。

【０２５３】また、請求項３の発明によれば、表示画面
において表示されるキャラクタの顔全体の表情および口
形と、スピーカから発せられる音声とを、同期させて表
現することができるため、声と感情を伝えることがで
き、さらに、表示画面に表示されるキャラクタがあたか
も話しているかのごとく感じさせることができる。

【０２５４】また、請求項４の発明によれば、入力され
る音声データを異なる音声データに変換することによっ
て、操作者などの声に種々の効果を付与して、少し異な
る声などにすることで、表示画面に表示されるキャラク
タになりきることや、プライバシーの保護などを図るこ
とが可能となる。

【０２５５】また、請求項５の発明によれば、通信先の
通信端末から受信した、言語音データと感情データとを
含む基準音声データに対応する表情全体および口形を含
む画像データを出力することによって、表情を含めた通
信相手が話す様子を表示画面において表示されるキャラ
クタを通じて表現することができるため、通信相手の素
顔を見ることなく、通信相手の感情を認識することがで
きる。

【０２５６】また、請求項６の発明によれば、表示画面
に表示されるキャラクタの顔全体の表情および口形と、
スピーカから発せられる音声とを、同期させて表現する
ことができるため、表示画面に表示されるキャラクタが
あたかも話しているかのごとく感じさせることができ
る。

【０２５７】また、請求項７の発明によれば、通信端末
ごとに対応する話す様子を表すキャラクタの種類が異な
ることによって、表示画面に表示される各通信端末の操
作者などに対応するキャラクタをそれぞれ特定すること
が容易にでき、また、各通信端末の操作者などが特定の
キャラクタになったものと感じることができる。

【０２５８】また、請求項８の発明によれば、基準音声
データが５つの母音に対応する言語音データを備えるこ
とにより、表示画面に表示されるキャラクタが自然に話
しをしているかのごとく感じさせることができる。

【０２５９】また、請求項９から請求項１７の発明によ
れば、音声を発する人の顔を表示することなく、音声デ
ータやテキストデータなどの音声に起因する情報を示す
音声関連データなどの入力に合わせて、音声を発する人
の顔を表示することなく、音声を発する人のプライバシ
ーを守りつつ、感情の伝達が可能な画像作成装置を提供
することができる。

【０２６０】特に、請求項９の発明によれば、感情を示
すデータと、音声データやテキストデータなどの音声関
連データとに基づいて、キャラクタの表情全体と口形と
を含む画像データを選択して出力するため、音声を発す
る人の感情を反映したキャラクタの画像を表示すること
ができる。

【０２６１】また、請求項１０の発明によれば、音声関
連データを解析することで得られる感情を示すデータ
と、音声を発する人の音声を発した際の顔に係る画像デ
ータを解析することで得られる感情を示すデータとの双
方に基づいて感情を示すデータを指定するため、音声関
連データと顔に係る画像データの状況に応じて、音声を
発する人の感情をより正確に反映させたキャラクタ画像
を表示することができる。

【０２６２】また、請求項１１の発明によれば、音声を
発する人の音声を発した際の顔に係る画像データを解析
することで得られる表情感情データを、所定時での顔の
構成要素の位置と、音声を発した時の顔の構成要素の位
置との差分に基づいて指定することによって、通信相手
の機器などでは表情感情データを指定するための部位が
不要となるため、通信相手の機器などの小型化を図るこ
とができる。また、顔などに係る画像データよりも、顔
の構成要素の位置を示すデータの方が容量を小さくでき
るため、表情感情データを指定するためのデータの送信
時間などを短縮することができる。したがって、通信相
手が音声を発してから感情の伝達に至るまでの時間を短
縮することができる。

【０２６３】また、請求項１２の発明によれば、キャラ
クタ画像の表示と音声の出力とを同期させることによっ
て、キャラクタが音声を発している人の感情を表現しつ
つ、音声を発している人の代わりに話しているように感
じさせることができる。

【０２６４】また、請求項１３の発明によれば、感情を
示すデータと、音声データやテキストデータなどの音声
関連データとに基づいて、キャラクタ音声データを選択
し、キャラクタ画像の表示とキャラクタ特有の音声の出
力とを同期させることによって、音声を発している人の
化身としてキャラクタがあたかも話しているかのごとく
感じさせることができる。

【０２６５】また、請求項１４の発明によれば、音声関
連データをテキストデータとすることによって、音声関
連データの容量を小さくすることができるため、キャラ
クタ画像データやキャラクタ音声データなどの選択処理
や、音声関連データの解析処理などの各種処理速度を向
上させることができる。また、音声関連データの入出力
および送受信速度の向上なども図ることもできるため、
通信相手または操作者などが音声を発してから音声が出
力されるまでの時間を短縮することができる。

【０２６６】また、請求項１５の発明によれば、表示画
面に表示されるキャラクタを３次元のコンピュータグラ
フィックスで表現することによって、音声を発する人は
好きな３Ｄキャラクタになりきることができる。

【０２６７】また、請求項１６の発明によれば、キャラ
クタ画像データに、実在する人物を実写することによっ
て取得された画像データを含めることによって、表示画
面に表示されるキャラクタを実在する人で表現すること
ができるため、音声を発する人は、実在する人物になり
きることができる。

【０２６８】また、請求項１７の発明によれば、１つの
キャラクタに関して、音声を発する人の感情に対応させ
た表情を備えることにより、表示画面に表示される１つ
のキャラクタが、音声を発する人の感情に対応した表情
を表現するため、音声を発する人は１つのキャラクタに
なりきることができる。

【０２６９】また、請求項１８の発明によれば、音声を
発する人の感情の種類にそれぞれ対応させた異なるキャ
ラクタについてのキャラクタ画像データを備えることに
より、音声を発する人を表すキャラクタの種類が、音声
の調子などによって、種々変化するため、音声を発する
人の表情を含む話す様子をより分かり易く表現すること
ができる。

【０２７０】また、請求項１９の発明によれば、請求項
１から請求項１８に記載の発明と同様の効果を得ること
ができる。

【０２７１】また、請求項２０から請求項２４の発明に
よれば、感情を示すデータと、音声データやテキストデ
ータなどの音声関連データとに基づいて、キャラクタ特
有のキャラクタ音声データを選択して出力することによ
って、音声を発する人の感情を反映したキャラクタ特有
の口調を具現化することができるため、音声データやテ
キストデータなどの音声関連データなどの入力に合わせ
て、音声を発する人の顔を表示することなく、音声を発
する人のプライバシーを守りつつ、感情の伝達が可能な
音声生成装置を提供することができる。特に、音声をキ
ャラクタ特有の音声に変換するため、音声を発する人の
プライバシーの保護も図ることができる。

【０２７２】特に、請求項２１の発明によれば、キャラ
クタ音声と、キャラクタ音声に対応するキャラクタ画像
とを同期させて出力させることによって、音声を発して
いる人の化身としてキャラクタがあたかも話しているか
のごとく感じさせることができる。

【０２７３】また、請求項２２の発明によれば、感情を
示す感情データと音声データやテキストデータなどの音
声関連データとに基づいて、キャラクタの表情全体と口
形とを含むキャラクタ画像データを選択し、キャラクタ
画像データに基づくキャラクタ画像の表示とキャラクタ
音声の出力とを同期させることによって、音声を発して
いる人の化身としてキャラクタがあたかも話しているか
のごとく感じさせることができる。

【０２７４】また、請求項２３の発明によれば、音声関
連データをテキストデータとすることによって、音声関
連データの容量を小さくすることができるため、キャラ
クタ表情画像データやキャラクタ音声データなどの選択
処理や、音声関連データの解析処理などの各種処理速度
を向上させることができる。また、音声関連データの入
出力速度や送受信速度の向上なども図ることもできるた
め、音声を発する人が音声を発してからキャラクタ画像
やキャラクタ音声が出力されるまでの時間を短縮するこ
とができる。

【０２７５】また、請求項２４の発明によれば、請求項
２０から請求項２３に記載の発明と同様の効果を得るこ
とができる。

【０２７６】また、請求項２５の発明によれば、言語音
と感情とに対応するキャラクタの表情全体と口形とを含
む画像データを記憶するデータベースを備え、受信した
音声関連データが示す感情および言語音に対応する表情
全体および口形を含むキャラクタ画像データを選択し
て、通信端末に送信することにより、通信端末の表示画
面に、音声データから認識される感情および言語音に対
応する表情全体および口形を含むキャラクタ画像データ
に基づく画像を表示することができるため、表示画面に
表示されるキャラクタを通じて、音声を発した人が話す
様子を表情を含めて表現することができる。

【０２７７】また、請求項２６の発明によれば、請求項
２５に記載の発明と同様の効果を得ることができる。

【０２７８】また、請求項２７の発明によれば、請求項
１９、請求項２４、および請求項２６に記載の発明と同
様の効果を得ることができる。

【０２７９】また、請求項２８の発明によれば、通信回
線を介して、相手側の通信端末から送信されてきた、音
声を発する通信相手の感情を示すデータと、音声データ
やテキストデータなどの音声関連データとに基づいて、
キャラクタの表情全体と口形とを含むキャラクタ画像デ
ータを選択して出力するため、音声データやテキストデ
ータなどの音声関連データなどの入力に合わせて、音声
を発する通信相手の顔を表示することなく、音声を発す
る通信相手のプライバシーを守りつつ、感情の伝達が可
能な画像作成システムを提供することができる。

【０２８０】また、請求項２９の発明によれば、通信端
末ごとに対応する話す様子を表すキャラクタの種類が異
なることによって、表示画面に表示される各通信端末の
操作者などに対応するキャラクタをそれぞれ特定するこ
とが容易にでき、また、各通信端末の操作者などが特定
のキャラクタになったものと感じることができる。

【０２８１】また、請求項３０の発明によれば、通信回
線を介して、相手側の通信端末から送信されてきた音声
を発する通信相手の感情を示すデータと、音声データや
テキストデータなどの音声関連データとに基づいて、キ
ャラクタ特有のキャラクタ音声データを選択して出力す
ることによって、音声を発する通信相手の感情を反映し
たキャラクタ特有の口調を具現化することができるた
め、通信相手側における音声データやテキストデータな
どの音声関連データなどの入力に合わせて、音声を発す
る通信相手の顔を表示することなく、音声を発する通信
相手のプライバシーを守りつつ、感情を伝達できる。特
に、音声をキャラクタ特有の音声に変換するため、通信
相手のプライバシーの保護も図ることができる。

【図面の簡単な説明】

【図１】本発明に係る第１実施形態の通信ゲームシステ
ムの概要を示す図である。

【図２】第１実施形態の通信ゲームシステムの通信形態
を説明する図である。

【図３】言語音データに対応するキャラクタ表情画像デ
ータの一例を説明する図である。

【図４】感情データに対応するキャラクタ表情画像デー
タの一例を説明する図である。

【図５】音声に基づいてキャラクタ表情画像データが変
化する様子を示す図である。

【図６】キャラクタ画像が表示画面Ｄ１上に表示される
際の模式図である。

【図７】本発明の第２実施形態に係る通信ゲームシステ
ムの概要を説明する図である。

【図８】第２実施形態の通信ゲームシステムの通信形態
を説明する図である。

【図９】本発明の第３実施形態に係る通信ゲームシステ
ムの概要を説明する図である。

【図１０】本発明の第４実施形態に係る通信ゲームシス
テムの概要を説明する図である。

【符号の説明】

３，４通信ゲームシステム１１音声認識部１２，１２ａ音声分類部１３画像データ選択部１４，１４ａ，１４ｂ記憶部１６音声加工部１７顔検出部１８表情分析部１９，１９ｂ感情指定部２０，２０ｂ制御部２２，２２２記録媒体３０，２３０通信部７０音声・画像データ選択部２００サーバ２２０サーバ制御部Ｃ１〜Ｃ４カメラＤ１〜Ｄ４表示画面Ｇ１〜Ｇ４，Ｇ１１〜Ｇ１４，Ｇ３１〜Ｇ３４，Ｇ４１
〜Ｇ４４ゲーム端末機器Ｍ１〜Ｍ４マイクＳ１〜Ｓ４スピーカ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ａ６３Ｆ 13/12 Ａ６３Ｆ 13/12 ＣＧ０６Ｆ 3/16 ３２０Ｇ０６Ｆ 3/16 ３２０ＨＧ１０Ｌ 13/00 Ｇ１０Ｌ 3/00 ５５１Ｈ 15/00 ５３１Ｎ 15/10 ５７１Ｔ 15/22 Ｒ 19/00 Ｎ５３１Ｚ (72)発明者杉本隆大阪市淀川区宮原４丁目１番６号株式会社メガチップス内 (72)発明者長谷川弘大阪市淀川区宮原４丁目１番６号株式会社メガチップス内Ｆターム(参考） 2C001 BA03 BB10 BC05 BC08 BC09 BC10 CA00 CA07 CB08 CC00 CC08 CC09 DA06 5B050 AA08 BA08 BA12 EA24 FA02 FA10 5D015 AA06 JJ01 KK02 5D045 AB11

Claims

【特許請求の範囲】

【請求項１】アニメーションデータを作成する画像作
成装置であって、入力される音声に対応する音声データ
を受け取り、前記音声データの周波数を解析することに
より前記音声データの特徴周波数成分を抽出する音声認
識手段と、前記音声データを前記特徴周波数成分に基づいて、言語
音データと感情データとを含む予め設定された基準音声
データに分類する音声分類手段と、前記基準音声データと対応する、キャラクタの表情全体
と口形とを含むキャラクタ画像データを記憶する画像デ
ータベースと、前記音声分類手段による分類結果である基準音声データ
に対応するキャラクタ画像データを前記画像データベー
スから選択する画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを出力する画像データ出力手段と、を備える
ことを特徴とする画像作成装置。
【請求項２】請求項１に記載の画像作成装置であっ
て、当該画像作成装置は通信回線に接続された通信端末とし
て構成されており、前記音声分類手段による分類結果である基準音声データ
を指定された通信先の通信端末に送信する通信手段、を
さらに備えることを特徴とする画像作成装置。
【請求項３】請求項１または請求項２に記載の画像作
成装置であって、前記入力される音声に基づいた出力音声データを出力す
る音声データ出力手段と、前記画像データ出力手段から出力されるキャラクタ画像
データに基づく画像の表示と、前記音声データ出力手段
から出力される出力音声データに基づく音声の出力とを
同期させる手段と、を備えることを特徴とする画像作成
装置。
【請求項４】請求項３に記載の画像作成装置であっ
て、前記入力される音声に対応する音声データを異なる音声
データである前記出力音声データに変換する音声変換手
段をさらに備えることを特徴とする画像作成装置。
【請求項５】アニメーションデータを作成する画像作
成装置であって、当該画像作成装置は通信回線に接続された通信端末とし
て構成されており、言語音データと感情データとを含む予め設定された基準
音声データに対応する、キャラクタの表情全体と口形と
を含むキャラクタ画像データを記憶する画像データベー
スと、入力される音声に対応する音声データに基づいた基準音
声データを通信先の通信端末から受信する受信手段と、前記受信手段によって受信された基準音声データに対応
するキャラクタ画像データを前記画像データベースから
選択する画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを出力する画像データ出力手段と、を備える
ことを特徴とする画像作成装置。
【請求項６】請求項５に記載の画像作成装置であっ
て、前記入力される音声に基づいた出力音声データを出力す
る音声データ出力手段と、前記画像データ出力手段から出力されるキャラクタ画像
データに基づく画像の表示と、前記音声データ出力手段
から出力される出力音声データに基づく音声の出力とを
同期させる手段と、をさらに備えることを特徴とする画
像作成装置。
【請求項７】請求項５または請求項６に記載の画像作
成装置であって、通信端末ごとに対応する前記キャラクタの種類がそれぞ
れ異なることを特徴とする画像作成装置。
【請求項８】請求項１から請求項７のいずれかに記載
の画像作成装置であって、前記基準音声データは、５つの母音に対応する言語音デ
ータを備えることを特徴とする画像作成装置。
【請求項９】アニメーションデータを作成する画像作
成装置であって、音声に起因する情報を示す音声関連データを入力する音
声関連データ入力手段と、前記音声を発する人の前記音声を発した際の感情を示す
感情データを入力する感情データ入力手段と、前記音声に起因する情報と前記感情とに対応する、キャ
ラクタの表情全体と口形とを含むキャラクタ画像データ
を記憶する画像データベースと、前記音声関連データと、前記感情データとに対応するキ
ャラクタ画像データを前記画像データベースから選択す
る画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを出力する画像データ出力手段と、を備える
ことを特徴とする画像作成装置。
【請求項１０】請求項９に記載の画像作成装置であっ
て、前記音声関連データを解析することによって得られる感
情を示す音声感情データを入力する音声感情データ入力
手段と、前記音声を発する人の前記音声を発した際の顔に係る顔
画像データを解析することによって得られる感情を示す
表情感情データを入力する表情感情データ入力手段と、前記音声感情データと前記表情感情データとに基づい
て、前記感情データ入力手段に入力される前記感情デー
タを指定する感情データ指定手段と、をさらに備えるこ
とを特徴とする画像作成装置。
【請求項１１】請求項１０に記載の画像作成装置であ
って、前記音声を発する人の所定時における顔の構成要素の位
置と、前記音声を発する人の前記音声を発した時におけ
る顔の構成要素の位置との差分に基づいて、前記表情感
情データ入力手段に入力される前記表情感情データを指
定する表情感情データ指定手段、をさらに備えることを
特徴とする画像作成装置。
【請求項１２】請求項９から請求項１１のいずれかに
記載の画像作成装置であって、前記音声関連データに基づいた出力音声データを出力す
る音声データ出力手段と、前記画像データ出力手段から出力されるキャラクタ画像
データに基づくキャラクタ画像の表示と、前記音声デー
タ出力手段から出力される出力音声データに基づく音声
の出力とを同期させる手段と、をさらに備えることを特
徴とする画像作成装置。
【請求項１３】請求項１２に記載の画像作成装置であ
って、音声に起因する情報と感情とに対応する、キャラクタ特
有のキャラクタ音声データを記憶するキャラクタ音声デ
ータベースと、前記音声関連データと前記感情データとに対応するキャ
ラクタ音声データを前記キャラクタ音声データベースか
ら選択する音声データ選択手段と、をさらに備え、前記音声データ出力手段が、前記音声データ選択手段によって選択されたキャラクタ
音声データを出力することを特徴とする画像作成装置。
【請求項１４】請求項９から請求項１３のいずれかに
記載の画像作成装置であって、前記音声関連データが、音声に起因するテキストデータであることを特徴とする
画像作成装置。
【請求項１５】請求項１から請求項１４のいずれかに
記載の画像作成装置であって、前記キャラクタ画像データは、３次元コンピュータグラ
フィックスによる画像データを含むことを特徴とする画
像作成装置。
【請求項１６】請求項１から請求項１４のいずれかに
記載の画像作成装置であって、前記キャラクタ画像データは、実在する人物を実写する
ことによって取得された画像データを含むことを特徴と
する画像作成装置。
【請求項１７】請求項１から請求項１６のいずれかに
記載の画像作成装置であって、前記画像データベースは、１つのキャラクタに関して、
前記感情データの種類にそれぞれ対応する、キャラクタ
の表情全体を含むキャラクタ画像データを備えることを
特徴とする画像作成装置。
【請求項１８】請求項１から請求項１６のいずれかに
記載の画像作成装置であって、前記画像データベースは、前記感情データの種類にそれ
ぞれ対応させた異なるキャラクタについてのキャラクタ
画像データを備えることを特徴とする画像作成装置。
【請求項１９】画像作成装置に含まれるコンピュータ
によって実行されることにより、前記画像作成装置を、
請求項１から請求項１８のいずれかに記載の画像作成装
置として機能させるプログラム。
【請求項２０】音声データを生成する音声生成装置で
あって、音声に起因する情報を示す音声関連データを入力する音
声関連データ入力手段と、前記音声を発する人の前記音声を発した際の感情を示す
感情データを入力する感情データ入力手段と、前記音声に起因する情報と前記感情とに対応する、キャ
ラクタ特有のキャラクタ音声データを記憶するキャラク
タ音声データベースと、前記音声関連データと前記感情データとに対応するキャ
ラクタ音声データを前記キャラクタ音声データベースか
ら選択する音声データ選択手段と、前記音声データ選択手段によって選択されたキャラクタ
音声データを出力する音声データ出力手段と、を備える
ことを特徴とする音声生成装置。
【請求項２１】請求項２０に記載の音声生成装置であ
って、前記キャラクタ音声データに対応する、キャラクタの表
情全体と口形とを含むキャラクタ画像データを記憶する
画像データベースと、前記音声データ選択手段によって選択されたキャラクタ
音声データに対応するキャラクタ画像データを前記画像
データベースから選択する画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを出力する画像データ出力手段と、前記画像データ出力手段から出力されるキャラクタ画像
データに基づくキャラクタ画像の表示と、前記音声デー
タ出力手段から出力されるキャラクタ音声データに基づ
くキャラクタ音声の出力とを同期させる手段と、をさら
に備えることを特徴とする音声生成装置。
【請求項２２】請求項２０に記載の音声生成装置であ
って、音声に起因する情報と感情とに対応する、キャラクタの
表情全体と口形とを含むキャラクタ画像データを記憶す
る画像データベースと、前記音声関連データと前記感情データとに対応するキャ
ラクタ画像データを前記画像データベースから選択する
画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを出力する画像データ出力手段と、前記画像データ出力手段から出力されるキャラクタ画像
データに基づくキャラクタ画像の表示と、前記音声デー
タ出力手段から出力されるキャラクタ音声データに基づ
くキャラクタ音声の出力とを同期させる手段と、を備え
ることを特徴とする音声生成装置。
【請求項２３】請求項２０から請求項２２のいずれか
に記載の音声生成装置であって、前記音声関連データが、音声に起因するテキストデータであることを特徴とする
音声生成装置。
【請求項２４】音声生成装置に含まれるコンピュータ
によって実行されることにより、前記音声生成装置を、
請求項２０から請求項２３のいずれかに記載の音声生成
装置として機能させるプログラム。
【請求項２５】アニメーションデータを作成する画像
作成システムにおいて使用される画像作成用サーバであ
って、言語音データと感情データとを含む予め設定された基準
音声データに対応する、キャラクタの表情全体と口形と
を含むキャラクタ画像データを記憶する画像データベー
スと、入力される音声に対応する音声データに基づいた基準音
声データを受信する受信手段と、前記受信手段によって受信された基準音声データに対応
するキャラクタ画像データを前記画像データベースから
選択する画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを通信回線を介して送信する送信手段と、を
備えることを特徴とする画像作成用サーバ。
【請求項２６】サーバに含まれるコンピュータによっ
て実行されることにより、前記サーバを、請求項２５に
記載のサーバとして機能させるプログラム。
【請求項２７】請求項１９、請求項２４および請求項
２６のいすれかに記載されたプログラムを記録してある
ことを特徴とする、コンピュータ読み取り可能な記録媒
体。
【請求項２８】アニメーションデータを作成する画像
作成システムであって、通信回線と、前記通信回線を介して接続された第１および第２の通信
端末と、を備え、前記第１の通信端末が、音声に起因する情報を示す音声関連データを前記通信回
線を介して前記第２の通信端末に送信する音声関連デー
タ送信手段と、前記音声を発する人の前記音声を発した際の感情を示す
感情データを前記通信回線を介して前記第２の通信端末
に送信する感情データ送信手段と、を有し、前記第２の通信端末が、前記音声関連データを受信する音声関連データ受信手段
と、前記感情データを受信する感情データ受信手段と、音声に起因する情報と感情とに対応する、キャラクタの
表情全体と口形とを含むキャラクタ画像データを記憶す
る画像データベースと、前記感情データと前記音声関連データとに対応するキャ
ラクタ画像データを前記画像データベースから選択する
画像データ選択手段と、前記画像データ選択手段によって選択されたキャラクタ
画像データを出力する画像データ出力手段と、を有する
ことを特徴とする画像作成システム。
【請求項２９】請求項２８に記載の画像作成システム
であって、通信端末ごとに対応する前記キャラクタの種類がそれぞ
れ異なることを特徴とする画像作成システム。
【請求項３０】音声データを生成する音声生成システ
ムであって、通信回線と、前記通信回線を介して接続された第１および第２の通信
端末と、を備え、前記第１の通信端末が、音声に起因する情報を示す音声関連データを前記通信回
線を介して前記第２の通信端末に送信する音声関連デー
タ送信手段と、前記音声を発する人の前記音声を発した際の感情を示す
感情データを前記通信回線を介して前記第２の通信端末
に送信する感情データ送信手段と、を有し、前記第２の通信端末が、前記音声関連データを受信する音声関連データ受信手段
と、前記感情データを受信する感情データ受信手段と、音声に起因する情報と感情とに対応する、キャラクタ特
有のキャラクタ音声データを記憶するキャラクタ音声デ
ータベースと、前記音声関連データと前記感情データとに対応するキャ
ラクタ音声データを前記キャラクタ音声データベースか
ら選択する音声データ選択手段と、前記音声データ選択手段によって選択されたキャラクタ
音声データを出力する音声データ出力手段と、を有する
ことを特徴とする音声生成システム。