JP2003248837A - 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体 - Google Patents

画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体

Info

Publication number
JP2003248837A
JP2003248837A JP2002322340A JP2002322340A JP2003248837A JP 2003248837 A JP2003248837 A JP 2003248837A JP 2002322340 A JP2002322340 A JP 2002322340A JP 2002322340 A JP2002322340 A JP 2002322340A JP 2003248837 A JP2003248837 A JP 2003248837A
Authority
JP
Japan
Prior art keywords
data
voice
character
image
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002322340A
Other languages
English (en)
Inventor
Masayasu Yamamoto
正育 山本
Atsushi Yasunaka
篤 安中
Takashi Sugimoto
杉本  隆
Hiroshi Hasegawa
弘 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MegaChips Corp
Original Assignee
MegaChips Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MegaChips Corp filed Critical MegaChips Corp
Priority to JP2002322340A priority Critical patent/JP2003248837A/ja
Publication of JP2003248837A publication Critical patent/JP2003248837A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声を発する人の顔を表示することなく、音
声データの入力に合わせて、音声を発する人のプライバ
シーを守りつつ、感情の伝達が可能な技術を提供するこ
とを目的とする。 【解決手段】 音声認識部11でマイクM1より入力さ
れる音声データの特徴周波数成分を抽出し、音声分類部
12で言語音データと感情データとを含む予め設定され
た基準音声データに分類する。そして、画像データ選択
部13で基準音声データに対応するキャラクタ表情画像
データを記憶部14から選択し、画像を表示画面D1に
表示する。一方、音声加工部16でマイクM1から入力
される音声データを変換してスピーカS1から音声を発
する。このとき、制御部20の制御の下で、画像表示と
音声出力とを同期させる。この画像表示と音声出力は通
信先のゲーム端末機器G2〜G4でも同様に実施可能で
ある。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声データの入力
に合わせて、アニメーションデータの作成や音声データ
の生成を実行する技術に関する。
【0002】
【従来の技術】従来、通信ゲームシステムなどにおける
プレイヤー間のコミュニケーションの方法としては、プ
レイヤーがキーボードなどの入力装置から直接会話を入
力するか、若しくは、用意されている会話や単語、喜怒
哀楽などの感情を選択することによって他のプレイヤー
に会話内容や感情などの状態を伝えるもので、他のプレ
イヤー側で会話を表示する際には、簡単なキャラクタが
ごく限られた表情を組み合わせて吹き出しに会話が表示
されて喋っているかのように表現されたり、画面の特定
場所に文字のみが表示されたりするものなどが一般的で
ある。
【0003】したがって、ゲーム中に会話をする場合
は、表示される文字などを読むために、一時的若しくは
瞬間的に会話に集中しなければならず、ゲーム中の会話
を自然に行うことが不可能であり、また、他のプレイヤ
ーに感情などの状態を十分に伝えることもできなかっ
た。
【0004】そこで、昨今の通信速度の向上によって、
ゲーム中においても電話のような形で、生の音声を会話
として利用することにより、リアルタイムで相互に会話
する方法が考えられている(例えば、特許文献1)。
【0005】このような技術に関する先行技術文献とし
ては、以下のようなものがある。
【0006】
【特許文献1】特開2001−204973号公報
【0007】
【発明が解決しようとする課題】しかしながら、上記の
方法では、他のプレイヤーの表情が分からないという欠
点を抱えており、また、テレビ電話のように他のプレイ
ヤーの顔も表示するという方法も考えられるが、現状で
は通信速度の点で問題があり、さらに、個人によって
は、ゲーム相手に素顔を見られたくないといった事情も
あり、プライバシーを守ることができないなどといった
問題点があった。
【0008】そして、このような問題は、テレビゲーム
におけるプレイヤー間のコミュニケーションに限らず、
音声データの入力に合わせて、画像を出力するような場
合一般に共通する問題となっている。
【0009】本発明は、上記課題に鑑みてなされたもの
であり、音声を発する人の顔を表示することなく、音声
を発する人のプライバシーを守りつつ、音声データの入
力に合わせて、感情の伝達が可能な技術を提供すること
を目的とする。
【0010】
【課題を解決するための手段】上記の課題を解決するた
めに、請求項1の発明は、アニメーションデータを作成
する画像作成装置であって、入力される音声に対応する
音声データを受け取り、前記音声データの周波数を解析
することにより前記音声データの特徴周波数成分を抽出
する音声認識手段と、前記音声データを前記特徴周波数
成分に基づいて、言語音データと感情データとを含む予
め設定された基準音声データに分類する音声分類手段
と、前記基準音声データと対応する、キャラクタの表情
全体と口形とを含むキャラクタ画像データを記憶する画
像データベースと、前記音声分類手段による分類結果で
ある基準音声データに対応するキャラクタ画像データを
前記画像データベースから選択する画像データ選択手段
と、前記画像データ選択手段によって選択されたキャラ
クタ画像データを出力する画像データ出力手段とを備え
ることを特徴とする。
【0011】また、請求項2の発明は、請求項1に記載
の画像作成装置であって、当該画像作成装置は通信回線
に接続された通信端末として構成されており、前記音声
分類手段による分類結果である基準音声データを指定さ
れた通信先の通信端末に送信する通信手段をさらに備え
ることを特徴とする。
【0012】また、請求項3の発明は、請求項1または
請求項2に記載の画像作成装置であって、前記入力され
る音声に基づいた出力音声データを出力する音声データ
出力手段と、前記画像データ出力手段から出力されるキ
ャラクタ画像データに基づく画像の表示と、前記音声デ
ータ出力手段から出力される出力音声データに基づく音
声の出力とを同期させる手段とを備えることを特徴とす
る。
【0013】また、請求項4の発明は、請求項3に記載
の画像作成装置であって、前記入力される音声に対応す
る音声データを異なる音声データである前記出力音声デ
ータに変換する音声変換手段をさらに備えることを特徴
とする。
【0014】また、請求項5の発明は、アニメーション
データを作成する画像作成装置であって、当該画像作成
装置は通信回線に接続された通信端末として構成されて
おり、言語音データと感情データとを含む予め設定され
た基準音声データに対応する、キャラクタの表情全体と
口形とを含むキャラクタ画像データを記憶する画像デー
タベースと、入力される音声に対応する音声データに基
づいた基準音声データを通信先の通信端末から受信する
受信手段と、前記受信手段によって受信された基準音声
データに対応するキャラクタ画像データを前記画像デー
タベースから選択する画像データ選択手段と、前記画像
データ選択手段によって選択されたキャラクタ画像デー
タを出力する画像データ出力手段とを備えることを特徴
とする。
【0015】また、請求項6の発明は、請求項5に記載
の画像作成装置であって、前記入力される音声に基づい
た出力音声データを出力する音声データ出力手段と、前
記画像データ出力手段から出力されるキャラクタ画像デ
ータに基づく画像の表示と、前記音声データ出力手段か
ら出力される出力音声データに基づく音声の出力とを同
期させる手段とをさらに備えることを特徴とする。
【0016】また、請求項7の発明は、請求項5または
請求項6に記載の画像作成装置であって、通信端末ごと
に対応する前記キャラクタの種類がそれぞれ異なること
を特徴とする。
【0017】また、請求項8の発明は、請求項1から請
求項7のいずれかに記載の画像作成装置であって、前記
基準音声データは、5つの母音に対応する言語音データ
を備えることを特徴とする。
【0018】また、請求項9の発明は、アニメーション
データを作成する画像作成装置であって、音声に起因す
る情報を示す音声関連データを入力する音声関連データ
入力手段と、前記音声を発する人の前記音声を発した際
の感情を示す感情データを入力する感情データ入力手段
と、前記音声に起因する情報と前記感情とに対応する、
キャラクタの表情全体と口形とを含むキャラクタ画像デ
ータを記憶する画像データベースと、前記音声関連デー
タと、前記感情データとに対応するキャラクタ画像デー
タを前記画像データベースから選択する画像データ選択
手段と、前記画像データ選択手段によって選択されたキ
ャラクタ画像データを出力する画像データ出力手段とを
備えることを特徴とする。
【0019】また、請求項10の発明は、請求項9に記
載の画像作成装置であって、前記音声関連データを解析
することによって得られる感情を示す音声感情データを
入力する音声感情データ入力手段と、前記音声を発する
人の前記音声を発した際の顔に係る顔画像データを解析
することによって得られる感情を示す表情感情データを
入力する表情感情データ入力手段と、前記音声感情デー
タと前記表情感情データとに基づいて、前記感情データ
入力手段に入力される前記感情データを指定する感情デ
ータ指定手段とをさらに備えることを特徴とする。
【0020】また、請求項11の発明は、請求項10に
記載の画像作成装置であって、前記音声を発する人の所
定時における顔の構成要素の位置と、前記音声を発する
人の前記音声を発した時における顔の構成要素の位置と
の差分に基づいて、前記表情感情データ入力手段に入力
される前記表情感情データを指定する表情感情データ指
定手段をさらに備えることを特徴とする。
【0021】また、請求項12の発明は、請求項9から
請求項11のいずれかに記載の画像作成装置であって、
前記音声関連データに基づいた出力音声データを出力す
る音声データ出力手段と、前記画像データ出力手段から
出力されるキャラクタ画像データに基づくキャラクタ画
像の表示と、前記音声データ出力手段から出力される出
力音声データに基づく音声の出力とを同期させる手段と
をさらに備えることを特徴とする。
【0022】また、請求項13の発明は、請求項12に
記載の画像作成装置であって、音声に起因する情報と感
情とに対応する、キャラクタ特有のキャラクタ音声デー
タを記憶するキャラクタ音声データベースと、前記音声
関連データと前記感情データとに対応するキャラクタ音
声データを前記キャラクタ音声データベースから選択す
る音声データ選択手段とをさらに備え、前記音声データ
出力手段が、前記音声データ選択手段によって選択され
たキャラクタ音声データを出力することを特徴とする。
【0023】また、請求項14の発明は、請求項9から
請求項13のいずれかに記載の画像作成装置であって、
前記音声関連データが、音声に起因するテキストデータ
であることを特徴とする。
【0024】また、請求項15の発明は、請求項1から
請求項14のいずれかに記載の画像作成装置であって、
前記キャラクタ画像データは、3次元コンピュータグラ
フィックスによる画像データを含むことを特徴とする。
【0025】また、請求項16の発明は、請求項1から
請求項14のいずれかに記載の画像作成装置であって、
前記キャラクタ画像データは、実在する人物を実写する
ことによって取得された画像データを含むことを特徴と
する。
【0026】また、請求項17の発明は、請求項1から
請求項16のいずれかに記載の画像作成装置であって、
前記画像データベースは、1つのキャラクタに関して、
前記感情データの種類にそれぞれ対応する、キャラクタ
の表情全体を含むキャラクタ画像データを備えることを
特徴とする。
【0027】また、請求項18の発明は、請求項1から
請求項16のいずれかに記載の画像作成装置であって、
前記画像データベースは、前記感情データの種類にそれ
ぞれ対応させた異なるキャラクタについてのキャラクタ
画像データを備えることを特徴とする。
【0028】また、請求項19の発明は、画像作成装置
に含まれるコンピュータによって実行されることによ
り、前記画像作成装置を、請求項1から請求項18のい
ずれかに記載の画像作成装置として機能させるプログラ
ムである。
【0029】また、請求項20の発明は、音声データを
生成する音声生成装置であって、音声に起因する情報を
示す音声関連データを入力する音声関連データ入力手段
と、前記音声を発する人の前記音声を発した際の感情を
示す感情データを入力する感情データ入力手段と、前記
音声に起因する情報と前記感情とに対応する、キャラク
タ特有のキャラクタ音声データを記憶するキャラクタ音
声データベースと、前記音声関連データと前記感情デー
タとに対応するキャラクタ音声データを前記キャラクタ
音声データベースから選択する音声データ選択手段と、
前記音声データ選択手段によって選択されたキャラクタ
音声データを出力する音声データ出力手段とを備えるこ
とを特徴とする。
【0030】また、請求項21の発明は、請求項20に
記載の音声生成装置であって、前記キャラクタ音声デー
タに対応する、キャラクタの表情全体と口形とを含むキ
ャラクタ画像データを記憶する画像データベースと、前
記音声データ選択手段によって選択されたキャラクタ音
声データに対応するキャラクタ画像データを前記画像デ
ータベースから選択する画像データ選択手段と、前記画
像データ選択手段によって選択されたキャラクタ画像デ
ータを出力する画像データ出力手段と、前記画像データ
出力手段から出力されるキャラクタ画像データに基づく
キャラクタ画像の表示と、前記音声データ出力手段から
出力されるキャラクタ音声データに基づくキャラクタ音
声の出力とを同期させる手段とをさらに備えることを特
徴とする。
【0031】また、請求項22の発明は、請求項20に
記載の音声生成装置であって、音声に起因する情報と感
情とに対応する、キャラクタの表情全体と口形とを含む
キャラクタ画像データを記憶する画像データベースと、
前記音声関連データと前記感情データとに対応するキャ
ラクタ画像データを前記画像データベースから選択する
画像データ選択手段と、前記画像データ選択手段によっ
て選択されたキャラクタ画像データを出力する画像デー
タ出力手段と、前記画像データ出力手段から出力される
キャラクタ画像データに基づくキャラクタ画像の表示
と、前記音声データ出力手段から出力されるキャラクタ
音声データに基づくキャラクタ音声の出力とを同期させ
る手段とを備えることを特徴とする。
【0032】また、請求項23の発明は、請求項20か
ら請求項22のいずれかに記載の音声生成装置であっ
て、前記音声関連データが、音声に起因するテキストデ
ータであることを特徴とする。
【0033】また、請求項24の発明は、音声生成装置
に含まれるコンピュータによって実行されることによ
り、前記音声生成装置を、請求項20から請求項23の
いずれかに記載の音声生成装置として機能させるプログ
ラムである。
【0034】また、請求項25の発明は、アニメーショ
ンデータを作成する画像作成システムにおいて使用され
る画像作成用サーバであって、言語音データと感情デー
タとを含む予め設定された基準音声データに対応する、
キャラクタの表情全体と口形とを含むキャラクタ画像デ
ータを記憶する画像データベースと、入力される音声に
対応する音声データに基づいた基準音声データを受信す
る受信手段と、前記受信手段によって受信された基準音
声データに対応するキャラクタ画像データを前記画像デ
ータベースから選択する画像データ選択手段と、前記画
像データ選択手段によって選択されたキャラクタ画像デ
ータを通信回線を介して送信する送信手段とを備えるこ
とを特徴とする。
【0035】また、請求項26の発明は、サーバに含ま
れるコンピュータによって実行されることにより、前記
サーバを、請求項25に記載のサーバとして機能させる
プログラムである。
【0036】また、請求項27の発明は、請求項19、
請求項24および請求項26のいすれかに記載されたプ
ログラムを記録してあることを特徴とする、コンピュー
タ読み取り可能な記録媒体である。
【0037】また、請求項28の発明は、アニメーショ
ンデータを作成する画像作成システムであって、通信回
線と、前記通信回線を介して接続された第1および第2
の通信端末とを備え、前記第1の通信端末が、音声に起
因する情報を示す音声関連データを前記通信回線を介し
て前記第2の通信端末に送信する音声関連データ送信手
段と、前記音声を発する人の前記音声を発した際の感情
を示す感情データを前記通信回線を介して前記第2の通
信端末に送信する感情データ送信手段とを有し、前記第
2の通信端末が、前記音声関連データを受信する音声関
連データ受信手段と、前記感情データを受信する感情デ
ータ受信手段と、音声に起因する情報と感情とに対応す
る、キャラクタの表情全体と口形とを含むキャラクタ画
像データを記憶する画像データベースと、前記感情デー
タと前記音声関連データとに対応するキャラクタ画像デ
ータを前記画像データベースから選択する画像データ選
択手段と、前記画像データ選択手段によって選択された
キャラクタ画像データを出力する画像データ出力手段と
を有することを特徴とする。
【0038】また、請求項29の発明は、請求項28に
記載の画像作成システムであって、通信端末ごとに対応
する前記キャラクタの種類がそれぞれ異なることを特徴
とする。
【0039】また、請求項30の発明は、音声データを
生成する音声生成システムであって、通信回線と、前記
通信回線を介して接続された第1および第2の通信端末
とを備え、前記第1の通信端末が、音声に起因する情報
を示す音声関連データを前記通信回線を介して前記第2
の通信端末に送信する音声関連データ送信手段と、前記
音声を発する人の前記音声を発した際の感情を示す感情
データを前記通信回線を介して前記第2の通信端末に送
信する感情データ送信手段とを有し、前記第2の通信端
末が、前記音声関連データを受信する音声関連データ受
信手段と、前記感情データを受信する感情データ受信手
段と、音声に起因する情報と感情とに対応する、キャラ
クタ特有のキャラクタ音声データを記憶するキャラクタ
音声データベースと、前記音声関連データと前記感情デ
ータとに対応するキャラクタ音声データを前記キャラク
タ音声データベースから選択する音声データ選択手段
と、前記音声データ選択手段によって選択されたキャラ
クタ音声データを出力する音声データ出力手段とを有す
ることを特徴とする。
【0040】この明細書において、「音声関連データ」
とは、音声に対応する音声データや音声データを変換し
たテキストデータなど、音声に起因する情報を示すデー
タ一般を指す用語として使用する。
【0041】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。
【0042】<1.第1実施形態> <1−1.第1実施形態に係る通信ゲームシステム概要
>図1は、本発明に係る第1実施形態の通信ゲームシス
テムの概要を示す図であり、図1では、一例として、複
数の通信端末であるゲーム端末機器G1〜G4がネット
ワーク100に接続された通信ゲームシステムについて
示している。ここでは、ゲーム端末機器G1〜G4が、
ゲームプログラムに従って動画に対応するキャラクタの
表情を示す画像データ(以下、「キャラクタ表情画像デ
ータ」と称する)(アニメーションデータ)を作成して
表示する画像作成装置として機能し、さらに、通信ゲー
ムシステムが、アニメーションデータを作成する画像作
成システムとして機能する。
【0043】また、ここでは、ゲーム端末機器G1〜G
4は、後述するゲーム情報などを相互に送受信し合うた
め、ゲーム端末機器G1〜G4のそれぞれの操作者は、
1つのゲーム空間を共有しつつ、お互いにコミュニケー
ションを取り合ってゲームを進行することができる。
【0044】ここで、「ネットワーク」とは、データ通
信を行う通信回線網であり、具体的には、インターネッ
ト、LAN、WAN、CATVなどの、電気通信回線
(光通信回線を含む)により構成される各種の通信回線
網である。ネットワークに対する接続形態は、専用回線
などを利用した常時接続であってもよいし、アナログ回
線あるいはデジタル回線(ISDN)などの電話回線を
利用したダイアルアップ接続などの一時的な接続のいず
れであってもよい。また、その伝送方式は、無線方式お
よび有線方式のいずれであってもよい。
【0045】ゲーム端末機器G1〜G4には、それぞ
れ、音声を入力するためのマイクM1〜M4、画像を表
示するための表示画面D1〜D4、音声を出力するため
のスピーカS1〜S4、および画像を取得するためのカ
メラC1〜C4が接続されている。
【0046】なお、ここでは、複数のゲーム端末機器G
1〜G4は、同様であるため、ゲーム端末機器G1を例
に挙げて説明する。
【0047】マイクM1は、ゲーム端末機器G1の操作
者の音声を入力するためのものであり、このマイクM1
から入力された音声をもとに後述する画像が表示画面D
1などに出力され、後述する音声がスピーカS1などか
ら出力される。表示画面D1は、例えば、テレビ画面や
液晶ディスプレイなどであり、カメラC1は、ゲーム端
末機器G1の操作者などを撮影し、その画像をゲーム端
末機器G1内に取り込むデジタルカメラなどである。な
お、図1では、マイクM1、表示画面D1、スピーカS
1、およびカメラC1は、ゲーム端末機器G1とは別個
の形となっているが、これに限られず、ゲーム端末機器
G1と一体の形態となっているものなどでも良い。
【0048】本発明に係る第1実施形態では、ゲーム端
末機器G1が、操作者自らの音声に対応する画像データ
および音声データを出力する場合と、他のゲーム端末機
器G2〜G4の操作者である通信相手の音声に対応する
画像データおよび音声データを出力する場合があり、実
際のゲーム中では、両方の場合が同時に生じながらゲー
ムが進行する。
【0049】まず、ゲーム端末機器G1の操作者自らの
音声に対応する画像および音声を、それぞれ表示画面D
1およびスピーカS1において表示および出力する場合
について説明する。
【0050】<1−2.操作者自らの音声に対応する画
像および音声の出力>ゲーム端末機器G1の操作者がマ
イクM1に向けて音声を発すると、音声はマイクM1に
入力される。マイクM1に入力された音声は、マイクM
1において音声データに変換されて、ゲーム端末機器G
1内の音声認識部11および音声加工部16に向けて出
力される。
【0051】音声認識部11は、マイクM1から入力さ
れる音声データの周波数を解析することにより音声デー
タの特徴周波数部分を抽出し、音声分類部12に向けて
出力する。
【0052】音声分類部12は、音声データを、音声認
識部11において抽出した特徴周波数部分に基づいて、
言語音データと感情データとを含む予め設定された基準
音声データに分類し、分類結果である基準音声データ
(A1)を画像データ選択部13、および通信部30に
向けて出力する。
【0053】ここで、言語音データは、「あ」「い」
「う」「え」「お」「ん」といった5つの母音と「ん」
の音を合わせた6つの言語音データを示し、感情データ
は、「喜」「怒」「哀」「楽」「普通」といった5つの
感情データを示す。したがって、音声分類部12は、全
ての音声データを、6つの言語音に分類し、例えば、
「か」「さ」「た」「な」のように、子音+母音から構
成される言語音については、母音部分に対応する「あ」
の言語音データとして分類する。また、全ての音声デー
タを、上述した5つの感情データに分類する。なお、音
声データの特徴周波数成分に基づいて感情データに分類
する方法は、一般的に広く知られている公知の方法など
によって達成可能である。
【0054】記憶部14は、予め設定された基準音声デ
ータと対応する、表情全体と口形とを含むキャラクタの
画像データであるキャラクタ表情画像データを記憶する
画像データベースを格納する。つまり、このキャラクタ
表情画像データは、音声に起因する情報である言語音と
感情とに対応する。なお、この画像データベースについ
ては、後程さらに詳述する。
【0055】また、ゲーム情報記憶部15には、ゲーム
プログラムなどが記憶されている。ここでは、画像デー
タベースに記憶されているキャラクタ表情画像データ
は、制御部20を介してゲーム情報記憶部15から記憶
部14に読み出されて記憶されるゲームプログラムに固
有の画像データであっても良いし、カメラC1によって
実在する人物を実写することによって取得された画像デ
ータ、例えば、ゲーム端末機器G1の外部において実在
する人物などを実写することによって取得された画像デ
ータを記憶した記録媒体22からインターフェイス(I
/F)21を介して取り込んで記憶したものでも良い。
すなわち、画像データベースに記憶されるキャラクタ表
情画像データは、実在する人物を実写することによって
取得された画像データを含むものでも良い。このような
構成とすると、表示画面D1〜D4に表示されるキャラ
クタを実在する人物で表現することができるため、音声
を発する操作者は、実在する人物になりきることができ
る。なお、キャラクタ表情画像データについてはさらに
後述する。
【0056】また、記憶部14とゲーム情報記憶部15
は、不揮発性の記憶装置などであり、図1では、記憶部
14とゲーム情報記憶部15とを別々としているが、こ
れに限られるものではなく、1つの不揮発性の記憶装置
などとしても良い。
【0057】画像データ選択部13は、音声分類部12
による分類結果である基準音声データ(A1)に対応す
るキャラクタ表情画像データを記憶部14に格納される
画像データベースから選択し、制御部20に出力する。
【0058】つまり、画像データ選択部13には、操作
者の発する音声に起因する情報である言語音を示す言語
音データと、その操作者の音声を発した際の感情を示す
感情データとを含む基準音声データが入力され、画像デ
ータ選択部13は、基準音声データ、すなわち、言語音
データと感情データとに対応するキャラクタ表情画像デ
ータを画像データベースから選択し、制御部20に出力
する。したがって、画像データ選択部13が、音声関連
データを入力する手段、感情データを入力する手段、キ
ャラクタ表情画像データを画像データベースから選択す
る手段、および選択されたキャラクタ表情画像データを
出力する手段として機能する。
【0059】音声加工部16は、マイクM1から入力さ
れる音声データに対して、多少の変換を施し、音声デー
タを異なる音声データ(以下、「出力音声データ(A
2)と称する」)に変換する。そして、出力音声データ
(A2)をスピーカS1および通信部30に出力する。
つまり、音声加工部16が、マイクM1から入力される
音声に基づいた出力音声データ(A2)を出力する手段
として機能する。
【0060】なお、音声加工部16では、後述するリッ
プシンク処理を行うために、制御部20の制御にしたが
って、音声加工部16は出力音声データ(A2)をスピ
ーカS1に出力する。また、音声データの変換方法の一
例としては、音声を早回ししたり、遅回ししたりするよ
うな変換を音声データに施したりすることによって、音
声の高低を変化させたりするような方法がある。ここで
は、音声データを変換することによって、後述する指定
された通信先の他のゲーム端末機器G2〜G4に音声デ
ータを送信して、通信相手側で音声が出力される場合な
どにおいて、出力される音声が変化しているため、プラ
イバシーの保護などを図ることが可能となる。また、操
作者の声に種々の効果を付与して、少し異なる声などに
することで、表示画面に表示されるキャラクタになりき
ることなどが可能となる。
【0061】スピーカS1は、音声加工部16から入力
される出力音声データ(A2)をもとに音声を出力す
る。
【0062】制御部20は、主にCPUから構成され、
ゲーム情報記憶部15に格納されているプログラムにし
たがって種々の制御および処理を行う。また、制御部2
0は、画像データ選択部13から入力されるキャラクタ
表情画像データを表示画面D1に出力して、表示画面D
1において画像を表示する。つまり、制御部20が、画
像データ選択部13によって選択されたキャラクタ画像
データを出力する手段として機能する。
【0063】そして、ここでは、制御部20において、
制御部20から表示画面D1へのキャラクタ表情画像デ
ータの出力と、音声加工部16からスピーカS1への出
力音声データ(A2)の出力とを同期させる。つまり、
スピーカS1から出力される音声と、表示画面D1上に
表示される画像とを同期させるリップシンク処理が行わ
れる。したがって、画像上のキャラクタがあたかも喋っ
ているかのように見せることができる。
【0064】したがって、ここでは、制御部20が、キ
ャラクタ画像データに基づく画像の表示画面D1におけ
る表示と、出力音声データ(A2)に基づく音声のスピ
ーカS1における出力とを同期させる手段として機能す
る。その結果、音声の入力に合わせて、音声を発する操
作者の顔を表示することなく、音声を発する操作者のプ
ライバシーを守りつつ、操作者の音声に基づく声と感情
とを伝えることができる。
【0065】また、通信部30は、音声加工部16から
入力される出力音声データ(A2)、および音声分類部
12から入力される基準音声データ(A1)をネットワ
ーク100を介して指定された通信先の通信端末にあた
る他のゲーム端末機器G2〜G4に送信する。
【0066】以上では、操作者の音声に対応するキャラ
クタ表情画像データおよび音声データの出力について注
目して説明したが、実際には、ゲームを進行する上で、
その他の画像データや音声データが存在する。この点に
ついて、以下説明する。制御部20は、ゲーム情報記憶
部15に記憶されているゲームプログラムにしたがっ
て、ゲーム端末機器G1全体の制御を行うため、上述し
たキャラクタ表情画像データ、後述する他のゲーム端末
機器G2〜G4に対応するキャラクタ表情画像データ、
その他のゲーム画面を示す画像データなどを合成して表
示画面D1に出力し、表示画面D1は、ゲーム画面全体
を表示する。さらに、制御部20は、上述したゲームプ
ログラムにしたがって、ゲームにおける効果音や音楽な
どを示すゲーム音声データを音声加工部16に出力し、
音声加工部16において出力音声データ(A2)と、後
述する他のゲーム端末機器G2〜G4に対応する出力音
声データ(B2)と、ゲーム音声データとを合成してス
ピーカS1に出力して、スピーカS1において音声を出
力する。
【0067】また、制御部20は、ゲーム情報記憶部1
5に記憶されるゲームプログラムにしたがって、ゲーム
全体を制御するが、ゲームの進行状況などのゲーム情報
(A3)を通信部30、ネットワーク100を介して他
のゲーム端末機器G2〜G4に送信する。一方、ゲーム
端末機器G1は、その他のゲーム端末機器G2〜G4か
らもゲームの進行状況などのゲーム情報(B3)をネッ
トワーク100を介し、通信部30を通じて制御部20
で受信する。そして、制御部20は、ゲーム情報(B
3)を反映させながらゲーム全体を制御する。
【0068】<1−3.通信相手の音声に対応する画像
および音声の出力>次に、ゲーム端末機器G1が、その
他のゲーム端末機器G2〜G4の操作者である通信相手
の音声に対応する画像および音声を、それぞれ表示画面
D1およびスピーカS1において表示および出力する場
合について説明する。
【0069】ゲーム端末機器G2〜G4は、ゲーム端末
機器G1と同様な機器であり、通信先の通信端末である
ゲーム端末機器G2〜G4から送信される基準音声デー
タ(B1)、出力音声データ(B2)、およびゲーム情
報(B3)をネットワーク100経由で、ゲーム端末機
器G1の通信部30で受信する。
【0070】通信部30は、受信した基準音声データ
(B1)、出力音声データ(B2)、およびゲーム情報
(B3)を、制御部20に送信する。
【0071】制御部20は、出力音声データ(B2)を
音声加工部16に出力し、音声加工部16は、出力音声
データ(B2)をスピーカS1に出力して、スピーカS
1において音声を出力する。
【0072】また、制御部20は、基準音声データ(B
1)を、画像データ選択部13に出力し、画像データ選
択部13は、基準音声データ(B1)に対応するキャラ
クタ表情画像データを記憶部14に格納される画像デー
タベースから選択し、制御部20に出力する。そして、
制御部20は、画像データ選択部13から入力されたキ
ャラクタ表情画像データを表示画面D1に出力して、表
示画面D1において画像を表示する。
【0073】ここでも、ゲーム端末機器G1の操作者自
らの音声に対応する画像および音声を出力する場合と同
様に、制御部20において、制御部20から表示画面D
1へのキャラクタ表情画像データの出力と、音声加工部
16からスピーカS1への出力音声データ(B2)の出
力とを同期させる。つまり、表示画面D1上に表示され
る基準音声データ(B1)に対応する画像と、スピーカ
S1から出力される出力音声データ(B2)に対応する
音声とを同期させるリップシンク処理が行われる。した
がって、通信相手に対応する画像上のキャラクタがあた
かも喋っているかのように見せることができるため、通
信相手の表情を含めた話す様子を表示画面D1に表示さ
れるキャラクタを通じて、認識することができ、臨場感
のあるコミュニケーションを図ることができる。
【0074】また、以上では、ゲーム端末機器G1の操
作者自らの音声に対応する画像および音声を表示および
出力する場合と同様に、通信相手の音声に対応するキャ
ラクタ表情画像データおよび音声データの出力について
注目して説明したが、実際には、ゲームを進行する上
で、その他の画像データや音声データが存在する。この
点については、上述したため、ここでは省略する。
【0075】<1−4.通信ゲームシステムの通信形態
とその他の機能>ここでは、図2に示すように、ネット
ワーク100を介して、ゲーム端末機器G1〜G4は、
音声加工部16による変換結果である出力音声データ、
音声分類部12による分類結果である基準音声データ、
および制御部20において制御されるゲーム情報を相互
に送受信し合うことによって、表示画面D1〜D4に表
示されるゲーム端末機器G1〜G4のそれぞれに対応す
るキャラクターの画像が、スピーカS1〜S4において
出力されるゲーム端末機器G1〜G4それぞれの操作者
の音声を変換した音声と同期して、表情全体や口形を変
化させるため、1つのゲーム空間を共有するプレーヤー
が、お互いにコミュニケーションを取り合いながら、ゲ
ームを楽しむことができる。
【0076】また、図1に示すように、ゲーム端末機器
G1では、外部の記録媒体22からI/F21、制御部
20を介して、ゲーム情報記憶部15にプログラムをイ
ンストールすることも可能である。ここでは、ゲーム端
末機器G1の音声認識部11、音声分類部12、画像デ
ータ選択部13、および音声加工部16は、専用の電子
回路により構築されており、ゲーム端末機器G1におけ
る各データの流れおよび各機能の動作等は、主にCPU
から構成されている制御部20において統括制御され
る。なお、図1では、ゲーム端末機器G1の音声認識部
11、音声分類部12、画像データ選択部13、および
音声加工部16は、専用の電子回路により構築されてい
るが、これに限られるものではなく、音声認識部11、
音声分類部12、画像データ選択部13、および音声加
工部16において実行されるデータ処理および演算処理
を、主にCPUから構成される制御部20において、ゲ
ーム情報記憶部15内のプログラムに従って実施するよ
うにしても良い。
【0077】<1−5.画像データベースについて>上
述のごとく記憶部14に格納される画像データベースに
は、言語音データと感情データとを含む予め設定された
基準音声データに対応する、表情全体と口形とを含むキ
ャラクタの画像データであるキャラクタ表情画像データ
が記憶されており、以下、このキャラクタ表情画像デー
タについて説明する。
【0078】図3は、言語音データに対応するキャラク
タ表情画像データの一例を説明する図であり、ここで
は、キャラクタの表情全体は変化させずに、口形のみを
言語音データに対応させて変化させた図を例示してい
る。言語音データは、「あ」「い」「う」「え」「お」
「ん」といった5つの母音と「ん」の音を合わせた6つ
の言語音を示し、図3に示すような6つの言語音を発声
する口形に対応するキャラクタ表情画像データが記憶部
14に記憶されている。
【0079】図4は、感情データに対応するキャラクタ
表情画像データの一例を説明する図であり、ここでは、
キャラクタの口形は変化させずに、表情全体のみを感情
データに対応させて変化させた図を例示している。感情
データは、「喜」「怒」「哀」「楽」「普通」といった
5つの感情を示し、図4に示すような5つの感情を表す
表情全体に対応するキャラクタ表情画像データが記憶部
14に記憶されている。つまり、画像データベースは、
1つのキャラクタに関して感情データの種類にそれぞれ
対応するキャラクタの表情全体を含むキャラクタ表情画
像データを備えている。言い換えれば、1つのキャラク
タに関して、音声を発する操作者の感情に対応させた表
情を備える。その結果、表示画面D1〜D4に表示され
る1つのキャラクタが、音声を発する人の感情に対応し
た表情を表現するため、音声を発する操作者は1つのキ
ャラクタになりきることができる。
【0080】なお、ここでは、1つのキャラクタのキャ
ラクタ表情画像データのみについて説明したが、キャラ
クターは1つに限られるものではなく、ゲームプログラ
ムに元から記憶された複数のキャラクタであっても良い
し、カメラC1から取り込まれた人などの表情を記憶し
たものや、ゲーム端末機器G1の外部において取得され
た画像データを記憶した記録媒体22からI/F21を
介して画像データを取り込んで記憶し、キャラクタを複
数としても良い。
【0081】また、各ゲーム端末機器G1〜G4の操作
者に対応するキャラクタの設定を、図示を省略する操作
部を種々操作することによって実施することができる。
したがって、各ゲーム端末機器G1〜G4ごとに対応す
るキャラクタの種類がそれぞれ異なることによって、ゲ
ーム空間上で、各ゲーム端末機器G1〜G4に対応する
キャラクタをそれぞれ特定することが容易に可能であ
り、各ゲーム端末機器G1〜G4の操作者が特定のキャ
ラクタになったものと感じることができる。さらに、画
面に表示される1つのキャラクタが、操作者の感情に対
応した表情を表現するため、操作者は1つのキャラクタ
になりきることができる。
【0082】<1−6.キャラクタの画像の表示につい
て>図5は、音声に基づいてキャラクタ表情画像データ
が変化する様子を示す図であり、楽しそうに「もしも
し」と発声した際の音声データに対応するキャラクタ表
情画像データを例示している。なお、ここでは、ゲーム
端末機器G1における動作を例にとって説明する。マイ
クM1から「もしもし」という音声に対応する音声デー
タが音声認識部11に入力されると、音声認識部11で
は、音声データの特徴周波数成分を抽出し、その後、音
声分類部12において、音声認識部11において抽出さ
れた音声データの特徴周波数成分に基づいて、「もしも
し」という音声データは、6つの言語音データに分類さ
れて、「おいおい」という言語音データに分類される。
また、楽しそうに音声を発しているため、音声分類部1
2において、「楽」の感情データに分類される。
【0083】したがって、画像データ選択部13におい
て、言語音データである「おいおい」に対応するキャラ
クタの口形が選択されるとともに、感情データである
「楽」に対応するキャラクタの表情全体が選択されて、
図5の最下段に示すような画像を示す画像データがキャ
ラクタ表情画像データとして選択される。
【0084】そして、制御部20の制御に基づいて、ス
ピーカS1から出力される音声と、表示画面D1に表示
されるキャラクタ表情画像データに基づく画像とを同期
させるリップシンク処理が行われて、「もしもし」とい
う音声と同期して、キャラクタ表情画像データに対応す
る画像が表示画面D1上に表示される。このときの模式
図を図6に示す。なお、紙面上では、動画を表現するこ
とができないため、図6においては、便宜的に「もしも
し」のうちの「も」に対応するキャラクタの口形を示す
画像を示している。ここでは、表示画面D1上に表示さ
れているキャラクタが動画となって、自然に話をしてい
るかのごとく感じさせることができる。
【0085】したがって、ここでは、予め設定された基
準音声データが5つの母音や「ん」の音などに対応する
言語音データを備えるため、表示画面D1〜D4に表示
されるキャラクタが自然に話しをしているかのごとく感
じさせることができる。
【0086】なお、以上のように、ゲーム端末機器G1
〜G4の操作者それぞれに対応するキャラクタ表情画像
データに基づく画像を表示画面D1〜D4に表示し、お
互いの感情表現を認識することができる自然な会話が可
能となる。その結果、ゲームにおける臨場感が増すこと
となる。この臨場感が増すゲームの形態としては、例え
ば、対戦型麻雀ゲームにおいて、お互いに心理的な駆け
引きを行う形態や、格闘技系の対戦型ゲームにおいて、
お互いのキャラクタの攻防に対応して、各操作者の発す
る音声がキャラクタの表情に反映されつつ、音声を伝達
する形態などが考えられる。
【0087】以上説明したように、第1実施形態におけ
るゲーム端末機器G1〜G4では、操作者の発する音声
から操作者の感情と発声した言語音とを認識し、この感
情および言語音に対応する表情全体および口形を含む画
像データを出力する。よって、表情を含めた操作者が話
す様子を表示画面において表示されるキャラクタを通じ
て表現することができ、また、操作者は、表示画面に表
示されるキャラクタになりきることなどもできる。
【0088】また、ゲーム端末機器G1〜G4では、操
作者の発する音声に対応する音声データを分類した結果
である基準音声データを通信先に送信し、通信先の表示
画面D1〜D4に表示されるキャラクタの画像を通じ
て、操作者の表情を含めた話す様子を通信先の相手に伝
達することができる。よって、相手に素顔を知られるこ
となく、通信先の相手に感情を伝達することができる。
【0089】また、ゲーム端末機器G1〜G4では、通
信先のゲーム端末機器G1〜G4から、言語音データと
感情データとを含む基準音声データを受信し、そのデー
タに対応する表情全体および口形を含むキャラクタ表情
画像データを出力する。つまり、表示画面D1〜D4に
表示されるキャラクタの画像を通じて、通信相手が話す
様子を表情を含めて表現することができる。よって、通
信相手の素顔を見ることなく、通信相手の感情を認識す
ることができる。
【0090】その結果、音声を発する人の顔を表示する
ことなく、音声データなどの音声に起因する情報を示す
音声関連データなどの入力に合わせて、音声を発する人
の顔を表示することなく、音声を発する人のプライバシ
ーを守りつつ、感情の伝達を行うことができる。
【0091】<2.第2実施形態> <2−1.第2実施形態に係る通信ゲームシステム概要
>図7は、本発明の第2実施形態に係る通信ゲームシス
テムの概要を説明する図である。図7では、一例とし
て、複数の通信端末であるゲーム端末機器G11〜G1
4、およびサーバ200がネットワーク100に接続さ
れた通信ゲームシステムについて示している。ここで
は、ゲーム端末機器G11〜G14が、ゲームプログラ
ムに従って動画に対応するキャラクタ表情画像データ
(アニメーションデータ)を作成して表示する画像作成
装置として機能し、さらに、通信ゲームシステムが、ア
ニメーションデータを作成する画像作成システムとして
機能する。
【0092】また、ここでは、ゲーム端末機器G11〜
G14は、後述するゲーム情報などを直接またはサーバ
200を介して相互に送受信し合うため、ゲーム端末機
器G11〜G14のそれぞれの操作者は、1つのゲーム
空間を共有しつつ、お互いにコミュニケーションを取り
合ってゲームを進行することができる。
【0093】図1に示す第1実施形態においては、ゲー
ム端末機器G1〜G4内において、記憶部14が、キャ
ラクタ表情画像データを記憶する画像データベースを格
納し、画像データ選択部13が、基準音声データ(A
1,B1)に対応するキャラクタ表情画像データを画像
データベースから選択していたが、図7に示す第2実施
形態においては、記憶部14および画像データ選択部1
3の機能をゲーム端末機器G11〜G14に備えず、専
用のサーバ200に備えた形になっている。
【0094】図7に示す通信ゲームシステムにおいて
は、複数のゲーム端末機器G11〜G14は、同様の機
能構成を有するため、ゲーム端末機器G11〜G14に
ついては、ゲーム端末機器G11を例に挙げて説明す
る。なお、図7に示すゲーム端末機器G11およびサー
バ200内の各機能については、図1に示した第1実施
形態と同様な部分が多いため、異なる部分のみについて
説明する。なお、同様な部分については、図1と同じ符
号を付しており、ここでは説明を省略する。
【0095】本発明に係る第2実施形態では、第1実施
形態と同様に、ゲーム端末機器G11が、操作者自らの
音声に対応する画像データおよび音声データを出力する
場合と、他のゲーム端末機器G12〜G14の操作者で
ある通信相手の音声に対応する画像データおよび音声デ
ータを出力する場合があり、実際のゲーム中では、両方
の場合が同時に生じながらゲームが進行する。
【0096】まず、ゲーム端末機器G11の操作者自ら
の音声に対応する画像および音声を、それぞれ表示画面
D1およびスピーカS1において表示および出力する場
合について説明する。
【0097】<2−2.操作者自らの音声に対応する画
像および音声の出力>ゲーム端末機器G11内には、画
像データ選択部13がないため、音声分類部12による
分類結果である基準音声データ(A1)は通信部30に
のみ送信される。
【0098】そして、ゲーム端末機器G11は、基準音
声データ(A1)、音声加工部16による変換結果であ
る出力音声データ(A2)、および制御部20で制御さ
れているゲーム情報(A3)を通信部30からネットワ
ーク100を介して送信する。ゲーム端末機器G11か
ら送信した基準音声データ(A1)、出力音声データ
(A2)、ゲーム情報(A3)のうち、基準音声データ
(A1)はサーバ200に送信され、残りの変換された
出力音声データ(A2)、およびゲーム情報(A3)は
他のゲーム端末機器G12〜G14に送信される。
【0099】サーバ200の通信部230において、基
準音声データ(A1)を受信し、画像データ選択部13
に出力される。ここでは、画像データ選択部13、およ
び記憶部14は、第1実施形態と同様な機能を果たすた
め、画像データ選択部13において、第1実施形態と同
様に、基準音声データ(A1)に対応するキャラクタ表
情画像データ(A4)を記憶部14に格納される画像デ
ータベースから選択し、サーバ制御部220を経由して
通信部230に出力する。そして、通信部230から画
像データ選択部13によって選択されたキャラクタ表情
画像データ(A4)をゲーム端末機器G11〜G14に
送信する。なお、ここでは、サーバ制御部220は、記
憶部14に格納されているプログラムにしたがってサー
バ200内の各機能を統括制御する。
【0100】通信部230から送信されたキャラクタ表
情全体画像データ(A4)は、ゲーム端末機器G11〜
G14において受信されるが、受信後のデータの処理は
すべてのゲーム端末機器G11〜G14において同様と
なるため、代表してゲーム端末機器G11におけるデー
タの処理についてのみ説明する。
【0101】通信部230から送信されたキャラクタ表
情画像データ(A4)は、ゲーム端末機器G11の通信
部30において受信されて、制御部20に出力される。
制御部20は、通信部30から入力されたキャラクタ表
情画像データ(A4)を表示画面D1に出力して、表示
画面D1上に画像を出力する。ここでは、制御部20に
おいて、スピーカS1から出力される音声加工部16に
よる変換結果である出力音声データ(A2)に基づく音
声と、表示画面D1上に出力されるキャラクタ表情画像
データ(A4)に基づく画像とを同期させるリップシン
ク処理が行われる。したがって、表示画面D1に表示さ
れるゲーム端末機器G11の操作者に対応するキャラク
タがあたかも喋っているかのように見せることができ
る。
【0102】以上では、操作者の音声に対応するキャラ
クタ表情画像データおよび音声データの出力について注
目して説明したが、実際には、ゲームを進行する上で、
その他の画像データや音声データが存在する。この点に
ついては、第1実施形態と同様に、制御部20は、ゲー
ム情報記憶部15に記憶されているゲームプログラムに
したがって、ゲーム端末機器G11全体の制御を行うた
め、上述したキャラクタ表情画像データ(A4)と、後
述する他のゲーム端末機器G12〜G14の操作者に対
応するキャラクタ表情画像データ(B4)と、その他の
ゲーム画面を示す画像データなどとを合成して表示画面
D1に出力し、表示画面D1は、ゲーム画面全体を表示
する。さらに、制御部20は、上述したゲームプログラ
ムにしたがって、ゲームにおける効果音や音楽などを示
すゲーム音声データを音声加工部16に送信し、音声加
工部16による変換結果である出力音声データ(A2)
と、後述する他のゲーム端末機器G12〜G14におい
て入力される音声データから変換された結果である出力
音声データ(B2)と、ゲーム音声データとを合成して
スピーカS1に送信して、スピーカS1において音声を
出力する。
【0103】また、制御部20は、第1実施形態と同様
に、ゲーム情報記憶部15に記憶されるゲームプログラ
ムにしたがって、ゲーム全体を制御するが、ゲームの進
行状況などのゲーム情報(A3)を通信部30、ネット
ワーク100を介して他のゲーム端末機器G12〜G1
4に送信する。一方、ゲーム端末機器G11は、その他
のゲーム端末機器G12〜G14からもゲームの進行状
況などのゲーム情報(B3)をネットワーク100を介
し、通信部30を通じて制御部20で受信する。そし
て、制御部20は、ゲーム情報(B3)を反映させなが
らゲーム全体を制御する。
【0104】<2−3.通信相手の音声に対応する画像
および音声の出力>次に、他のゲーム端末機器G12〜
G14において音声が分類された結果である基準音声デ
ータ(B1)に対応するキャラクタ表情画像が、他のゲ
ーム端末機器G12〜G14において音声データから変
換された結果である出力音声データ(B2)に基づく音
声と同期しながら、それぞれゲーム端末機器G11の表
示画面D1およびスピーカS1において表示および出力
されるデータの処理について説明する。
【0105】ゲーム端末機器G12〜G14は、ゲーム
端末機器G11と同様な機器であるため、ゲーム端末機
器G12〜G14において、音声が分類された結果であ
る基準音声データ(B1)、音声データから変換された
結果である出力音声データ(B2)、およびゲーム情報
(B3)は、ゲーム端末機器G12〜G14から送信さ
れて、ネットワーク100を介して送信される。そし
て、ゲーム端末機器G12〜G14から送信した基準音
声データ(B1)、出力音声データ(B2)、ゲーム情
報(B3)のうち、基準音声データ(B1)はサーバ2
00に送信され、出力音声データ(B2)、およびゲー
ム情報(B3)は他のゲーム端末機器G11〜G14に
送信される。そして、ゲーム端末機器G11では、通信
部30が、出力音声データ(B2)、およびゲーム情報
(B3)を受信し、制御部20に出力する。
【0106】制御部20は、出力音声データ(B2)を
音声加工部16に送信し、音声加工部16は、出力音声
データ(B2)をスピーカS1に出力して、スピーカS
1において音声を出力する。
【0107】サーバ200は、通信部230において、
基準音声データ(B1)を受信し、通信部230は、基
準音声データ(B1)を画像データ選択部13に出力す
る。ここでは、上述したように、画像データ選択部1
3、および記憶部14は、第1実施形態と同様な機能を
果たすため、画像データ選択部13において、第1実施
形態と同様に、基準音声データ(B1)に対応するキャ
ラクタ表情画像データ(B4)を記憶部14に格納され
る画像データベースから選択し、サーバ制御部220に
出力する。その後、サーバ制御部220から画像データ
選択部13において選択したキャラクタ表情画像データ
(B4)を通信部230に出力し、通信部230は、キ
ャラクタ表情画像データ(B4)をネットワーク100
を介してゲーム端末機器G11〜G14に送信する。
【0108】通信部230から送信されたキャラクタ表
情画像データ(B4)は、ゲーム端末機器G11〜G1
4において受信されるが、受信後のデータの処理はすべ
てのゲーム端末機器G11〜G14において同様となる
ため、代表してゲーム端末機器G11におけるデータの
処理についてのみ説明する。
【0109】通信部230から送信されたキャラクタ表
情画像データ(B4)は、ゲーム端末機器G11の通信
部30において受信されて、制御部20に出力される。
制御部20は、通信部30から入力されたキャラクタ表
情画像データ(B4)を表示画面D1に出力して、表示
画面D1上に画像を表示する。ここでは、制御部20に
おいて、制御部20から表示画面D1へのキャラクタ表
情画像データ(B4)の出力と、音声加工部16からス
ピーカS1への出力画像データ(B2)の出力とを同期
させる。つまり、スピーカS1から出力される音声と、
表示画面D1上に表示される画像とを同期させるリップ
シンク処理が行われる。したがって、表示画面D1上に
表示する通信相手に対応したキャラクタをあたかも喋っ
ているかのように見せることができるため、操作者は、
通信相手の表情を含めた話す様子を表示画面D1上に表
示するキャラクタを通じて、認識することができ、臨場
感のあるコミュニケーションを図ることができる。
【0110】また、以上では、ゲーム端末機器G11の
操作者自らの音声に対応する画像および音声を出力およ
び表示する場合と同様に、通信相手の音声に対応するキ
ャラクタ表情画像データおよび音声データの出力につい
て注目して説明したが、実際には、ゲームを進行する上
で、その他の画像データや音声データが存在する。この
点については、上述したため、ここでは省略する。
【0111】<2−4.通信ゲームシステムの通信形態
とその他の機能>ここでは、図8に示すように、ゲーム
端末機器G11〜G14は、それぞれの音声分類部12
において音声が分類した結果である基準音声データを、
ネットワーク100を介してサーバ200に送信し、サ
ーバ200において、基準音声データに対応するキャラ
クタ表情画像データが選択されて、この画像データが各
ゲーム端末機器G1〜G4に送信される。また、音声加
工部16において音声データが変換された結果である出
力音声データ、および制御部20において制御されるゲ
ーム情報については、第1実施形態と同様に、ゲーム端
末機器G11〜G14は、ネットワーク100を介し
て、相互に送受信し合うことによって、表示画面D1〜
D4に表示されるゲーム端末機器G11〜G14の操作
者それぞれに対応するキャラクタの画像が、ゲーム端末
機器G11〜G14の操作者の音声を変換してスピーカ
S1〜S4において出力される音声と同期して、表情全
体や口形を変化させるため、1つのゲーム空間を共有す
るプレーヤーが、お互いにコミュニケーションを取り合
いながら、ゲームを楽しむことができる。
【0112】また、図7に示すように、ゲーム端末機器
G11では、外部の記録媒体22からI/F21、制御
部20を介して、ゲーム情報記憶部15にプログラムを
インストールすることも可能である。ここでは、ゲーム
端末機器G11の音声認識部11、音声分類部12、お
よび音声加工部16は、専用の電子回路により構築され
ており、ゲーム端末機器G11における各データの流れ
および各機能の動作等は、主にCPUから構成されてい
る制御部20において統括制御される。なお、図7で
は、ゲーム端末機器G1の音声認識部11、音声分類部
12、および音声加工部16は、専用の電子回路により
構築されているが、これに限られるものではなく、音声
認識部11、音声分類部12、および音声加工部16に
おいて実行されるデータ処理および演算処理を、主にC
PUから構成される制御部20において、ゲーム情報記
憶部15内のプログラムに従って実施しても良い。
【0113】さらに、ここでは、サーバ200は、外部
の記録媒体222からI/F221を介して、記憶部1
4にプログラムをインストールすることも可能である。
ここでは、サーバ200の画像データ選択部13は、専
用の電子回路により構築されており、サーバ200にお
ける各データの流れおよび各機能の動作等は、主にCP
Uから構成されているサーバ制御部220において統括
制御される。なお、図7では、画像データ選択部13
は、専用の電子回路により構築されているが、これに限
られるものではなく、画像データ選択部13において実
行されるデータ処理および演算処理を、主にCPUから
構成されるサーバ制御部220において、記憶部14内
のプログラムに従って実施しても良い。
【0114】以上説明したように、第2実施形態のゲー
ム端末機器G11〜G14では、サーバ200が、基準
音声データに対応する、キャラクタの表情全体と口形と
を含むキャラクタ表情画像データを記憶する画像データ
ベースを備える。そして、言語音データと感情データと
を含む基準音声データを受信し、感情および言語音に対
応する表情全体および口形を含むキャラクタ表情画像デ
ータを選択して、通信先のゲーム端末機器G11〜G1
4に送信する。よって、ゲーム端末機器G11〜14の
表示画面D1〜D4に、感情および言語音に対応する表
情全体および口形を含むキャラクタ表情画像データに基
づく画像を表示することができる。その結果、表示画面
D1〜D4に表示されるキャラクタを通じて、音声を発
した人が話す様子を表情を含めて表現することができ
る。
【0115】<3.第3実施形態> <3−1.第3実施形態に係る通信ゲームシステム概要
>図9は、本発明に係る第3実施形態の通信ゲームシス
テム3の概要を示す図であり、図9では、一例として、
複数の通信端末であるゲーム端末機器G31〜G34が
ネットワーク100に接続された通信ゲームシステム3
について示している。よって、図9に示す第3実施形態
の通信ゲームシステム3では、第1実施形態の通信ゲー
ムシステムにおけるゲーム端末機器G1〜G4のかわり
に、ゲーム端末機器G31〜G34がネットワーク10
0に接続されているような構成となっている。そして、
ここでは、ゲーム端末機器G31〜G34が、ゲームプ
ログラムに従って動画であるキャラクタ表情画像データ
(アニメーションデータ)を作成して出力する画像作成
装置として機能する。さらに、通信ゲームシステム3
が、アニメーションデータを作成して出力する画像作成
システムとして機能する。
【0116】また、例えば、ゲーム端末機器G31およ
びゲーム端末機器G32をそれぞれ第1および第2の通
信端末と仮定すると、通信ゲームシステム3は、通信回
線であるネットワーク100と、ネットワーク100を
介して接続された第1および第2の通信端末を備えてい
ることとなる。なお、ゲーム端末機器G31〜G34の
うちいずれか二つのゲーム端末機器をそれぞれ第1およ
び第2の通信端末と仮定しても良い。
【0117】そして、第3実施形態のゲーム端末機器G
31〜G34の機能構成は、第1実施形態のゲーム端末
機器G1〜G4の機能構成と類似しており、ゲーム端末
機器G31〜G34は、後述するゲーム情報などを相互
に送受信し合うため、ゲーム端末機器G31〜G34の
それぞれの操作者は、1つのゲーム空間を共有しつつ、
お互いにコミュニケーションを取り合ってゲームを進行
することができる。
【0118】図1に示す第1実施形態においては、マイ
クM1〜M4から入力される音声データを、音声を発す
る人の音声を発した際の感情を示す感情データに分類し
たが、図9に示す第3実施形態においては、マイクM1
〜M4から入力される音声データ、およびカメラC1〜
C4から入力される画像データの双方に基づいて、音声
を発する人の音声を発した際の感情を示す感情データを
指定する構成となっている。
【0119】図9に示す通信ゲームシステム3において
は、複数のゲーム端末機器G31〜G34は、それぞれ
同様の機能構成を有するため、図9ではゲーム端末機器
G31のみの機能構成を示すブロック図を示し、以下で
は、ゲーム端末機器G31を例に挙げて説明する。な
お、図9に示すゲーム端末機器G31の各機能について
は、図1に示した第1実施形態のゲーム端末機器G1と
同様な部分が多いため、主に異なる部分のみについて説
明する。また、同様な部分については、図1と同じ符号
を付しており、ここでは説明を省略する。
【0120】まず、図9に示す第3実施形態のゲーム端
末機器G31が図1に示す第1実施形態のゲーム端末機
器G1と異なる点について概説する。第3実施形態で
は、第1実施形態と感情データの指定の方法が異なるた
め、感情データの指定に係る部分が異なってくる。具体
的には、図1に示すゲーム端末機器G1では音声分類部
12および記憶部14であったものが、図9に示すゲー
ム端末機器G31ではそれぞれ音声分類部12aおよび
記憶部14aとなっている。そして、感情データの指定
に画像データも用いるため、顔検出部17、表情分析部
18、および感情指定部19が新たに追加されている。
【0121】また、図9では、説明の便宜上、音声認識
部11、音声分類部12a、顔検出部17、表情分析部
18、および感情指定部19などを含む部分を音声画像
処理部10として示している。そして、音声画像処理部
10は制御部20とデータ送受信可能に接続され、各種
データを相互に送受信するとともに、音声画像処理部1
0内の各部は制御部20によって制御される。なお、こ
こで、記憶部14aについては、記憶部14と同様な画
像データベースを格納するが、さらに、表情分析部18
などで用いるデータを記憶するため、異なる符合を付し
ている。
【0122】そして、本発明に係る第3実施形態のゲー
ム端末機器G31では、第1実施形態のゲーム端末機器
G1と同様に、操作者自らの音声に対応する画像データ
および音声データを出力する場合と、他のゲーム端末機
器G32〜G34の操作者である通信相手の音声に対応
する画像データおよび音声データを出力する場合があ
り、実際のゲーム中では、両方の場合が同時に生じなが
らゲームが進行する。
【0123】まず、ゲーム端末機器G31の操作者自ら
の音声に対応する画像および音声を、それぞれ表示画面
D1およびスピーカS1において表示および出力する場
合について説明する。
【0124】<3−2.操作者自らの音声に対応する画
像および音声の出力>マイクM1から入力される音声デ
ータは、制御部20を介して音声加工部16に出力され
るとともに、音声認識部11に入力される。音声認識部
11における音声データの処理については、第1実施形
態の音声認識部11と同様な機能を有するため、説明を
省略する。
【0125】そして、図1に示すゲーム端末機器G1の
音声分類部12では、音声認識部11において抽出され
た音声データの特徴周波数成分に基づき、音声データを
言語音データと感情データとを含む予め設定された基準
音声データに分類したが、図9に示すゲーム端末機器G
31の音声分類部12aでは、音声認識部11において
抽出された音声データの特徴周波数成分に基づき、音声
データを言語音データ(AS)と感情を示すデータ(以
下、「音声感情データ」と称する)とに分類する。つま
り、音声分類部12aは、操作者の発する音声に起因す
る音声データを解析することによって音声感情データを
得る。
【0126】なお、ここで言う言語音データは、第1実
施形態と同様に「あ」「い」「う」「え」「お」「ん」
といった5つの母音と「ん」の音を合わせた6つの言語
音データを示す。また、ここで言う音声感情データは、
第1実施形態における「喜」「怒」「哀」「楽」「普
通」といった5つの感情データに相当するものである。
そして、音声データの特徴周波数成分に基づき、音声デ
ータを言語音データと音声感情データとに分類する方法
は、一般的に広く知られている公知の方法などによって
達成可能である。
【0127】音声分類部12aにおける分類結果である
言語音データ(AS)は、画像データ選択部13および
制御部20に向けて出力され、音声分類部12aにおけ
る分類結果である音声感情データは感情指定部19に向
けて出力される。なお、制御部20に向けて出力された
言語音データ(AS)は、制御部20を介して通信部3
0に出力される。
【0128】また、音声分類部12aでは、マイクM1
から入力される音声データに雑音の成分が多く含まれる
ために、音声データを言語音データ(AS)および音声
感情データに正確に分類出来ないときには、その旨を制
御部20に出力する。なお、音声データを言語音データ
(AS)および音声感情データに正確に分類出来ないと
きとは、例えば、二人の発する音声がマイクM1に同時
に入力される場合などが考えられ、この場合には、音声
分類部12aにおいて、二つの言語音データおよび二つ
の音声感情データに分類されることとなり、正確に分類
出来ない。
【0129】顔検出部17は、カメラC1で取得される
画像データが入力されるようにカメラC1と接続されて
おり、顔検出部17は、カメラC1から入力される画像
データから、操作者の顔に相当する部分を検出して抽出
する部位である。そして、顔検出部17は、抽出した顔
に相当する部分を示すデータ(以下、「顔画像データ」
と称する)を表情分析部18に向けて出力する。顔に相
当する部分の検出および抽出については、例えば、画像
から肌色の部分を検出することによって顔に相当する部
分を検出することなどにより達成することができる。
【0130】また、顔検出部17では、カメラC1で操
作者の顔が適正に撮影されていない場合には、その旨を
制御部20に出力する。ここで言う操作者の顔が適正に
撮影されていない場合とは、例えば、カメラC1から入
力される画像データに基づく画像に占める顔の面積が所
定の閾値よりも小さく検出された場合や、カメラC1か
ら入力される画像データに基づく画像がぼけている場合
などがある。よって、顔検出部17では、カメラC1か
ら入力される画像データに基づく画像に占める肌色の部
分の面積が所定の閾値よりも小さいか否かを検出した
り、カメラC1から入力される画像データの高周波成分
が所定の閾値よりも少ないか否かを検出したりすること
によって、画像に占める顔の面積が所定の閾値よりも小
さいか否かや、画像がぼけているか否かを検出すること
などで、カメラC1で操作者の顔が適正に撮影されてい
ない場合を検出することができる。
【0131】表情分析部18は、顔検出部17から入力
される顔画像データに基づいて、操作者の表情を分析し
て、音声を発する操作者の音声を発した際の感情を示す
データ(以下、「表情感情データ」と称する)を指定
し、感情指定部19に向けて出力する。言い換えれば、
表情分析部18が、音声を発する操作者の音声を発した
際の顔に係る顔画像データを解析することによって、感
情を示す音声感情データを得る。
【0132】ここで、表情分析部18における具体的な
処理内容の例について簡単に説明する。予め「喜」
「怒」「哀」「楽」「普通」の5つの感情などと対応す
る顔の構成要素の位置を示すモデル(以下、「表情感情
モデル」と称する)を用意する。この表情感情モデル
は、例えば、記憶部14aに格納しておくことができ
る。そして、表情分析部18において、顔検出部17で
抽出された顔に相当する画像データに基づく画像から
目、鼻、口、眉毛などの顔の構成要素の特徴点を抽出す
ることによって、顔の構成要素の位置を検出する。引き
続いて、表情分析部18において、予め用意された表情
感情モデルと、検出された顔の構成要素の位置とを照合
することによって、「喜」「怒」「哀」「楽」「普通」
などの表情感情データを指定することができる。
【0133】なお、上記では、表情感情データの指定に
ついては、予め「喜」「怒」「哀」「楽」「普通」の5
つの感情などと対応する顔の構成要素の位置を示す表情
感情モデルを用意したが、これに限られるものではな
く、例えば、以下のような構成のものであっても良い。
【0134】例えば、予め、操作者の無表情にあたる顔
を撮影して得られた画像データから目、鼻、口、眉毛な
どの顔の構成要素の特徴点を抽出して、操作者の無表情
における顔の構成要素の位置(以下、「無表情位置」と
称する)を検出し、その位置を「普通」を示す表情感情
データに対応する顔の構成要素の位置として記憶部14
aに格納しておく。さらに、顔の構成要素について、無
表情位置との差分、つまり、顔の構成要素の特徴点の位
置が無表情位置から動いた距離・方向と、「喜」「怒」
「哀」「楽」を示す表情感情データとを対応付けたデー
タ(以下、「差分−感情データ」と称する)を記憶部1
4aに格納しておく。
【0135】そして、表情分析部18において、顔検出
部17で抽出された顔に相当する画像データに基づく画
像から目、鼻、口、眉毛などの顔の構成要素の特徴点を
抽出することによって、顔の構成要素の位置を検出し、
無表情位置との差分を差分データとして算出する。そし
て、算出された差分データと差分−感情データとに基づ
いて、「喜」「怒」「哀」「楽」「普通」などの表情感
情データを指定することができる。このような構成にお
いては、表情分析部18が、音声を発する操作者の所定
時における顔の構成要素の位置と、音声を発した時の顔
の構成要素の位置との差分に基づいて、表情感情データ
を指定する手段として機能することとなる。
【0136】なお、本実施形態におけるデータの送受信
とは異なるが、上述のように、表情感情データを、所定
時における顔の構成要素の位置と、音声を発した時の顔
の構成要素の位置との差分に基づいて指定するような構
成とすることによって、ゲーム端末機器G31では、顔
の構成要素の位置を示すデータなどが入力された場合な
どにも、表情感情データを指定することができる。その
結果、通信相手の機器などでは、表情感情データを指定
する部位を省略することができるため、通信相手の機器
などの小型化を図ることができるとともに、顔画像デー
タなどの画像データよりも、顔の構成要素の位置を示す
データの方が容量を小さくできるため、表情感情データ
を指定するためのデータの送信時間を短縮することがで
きる。したがって、通信相手が音声を発してから感情の
伝達に至るまでの時間を短縮することができる。
【0137】感情指定部19は、音声を発する操作者の
音声を発した際の感情を示す感情データ(AF)を指定
するための部位であり、音声分類部12aから入力され
る音声感情データと、表情分析部18から入力される表
情感情データとに基づいて、音声を発する操作者の音声
を発した際の感情を示す感情データ(AF)を指定し、
画像データ選択部13および制御部20に向けて出力す
る。すなわち、感情指定部19が、音声分類部12aか
ら出力される音声感情データおよび表情分析部18から
出力される表情感情データを入力し、入力された音声感
情データと表情感情データとに基づいて感情データを指
定する手段として機能する。なお、制御部20に向けて
出力された感情データ(AF)は、制御部20を介して
通信部30に出力される。
【0138】また、この感情指定部19では、マイクM
1から入力される音声データおよびカメラC1から入力
される画像データの状態によって、感情データの指定方
法を変更する。感情指定部19における感情データの指
定方法の変更について以下説明する。
【0139】上述したように、音声分類部12aが、雑
音が多く、音声データを言語音データ(AS)および音
声感情データに正確に分類出来ないときには、その旨を
制御部20に出力し、また、顔検出部17が、カメラC
1で操作者の顔が適正に撮影されていない場合には、そ
の旨を制御部20に出力する。すなわち、マイクM1か
ら入力される音声データおよびカメラC1から入力され
る画像データの状態は、制御部20によって管理され
る。そして、制御部20の制御によって、感情指定部1
9における感情データの指定方法は変更される。
【0140】例えば、カメラC1で操作者の顔が適正に
撮影されている場合には、感情指定部19は、表情分析
部18から入力される表情感情データに基づいて感情デ
ータを指定する。具体的には、表情感情データが「喜」
を示す場合には、「喜」を示す感情データを指定すると
いった具合に、感情データを指定する。一方、カメラC
1で操作者の顔が適正に撮影されていない場合には、感
情指定部19は、音声分類部12aから入力される音声
感情データに基づいて感情データを指定する。具体的に
は、音声感情データが「怒」を示す場合には、「怒」を
示す感情データを指定するといった具合に、感情データ
を指定する。
【0141】また、感情指定部19における感情データ
の指定方法の変更については、上述したものに限られ
ず、例えば、音声分類部12aが音声データを音声感情
データ等に正確に分類出来る場合には、感情指定部19
が、音声分類部12aから入力される音声感情データに
基づいて感情データを指定し、音声分類部12aが音声
データを音声感情データ等に正確に分類出来ない場合に
は、感情指定部19が、表情分析部18から入力される
表情感情データに基づいて感情データを指定するように
しても良い。
【0142】なお、感情指定部19における感情データ
の指定方法については、ゲーム情報記憶部15内に格納
されるゲームプログラムにしたがって変更されても良い
し、各ゲーム端末機器ごとに操作者の操作によって感情
データの指定方法を設定することによって変更しても良
い。
【0143】このように、雑音が多く、音声分類部12
aが音声データを音声感情データに正確に分類出来ない
場合や、カメラC1で操作者の顔が適正に撮影されてい
ない場合など、音声データと顔画像データの状況に応じ
て、感情指定部19が感情データの指定方法を変更す
る。
【0144】第1実施形態のゲーム端末機器G1の記憶
部14は、予め設定された言語音データおよび感情デー
タとからなる基準音声データと対応する、キャラクタ表
情画像データを記憶する画像データベースを格納した。
つまり、第1実施形態のゲーム端末機器G1の記憶部1
4は、言語音データと感情データとに対応する、キャラ
クタ表情画像データを記憶する画像データベースを格納
した。そして、第3実施形態のゲーム端末機器G31の
記憶部14aにおいても、言語音データと感情データと
に対応する、表情全体と口形とを含むキャラクタの画像
データであるキャラクタ表情画像データを記憶する画像
データベースを格納する。すなわち、第1実施形態の画
像データベースと第3実施形態の画像データベースとは
同様のものである。この画像データベースについては、
第1実施形態において詳述したため、ここでは説明を省
略する。
【0145】画像データ選択部13は、音声分類部12
aから入力される言語音データ(AS)および感情指定
部19から入力される感情データ(AF)に対応するキ
ャラクタ表情画像データ(AP)を記憶部14に格納さ
れる画像データベースから選択し、制御部20に出力す
る。言い換えれば、画像データ選択部13には、操作者
の発する音声に起因する情報である言語音を示す言語音
データ(AS)(音声関連データ)、および音声を発す
る操作者の音声を発した際の感情を示す感情データ(A
F)とが入力され、画像データ選択部13は、言語音デ
ータ(AS)と感情データ(AF)とに対応する、キャ
ラクタ表情画像データを画像データベースから選択し、
制御部20に出力する。つまり、画像データ選択部13
が、音声関連データを入力する手段、感情データを入力
する手段、キャラクタ表情画像データを画像データベー
スから選択する手段、および選択されたキャラクタ表情
画像データを出力する手段として機能する。
【0146】音声加工部16は、マイクM1から制御部
20を介して入力された音声データに対して、第1実施
形態と同様に、多少の変換を施し、音声データを異なる
音声データである出力音声データ(A2)に変換する。
そして、出力音声データ(A2)を制御部20を介して
通信部30に出力するとともに、スピーカS1に向けて
出力する。つまり、音声加工部16が、マイクM1から
制御部20を介して入力された音声関連データである音
声データに基づいた出力音声データ(A2)を出力する
手段として機能する。
【0147】なお、ここでは、スピーカS1による出力
音声データ(A2)に基づく音声の出力と、表示画面D
1によるキャラクタ表情画像データ(AP)に基づく画
像(以下、「キャラクタ画像」と称する)の出力とを同
期させるリップシンク処理を行うために、制御部20の
制御にしたがって、音声加工部16による変換結果であ
る出力音声データ(A2)をスピーカS1に出力する。
そして、ここでは、音声データを変換しているため、後
述する指定された通信先の他のゲーム端末機器G32〜
G34に出力音声データ(A2)を送信して通信相手側
で音声を出力する場合、操作者とは異なる音声が出力さ
れる。その結果、操作者のプライバシーの保護などを図
ることが可能である。
【0148】制御部20は、第1実施形態のものと同様
に、主にCPUを備えて構成され、ゲーム情報記憶部1
5に格納されているプログラムにしたがって種々の制御
および処理を行う。また、制御部20は、画像データ選
択部13から受信したキャラクタ表情画像データ(A
P)を表示画面D1に出力して、表示画面D1において
キャラクタ画像を表示する。
【0149】そして、ここでは、制御部20の制御によ
って、表示画面D1によるキャラクタ表情画像データ
(AP)に基づくキャラクタ画像の表示と、スピーカS
1による出力音声データ(A2)に基づく音声の出力と
を同期させる。言い換えれば、制御部20が、画像デー
タ選択部13から出力されるキャラクタ表情画像データ
(AP)に基づくキャラクタ画像の表示画面D1による
表示と、音声加工部16から出力される出力音声データ
(A2)に基づくキャラクタ音声のスピーカS1による
出力とを同期させる手段として機能する。
【0150】このように、キャラクタ画像の表示と音声
の出力とを同期させることによって、キャラクタが音声
を発している人の感情を表現しつつ、音声を発している
人の代わりに話しているように感じさせることができ
る。また、音声を発する人はキャラクタになりきること
ができる。
【0151】また、通信部30は、音声加工部16によ
る音声データの変換結果である出力音声データ(A2)
と、音声分類部12aによる分類結果である言語音デー
タ(AS)と、感情指定部19で指定された感情データ
(AF)とをネットワーク100を介して指定された通
信先の通信端末にあたる他のゲーム端末機器G32〜G
34に送信する。言い換えれば、通信部30が、音声関
連データである言語音データ(AS)と感情データ(A
F)とをネットワーク100を介して指定された通信先
の通信端末にあたる他のゲーム端末機器G32〜G34
に送信する手段として機能する。
【0152】以上では、操作者の音声に対応するキャラ
クタ表情画像データおよび音声データの出力について注
目して説明したが、実際には、第1実施形態と同様に、
ゲームを進行する上で、その他の画像データや音声デー
タが存在する。この点については、第1実施形態と同様
に制御部20が、ゲーム端末機器G31に対応するキャ
ラクタ表情画像データ(AP)、他のゲーム端末機器G
32〜G34に対応するキャラクタ表情画像データ(B
P)、およびその他のゲーム画面を示す画像データなど
を合成して表示画面D1に出力することで、表示画面D
1はゲーム画面全体を表示する。また、第1実施形態と
同様に制御部20の制御の下で、ゲーム端末機器G31
に対応する出力音声データ(A2)、他のゲーム端末機
器G32〜G34に対応する出力音声データ(B2)、
およびゲーム音声データとを音声加工部16が合成して
スピーカS1に出力し、スピーカS1から音声が出力さ
れる。
【0153】また、制御部20は、第1実施形態と同様
に、ゲーム情報記憶部15に記憶されるゲームプログラ
ムにしたがってゲーム全体を制御し、ゲームの進行状況
などのゲーム情報(A3)を通信部30、ネットワーク
100を介して他のゲーム端末機器G32〜G34に送
信する。一方、ゲーム端末機器G31は、その他のゲー
ム端末機器G32〜G34からもゲームの進行状況など
のゲーム情報(B3)をネットワーク100を介し、通
信部30を通じて制御部20で受信する。そして、制御
部20は、ゲーム情報(B3)を反映させながらゲーム
全体を制御する。
【0154】<3−3.通信相手に対応する画像および
音声の出力>次に、ゲーム端末機器G31が、その他の
ゲーム端末機器G32〜G34の操作者である通信相手
の画像および音声に対応するキャラクタ画像および音声
を、それぞれ表示画面D1およびスピーカS1によって
表示および出力する場合について説明する。
【0155】上述したように、ゲーム端末機器G32〜
G34は、ゲーム端末機器G31と同様な機器であり、
ゲーム端末機器G32〜G34から送信される言語音デ
ータ(BS)、感情データ(BF)、出力音声データ
(B2)、およびゲーム情報(B3)をネットワーク1
00を介して、ゲーム端末機器G31の通信部30にお
いて受信する。言い換えれば、通信部30が、音声関連
データである言語音データ(BS)と感情データ(B
F)とゲーム情報(B3)とをネットワーク100を介
して受信する手段として機能する。
【0156】通信部30は、受信した言語音データ(B
S)、感情データ(BF)、出力音声データ(B2)、
およびゲーム情報(B3)を、制御部20に出力する。
【0157】制御部20は、出力音声データ(B2)を
音声加工部16に送信し、音声加工部16は、出力音声
データ(B2)をスピーカS1に出力して、スピーカS
1によって出力音声データ(B2)に基づく音声を出力
する。
【0158】また、制御部20は、言語音データ(B
S)、および感情データ(BF)を、画像データ選択部
13に送信し、画像データ選択部13は、言語音データ
(BS)と感情データ(BF)とに対応するキャラクタ
表情画像データ(BP)を記憶部14aに格納される画
像データベースから選択し、制御部20に出力する。そ
して、制御部20は、画像データ選択部13から入力さ
れるキャラクタ表情画像データ(BP)を表示画面D1
に出力し、表示画面D1によってキャラクタ表情画像デ
ータ(BP)に基づくキャラクタ画像を表示する。
【0159】ここでも、ゲーム端末機器G31の操作者
自らの画像および音声に対応するキャラクタ画像の表示
および音声の出力を行う場合と同様に、制御部20の制
御によって、表示画面D1におけるキャラクタ表情画像
データ(BP)に基づくキャラクタ画像の表示と、音声
加工部16から出力される出力音声データ(B2)に基
づく音声の出力とを同期させる。つまり、表示画面D1
上に表示される言語音データ(BS)と感情データ(B
F)とに対応するキャラクタ画像と、スピーカS1から
出力される出力音声データ(B2)に対応する音声とを
同期させるリップシンク処理が行われる。したがって、
通信相手に対応する画像上のキャラクタがあたかも喋っ
ているかのように見せることができるため、通信相手の
表情を含めた話す様子を表示画面D1に表示されるキャ
ラクタを通じて、認識することができ、臨場感のあるコ
ミュニケーションを図ることができる。
【0160】また、以上では、ゲーム端末機器G31の
操作者自らの画像および音声に対応するキャラクタ画像
および音声を表示・出力する場合と同様に、通信相手の
画像および音声に対応するキャラクタ表情画像データ
(BP)に基づく画像の表示、および出力音声データ
(B2)に基づく音声の出力について注目して説明した
が、実際には、ゲームを進行する上で、その他の画像デ
ータや音声データが存在する。この点については、上述
したため、ここでは説明を省略する。
【0161】<3−4.通信ゲームシステムとその他の
機能>ここでは、第1実施形態の通信ゲームシステムと
同様、図2に示すように、ネットワーク100を介し
て、ゲーム端末機器G31〜G34は、音声加工部16
における変換結果である出力音声データ、音声分類部1
2aにおける音声データの分類結果である言語音デー
タ、感情指定部19によって指定された感情データ、お
よび制御部20において制御されるゲーム情報を相互に
送受信し合う。よって、表示画面D1〜D4に表示され
るゲーム端末機器G31〜G34のそれぞれに対応する
キャラクターが、ゲーム端末機器G31〜G34それぞ
れの操作者の音声を変換してスピーカS1〜S4におい
て出力される音声と同期して、表情全体や口形を変化さ
せる。その結果、1つのゲーム空間を共有するプレーヤ
ーが、お互いにコミュニケーションを取り合いながら、
ゲームを楽しむことができる。
【0162】また、第1実施形態のゲーム端末機器G1
と同様、図9に示すように、ゲーム端末機器G31で
は、外部の記録媒体22からI/F21、制御部20を
介して、ゲーム情報記憶部15にプログラムをインスト
ールすることも可能である。ここでは、ゲーム端末機器
G31の音声認識部11、音声分類部12a、画像デー
タ選択部13、音声加工部16、顔検出部17、表情分
析部18、および感情指定部19は、専用の電子回路に
より構築され、ゲーム端末機器G31における各データ
の流れおよび各機能の動作等は、主にCPUから構成さ
れている制御部20において統括制御される。
【0163】<3−5.キャラクタ画像の表示について
>第3実施形態においても、第1実施形態と同様に、操
作者の音声などに基づいて、表示画面D1に表示される
キャラクタ画像が変化する。そして、第3実施形態にお
けるキャラクタ画像の表示については、感情データの指
定方法が異なるのみで、図5に示すキャラクタ画像の変
化を例にとって説明したものとほぼ同様となる。
【0164】そこで、以下では、ゲーム端末機器G31
における動作の一例について説明する。なお、ここで
は、操作者が楽しそうな表情で、楽しそうに「もしも
し」と音声を発しているものとする。さらに、ここで
は、説明を簡単とするために、雑音が少なく、音声デー
タを言語音データ(AS)および音声感情データに正確
に分類でき、カメラC1で操作者の顔が適正に撮影され
ているものとして説明する。
【0165】まず、マイクM1から「もしもし」という
操作者の音声に対応する音声データが音声認識部11に
入力されるとともに、カメラC1によって操作者が音声
を発した際の表情に係る画像データを取得して顔検出部
17に入力される。ここでは、音声データに関する処理
と画像データに関する処理とが並行して行われることと
なるが、まず、音声データに関する処理について説明
し、続いて画像データに関する処理について説明する。
【0166】音声認識部11では、マイクM1から入力
される音声データの特徴周波数成分を抽出する。そし
て、音声分類部12aにおいて、音声認識部11におい
て抽出された音声データの特徴周波数成分に基づいて、
「もしもし」という音声データは、6つの言語音データ
に分類されて、「おいおい」という言語音データに分類
される。また、ここでは、操作者が楽しそうに音声を発
しているため、音声分類部12aにおいて、「楽」の音
声感情データに分類され、その音声感情データが感情指
定部19に出力される。
【0167】一方、顔検出部17では、カメラC1から
入力される画像データから、操作者の顔に相当する部分
を示す顔画像データを検出して抽出し、表情分析部18
に出力する。そして、ここでは、操作者が楽しそうな表
情で音声を発しているため、表情分析部18において、
顔画像データに基づいて操作者の表情が分析され、
「楽」の感情を示す表情感情データが指定され、その表
情感情データが感情指定部19に出力される。
【0168】そして、ここでは、カメラC1で操作者の
顔が適正に撮影されているため、感情指定部19は、表
情分析部18から入力される「楽」を示す表情感情デー
タに基づいて「楽」を示す感情データを指定する。言語
音データと感情データとに対応するキャラクタ表情画像
データの選択およびそれ以降の動作については、第1実
施形態と同様となるため、ここでは、説明を省略する。
【0169】以上説明したように、第3実施形態に係る
通信ゲームシステム3では、操作者の感情を示す感情デ
ータと、操作者の発する音声に起因する情報示す音声デ
ータとに基づいて、キャラクタの表情全体と口形とを含
むキャラクタ表情画像データを選択して出力する。その
結果、音声を発する人の感情を反映したキャラクタ画像
を表示画面D1〜D4などに表示することができる。
【0170】したがって、音声を発する人の顔を表示す
ることなく、音声データやテキストデータなどの音声に
起因する情報を示す音声関連データなどの入力に合わせ
て、音声を発する人の顔を表示することなく、音声を発
する人のプライバシーを守りつつ、感情の伝達が可能な
画像作成装置を提供することができる。
【0171】また、特に、音声データと顔画像データの
状況に応じて、感情指定部19が感情データの指定方法
を変更する。このとき、感情指定部19が、音声感情デ
ータと表情感情データとの双方に基づいて感情データを
指定するため、音声データと顔画像データの状況に応じ
て、音声を発する人の感情をより正確に反映させたキャ
ラクタ画像を表示することができる。
【0172】さらに、通信ゲームシステム3では、ネッ
トワーク100を介して、相手側のゲーム端末機器から
送信されてきた音声データと、感情データとに基づい
て、キャラクタの表情全体と口形とを含むキャラクタ表
情画像データを選択して出力する。その結果、通信相手
の発する音声に係る音声データの入力に合わせて、音声
を発する通信相手の顔を表示することなく、音声を発す
る通信相手のプライバシーを守りつつ、感情を伝達でき
る。
【0173】<4.第4実施形態> <4−1.第4実施形態に係る通信ゲームシステム概要
>図10は、本発明に係る第4実施形態の通信ゲームシ
ステム4の概要を示す図であり、図10では、一例とし
て、複数の通信端末であるゲーム端末機器G41〜G4
4がネットワーク100に接続された通信ゲームシステ
ム4について示している。よって、図10に示す第4実
施形態の通信ゲームシステム4では、第1実施形態の通
信ゲームシステムにおけるゲーム端末機器G1〜G4の
かわりに、ゲーム端末機器G41〜G44がネットワー
ク100に接続されているような構成となっている。そ
して、ここでは、ゲーム端末機器G41〜G44が、ゲ
ームプログラムに従ってキャラクタ特有の音声データ
(以下、「キャラクタ音声データ」と称する)を生成す
る音声生成装置として機能する。さらに、通信ゲームシ
ステム4が、キャラクタ音声データを生成して出力する
音声生成システムとして機能する。
【0174】また、第3実施形態と同様に、例えば、ゲ
ーム端末機器G41およびゲーム端末機器G42をそれ
ぞれ第1および第2の通信端末と仮定すると、通信ゲー
ムシステム4は、通信回線であるネットワーク100
と、ネットワーク100を介して接続された第1および
第2の通信端末を備えていることとなる。なお、第3実
施形態と同様に、ゲーム端末機器G41〜G44のうち
いずれか二つのゲーム端末機器をそれぞれ第1および第
2の通信端末としても良い。
【0175】そして、ゲーム端末機器G41〜G44
は、第1実施形態のゲーム端末機器G1〜G4と同様
に、後述するゲーム情報などを相互に送受信し合うた
め、ゲーム端末機器G41〜G44のそれぞれの操作者
は、1つのゲーム空間を共有しつつ、お互いにコミュニ
ケーションを取り合ってゲームを進行することができ
る。
【0176】図10に示す第4実施形態の通信ゲームシ
ステム4と、図1に示す第1実施形態の通信ゲームシス
テムとでは、各ゲーム端末機器の操作者が発する音声に
基づいて、キャラクタ表情画像データが選択されるとい
う点では同様であるが、音声に起因するデータの処理な
どが異なる。具体的には、図1に示す通信ゲームシステ
ムでは、マイクM1〜M4から入力される音声データを
言語音データと感情データとに分類し、それらの言語音
データと感情データとに対応するキャラクタ表情画像デ
ータを選択したが、図10に示す第4実施形態の通信ゲ
ームシステム4では、音声データを感情データに分類す
るとともに、音声データをテキストデータに変換し、感
情データとテキストデータとに対応するキャラクタ特有
のキャラクタ音声データを選択して、選択されたキャラ
クタ音声データに対応するキャラクタ表情画像データを
選択するような構成となっている。
【0177】以下、第4実施形態の通信ゲームシステム
4の内部構成について説明する。
【0178】図10に示す通信ゲームシステム4におい
ては、複数のゲーム端末機器G41〜G44は、それぞ
れ同様の機能構成を有するため、図10ではゲーム端末
機器G41のみの機能構成を示すブロック図を示し、以
下では、ゲーム端末機器G41を例に挙げて説明する。
なお、図10に示すゲーム端末機器G41の各機能につ
いては、図1に示した第1実施形態のゲーム端末機器G
1と同様な部分もあるため、同様な部分については、図
1と同じ符号を付しており、ここでは説明を省略する。
【0179】そして、図10では、音声認識部11、感
情指定部19b、およびデータ変換部63などを含む部
分を音声処理部60として示している。そして、音声処
理部60は制御部20bとデータ送受信可能に接続さ
れ、各種データを相互に送受信するとともに、音声処理
部60内の各部は制御部20bによって制御される。
【0180】本発明に係る第4実施形態のゲーム端末機
器G41では、第1実施形態のゲーム端末機器G1と同
様に、操作者自らの音声に対応するキャラクタ表情画像
データおよびキャラクタ音声データを出力する場合と、
他のゲーム端末機器G42〜G44の操作者である通信
相手の音声に対応するキャラクタ表情画像データおよび
キャラクタ音声データを出力する場合があり、実際のゲ
ーム中では、両方の場合が同時に生じながらゲームが進
行する。
【0181】まず、ゲーム端末機器G41の操作者自ら
の音声に対応するキャラクタ表情画像データおよびキャ
ラクタ音声データに基づいた画像(以下、「キャラクタ
画像」と称する)および音声(以下、「キャラクタ音
声」と称する)を、それぞれ表示画面D1およびスピー
カS1によって表示および出力する場合について説明す
る。
【0182】<4−2.操作者自らの音声に対応する画
像および音声の出力>ゲーム端末機器G41の操作者が
マイクM1に向けて音声を発すると、音声はマイクM1
に入力される。マイクM1に入力された音声は、マイク
M1において音声データに変換されて、ゲーム端末機器
G41内の音声認識部11およびデータ変換部63に入
力される。
【0183】音声認識部11は、第1実施形態において
説明したものと同様であり、マイクM1から入力された
音声データの周波数を解析することにより音声データの
特徴周波数部分を抽出し、感情指定部19bに出力す
る。
【0184】感情指定部19bは、音声認識部11にお
いて抽出した特徴周波数部分に基づいて感情データ(A
F)を指定し、この指定した感情データ(AF)を音声
・画像データ選択部70に出力するとともに、制御部2
0bを介して通信部30に出力する。なお、ここで言う
感情データは、第1実施形態における「喜」「怒」
「哀」「楽」「普通」といった5つの感情を示すデータ
と同様なものである。そして、音声データの特徴周波数
成分に基づいて感情データを指定する方法は、一般的に
広く知られている公知の方法などによって達成可能であ
る。
【0185】一方、データ変換部63は、マイクM1か
ら入力された音声データをテキストデータ(AT)に変
換する。言い換えれば、データ変換部63は、操作者が
何を言っているのかを認識して、テキストデータ(A
T)を生成するのである。そして、データ変換部63
は、この変換結果であるテキストデータ(AT)を音声
・画像データ選択部70に出力するとともに、制御部2
0bを介して通信部30に出力する。なお、この変換
は、一般的にSpeech To Textと呼ばれる公知の方法など
によって達成することができる。なお、このSpeech To
Textおよび後述するText To Speechと呼ばれる公知の方
法については、HMM(隠れマルコフモデル)やニュー
ラルネットワークを利用した手法が良く用いられる。そ
して、データ変換部63では、例えば、「もしもし」と
操作者がマイクM1に向かって音声を発すると、データ
変換部63では、音声データが「もしもし」という文字
列を示す情報に変換される。
【0186】記憶部14bは、テキスト(文字)と感情
とに対応する、キャラクタ特有の音声の周波数(スペク
トル)を示すデータであるキャラクタ音声データを記憶
するデータベース(以下、「キャラクタ音声データベー
ス」と称する)を格納する。すなわち、キャラクタ音声
データベースは、操作者の発する音声に起因する情報で
あるテキスト(文字)と、感情と、キャラクタ音声デー
タとが対応づけられたデータベースとなっている。
【0187】ここで、キャラクタ音声データベースの構
築方法の例について、簡単に説明する。なお、以下で
は、キャラクタ音声データベースは外部の専用機器で構
築した後に、キャラクタ音声データベースを記憶した記
録媒体22をゲーム端末機器G41に着装し、I/F2
1を介して、記憶部14bにキャラクタ音声データベー
スをコピーすることによって、記憶部14bにキャラク
タ音声データベースが格納されるものとして説明を行
う。
【0188】まず、キャラクタの音声を担当する声優
に、キャラクタ特有の口調で種々のパターンの台詞を話
してもらい、そのときの音声に係る音声データを解析す
ることによって、音声を発している際の感情を識別し、
日本語の五十音や英語のアルファベットなど会話で用い
る可能性のある音素ごとに「喜」「怒」「哀」「楽」
「普通」などの感情に対応するスペクトルを生成する。
このようなスペクトルを生成することによって、日本語
の五十音などの文字(テキスト)と感情とスペクトル
(キャラクタ音声データ)とを関連付けたキャラクタ音
声データベースを構築することができる。上述した音声
に係る音声データを解析して音声を発している際の感情
を識別する方法は、例えば、話すスピードや強弱などに
基づいて識別することができる。
【0189】なお、上記では、各音素ごとに「喜」
「怒」「哀」「楽」「普通」などの感情に対応するスペ
クトルを生成したが、これに限られるものではなく、あ
る程度まとまった音節ごとに「喜」「怒」「哀」「楽」
「普通」などの感情に対応するスペクトルを生成して、
日本語の五十音などの文字(テキスト)と感情とスペク
トル(キャラクタ音声データ)とを関連付けたキャラク
タ音声データベースを構築しても良い。このときには、
例えば、音節ごとの言葉の意味と「喜」「怒」「哀」
「楽」「普通」などの感情とを対応付けることで、音節
ごとに「喜」「怒」「哀」「楽」「普通」などの感情に
対応するスペクトルを生成することもできる。
【0190】また、記憶部14bは、キャラクタ音声デ
ータと、キャラクタの表情全体と口形とを含むキャラク
タ表情画像データとを関連付けたデータベース(以下、
「音声−画像データベース」と称する)を格納する。な
お、記憶部14bは、例えば、不揮発性の記憶装置など
で構成され、図10では、記憶部14bとlゲーム情報
記憶部15とを別々としているが、これに限られるもの
ではなく、例えば、1つの不揮発性の記憶装置などであ
っても良い。
【0191】さらに、記憶部14bに格納される音声−
画像データベースに記憶されるキャラクタ表情画像デー
タは、制御部20を介してゲーム情報記憶部15から記
憶部14bに読み出されて記憶されるゲームプログラム
に固有の画像データであっても良いし、カメラC1によ
って実在する人物を実写することによって取得された画
像データ、例えば、ゲーム端末機器G41の外部におい
て実在する人物などを実写することによって取得された
画像データを記録媒体22などからI/F21を介して
取り込んで記憶したものでも良い。つまり、キャラクタ
表情画像データに、実在する人物を実写することによっ
て取得された画像データを含めることによって、表示画
面D1に表示されるキャラクタ画像を実在する人で表現
することができる。その結果、音声を発する操作者は、
実在する人物になりきることができる。
【0192】なお、以上では、1つのキャラクタのキャ
ラクタ音声データおよびキャラクタ表情画像データのみ
について説明したが、キャラクターは1つに限られるも
のではなく、第1実施形態と同様に、ゲームプログラム
に元から記憶された複数のキャラクタであっても良い
し、カメラC1から取り込まれた人物などの表情を記憶
したものや、ゲーム端末機器G41の外部において取得
された画像データを記憶した記録媒体22からI/F2
1を介して取り込んで記憶し、キャラクタを複数として
も良い。
【0193】また、各ゲーム端末機器G41〜G44の
操作者に対応するキャラクタの設定を、図示を省略する
操作部を種々操作することによって実施することができ
る。したがって、各ゲーム端末機器G41〜G44ごと
に対応するキャラクタの種類がそれぞれ異なることによ
って、ゲーム空間上で、各ゲーム端末機器G41〜G4
4に対応するキャラクタをそれぞれ特定することが容易
に可能であり、各ゲーム端末機器G41〜G44の操作
者が特定のキャラクタになったものと感じることができ
る。さらに、画面に表示される1つのキャラクタが、操
作者の感情に対応した表情を表現するため、操作者は1
つのキャラクタになりきることができる。
【0194】音声・画像データ選択部70は、感情指定
部19bから入力される感情データ(AF)と、データ
変換部63から入力されるテキストデータ(AT)とに
対応するキャラクタ音声データ(AV)を記憶部14b
に格納されるキャラクタ音声データベースから選択す
る。つまり、音声・画像データ選択部70が、操作者の
発する音声に起因する情報であるテキストデータ(A
T)と音声を発する操作者の音声を発した際の感情を示
す感情データ(AF)とを入力する手段、テキストデー
タ(AT)と感情データ(AF)とに対応するキャラク
タ音声データ(AV)をキャラクタ音声データベースか
ら選択する手段として機能する。
【0195】また、音声・画像データ選択部70は、選
択したキャラクタ音声データ(AV)に対応する、キャ
ラクタ表情画像データ(AP)を音声−画像データベー
スから選択する。つまり、音声・画像データ選択部70
が、上述のごとく選択されたキャラクタ音声データ(A
V)に対応するキャラクタ表情画像データ(AP)を記
憶部14bに格納される音声−画像データベースから選
択する手段として機能する。
【0196】そして、音声・画像データ選択部70は、
上述のごとく選択したキャラクタ音声データ(AV)と
キャラクタ表情画像データ(AP)とを制御部20bに
出力する。
【0197】制御部20bは、主にCPUから構成さ
れ、ゲーム情報記憶部15に格納されているプログラム
にしたがって種々の制御および処理を行う。また、制御
部20bは、音声・画像データ選択部70から入力した
キャラクタ音声データ(AV)に基づくキャラクタ音声
をスピーカS1において出力させるとともに、音声・画
像データ選択部70から入力したキャラクタ表情画像デ
ータ(AP)に基づくキャラクタ画像を表示画面D1に
おいて出力させる。
【0198】そして、ここでは、制御部20bからスピ
ーカS1へのキャラクタ音声データ(AV)の出力と、
制御部20bから表示画面D1へのキャラクタ表情画像
データ(AP)の出力とを同期させる。このような制御
とすることで、スピーカS1によるキャラクタ音声デー
タ(AV)に基づくキャラクタ音声の出力と、表示画面
D1上に表示されるキャラクタ表情画像データ(AP)
に基づくキャラクタ画像の表示とを同期させるリップシ
ンク処理が行われる。
【0199】したがって、制御部20bが、音声・画像
データ選択部70によって選択されたキャラクタ音声デ
ータ(AV)とキャラクタ表情画像データ(AP)とを
出力する手段、およびキャラクタ表情画像データ(A
P)に基づくキャラクタ画像の表示とキャラクタ音声デ
ータ(AV)に基づく音声の出力とを同期させる手段と
して機能する。
【0200】その結果、画像上のキャラクタがあたかも
喋っているかのように見せることができる。また、ここ
では、音声がキャラクタ特有のキャラクタ音声に変換さ
れているため、通信相手側で音声が出力される場合など
においても、プライバシーの保護などを図ることが可能
となる。
【0201】なお、一般的にText To Speechと称される
公知の方法によっても、テキストデータから音声データ
に変換して音声データに基づいた音声を出力することが
できるが、この方法では、出力される音声に強弱や抑揚
がほとんどなく機械的な音声となるのが一般的である。
これに対して、本実施形態では、音声がキャラクタ特有
のキャラクタ音声となるため、感情を感じられる音声と
なり、画像上のキャラクタがあたかも喋っているかのよ
うにみせることができる。
【0202】また、通信部30は、感情指定部19bか
ら入力される感情データ(AF)、およびデータ変換部
63から入力されるテキストデータ(AT)をネットワ
ーク100を介して指定された通信先の通信端末にあた
る他のゲーム端末機器G42〜G44に送信する。言い
換えれば、通信部30が、音声関連データであるテキス
トデータ(AT)と感情データ(AF)とをネットワー
ク100を介して指定された通信先の通信端末にあたる
他のゲーム端末機器G42〜G44に送信する手段とし
て機能する。
【0203】以上では、操作者の発する音声に対応する
キャラクタ音声データおよびキャラクタ表情画像データ
の出力について注目して説明したが、実際には、ゲーム
を進行する上で、その他の画像データや音声データが存
在する。この点については、第1実施形態と同様に、制
御部20bが、ゲーム端末機器G41に対応するキャラ
クタ表情画像データ(AP)、他のゲーム端末機器G4
2〜G44に対応するキャラクタ表情画像データ(B
P)、およびその他のゲーム画面を示す画像データなど
を合成して表示画面D1に出力することで、表示画面D
1はゲーム画面全体を表示する。また、制御部20bの
制御の下で、ゲーム端末機器G41に対応するキャラク
タ音声データ(AV)、他のゲーム端末機器G42〜G
44に対応するキャラクタ音声データ(BV)、および
ゲーム音声データとを制御部20bが合成してスピーカ
S1に出力し、スピーカS1から音声が出力される。
【0204】また、制御部20bは、第1実施形態と同
様に、ゲーム情報記憶部15に記憶されるゲームプログ
ラムにしたがってゲーム全体を制御し、ゲームの進行状
況などのゲーム情報(A3)を通信部30、ネットワー
ク100を介して他のゲーム端末機器G42〜G44に
送信する。一方、ゲーム端末機器G41は、その他のゲ
ーム端末機器G42〜G44からもゲームの進行状況な
どのゲーム情報(B3)をネットワーク100を介し、
通信部30を通じて制御部20bによって受信する。そ
して、制御部20bは、ゲーム情報(B3)を反映させ
ながらゲーム全体を制御する。
【0205】<4−3.通信相手の音声に対応する画像
および音声の出力>次に、ゲーム端末機器G41が、そ
の他のゲーム端末機器G42〜G44の操作者である通
信相手の音声に対応する画像および音声を、それぞれ表
示画面D1およびスピーカS1において表示および出力
する場合について説明する。
【0206】ゲーム端末機器G42〜G44は、上述し
たように、ゲーム端末機器G41と同様な機器であり、
ゲーム端末機器G41は、ゲーム端末機器G42〜G4
4から送信される感情データ(BF)、テキストデータ
(BT)、およびゲーム情報(B3)をネットワーク1
00を介して、通信部30によって受信する。言い換え
れば、通信部30が、音声関連データであるテキストデ
ータ(BT)と感情データ(BF)とゲーム情報(B
3)とをネットワーク100を介して受信する手段とし
て機能する。
【0207】通信部30は、受信した感情データ(B
F)、テキストデータ(BT)、およびゲーム情報(B
3)を、制御部20bに出力し、制御部20bは、感情
データ(BF)、およびテキストデータ(BT)を音声
・画像データ選択部70に出力する。
【0208】音声・画像データ選択部70は、制御部2
0bから入力される感情データ(BF)およびテキスト
データ(BT)とに対応するキャラクタ音声データ(B
V)を記憶部14bに格納されるキャラクタ音声データ
ベースから選択し、制御部20bに出力する。また、音
声・画像データ選択部70は、選択したキャラクタ音声
データ(BV)に対応する、キャラクタ表情画像データ
(BP)を音声−画像データベースから選択し、制御部
20bに出力する。
【0209】そして、制御部20bは、音声・画像デー
タ選択部70から入力したキャラクタ音声データ(B
V)をスピーカS1から出力するとともに、音声・画像
データ選択部70から入力したキャラクタ表情画像デー
タ(BP)を表示画面D1に出力する。そして、ここで
は、制御部20bにおいて、スピーカS1へのキャラク
タ音声データ(BV)の出力と、表示画面D1へのキャ
ラクタ表情画像データ(BP)の出力とを同期させる。
つまり、スピーカS1によるキャラクタ音声データ(B
V)に基づくキャラクタ音声の出力と、表示画面D1に
よるキャラクタ表情画像データ(BP)に基づくキャラ
クタ画像の表示とを同期させるリップシンク処理が行わ
れる。
【0210】したがって、通信相手に対応する画像上の
キャラクタがあたかも喋っているかのように見せること
ができるため、通信相手の表情を含めた話す様子を表示
画面D1に表示されるキャラクタを通じて、認識するこ
とができ、臨場感のあるコミュニケーションを図ること
ができる。
【0211】また、以上では、ゲーム端末機器G41の
操作者自らの音声に対応するキャラクタ画像およびキャ
ラクタ音声を表示および出力する場合と同様に、通信相
手の音声に対応するキャラクタ表情画像データおよびキ
ャラクタ音声データの出力について注目して説明した
が、実際には、ゲームを進行する上で、その他の画像デ
ータや音声データが存在する。この点については、上述
したため、ここでは省略する。
【0212】<4−4.通信ゲームシステムとその他の
機能>ここでは、第1実施形態の通信ゲームシステムと
同様、図2に示すように、ネットワーク100を介し
て、ゲーム端末機器G41〜G44は、感情指定部19
bにおいて指定した感情データ(AF,BF)、データ
変換部63における音声データの変換結果であるテキス
トデータ(AT,BT)、および制御部20bにおいて
制御されるゲーム情報(A3,B3)を相互に送受信し
合う。よって、表示画面D1〜D4に表示されるゲーム
端末機器G41〜G44のそれぞれに対応するキャラク
ター画像が、スピーカS1〜S4において出力されるゲ
ーム端末機器G41〜G44それぞれの操作者の音声に
対応するキャラクタ音声と同期して、表情全体や口形を
変化させる。その結果、1つのゲーム空間を共有するプ
レーヤーが、お互いにコミュニケーションを取り合いな
がら、ゲームを楽しむことができる。
【0213】また、第1実施形態のゲーム端末機器G1
と同様、図10に示すように、ゲーム端末機器G41で
は、外部の記録媒体22からI/F21、制御部20b
を介して、ゲーム情報記憶部15にプログラムをインス
トールすることも可能である。ここでは、ゲーム端末機
器G41の音声認識部11、感情指定部19b、データ
変換部63、および音声・画像データ選択部70は、専
用の電子回路により構築され、ゲーム端末機器G41に
おける各データの流れおよび各機能の動作等は、主にC
PUから構成されている制御部20bにおいて統括制御
される。
【0214】<4−5.キャラクタ画像の表示について
>第4実施形態の通信ゲームシステム4においても、第
1実施形態の通信ゲームシステムと同様に、操作者の発
する音声に基づいて、表示画面D1に表示されるキャラ
クタ画像が変化する。そして、第4実施形態における表
示画面D1による画像表示およびスピーカS1による音
声出力については、キャラクタ表情画像データおよびキ
ャラクタ音声データの選択方法が異なるものの、第1実
施形態において図5に示すキャラクタ画像の変化を例に
とって説明したものとほぼ同様となる。
【0215】そこで、以下では、ゲーム端末機器G41
における動作の一例を説明する。なお、ここでは、操作
者が楽しそうに「もしもし」と音声を発しているものと
して説明する。
【0216】まず、マイクM1から「もしもし」という
操作者の音声に対応する音声データが音声認識部11お
よびデータ変換部63に入力される。ここでは、音声認
識部11から感情指定部19bにおける処理と、データ
変換部63における処理とが並行して行われることとな
るが、まず、音声認識部11から感情指定部19bにお
ける処理について説明し、続いてデータ変換部63にお
ける処理について説明する。
【0217】音声認識部11は、マイクM1から入力さ
れる音声データの特徴周波数成分を抽出し、その後、感
情指定部19bにおいて、音声認識部11において抽出
された音声データの特徴周波数成分に基づき、「楽」の
感情データ(AF)が指定され、その感情データ(A
F)を音声・画像データ選択部70に出力する。
【0218】一方、データ変換部63は、マイクM1か
ら入力される音声データを「もしもし」という文字(テ
キスト)を示すテキストデータ(AT)に変換し、その
テキストデータ(AT)を音声・画像データ選択部70
に出力する。
【0219】そして、音声・画像データ選択部70は、
感情指定部19bおよびデータ変換部63から入力され
る感情データ(AF)およびテキストデータ(AT)に
対応するキャラクタ音声データを記憶部14bに記憶さ
れるキャラクタ音声データベースから選択し、制御部2
0bに出力する。
【0220】その後、音声・画像データ選択部70は、
音声−画像データベースからキャラクタ音声データに対
応するキャラクタ表情画像データを選択し、制御部20
bに出力する。例えば、音声−画像データベースにおけ
るキャラクタ音声データとキャラクタ表情画像データと
の対応関係は、図5に示す上段の言語音と下段の画像デ
ータとの対応関係と同様な関係とすることができる。そ
して、このとき、音声・画像データ選択部70は、
「楽」の感情データに対応し、かつ、「もしもし」とい
ったキャラクタ音声データに対応するキャラクタ表情画
像データとして、図5の下段に示す画像データを選択す
ることとなる。
【0221】そして、最終的に、制御部20bの制御に
基づいて、スピーカS1によるキャラクタ音声データに
基づくキャラクタ音声の出力と、表示画面D1によるキ
ャラクタ表情画像データに基づくキャラクタ画像の表示
とを同期させるリップシンク処理が行われて、「もしも
し」というキャラクタ特有のキャラクタ音声と同期し
て、キャラクタ画像が表示画面D1上に表示される。こ
のときの模式図は第1実施形態において説明した図6に
示すようなものとなる。なお、ここでも第1実施形態に
おいて述べたように、紙面上では、動画を表現すること
も、キャラクタ特有のキャラクタ音声も表現することが
できないため、図6においては、便宜的に「もしもし」
のうちの「も」に対応するキャラクタの口形を示す画像
を示している。そして、ここでは、表示画面D1上に表
示されているキャラクタが動画となって、キャラクタが
自然に話をしているかのごとく感じさせることができ
る。
【0222】以上説明したように、第4実施形態のゲー
ム端末機器G41〜G44では、音声・画像データ選択
部70において、感情を示す感情データと、テキストデ
ータとに基づいて、キャラクタ特有のキャラクタ音声デ
ータを選択して出力する。その結果、音声を発する人の
感情を反映したキャラクタ特有の口調を具現化すること
ができるため、テキストデータの入力に合わせて、音声
を発する人の顔を表示することなく、音声を発する人の
プライバシーを守りつつ、感情を伝達できる。
【0223】また、本実施形態では、制御部20bの制
御のもとで、キャラクタ音声と、キャラクタ音声に対応
するキャラクタ画像とを同期させて出力する。その結
果、音声を発している人の化身としてキャラクタがあた
かも話しているかのごとく感じさせることができる。
【0224】また、通信ゲームシステム4では、データ
変換部63などにおいて音声データをテキストデータ
(AT,BT)に変換して、そのテキストデータ(A
T,BT)をネットワーク100を介して送受信しつ
つ、そのテキストデータ(AT,BT)に基づいて、音
声・画像データ選択部70でキャラクタ音声データやキ
ャラクタ表情画像データなどの選択処理を行う。このと
き、音声に起因する情報を示す音声関連データを音声の
周波数などを示す音声データではなく、テキストデータ
とすることで、音声関連データの容量を小さくしてい
る。その結果、音声・画像データ選択部70におけるキ
ャラクタ表情画像データやキャラクタ音声データなどの
選択処理や、音声関連データの解析処理などの各種処理
速度を向上させることができる。また、音声関連データ
の入出力速度や送受信速度の向上なども図ることもでき
るため、音声を発する人が音声を発してからキャラクタ
画像やキャラクタ音声が出力されるまでの時間を短縮す
ることができる。
【0225】さらに、通信ゲームシステム4では、ネッ
トワーク100を介して、相手側のゲーム端末機器G4
1〜G44から送信されてきた感情データとテキストデ
ータとに基づいて、キャラクタ特有のキャラクタ音声デ
ータを選択して出力する。その結果、音声を発する通信
相手の感情を反映したキャラクタ特有の口調を具現化す
ることができるため、通信相手側における音声データな
どの音声関連データの入力などに合わせて、音声を発す
る通信相手の顔を表示することなく、音声を発する通信
相手のプライバシーを守りつつ、感情を伝達することが
できる。
【0226】特に、本実施形態では、音声をキャラクタ
特有の音声に変換するため、音声を発する人のプライバ
シーの保護も図ることができる。
【0227】<5.変形例>以上、この発明の実施形態
について説明したが、この発明は上記説明した内容のも
のに限定されるものではない。
【0228】◎例えば、上述した実施形態では、各ゲー
ム端末機器G1〜G4,G11〜G14,G31〜G3
4,G41〜G44の操作者ごとに対応するキャラクタ
を設定し、そのキャラクタが操作者の音声に対応した表
情全体や口形を表現していたが、これに限られるもので
はなく、音声を発する操作者の感情の種類にそれぞれ対
応させた異なるキャラクタの画像データを画像データベ
ースに記憶し、音声を発する操作者の感情の種類にそれ
ぞれ対応させた異なるキャラクターをキャラクタ表情画
像データとして設定しても良い。このような構成とする
ことによって、操作者の話す様子を表すキャラクタの種
類が、操作者の話口調によって、種々変化するため、通
信相手に通信元の操作者の表情を含む話す様子をより分
かり易く伝えることができる。
【0229】すなわち、音声を発する操作者の感情の種
類にそれぞれ対応させたキャラクタを設定することによ
り、音声を発する人を表すキャラクタが、音声の調子な
どによって、種々変化する。その結果、音声を発する人
の表情を含む話す様子をより分かり易く表現することが
できる。
【0230】◎また、上述した実施形態では、キャラク
タ表情画像データは、平面画像や実際の人物などを表示
するための画像データであったが、これに限られるもの
ではなく、3次元コンピュータグラフィックスなどによ
る画像データであっても良い。このような構成とするこ
とにより、表示画面D1〜D4に表示されるキャラクタ
を3次元のコンピュータグラフィックスで表現するた
め、音声を発する人は好きな3Dキャラクタになりきる
ことができる。
【0231】◎また、上述した実施形態では、言語音デ
ータは、「あ」「い」「う」「え」「お」「ん」といっ
た5つの母音と「ん」の音を合わせた6つの言語音を示
していたが、これに限られるものではなく、「ぱ」
「ぷ」といった破裂音などの子音を含めたものであって
も良い。
【0232】◎また、上述した実施形態では、感情デー
タは、「喜」「怒」「哀」「楽」「普通」といった5つ
の感情を示していたが、これに限られるものではなく、
「苦」「驚愕」「疲労」「嘆き」といった他の感情を含
めたものであっても良い。
【0233】◎また、上述した第1実施形態では、記憶
部14およびゲーム情報記憶部15は、不揮発性の記憶
装置などであったが、これに限られるものではなく、第
1実施形態において記憶部14およびゲーム情報記憶部
15内に記憶されていたデータやプログラムに相当する
データやプログラムなどを記録媒体22に格納し、これ
らのデータやプログラムなどをI/F21を介して記録
媒体22から制御部20に読み出すものであっても良
い。
【0234】◎また、上述した第2実施形態では、ゲー
ム情報記憶部15および記憶部14は、不揮発性の記憶
装置などであったが、これに限られるものではなく、第
2実施形態においてゲーム情報記憶部15および記憶部
14内に記憶されていたデータやプログラムに相当する
データやプログラムなどをそれぞれ格納した記録媒体2
2,222に格納し、これらのデータやプログラムなど
をそれぞれI/F21,221を介して、記録媒体2
2,222から制御部20およびサーバ制御部220に
読み出すものであっても良い。
【0235】◎また、上述した第3および第4実施形態
では、ゲーム情報記憶部15、および記憶部14a,1
4bは不揮発性の記憶装置などであったが、これに限ら
れず、第3および第4実施形態においてゲーム情報記憶
部15、および記憶部14a,14b内に記憶されてい
た各種データやプログラムに相当するデータやプログラ
ムなどを光ディスクなどの記録媒体22に格納し、記録
媒体22に記憶されるデータやプログラムなどをそれぞ
れI/F21を介して、記録媒体22から制御部20,
20bに読み出すようなものとしても良い。
【0236】◎また、上述した第2実施形態では、出力
音声データ(A2,B2)およびゲーム情報(A3,B
3)を、ゲーム端末機器G11〜G14の間で相互に直
接送受信していたが、これに限られるものではなく、出
力音声データ(A2,B2)およびゲーム情報(A3,
B3)を、サーバ200を経由して相互に送受信するよ
うにしても良い。
【0237】◎また、上述した第3実施形態では、各ゲ
ーム端末機器G31〜G34において、感情データ(A
F,BF)と言語音データ(AS,BS)とに対応する
キャラクタ表情画像データを選択したが、これに限られ
るものではなく、例えば、ネットワーク100に感情デ
ータ(AF,BF)と言語音データ(AS,BS)とに
対応するキャラクタ表情画像データを選択することがで
きるサーバを設けるようなものであっても良い。
【0238】なお、サーバを設けた構成では、サーバは
各ゲーム端末機器G31〜G34からネットワーク10
0を介して感情データ(AF,BF)と言語音データ
(AS,BS)とを受信して、感情データ(AF,B
F)と言語音データ(AS,BS)とに対応するキャラ
クタ表情画像データを選択し、選択したキャラクタ表情
画像データを各ゲーム端末機器G31〜G34にネット
ワーク100を介して送信することができる。
【0239】その結果、各ゲーム端末機器G31〜G3
4には、感情データ(AF,BF)と言語音データ(A
S,BS)とに対応するキャラクタ表情画像データを選
択するための画像データ選択部13や画像データベース
などが不要となるため、各ゲーム端末機器G31〜G3
4の小型化ならびにコスト低減を図ることができる。
【0240】◎また、上述した第4実施形態では、各ゲ
ーム端末機器G41〜G44において、感情データ(A
F,BF)とテキストデータ(AT,BT)とに対応す
るキャラクタ音声データを選択し、さらに、キャラクタ
音声データに対応するキャラクタ表情画像データを選択
したが、これに限られるものではなく、例えば、ネット
ワーク100に感情データ(AF,BF)とテキストデ
ータ(AT,BT)とに対応するキャラクタ音声データ
を選択し、さらに、キャラクタ音声データに対応するキ
ャラクタ表情画像データを選択可能なサーバを設けるよ
うなものであっても良い。
【0241】なお、サーバを設けた構成では、サーバは
各ゲーム端末機器G41〜G44からネットワーク10
0を介して感情データ(AF,BF)とテキストデータ
(AT,BT)とを受信して、感情データ(AF,B
F)とテキストデータ(AT,BT)とに対応するキャ
ラクタ音声データを選択し、さらに、キャラクタ音声デ
ータに対応するキャラクタ表情画像データを選択して、
選択したキャラクタ音声データとキャラクタ表情画像デ
ータとを各ゲーム端末機器G41〜G44にネットワー
ク100を介して送信することができる。
【0242】その結果、各ゲーム端末機器G41〜G4
4には、感情データ(AF,BF)とテキストデータ
(AT,BT)とに対応するキャラクタ音声データおよ
びキャラクタ表情画像データを選択するための音声・画
像データ選択部70やキャラクタ音声データベースや音
声−画像データベースなどが不要となるため、各ゲーム
端末機器G41〜G44の小型化ならびにコスト低減を
図ることができる。
【0243】◎また、上述した第3および第4実施形態
のゲーム端末機器G31〜G34,G41〜G44で
は、音声認識部11、音声分類部12a、画像データ選
択部13、音声加工部16、顔検出部17、表情分析部
18、感情指定部19,19b、データ変換部63、お
よび音声・画像データ選択部70などの構成は、専用の
電子回路により構築されているが、これに限られるもの
ではなく、これらの構成において実行されるデータ処理
および演算処理を、主にCPUから構成される制御部2
0,20bにおいて、ゲーム情報記憶部15内のプログ
ラムに従って実施するようにしても良い。
【0244】◎また、上述した第3実施形態では、マイ
クM1〜M4から入力される音声データを音声加工部1
6において異なる音声データである出力音声データ(A
2,B2)に変換して、変換された出力音声データ(A
2,B2)に基づく音声をスピーカS1〜S4によって
出力したが、これに限られるものではなく、例えば、第
4実施形態と同様に、音声データやテキストデータなど
の音声に起因する情報と感情とに対応する、キャラクタ
特有のキャラクタ音声データを記憶するキャラクタ音声
データベースを記憶部14aに格納し、マイクM1〜M
4から入力される音声データを対応するテキストデータ
(AT,BT)に変換し、感情データ(AF,BF)と
テキストデータ(AT,BT)とに対応するキャラクタ
音声データ(AV,BV)をキャラクタ音声データベー
スから選択して、選択されたキャラクタ音声データ(A
V,BV)に基づくキャラクタ音声をスピーカS1〜S
4によって出力するようなものとしても良い。
【0245】このとき、感情を示す感情データと、音声
データやテキストデータなどの音声に起因する情報示す
音声関連データとに基づいて、キャラクタ音声データを
選択し、キャラクタ画像の表示とキャラクタ特有のキャ
ラクタ音声の出力とを同期させるため、音声を発してい
る人の化身としてキャラクタがあたかも話しているかの
ごとく感じさせることができる。
【0246】◎また、上述した第1実施形態から第3実
施形態では、ゲーム端末機器G1〜G4,G11〜G1
4,G31〜G34は、出力音声データ(A2,B2)
を送受信等していたが、これに限られるものではなく、
例えば、ゲーム端末機器G1〜G4,G11〜G14,
G31〜G34において、音声データをテキストデータ
に変換して、送受信などするようにしても良い。
【0247】なお、このとき、各ゲーム端末機器G1〜
G4,G11〜G14,G31〜G34には、音声デー
タをテキストデータに変換する部位、および受信したテ
キストデータを音声データに変換する部位が必要とな
る。しかし、出力音声データ(A2,B2)に比べてテ
キストデータに変換した方が音声関連データの容量を小
さくすることができるため、キャラクタ表情画像データ
やキャラクタ音声データなどの選択処理や、音声関連デ
ータの解析処理などの各種処理速度を向上させることが
できる。また、音声関連データの入出力および送受信速
度の向上なども図ることもできるため、通信相手または
操作者などが音声を発してから音声が出力されるまでの
時間を短縮することができる。
【0248】◎また、上述した第4実施形態では、キャ
ラクタ音声データに対応するキャラクタ表情画像データ
を音声−画像データベースから選択したが、これに限ら
れるものではなく、例えば、第3実施形態と同様に、音
声に起因する言語音や文字列(テキスト)などの情報と
感情とに対応する、キャラクタの表情全体と口形とを含
むキャラクタ表情画像データを記憶する画像データベー
スを記憶部14bに格納し、音声・画像データ選択部7
0が、感情データと音声に起因する言語音やテキストな
どの情報を示す音声関連データとに対応するキャラクタ
表情画像データを画像データベースから選択して、出力
するような構成としても良い。
【0249】すなわち、感情を示す感情データと音声デ
ータやテキストデータなどの音声に関する情報示す音声
関連データとに基づいて、キャラクタの表情全体と口形
とを含むキャラクタ表情画像データを選択し、キャラク
タ表情画像データに基づくキャラクタ画像の表示とキャ
ラクタ音声の出力とを同期させても良い。このような構
成とすることによって、音声を発している人の化身とし
てキャラクタがあたかも話しているかのごとく感じさせ
ることができる。
【0250】◎また、上述した第4実施形態では、記憶
部14bに格納されるキャラクタ音声データベースが、
テキストデータと感情とキャラクタ音声データとを対応
付けたデータベースとなっているが、これに限られるも
のではなく、例えば、操作者の発する音声をテキストデ
ータに変換せず、キャラクタ音声データベースを、音声
の周波数などを示す音声データと感情とキャラクタ音声
データとを関連付けたデータベースとし、音声・画像デ
ータ選択部70が、音声データと感情データ(AF,B
F)とに対応するキャラクタ音声データ(AV,BV)
を選択するようにしても良い。
【0251】
【発明の効果】以上説明したように、請求項1の発明に
よれば、入力される音声から音声を発する人の感情と発
声した言語音とを認識し、この感情および言語音に対応
する表情全体および口形を含む画像データを出力するこ
とによって、表情を含めた音声を発する人が話す様子
を、表示画面において表示されるキャラクタを通じて表
現することができ、また、音声を発する人は、表示画面
に表示されるキャラクタになりきることなどもできる。
【0252】また、請求項2の発明によれば、入力され
る音声に対応する音声データを分類した結果である基準
音声データを通信先に送信することにより、通信先の表
示画面に表示されるキャラクタを通じて、操作者などの
表情を含めた話す様子を通信先の相手に伝達することが
できるため、相手に素顔を知られることなく、感情を伝
達することができる。
【0253】また、請求項3の発明によれば、表示画面
において表示されるキャラクタの顔全体の表情および口
形と、スピーカから発せられる音声とを、同期させて表
現することができるため、声と感情を伝えることがで
き、さらに、表示画面に表示されるキャラクタがあたか
も話しているかのごとく感じさせることができる。
【0254】また、請求項4の発明によれば、入力され
る音声データを異なる音声データに変換することによっ
て、操作者などの声に種々の効果を付与して、少し異な
る声などにすることで、表示画面に表示されるキャラク
タになりきることや、プライバシーの保護などを図るこ
とが可能となる。
【0255】また、請求項5の発明によれば、通信先の
通信端末から受信した、言語音データと感情データとを
含む基準音声データに対応する表情全体および口形を含
む画像データを出力することによって、表情を含めた通
信相手が話す様子を表示画面において表示されるキャラ
クタを通じて表現することができるため、通信相手の素
顔を見ることなく、通信相手の感情を認識することがで
きる。
【0256】また、請求項6の発明によれば、表示画面
に表示されるキャラクタの顔全体の表情および口形と、
スピーカから発せられる音声とを、同期させて表現する
ことができるため、表示画面に表示されるキャラクタが
あたかも話しているかのごとく感じさせることができ
る。
【0257】また、請求項7の発明によれば、通信端末
ごとに対応する話す様子を表すキャラクタの種類が異な
ることによって、表示画面に表示される各通信端末の操
作者などに対応するキャラクタをそれぞれ特定すること
が容易にでき、また、各通信端末の操作者などが特定の
キャラクタになったものと感じることができる。
【0258】また、請求項8の発明によれば、基準音声
データが5つの母音に対応する言語音データを備えるこ
とにより、表示画面に表示されるキャラクタが自然に話
しをしているかのごとく感じさせることができる。
【0259】また、請求項9から請求項17の発明によ
れば、音声を発する人の顔を表示することなく、音声デ
ータやテキストデータなどの音声に起因する情報を示す
音声関連データなどの入力に合わせて、音声を発する人
の顔を表示することなく、音声を発する人のプライバシ
ーを守りつつ、感情の伝達が可能な画像作成装置を提供
することができる。
【0260】特に、請求項9の発明によれば、感情を示
すデータと、音声データやテキストデータなどの音声関
連データとに基づいて、キャラクタの表情全体と口形と
を含む画像データを選択して出力するため、音声を発す
る人の感情を反映したキャラクタの画像を表示すること
ができる。
【0261】また、請求項10の発明によれば、音声関
連データを解析することで得られる感情を示すデータ
と、音声を発する人の音声を発した際の顔に係る画像デ
ータを解析することで得られる感情を示すデータとの双
方に基づいて感情を示すデータを指定するため、音声関
連データと顔に係る画像データの状況に応じて、音声を
発する人の感情をより正確に反映させたキャラクタ画像
を表示することができる。
【0262】また、請求項11の発明によれば、音声を
発する人の音声を発した際の顔に係る画像データを解析
することで得られる表情感情データを、所定時での顔の
構成要素の位置と、音声を発した時の顔の構成要素の位
置との差分に基づいて指定することによって、通信相手
の機器などでは表情感情データを指定するための部位が
不要となるため、通信相手の機器などの小型化を図るこ
とができる。また、顔などに係る画像データよりも、顔
の構成要素の位置を示すデータの方が容量を小さくでき
るため、表情感情データを指定するためのデータの送信
時間などを短縮することができる。したがって、通信相
手が音声を発してから感情の伝達に至るまでの時間を短
縮することができる。
【0263】また、請求項12の発明によれば、キャラ
クタ画像の表示と音声の出力とを同期させることによっ
て、キャラクタが音声を発している人の感情を表現しつ
つ、音声を発している人の代わりに話しているように感
じさせることができる。
【0264】また、請求項13の発明によれば、感情を
示すデータと、音声データやテキストデータなどの音声
関連データとに基づいて、キャラクタ音声データを選択
し、キャラクタ画像の表示とキャラクタ特有の音声の出
力とを同期させることによって、音声を発している人の
化身としてキャラクタがあたかも話しているかのごとく
感じさせることができる。
【0265】また、請求項14の発明によれば、音声関
連データをテキストデータとすることによって、音声関
連データの容量を小さくすることができるため、キャラ
クタ画像データやキャラクタ音声データなどの選択処理
や、音声関連データの解析処理などの各種処理速度を向
上させることができる。また、音声関連データの入出力
および送受信速度の向上なども図ることもできるため、
通信相手または操作者などが音声を発してから音声が出
力されるまでの時間を短縮することができる。
【0266】また、請求項15の発明によれば、表示画
面に表示されるキャラクタを3次元のコンピュータグラ
フィックスで表現することによって、音声を発する人は
好きな3Dキャラクタになりきることができる。
【0267】また、請求項16の発明によれば、キャラ
クタ画像データに、実在する人物を実写することによっ
て取得された画像データを含めることによって、表示画
面に表示されるキャラクタを実在する人で表現すること
ができるため、音声を発する人は、実在する人物になり
きることができる。
【0268】また、請求項17の発明によれば、1つの
キャラクタに関して、音声を発する人の感情に対応させ
た表情を備えることにより、表示画面に表示される1つ
のキャラクタが、音声を発する人の感情に対応した表情
を表現するため、音声を発する人は1つのキャラクタに
なりきることができる。
【0269】また、請求項18の発明によれば、音声を
発する人の感情の種類にそれぞれ対応させた異なるキャ
ラクタについてのキャラクタ画像データを備えることに
より、音声を発する人を表すキャラクタの種類が、音声
の調子などによって、種々変化するため、音声を発する
人の表情を含む話す様子をより分かり易く表現すること
ができる。
【0270】また、請求項19の発明によれば、請求項
1から請求項18に記載の発明と同様の効果を得ること
ができる。
【0271】また、請求項20から請求項24の発明に
よれば、感情を示すデータと、音声データやテキストデ
ータなどの音声関連データとに基づいて、キャラクタ特
有のキャラクタ音声データを選択して出力することによ
って、音声を発する人の感情を反映したキャラクタ特有
の口調を具現化することができるため、音声データやテ
キストデータなどの音声関連データなどの入力に合わせ
て、音声を発する人の顔を表示することなく、音声を発
する人のプライバシーを守りつつ、感情の伝達が可能な
音声生成装置を提供することができる。特に、音声をキ
ャラクタ特有の音声に変換するため、音声を発する人の
プライバシーの保護も図ることができる。
【0272】特に、請求項21の発明によれば、キャラ
クタ音声と、キャラクタ音声に対応するキャラクタ画像
とを同期させて出力させることによって、音声を発して
いる人の化身としてキャラクタがあたかも話しているか
のごとく感じさせることができる。
【0273】また、請求項22の発明によれば、感情を
示す感情データと音声データやテキストデータなどの音
声関連データとに基づいて、キャラクタの表情全体と口
形とを含むキャラクタ画像データを選択し、キャラクタ
画像データに基づくキャラクタ画像の表示とキャラクタ
音声の出力とを同期させることによって、音声を発して
いる人の化身としてキャラクタがあたかも話しているか
のごとく感じさせることができる。
【0274】また、請求項23の発明によれば、音声関
連データをテキストデータとすることによって、音声関
連データの容量を小さくすることができるため、キャラ
クタ表情画像データやキャラクタ音声データなどの選択
処理や、音声関連データの解析処理などの各種処理速度
を向上させることができる。また、音声関連データの入
出力速度や送受信速度の向上なども図ることもできるた
め、音声を発する人が音声を発してからキャラクタ画像
やキャラクタ音声が出力されるまでの時間を短縮するこ
とができる。
【0275】また、請求項24の発明によれば、請求項
20から請求項23に記載の発明と同様の効果を得るこ
とができる。
【0276】また、請求項25の発明によれば、言語音
と感情とに対応するキャラクタの表情全体と口形とを含
む画像データを記憶するデータベースを備え、受信した
音声関連データが示す感情および言語音に対応する表情
全体および口形を含むキャラクタ画像データを選択し
て、通信端末に送信することにより、通信端末の表示画
面に、音声データから認識される感情および言語音に対
応する表情全体および口形を含むキャラクタ画像データ
に基づく画像を表示することができるため、表示画面に
表示されるキャラクタを通じて、音声を発した人が話す
様子を表情を含めて表現することができる。
【0277】また、請求項26の発明によれば、請求項
25に記載の発明と同様の効果を得ることができる。
【0278】また、請求項27の発明によれば、請求項
19、請求項24、および請求項26に記載の発明と同
様の効果を得ることができる。
【0279】また、請求項28の発明によれば、通信回
線を介して、相手側の通信端末から送信されてきた、音
声を発する通信相手の感情を示すデータと、音声データ
やテキストデータなどの音声関連データとに基づいて、
キャラクタの表情全体と口形とを含むキャラクタ画像デ
ータを選択して出力するため、音声データやテキストデ
ータなどの音声関連データなどの入力に合わせて、音声
を発する通信相手の顔を表示することなく、音声を発す
る通信相手のプライバシーを守りつつ、感情の伝達が可
能な画像作成システムを提供することができる。
【0280】また、請求項29の発明によれば、通信端
末ごとに対応する話す様子を表すキャラクタの種類が異
なることによって、表示画面に表示される各通信端末の
操作者などに対応するキャラクタをそれぞれ特定するこ
とが容易にでき、また、各通信端末の操作者などが特定
のキャラクタになったものと感じることができる。
【0281】また、請求項30の発明によれば、通信回
線を介して、相手側の通信端末から送信されてきた音声
を発する通信相手の感情を示すデータと、音声データや
テキストデータなどの音声関連データとに基づいて、キ
ャラクタ特有のキャラクタ音声データを選択して出力す
ることによって、音声を発する通信相手の感情を反映し
たキャラクタ特有の口調を具現化することができるた
め、通信相手側における音声データやテキストデータな
どの音声関連データなどの入力に合わせて、音声を発す
る通信相手の顔を表示することなく、音声を発する通信
相手のプライバシーを守りつつ、感情を伝達できる。特
に、音声をキャラクタ特有の音声に変換するため、通信
相手のプライバシーの保護も図ることができる。
【図面の簡単な説明】
【図1】本発明に係る第1実施形態の通信ゲームシステ
ムの概要を示す図である。
【図2】第1実施形態の通信ゲームシステムの通信形態
を説明する図である。
【図3】言語音データに対応するキャラクタ表情画像デ
ータの一例を説明する図である。
【図4】感情データに対応するキャラクタ表情画像デー
タの一例を説明する図である。
【図5】音声に基づいてキャラクタ表情画像データが変
化する様子を示す図である。
【図6】キャラクタ画像が表示画面D1上に表示される
際の模式図である。
【図7】本発明の第2実施形態に係る通信ゲームシステ
ムの概要を説明する図である。
【図8】第2実施形態の通信ゲームシステムの通信形態
を説明する図である。
【図9】本発明の第3実施形態に係る通信ゲームシステ
ムの概要を説明する図である。
【図10】本発明の第4実施形態に係る通信ゲームシス
テムの概要を説明する図である。
【符号の説明】
3,4 通信ゲームシステム 11 音声認識部 12,12a 音声分類部 13 画像データ選択部 14,14a,14b 記憶部 16 音声加工部 17 顔検出部 18 表情分析部 19,19b 感情指定部 20,20b 制御部 22,222 記録媒体 30,230 通信部 70 音声・画像データ選択部 200 サーバ 220 サーバ制御部 C1〜C4 カメラ D1〜D4 表示画面 G1〜G4,G11〜G14,G31〜G34,G41
〜G44 ゲーム端末機器 M1〜M4 マイク S1〜S4 スピーカ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) A63F 13/12 A63F 13/12 C G06F 3/16 320 G06F 3/16 320H G10L 13/00 G10L 3/00 551H 15/00 531N 15/10 571T 15/22 R 19/00 N 531Z (72)発明者 杉本 隆 大阪市淀川区宮原4丁目1番6号 株式会 社メガチップス内 (72)発明者 長谷川 弘 大阪市淀川区宮原4丁目1番6号 株式会 社メガチップス内 Fターム(参考) 2C001 BA03 BB10 BC05 BC08 BC09 BC10 CA00 CA07 CB08 CC00 CC08 CC09 DA06 5B050 AA08 BA08 BA12 EA24 FA02 FA10 5D015 AA06 JJ01 KK02 5D045 AB11

Claims (30)

    【特許請求の範囲】
  1. 【請求項1】 アニメーションデータを作成する画像作
    成装置であって、入力される音声に対応する音声データ
    を受け取り、前記音声データの周波数を解析することに
    より前記音声データの特徴周波数成分を抽出する音声認
    識手段と、 前記音声データを前記特徴周波数成分に基づいて、言語
    音データと感情データとを含む予め設定された基準音声
    データに分類する音声分類手段と、 前記基準音声データと対応する、キャラクタの表情全体
    と口形とを含むキャラクタ画像データを記憶する画像デ
    ータベースと、 前記音声分類手段による分類結果である基準音声データ
    に対応するキャラクタ画像データを前記画像データベー
    スから選択する画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを出力する画像データ出力手段と、を備える
    ことを特徴とする画像作成装置。
  2. 【請求項2】 請求項1に記載の画像作成装置であっ
    て、 当該画像作成装置は通信回線に接続された通信端末とし
    て構成されており、 前記音声分類手段による分類結果である基準音声データ
    を指定された通信先の通信端末に送信する通信手段、を
    さらに備えることを特徴とする画像作成装置。
  3. 【請求項3】 請求項1または請求項2に記載の画像作
    成装置であって、 前記入力される音声に基づいた出力音声データを出力す
    る音声データ出力手段と、 前記画像データ出力手段から出力されるキャラクタ画像
    データに基づく画像の表示と、前記音声データ出力手段
    から出力される出力音声データに基づく音声の出力とを
    同期させる手段と、を備えることを特徴とする画像作成
    装置。
  4. 【請求項4】 請求項3に記載の画像作成装置であっ
    て、 前記入力される音声に対応する音声データを異なる音声
    データである前記出力音声データに変換する音声変換手
    段をさらに備えることを特徴とする画像作成装置。
  5. 【請求項5】 アニメーションデータを作成する画像作
    成装置であって、 当該画像作成装置は通信回線に接続された通信端末とし
    て構成されており、 言語音データと感情データとを含む予め設定された基準
    音声データに対応する、キャラクタの表情全体と口形と
    を含むキャラクタ画像データを記憶する画像データベー
    スと、 入力される音声に対応する音声データに基づいた基準音
    声データを通信先の通信端末から受信する受信手段と、 前記受信手段によって受信された基準音声データに対応
    するキャラクタ画像データを前記画像データベースから
    選択する画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを出力する画像データ出力手段と、を備える
    ことを特徴とする画像作成装置。
  6. 【請求項6】 請求項5に記載の画像作成装置であっ
    て、 前記入力される音声に基づいた出力音声データを出力す
    る音声データ出力手段と、 前記画像データ出力手段から出力されるキャラクタ画像
    データに基づく画像の表示と、前記音声データ出力手段
    から出力される出力音声データに基づく音声の出力とを
    同期させる手段と、をさらに備えることを特徴とする画
    像作成装置。
  7. 【請求項7】 請求項5または請求項6に記載の画像作
    成装置であって、 通信端末ごとに対応する前記キャラクタの種類がそれぞ
    れ異なることを特徴とする画像作成装置。
  8. 【請求項8】 請求項1から請求項7のいずれかに記載
    の画像作成装置であって、 前記基準音声データは、5つの母音に対応する言語音デ
    ータを備えることを特徴とする画像作成装置。
  9. 【請求項9】 アニメーションデータを作成する画像作
    成装置であって、 音声に起因する情報を示す音声関連データを入力する音
    声関連データ入力手段と、 前記音声を発する人の前記音声を発した際の感情を示す
    感情データを入力する感情データ入力手段と、 前記音声に起因する情報と前記感情とに対応する、キャ
    ラクタの表情全体と口形とを含むキャラクタ画像データ
    を記憶する画像データベースと、 前記音声関連データと、前記感情データとに対応するキ
    ャラクタ画像データを前記画像データベースから選択す
    る画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを出力する画像データ出力手段と、を備える
    ことを特徴とする画像作成装置。
  10. 【請求項10】 請求項9に記載の画像作成装置であっ
    て、 前記音声関連データを解析することによって得られる感
    情を示す音声感情データを入力する音声感情データ入力
    手段と、 前記音声を発する人の前記音声を発した際の顔に係る顔
    画像データを解析することによって得られる感情を示す
    表情感情データを入力する表情感情データ入力手段と、 前記音声感情データと前記表情感情データとに基づい
    て、前記感情データ入力手段に入力される前記感情デー
    タを指定する感情データ指定手段と、をさらに備えるこ
    とを特徴とする画像作成装置。
  11. 【請求項11】 請求項10に記載の画像作成装置であ
    って、 前記音声を発する人の所定時における顔の構成要素の位
    置と、前記音声を発する人の前記音声を発した時におけ
    る顔の構成要素の位置との差分に基づいて、前記表情感
    情データ入力手段に入力される前記表情感情データを指
    定する表情感情データ指定手段、をさらに備えることを
    特徴とする画像作成装置。
  12. 【請求項12】 請求項9から請求項11のいずれかに
    記載の画像作成装置であって、 前記音声関連データに基づいた出力音声データを出力す
    る音声データ出力手段と、 前記画像データ出力手段から出力されるキャラクタ画像
    データに基づくキャラクタ画像の表示と、前記音声デー
    タ出力手段から出力される出力音声データに基づく音声
    の出力とを同期させる手段と、をさらに備えることを特
    徴とする画像作成装置。
  13. 【請求項13】 請求項12に記載の画像作成装置であ
    って、 音声に起因する情報と感情とに対応する、キャラクタ特
    有のキャラクタ音声データを記憶するキャラクタ音声デ
    ータベースと、 前記音声関連データと前記感情データとに対応するキャ
    ラクタ音声データを前記キャラクタ音声データベースか
    ら選択する音声データ選択手段と、をさらに備え、 前記音声データ出力手段が、 前記音声データ選択手段によって選択されたキャラクタ
    音声データを出力することを特徴とする画像作成装置。
  14. 【請求項14】 請求項9から請求項13のいずれかに
    記載の画像作成装置であって、 前記音声関連データが、 音声に起因するテキストデータであることを特徴とする
    画像作成装置。
  15. 【請求項15】 請求項1から請求項14のいずれかに
    記載の画像作成装置であって、 前記キャラクタ画像データは、3次元コンピュータグラ
    フィックスによる画像データを含むことを特徴とする画
    像作成装置。
  16. 【請求項16】 請求項1から請求項14のいずれかに
    記載の画像作成装置であって、 前記キャラクタ画像データは、実在する人物を実写する
    ことによって取得された画像データを含むことを特徴と
    する画像作成装置。
  17. 【請求項17】 請求項1から請求項16のいずれかに
    記載の画像作成装置であって、 前記画像データベースは、1つのキャラクタに関して、
    前記感情データの種類にそれぞれ対応する、キャラクタ
    の表情全体を含むキャラクタ画像データを備えることを
    特徴とする画像作成装置。
  18. 【請求項18】 請求項1から請求項16のいずれかに
    記載の画像作成装置であって、 前記画像データベースは、前記感情データの種類にそれ
    ぞれ対応させた異なるキャラクタについてのキャラクタ
    画像データを備えることを特徴とする画像作成装置。
  19. 【請求項19】 画像作成装置に含まれるコンピュータ
    によって実行されることにより、前記画像作成装置を、
    請求項1から請求項18のいずれかに記載の画像作成装
    置として機能させるプログラム。
  20. 【請求項20】 音声データを生成する音声生成装置で
    あって、 音声に起因する情報を示す音声関連データを入力する音
    声関連データ入力手段と、 前記音声を発する人の前記音声を発した際の感情を示す
    感情データを入力する感情データ入力手段と、 前記音声に起因する情報と前記感情とに対応する、キャ
    ラクタ特有のキャラクタ音声データを記憶するキャラク
    タ音声データベースと、 前記音声関連データと前記感情データとに対応するキャ
    ラクタ音声データを前記キャラクタ音声データベースか
    ら選択する音声データ選択手段と、 前記音声データ選択手段によって選択されたキャラクタ
    音声データを出力する音声データ出力手段と、を備える
    ことを特徴とする音声生成装置。
  21. 【請求項21】 請求項20に記載の音声生成装置であ
    って、 前記キャラクタ音声データに対応する、キャラクタの表
    情全体と口形とを含むキャラクタ画像データを記憶する
    画像データベースと、 前記音声データ選択手段によって選択されたキャラクタ
    音声データに対応するキャラクタ画像データを前記画像
    データベースから選択する画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを出力する画像データ出力手段と、 前記画像データ出力手段から出力されるキャラクタ画像
    データに基づくキャラクタ画像の表示と、前記音声デー
    タ出力手段から出力されるキャラクタ音声データに基づ
    くキャラクタ音声の出力とを同期させる手段と、をさら
    に備えることを特徴とする音声生成装置。
  22. 【請求項22】 請求項20に記載の音声生成装置であ
    って、 音声に起因する情報と感情とに対応する、キャラクタの
    表情全体と口形とを含むキャラクタ画像データを記憶す
    る画像データベースと、 前記音声関連データと前記感情データとに対応するキャ
    ラクタ画像データを前記画像データベースから選択する
    画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを出力する画像データ出力手段と、 前記画像データ出力手段から出力されるキャラクタ画像
    データに基づくキャラクタ画像の表示と、前記音声デー
    タ出力手段から出力されるキャラクタ音声データに基づ
    くキャラクタ音声の出力とを同期させる手段と、を備え
    ることを特徴とする音声生成装置。
  23. 【請求項23】 請求項20から請求項22のいずれか
    に記載の音声生成装置であって、 前記音声関連データが、 音声に起因するテキストデータであることを特徴とする
    音声生成装置。
  24. 【請求項24】 音声生成装置に含まれるコンピュータ
    によって実行されることにより、前記音声生成装置を、
    請求項20から請求項23のいずれかに記載の音声生成
    装置として機能させるプログラム。
  25. 【請求項25】 アニメーションデータを作成する画像
    作成システムにおいて使用される画像作成用サーバであ
    って、 言語音データと感情データとを含む予め設定された基準
    音声データに対応する、キャラクタの表情全体と口形と
    を含むキャラクタ画像データを記憶する画像データベー
    スと、 入力される音声に対応する音声データに基づいた基準音
    声データを受信する受信手段と、 前記受信手段によって受信された基準音声データに対応
    するキャラクタ画像データを前記画像データベースから
    選択する画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを通信回線を介して送信する送信手段と、を
    備えることを特徴とする画像作成用サーバ。
  26. 【請求項26】 サーバに含まれるコンピュータによっ
    て実行されることにより、前記サーバを、請求項25に
    記載のサーバとして機能させるプログラム。
  27. 【請求項27】 請求項19、請求項24および請求項
    26のいすれかに記載されたプログラムを記録してある
    ことを特徴とする、コンピュータ読み取り可能な記録媒
    体。
  28. 【請求項28】 アニメーションデータを作成する画像
    作成システムであって、 通信回線と、 前記通信回線を介して接続された第1および第2の通信
    端末と、を備え、 前記第1の通信端末が、 音声に起因する情報を示す音声関連データを前記通信回
    線を介して前記第2の通信端末に送信する音声関連デー
    タ送信手段と、 前記音声を発する人の前記音声を発した際の感情を示す
    感情データを前記通信回線を介して前記第2の通信端末
    に送信する感情データ送信手段と、 を有し、 前記第2の通信端末が、 前記音声関連データを受信する音声関連データ受信手段
    と、 前記感情データを受信する感情データ受信手段と、 音声に起因する情報と感情とに対応する、キャラクタの
    表情全体と口形とを含むキャラクタ画像データを記憶す
    る画像データベースと、 前記感情データと前記音声関連データとに対応するキャ
    ラクタ画像データを前記画像データベースから選択する
    画像データ選択手段と、 前記画像データ選択手段によって選択されたキャラクタ
    画像データを出力する画像データ出力手段と、を有する
    ことを特徴とする画像作成システム。
  29. 【請求項29】 請求項28に記載の画像作成システム
    であって、 通信端末ごとに対応する前記キャラクタの種類がそれぞ
    れ異なることを特徴とする画像作成システム。
  30. 【請求項30】 音声データを生成する音声生成システ
    ムであって、 通信回線と、 前記通信回線を介して接続された第1および第2の通信
    端末と、を備え、 前記第1の通信端末が、 音声に起因する情報を示す音声関連データを前記通信回
    線を介して前記第2の通信端末に送信する音声関連デー
    タ送信手段と、 前記音声を発する人の前記音声を発した際の感情を示す
    感情データを前記通信回線を介して前記第2の通信端末
    に送信する感情データ送信手段と、を有し、 前記第2の通信端末が、 前記音声関連データを受信する音声関連データ受信手段
    と、 前記感情データを受信する感情データ受信手段と、 音声に起因する情報と感情とに対応する、キャラクタ特
    有のキャラクタ音声データを記憶するキャラクタ音声デ
    ータベースと、 前記音声関連データと前記感情データとに対応するキャ
    ラクタ音声データを前記キャラクタ音声データベースか
    ら選択する音声データ選択手段と、 前記音声データ選択手段によって選択されたキャラクタ
    音声データを出力する音声データ出力手段と、を有する
    ことを特徴とする音声生成システム。
JP2002322340A 2001-11-12 2002-11-06 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体 Pending JP2003248837A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002322340A JP2003248837A (ja) 2001-11-12 2002-11-06 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001345964 2001-11-12
JP2001-345964 2001-11-12
JP2002322340A JP2003248837A (ja) 2001-11-12 2002-11-06 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体

Publications (1)

Publication Number Publication Date
JP2003248837A true JP2003248837A (ja) 2003-09-05

Family

ID=28676732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002322340A Pending JP2003248837A (ja) 2001-11-12 2002-11-06 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP2003248837A (ja)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106711A (ja) * 2004-09-10 2006-04-20 Matsushita Electric Ind Co Ltd 情報処理端末
JP2006301063A (ja) * 2005-04-18 2006-11-02 Yamaha Corp コンテンツ提供システム、コンテンツ提供装置および端末装置
JP2009536406A (ja) * 2006-05-07 2009-10-08 株式会社ソニー・コンピュータエンタテインメント ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
WO2010047027A1 (ja) * 2008-10-21 2010-04-29 日本電気株式会社 情報処理装置
JP2010142553A (ja) * 2008-12-22 2010-07-01 Nintendo Co Ltd ゲームプログラムおよびゲーム装置
JP2010142585A (ja) * 2008-12-22 2010-07-01 Nintendo Co Ltd ゲームプログラムおよびゲーム装置
JP2011055483A (ja) * 2009-08-06 2011-03-17 Bond:Kk 番組画像配信システム、番組画像配信方法及びプログラム
JP2011516954A (ja) * 2008-03-31 2011-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザ命令に基づいて表示を変更する方法
JP2012078526A (ja) * 2010-09-30 2012-04-19 Xing Inc カラオケシステム
US8407055B2 (en) 2005-08-05 2013-03-26 Sony Corporation Information processing apparatus and method for recognizing a user's emotion
JP2013152715A (ja) * 2012-01-17 2013-08-08 Ntt Docomo Inc 頭部アニメーションを実行するためのコンピュータによる方法及び装置
JP2014147650A (ja) * 2013-02-04 2014-08-21 Nintendo Co Ltd ゲームシステム、ゲーム装置、ゲーム処理方法及びゲームプログラム
JP2015032844A (ja) * 2013-07-31 2015-02-16 Kddi株式会社 音声伝達装置、音声伝達方法
WO2017150103A1 (ja) * 2016-02-29 2017-09-08 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
CN107204027A (zh) * 2016-03-16 2017-09-26 卡西欧计算机株式会社 图像处理装置、显示装置、动画生成方法以及动画显示方法
WO2017163509A1 (ja) * 2016-03-22 2017-09-28 ソニー株式会社 情報処理システムおよび情報処理方法
US9898850B2 (en) 2011-02-01 2018-02-20 BOND Co., Ltd. Support and complement device, support and complement method, and recording medium for specifying character motion or animation
JP2019024748A (ja) * 2017-07-27 2019-02-21 株式会社バンダイナムコエンターテインメント 画像生成装置及びプログラム
US10293260B1 (en) * 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
JP2020052775A (ja) * 2018-09-27 2020-04-02 株式会社コロプラ プログラム、仮想空間の提供方法および情報処理装置
JP2020181022A (ja) * 2019-04-23 2020-11-05 コニカミノルタ株式会社 会議支援装置、会議支援システム、および会議支援プログラム
JP6993034B1 (ja) 2021-05-14 2022-01-13 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106711A (ja) * 2004-09-10 2006-04-20 Matsushita Electric Ind Co Ltd 情報処理端末
JP2006301063A (ja) * 2005-04-18 2006-11-02 Yamaha Corp コンテンツ提供システム、コンテンツ提供装置および端末装置
US8407055B2 (en) 2005-08-05 2013-03-26 Sony Corporation Information processing apparatus and method for recognizing a user's emotion
JP2009536406A (ja) * 2006-05-07 2009-10-08 株式会社ソニー・コンピュータエンタテインメント ゲームプレイ中にコンピュータ生成アバターに感情的特徴を与える方法
JP2011516954A (ja) * 2008-03-31 2011-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザ命令に基づいて表示を変更する方法
WO2010047027A1 (ja) * 2008-10-21 2010-04-29 日本電気株式会社 情報処理装置
JP5381994B2 (ja) * 2008-10-21 2014-01-08 日本電気株式会社 情報処理装置
US8974296B2 (en) 2008-12-22 2015-03-10 Nintendo Co., Ltd Game program and game apparatus
JP2010142553A (ja) * 2008-12-22 2010-07-01 Nintendo Co Ltd ゲームプログラムおよびゲーム装置
JP2010142585A (ja) * 2008-12-22 2010-07-01 Nintendo Co Ltd ゲームプログラムおよびゲーム装置
US8852003B2 (en) 2008-12-22 2014-10-07 Nintendo Co., Ltd. Storage medium storing a game program, game apparatus and game controlling method
US9421462B2 (en) 2008-12-22 2016-08-23 Nintendo Co., Ltd. Storage medium storing a game program, game apparatus and game controlling method
JP2011055483A (ja) * 2009-08-06 2011-03-17 Bond:Kk 番組画像配信システム、番組画像配信方法及びプログラム
JP2012078526A (ja) * 2010-09-30 2012-04-19 Xing Inc カラオケシステム
US9898850B2 (en) 2011-02-01 2018-02-20 BOND Co., Ltd. Support and complement device, support and complement method, and recording medium for specifying character motion or animation
JP2013152715A (ja) * 2012-01-17 2013-08-08 Ntt Docomo Inc 頭部アニメーションを実行するためのコンピュータによる方法及び装置
JP2014147650A (ja) * 2013-02-04 2014-08-21 Nintendo Co Ltd ゲームシステム、ゲーム装置、ゲーム処理方法及びゲームプログラム
JP2015032844A (ja) * 2013-07-31 2015-02-16 Kddi株式会社 音声伝達装置、音声伝達方法
US10293260B1 (en) * 2015-06-05 2019-05-21 Amazon Technologies, Inc. Player audio analysis in online gaming environments
WO2017150103A1 (ja) * 2016-02-29 2017-09-08 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
US10943596B2 (en) 2016-02-29 2021-03-09 Panasonic Intellectual Property Management Co., Ltd. Audio processing device, image processing device, microphone array system, and audio processing method
EP3425635A4 (en) * 2016-02-29 2019-03-27 Panasonic Intellectual Property Management Co., Ltd. AUDIO PROCESSING DEVICE, IMAGE PROCESSING DEVICE, MICROPHONE NETWORK SYSTEM, AND AUDIO PROCESSING METHOD
JPWO2017150103A1 (ja) * 2016-02-29 2019-01-31 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
CN107204027A (zh) * 2016-03-16 2017-09-26 卡西欧计算机株式会社 图像处理装置、显示装置、动画生成方法以及动画显示方法
CN107204027B (zh) * 2016-03-16 2021-03-12 卡西欧计算机株式会社 图像处理装置、显示装置、动画生成方法以及动画显示方法
WO2017163509A1 (ja) * 2016-03-22 2017-09-28 ソニー株式会社 情報処理システムおよび情報処理方法
JPWO2017163509A1 (ja) * 2016-03-22 2019-01-31 ソニー株式会社 情報処理システムおよび情報処理方法
JP7070638B2 (ja) 2016-03-22 2022-05-18 ソニーグループ株式会社 情報処理システムおよび情報処理方法
JP2021039370A (ja) * 2016-03-22 2021-03-11 ソニー株式会社 情報処理システムおよび情報処理方法
JP2019024748A (ja) * 2017-07-27 2019-02-21 株式会社バンダイナムコエンターテインメント 画像生成装置及びプログラム
JP2020052775A (ja) * 2018-09-27 2020-04-02 株式会社コロプラ プログラム、仮想空間の提供方法および情報処理装置
WO2020089961A1 (ja) * 2018-10-29 2020-05-07 健一 海沼 音声処理装置、およびプログラム
US10964308B2 (en) 2018-10-29 2021-03-30 Ken-ichi KAINUMA Speech processing apparatus, and program
JP6582157B1 (ja) * 2018-10-29 2019-09-25 健一 海沼 音声処理装置、およびプログラム
JP2020181022A (ja) * 2019-04-23 2020-11-05 コニカミノルタ株式会社 会議支援装置、会議支援システム、および会議支援プログラム
JP7279494B2 (ja) 2019-04-23 2023-05-23 コニカミノルタ株式会社 会議支援装置、および会議支援システム
JP2022530726A (ja) * 2020-03-31 2022-07-01 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体
JP6993034B1 (ja) 2021-05-14 2022-01-13 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム
JP2022175923A (ja) * 2021-05-14 2022-11-25 Aiインフルエンサー株式会社 コンテンツ再生方法、及びコンテンツ再生システム

Similar Documents

Publication Publication Date Title
JP2003248837A (ja) 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
WO2022048403A1 (zh) 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
US6813607B1 (en) Translingual visual speech synthesis
CN108962217B (zh) 语音合成方法及相关设备
Chen Audiovisual speech processing
Chen et al. Audio-visual integration in multimodal communication
CN113454708A (zh) 语言学风格匹配代理
US8725507B2 (en) Systems and methods for synthesis of motion for animation of virtual heads/characters via voice processing in portable devices
JP3125746B2 (ja) 人物像対話装置及び人物像対話プログラムを記録した記録媒体
JPH09138767A (ja) 感情表現の通信装置
KR102098734B1 (ko) 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말
JP2002244688A (ja) 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
JP2002150317A (ja) 映像表示装置
JP2003085572A (ja) 漫画生成装置及び漫画生成プログラム
JPH05216618A (ja) 音声対話システム
JP7279494B2 (ja) 会議支援装置、および会議支援システム
JP2005518581A (ja) 漫画化トーキングヘッドを生成するための方法及びシステム
US20040107106A1 (en) Apparatus and methods for generating visual representations of speech verbalized by any of a population of personas
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
JPH11109991A (ja) マンマシンインターフェースシステム
KR20210085938A (ko) 영상의 음성을 2d 및 3d 아바타, 애니메이션으로 번역해주는 수화번역 시스템 및 그 제어방법
Verma et al. Animating expressive faces across languages
JP2004015478A (ja) 音声通信端末装置
JP4254400B2 (ja) 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体
KR20230102753A (ko) 아바타를 통해 영상의 음성을 수어로 통역하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080924