会話する本人及び相手の意思疎通は、音声信号によるバーバル情報が中心であるが、良好な意思疎通を実現するには、音声信号以外のノンバーバル情報が欠かせない。特許文献1及び特許文献2は、前記ノンバーバル情報の提供手段として動くアバターを用いている点で共通している。ところが、特許文献1の携帯電話は、アバターの動きがノンバーバル情報となるように本人又は相手の感情状態を推定する計算処理が必要で、実写動画よりデータ量又は計算量が少ないアバターを用いる利点を害している。また、本人及び相手の音声信号から人間の感情を推定することは難しく、果たして適切なノンバーバル情報をアバターの動きにより表現できるか疑問である。
この点、特許文献2の携帯電話は、本人又は相手が意図的にアバターを操作し、自身の感情を直接アバターの動きとして表現できるため、より適切なノンバーバル情報が提供できると考えられる。しかし、本人又は相手が操作しない間、アバターは単に音声信号の強弱に応答して動くのみで、時折本人又は相手がアバターを操作するだけでは、アバターの動きによるノンバーバル情報の取得が間断的になりすぎて、適切なノンバーバル情報をアバターの動きにより表現できるとは考えにくい。
相手と会話する本人は、会話の流れにおける話す又は聞くといったタイミングを節としたリズムを感得し、前記リズムからノンバーバル情報を取得することにより、良好な意思疎通を実現する。ここで、前記話す又は聞くといったリズムが「会話における本人の身体リズム(以下、身体リズムと略)」である。上記特許文献1及び特許文献2は、こうした身体リズムに考慮が払われていない。しかし、本人又は相手に代わるアバターを用いて意思疎通を図る場合、アバターの動きにより身体リズムを感得させることが、本人にノンバーバル情報を取得させる最善の手段である。そこで、本人又は相手に代わるアバターにより会話における本人の身体リズムを本人に感得させることにより、本人にノンバーバル情報を取得させる携帯電話、固定電話や無線装置等の通話端末を開発するため、検討した。
検討の結果開発したものが、隔地者である本人及び相手が会話する際に本人が用いる通話端末であって、画面に本人アバターを表示するアバター表示機能を付加した通話端末において、本人及び相手の音声信号から推定される話し手タイミング及び聞き手タイミングや本人の操作信号から特定される特別タイミングを本人アバターのリズムタイミングとし、このリズムタイミングで実行するリズム動作として本人アバターの話し手動作及び聞き手動作を作り出し、前記リズムタイミングでリズム動作に従って動く本人アバターの動画を相手の実写動画と重ね合わせたリズム画像を生成して、このリズム画像を画面に表示する画像生成手段を備えてなり、画面に表示されるリズム画像より会話における本人の身体リズムをこの本人に感得させることにより、この本人にノンバーバル情報を取得させるアバター表示機能付き通話端末である。
本発明の通話端末は、本人及び相手の音声信号から推定される話し手タイミング及び聞き手タイミングを本人アバターのリズムタイミングとし、話し手を表現する話し手動作と聞き手を表現する聞き手動作とから構成されるリズム動作を、前記リズムタイミングで実行することにより、本人アバターを動かす。すなわち、本発明の本人アバターは、本人又は相手の代わりとなるばかりでなく、本人に身体リズムを感得させる媒体として働く。こうして、本人アバターの動画を用いたリズム画像を見る本人は、このリズム画像から身体リズムを感得し、このリズム画像からノンバーバル情報を取得できる。ここで、本発明の「音声信号」は、本人又は相手が発する生の音声を携帯電話に取り込んで処理される連続した電気信号(アナログ信号)を意味する。
「本人アバター」は、本人の代わりとなって動くキャラクタを意味する。この本人アバターは、人間を簡略化又は抽象化(デフォルメ)したキャラクタを基本とするが、擬人化されていれば、動物や植物のほか、自動車や飛行機の乗り物、建物、樹木、草花、岩や、更に空想上の生物又は無生物でもよい。これら本人アバターは、人間の頭、口、目、腕、胴又は脚や動物の耳、尻尾に相当する可動部を有し、各可動部を直線運動又は円運動動させて、動きを作り出す。
「話し手タイミング」は、話し手として本人アバターが動くタイミングを、また「聞き手タイミング」は、聞き手として本人アバターが動くタイミングを意味し、特に聞き手タイミングは聞き手として本人アバターが頭の頷き動作をするタイミングに相当する。「リズムタイミング」は、身体リズムを表現するために本人アバターが動くタイミングを意味し、前記話し手タイミング及び聞き手タイミングに、後述する特別タイミングを加えている。
「話し手動作」は、話し手として動く本人アバターの動きを、また「聞き手動作」は、聞き手として動く本人アバターの動きを意味する。「リズム動作」は、身体リズムを表現するために動く本人アバターの動きを意味し、前記話し手動作及び聞き手動作のほか、後述する特別動作を加える。「特別動作」は、本人又は相手の意図又は意思表示を伝達する本人アバターの特定の動きであり、特にリズム動作に対して有用な強い肯定反応を表す動作、すなわちゆっくり又は早くて深い頭の頷き動作や、強い否定反応を表す動作、すなわちゆっくり又は早くて大きな頭の(左右)振り動作が好ましいが、例えばピースサイン、万歳や別れを示す手を振る動作でもよい。「本人アバターの動画」は、リズム動作に従って動く本人アバターの動画を意味する。
「リズム画像」は、上記本人アバターの動画を含んだ表示用の画像で、上述したように、本人に身体リズムを感得させ、更にノンバーバル情報を取得させる媒体を意味する。ここで、本発明の本人アバターは、それぞれが身体リズムを表す話し手動作又は聞き手動作に従って動くため、本人アバターの動画のみでも、本人に身体リズムを感得させる働きを有する。しかし、会話は本人及び相手が共に存在して成立するものであるから、これら当事者の一方の代わりとなる本人アバターの動画を単に表示するだけでは、身体リズムを本人に感得させにくい場合も考えられる。例えば、通話端末が携帯電話である場合、本人アバターの動画は相当小さくなり、本人アバターが当事者の一方の代わりとして動いていると認識しづらくなる。
そこで、本発明は、話し手動作及び聞き手動作を混在させて動く本人アバターの動画と相手の実写動画とを重ね合わせたリズム画像を用いて、リズム画像を見る本人がノンバーバル情報を取得しやすくした。このほか、話し手動作、聞き手動作及び特別動作を混在させて動く相手アバターの動画からなるリズム画像や、話し手動作及び聞き手動作を混在させて動く本人アバターの動画と話し手動作及び聞き手動作を混在させて動く相手アバターの動画とを重ね合わせたリズム画像を用いることも考えられる。
話し手動作及び聞き手動作を混在させて動く本人アバターの動画と相手の実写動画とを重ね合わせたリズム画像を用いる通話端末は、画像生成手段は、音声取込部、動画取込部、信号取込部、アバター動画生成部、動画合成部、そして画像表示部から画像生成手段を構成し、リズム画像を生成する。音声取込部は、本人及び相手の音声信号をアバター動画生成部に送り込む。動画取込部は、相手の実写動画を動画合成部に送り込む。信号取込部は、本人の操作信号をアバター動画生成部に送り込む。アバター動画生成部は、本人の音声信号から本人アバターの話し手タイミングを推定し、また相手の音声信号から本人アバターの聞き手タイミングを推定し、本人の操作信号が送り込まれた時点を本人アバターの特別タイミングとして、前記本人アバターの話し手タイミング、聞き手タイミング及び特別タイミングを本人アバターのリズムタイミングとし、本人アバターのリズムタイミングが本人アバターの話し手タイミングであれば本人アバターの話し手動作を、本人アバターのリズムタイミングが本人アバターの聞き手タイミングであれば本人アバターの聞き手動作を、本人アバターのリズムタイミングが本人アバターの特別タイミングであれば特別動作を、それぞれ本人アバターのリズム動作として作り出し、前記本人アバターのリズムタイミングで本人アバターのリズム動作に従って動く本人アバターを後ろ向きにした動画を生成して、この本人アバターの動画を動画合成部に送り込む。動画合成部は、後ろ向きにした本人アバターの動画と前向きにした相手の実写動画とを対面関係に重ね合わせたリズム画像を生成して、このリズム画像を画像表示部に送り込む。そして、画像表示部は、リズム画像を画面に表示する。前記アバター動画生成部が生成する本人アバターの動画は、話し手動作及び聞き手動作が不規則に混在し、場合によって重複して複雑な動きを形成するため、全体としてより自然な本人アバターのリズム動作を作り出すことができる。
本人の音声信号は、本人が用いる通話端末の内蔵マイク又は通話端末に接続した外部マイクから音声取込部に取り込まれる。相手の音声信号は、相手が用いる通話端末の内蔵マイク又は通話端末に接続した外部マイクから通話端末の送受信部により発信され、本人が用いる通話端末の送受信部に受信されて、音声取込部に取り込まれる。相手の実写動画は、相手が用いる通話端末の内蔵カメラ又は通話端末に接続した外部カメラから通話端末の送受信部により発信され、本人が用いる通話端末の送受信部に受信されて、動画取込部に取り込まれる。動画合成部は、本人アバターの動画と相手の実写動画とを合成して1枚のリズム画像を生成する。ここで、リズム画像における本人アバターと相手とは対面する位置関係、例えば本人アバターは顔が見える程度の斜視に後ろ向きで画面右下に配し、相手は前向きで画面中央に配すると、対面者として本人アバター及び相手が会話しているように見え、このリズム画像を見る本人に身体リズムを感得させやすくなる。
「本人の音声信号から本人アバターの話し手タイミングを推定」するとは、本人の音声信号の変化から本人アバターの話し手タイミングの存在の有無を判断し、前記存在が肯定された時点を話し手タイミングとすることを意味する。例えば本人の音声信号の移動平均を算出し、前記算出された結果が推定閾値を超えた場合に本人アバターの話し手タイミングの存在を肯定し、この肯定判断がされた時点を本人アバターの話し手タイミングとする。ここで、前記移動平均には、線形結合、非線形結合又はニューラルネットワーク結合等を利用しうる。「相手の音声信号から本人アバターの聞き手タイミングを推定」する意味も同様である。
本発明の応用として、話し手動作、聞き手動作及び特別動作を混在させて動く相手アバターの動画からなるリズム画像を用いる通話端末は、画像生成手段を音声取込部、信号取込部、アバター動画生成部、そして画像表示部から構成し、前記リズム画像を生成する。音声取込部は、本人及び相手の音声信号をアバター動画生成部に送り込む。信号取込部は、相手の操作信号をアバター動画生成部に送り込む。アバター動画生成部は、相手の音声信号から相手アバターの話し手タイミングを推定し、本人の音声信号から相手アバターの聞き手タイミングを推定し、また相手の操作信号が送り込まれた時点を相手アバターの特別タイミングとして、前記相手アバターの話し手タイミング、聞き手タイミング及び特別タイミングを相手アバターのリズムタイミングとし、相手アバターのリズムタイミングが相手アバターの話し手タイミングであれば相手アバターの話し手動作を、相手アバターのリズムタイミングが相手アバターの聞き手タイミングであれば相手アバターの聞き手動作を、相手アバターのリズムタイミングが相手アバターの特別タイミングであれば相手アバターの特別動作を、それぞれ相手アバターのリズム動作として作り出し、前記相手アバターのリズムタイミングで相手アバターのリズム動作に従って動く相手アバターの動画を生成して、この相手アバターの動画を画像表示部に送り込む。そして、画像表示部は、リズム画像を画面に表示する。前記アバター動画生成部が生成する相手アバターの動画は、話し手動作、聞き手動作及び特別動作が不規則に混在し、場合によって重複して複雑な動きを形成するため、全体としてより自然な相手アバターのリズム動作を作り出すことができる。
本人及び相手の音声信号の取り込みや、相手アバターの話し手タイミング及び聞き手タイミングの推定は、既述したところと同様であるため、説明を省略する。相手の操作信号は、相手が用いる通話端末の操作入力部又は通話端末に接続した外部入力部から通話端末の送受信部により発信され、本人が用いる通話端末の送受信部に受信されて、信号取込部に取り込まれる。ここで、操作入力部は通話端末が備えるテンキーを例示できる。また、外部入力部は、通話端末に接続してデータ入力に利用できるテンキーパッド、ジョイスティック、ゲームコントローラやデータグローブ等を例示できる。
ここで、上記通話端末から通信機能を省略し、本人アバターの話し手動作、聞き手動作及び特別動作を混在させて動く本人アバターの動画からなるリズム画像を相手に見せれば、このリズム画像から身体リズムを本人及び相手に感得させ、本人及び相手にノンバーバル情報を取得させることができる。こうしたリズム画像を画面に表示する装置は、通話端末ではなく、「会話支援端末」と呼ぶことができる。
本発明の応用である会話支援端末は、画像生成手段を音声取込部、信号取込部、アバター動画生成部、そして画像表示部から構成し、本人アバターの話し手動作、本人アバターの聞き手動作及び特別動作を混在させて動く本人アバターの動画からなるリズム画像を生成する。音声取込部は、本人及び相手の音声信号をアバター動画生成部に送り込む。信号取込部は、本人の操作信号をアバター動画生成部に送り込む。アバター動画生成部は、本人の音声信号から本人アバターの話し手タイミングを推定し、相手の音声信号から本人アバターの聞き手タイミングを推定し、また本人の操作信号が送り込まれた時点を本人アバターの特別タイミングとして、前記本人アバターの話し手タイミング、聞き手タイミング及び特別タイミングを本人アバターのリズムタイミングとし、本人アバターのリズムタイミングが本人アバターの話し手タイミングであれば本人アバターの話し手動作を、本人アバターのリズムタイミングが本人アバターの聞き手タイミングであれば本人アバターの聞き手動作を、本人アバターのリズムタイミングが本人アバターの特別タイミングであれば本人アバターの特別動作を、それぞれ本人アバターのリズム動作として作り出し、前記本人アバターのリズムタイミングで本人アバターのリズム動作に従って動く本人アバターの動画を生成して、この本人アバターの動画を画像表示部に送り込む。そして、画像表示部は、リズム画像を画面に表示する。
本人及び相手の音声信号の取り込みや、本人アバターの話し手タイミング及び聞き手タイミングの推定は、既述したところと同様であるため、説明を省略する。本人の操作信号は、本人が用いる通話端末の操作入力部又は通話端末に接続した外部入力部から入力され、信号取込部に取り込まれる。具体的な操作入力部又は外部入力部は、既述したところと同様であるため、説明を省略する。
また、本発明の応用として、話し手動作及び聞き手動作を混在させて動く本人アバターの動画と話し手動作及び聞き手動作を混在させて動く相手アバターの動画とを重ね合わせたリズム画像を用いる通話端末は、画像生成手段を音声取込部、アバター動画生成部、動画合成部、そして画像表示部から構成し、前記リズム画像を生成する。音声取込部は、本人及び相手の音声信号をアバター動画生成部に送り込む。アバター動画生成部は、本人の音声信号から本人アバターの話し手タイミングを推定し、また相手の音声信号から本人アバターの聞き手タイミングを推定して、前記本人アバターの話し手タイミング及び聞き手タイミングを本人アバターのリズムタイミングとし、本人アバターのリズムタイミングが本人アバターの話し手タイミングであれば本人アバターの話し手動作を、本人アバターのリズムタイミングが本人アバターの聞き手タイミングであれば本人アバターの聞き手動作を、それぞれ本人アバターのリズム動作として作り出し、前記本人アバターのリズムタイミングで本人アバターのリズム動作に従って動く本人アバターの動画を生成して、この本人アバターの動画を動画合成部に送り込むと共に、相手の音声信号から相手アバターの話し手タイミングを推定し、また本人の音声信号から相手アバターの聞き手タイミングを推定して、前記相手アバターの話し手タイミング及び聞き手タイミングを相手アバターのリズムタイミングとし、相手アバターのリズムタイミングが相手アバターの話し手タイミングであれば相手アバターの話し手動作を、相手アバターのリズムタイミングが相手アバターの聞き手タイミングであれば相手アバターの聞き手動作を、それぞれ相手アバターのリズム動作として作り出し、前記相手アバターのリズムタイミングで相手アバターのリズム動作に従って動く相手アバターの動画を生成して、この相手アバターの動画を動画合成部に送り込む。動画合成部は、本人アバターの動画と相手アバターの動画とを重ね合わせたリズム画像を生成して、このリズム画像を画像表示部に送り込む。そして、画像表示部は、リズム画像を画面に表示する。
本人及び相手の音声信号の取り込みや、本人アバター及び相手アバターの話し手タイミング及び聞き手タイミングの推定は、既述したところと同様であるため、説明を省略する。動画合成部は、本人アバターの動画と相手アバターの動画とを合成して1枚のリズム画像を生成する。ここで、リズム画像における本人アバターと相手アバターとは対面する位置関係、例えば本人アバターは顔が見える程度の斜視に後ろ向きで画面右下に配し、相手アバターは前向きで画面中央に配すると、対面者として本人アバター及び相手アバターが会話しているように見え、本人に身体リズムを感得させやすくなる。
リズム画像は、本人アバターの動画と相手の実写動画との組み合わせや、本人アバターと相手アバターとの組み合わせにより、本人に身体リズムを感得させ、ノンバーバル情報を取得させる。しかし、本人アバター又は相手アバターに特別動作をさせると、本人に身体リズムをより感得させやすく、また本人にノンバーバル情報を取得させやすくなる。
特別動作は、画像生成手段に信号取込部を追加して生成する。信号取込部は、本人の操作信号をアバター動画生成部に送り込む。アバター動画生成部は、本人の音声信号から本人アバターの話し手タイミングを推定し、相手の音声信号から本人アバターの聞き手タイミングを推定し、また本人の操作信号が送り込まれた時点を本人アバターの特別タイミングとして、前記本人アバターの話し手タイミング、聞き手タイミング及び特別タイミングを本人アバターのリズムタイミングとし、本人アバターのリズムタイミングが本人アバターの話し手タイミングであれば本人アバターの話し手動作を、本人アバターのリズムタイミングが本人アバターの聞き手タイミングであれば本人アバターの聞き手動作を、本人アバターのリズムタイミングが本人アバターの特別タイミングであれば特別動作を、それぞれ本人アバターのリズム動作として作り出し、前記本人アバターのリズムタイミングで本人アバターのリズム動作に従って動く本人アバターの動画を生成して、この本人アバターの動画を画像合成部に送り込む。本人及び相手の音声信号の取り込みや、本人の操作信号の取り込みや、本人アバターの話し手タイミング及び聞き手タイミングの推定は、既述したところと同様であるため、説明を省略する。
同様に、相手アバターの特別動作は、画像生成手段に信号取込部を追加して生成する。信号取込部は、相手の操作信号をアバター動画生成部に送り込む。アバター動画生成部は、相手の音声信号から相手アバターの話し手タイミングを推定し、本人の音声信号から相手アバターの聞き手タイミングを推定し、また相手の操作信号が送り込まれた時点を相手アバターの特別タイミングとして、前記相手アバターの話し手タイミング、聞き手タイミング及び特別タイミングを相手アバターのリズムタイミングとし、相手アバターのリズムタイミングが相手アバターの話し手タイミングであれば相手アバターの話し手動作を、相手アバターのリズムタイミングが相手アバターの聞き手タイミングであれば相手アバターの聞き手動作を、相手アバターのリズムタイミングが相手アバターの特別タイミングであれば相手アバターの特別動作を、それぞれ相手アバターのリズム動作として作り出し、前記相手アバターのリズムタイミングで相手アバターのリズム動作に従って動く相手アバターの動画を生成して、この相手アバターの動画を画像表示部に送り込む。本人及び相手の音声信号の取り込みや、相手の操作信号の取り込みや、相手アバターの話し手タイミング及び聞き手タイミングの推定は、既述したところと同様であるため、説明を省略する。
本発明の各通話端末は、身体リズムを表すリズムタイミングでリズム動作に従って動く本人アバターの動画を相手の実写動画と組み合わせたリズム画像を本人に見せることにより、本人に身体リズムを感得させ、ノンバーバル情報を取得させる点に特徴がある。すなわち、本人アバターが動くリズムタイミングと、このリズムタイミングで実行するリズム動作とが重要である。
まず、話し手タイミングは、次のように推定する。すなわち、アバター動画生成部は、本人の音声信号から算出される本人アバターの話し手マクロ推定値が本人話し手マクロ閾値を超えた場合のマクロ推定と、本人の音声信号から算出される本人アバターの話し手ミクロ推定値が本人話し手ミクロ閾値を超えた場合のミクロ推定とが共に肯定された時点を本人アバターの話し手タイミングとして推定する。ここで、話し手マクロ推定値は、本人の音声信号をON/OFF信号とみなし、呼気段落区分の各呼気段落に含まれるON信号の割合の移動平均として算出し、本人話し手ミクロ推定値は、本人の音声信号のサンプリング信号の移動平均として算出する。このアバター動画生成部は、本人の音声信号から話し手タイミングを推定する際、呼気段落区分による移動平均から判断するマクロ推定と、サンプリングによる移動平均から判断するミクロ推定とが共に肯定された時点を、話し手タイミングとしている。
同様に、聞き手タイミングは次のように推定する。すなわち、アバター動画生成部は、相手の音声信号から算出される本人アバターの聞き手マクロ推定値が本人聞き手マクロ閾値を超えた場合のマクロ推定と、相手の音声信号から算出される本人アバターの聞き手ミクロ推定値が本人聞き手ミクロ閾値を超えた場合のミクロ推定とが共に肯定された時点を本人アバターの聞き手タイミングとして推定する。ここで、聞き手マクロ推定値は、相手の音声信号をON/OFF信号とみなし、呼気段落区分の各呼気段落に含まれるON信号の割合の移動平均として算出し、本人聞き手ミクロ推定値は、相手の音声信号のサンプリング信号の移動平均として算出する。このアバター動画生成部も、上述の話し手タイミング同様、マクロ推定とミクロ推定とが共に肯定された時点を、聞き手タイミングとしている。
「本人の音声信号(相手の音声信号)をON/OFF信号とみな」すとは、アナログ信号である本人の音声信号(相手の音声信号)に閾値を設定し、前記閾値を境としてON及びOFFを繰り返すディジタル信号として、信号処理することを意味する。「呼気段落区分の各呼気段落に含まれるON信号の割合の移動平均」とは、人間が一息に発する音声信号の区分(=呼気段落)である各呼気段落に含まれるON信号の割合を、前記段落単位で移動平均することを意味する。呼気段落区分の時間長は長短様々である。また、「サンプリング信号の移動平均」とは、音声信号を一定間隔でサンプリングしたサンプリング信号の強度(=音声信号の大きさ)を、前記サンプリング単位で移動平均することを意味する。各移動平均は、既述したところと同様、線形結合、非線形結合又はニューラルネットワーク結合により算出する。
ここで、上述の本人アバターの話し手タイミング及び聞き手タイミングの推定は、本人及び相手の音声信号のいずれから推定するかの違いだけで、上述から明らかなように、いずれも同じアルゴリズムを用いている。しかし、本人又は相手の音声信号の違いのほか、例えば線形結合による移動平均に用いる各係数を異ならせたり、存在の有無を判断する各閾値を異ならせることにより、本人アバターの話し手タイミング及び聞き手タイミングは、それぞれ違ったタイミングとなる。また、例えば本人アバターの可動部を複数のグループに分け、各グループ毎に話し手タイミング及び聞き手タイミングを異ならせることもできる。ここで、前記線形結合における移動平均に用いる各係数や各閾値は、各リズム画像を見る本人の官能評価試験から、実証的に最適化していくとよい。
本人アバターの話し手動作、聞き手動作及び特別動作は、次のように作り出すとよい。すなわち、アバター動画生成部は、本人アバターの可動部である口の開閉動作と、この本人アバターの前記口を除くその他の可動部のランダムな身体動作とを組み合わせて、本人アバターの話し手動作を作り出す。この場合、アバター動画生成部は、話し手動作における口の開閉動作の話し手タイミングと、話し手動作における前記口を除くその他の可動部のランダムな身体動作の話し手タイミングとを個別に導き出してもよい。ここで、「口を除くその他の可動部のランダムな身体動作」とは、本人アバターに設定された可動部のうち、口を除く可動部、例えば頭、目、腕、胴又は脚等の中から乱数に従って選択した単数又は複数の可動部を同時に動かして構成される本人アバター全体の動きを意味する。
上記話し手動作は、口の開閉動作と、口を除くその他の可動部のランダムな身体動作とを同時に作り出し、同じ話し手タイミングで同時に実行させる場合を基本とする。これに対し、口の開閉動作の話し手タイミングと、口を除くその他の可動部の話し手タイミングとを個別に推定する場合、口の開閉動作と、口を除くその他の可動部のランダムな身体動作とは異なる話し手タイミングで個別に実行させる。これは、口を除くその他の可動部のランダムな身体動作の話し手タイミングを推定する判断基準となる各閾値を、口の開閉動作の話し手タイミングを推定する判断基準となる各閾値より低くすることで、口を除くその他の可動部のランダムな身体動作を口の開閉動作に比べて活発化させ、本人アバターを積極的に動くように見せることができる。
また、アバター動画生成部は、本人アバターの可動部である頭の頷き動作と、この本人アバターの前記頭を除くその他の可動部をランダムに選択した身体動作とを組み合わせて、本人アバターの聞き手動作を作り出す。この場合、アバター動画生成部は、聞き手動作における頭の頷き動作の話し手タイミングと、聞き手動作における前記頭を除くその他の可動部をランダムに選択した身体動作の話し手タイミングとを個別に導き出してもよい。ここで、「頭を除くその他の可動部のランダムな身体動作」とは、本人アバターに設定された可動部のうち、頭を除く可動部、例えば目、口、腕、胴又は脚等の中から選択した単数又は複数可動部を同時に動かして構成される本人アバター全体の動きを意味する。この聞き手動作における頭の頷き動作と、頭を除くその他の可動部をランダムに選択した身体動作とを、同時に実行させる場合や、個別に実行させる場合は、上記話し手動作の例と同様であるため、説明は省略する。
更に、アバター動画生成部は、本人アバターの可動部を予め選択した身体動作からなる特別動作を、本人アバターのリズム動作として作り出す。ここで、「可動部を予め選択した身体動作」とは、本人アバターに設定された可動部、例えば頭、目、口、腕、胴又は脚等のうち、予め選択した単数又は複数可動部を同時に動かして構成される本人アバター全体の動きを意味する。この特別動作は、本人又は相手が意図的に本人アバターを動かす場合の動きであるから、可動部を複数のグループに分けて個別に特別タイミングを導き出すことはないが、予め選択した可動部それぞれを、予め設定した時間差で動かすようにしてもよい。
本人アバターは人間又は擬人化されたキャラクタであるから、可動部として頭、口、目、腕、胴又は脚等を用いることができる。前記可動部のうち、頭、腕、胴又は脚等の各動作は、関節を軸として、所定角度で各可動部が前後、左右又は上下に往復する揺動運動(往復回動運動)として構成できる。具体的な動作として、頭の頷き動作は、首を軸として、所定角度で頭が前後に往復する揺動運動(往復回動運動)として構成できる。また、口の開閉動作は、本人又は相手の音声信号の強弱に応じた口の開閉運動として構成できる。そして、目の瞬き動作は、本人又は相手の音声信号と無関係に、ランダムな目の開閉運動として構成できる。
本発明は、隔地者である本人及び相手が通話端末を用いた会話する際に、通話端末の画面に本人アバターを用いたリズム画像を表示することにより本人に身体リズムを感得させて、ノンバーバル情報を本人に取得させる効果を有する。ここで、本人に身体リズムを感得させる効果は、話し手動作及び聞き手動作を混在させて動く本人アバターの動画と相手の実写動画とを重ね合わせたリズム画像を本人に見せることにより得られる効果である。
話し手動作及び聞き手動作を混在させて動く本人アバターの動画と相手の実写動画とを重ね合わせたリズム画像は、身体リズムに従って動く本人アバターが相手と同一空間内、すなわち画面内に表示されることにより、本人アバターと相手との疑似的な会話を感得させて本人に身体リズムを感得させやすくし、この本人にノンバーバル情報を取得させる。これから、本人アバターと相手とは対面位置関係に配置されていると、前記疑似的な会話をより感得させやすく、本人に与えるノンバーバル情報も多くできる。
本発明の応用として、話し手動作、聞き手動作及び特別動作を混在させて動く相手アバターの動画からなるリズム画像は、身体リズムに従って動く相手アバターが相手の意図的な操作を表す特別動作で動くことにより、本人に対する相手アバターの関わり合いが緊密であると思わせて本人に身体リズムを感得させ、この本人にノンバーバル情報を取得させる。ここで、相手アバターの特別動作は、相手が特に本人に伝達したい意図を身体リズムに組み入れる働きを有し、感得する身体リズムから本人に与えるノンバーバル情報を多くする。また、この(2)話し手動作、聞き手動作及び特別動作を混在させて動く相手アバターの動画からなるリズム画像を応用した会話支援端末は、特に健常者と会話する身体障害者の前記健常者に対する意思表現又は感情表現を補い、健常者と身体障害者との会話を円滑にする効果をもたらす。
また、本発明の応用として、話し手動作及び聞き手動作を混在させて動く本人アバターの動画と話し手動作及び聞き手動作を混在させて動く相手アバターの動画とを重ね合わせたリズム画像は、上記リズム画像を組み合わせた効果を有する。すなわち、身体リズムに従って動く本人アバター及び相手アバターの疑似的な会話や、本人及び相手の身体リズムをそれぞれのリズム動作によって明示する本人アバター及び相手アバターの関わり合いが緊密であることを感得させて本人に身体リズムを感得させ、この本人にノンバーバル情報を取得させる。更に、本人アバター又は相手アバターに特別動作又は相手アバターの特別動作が加われば、本人に対する本人アバター又は相手アバターの関わり合いも緊密になり、本人に与えるノンバーバル情報も多くできる。
以下、本発明の実施形態について図を参照しながら説明する。図1は本人アバター51の動画と相手53の実写動画とを重ね合わせたリズム画像5を用いた携帯電話1の使用状態を示す斜視図であり、図2は本人アバター51の動画と相手53の実写動画とを重ね合わせたリズム画像5を用いた携帯電話1の本発明に係る構成を示すブロック図である(本人アバター51及び相手53は、後掲図13参照)。図2をはじめとするブロック図では、説明の便宜上、本発明に直接関係しない携帯電話の機能に関する部分は図示を省略し、また必要な部分も送受信部12により代表している(以下、同じ)。
本発明を適用した携帯電話1の構成と、リズム画像5の生成手順について説明する。本例は、本人アバター51の動画と相手53の実写動画とを重ね合わせたリズム画像5を用いた携帯電話1の例である。これから、図1に見られるように、本人及び相手が用いる各携帯電話1は、互いに本人及び相手の音声信号を送受信するほか、互いに本人及び相手の実写動画を送受信する。ここで、本人の音声信号は相手から見れば相手の音声信号、本人の実写動画は相手から見れば相手の実写動画になる。本人及び相手が用いる携帯電話1は同じである。よって、以下では本人が用いる携帯電話1について説明し、各部の説明する場合は「本人が用いる携帯電話」の修飾句を省略して符号を付し、相手が用いる携帯電話1の各部について触れる場合は「相手が用いる携帯電話」と修飾句を付加して符号を省略する。
携帯電話1は、図2に見られるように、音声取込部13、動画取込部14、信号取込部15、アバター動画生成部16、動画合成部17、そして画像表示部18から、本発明に係る主要部を構成する。この主要部は、従来より携帯電話に搭載されている情報処理装置をプログラムにより制御し、ソフト的に構成できる。ここで、例えば音声取込部13、動画取込部14、信号取込部15、動画合成部17及び画像表示部18は、処理内容が特定されているので、専用LSI等を用いてハード的に構成してもよい。図2中、本人に関係する信号は実線により、相手に関係する信号は波線により、そしてリズム画像の信号は太実線により、それぞれ図示している。
音声取込部13は、内蔵マイク112から本人の音声信号を取り込む。前記本人の音声信号は、内蔵マイク112から送受信部12に取り込まれて発信され、相手が用いる携帯電話の送受信部に受信された後、相手から見た「相手の音声信号」として相手が用いる携帯電話の音声取込部に取り込まれる。本人の音声信号は、送受信部12から音声取込部13に取り込んでもよい。相手の音声信号は、相手が用いる携帯電話の内蔵マイクから相手が用いる携帯電話の送受信部に取り込まれて発信されて送受信部12に受信され、前記本人の音声信号同様、音声取込部13に取り込まれる。こうして取り込まれた本人及び相手の音声信号は、音声取込部13により、それぞれアバター動画生成部16へ送り込まれる。
動画取込部14は、相手が用いる携帯電話の内蔵カメラから送受信部に取り込まれて発信され、送受信部12に受信される相手の実写動画を取り込む。従来のテレビ電話機能付き携帯電話は、送受信部が受信した相手の実写動画を直接画像表示部に送り込み、画面に表示させていた。これに対し、本発明に係る携帯電話1は、相手の実写動画を動画取込部14から動画合成部17へ送り込み、本人アバター51の動画と合成したリズム画像5として、相手53の実写動画を画像表示部へ送り込む。また、内蔵カメラ113から送受信部12に取り込まれた本人の実写動画は、前記送受信部12から発信され、相手が用いる携帯電話の送受信部に受信された後、相手から見た「相手の実写動画」として相手が用いる携帯電話の動画取込部に取り込まれる。
信号取込部15は、テンキー114から本人の操作信号を取り込む。この操作信号は、本人アバター51に特定の動きからなる特別動作を実行させる命令である。前記特定の動きは、テンキー114の各ボタン毎に割り当てておき、本人が選択してボタンを押すことで、本人アバター51の特別動作として実行される。本人の操作信号は、テンキー114から送受信部12に取り込まれて発信され、相手が用いる携帯電話の送受信部に受信された後、相手から見た「相手の操作信号」として相手が用いる携帯電話の信号取込部に取り込まれる。本人の操作信号は、送受信部12から信号取込部15に取り込んでもよい。本人の操作信号は、信号取込部15によりアバター動画生成部16へ送り込まれる。ここで、本人による本人アバターの意図的な操作をさせない場合は、この信号取込部15を停止させるとよい。後掲の図3中、特別動作に係る流れは波線とし、信号取込部15の作動及び停止を選択的に切り換えることができることを表している。
動画合成部17は、アバター動画生成部16から送り込まれた本人アバター51の動画と、動画取込部14から送り込まれた相手53の実写動画とを合成し、1枚のリズム画像5を生成する。ここで、各動画を「合成」するとは、例えば相手を奥側、本人アバターを手前側として配置し、本人アバターが被さる相手の部分は表示させないように、両動画を1枚のリズム画像にすることを意味し、1枚のリズム画像として見えれば各動画を異なるレイヤーにおける重ね合わせとしてもよい。こうして生成されたリズム画像5は、動画合成部17から画像表示部18へ送り込まれ、前記画像表示部18により携帯電話1の画面111に表示される。画像表示部18は、従来の携帯電話にも搭載される画像表示手段から構成できるが、既述したように、送受信部12から直接送り込まれた相手53の実写動画を画面111に表示するのではなく、動画合成部17で生成されたリズム画像5を画面111に表示する点が従来と異なる。
アバター動画生成部16は、音声取込部13から送り込まれた本人及び相手の音声信号から、また信号取込部15を作動させていれば信号取込部15から送り込まれた本人の操作信号から、本人アバター51が動くリズムタイミングを算出し、前記リズムタイミングで実行するリズム動作を作り出す。このアバター動画生成部16は、本人及び相手の音声信号と、本人の操作信号とを並列に取り込み、本人の音声信号から本人アバター51の話し手タイミングを推定し、相手の音声信号から本人アバター51の聞き手タイミングを推定し、そして本人の操作信号を取り込んだ時点を本人アバター51の特別タイミングとして、特に相互の競合を解消することなく、これらを重畳的に混在させてリズムタイミングを算出している(後掲図3参照)。
そして、上記アバター動画生成部16は、推定された話し手タイミングに対して本人アバター51の話し手動作を、推定された聞き手タイミングに対して本人アバター51の聞き手動作を、決定された特別タイミングに対して本人アバター51の特別動作を作り出す。既述したように、リズムタイミングは話し手タイミング、聞き手タイミング、そして特別タイミングを重畳的に混在させているから、リズムタイミングで実行するリズム動作は、前記話し手動作、聞き手動作、そして特別動作が混在し、各タイミングによっては相互に組み合わさった複合的な動作となる。本人アバター51の動画は、前記リズムタイミングでリズム動作を実行する本人アバター51の動きとして生成される。
次に、アバター動画生成部16における本人アバター51の聞き手タイミングの推定と聞き手動作の生成とを例にとり、具体的に説明する。図3はリズム画像5を生成する処理手順を表す処理フローチャート、図4は本人アバター51の話し手タイミングの推定と話し手動作の生成とを表す処理フローチャート、図5は本人アバター51の聞き手タイミングの推定と聞き手動作の生成とを表す処理フローチャート、図6は本人アバター51の特別タイミングの推定と特別動作の生成とを表す処理フローチャート、図7は聞き手タイミングのマクロ推定とミクロ推定とを表すタイミングチャートであり、図8は聞き手タイミングのマクロ推定とミクロ推定とを実行する論理回路のブロック図である。
本発明を利用した携帯電話1は、図3に見られるように、通話開始により、「本人の音声信号取込」手順、「話し手タイミング推定」手順及び「話し手動作生成」手順の流れと、「相手の音声信号取込」手順、「聞き手タイミング推定」手順及び「聞き手動作生成」手順の流れと、そして「本人の操作信号取込」手順、「特別タイミング決定」手順及び「特別動作生成」手順とを並列に実行し、「本人アバターの動画生成」手順により、生成された話し手動作、聞き手動作及び特別動作からなるリズム動作に従って動く本人アバター51の動画を生成し、「相手の実写動画取込」手順により取り込まれた相手53の実写動画と前記本人アバター51の動画とを「リズム画像生成」手順により合成してリズム画像5を生成し、このリズム画像5を「リズム画像表示」手順により画面111に表示する一連の処理手順を繰り返す。前記処理手順は、通話終了になれば終了する。
話し手タイミングは、図4に見られるように、取り込まれた本人の音声信号について、「話し手マクロ推定値算出」手順及び「話し手ミクロ推定値算出」手順を同時に実行して逐次話し手マクロ推定値及び話し手ミクロ推定値を算出し、「話し手タイミング推定」手順によりマクロ推定及びミクロ推定が共に肯定された時点を話し手タイミングとして推定して、話し手動作は、続く「話し手動作生成」手順により本人アバター51の口513の開閉動作と前記口513を除く頭511、目512、左前腕516、左上腕517、右前腕514、右上腕515及び胴518のランダムな身体動作とを組み合わせた話し手動作を生成する(可動部各部は図9参照、以下同じ)。
聞き手タイミングは、図5に見られるように、取り込まれた相手の音声信号について、「聞き手マクロ推定値算出」手順及び「聞き手ミクロ推定値算出」手順を同時に実行して逐次聞き手マクロ推定値及び聞き手ミクロ推定値を算出し、「聞き手タイミング推定」手順によりマクロ推定及びミクロ推定が共に肯定された時点を聞き手タイミングとして推定して、聞き手動作は、続く「聞き手動作生成」手順により本人アバター51の頭511の頷き動作と前記頭511を除く目512、口513、左前腕516、左上腕517、右前腕514、右上腕515及び胴518のランダムな身体動作とを組み合わせた話し手動作を生成する。
特別タイミングは、図6に見られるように、本人の操作信号の存在を判断し、前記操作信号の存在が肯定されれば、「特別タイミング決定」手順により操作信号が取り込まれた時点、正確には前記操作信号の存在が肯定された時点を特別タイミングとして決定し、特別動作は、続く「特別動作生成」手順により本人アバター51の頭511、目512、口513、左前腕516、左上腕517、右前腕514、右上腕515及び胴518を予め選択した身体動作として生成する。これら話し手動作、聞き手動作及び特別動作は、それぞれが生成された時点で各個に独立しているが、各動作に従って本人アバター51を動かすことにより、重畳的に足し合わされ、不規則なリズム動作を構成する。
本発明を特徴づける聞き手タイミングの推定について説明する。本発明は、会話全体から聞き手タイミングを推定するマクロ推定と、直近の会話から聞き手タイミングを推定するミクロ推定とによる二重推定を採用することにより、会話全体の身体リズムを損なわず、また直近の会話に関係づけた聞き手タイミングを推定する。まず、前記マクロ推定は、相手の音声信号をON/OFF信号とみなし、そして相手の音声信号を呼気段落区分に従って区分した各呼気段落に含まれるON信号の割合を移動平均して算出される聞き手マクロ推定値を、予め設定した聞き手マクロ閾値とを比較する手順で実行される。
人の音声信号(発話音声信号)は、図7に見られるように、文字を表す連続した波の部分と、呼吸による波の途切れた部分とに分けることができる。こうした音声信号を前記呼吸の部分で区切ることを「呼気段落区分」と言い、前記区切った単位を「呼気段落」と呼ぶ。ここで、音声信号を強度閾値(例えば環境ノイズより高い信号強度)でON信号(「1」)及びOFF信号(「0」)の2値化処理してON/OFF信号とみなせば、各呼気段落はON信号及びOFF信号の繰り返しからなる音声信号を含むことになる。この場合、各呼気段落におけるON信号は、相手との会話において本人が話し続けると割合が増え、逆に本人が黙り続けると割合が低下する。これから、会話全体の身体リズムは、前記呼気段落におけるON信号の割合の変化として表される。
そこで、本発明のマクロ推定は、下記数1及び数2に見られるように、各呼気段落におけるON信号の割合を移動平均した聞き手マクロ推定値Emacro(i)を算出し、前記聞き手マクロ推定値Emacro(i)が予め設定した聞き手マクロ推定閾値Emacro-thを超えた場合に、会話全体における聞き手タイミングの存在を推定する。ここで、a(j)は聞き手マクロ推定係数、R(i-j)は各呼気段落に含まれるON信号の割合(数2)、u(i)はノイズ、T(i-j)は各呼気段落に含まれるON信号の時間、S(i-j)は各呼気段落に含まれるOFF信号の時間である。ノイズu(i)は、各呼気段落に含まれるON信号の割合R(i-j)及び聞き手マクロ推定係数a(j)の積である移動平均に加えることで、数1より算出される聞き手マクロ推定値Emacro(i)に不規則性を加え、マクロ推定による聞き手タイミングの存在の判断がばらつくようにしている。
上記マクロ推定により、会話全体から聞き手タイミングが推定されても、前記聞き手タイミングの推定は具体的な時点を明確にしない。そこで、本発明では、ミクロ推定により、直近の身体リズムに対応した聞き手タイミングを推定する。このミクロ推定では、現在の音声信号に対する過去の音声信号の関わり合いの濃淡が身体リズムを表しているとして、予め設定したサンプリング間隔でサンプリングした音声信号の信号強度を移動平均して、聞き手タイミングを推定している。ここで、直近の身体リズムを反映するミクロ推定のみで、聞き手タイミングを導き出すことも考えられるが、単純にサンプリングした音声信号強度の移動平均から算出される聞き手ミクロ推定値Emicro(i)は、比較的容易に聞き手ミクロ推定閾値Emicro-thを超えやすく、適切な聞き手ミクロ推定閾値Emicro-thの設定が難しい。このため、本発明ではマクロ推定とミクロ推定とを掛け合わせることで、適度な頻度で聞き手タイミングが推定されるようにしている。
具体的には、数3により、上述同様な移動平均の結果として聞き手ミクロ推定値Emicro(i)を算出し、この聞き手ミクロ推定値Emicro(i)が予め設定した聞き手ミクロ推定閾値Emicro-thを超えるか否かにより、聞き手タイミングを推定する。ここで、b(k)は聞き手ミクロ推定係数、V(i-k)はサンプリングした音声信号強度、w(i)はノイズである。ノイズw(i)は、サンプリングした音声信号強度V(i-k)及び聞き手ミクロ推定係数b(k)の積である移動平均に加えることで、数3より算出される聞き手ミクロ推定値Emicro(i)に不規則性を加え、ミクロ推定による聞き手タイミングの存在の判断がばらつくようにしている。
こうしたマクロ推定とミクロ推定とを掛け合わせて聞き手タイミングを推定する論理回路は、図8に見られるように構成できる。この論理回路は、マクロ推定がスイッチとなり、マクロ推定が肯定された場合、すなわち前記スイッチがONになった場合のみ、ミクロ推定により具体的な聞き手タイミングを推定される構成になっている。このように、マクロ推定及びミクロ推定は、論理的にはマクロ推定が上位にあり、ミクロ推定が下位にあって、マクロ推定が先行して判断されるが、マクロ推定及びミクロ推定はいずれも取り込まれた相手の音声信号から聞き手マクロ推定値及び聞き手ミクロ推定値を算出することから、実際には前記聞き手マクロ推定値及び聞き手ミクロ推定値を並列に算出しておき、両推定がいずれも肯定された時点を、聞き手タイミングとして推定する(図5参照)。
このほか、本例では、本人アバター51の聞き手動作に多様性を付加するため、図8に見られるように、ミクロ推定に際して算出した聞き手ミクロ推定値Emicro(i)に対し、頭511の頷き動作の聞き手タイミングを判断する聞き手ミクロ推定閾値Emicro-thと、頭511を除くその他の可動部をランダムに選択した身体動作の聞き手タイミングを判断する聞き手ミクロ推定閾値Emicro-thとを異ならせ、後者の聞き手ミクロ推定閾値Emicro-thを低くすることで身体動作の実行頻度を頭の頷き動作の実行頻度より多くしている。また、目512の瞬き動作は、頭511の頷き動作の聞き手タイミングから指数分布させた聞き手タイミングを用い、頭511の頷き動作と目512の瞬き動作とを関連付けながら、目512の瞬き動作に不規則性を付加している。聞き手動作は、聞き手タイミングを基準とした時系列に沿って実行されればよいため、具体的な聞き手動作は自由に設定できる。
本人アバター51の話し手タイミングも、上述の聞き手タイミング同様、本人の音声信号に基づくマクロ推定とミクロ推定とを掛け合わせ、両推定が肯定された時点として推定することができるが、話し手動作は聞き手動作と異なり、煩雑になることで困る動きが少ないため、例えばミクロ推定のみで話し手タイミングを推定してもよい。また、マクロ推定及びミクロ推定を掛け合わせた場合や、ミクロ推定のみの場合のいずれでも、話し手動作のうち、話し手アバターの可動部のいずれかの動作に対する話し手ミクロ推定閾値Emicro-thを、他の動作に対して高く又は低く設定することにより、上述同様、実行頻度を異ならせることができる。そして、口513の開閉動作は、本人の音声信号強度に比例した単純な開閉運動とすればよい。その他子細については、上述した聞き手タイミングの推定及び聞き手動作の生成と同様であるため、説明は省略する。
最後に、リズムタイミングでリズム動作を実行して動く本人アバター51の動画について説明する。図9は本人アバター51の正面図、図10は話し手タイミング、聞き手タイミング及び特別タイミングからなるリズムタイミングを表すタイミングチャート、図11は本人アバター51の右前腕514の基本的な動きを表す部分正面図、図12は本人アバター51の右前腕514の動きの重なりを表す部分正面図であり、図13は画面111の表示例を表す本人が用いる携帯電話1の部分正面図である。
本例の本人アバター51は、図9に見られるように、頭511、目512、口513、右前腕514、右上腕515、左前腕516、左上腕517、胴518を可動部とし、各可動部を次のように動かす。まず、左上腕517及び右上腕515は胴518に対して所定角度で上下に往復運動(回転運動)させ、左前腕516は左上腕517に対し、右前腕514は右上腕515に対して所定角度で上下に往復運動(回転運動)させる。胴518は所定角度で左右に往復運動(回転運動)させ、頭511は胴518に対して所定角度で前後に往復運動(回転運動)させる(頭511の頷き動作)。そして、目512及び口513は開閉運動させる(目512の瞬き動作、口513の開閉動作)。各可動部は、それぞれの運動時間を異ならせたり、運動時間を等しくしながら各運動の運動範囲を異ならせることにより、動きに変化をもたせることができる。
話し手動作は、口513の開閉動作と前記口513を除くその他の可動部のランダムな身体動作との組み合わせとして、聞き手動作は頭511の頷き動作と前記頭511を除くその他の可動部をランダムに選択した身体動作との組み合わせとして、そして特別動作は可動部を予め選択した身体動作から、それぞれ構成する。特別動作は、本人の意図的な操作により本人アバター51を動かすものであるから、例えば操作信号の内容に合わせて手の表示を適宜変更する等、特別な可動部を設定してもよい。また、話し手動作又は聞き手動作は、各動作の実行開始時点における各可動部の現在位置(後述の中間位置)から所定角度だけ運動させるが、特別動作は独立した意味合いを有するため、あくまで各可動部に予め設定した変位位置まで運動させる。すなわち、特別動作は、可動部の現在位置と変位位置との差分だけ運動させる。
本人アバター51のリズムタイミングは、話し手タイミング、聞き手タイミング、そして特別タイミングの重畳的な重ね合わせであり、図10に見られるような関係にある。説明の便宜上、ここでは各可動部の話し手ミクロ推定閾値Emicro-th及び聞き手ミクロ推定閾値Emicro-thはすべて同じとする。すなわち、話し手動作は口513の開閉動作と前記口513を除くその他の可動部のランダムな身体動作とを同時に実行し、聞き手動作は頭511の頷き動作と前記頭511を除くその他の可動部をランダムに選択した身体動作とを同時に実行させる。
まず、話し手タイミングTM1が推定されると、本人アバター51は話し手動作を実行し、前記話し手動作が終了した時点で推定された聞き手タイミングHM1に従って、今度は聞き手動作を実行する。ここまでは、話し手タイミング、聞き手タイミング及び特別タイミング同士(リズムタイミング同士)の競合や、話し手動作、聞き手動作又は特別動作(リズム動作)に対する話し手タイミング、聞き手タイミング又は特別タイミング(リズムタイミング)の競合はないため、リズムタイミングでのリズム動作は、それぞれ単一の話し手動作及び聞き手動作でしかない。例えば、話し手動作又は聞き手動作で右前腕514が選択されると、この右前腕514は、図11に見られるように、原点位置を基準位置として前記基準位置から所定角度離れた変位位置まで回転運動し、再び原点位置に戻る。
しかし、続く話し手タイミングTM2に従った話し手動作の実行中、話し手タイミングTM3が推定されると、話し手タイミングTM2で実行する話し手動作に対して話し手タイミングTM3が競合する。本例では、前記競合を特に解消することなく、話し手タイミングTM2で実行中の話し手動作に、話し手タイミングTM3で新たな話し手動作に実行して重ね合わせる。すなわち、話し手タイミングTM2及び話し手タイミングTM3いずれの話し手動作でも右前腕514が選択されると、この右前腕514は、図12に見られるように、まず話し手タイミングTM2で実行する話し手動作により、原点位置を基準位置1として変位位置1まで回転運動し、今度は基準位置1に戻る途中の中間位置を話し手タイミングTM3で実行する話し手動作の基準位置2として、前記基準位置2から変位位置2まで回転運動して、その後原点位置に戻る。
ここで、単一の話し手動作における右前腕514の動き(図11参照)と、複合した話し手動作における右前腕514の動き(図12参照)とを比較すれば明らかなように、複数の話し手動作が重なり合う場合の方が、可動部の動きが大きくなる。また、リズムタイミングの重なり合いは全くの任意であるため、重なり合う話し手動作の基準位置(上記基準位置2)は、重なり合うリズムタイミングによって異なることになり、結果として得られる複合的なリズム動作はランダムなものとなる。これにより、本人アバター51の動きから規則性がなくなり、多様性が増えることになり、より自然なリズム動作を実現できる。
しかし、話し手動作と聞き手動作とは厳密には意味合いの異なる動きであり、話し手タイミング及び聞き手タイミングはそれぞれ並列に推定することから、前記両タイミングが競合して、話し手動作と聞き手動作の重なり合いがうまくいかず、不自然なリズム動作が作り出される可能性がある。また、特別動作は単独で本人の意図を反映した動きを作り出すものだから、他のリズム動作が重なり合わない方が好ましい場合も考えられる。このようなリズムタイミング同士の競合や、リズム動作に対するリズムタイミングの競合を解消する場合、次のようにするとよい。
まず、特別動作がない場合、次のように話し手タイミング及び聞き手タイミングの競合を解消する。具体的には、実行中のリズム動作に話し手動作又は聞き手動作が重なり合うことに問題はないため、
<条件1>話し手タイミングと聞き手タイミングとが競合しなければ、
<対応1>先行する話し手タイミング及び聞き手タイミングに従って、話し手動作又は聞き手動作を作り出して実行するが、
<条件2>話し手タイミングと本人アバターの聞き手タイミングとが競合すれば、
<対応2>優先度の高い話し手タイミング又は聞き手タイミングを選択し、話し手動作又は聞き手動作を作り出して実行する。
<対応2>における優先度は固定して常に話し手タイミング又は聞き手タイミングのいずれかを選択させてもよいが、例えば実行中又は直前に実行を終了したリズム動作が話し手動作であれば話し手タイミングを優先させ、逆に実行中又は直前に実行を終了したリズム動作が聞き手動作であれば聞き手タイミングを優先させてもよい。
次に、特別動作がある場合、特別動作の取り扱いの特殊性から、次のように話し手タイミング、聞き手タイミング及び特別タイミングの競合を解消する。まず、
<前提1>リズム動作が実行中でないか、話し手動作又は聞き手動作をリズム動作として実行中で、
<条件1−1>話し手タイミング、聞き手タイミング又は本人アバターの特別タイミングが競合しなければ、
<対応1−1>先行する話し手タイミング、聞き手タイミング及び特別タイミングに従って、話し手動作、聞き手動作又は特別動作を作り出して実行する。
しかし、<前提1>において
<条件1−2>話し手タイミング又は聞き手タイミングいずれかと特別タイミングとが競合すれば、
<対応1−2>特別タイミングを優先させて特別動作を作り出し、実行する。
また、同じく前提1>において
<条件1−3>話し手タイミング又は聞き手タイミングのみが競合すれば、
<対応1−3>優先度の高い話し手タイミング又は聞き手タイミングを選択し、話し手動作又は聞き手動作を作り出して実行する。
ここで、<対応1−3>における優先度は、既述したように固定していてもよいし、変動させるものでもよい。
上述に対し、
<前提2>特別動作をリズム動作として実行中で、
<条件2−1>話し手タイミング、聞き手タイミング又は本人アバターの特別タイミングが競合しなければ、
<対応2−1>先行する話し手タイミング、聞き手タイミング又は特別タイミングを選択し、リズム動作の実行終了時点を話し手タイミング、聞き手タイミング又は特別タイミングとして、話し手動作、聞き手動作又は特別動作を作り出して実行する。
また、前記<前提2>において
<条件2−2>話し手タイミング又は聞き手タイミングいずれかと特別タイミングとが競合すれば、
<対応2−2>特別タイミングを選択し、リズム動作の実行終了時点を特別タイミングとして、特別動作を作り出して実行する。
更に、同じく前提2>において
<条件2−3>話し手タイミング又は聞き手タイミングのみが競合すれば、
<対応2−3>優先度の高い話し手タイミング又は聞き手タイミングを選択し、リズム動作の実行終了時点を選択した話し手タイミング又は聞き手タイミングとして、話し手動作又は聞き手動作を作り出して実行する。
ここで、<対応2−3>における優先度は、既述したように固定していてもよいし、変動させるものでもよい。この<前提2>における競合の解消は、リズム動作として実行中の特別動作を阻害しないように、続く話し手タイミング、聞き手タイミング又は特別タイミングをリズム動作の実行終了時点まで遅延させる点に特徴がある。
こうして、話し手動作、聞き手動作及び特別動作からなるリズム動作を実行させて動く本人アバター51の動画は、必要により上記競合の解消を図って、アバター動画生成部16により生成される。そして、動画合成部17により前記本人アバター51の動画と相手53の実写動画と合成されてリズム画像5となる。ここで、本例の携帯電話1は、同一画面111に表示される本人アバター51と相手53とが疑似的に会話していると本人に感得させることにより、より多くのノンバーバル情報を本人に取得させる。これから、具体的なリズム画像5は、図13に見られるように、本人アバター51は顔が見える程度の斜視に後ろ向きで画面右下に配し、相手53は前向きで画面中央に配すると両者の対面関係が明らかとなり、疑似的な会話をしていると本人感得させやすくなる。こうした本人アバター51と相手53との位置関係や向き、更に大小関係等は、動画合成部17により調整するとよい。このほか、動画合成部17は、リズム画像5の背景等を本人アバター51の動画と相手53の実写動画に重ね合わせる。
以下、本発明の応用例である携帯電話やその応用となる会話支援端末について、それぞれ上記例(図1−図13参照)と異なる点について、説明する。図14は特別動作を含むリズム動作に従って動く相手アバター52の動画からなるリズム画像5を用いた携帯電話2の使用状態を示す斜視図、図15は特別動作を含むリズム動作に従って動く相手アバター52の動画からなるリズム画像5を用いた携帯電話2の本発明に係る構成を示すブロック図、図16はリズム画像5を生成する処理手順を表す処理フローチャート、図17は画面211の表示例を表す本人が用いる携帯電話2の部分正面図であり、図18は本例の携帯電話2を応用した会話支援端末3の本発明に係る構成を示すブロック図である。
この応用例は、話し手動作、聞き手動作及び特別動作を混在させて動く相手アバター52の動画からなるリズム画像5を用いた携帯電話2の例である。これから、図14に見られるように、本人及び相手が用いる各携帯電話2は、互いに本人及び相手の音声信号を送受信するほか、互いに本人及び相手の操作信号を送受信する。本人の音声信号は、相手から見れば相手の音声信号、本人の操作信号は相手から見れば相手の操作信号になる。本人及び相手が用いる携帯電話2は同じである。ここで、本例の携帯電話2は、上記例(図1〜図13参照)と異なり、本人及び相手の実写動画を送受信しない。これは、携帯電話2の回線容量が小さくても、また本人及び相手が用いる携帯電話2にカメラがなくても、本発明が利用できることを意味する。
携帯電話2は、図15に見られるように、音声取込部23、信号取込部25、アバター動画生成部26、そして画像表示部28から、本発明に係る主要部を構成する。この主要部は、従来より携帯電話に搭載されている情報処理装置をプログラムにより制御し、ソフト的に構成できる。ここで、例えば音声取込部23、信号取込部25及び画像表示部28は、処理内容が特定されているので、専用LSI等を用いてハード的に構成してもよい。ここで、既述したように、本例の携帯電話2はカメラを必要とせず、また上記例に比べて動画合成部が省略されていることから、本発明を利用するための仕様要求が低くなっている。これから、主要部はソフト的に構成する方が、その後の仕様変更に応じやすくなる。
音声取込部23は内蔵マイク212から本人の音声を、相手が用いる携帯電話から送受信部22を通じて相手の音声信号を取り込み、それぞれアバター動画生成部26へ送り込む。また、画像表示部28は、アバター動画生成部26で生成された相手アバター52の動画、すなわちリズム画像5を取り込み、画面211に表示する。この音声取込部23及び画像表示部28の詳細は、上記例と同じであるから、説明は省略する。
信号取込部25は、相手が用いる携帯電話のテンキーから相手が用いる携帯電話の送受信部に取り込まれて発信され、送受信部22に受信された相手の操作信号を取り込む。この操作信号は、相手アバター52に特定の動きからなる特別動作を実行させる命令である。各特別動作は、テンキーの各ボタン毎に割り当てておき、相手が選択してボタンを押すことで、相手アバターの特別動作として実行される。本人の操作信号は、テンキー214から送受信部22に取り込まれて発信され、相手が用いる携帯電話の送受信部に受信された後、相手から見た「相手の操作信号」として相手が用いる携帯電話の信号取込部に取り込まれる。相手の操作信号は、信号取込部25によりアバター動画生成部26へ送り込まれる。
アバター動画生成部26は、音声取込部23から送り込まれた本人及び相手の音声信号から、また信号取込部25から送り込まれた相手の操作信号から、相手アバター52が動くリズムタイミングを算出し、前記リズムタイミングで実行するリズム動作を作り出し、前記リズム動作に従って動く相手アバター52の動画そのものをリズム画像5として生成する。このアバター動画生成部26は、図16に見られるように、本人及び相手の音声信号と、相手の操作信号とを並列に取り込み、相手の音声信号から相手アバターの話し手タイミングを推定し、本人の音声信号から相手アバターの聞き手タイミングを推定し、そして相手の操作信号を取り込んだ時点を相手アバターの特別タイミングとして、特に相互の競合を解消することなく、これらを重畳的に混在させてリズムタイミングを算出する。
そして、上記アバター動画生成部26は、推定された話し手タイミングに対して相手アバター52の話し手動作を、推定された聞き手タイミングに対して相手アバター52の聞き手動作を、決定された特別タイミングに対して相手アバター52の特別動作を作り出す。既述したように、リズムタイミングは話し手タイミング、聞き手タイミング、そして特別タイミングを重畳的に混在させているから、リズムタイミングで実行するリズム動作は、前記話し手動作、聞き手動作、そして特別動作が混在し、各タイミングによっては相互に組み合わさった複合的な動作となる。相手アバター52の動画、すなわちリズム画像5は、前記リズムタイミングでリズム動作を実行する相手アバター52の動きとして生成される。そして、このアバター動画生成部26は、背景等を相手アバター52の動画に重ね合わせてリズム画像5を生成する。
本例の携帯電話2は、身体リズムに従って動く相手アバター52が相手の意図的な操作を表す特別動作で動くことにより、本人に対する相手アバター52の関わり合いが緊密であるとして本人に身体リズムを感得させ、この本人にノンバーバル情報を取得させる。これから、具体的なリズム画像5は、図17に見られるように、相手アバター52は前向きで画面中央に配し、本人と相手アバター52とが向かい合う対面関係にするとよい。この場合、相手アバター52の向き及び姿勢は、アバター動画生成部26により調整できるため、相手アバター52は正しく本人に対面する向き及び姿勢で画面211に表示させることができる。
本例に示すリズム画像5は、上記例に示すリズム画像(図13)に実写動画として表示される相手と同じく、特別動作として「ピースサイン」を実行させている。これは、相手が「ピースサイン」の特別動作を割り当てたテンキーを押し、意図的に相手アバター52に「ピースサイン」を実行させた場合に当たる。このほか、図示は省略するが、強い肯定反応を表すゆっくり又は早くて深い頭の頷き動作や、強い否定反応を表すゆっくり又は早くて大きな頭の(左右)振り動作等が、本発明における話し手動作及び聞き手動作に混在させる特別動作として有用であり、本人に身体リズムを感得させやすくなる。実写動画における相手は、相手が用いる携帯電話のカメラとの位置関係により、必ずしも相手と正しく対面しない。しかし、本例の相手アバター52は正しく本人と対面させることができる(図13及び図17を比較対照)。これにより、本人は相手アバター52の関わり合いが緊密であると感じやすくなり、この相手アバター52からなるリズム画像5を見る本人に身体リズムを感得させ、この本人にノンバーバル情報を取得させることができる。
応用例の携帯電話2を利用すれば、図18に見られるように、会話支援端末3を構成できる。この会話支援端末3は、上記携帯電話2(図14〜図17参照)から送受信部を除き、音声取込部33、信号取込部35、アバター動画生成部36、そして画像表示部38から、本発明に係る主要部を構成する。この主要部は、会話支援端末3に搭載される情報処理装置をプログラムにより制御してソフト的に構成できるほか、例えば音声取込部33、信号取込部35及び画像表示部38は、専用LSI等を用いてハード的に構成してもよい。
音声取込部33は、内蔵マイク312から本人及び相手の音声信号を取り込み、前記本人及び相手の音声信号をそれぞれアバター動画生成部36へ送り込む。信号取込部35は、データグローブ314から本人の操作信号を取り込む。この操作信号は、本人アバターに特定の動きからなる特別動作を実行させる命令である。特別動作は、データグローブ314の各指の動きに応じた可動部を動かすことにより、本人アバターの特別動作として実行される。本人の操作信号は、信号取込部35によりアバター動画生成部36へ送り込まれる。
アバター動画生成部36は、音声取込部33から送り込まれた本人及び相手の音声信号から、また信号取込部35から送り込まれた本人の操作信号から、本人アバターが動くリズムタイミングを算出し、前記リズムタイミングで実行するリズム動作を作り出し、このリズム動作に従って動く本人アバターの動画を生成する。この本人アバターの動画がリズム画像であり、前記アバター動画生成部36により画面表示部38へ送り込まれ、この画面表示部38により画面311に表示される。アバター動画生成部36は、背景等を本人アバター51の動画に重ねてリズム画像5を生成する。
この会話支援端末3は、本人アバターの動きがはっきり分かるように、本人アバターの向き及び姿勢をアバター動画生成部により調整して、正しく本人及び相手に対面する向き及び姿勢で本人アバターを画面311(図17中画面211に相当)に表示させるとよい。これにより、本人の意図的な操作を表す特別動作を加えたリズム動作に従って動く本人アバターを見る相手に身体リズムを感得させ、更には前記特別動作により本人の意図を相手に伝達することで、十分なノンバーバル情報を相手に与えることができる。また、本人が会話の不自由な身体障害者である場合、本人アバターが本人に身体リズムを感得させ、ノンバーバル情報を取得させることができる。こうして、この会話支援端末3は、特に健常者と会話する身体障害者の前記健常者に対する意思表現又は感情表現を補い、健常者と身体障害者との会話を円滑にする。
図19は本人アバター51及び相手アバター52の動画を組み合わせたリズム画像5を用いた携帯電話4の使用状態を示す斜視図、図20は本人アバター51及び相手アバター52の動画を組み合わせたリズム画像5を用いた携帯電話4の本発明に係る構成を示すブロック図、図21はリズム画像5を生成する処理手順を表す処理フローチャートであり、図22は画面411の表示例を表す本人が用いる携帯電話4の部分正面図である。本例の携帯電話4は、上記例(図1−図13)が用いた相手の実写動画に代えて、相手アバター52を用いた構成であり、携帯電話4の回線容量が小さくても、また本人及び相手が用いる携帯電話4にカメラがなくても利用できる利点がある。
この応用例は、話し手動作及び聞き手動作を混在させて動く本人アバター51の動画と話し手動作及び聞き手動作を混在させて動く相手アバター52の動画とを重ね合わせたリズム画像5を用いた携帯電話4の例である。これから、図19に見られるように、本人及び相手が用いる各携帯電話4は、互いに本人及び相手の音声信号及び操作信号を送受信する。ここで、本人の音声信号は相手から見れば相手の音声信号、本人の操作信号は相手から見れば相手の操作信号になる。
携帯電話4は、図20に見られるように、音声取込部43、信号取込部45、アバター動画生成部46、動画合成部47、そして画像表示部48から、本発明に係る主要部を構成する。この主要部は、従来より携帯電話に搭載されている情報処理装置をプログラムにより制御し、ソフト的に構成できる。ここで、例えば音声取込部43、信号取込部45、動画合成部47及び画像表示部48は、処理内容が特定されているので、専用LSI等を用いてハード的に構成してもよい。
音声取込部43は、内蔵マイク412から本人の音声信号を取り込む。前記本人の音声信号は、内蔵マイク412から送受信部42に取り込まれて発信され、相手が用いる携帯電話の送受信部42に受信された後、相手から見た「相手の音声信号」として相手が用いる携帯電話の音声取込部に取り込まれる。本人の音声信号は、送受信部42から音声取込部43に取り込んでもよい。また、相手の音声信号は、相手が用いる携帯電話の内蔵マイクから相手が用いる携帯電話の送受信部に取り込まれて発信されて送受信部42に受信され、前記本人の音声信号同様、音声取込部43に取り込まれる。こうして取り込まれた本人及び相手の音声信号は、音声取込部43により、それぞれアバター動画生成部46へ送り込まれる。
信号取込部45は、テンキー414から本人の操作信号を取り込む。この操作信号は、本人アバター51に特定の動きからなる特別動作を実行させる命令である。特別動作は、テンキーの各ボタン毎に割り当てておき、本人が選択してボタンを押すことで、本人アバター51の特別動作として実行される。本人の操作信号は、送受信部42から信号取込部45に取り込んでもよい。また、相手の操作信号は、相手が用いる携帯電話のテンキーから相手が用いる携帯電話の送受信部に取り込まれて発信されて送受信部42に受信され、前記本人の操作信号同様、信号取込部45に取り込まれる。こうして取り込まれた本人及び相手の操作信号は、信号取込部45によりアバター動画生成部46へ送り込まれる。ここで、本人による本人アバター51の意図的な操作や、相手による相手アバター52の意図的な操作をさせない場合は、本人又は相手が用いる携帯電話4の各信号取込部45を停止させるとよい。
アバター動画生成部46は、音声取込部43から送り込まれた本人及び相手の音声信号から、また信号取込部45から送り込まれた本人及び相手の操作信号から、本人アバター51及び相手アバター52それぞれのリズムタイミングを算出し、前記リズムタイミングで実行する各リズム動作を作り出す。このアバター動画生成部46は、図21に見られるように、本人アバター51に対する本人及び相手の音声信号、本人の操作信号、相手アバター52に対する本人及び相手の音声信号、そして相手の操作信号を並列に取り込む。そして、本人の音声信号から話し手タイミングを推定し、相手の音声信号から聞き手タイミングを推定し、そして本人の操作信号を取り込んだ時点を特別タイミングとして、本人アバター51のリズムタイミングを算出し、同様に本人の音声信号から聞き手タイミングを推定し、相手の音声信号から話し手タイミングを推定し、そして相手の操作信号を取り込んだ時点を特別タイミングとして、相手アバター52のリズムタイミングを算出している。
そして、上記アバター動画生成部46は、本人アバター51の話し手動作、聞き手動作及び特別動作を作り出し、同様に相手アバター52の話し手動作、聞き手動作及び特別動作を作り出す。既述したように、リズムタイミングは話し手タイミング、聞き手タイミング、そして特別タイミングを重畳的に混在させているから、リズムタイミングで実行するリズム動作は、前記話し手動作、聞き手動作、そして特別動作が混在し、各タイミングによっては相互に組み合わさった複合的な動作となる。本人アバター51及び相手アバター52の各動画は、前記リズムタイミングでリズム動作を実行する本人アバター51及び相手アバター52の動きとして生成される。
動画合成部47は、アバター動画生成部46から送り込まれた本人アバター51及び相手アバター52の各動画を合成し、1枚のリズム画像5を生成する。ここで、本人アバター51及び相手アバター52の各動画は、例えば相手アバター52を奥側、本人アバター51を手前側として配置し、本人アバター51が被さる相手アバター52の部分は表示させないように、両動画を1枚のリズム画像5にする。各動画は、1枚のリズム画像5として見えれば、それぞれ異なるレイヤーにおける重ね合わせとしてもよい。こうして生成されたリズム画像5は、動画合成部47から画像表示部48へ送り込まれ、前記画像表示部48により携帯電話4の画面411に表示される。動画合成部47は、本人アバター51の動画と相手アバター52の動画とに、背景等を重ね合わせてリズム画像5を生成する。
ここで、本例の携帯電話4は、同一画面411に表示される本人アバター51と相手アバター52とが疑似的に会話していると本人に感得させると共に、本人アバター51及び相手アバター52がそれぞれのリズムタイミングに従って、リズム動作、例えば話し手動作及び聞き手動作を実行することにより、より多くのノンバーバル情報を本人に取得させる。これから、具体的なリズム画像5は、図22に見られるように、本人アバター51は顔が見える程度の斜視に後ろ向きで画面右下に配し、相手は前向きで画面中央に配すると両者の対面関係が明らかとなり、疑似的な会話をしていると本人に感得させやすくなる。本例では、相手アバター52が「ピースサイン」からなる特別動作を実行している。また、相手アバター52は、画面411を見る本人と対面させることにより、相手アバター52との関わり合いが緊密であると本人に感じさせやすくなり、このリズム画像5を見る本人に身体リズムを感得させ、ノンバーバル情報を取得させやすくすることもできる。