JP3771989B2

JP3771989B2 - 画像音声通信システムおよびテレビ電話送受信方法

Info

Publication number: JP3771989B2
Application number: JP07006297A
Authority: JP
Inventors: 誠一郎田端; 裕昌小林; 久美菊池
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 1997-03-24
Filing date: 1997-03-24
Publication date: 2006-05-10
Anticipated expiration: 2017-03-24
Also published as: US6313864B1; JPH10271470A

Description

【０００１】
【発明の属する技術分野】
本発明は、画像音声通信システムおよびテレビ電話送受信方法、詳しくは、話者の音声を通信相手側に伝送する際に、該話者の顔等の画像またはこれに代わる画像を通信相手側に伝え、相手の顔等を確認しながら会話を行う、画像音声通信システムおよびテレビ電話送受信方法に関する。
【０００２】
【従来の技術】
従来、話者の音声を通信相手側に伝送する際に、該話者の顔等の画像を同時に通信相手側に伝え、相手の顔等を確認しながら会話を行う、いわゆるテレビ電話システムは種々の方式が知られるところにある。これらのテレビ電話システムの多くは既存の電話回線を利用するものであり、話者の音声データ信号とともに顔画像等の画像データ信号を疑似的双方向に略同時に通信相手側に伝送するものである。しかしながら、顔画像データを動画像としてそのままの状態で伝送しようとすると、その情報量の多さ故、既存の電話回線を使用する伝送形態をとる限り困難が伴った。
【０００３】
このような事情により、電話回線等、伝送容量の小さい伝送路にもなじむことを目的とし、従来、単位時間あたりの伝送情報量がより少なくてすむように、静止画像を細切れに伝送するテレビ電話方式が採用されている。
【０００４】
しかしながら、このようなテレビ電話システムでは、動画像をリアルタイムに正確に伝送することが困難であり、このため、自然な顔画像を相手側に伝送することができず、結果として顔の表情がぎこちないものとなっていた。
【０００５】
このような問題点を解消する技術手段として、近年、コンピュータ・グラフィック（ＣＧ）技術を用いた通信会議システムが、たとえば特開平７−３８８７３号公報において提案されている。以下、該通信会議システムで用いられる技術手段について簡単に説明する。
【０００６】
この技術手段においては、まず予め会議に参加する者の顔像の凹凸等の形状情報や色彩情報をレーザースキャナ等を用いて計測して取り込むとともに、デジタルカメラ等を用いて顔画像の情報を取り込む。そして、上記形状情報にもとづいて３Ｄのポリゴンデータに変換し、各参加者のワイヤーフレームモデルを作成する。
【０００７】
また、会議を行う際には、これら各参加者の顔にマーカーを貼り、さらに頭、腕および身体にその動きを検出するセンサを取り付ける。そして、各参加者の近傍、たとえば各参加者が装着するヘッドギア等にそれぞれ設置されたカメラで上記顔に貼ったマーカーの動きを検出することで顔の動きを検出し、また、頭、腕および身体に取り付けたセンサによりこれら各部の動きを検出する。
【０００８】
次に、上述した各部位の動きデータに基づいて上述したように予め作成されているワイヤーフレームモデルをリアルタイムに変形させる。そして、このワイヤーフレームモデルに予め取り込んでおいた色彩を張り付けて対応する参加者のグラフィック像を完成させる。その後、この完成された参加者のグラフィック像を該参加者の動きに合わせてリアルタイムでスクリーンに表示させる。これにより、会議の参加者はこのスクリーン表示をモニタすることで他の参加者の顔の表情等を認識しつつ話し合い等を行うことができるようになっている。
【０００９】
このような方式だと、多大なデータ量を必要とする画像データは予め取り込まれており、リアルタイムに変化するデータ量は少なくてすむため、既存の電話回線等、伝送容量の小さい伝送路を使用するテレビ電話システムにおいても話者の動画像をリアルタイムに伝送することが可能となる。
【００１０】
【発明が解決しようとする課題】
上記特開平７−３８８７３号公報において提案された通信会議システムは、予め話者の画像データの取り込みや、会話を始める前に話者の顔にマーカーを貼り付けたり、頭、腕、身体にセンサを取り付けるといった繁雑な手間がかかるといった問題点がある。また、会議システム等の業務用ではなく一般家庭での使用を考慮すると、このような繁雑性は極めて不適当な感がある。
【００１１】
すなわち、この通信会議システムにおけるテレビ電話システムは、話者たる使用者の顔画像の諸データを予めレーザースキャナ等で計測して取り込む必要があるが、このような大がかりな計測を一般家庭においては行うのはコスト等を考慮すると非常に困難である。また、会話を始める前に顔にマーカーを貼る必要があるが、一般家庭での使用状況を考えるに、電話での会話の度に、特に電話がかかってきた場合等において、その度に顔にマーカーを貼りつけるのは現実的ではない。
【００１２】
さらに、会話時にはスクリーン前に居なくてはならないという、通常の音声だけの電話に対して著しい制約が科せられるという点については、それ以前のテレビ電話システムにも共通した問題点である。
【００１３】
本発明はかかる問題点に鑑みてなされたものであり、簡単で安価な装置を用い、使用者に手間をかけることなく、話者の顔の動きや表情をリアルタイムに伝送する画像音声通信システムおよびテレビ電話送受信方法を提供することを目的とする。
【００１４】
【課題を解決するための手段】
上記の目的を達成するために本発明による第１の画像音声通信システムに用いる画像音声通信装置は、画像表示手段と、通信相手から受信した音声信号を再生するための音声出力手段と、前記画像表示手段による表示に適用するキャラクター画像を記憶するキャラクター画像データ記憶手段と、通信相手から当該キャラクター画像に対して変形を与えるための指令信号コードを受信する変形指令受信手段と、前記指令信号コードに応じて前記キャラクター画像に変形を施すためのキャラクター変形手段と、前記キャラクター変形手段によって変形が施されたキャラクター画像を前記画像表示手段に供給して表示せしめるための手段と、通信実行に際して、通信相手から伝送される信号によって通信相手を認識し、当該通信相手を表すキャラクター画像を選択して前記画像表示手段による表示に適用する表示キャラクター選択手段と、を具備し、
キャラクター画像と指令信号コードとこれに対応する当該キャラクター画像の変形の程度との対応関係を表す第１の情報を会話の開始に先行して伝送し、会話中は、上記指令信号コードのみからなる第２の情報と音声信号とをリアルタイムで伝送することを特徴とする。
【００１５】
上記の目的を達成するために本発明による第２の画像音声通信システムに用いる画像音声通信装置は、上記第１の画像音声通信システムに用いる画像音声通信装置において、前記第１の情報におけるキャラクター画像と指令信号コードとこれに対応する当該キャラクター画像の変形の程度との対応関係を送信側の通信者が任意に決定するキャラクター画像変形量決定手段と、前記指令信号コードの送信実行の条件を送信側の通信者が任意に決定する送信条件決定手段とを、さらに具備したことを特徴とする。
【００２６】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【００２７】
まず、本発明の一実施形態である画像音声通信システムの概要について説明する。
【００２８】
この画像音声通信システムは、電話回線等の回線網を介して通信相手の顔画像をモニタしながら音声会話を行う、いわゆるテレビ電話システムに属するものであるが、通信相手の顔画像は通信相手本人の顔画像に限らず所定のキャラクターデータにより形成された画像を用いて対話を行うことを特徴としている。すなわち、対話時において一方の話者がモニタする他方相手側の顔画像は、所定の（任意に設定も可能とする）キャラクターデータにより形成されたキャラクター画像であり、対話に際して相手側の顔に表情変化が生じると、この表情変化に関連する顔主要部の動きに実質的にリアルタイムに対応するように該キャラクター画像を変化させて伝達することを特徴とするものである。
【００２９】
そして本画像音声通信システムにおいては、上記所定のキャラクター画像は、送り手側の話者によって予め設定されるようになされており、画像伝送の際には、送り手側話者のキャラクター画像データを一旦、相手側（受け手側）に伝送し、その後、対話時において送り手側話者の変化に応じて当該キャラクター画像の主要部の動きに関するデータのみを送信するようになっている。これにより、画像伝送に要するデータ伝送量は極小ですみ、伝送容量の小さい回路網を使用したテレビ電話システムであっても、相手の顔の表情を実質的にリアルタイムに相手側に伝えることができるようになっている。
【００３０】
また、本画像音声通信システムにおいては上記キャラクター画像は、使用者が任意に設定するようになっているが、予め記憶された画像を使用者が選択して用いるようにすることも可能であり、何れにせよこれにより遊び心に満ちた対話を実現することができる。
【００３１】
また、本画像音声通信システムにおいては、通信の送受信に使用される端末装置として、使用者が個別に頭部に装着して画像をモニタするＨｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ（以下、ＨＭＤと略記する）を用いていることも特徴とする（図５参照）。
【００３２】
以下、図１を参照して本第１の実施形態である画像音声通信システムにおける主要構成部を概略的に説明する。
【００３３】
図１は、本第１の実施形態である画像音声通信システムにおいて用いられる画像音声通信装置の主要構成を示したブロック図であり、図中、上段側が送信部の主要構成を、下段側が受信部の主要構成を示している。
【００３４】
なお、本第１の実施形態の画像音声通信システムは、一方の話者と相手側他方の話者とが同様の機能を有する装置を使用して通信を行うものであり、互いに話者側の立場と聞き手側の立場とが入れ替わりつつ対話をおこなうようになっている。しかしながら、ここでは便宜上、一方の話者を送り手側話者、他方を受け手側話者とし、それぞれに係る画像音声通信装置を送り手側装置、受け手側装置として説明する。
【００３５】
まず、一方の送り手側装置における送信部の構成について説明する。
【００３６】
この第１の実施形態の画像音声通信装置における送信部は、送り手側話者のキャラクター画像を生成するキャラクター画像生成手段１００と、このキャラクター画像生成手段１００によって生成された各種キャラクター画像に係るデータを記憶する第１のキャラクターデータ記憶手段１０４と、送り手側話者の目、口等の動きを検出し、後述する基準値用の信号を送出すると共に対話時においては送り手側話者の目、口、頭の動きおよび音声を検出し、次段に送出する表情検出手段１０５と、この表情検出手段１０５からの検出結果（目、口、頭の動き）を所定の指令信号コード（目の動きコード、口の動きコード、頭の動きコード）に変換して出力する表情コード変換手段１０８と、上記第１のキャラクターデータ記憶手段１０４からのデータまたは表情検出手段１０５からのデータあるいは上記表情コード変換手段１０８からのデータを所定のタイミングで選択して次段に送出する第１の選択手段１０７と、この第１の選択手段１０７によって選択された上記第１のキャラクターデータ記憶手段１０４からのデータまたは表情検出手段１０５からのデータあるいは表情コード変換手段１０８からのデータを相手側装置（受け手側装置）に対して送信するデータ送信手段１０６と、で主要部が構成されている。
【００３７】
なお、上記第１の選択手段１０７は、端子１０７ａが選択される上記第１のキャラクターデータ記憶手段１０４出力端がデータ送信手段１０６に接続され、端子１０７ｂが選択されると上記表情検出手段１０５の出力端あるいは上記表情コード変換手段１０８の出力端が同データ送信手段１０６に接続されるようになっている。なお、この第１の選択手段１０７は、本第１の実施形態の画像音声通信装置においては、ソフト的に接続先を選択するようにしている。
【００３８】
上記キャラクター画像生成手段１００は、所定のキャラクター画像のデータを入力するキャラクターデータ入力手段１０１と、このキャラクターデータ入力手段１０１によって入力された所定のキャラクターデータを、所定のドットデータに変換する第１の変換手段１０２と、この第１の変換手段１０２によってドットデータに変換されたキャラクターデータを表示する表示手段１０３と、を備えている。
【００３９】
なお、この表示手段１０３は、使用者が装着するＨＭＤ等に設けられた表示部である。また、このＨＭＤに関しては後に詳述する。
【００４０】
上記キャラクターデータ入力手段１０１は、後述する操作部等で構成されており、使用者（送り手側話者）は、該キャラクターデータ入力手段１０１を用いて、所定のキャラクター画像のデータを入力するようになっている。この際、使用者は、初期状態のキャラクター画像のデータ（基本キャラクター画像データ）とともに同使用者の目、口等の動きに合わせて変化する表情が変化（変形）したキャラクター画像に係るデータも設定するようになっている。なお、この表情変化に対応したキャラクター画像は、予め設定された指令信号コードに対応するパターンの種類ほど設定する。
【００４１】
なお、本実施形態においては、上記キャラクターデータ入力手段１０１は、所定のキャラクターデータを操作部等で操作して入力する装置を想定し、使用者がキャラクター画像を任意に設定するようにしたが、これに限らず、たとえば、電子カメラ、スキャナ等で採取した任意の画像データ（使用者本人の顔等の実写を含む）であっても良い。
【００４２】
さらに、使用者（送り手側話者）は、キャラクターデータ入力手段１０１および表情検出手段１０５を用いて、該表情検出手段１０５で検出した送り手側話者の目、口の動きに基づいて表情変化の基準値を設定するようになっている。なお、基準値とは、当該話者の表情の変化の程度に応じて当該指令信号コードを出力するか否かを判定する際のしきい値を意味する。
【００４３】
上記表情検出手段１０５は、使用者が装着するＨＭＤ等に設けられており、上記表情変化の基準値を生成する際に用いる検出手段であるとともに、対話を行う際に送り手側話者の各表情変化（目、口、頭の動き）および音声信号を互いに同期した所定のタイミングで検出して送出する検出手段としての役目も果たすようになっている。
【００４４】
上記表情変化の基準値を生成する際には、送り手側話者によるキャラクターデータ入力手段１０１の操作により、該表情検出手段１０５からの表情変化の要素のうち目、口の動きに関する検出値が表情コード変換手段１０８に入力され、この検出値に基づいて表情変化の基準値が生成されるようになっている。なお、この基準値も、予め設定された指令信号コードに対応する種類ほど生成するようになっている。
【００４５】
一方、対話時においては、上記所定のタイミングで変化する送り手側話者の表情変化は、表情変化の要素のうち、目、口の動きに関しては、次段の表情コード変換手段１０８において逐次（実質的にリアルタイムに）所定の指令信号コードに変換され、データ送信手段１０６を介して受け手側装置に伝送されるようになっている。
【００４６】
また、頭の動きのデータは、同表情コード変換手段１０８において、上記指令信号コードには対応しない別の所定のコードに変換され、データ送信手段１０６を介して受け手側装置に伝送されるようになっている。
【００４７】
さらに、音声信号は、該表情コード変換手段１０８をバイパスして、データ送信手段１０６を介して受け手側装置に伝送されるようになっている。
【００４８】
なお、上記目、口の動きデータに係る所定の指令信号コードの伝送と、頭の動きデータに係るコードの伝送、音声信号の伝送は、互いに同期して伝送されるようになっている。
【００４９】
なお、以上の作業は、第１の変換手段１０２においてドットデータに変換され逐次、上記表示手段１０３に表示されるようになっており、使用者は上記作業をモニタしながら行い得るようになっている。
【００５０】
一方、上記画像音声通信装置の受信部は、相手側装置のデータ送信手段１０６より送られてきた所定のデータを受信するデータ受信手段１１１と、このデータ受信手段１１１で受信したデータの種別により次段の回路を選択する第２の選択手段１１２と、この第２の選択手段１１２で選択された際に相手側のキャラクター画像に係る所定のデータを一時的に記憶する第２のキャラクターデータ記憶手段１１３と、この第２のキャラクターデータ記憶手段１１３に記憶された相手側のキャラクター画像に係る所定データと相手側の表情検出手段１０５で検出されさらに上記表情コード変換手段１０８でコード化された表情変化のデータとに基づいて相手側のキャラクター画像を加工するキャラクターデータ加工手段１１４と、このキャラクターデータ加工手段１１４で加工された相手側キャラクター画像を所定データに変換する第２の変換手段１１５と、対話時に相手側の表情検出手段１０５で検出された頭の動きのデータに基づいて画像変形の度合いを演算して出力する画像変形手段１１７と、対話時に相手側の表情検出手段１０５で検出された音声信号を再生する音声再生手段１１８と、相手側のキャラクター画像を表示する表示手段１１６と、で主要部が構成されている。
【００５１】
なお、上記第２の選択手段１１２においては、詳しくは後述するが通信の初期段階においては、端子１１２ａが選択されるようになっており、このときデータ受信手段１１１の出力端は上記第２のキャラクターデータ記憶手段１１３に接続されるようになっている。一方、通信の対話段階においては、端子１１２ｂが選択されるようになっており、このとき、同データ受信手段１１１の出力端は上記第２のキャラクターデータ記憶手段１１３を迂回してキャラクターデータ加工手段１１４、上記音声再生手段１１８に接続されるようになっている。
【００５２】
上記第２の変換手段１１５は、通信の対話段階において、相手側送り手側話者の目、口の動きに伴うキャラクター画像の変形度合いを、送り手側装置から送られてきた指令信号コードを予め設定されている指令信号コードに照らし合わせて決定し、所定の画像処理を施した後、画像変形手段１１７に送出するようになっている。
【００５３】
また、上記画像変形手段１１７は、通信の対話段階において、相手側送り手側話者の頭の動きに伴うキャラクター画像の変形度合いを所定の演算手法で演算し、上記第２の変換手段１１５からのデータに所定の画像処理を施した後、相手側のキャラクター画像を実質的にリアルタイムに生成し、表示手段１１６に表示させるようになっている。
【００５４】
なお、送り手側装置から送られてくる、上記頭の動きのデータに係るコードの伝送は、上述したように上記目、口の動きのデータに係る指令信号コードの伝送と同期しているので、受け手側装置の表示手段１１６においても同期して表示するようになっている。
【００５５】
さらに、上記音声再生手段１１８は、通信の対話段階において、相手側送り手側話者の音声信号を上記目、口の動きのデータに係る指令信号コード、頭の動きのデータに係るコードと同期させて再生するようになっている。
【００５６】
次に、このような構成をなす本実施形態の画像音声通信システムの作用を簡単に説明する。
【００５７】
送り手側話者は、まず、準備段階として、自身の画像音声通信装置（以下、送り手側装置と略記する）において、自身の初期状態のキャラクター画像（基本キャラクター画像）をキャラクター画像生成手段１００内のキャラクターデータ入力手段１０１によって生成する。なお、送り手側話者は、生成するキャラクター画像を表示手段１０３をモニタしながら行うようになっている。すなわち、キャラクターデータ入力手段１０１によって入力されたキャラクターデータは、第１の変換手段１０２によって所定のドットデータに変換され表示手段１０３に表示されるようになっている。
【００５８】
この後、送り手側話者は、キャラクターデータ入力手段１０１を用いて、予め記憶されている指令信号コードに対応させて、上記初期状態のキャラクター画像に対して目、口等が変形した、すなわち、表情を変化させたキャラクター画像を所定種類ほど作成するとともに、この変形の度合い（以下、変形キャラクター画像データという）をそれぞれ対応させて生成する。この所定種類は、予め記憶された指令信号コードの数に対応した種類である。
【００５９】
次に、表情検出手段１０５で送り手側話者の目、口の動きの所定データを検出し、これらのデータに基づき、表情コード変換手段１０８において表情変化の基準値を生成する。この際、この表情変化の基準値は、先ほどキャラクターデータ入力手段１０１を用いて所定種類ほど生成した、初期状態のキャラクター画像に対して目、口等が変化したキャラクター画像に対応した種類ほど生成されるようになっている。
【００６０】
なお、この生成工程の際、各キャラクター画像は、上記第１の変換手段１０２において各キャラクターデータからドットデータに変換されて表示手段１０３に表示される。これにより、送り手側話者は表示手段１０３をモニタしながら上記作業を行いえるようになっている。
【００６１】
次に、このようにして上記キャラクター画像生成手段１００で生成された各種キャラクターデータ、すなわち、送り手側話者の初期のキャラクター画像のデータ、表情変化に対応したキャラクター画像のデータ、該表情変化に対応する基準値のデータが、送り手側装置の第１のキャラクターデータ記憶手段１０４に記憶される。
【００６２】
以上により、準備段階が完了する。なお、送り手側話者と対話を行う受け手側話者の受け手側装置においても、同様の準備を行うものとする。
【００６３】
準備が完了し、相手側装置と通信が開始されると、所定のプロトコルにより初期段階の交渉が行われ、引き続き、まず、第１のキャラクターデータ記憶手段１０４より、上述した送り手側話者の各種キャラクターデータが出力される。すなわち、送り手側装置においては、上記第１の選択手段１０７において端子１０７ａが選択され、上記第１のキャラクターデータ記憶手段１０４から上述した各種キャラクターデータがデータ送信手段１０６を介して受け手側装置に向けて送出される。
【００６４】
受け手側装置は、送り手側装置から送られてきた送り手側話者のキャラクターデータをデータ受信手段１１１で受信し、第２の選択手段１１２において端子１１２ａを選択し、上記各種キャラクターデータを第２のキャラクターデータ記憶手段１１３に記憶する。
【００６５】
なお、この交渉段階では、送り手側装置から受け手側装置へ各種キャラクターデータが伝送されると同時に、受け手側装置の各種キャラクターデータも送り手側装置に対して伝送される。したがって、送り手側装置においても、受け手側話者の各種キャラクターデータを自身の第２のキャラクターデータ記憶手段１１３に記憶する。
【００６６】
上記各種キャラクターデータが互いに相手側装置に伝送されると、次に、対話段階に移行する。まず、上記第１の選択手段１０７，第２の選択手段１１２において、スイッチがそれぞれ端子１０７ｂ，端子１１２ｂに切換わる。
【００６７】
送り手側装置の表情検出手段１０５で送り手側話者の表情変化のうち、目、口の動きの変化を所定のタイミングで検出し、続いて表情コード変換手段１０８で該目、口の動きの変化を逐次所定の指令信号コードに変換して、データ送信手段１０６を介して受け手側装置に送出する。
【００６８】
この目、口の動きのデータに係る指令信号コードの伝送に同期して、同じく上記表情検出手段１０５で頭の動きに係るデータを検出して上記表情コード変換手段１０８で所定のコードに変換した後、データ送信手段１０６を介して受け手側装置に送出する。さらに、同目、口の動きのデータに係る指令信号コードの伝送に同期して、同じく上記表情検出手段１０５で検出した音声信号をデータ送信手段１０６を介して受け手側装置に送出する。
【００６９】
受け手側装置は、データ受信手段１１１で、送り手側話者の目、口の動きのデータに係る指令信号コードを受信すると、キャラクターデータ加工手段１１４において、該指令信号コードに応じて第２のキャラクターデータ記憶手段１１３に記憶されている送り手側話者の各種キャラクターデータを加工する。
【００７０】
この後、上記キャラクターデータ加工手段１１４で加工処理が施された送り手側話者のキャラクターデータが予め記憶されているフォーマットに基づいて第２の変換手段１１５で変換される。
【００７１】
また、受け手側装置は、データ受信手段１１１で、上記目、口の動きのデータに係る指令信号コードの受信に同期して頭の動きのデータに係るコードを受信する。また、該頭の動きコードに基づいて画像変形手段１１７で画像の変形の度合いを演算し、上記第２の変換手段１１５で変換されたキャラクター画像のデータに所定の画像処理を施して表示手段１１６に表示する。このとき、相手側送り手側話者のキャラクター画像を実質的にリアルタイムに表示する。
【００７２】
さらに、受け手側装置は、データ受信手段１１１で、上記指令信号コードの受信に同期して相手側送り手側話者の音声信号を受信し、該音声信号を音声再生手段１１８で再生する。
【００７３】
以上の通信を要約すると、以下の通りとなる。すなわち、
Ａ：通信前段階
(1)：話者は、それぞれ自身の基本となるキャラクター画像を生成する。
(2)：話者は、上記基本キャラクター画像に対して、所定の指令信号コードに対応する表情変化（目、口の動き）を付けた新たなキャラクター画像に関するデータ（該基本キャラクター画像に対してどれだけ変形するかのデータ、以下、変形キャラクター画像データとする）を生成する。
(3)：話者は、自身の目、口の動きを検出し、所定の指令信号コードに対応する表情変化の基準値（しきい値）を設定する。
【００７４】
Ｂ：通信初期段階
(1)：送り手側装置より、送り手側話者の基本キャラクター画像データが受け手側装置に伝送され、該受け手側装置の記憶部に記憶する。
(2)：送り手側装置より、所定の指令信号コードに対応する表情変化を付けた変形キャラクター画像データが受け手側装置に伝送され、該受け手側装置の記憶部に記憶する。
【００７５】
Ｃ：通信対話段階（送り手側装置）
(1)：送り手側話者の目、口の動きを所定のタイミングで検出する。
(2)：送り手側話者の目、口の動きの検出結果と上記しきい値に基づいて所定の指令信号コードを逐次、受け手側装置に伝送する。
(3)：送り手側話者の頭の動きを所定のタイミングで検出し、この検出結果を逐次、受け手側装置に伝送する。なお、この頭の動きのコードの伝送は、上記(2)における所定の指令信号コードの伝送に同期している。
(4)：送り手側話者の音声信号を所定のタイミングで採取し、この音声信号を逐次、受け手側装置に伝送する。なお、この音声信号の伝送は、上記(2)における所定の指令信号コードの伝送に同期している。
【００７６】
Ｄ：通信対話段階（受け手側装置）
(1)：送り手側装置から逐次（実質的にリアルタイムに）送られてくる送り手側話者の目、口の動きに関する所定の指令信号コードを受けとる。
(2)：送り手側装置から逐次（実質的にリアルタイムに）送られてくる送り手側話者の頭の動きに関するコードを受けとる（上記(1)に同期）。
(3)：送り手側装置から逐次（実質的にリアルタイムに）送られてくる送り手側話者の音声信号を受けとる（上記(1)に同期）。
(4)：上記(1)で受け取った指令信号コードに対応する目、口の動きのキャラクター画像データあるいは変形キャラクター画像データを記憶部より検索し読み出す。
(5)：上記(4)で読み出したキャラクター画像データあるいは変形キャラクター画像データと、上記(2)で受け取った頭の動きに関するコードに基づいて、送り手側話者のキャラクター画像を実質的にリアルタイムに表示部に表示する。
(6)：上記(3)で受け取った音声信号に基づいて、送り手側話者の音声をリアルタイムに再生する。
【００７７】
以上、本第１の実施形態の画像音声通信システムの概要を説明したが、以下、該実施形態の画像音声通信システムの具体的な構成、作用を図２ないし図３２を参照して説明する。
【００７８】
図２は、本発明の第１の実施形態である画像音声通信システムの主要構成を示した説明図である。
【００７９】
図に示すように、本実施形態の画像音声通信システムは、当該通信システムを介して対話を行う使用者の頭部に装着され後述する映像生成ボックス２からの所定データに基づいて該使用者に映像、音声を供給するとともに、同使用者の目の動き、頭の動き、口の動き、音声等を映像生成ボックス２に送出するＨｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ（以下、ＨＭＤ）１と、このＨＭＤ１に接続され同ＨＭＤ１に対して電力を供給するとともに所定の映像信号、音声信号等を供給する一方、該ＨＭＤ１より視線信号（目の動きに対応）、ヘッドモーション信号（頭の動きに対応）、音声信号（口の動きに対応）等を受信し、後述する所定の処理を施す映像生成ボックス２と、この映像生成ボックス２に接続され、該映像生成ボックス２に内設されたキャラクターデータ記録部３６に対してキャラクターデータ生成用のコントロール信号９を送出するコントローラパッド３と、上記映像生成ボックス２と通常の電話回線を介して接続され、キャラクタデータ、頭の動きコード、目の動きコード、口の動きコード、音声信号（図中、符号８で示す）等の信号の送受信を行う外部装置４とで、主要部が構成されている。
【００８０】
まず、上記ＨＭＤ１について図２、図３、図４を参照して説明する。
【００８１】
図３は、上記ＨＭＤ１を使用者が装着した際の様子を一側方よりみた側面図である。
【００８２】
また、図４は、上記ＨＭＤ１，映像生成ボックス２，コントローラパッド３の接続対応と、これら各部の電気回路的な構成を詳しく示したブロック構成図である。
【００８３】
上記ＨＭＤ１は、図２、図３に示すように使用者の両眼部前方より頭頂部にかけて延設された支持筐体に接眼光学系１３，１６、ヘッドモーションセンサ１１、マイク１９、スピーカ２０、通話スイッチ２４等が配設されて構成されており、当該通信システムを介して対話を行う各使用者の頭部に図示の如く装着されるようになっている。すなわち、使用者に装着された際に、使用者の眼部前方には接眼光学系等からなる映像部が、頭頂部にヘッドモーションセンサ１１が、左右の耳部には左右のスピーカ２０Ａ，２０Ｂ（図２参照）が、口部前方には上記支持筐体より延設されたマイク１９がそれぞれ配置されるようになっており、耳部の後部において支持部２５で頭部に支持するようになっている。また、支持筐体の一側方には、通信開始時におけるオフフックスイッチの役目を果たす通話スイッチ２４が配設されている。
【００８４】
また、上記支持部２５からは映像生成ボックス２と接続する接続コードが延設されており、該映像生成ボックス２より左右の映像信号、音声信号、液晶シャッタ駆動信号、電力（図２中、符号７で示す）等の供給を受けることで所定の動作を行うようになっている。
【００８５】
ここで、図３に加え図４を参照してＨＭＤ１における接眼光学系周辺の構成をさらに詳しく説明する。
【００８６】
上述したように使用者両眼部の前方には、左右の接眼光学系１６，１３が配置され、これら左接眼光学系１６，右接眼光学系１３の上方にはそれぞれ左ＬＣＤ１７、右ＬＣＤ１４が配設されている。また、これら左ＬＣＤ１７、右ＬＣＤ１４のさらに上方にはバックライト２１が配設され、さらに上記左右の接眼光学系の前方には液晶シャッタ２３が配設されている。
【００８７】
上記左ＬＣＤ１７、右ＬＣＤ１４はＨＭＤ１内部に配設されたＬＣＤ駆動回路１８によって駆動されるようになっており、該ＬＣＤ駆動回路１８は映像生成ボックス２の制御により動作されるようになっている。また、図示はしないが上記液晶シャッタ２３、バックライト２１も映像生成ボックス２に接続され、各々駆動制御されるようになっている。
【００８８】
すなわち、映像生成ボックス２からの左右の映像信号、液晶シャッタ駆動信号に基づいて上記左ＬＣＤ１７、右ＬＣＤ１４、液晶シャッタ２３、バックライト２１が動作し、使用者に所定の映像が供給されるようになっている。
【００８９】
また、上記左右のスピーカ２０Ａ，Ｂは、映像生成ボックス２からの音声信号に基づいて所定の音声を再生するようになっている。
【００９０】
一方、上記左接眼光学系１６，右接眼光学系１３の近傍には使用者の視線を検出する左視線検出器１５，右視線検出器１２およびこれらの視線検出用の光源２２が配設されている。上記左視線検出器１５，右視線検出器１２で検出した左右の視線情報は映像生成ボックス２の目の動きコード変換器５１に対して送出されるようになっている。
【００９１】
そして、この左右の視線検出器１５，１２からの視線情報は、所定の初期設定情報として用いられるほか、会話時においては使用者の視線の動き（目の動き）の情報として用いられる。なお、詳しくは後述する。
【００９２】
また、上記ヘッドモーションセンサ１１は、使用者の頭部の動きを３次元的に検出するセンサであり、頭の動きに対応する３次元情報を映像生成ボックス２の頭の動きコード変換器５２に対して送出するようになっている。
【００９３】
このヘッドモーションセンサ１１からのデータも、会話時において使用者の頭の動きの情報として用いられる。
【００９４】
さらに、上記マイク１９は会話時において通常の音声記録装置として使用者の音声を採取する機能を果たすとともに、所定の条件のもと使用者の口の動きを検出する検出装置としての役目も果たすようになっている。すなわち、所定の初期設定を行う際、該マイク１９からの音声信号は映像生成ボックス２の口の動きコード変換器５０に対して送出されるようになっている。一方、会話時においては該マイク１９で採取した音声信号は映像生成ボックス２の音声信号送信器４８に対して送出され通信相手に対して伝送される一方、会話中の使用者の口の動きが検出され映像生成ボックス２の口の動きコード変換器５０に対して該情報が送出されるようになっている。なお、詳しくは後述する。
【００９５】
次に、上記映像生成ボックス２の構成について図４を参照してさらに詳しく説明する。
【００９６】
上記映像生成ボックス２は、電話回線を介して通信相手側の装置となる外部装置４（図２参照）との間で、キャラクタデータ、頭の動きコード、目の動きコード、口の動きコード、音声信号（図２において符号８で示す）等の信号の送受信を行うようになっているが、図４に示すようにその際の送受信器を各種備えている。
【００９７】
すなわち、一方の話者が用いる画像音声通信装置（図２中、ＨＭＤ１，映像生成ボックス２，コントローラパッド３）と、相手側話者が用いる画像音声通信装置である外部装置４との間において、所定のキャラクターデータの送受信はキャラクターデータ送信器３１、キャラクターデータ受信器３２で行うようになっている。以下、目の動きコード、口の動きコード、頭の動きコードの送受信はそれぞれ、目の動きコード受信器３３、目の動きコード送信器４５、口の動きコード受信器３４、口の動きコード送信器４７、頭の動きコード受信器３５、頭の動きコード送信器４６で行うようになっている。
【００９８】
また、通信相手との会話中の音声信号の送受信は、音声信号送信器４８、音声信号受信器４９で行うようになっている。
【００９９】
ところで、本第１の実施形態の画像音声通信システムは、上述したように所定のキャラクター画像を用いて一方の話者と相手側の話者とが対話を行うようになっているが、以下、該映像生成ボックス２内において、キャラクターデータの生成、加工、記憶を行う各装置について、信号の流れに沿ってその構成を説明する。
【０１００】
本実施形態の画像音声通信装置においては、対話に用いる送信者のキャラクター画像に係るキャラクターデータは、フォーマット記憶部４４に予め記憶されている指令信号コードに対応してキャラクターデータ生成装置４３で生成されるようになっている。このキャラクターデータ生成装置４３には、図２に示すように接続コードを介して上記コントローラパッド３が接続されている。そして、該コントローラパッド３に配設されたキャラクターデータ生成用コントローラ６１、ダイヤルボタン６２の操作によりコントロール信号９（図２参照）がキャラクターデータ生成装置４３に対して送出され、使用者による任意のキャラクターデータ作成を可能としている。なお、詳しくは後述する。
【０１０１】
また、上記キャラクターデータ生成装置４３で生成される所定のキャラクター画像のデータは、キャラクター画像生成装置３９等を介してＨＭＤ１に伝送され、該ＨＭＤ１のモニタ画面上に当該キャラクター画像の作成画面が映し出されるようになっている。
【０１０２】
ところで、いま、一方の話者を送り手側話者とし、該送り手側話者が使用する装置を送り手側装置とすると、送り手側話者のキャラクター画像および該キャラクター画像に係る各種キャラクターデータは送り手側装置の映像生成ボックス２内のキャラクターデータ生成装置４３において生成されるようになっている。すなわち、送り手側話者に対して相手受け手側話者のキャラクターデータは相手受け手側装置のキャラクターデータ生成装置４３において生成するようになっている。
【０１０３】
図４に戻って、上記キャラクターデータ生成装置４３は、送り手側話者のキャラクター画像および該キャラクター画像の変形に伴ういくつかのキャラクターデータを生成するようになっている。すなわち、まず、使用者（送り手側話者）は、通信を行う前の準備段階において、該キャラクターデータ生成装置４３に接続された上記コントローラパッド３におけるキャラクターデータ生成用コントローラ６１、ダイヤルボタン６２を操作して、所定のキャラクター画像を任意に生成し、さらに、該キャラクター画像に対して所定の変形を施したキャラクター画像を生成するようになっている。
【０１０４】
この際、まず、使用者（送り手側話者）自身の初期状態のキャラクター画像である基本キャラクター画像を後述する手法により生成するとともに、同使用者の目、口等の動きに応じて表情が変化（変形）するキャラクター画像に係るデータを設定するようになっている。このとき、該表情変化に対応したキャラクター画像は、フォーマット記憶部４４に予め設定記憶された指令信号コードに対応するパターンの種類ほど設定するようになっている。そして、この表情変化に対応したキャラクター画像は、実際は、上記基本キャラクター画像に対する変形量として設定されるようになっている。
【０１０５】
なお、上記フォーマット記憶部４４に記憶されている指令信号コードについては後に詳述する。
【０１０６】
また、本実施形態においては、上記キャラクター画像の生成および該キャラクター画像を変形させたキャラクター画像のデータ入力は、上述したようにコントローラパッド３をもちいて行ったが、これに限らず、たとえば、電子カメラ、スキャナ等で採取した任意の画像データ（使用者本人の顔等の実写を含む）であっても良い。
【０１０７】
また、通信前の準備段階においては、上記目の動きコード変換器５１あるいは口の動きコード変換器５０おいて、使用者（送り手側話者）がＨＭＤ１で検出した送り手側話者の目、口の動きに基づく表情変化の基準値を設定するようになっている。
【０１０８】
なお、基準値とは、当該話者の表情の変化の程度に応じて当該指令信号コードを出力するか否かを判定する際のしきい値を意味する。
【０１０９】
すなわち、上述したようにＨＭＤ１には、上記左右の視線検出器１５，１２およびマイク１９（図３参照）が設けられている。そして、上記左右の視線検出器１５，１２で送り手側話者の目の動きを、マイク１９で同口の動きを検出し、これらの検出結果が図４中、口の動きコード変換器５０または目の動きコード変換器５１に送出されるようになっている。なお、詳しくは後述する。
【０１１０】
なお、上記ＨＭＤ１は、上記表情変化の基準値を設定する際に用いる検出手段であるとともに、対話を行う際に送り手側話者の各表情変化（目、口、頭の動き）および音声信号を互いに同期した所定のタイミングで検出して送出する検出手段としての役目も果たすようになっている。
【０１１１】
上記キャラクターデータ生成装置４３の出力端は、一方で、上述したようにキャラクター画像生成装置３９に接続され、さらに該キャラクター画像生成装置３９を介してＨＭＤ１の表示部（右接眼光学系１３，１６等の光学系）に接続されている。これにより、使用者は、ＨＭＤ１を装着することで上記キャラクター画像の生成作業をモニタしながら行うことができるようになっている。
【０１１２】
また、上記キャラクターデータ生成装置４３の出力端は、他方で、キャラクターデータ記憶装置３６に接続されている。このキャラクターデータ記憶装置３６は、該キャラクターデータ生成装置４３で生成した送り手側話者の基本キャラクター画像のデータを記憶すると共に、上記フォーマット記憶部４４に記憶された指令信号コードに対応する、上記基本キャラクター画像に所定の変形を施したキャラクター画像のデータ（実際は、該基本キャラクター画像に対する変形量のデータ）を記憶するようになっている。
【０１１３】
また、キャラクターデータ記憶装置３６には上記キャラクターデータ送信器３１が接続されており、通信の初期段階において、上記キャラクターデータ記憶装置３６に記憶された送り手側話者の基本キャラクター画像、変形キャラクター画像に係るキャラクターデータがキャラクターデータ送信器３１より相手受け手側装置のキャラクターデータ受信器３２に向けて送信されるようになっている。
【０１１４】
一方、相手受け手側装置で生成された受け手側話者の基本キャラクター画像、変形キャラクター画像に係るキャラクターデータを受信するキャラクターデータ受信器３２の出力端には、該相手受け手側装置で生成された上記各種キャラクターデータを記憶するキャラクターデータ記憶装置３７が接続されており、通信初期段階において相手受け手側話者の各種キャラクターデータを一旦記憶するようになっている。
【０１１５】
以上が、本実施形態の画像音声通信システムにおいて、通信前の準備段階あるいは通信の初期段階で主に用いられる構成要素について説明した。次に、通信が開始された後の対話段階に主に使用される構成要素について説明する。
【０１１６】
本実施形態の画像音声通信システムは、通信が開始され実際に対話が始まると、上記ＨＭＤ１により送り手側話者の表情の変化を所定のタイミングで検出し、この表情の変化を所定のコードに変換して送出するようになっている。以下、この表情の変化に応じて送出される所定のコード変換器等について説明する。
【０１１７】
上記ＨＭＤ１における上記右視線検出器１２，左視線検出器１５の出力端は、目の動きコード変換器５１に接続され、該目の動きコード変換器５１の出力端はさらに目の動きコード送信器４５に接続されている。また、該ＨＭＤ１におけるヘッドモーションセンサ１１の出力端は、頭の動きコード変換器５２に接続され、該頭の動きコード変換器５２の出力端はさらに頭の動きコード送信器４６に接続されている。さらに、マイク１９の出力端は、口の動きコード変換器５０および音声信号送信器４８に接続され、上記口の動きコード変換器５０の出力端はさらに口の動きコード送信器４７に接続されている。
【０１１８】
通信の対話時において、上記目の動きコード変換器５１は、上記ＨＭＤ１の左右の視線検出器１５，１２で検出した視線データと上記基準値とに基づいて、所定の条件を満たした場合に送り手側話者の目の動きコードに変換し、目の動きコード送信器４５より相手受け手側話者に向けて送出するようになっている。
【０１１９】
なお、頭の動きに関する基準値は予め工場出荷時に頭の動きコード変換器５２に記憶されている。
【０１２０】
また、頭の動きコード変換器５２は、ＨＭＤ１のヘッドモーションセンサ１１で検出した頭の動きデータを受けて該データを送り手側話者の頭の動きコードに変換し、頭の動きコード送信器４６より相手受け手側話者に送出するようになっている。
【０１２１】
さらに、口の動きコード変換器５０は、上記ＨＭＤ１のマイク１９で採取した音声信号に基づいて、所定の条件を満たした場合に送り手側話者の口の動きコードに変換し、口の動きコード送信器４７より相手側に送出するようになっている。一方、マイク１９の音声信号は音声信号送信器４８より相手受け手側話者に音声信号として伝送される。また、受け手側話者においては、音声信号は音声信号受信器４９で受信し、ＨＭＤ１のスピーカ２０で該音声を再生するようになっている。
【０１２２】
次に、通信の対話段階において、相手側の装置から伝送される各種キャラクターデータの受信器等について説明する。
【０１２３】
通信の対話段階において、目の動きコード送信器４５，頭の動きコード送信器４６，口の動きコード送信器４７，音声信号送信器４８から送信される送り手側話者の各種データは、それぞれ、目の動きコード受信器３３，口の動きコード受信器３４，頭の動きコード受信器３５，音声信号受信器４９で受信するようになっている。
【０１２４】
上記目の動きコード受信器３３，口の動きコード受信器３４は何れも相手受け手側装置から送出される目の動きコード，口の動きコードを受信する受信器であり、これら目の動きコード受信器３３、口の動きコード受信器３４と上記キャラクターデータ記憶装置３７の出力端は何れもキャラクターデータ加工装置３８に接続されている。
【０１２５】
上記キャラクターデータ加工装置３８は、受信した受け手側話者の目の動きコード、口の動きコードに基づいてキャラクターデータ記憶装置３７に記憶されたキャラクターデータのうち“目の動き”および“口の動き”を加工し、該加工結果をキャラクター画像生成装置３９に対して出力するようになっている。
【０１２６】
上記キャラクター画像生成装置３９では、上記キャラクターデータ加工装置３８で加工された相手側のキャラクターデータに基づいて最終的な相手側のキャラクター画像を生成し、画像変形部４１に対して出力するようになっている。なお、詳細は後述する。
【０１２７】
また、上記頭の動きコード受信器３５は、相手受け手側装置から送出される頭の動きコードを受信する受信器であり、この頭の動きコード受信器３５の出力端は画像変形量演算部４０を経て画像変形部４１に接続されている。上記画像変形量演算部４０においては上記相手受け手側装置からの頭の動きコードに基づいて画像をどれだけ変形させるかを演算するようになっており、この演算結果に基づいて次段の画像変形部４１において、上記キャラクター画像生成装置３９で生成された相手側のキャラクター画像を変形させるようになっている。すなわち、頭の動きコード受信器３５で受信した相手受け手側話者の頭の動きに応じてキャラクター画像生成装置３９で最終的に生成した相手側のキャラクター画像を変形させるようになっている。なお、上記画像変形量演算部４０および画像変形部４１の作用については、後に詳述する。
【０１２８】
上記画像変形部４１の出力は座標変換部４２に接続されており、該画像変形部４１で変形処理が施された相手側のキャラクター画像は座標変換部４２で座標変換処理が施され、モニタする側のＨＭＤ１に送出されるようになっている。このとき、上記座標変換部４２における座標変換は、送り手側話者がモニタする画面においては、送り手側話者の頭の動きに応じてモニタ画面上に映し出されている相手のキャラクター画像の変換ベクトルが決定されるようになっている。なお、この座標変換部４２の作用については後に詳述する。
【０１２９】
一方、音声信号受信器４９は、相手受け手側装置からの音声信号を受信する受信器であり、受信された受け手側話者の音声信号は、ＨＭＤ１のスピーカ２０に送出され、再生されるようになっている。
【０１３０】
なお、本実施形態においては、上記マイク１９は、ＨＭＤ１を装着した際に使用者の口部前方に位置するように配設しているが、これに限らず、たとえば、図６に示すようにＨＭＤ１の光学系の近傍に配設（図中、符号１９Ａ）しても良い。これにより、ＨＭＤ１をより簡素に構成することができる。
【０１３１】
以上、本第１の実施形態である画像音声通信システムにおいて、各話者が使用する画像音声通信装置の構成について説明した。
【０１３２】
次に、本画像音声通信システムの作用について説明する。
まず、具体的な作用の説明に先だって、本画像音声通信システムを実際に使用する際の使用状況を図５に示す。
【０１３３】
前述したように、互いにそれぞれＨＭＤを装着した状態で対話を行う場合、前述したように一方の話者のモニタ画面には他方の話者のキャラクター画像が表示されている。すなわち、いま、一方の話者を使用者甲、他方の話者を使用者乙とし、使用者甲のキャラクター画像を図中、作成画像ＩＩ、使用者乙のキャラクター画像を図中、作成画像Ｉとすると、それぞれ装着したＨＭＤ１のモニタ画面（図中、座標面Ｉ、座標面ＩＩで示す）には、図示の如く、相手側話者のキャラクター画像が表示されている。
【０１３４】
本第１の実施形態の画像音声通信システムにおいては、通信を行う前段階として、各話者がその使用する画像音声通信装置に自身のキャラクター画像の設定等、所定の設定を行うようになっている。以下、この通信前段階の作用について説明する。
【０１３５】
まず、通信前段階の作業として、(1) それぞれ自身の基本となるキャラクター画像を生成する。(2) 上記基本キャラクター画像に対して、所定の指令信号コードに対応する表情変化（目、口の動き）を付けた新たなキャラクター画像に関するデータ（該基本キャラクター画像に対してどれだけ変形するかのデータ、以下、変形キャラクター画像データとする）を生成する。(3) 自身の目、口の動きを検出し、所定の指令信号コードに対応する表情変化の基準値（しきい値）を設定する等を行うようになっている。
【０１３６】
これらの作業について図７ないし図１５を参照して説明する。
本第１の実施形態の画像音声通信システムでは、上述したように送り手側話者で生成するキャラクターデータは上記映像生成ボックス２内のキャラクターデータ生成装置４３においてフォーマット記憶部４４に記憶された専用の作成ソフトを用いて作成するようになっている。
【０１３７】
まず、使用者はＨＭＤ１を装着し、所定の操作でキャラクターデータ作成モードに設定する。なお、この操作は上記コントローラパッド３のキャラクターデータ生成用コントローラ６１、ダイヤルボタン６２等を用いて行われる。このキャラクターデータ作成モードに設定されるとキャラクターデータ生成装置４３において作成ソフトが起動する。このとき、ＨＭＤ１のモニタ画面上には図７に示すようなキャラクターデータ作成ソフトの画面が掲示される。以下、図８，図９，図１０に示すフローチャートを参照して説明する。
【０１３８】
まず、キャラクターデータ作成ソフトが起動すると、キャラクター画像の基本図の作成を行う（ステップＳ１）。このとき、使用者（送り手側話者）はコントローラパッド３のキャラクターデータ生成用コントローラ６１、ダイヤルボタン６２等を操作し、ＨＭＤ１のモニタ画面上に展開される図７に示すような作図画面をモニタしながら、自身のキャラクター画像を作成する。
【０１３９】
いま、使用者（送り手側話者）が自身のキャラクター画像を、たとえば図１１に示すような猫の顔に設定したとする。このとき、該キャラクター画像の基本図のキャラクターデータとしては、「顔の輪郭」を示す大きな円１（半径、中心座標および色彩が設定される）と、「目」を示す円３（上記同様半径、中心座標および色彩が設定される）と、「瞳」を示す円２（同、半径、中心座標および色彩が設定される）と、「口」を示す線（長さ、中心座標および色彩が設定される）等が設定される。
【０１４０】
上記キャラクター画像が完成すると次に該キャラクター画像のキャラクターデータをキャラクターデータ記憶装置３６に記憶する（ステップＳ２）。この後、基本図として記憶された該キャラクター画像を所定の条件に従い加工する（ステップＳ３）。以下、この加工ルーチンについて図９に示すフローチャートおよび図１１〜図１４を参照して説明する。
【０１４１】
図１１に示す猫の顔図を基本図とすると、まず、この基本図を加工して視線を左に動かした図を作成する（ステップＳ１１）。具体的には、使用者はコントローラパッド３を用いて図１２に示すように、「瞳」を示す上記円２の中心座標データを変更し、図に示すように基本図（図１１）に対して視線が左に動いた表情を作成する。次に、上記ステップＳ１１において加工した図において、基本図に対して加工した量（すなわち、瞳の中心座標の移動量）をコード“ＥＬ”と共に記憶する（ステップＳ１２）。
【０１４２】
次に、上記基本図を加工して視線を右に動かした図を作成する（ステップＳ１３）。この場合も上記ステップＳ１１と同様に、使用者はコントローラパッド３を用いて「瞳」を示す上記円２の中心座標データを変更し、基本図（図１１）に対して視線が右に動いた表情を作成する。次に、上記ステップＳ１２と同様に、上記ステップＳ１３において加工した加工量をコード“ＥＲ”として記憶する（ステップＳ１４）。
【０１４３】
次に、上記基本図を加工して目を閉じた場合の図を作成する（ステップＳ１５）。具体的には、使用者はコントローラパッド３を用いて図１３に示すように、「瞳」を示す上記円２と、「目」を示す円３のうち片方の円のデータを変更して、図示の如く基本図（図１１）に対して目を閉じた表情を作成する。次に、上記ステップＳ１５において加工した図において、基本図に対して加工した量をコード“ＥＣ”と共に記憶する（ステップＳ１６）。
【０１４４】
次に、上記基本図を加工して口を動かした場合、すなわち、何等かの音声を発したと考えられる場合の図を作成する（ステップＳ１７）。具体的には、使用者はコントローラパッド３を用いて図１４に示すように、「口」を示す上記線のデータを変更して、図示の如く基本図（図１１）に対して口を動かした表情を作成する。次に、上記ステップＳ１７において加工した図において、基本図に対して加工した量をコード“Ｍ”と共に記憶し（ステップＳ１８）、メインルーチンに戻る。
【０１４５】
図８に戻って、次に、上記基本図に対して加工された「目の動き」、「口の動き」に対する対応関係を定める操作を行う（ステップＳ４）。
【０１４６】
以下、この対応関係の設定操作について図１０に示すフローチャートを参照して説明する。
【０１４７】
使用者（送り手側話者）は上記キャラクター画像の基本図の作成、基本図の加工に引き続いてＨＭＤ１を装着する。そして、上記ステップＳ１１〜Ｓ１８（図９参照）において「目の動き」、「口の動き」に対応して加工した各キャラクター画像に、実際に使用者の「目の動き」、「口の動き」を対応するべく各種検出を行う。
【０１４８】
まず、使用者の目の動きを検出する。すなわち、まず、使用者が視線を左に動かした場合の視線の動きを検出する（ステップＳ２１）。ここで、この視線検出機構に関して図１５および図１６〜図１９を参照して説明する。
【０１４９】
図１５は、上記視線検出機構とその周辺部を示した説明図である。なお、上記図３，図４に示した構成要素と同様の構成要素には同一の符号を付与して示している。
【０１５０】
上記左右の接眼光学系１３，１６はハーフミラー面２６を有するプリズムを形成しており、使用者がＨＭＤ１を装着した際に使用者の眼球２８の前面に配置されるようになっている。また、上記接眼光学系１３，１６の底面は符号２７で示すように凹面ミラーとなっている。さらに、上記接眼光学系１３，１６のさらに前方には、上記眼球２８に向けて赤外線を照射する赤外線光源２２と、眼球２８で反射した該赤外線光を検出する左右の視線検出器１２，１５とが配設されている。
【０１５１】
上記左右の視線検出器１２，１５の何れもＣＣＤ２９、検出回路３０を備え、上記赤外線光源２２から照射された赤外線光で照らされた眼球面、すなわち、黒目（瞳孔位置）を検出するようになっている。このとき、上記眼球面の像は凹面ミラー２７で拡大されてＣＣＤ２９に入射するようになっており、この後、該ＣＣＤ２９に入射した眼球２８の像は次段の検出回路３０に入力される。そして、この検出回路３０において使用者の視線方向とまばたきが検出されるようになっている。
【０１５２】
なお、上記ＣＣＤ２９，検出回路３０による検出精度は高いものである必要はなく、水平方向の分解能は５°位が確保できるようなものでよい。
【０１５３】
さて、上記検出した使用者の視線方向の動き、まばたき（目を閉じたことを意味する）と、上記ステップＳ１１〜ステップＳ１６で加工・記憶した各キャラクター画像との対応は、本実施形態の画像音声通信システムでは以下に示すように行う。
【０１５４】
まず、上記検出回路３０で検知されるＣＣＤ２９の暗電流を基準として、このときの電圧０ｍＶを基準電位値とする。そして、たとえば、使用者の瞳の位置がほぼ中心に位置しているときには上記基準電位に対して＋２０ｍＶの電圧信号が出力されるように設定する（図１６参照）。そして、この＋２０ｍＶの電圧信号を境に、瞳が左に移動したとき、すなわち視線が左に移動したときには基準電位に対して＋３０ｍＶの電圧信号が、右に移動したときは同＋１０ｍＶの電圧信号がそれぞれ出力されるように設定する（図１７，図１８参照）。また、まばたきをして目を閉じたときには、上記基準電位０ｍＶが出力されるように設定する（図１９参照）。
【０１５５】
図１０に戻って、上記ステップＳ２１で、使用者が視線を左に動かした場合の視線の動きを検出すると、このとき、上述したように上記検出回路３０からは基準電位に対して＋３０ｍＶの電圧信号が出力される（図１８参照、ステップＳ２２）。そして、図示はしないがこのときの電圧信号値＋３０ｍＶが上記図１２のように視線を左に動かした図に対応するコード“ＥＬ”の基準値として映像生成ボックス２内の目の動きコード変換器５１に記憶される（ステップＳ２３）。
【０１５６】
次に、使用者は視線を右に動かし、上記視線検出器１２，１５でこの視線の動きを検出すると（ステップＳ２４）、このとき、上述したように上記検出回路３０からは基準電位に対して＋１０ｍＶの電圧信号が出力される（図１７参照、ステップＳ２５）。そして、上記同様にこのときの電圧信号値＋１０ｍＶが視線を右に動かした図に対応するコード“ＥＲ”の基準値として映像生成ボックス２内の目の動きコード変換器５１に記憶される（ステップＳ２６）。
【０１５７】
次に、使用者は目を閉じ、上記視線検出器１２，１５でこの目が閉じられたことを検出すると（ステップＳ２７）、このとき、上述したように上記検出回路３０からは基準電位に対して＋０ｍＶの電圧信号が出力される（図１９参照、ステップＳ２８）。そして、上記同様にこのときの電圧信号値＋０ｍＶが上記図１３に示す如く目を閉じたした図に対応するコード“ＥＣ”の基準値として映像生成ボックス２内の目の動きコード変換器５１に記憶される（ステップＳ２９）。
【０１５８】
次に、使用者の口の動きを検出する。すなわち、使用者が音声を発したか否かの検出を行う（ステップＳ３０）。ここで、この音声検出機構に関して図２０を参照して説明する。
【０１５９】
図２０は、上記音声検出機構とその周辺部を示した説明図である。なお、上記図３，図４に示した構成要素と同様の構成要素には同一の符号を付与して示している。また、図中、符号３０１，３０２は、それぞれ送り手側装置，受け手側装置を示しており、その構成要素は同等である。
【０１６０】
送り手側話者の装置３０１において、通信前の所定の初期設定を行う準備段階の際、該マイク１９からの音声信号は上記口の動きコード変換器５０に対して送出されるようになっており、一方、通信対話段階においては該マイク１９で採取した音声信号は音声信号送信器４８に対して送出され受け手側の装置３０２に対して伝送される一方、会話中の使用者の口の動きが検出され映像生成ボックス２の口の動きコード変換器５０に対して該情報が送出されるようになっている。
【０１６１】
上記口の動きコード変換器５０は、図に示すように、基準音量レベル記憶部５０Ａと、口の動きコード生成部５０Ｂと、上記基準音量レベル記憶部５０Ａのオン・オフを制御するスイッチ５０Ｃとで構成されている。上記基準音量レベル記憶部５０Ａは、スイッチ５０Ｃのオン時のみ動作するようになっており、該スイッチ５０Ｃは、通信前の準備段階であって、基準音量レベルを設定するときのみにオンするようになっている。
【０１６２】
図１０に戻って、基準音量レベルを設定する際には、上記スイッチ５０Ｃがオンしており、使用者（送り手側話者）が音声を発すると（ステップＳ３０）、該音声の音量がコード“Ｍ”の基準値として該基準音量レベル記憶部５０Ａ（音声検出器）に記憶され（ステップＳ３１）、メインルーチンにリターンする。
【０１６３】
図８に戻って、上記ステップＳ４における基準値の設定が終了すると、送り手側話者は、基本キャラクター画像等を再度確認し（ステップＳ５）、必要ならば上記ステップＳ１〜ステップＳ４までの何れかあるいは全てを再度繰り返して所望のキャラクター画像、変形量が得られるまで調整する。
【０１６４】
以上で、本第１の実施形態の画像音声通信システムにおける、通信前段階の作用、すなわち、送り手側話者のキャラクター画像等のキャラクターデータの生成過程について述べた。
【０１６５】
次に、通信が開始された以降の作用について説明する。
【０１６６】
本第１の実施形態の画像音声通信システムにおいては、通信が開始されると、まず、所定のプロトコルにより初期交渉が行われ、引き続き、初期段階として以下に示すデータ転送が行われる。
【０１６７】
すなわち、まず、送り手側装置より、送り手側話者の基本キャラクター画像データが受け手側装置に転送され、該受け手側装置の記憶部に記憶する。
また、送り手側装置より、所定の指令信号コードに対応する表情変化を付けた変形キャラクター画像データが受け手側装置に転送され、該受け手側装置の記憶部に記憶する。
さらに上記初期段階のデータ転送が終了すると、実際の対話段階に移行し、以下の作業がなされる。
【０１６８】
まず、送り手側装置においては、送り手側話者の目、口の動きを所定のタイミングで検出する。
次に、送り手側話者の目、口の動きの検出結果と上記しきい値に基づいて所定の指令信号コードを逐次、受け手側装置に伝送する。
また、送り手側話者の頭の動きを所定のタイミングで検出し、この検出結果を逐次、受け手側装置に伝送する。なお、この頭の動きのコードの伝送は、上記所定の指令信号コードの伝送に同期している。
さらに、送り手側話者の音声信号を所定のタイミングで採取し、この音声信号を逐次、受け手側装置に伝送する。なお、この音声信号の伝送は、上記(2)における所定の指令信号コードの伝送に同期している。
【０１６９】
一方、受け手側装置においては、送り手側装置から逐次（実質的にリアルタイムに）送られてくる送り手側話者の目、口の動きに関する所定の指令信号コードを受けとる。
また、送り手側装置から逐次（実質的にリアルタイムに）送られてくる送り手側話者の頭の動きに関するコードを受けとる。
さらに、送り手側装置から逐次（実質的にリアルタイムに）送られてくる送り手側話者の音声信号を受けとる。
そして、受け取った指令信号コードに対応する目、口の動きのキャラクター画像データあるいは変形キャラクター画像データを記憶部より検索し読み出す。
さらに、読み出したキャラクター画像データあるいは変形キャラクター画像データと、受け取った頭の動きに関するコードに基づいて、送り手側話者のキャラクター画像を実質的にリアルタイムに表示部に表示する。
さらに、受け取った音声信号に基づいて、送り手側話者の音声をリアルタイムに再生する。
【０１７０】
以下、この通信段階における本第１の実施形態の画像音声通信システムの作用について図２１ないし図３２を参照して説明する。なお、これらの図においては、図５に示すように一方の使用者を甲、他方を乙とし、それぞれ使用者甲，乙が装着する装置を甲側の装置、乙側の装置とする。
【０１７１】
図２１ないし図２３は、本実施形態の画像音声通信システムにおいて通信が開始された後の作用を示したフローチャートである。図２１は、通信が開始された後の甲側の装置における通信初期段階の作用を、図２２は、甲側の装置における対話（送信）段階の作用を、図２３は、乙側の装置における対話（受信）段階の作用をそれぞれ示している。
【０１７２】
図２１に示すように、話者甲が他の任意の話者乙に対して通信を開始しようとする際には、まず、話者甲はＨＭＤ１を装着し、通話スイッチ２４を操作してオフフックし、通常の電話回線を使用した通話と同様にダイヤルを開始する（ステップＳ４１）。なお、このダイヤル操作は、本実施形態においては、上記コントローラパッド３に配設されたダイヤルボタン６２によって行うようになっている。
【０１７３】
この後、回線が接続され、相手側話者乙との通話が可能となると、すなわち乙側の装置の受信準備ができると（ステップＳ４２）、まず、相手側話者を識別するための、たとえばＩＤＮｏ．等を選択し、相手側話者を識別する（ステップＳ４３）。この操作は、コントローラパッド３により行われる。
【０１７４】
この後、甲側装置において上記説明した過程により生成された各種キャラクターデータ、基本キャラクター画像のデータ、キャラクター画像加工量（変形量）に係るデータがキャラクターデータ送信器３１（図４参照）より話者乙に対して送信される。すなわち、まず、甲側装置より、話者乙の基本キャラクター画像データが乙側装置に対して送信される（ステップＳ４４）。次に、甲側装置より、所定の指令信号コードに対応する表情変化を付けたキャラクター画像データの加工量データが乙側装置に送信される（ステップＳ４５）。
【０１７５】
次に、乙側装置より送信される、話者乙の基本キャラクター画像データをキャラクターデータ受信器３２で受信し（ステップＳ４６）、該データをキャラクターデータ記憶装置３７に記憶する（ステップＳ４７）。次に、、乙側装置より送信される、話者乙の所定の指令信号コードに対応する表情変化を付けたキャラクター画像データの加工量データを同様にキャラクターデータ受信器３２で受信し（ステップＳ４８）、該データをキャラクターデータ記憶装置３７に記憶する（ステップＳ４９）。
【０１７６】
次に、話者甲の頭の位置をリセットする（ステップＳ５０）。これは、話者甲が装着したＨＭＤ１におけるヘッドモーションセンサ１１の位置をリセットする。なお、このリセット動作は、上記ステップＳ４９までの動作が完了した段階で自動的に行われても良いし、使用者が図示しないスイッチ等により行っても良い。
【０１７７】
このように初期段階の各種キャラクターデータの転送が終了すると、実際の対話段階に移行する。
図２２に示すように、まず、甲側装置で、話者甲自身の音声を検出する（ステップＳ５１）。この音声検出は、マイク１９で採取した話者甲の音声を音声信号送信器４８で検出し、音声を検出すると同音声信号送信器４８より音声信号を送信する（ステップＳ５２）。
【０１７８】
上記マイク１９で採取した話者甲の音声は、同時に上記口の動きコード生成部５０Ｂ（図２０参照）に入力され、予め基準音量レベル記憶部５０Ａで設定された基準音量レベルに達したか否かを判定し（ステップＳ５３）、基準値以上であれば、口の動きコード変換器５０内の該規格化音量レベル変換部５０Ｂで口の動きを上記指令信号コードに対応したコード“Ｍ”に変換し（ステップＳ５４）、口の動きコード送信器４７より乙側装置に送信して（ステップＳ５５）、ステップＳ５６に移行する。
【０１７９】
上記ステップＳ５１において、話者甲の音声が検出されないとき、また、上記ステップＳ５３において、検出された音声が上記基準値に満たない場合は、ともにステップＳ５６に移行する。
【０１８０】
上記ステップＳ５６においては、話者甲の目の動きを検出する。これは、上記右視線検出器１２，左視線検出器１５により話者甲の視線を検出し、該視線の動きが予め上記ステップＳ２３，Ｓ２６，Ｓ２９（図１０参照）で設定した基準値を満たすときには、上記目の動きコード変換器５１（図４参照）で、所定のコード（“ＥＬ”，“ＥＲ”，“ＥＣ”）に変換し（ステップＳ５７）、上記目の動きコード送信器４５より乙側装置に送信して（ステップＳ５８）、ステップＳ５９に移行する。
【０１８１】
上記ステップＳ５６において、話者甲の目の動きが検出されないとき、すなわち視線の動きが上記基準値を満たさないときには、ステップＳ５９に移行する。
【０１８２】
上記ステップＳ５９においては、話者甲の頭の動きを検出する。これは、ＨＭＤ１のヘッドモーションセンサ１１で話者甲の頭の動きを検出し、この頭の動きを検出すると、頭の動きコード変換器５２において所定のコードに変換し（ステップＳ６０）、頭の動きコード送信器４６より乙側装置に送信する（ステップＳ６１）。
【０１８３】
ここで、上記頭の動きの検出およびこの動きの検出がなされた際の処理について図２４，図２５を参照して説明する。
【０１８４】
図２４は、本実施形態の画像音声通信システムにおいて、使用者がＨＭＤ１を装着した様子を正面からみた図であり、図２５は、同様に使用者がＨＭＤ１を装着した様子を一側面からみた図である。
【０１８５】
使用者がＨＭＤ１を装着した状態で、該使用者の頭の動きとしては、図２４に示すようなロール方向、ヨー方向、図２５に示すようなピッチ方向の動きが考えられる。本実施形態の画像音声通信システムにおいては、このような使用者の頭の動きを上記ヘッドモーションセンサ１１で検出するようになっている。上述したように、対話が開始されると初期段階でヘッドモーションセンサ１１の位置がリセットされるようになっている（ステップＳ５０、図２１参照）。そして、このリセットされた基準位置よりヘッドモーションセンサ１１がどれだけ変位したかを計測することで、使用者の頭の動きを捉えることができる。
【０１８６】
本実施形態においては、対話時において、上記ヘッドモーションセンサ１１の変位を常時検出し、この検出結果に基づいて頭の動きコード変換器５２で所定のコードを生成し、上記目、口の動きのコード（指令信号コードに対応したコード）の伝送に同期して受け手側話者に対して送出するようになっている。
【０１８７】
上記頭の動きに係る所定のコードは、本実施形態においては、上記ロール方向、ヨー方向、ピッチ方向の動きに対応した３種類のコードが用意されている。そして、ヘッドモーションセンサ１１の検出結果を受けて上記頭の動きコード変換器５２において、使用者の頭がこれらロール方向、ヨー方向、ピッチ方向の何れかあるいは複合された動きをしたと判断すると、これらの動きに対応した上記３種類のコードのうち何れかあるいは複合的に変換し、頭の動きコード送信器４６に送出するようになっている。
【０１８８】
以上、図２１，図２２を参照して、一方の話者である甲側の送信作用について説明したが、次に、対話段階において甲側からの送信信号を受信する乙側の受信作用について図２３を参照して説明する。
【０１８９】
図２３は、乙側の装置における対話受信段階の作用を示したフローチャートである。
【０１９０】
対話が開始されると、乙側装置は甲側装置からの音声信号の受信の有無を判定する（ステップＳ７１）。これは、甲側装置３０１（図２０参照）の音声信号送信器４８から何等かの音声信号が送信されると乙側装置３０２の音声信号受信器４９で受信するようになっており、該ステップＳ７１で音声信号を受信すると、スピーカ２０で甲側話者の音声を再生する（ステップＳ７２）。
【０１９１】
この後、甲側装置の口の動きコード送信器４７から送出された所定の口の動きコードを乙側装置の口の動きコード受信器３４（図４，図２０参照）で受信したか否かを判定し（ステップＳ７３）、該コードが受信されたならば、キャラクターデータ加工装置３８（図４参照）において、上述したように該コードに応じてキャラクター画像のデータを加工し（ステップＳ７４）、ステップＳ７５に移行する。
【０１９２】
また、上記ステップＳ７１において、甲側装置より何等音声を受信しない場合、ステップＳ７３において、口の動きコードを受信しない場合（話者甲に係る何等かの音声は受信するが、音量レベルが所定の基準値より低く甲側装置において口の動きコードが生成されない場合）は、ともにステップＳ７５に移行する。
【０１９３】
ステップＳ７５においては、乙側装置における動きコード受信器３３が、甲側装置における目の動きコード送信器４５から送出される所定の目の動きコードを受信したか否かを判定する。ここで、該コードを受信すると、キャラクターデータ加工装置３８（図４参照）において、上述したように該コードに応じてキャラクター画像のデータを加工し（ステップＳ７６）、ステップＳ７７に移行する。また、上記ステップＳ７５において、甲側装置からの目の動きコードを受信しない場合は、ステップＳ７７に移行する。
【０１９４】
ステップＳ７７においては、乙側装置は、上述したようにキャラクター画像生成装置３９において甲側話者のキャラクター画像を生成する。このとき、話者乙のＨＭＤ１におけるモニタ画面には、たとえば、図１１〜図１４に示すような話者甲のキャラクター画像が、当該話者甲の目、口の動きに応じて表情を変化させて表示されている。また、このキャラクター画像は、上述したように、話者甲の目、口の動きに応じて実質的にリアルタイムに変化する。
【０１９５】
この後、ステップＳ７８において、乙側装置における頭の動きコード受信器３５が、甲側装置における頭の動きコード送信器４６から送信される所定の頭の動きコードを受信したか否かを判定する。この頭の動きコードは、上述したように、ロール方向、ヨー方向、ピッチ方向の動きに対応した３種類のコードである。
【０１９６】
このステップＳ７８で少なくとも上記何れかのコードを受信すると、乙側装置は、画像変形量演算部４０において受信したコードに基づいて画像をどれだけ変形させるかを演算する。そして、この演算結果に基づいて次段の画像変形部４１において、上記ステップＳ７７においてキャラクター画像生成装置３９で生成された話者甲のキャラクター画像を変形させ（ステップＳ７９）、この後ステップＳ８０に移行する。なお、上記ステップＳ７８において、何れのコードも受信しない場合は、ステップＳ８０に移行する。
【０１９７】
すなわち、乙側装置の頭の動きコード受信器３５で受信した話者甲の頭の動きに応じてキャラクター画像生成装置３９で最終的に生成した相手側（甲）のキャラクター画像を変形させる。
【０１９８】
ここで、この画像変形の具体例について説明する。
図２６ないし図２８は、本第１の実施形態の画像音声通信システムにおける乙側装置が、甲側装置より頭の動きコードを受信した際に行う画像変形の例を示した図であり、図２６は、話者甲のロール方向の頭の動きに対応したコードを受信した際の画像変形の一例、図２７は、話者甲のピッチ方向の頭の動きに対応したコードを受信した際の画像変形の一例、図２８は、話者甲のヨー方向の頭の動きに対応したコードを受信した際の画像変形の一例をそれぞれ示している。なお、話者甲のキャラクター画像は、上記図１４に示したキャラクター画像を例にとって示している。
【０１９９】
乙側装置が話者甲のロール方向の頭の動きに対応したコードを受信すると、話者乙のＨＭＤ１のモニタ画面上には、図２６に示すように、キャラクター画像の所定の一点（図に示す例においては、顔の最下点）を中心に座標を回転（ロールの＋方向、−方向に応じた回転）させたキャラクター画像が表示される。なお、本図においては、ロール＋方向のコードを受信した例を示している。
【０２００】
乙側装置が話者甲のピッチ方向の頭の動きに対応したコードを受信すると、話者乙のＨＭＤ１のモニタ画面上には、図２７に示すように、キャラクター画像に図示の如く周知の台形歪処理（縦方向歪）を施したキャラクター画像が表示される。なお、本図においては、ピッチ＋方向のコードを受信した例を示している。
【０２０１】
乙側装置が話者甲のヨー方向の頭の動きに対応したコードを受信すると、話者乙のＨＭＤ１のモニタ画面上には、図２８に示すように上記同様キャラクター画像に図示の如く台形歪処理（横方向歪）を施したキャラクター画像が表示される。なお、本図においては、ヨー＋方向のコードを受信した例を示している。
【０２０２】
また、乙側装置が上記３種類の頭の動きのコードを所定時間内に複数受信すると、乙側装置は上記図２６ないし図２８に示した画像変形を複合してＨＭＤ１のモニタ画面上に表示するようになっている。
【０２０３】
図２３に戻って、次に、乙側装置は、話者乙自身の頭の動きを上記ヘッドモーションセンサ１１で検出する（ステップＳ８０）。そして、話者乙の頭の動きが検出されると、この検出結果に応じて上記座標変換部４２で話者乙自身のモニタ画面に映し出された話者甲のキャラクター画像の座標変換を行う（ステップＳ８１）。
【０２０４】
ここで、この座標変換について説明する。
【０２０５】
上記座標変換部４２においては、話者乙がモニタする画面において、話者乙の頭の動きに応じてモニタ画面上に映し出されている話者甲のキャラクター画像の変換ベクトルが決定される。本実施形態においては、上記ステップＳ５０における甲側の頭の位置（ヘッドモーションセンサ１１の位置）のリセット動作と同様に話者乙の頭の位置もリセットされる。
【０２０６】
このときの状態を標準位置とすると、話者乙の頭の位置がこの標準位置にあるときは、たとえば図２９に示すように話者甲のキャラクター画像はモニタ画面のほぼ中央に位置する。
【０２０７】
いま、話者乙が自身の頭を上記標準位置よりヨー（＋）方向（図２４に示すように、話者乙の左方向への回転を（＋）方向とする）に移動したとすると、モニタ画面上に表示される話者甲のキャラクター画像は図３０に示すように向かって右方向に移動して表示される。
【０２０８】
また、同様に、話者乙が頭を上記標準位置よりピッチ（＋）方向（図２５に示すように、話者乙の下方向への回転を（＋）方向とする）に移動したとすると、モニタ画面上に表示される話者甲のキャラクター画像は図３１に示すように上方向に移動して表示される。
【０２０９】
さらに、話者乙が頭を上記標準位置よりロール（＋）方向（図２４に示すように、話者乙の左方向への回転を（＋）方向とする）に移動したとすると、モニタ画面上に表示される話者甲のキャラクター画像は図３２に示すように向かって時計回りに回転して表示される。
【０２１０】
以上のように、話者乙のＨＭＤ１のモニタ画面には、甲側装置から送出される上記各データに基づいて加工、変形、変換が施された話者甲のキャラクター画像が表示される（ステップＳ８２）。
【０２１１】
このような、本第１の実施形態の画像音声通信システムによると、以下に示す如く効果を奏する。
【０２１２】
(1) 自分の顔とは無関係なキャラクター画像で対話を楽しむことができるテレビ電話システムを提供できる。すなわち、上記キャラクター画像は、任意に作成したり、所定のものより選択して使用できる。
【０２１３】
(2) 簡単な構成の装置で難しい手間もかからず、使用者の顔の動きや表情の変化を実質的にリアルタイムに相手側に伝達することができるテレビ電話システムを提供できる。すなわち、使用者の顔の動きや表情の変化を示す情報は、簡素なデータでよく、高速に送受信することができる。
【０２１４】
(3) 使用者は特別な意識を持つことなく対話を行うことができるテレビ電話システムを提供できる。すなわち、ＨＭＤを装着するだけで良い。
【０２１５】
(4) 使用者は所定姿勢を強制されることなく対話を行うことができるテレビ電話システムを提供できる。すなわち、特別なディスプレイやカメラに対峙することなく対話できる。
【０２１６】
(5) 通信開始前に面倒な準備をすることなく、家庭においても容易に使用することができるテレビ電話システムを提供できる。すなわち、表情検出のためのマーカーを顔に張り付けることなく対話を開始できる。
【０２１７】
次に、本発明の第２の実施形態の画像音声通信システムについて説明する。
本第２の実施形態の基本的な構成、作用は上記第１の実施形態と同様であり、ここでは差異のみの言及にとどめ同一部分の説明は省略する。
【０２１８】
上記第１の実施形態の画像音声通信システムにおいては、対話段階において一方の話者甲がモニタする他方の話者乙の像は、当該話者乙が乙側装置で設定した話者乙のキャラクタ画像であるが、この第２の実施形態の画像音声通信システムにおいて話者甲がモニタする話者乙の像は、予め甲側装置で任意に設定あるいは記憶された所定のキャラクタ画像を使用することを特徴とする。
【０２１９】
すなわち、話者甲が自身のＨＭＤ１のモニタ上で見る話者乙のキャラクター画像は、話者甲が予め設定あるいは記憶されたキャラクター画像である。このとき、当該乙のキャラクター画像は、乙固有のキャラクター画像として予め話者甲が甲側装置において設定したものを使用してもよいし、あるいは不特定のキャラクター画像を甲側が任意に選択して使用しても良い。
【０２２０】
また、対話中、話者甲が見る話者乙のキャラクター画像は、任意に切換えて使用されても良い。
【０２２１】
さらに、通信開始の際、予め設定されたＩＤ番号等で互いが認識できるようにすれば、該ＩＤ番号に対応した相手側のキャラクター画像を受け手側で選択することもできる。
【０２２２】
このような、第２の実施形態の画像音声通信システムによると、第１の実施形態に係る上記(2) ないし(5)項で示す効果に加え、以下に示す如く効果を奏する。
【０２２３】
対話相手のキャラクタ像を受け手側において任意に設定あるいは切換えることができ、楽しい対話を実現することができる。
【０２２４】
【発明の効果】
以上説明したように本発明によれば、簡単で安価な装置を用い、使用者に手間をかけることなく、話者の顔の動きや表情をリアルタイムに伝送する画像音声通信システムおよびテレビ電話送受信方法を提供できる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態である画像音声通信システムにおいて用いられる画像音声通信装置の主要構成を示したブロック図である。
【図２】本発明の第１の実施形態である画像音声通信システムの主要構成を示したシステム図である。
【図３】上記第１の実施形態の画像音声通信システムにおいて、ＨＭＤを使用者が装着した際の様子を一側方よりみた側面図である。
【図４】上記第１の実施形態の画像音声通信システムにおいて、ＨＭＤ，映像生成ボックス，コントローラパッドの接続対応と、これら各部の電気回路的な構成を詳しく示したブロック構成図である。
【図５】上記第１の実施形態の画像音声通信システムを実際に使用する使用者の状況を示した俯瞰図である。
【図６】上記第１の実施形態の画像音声通信システムにおいて、ＨＭＤに設けられるマイクの変形例を示した要部外観斜視図である。
【図７】上記第１の実施形態の画像音声通信システムにおいて、所定キャラクター画像生成ソフトを用いた際のＨＭＤモニタ画面の一例を示した説明図である。
【図８】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像のデータおよび該キャラクター画像に関連する各種データを生成する作業を示すフローチャートである。
【図９】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像に所定の加工を施すとともに、該加工に係る所定コードを生成する作業を示すフローチャートである。
【図１０】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像に施された所定加工に係る所定コードの送信基準となる基準値の設定作業を示すフローチャートである。
【図１１】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像の一例を示した図である。
【図１２】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像を加工して生成された、視線を左に動かしたキャラクター画像の一例を示した図である。
【図１３】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像を加工して生成された、目を閉じたキャラクター画像の一例を示した図である。
【図１４】上記第１の実施形態の画像音声通信システムにおいて、送り手側話者の基本キャラクター画像を加工して生成された、口を開けたキャラクター画像の一例を示した図である。
【図１５】上記第１の実施形態の画像音声通信システムにおける、視線検出機構とその周辺部を示した説明図である。
【図１６】上記第１の実施形態の画像音声通信システムにおいて、上記図１５に示す視線検出機構で検出する視線に応じて生じる電位と、該電位に対応して設定される視線位置（基準位置）を説明した図である。
【図１７】上記第１の実施形態の画像音声通信システムにおいて、上記図１５に示す視線検出機構で検出する視線に応じて生じる電位と、該電位に対応して設定される視線位置（右に移動）を説明した図である。
【図１８】上記第１の実施形態の画像音声通信システムにおいて、上記図１５に示す視線検出機構で検出する視線に応じて生じる電位と、該電位に対応して設定される視線位置（左に移動）を説明した図である。
【図１９】上記第１の実施形態の画像音声通信システムにおいて、上記図１５に示す視線検出機構で検出する視線に応じて生じる電位と、該電位に対応して設定される視線位置（目を閉じる）を説明した図である。
【図２０】上記第１の実施形態の画像音声通信システムにおける音声検出機構とその周辺部を示した説明図である。
【図２１】上記第１の実施形態の画像音声通信システムにおいて、通信開始後における、一方の話者甲の通信初期段階の作用を示したフローチャートである。
【図２２】上記第１の実施形態の画像音声通信システムにおいて、通信開始後の対話段階における、一方の話者甲の送信作用を示したフローチャートである。
【図２３】上記第１の実施形態の画像音声通信システムにおいて、通信開始後の対話段階における、他方の話者乙の作用を示したフローチャートである。
【図２４】上記第１の実施形態の画像音声通信システムにおいて、使用者がＨＭＤを装着した様子を正面からみた図である。
【図２５】上記第１の実施形態の画像音声通信システムにおいて、使用者がＨＭＤを装着した様子を一側方からみた図である。
【図２６】上記第１の実施形態の画像音声通信システムにおける乙側装置が、甲側装置より頭の動きコードを受信した際に行う画像変形の例を示し、話者甲のロール方向の頭の動きに対応したコードを受信した際の画像変形の一例を示した図である。
【図２７】上記第１の実施形態の画像音声通信システムにおける乙側装置が、甲側装置より頭の動きコードを受信した際に行う画像変形の例を示し、話者甲のピッチ方向の頭の動きに対応したコードを受信した際の画像変形の一例を示した図である。
【図２８】上記第１の実施形態の画像音声通信システムにおける乙側装置が、甲側装置より頭の動きコードを受信した際に行う画像変形の例を示し、話者甲のヨー方向の頭の動きに対応したコードを受信した際の画像変形の一例を示した図である。
【図２９】上記第１の実施形態の画像音声通信システムにおける座標変換に係る説明図であって、話者乙の頭の位置が標準位置にあるときの、話者乙のモニタ画面上に表示される話者甲のキャラクター画像の表示例を示した図である。
【図３０】上記第１の実施形態の画像音声通信システムにおける座標変換に係る説明図であって、話者乙が自身の頭を標準位置よりヨー方向に移動したときの、話者乙のモニタ画面上に表示される話者甲のキャラクター画像の表示例を示した図である。
【図３１】上記第１の実施形態の画像音声通信システムにおける座標変換に係る説明図であって、話者乙が自身の頭を標準位置よりピッチ方向に移動したときの、話者乙のモニタ画面上に表示される話者甲のキャラクター画像の表示例を示した図である。
【図３２】上記第１の実施形態の画像音声通信システムにおける座標変換に係る説明図であって、話者乙が自身の頭を標準位置よりロール方向に移動したときの、話者乙のモニタ画面上に表示される話者甲のキャラクター画像の表示例を示した図である。
【符号の説明】
１…ＨＭＤ
２…映像生成ボックス
３…コントローラパッド
４…外部装置
５…電話回線
１１…ヘッドモーションセンサ
１２、１５…視線検出器
１３、１６…接眼光学系
１４、１７…ＬＣＤ
１９…マイク
２０…スピーカ
３１…キャラクターデータ送信器
３２…キャラクターデータ受信器
３３…目の動きコード受信器
３４…口の動きコード受信器
３５…頭の動きコード受信器
３６…キャラクターデータ記憶装置（送信側）
３７…キャラクターデータ記憶装置（受信側）
３８…キャラクターデータ加工装置
３９…キャラクター画像生成装置
４０…画像変形量演算部
４１…画像変形部
４２…座標変換部
４３…キャラクターデータ生成装置
４４…フォーマット記憶部
４５…目の動きコード送信器
４６…頭の動きコード送信器
４７…口の動きコード送信器
４８…音声信号送信器
４９…音声信号受信器
５０…口の動きコード変換器
５１…目の動きコード変換器
５２…頭の動きコード変換器
１００…キャラクター画像生成手段
１０１…キャラクターデータ入力手段
１０２…第１の変換手段
１０３…表示手段
１０４…第１のキャラクターデータ記憶手段
１０５…表情検出手段
１０６…データ送信手段
１０７…第１の選択手段
１０８…表情コード変換手段
１１１…データ受信手段
１１２…第２の選択手段
１１３…第２のキャラクターデータ記憶手段
１１４…キャラクターデータ加工手段
１１５…第２の変換手段
１１６…表示手段
１１７…画像変形手段
１１８…音声再生手段

Claims

画像音声通信システムに用いる画像音声通信装置であって、
画像表示手段と、
通信相手から受信した音声信号を再生するための音声出力手段と、
前記画像表示手段による表示に適用するキャラクター画像を記憶するキャラクター画像データ記憶手段と、
通信相手から当該キャラクター画像に対して変形を与えるための指令信号コードを受信する変形指令受信手段と、
前記指令信号コードに応じて前記キャラクター画像に変形を施すためのキャラクター変形手段と、
前記キャラクター変形手段によって変形が施されたキャラクター画像を前記画像表示手段に供給して表示せしめるための手段と、
通信実行に際して、通信相手から伝送される信号によって通信相手を認識し、当該通信相手を表すキャラクター画像を選択して前記画像表示手段による表示に適用する表示キャラクター選択手段と、
を具備し、
キャラクター画像と指令信号コードとこれに対応する当該キャラクター画像の変形の程度との対応関係を表す第１の情報を会話の開始に先行して伝送し、会話中は、上記指令信号コードのみからなる第２の情報と音声信号とをリアルタイムで伝送することを特徴とする画像音声通信装置。
前記第１の情報におけるキャラクター画像と指令信号コードとこれに対応する当該キャラクター画像の変形の程度との対応関係を送信側の通信者が任意に決定するキャラクター画像変形量決定手段と、
前記指令信号コードの送信実行の条件を送信側の通信者が任意に決定する送信条件決定手段と、
を、さらに具備したことを特徴とする請求項１に記載の画像音声通信装置。