JP3711418B2

JP3711418B2 - 顔画像表示装置及び顔画像通信システム

Info

Publication number: JP3711418B2
Application number: JP03395696A
Authority: JP
Inventors: 嘉行村田
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 1996-02-21
Filing date: 1996-02-21
Publication date: 2005-11-02
Anticipated expiration: 2016-02-21
Also published as: JPH09233442A

Description

【０００１】
【発明の属する技術分野】
本発明は、外部から送られてきた顔画像を表示する顔画像表示装置、及びその顔画像表示装置に対して送信装置から回線を介してデータを送信する顔画像通信システムに関する。
【０００２】
【従来の技術】
従来、この種の顔画像通信システムには、代表例として、テレビ電話方式を採用したものがある。
【０００３】
このテレビ電話方式は、顔画像表示装置である送信側端末にカメラをセットし、そのカメラによって撮影した人物像（画像のひとつ）及び会話（音声のひとつ）を画像データ及び音声データとして通信回線を介して顔画像表示装置である受信側端末に送信される仕組みである。この受信側端末では、受信された画像データ及び音声データに基づいてＣＲＴ等の画像出力装置に表示及び放音出力が行われ、遠隔地にて送信側端末の音声付き映像を取得することができる。
【０００４】
また、このテレビ電話方式では、上記受信側端末から上記送信側端末に対して画像データ及び音声データを送信して上記送信側端末で上記受信側端末の音声付き映像を出得することもできることから、双方向通信を可能にしている。
【０００５】
【発明が解決しようとする課題】
ところで、上述した従来例による顔画像通信システムにおいては、人物像の表示出力とともにそのときの会話を放音出力するようにしたので、遠隔地にいる相手の表情や動きを表示画像から読み取って電話だけのコミュニケーションよりも相手に伝達できる情報の種類を増した分だけ正確にコミュニケーションすることが可能であるが、耳の不自由な人にとってはもとより、この伝達する情報の種類を増やずに、テレビの文字放送のように放音だけでなく文字の表示出力を伴って会話することのできる簡易機能に期待がもたれている。
【０００６】
本発明の目的は、上述した従来例による課題を解消するため、耳の不自由な人にとっても表示中の人物や動物等が発している音声内容を確実かつ容易に視認することが可能な顔画像表示装置を提供することにある。
【０００７】
本発明の他の目的は、簡単なシステム構成で音声に対応する文字と顔画像とを表示出力することが可能な顔画像通信システムを提供することにある。
【０００８】
【課題を解決するための手段】
請求項１記載の発明に係る顔画像表示装置は、
外部から送られてきた顔画像データ及び音声データを含むデータを受信する受信手段と、
前記受信手段により受信された顔画像データに基づいて対応する顔画像を表示する表示手段と、
前記受信手段により受信されたデータの内の顔画像データに基づいて口元の変化領域を検出する口元位置検出手段と、
前記受信手段により受信されたデータの内の音声データに基づいて音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に対応する文字を出力する文字出力手段と、
前記表示手段により表示されている顔画像の内、前記口元位置検出手段により検出された前記口元の変化領域の位置又はその近傍位置に前記文字出力手段から出力された音声に対応する文字を表示制御する表示制御手段と、
を有することを特徴とする。
【０００９】
以上の構成によれば、受信手段は外部から送られてきた顔画像データ及び音声データを含むデータを受信し、表示手段は受信手段により受信された顔画像データに基づいて対応する顔画像を表示し、検出手段は受信手段により受信されたデータの内の顔画像データに基づいて口元の変化領域を検出し、音声認識手段は受信手段により受信されたデータの内の音声データに基づいて音声を認識し、文字出力手段は音声認識手段により認識された音声に対応する文字を出力し、表示制御手段は、表示手段により表示されている顔画像の内、検出手段により検出された口元の変化領域の位置又はその近傍位置に文字出力手段から出力された音声に対応する文字を表示制御する。
【００１０】
従って、受信された顔画像データに基づく顔画像を表示出力する際にその顔画像の口元の位置又はその近傍位置に、受信された音声対応の文字を同時に表示するようにしたので、複数の顔画像から同時に音声対応の文字が表示された場合でも、その各文字と複数の顔画像との対応関係を明確に視認することが可能となる。
【００１１】
請求項２記載の発明に係る顔画像表示装置は、
外部から送られてきた顔画像データ及び複数ヶ所より集音された複数の音声データを含むデータを受信する受信手段と、
前記受信手段により受信されたデータの内の顔画像データに基づいて対応する顔画像を表示する表示手段と、
前記受信手段により受信されたデータの内の顔画像データに基づいて口元の変化領域を検出する口元位置検出手段と、
前記受信手段により受信されたデータの内の音声データに基づいて音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に対応する文字を出力する文字出力手段と、
前記受信手段により受信されたデータの内の複数の音声データに基づいて当該複数の音声データそれぞれの発生位置を検出する音声位置検出手段と、
前記表示手段に表示されている顔画像の内、前記口元位置検出手段により検出された口元の変化領域の位置又はその近傍位置と前記音声位置検出手段により検出された各音声の発生位置に対応する表示位置との少なくとも一方の位置に、前記文字出力手段から出力された音声に対応する文字を表示制御する表示制御手段と、
を有することを特徴とする。
【００１２】
以上の構成によれば、受信手段は外部から送られてきた顔画像データ及び複数ヶ所より集音された複数の音声データを含むデータを受信し、表示手段は受信手段により受信されたデータの内の顔画像データに基づいて対応する顔画像を表示し、口元位置検出手段は受信手段により受信されたデータの内の顔画像データに基づいて口元の変化領域を検出し、音声認識手段は受信手段により受信されたデータの内の音声データに基づいて音声を認識し、文字出力手段は音声認識手段により認識された音声に対応する文字を出力し、音声位置検出手段は受信手段により受信されたデータの内の複数の音声データに基づいてこの複数の音声データそれぞれの発生位置を検出し、表示制御手段は、表示手段に表示されている顔画像の内、口元位置検出手段により検出された口元の変化領域の位置又はその近傍位置と音声位置検出手段により検出された各音声の発生位置に対応する表示位置との少なくとも一方の位置に、文字出力手段から出力された音声に対応する文字を表示制御する。
【００１３】
従って、受信された顔画像データに基づく顔画像を表示出力する際にその顔画像中に口元位置又はそれの近傍位置と音声の発生位置との少なくとも一方の位置に、受信された音声対応の文字の表示を制御するようにしたので、顔画像中の口元の動きが検出されない場合又は音声の受信が良好でなかった場合でも、受信された音声に対応する文字を顔画像の口元位置等に暫定的に表示出力することが可能となる。
【００１４】
請求項３記載の発明に係る顔画像表示装置は、請求項１又は２に記載の発明において、
前記受信手段により受信されたデータの内の音声データに基づいて対応する音声を外部に出力する音声出力手段を更に有することを特徴とする。
【００１５】
以上の構成によれば、受信された音声対応の文字の表示とともにその音声を外部に出力するようにしたので、請求項１又は２に記載の発明の効果に加え、視覚と聴覚との相乗効果で音声内容を確認することが可能である。
【００１６】
請求項４記載の発明に係る顔画像表示装置は、請求項１又は２に記載の発明において、
前記文字出力手段から出力される音声に対応する文字を包囲する吹出し画像が記憶されている吹出し記憶手段を更に備えており、前記表示制御手段は、前記文字出力手段から文字を出力した際に、その文字の表示領域を包囲する吹出し画像を前記吹出し記憶手段から読み出して合成表示する吹出し表示制御手段を備えていることを特徴とする。
【００１７】
以上の構成によれば、受信された音声に対応する文字を表示の際にその文字を吹出し画像で包囲するようにしたので、請求項１又は２に記載の発明の効果に加え、文字を他の文字又は他の表示画像から判別しやすいように表示することが可能である。
【００１８】
請求項５記載の発明に係る顔画像表示装置は、請求項１又は２に記載の発明において、
表示文字数に対応させてサイズの異なる複数の吹出し画像を記憶する吹出し画像記憶手段を備えており、前記表示制御手段は、前記文字出力手段から出力された音声に対応する文字の文字数に対応する吹出し画像を前記吹出し記憶手段に記憶された複数の吹出し画像の中から読み出して表示する吹出し表示制御手段を備えていることを特徴とする。
【００１９】
以上の構成によれば、音声認識された音声に対応する文字の数に応じたサイズの吹出し画像を採用するようにしたので、請求項１又は２に記載の発明の効果に加え、必要以上に吹出し画像の領域をとらず、表示画像の隠蔽を必要最小限に抑えることが可能である。
【００２０】
請求項６記載の発明に係る顔画像表示装置は、請求項１又は２に記載の発明において、
前記口元位置検出手段は、前記受信手段により受信されたデータの内の顔画像データに基づいて前記表示手段の表示領域における特定領域を検出する特定領域検出手段を有し、前記表示制御手段は、前記受信手段により受信されたデータの内の顔画像データに基づく表示画面上で前記特定領域検出手段により検出された特定領域の表示領域とは別の領域に前記吹出し画像を表示する吹出し表示制御手段を備えていることを特徴とする。
【００２１】
以上の構成によれば、特定領域を除いた表示領域に吹出し画像を表示するようにしたので、請求項１又は２に記載の発明の効果に加え、特定領域の表示画像を隠蔽せずに吹出し画像を表示することが可能である。
【００２２】
請求項７記載の発明に係る顔画像表示装置は、請求項１又は２に記載の発明において、前記文字出力手段から出力される音声に対応する文字を包囲する吹出し画像およびこの吹出し画像と前記口元位置検出手段により検出された口元位置とに配置される吹出し起点画像がそれぞれ記憶されている画像記憶手段を更に備えており、前記表示制御手段は、前記文字出力手段から文字を出力した際に、その文字の表示領域を包囲する吹出し画像と前記口元位置検出手段により検出された口元位置に配置される吹出し起点画像とを前記画像記憶手段から読み出して合成表示する吹出し表示制御手段を備えていることを特徴とする。
【００２３】
以上の構成によれば、表示の際に音声に対応する文字を吹出し画像で包囲するようにしたので、請求項１又は２に記載の発明の効果に加え、文字を他の表示画像から判別しやすいように表示することが可能である。
【００２４】
請求項８記載の発明に係る顔画像通信システムは、
請求項１記載の顔画像表示装置と、前記顔画像表示装置に対し回線を介してデータを送信する送信装置とからなる顔画像通信システムにおいて、
前記送信装置は、
顔画像データを入力する画像入力手段と、
音声データを入力する音声入力手段と、
前記画像入力手段により入力された顔画像データと前記音声入力手段により入力された音声データとをデータとして前記顔画像表示装置に送信する送信手段と、
を有することを特徴とする。
【００２５】
以上の構成によれば、送信装置において、画像入力手段は顔画像データを入力し、音声入力手段は音声データを入力し、送信手段は画像入力手段により入力された顔画像データと音声入力手段により入力された音声データとをデータとして顔画像表示装置に送信する。
【００２６】
従って、送信装置から顔画像表示装置に対して顔画像データと音声データとを送信するだけで、顔画像データに基づく顔画像を表示出力する際にその顔画像の口元の位置又はその近傍位置に、受信された音声対応の文字を同時に表示するようにしたので、簡単なシステム構成で音声に対応する文字と顔画像とを表示出力することが可能である。
【００２７】
請求項９記載の発明に係る顔画像通信システムは、
請求項２記載の顔画像表示装置と、前記顔画像表示装置に対し回線を介してデータを送信する送信装置とからなる顔画像通信システムにおいて、
前記送信装置は、
複数の顔画像データを入力する画像入力手段と、
複数ヶ所より集音された複数の音声データを入力する音声入力手段と、
前記画像入力手段により入力された複数の顔画像データと前記音声入力手段により入力された複数の音声データとをデータとして前記顔画像表示装置に送信する送信手段と、
を有することを特徴とする。
【００２８】
以上の構成によれば、送信装置において、画像入力手段は複数の顔画像データを入力し、音声入力手段は複数ヶ所より集音された複数の音声データを入力し、送信手段は、画像入力手段により入力された複数の顔画像データと音声入力手段により入力された複数の音声データとをデータとして顔画像表示装置に送信する。
【００２９】
従って、送信装置から顔画像表示装置に対して複数の顔画像データと複数の音声データとを送信するだけで、顔画像データに基づく顔画像を表示出力する際にその顔画像中に口元位置又はそれの近傍位置と音声の発生位置との少なくとも一方の位置に、受信された音声対応の文字の表示を制御するようにしたので、簡単なシステム構成で音声に対応する文字と顔画像とを表示出力することが可能である。
【００３０】
【発明の実施の形態】
以下に添付図面を参照して、本発明に係る好適な実施の形態を詳細に説明する。
まず、本発明に係る顔画像通信システムについて説明する。図１は本発明に係る顔画像通信システムの一実施の形態を示す構成図である。
この図１に示した顔画像通信システムにおいて、顔画像表示装置１００と顔画像表示装置２００とは、電話回線やＲＳ２３２Ｃ等の回線ＬＮによってデータ通信可能に接続されている。
【００３１】
顔画像表示装置１００を送信側端末とした場合には、端末本体１００ａにＣＣＤカメラＩＳが接続され、これは撮影によって画像データを入力する。図１の例では、そのＣＣＤカメラＩＳに対して例えば３人の人物（向かって左より甲、乙、丙）が対向して位置している。この３人（人物（甲）、（乙）、（丙））の人物画像は、ＣＣＤカメラＩＳによって向かって左より人物画像ＳＩＭＧ１，ＳＩＭＧ２，ＳＩＭＧ３の並びでデータ入力される。これら人物画像ＳＩＭＧ１，ＳＩＭＧ２，ＳＩＭＧ３は後述する顔画像表示装置２００に画像データとして送信されるものである。
【００３２】
また、端末本体１００ａには、ＣＣＤカメラＩＳとともに２本のマイクＭＬ，ＭＲが接続されており、一方のマイクＭＬは３人の人物に対して左側の音声を集音し、他方のマイクＭＲは３人の人物に対して右側の音声を集音する。この２本のマイクＭＬ，ＭＲによってステレオ状態で音声が入力されることになり、人物（甲）が会話をした場合には、マイクＭＬから音声入力される音量がマイクＭＲから音声入力される音量よりも大きくなり（人物（甲）の向いている方向によっては異なる）、人物（乙）が会話をした場合には、マイクＭＬ及びマイクＭＲにそれぞれ音声入力される音量がほぼ等しくなり（人物（乙）の向いている方向によっては異なる）、人物（丙）が会話をした場合には、マイクＭＲから音声入力される音量がマイクＭＬから音声入力される音量よりも大きくなる（人物（丙）の向いている方向によっては異なる）。
【００３３】
このように、ＣＣＤカメラＩＳ及びマイクＭＬ，ＭＲからそれぞれ入力された画像データ（人物画像及び背景画像）及び音声データ（ステレオ音声）は、端末本体１００ａにより通信データとして回線ＬＮに出力され、送信先である顔画像表示装置２００に送信される。
【００３４】
顔画像表示装置２００を受信側端末とした場合には、端末本体２００ａにＣＲＴディスプレイＤＳＰが接続され、これは表示画面３０上に顔画像表示装置１００から受信された画像データに基づく画像を表示する。図１の例に従い、そのディスプレイＤＳＰには、３人の人物（甲）、（乙）、（丙）の人物画像ＲＩＭＧ１，ＲＩＭＧ２，ＲＩＭＧ３が左から右に向かって並んで表示されている。これら人物画像ＲＩＭＧ１，ＲＩＭＧ２，ＲＩＭＧ３は前述の顔画像表示装置１００から画像データとして受信されるものである。
【００３５】
また、端末本体２００ａには、ＣＲＴディスプレイＤＳＰとともに２台のスピーカＳＬ，ＳＲが接続されている。一方のスピーカＳＬは表示画面３０に向かって左側に配置されており、前述のマイクＳＬより集音された音声を出力する。他方のスピーカＳＭは表示画面３０に向かって右側に配置されており、前述のマイクＭＲにより集音された音声を出力する。この２台のスピーカＳＬ，ＳＲによってステレオ状態で音声が出力されることになり、人物（甲）が会話をした場合には、スピーカＳＬから音声出力される音量がスピーカＳＲから音声出力される音量よりも大きくなり（人物（甲）の向いている方向によっては異なる）、人物（乙）が会話をした場合には、スピーカＳＬ及びスピーカＳＲからそれぞれ音声出力される音量がほぼ等しくなり（人物（乙）の向いている方向によっては異なる）、人物（丙）が会話をした場合には、スピーカＳＲから音声出力される音量がスピーカＳＬから音声出力される音量よりも大きくなる（人物（丙）の向いている方向によっては異なる）。
【００３６】
このように、顔画像表示装置１００より回線ＬＮを介して通信データが顔画像表示装置２００に受信されると、端末本体２００ａは、その通信データに基づいてＣＲＴディスプレイＤＳＰ及び２台のスピーカＳＬ，ＳＲからそれぞれ人物画像（背景含む）及びステレオ音声を出力する。
【００３７】
例えば、人物（乙）がマイクＭＬ，ＭＲに向かって「おはようございます」という会話ＳＰＫをした場合には、その会話による音声はマイクＭＬ，ＭＲによって取り込まれて端末本体１００ａで音声データに変換される。この音声データはＣＣＤカメラＩＳで入力した画像データとともに通信データとなって顔画像表示装置２００に送信される。顔画像表示装置２００では、端末本体２００ａにおいて顔画像表示装置１００から受信した通信データを画像データと音声データとに分け、その画像データに基づく画像はＣＲＴディスプレイＤＳＰによって表示出力され、同時に、その音声データに基づく音声ＳＮＤＬ，ＳＮＤＲ「おはようございます」はそれぞれ２台のスピーカＳＬ，ＳＲによって出力される。また、ＣＲＴディスプレイＤＳＰでは、詳細については後述するが、その音声ＳＮＤＬ，ＳＮＤＲ「おはようございます」に対応する文字群ＷＲＤ「おはようございます」が文字として表示出力される。
【００３８】
次に、顔画像表示装置１００及び２００について詳述する。なお、図１では送信側、受信側を説明する上で間略化して図示及びその説明を行っていたが、実際には顔画像表示装置１００及び２００は同一の構成を有していることから、以下に一方の顔画像表示装置２００を例に挙げて説明する。
【００３９】
図２は顔画像表示装置２００の内部構成の一例を示すブロック図、図３は図２に示した吹出しパターンＲＯＭのメモリ構成の一例を示す図、図４は図２に示した矢印パターンＲＯＭのメモリ構成の一例を示す図、図５、図８及び図１０は図２に示した吹出しデータＲＡＭのメモリ構成の一例を示す図、そして、図６は本実施の形態における画像合成手順を示す図である。
【００４０】
図２に示した顔画像表示装置２００は、例えば、ＣＰＵ２、ＲＯＭ３、ＲＡＭ４、キー入力部５、画像入力部６、音声入力部７、Ｉ／Ｆ８、送受信部９、音声認識部１０、音量検出部１１、表示駆動回路１２、表示部１３、音声発生部１４、及びスピーカ部１５を具備している。以上の構成において、端末本体２００ａは、ＣＰＵ２、ＲＯＭ３、ＲＡＭ４、送受信部９、音声認識部１０、音量検出部１１、及び表示駆動回路１２を包含している。なお、顔画像表示装置１００は、上記顔画像表示装置２００と同様の構成を具備しており、以下にその顔画像表示装置１００の動作を説明する場合には顔画像表示装置１００の各部と同様の符号を用いるものとする。
【００４１】
まず、ＣＰＵ２は装置全体を制御する中央処理部であり、ＲＯＭ３に格納された各種制御プログラムに従って動作する。このＣＰＵ２は、図示の例では、ＲＯＭ３、ＲＡＭ４、キー入力部５、画像入力部６、音声入力部７、送受信部９、音声認識部１０、音量検出部１１、表示駆動回路１２、及び音声発生部１４の各ユニットに信号線で結合されており、これら各ユニットとアドレス信号、制御信号、データ等のやりとりからデータ入力（キー入力、音声認識データ、音量データ）、画像入力、音声入力、データ送受信、表示、プログラム実行、データのリード／ライト、音声発生等の各種制御を実行する。例えば、データ送信については、図１２に示したフローチャートに従う制御プログラムによって制御が行われ、データ受信については、図１３及び図１４に従う制御プログラムによって制御が行われる。
【００４２】
ＲＯＭ３は吹出しパターンＲＯＭ３１、矢印パターンＲＯＭ３２、辞書ＲＯＭ３３、ＣＰＵ２を動作させるための制御プログラム、及び各種パラメータを記憶したメモリであり、ＣＰＵ２の制御により各制御プログラムの読み出し、後述の各吹出しパターンデータ、矢印パターンデータ、辞書データが読み出される。
【００４３】
このＲＯＭ３において、吹出しパターンＲＯＭ３１には、図３に示したように、一例としてパーツＮｏ．Ｐ０１〜Ｐ２０まで２０種類の吹出しパターンデータが後述する認識文字数に対応させて記憶されている。この吹出しパターンデータに基づいて形成される吹出し画像である吹出しパターンは、一文節中にある文字数に対応させてｎ×ｍドットのマトリックスで構成されるものである。この一文節中にある文字数は、後述する音声認識部１０において一文節中から得られた認識文字数に相当する。例えば、認識文字数が３個であるという認識結果が得られた場合には、その３個に該当するパーツＮｏ．が検索され、その結果検出されたパーツＮｏ．Ｐ０３に基づきそのパーツＮｏ．Ｐ０３のＮ３×Ｍ３ドットの吹出しパターンが選択される。
【００４４】
矢印パターンＲＯＭ３２には、図４に示したように、一例としてパーツＮｏ．Ｄ０１〜Ｄ２０まで２０種類の矢印パターンデータが吹出しパターンを吹出す方向すなわち吹出し方向に対応させて記憶されている。この矢印パターンデータに基づいて形成される矢印パターンは、前述の吹出しパターンの吹出し起点位置（すなわち、表示中の顔画像の口元の近傍位置）に配置される吹出し起点画像であり、吹出し方向が決定すると、後述する吹出し画像ＲＡＭ４２において上述の吹出しパターンに合成される。例えば、認識文字数が３個であるという認識結果が得られ、かつその文字群を吹出しパターンによって口元位置より右上に方向に吹出す場合には、その認識文字数３個に対応するＮ３×Ｍ３ドットの吹出しパターンに、吹出し方向を右上とするパーツＮｏ．Ｄ０１の矢印パターンが選択される。
【００４５】
辞書ＲＯＭ３３は、音声認識部１０によって得られた認識結果から文字パターンを発生するためのキャラクタジェネレータ機能を具備している。
【００４６】
ＲＡＭ４は、吹出しデータＲＡＭ４１、吹出し画像ＲＡＭ４２、合成ＲＡＭ４３、及びＣＰＵ２のワークＲＡＭを具備している。
【００４７】
吹出しデータＲＡＭ４１は、図５や図１０に示したように、音声毎に吹出しデータＮｏ．をＮｏ．１、Ｎｏ．２…のように付してエリア分けを行い、各吹出しデータＮｏ．に対応させて、口元位置データ（座標データ）、吹出しパターン（パーツＮｏ．）及びその起点位置（座標データ）、矢印パターン（パーツＮｏ．）及びその起点位置（座標データ）、文字群データ（文字コード）及びその起点位置（座標データ）を格納する。また、この吹出しデータＲＡＭ４１では、後述するが、図８に示した如く、連続する音声を文節によって区切った場合に、吹出しデータＮｏ．をＮｏ．１−１、Ｎｏ．１−２…のように関連性をもたせて格納しており、その内容は図や図１０の場合と同様である。
【００４８】
吹出し画像ＲＡＭ４２は、受信された画像データ上で人物画像（特定領域）を除いた領域に吹出しパターン及びその吹出しパターン内の文字パターンを合成するメモリである。合成ＲＡＭ４３は、受信された画像データに基づいて画像をドット展開して、吹出し画像ＲＡＭ４２でつくられた特定領域を除く領域のドットデータを合成するメモリである。この合成ＲＡＭ４３にドット展開された画像データは、表示部１３において画像を表示するための表示データとして使用される。
【００４９】
キー入力部５は、文字、ファンクションキー等のキーを具備しており、ＣＰＵ２の動作にかかるキー操作を必要としているときに使用される。この実施の形態では、例えば、送受信の際にキー入力部５の操作が必要となる。
【００５０】
画像入力部６は図１に示したＣＣＤカメラＩＳを有する撮影用ユニットであり、音声入力部７は図１に示した２本のマイクＭＬ，ＭＲを有するステレオ音声入力用ユニットである。Ｉ／Ｆ８は回線ＬＮに接続されるインタフェースであり、送受信部９はＩ／Ｆ８とＣＰＵ２とに接続され、通信データの送受信を行うものである。
【００５１】
音声認識部１０は送受信部９とＣＰＵ２とに接続され、受信された通信データから音声データを取り出して音声認識を行ってその認識結果（認識データ）をＣＰＵ２に供給するものである。音量検出部１１は送受信部９とＣＰＵ２とに接続され、受信された通信データから音声データを取り出して音量を検出し、その検出結果（音量データ）をＣＰＵ２に供給するものである。
【００５２】
表示駆動回路１２はＣＰＵ２の制御により表示部１３の表示駆動を行う回路であり、表示部１３は表示駆動回路１２の表示駆動により表示データに基づく表示画像を形成する。音声発生部１４はＣＰＵ２の制御により音声データに基づく音声を発生するものであり、スピーカ部１５は音声発生部１４に接続され、音声発生部１４により発生した音声を外部に放音する２台のスピーカＳＬ，ＳＲを有する音声出力用ユニットである。
【００５３】
次に、動作について説明する。
図７、図９及び図１１は本実施の形態における送受信画像の対応関係の一例を示す図である。図１２は本実施の形態による送信時の動作を説明するフローチャートであり、図１３及び図１４は本実施の形態による受信時の動作を説明するフローチャートである。なお、送信端末、受信端末はそれぞれ顔画像表示装置１００、顔画像表示装置２００として説明する。
【００５４】
まず、送信動作について図１、図７、図９、図１１及び図１２を参照して説明する。以下に説明する動作は、顔画像表示装置１００のＣＰＵ２により制御されるものであり、個々の動作は各部で行われる。
【００５５】
図１に示した顔画像表示装置１００では、キー入力部５による送信操作が検出されると、画像入力部６（ＣＣＤカメラＩＳ）及び音声入力部７（マイクＭＬ，ＭＲ）を駆動して、３人（人物（甲）、（乙）、（丙））の画像及びその音声を取り込む処理が開始される（ステップＳ１）。このように、画像及び音声の入力が開始されると、図７（ａ）、（ｂ）及び（ｃ）、図９（ａ）及び（ｂ）、図１１（ａ）、（ｂ）に示した画像及び音声が通信データに変換されて送信先の顔画像表示装置２００に回線ＬＮを介して送信される。この場合、通信データにおいては、回線ＬＮの伝送速度等の伝送条件に応じてその情報量が決定される。
【００５６】
図７に示した例では、人物（甲）、（乙）、（丙）がその並びで画像入力部６に対面しており、これを画像入力部６が撮影して画像ＳＩＭＧ１、ＳＩＭＧ２、ＳＩＭＧ３を取り込むことにより、図７（ａ）に示した如く全体の画像データＩＭＧ１がＲＡＭ４の図示せぬ入力画像用のメモリに格納される。この場合には、３人の内のいずれからも音声が発せられていないが、音声入力部７のマイクＭＬ，ＭＲによる２つの集音があることから音声データは存在することになる。
【００５７】
ステップＳ２では、入力された画像データＩＭＧ１及び音声データ（ステレオ状態）が通信データに変換され、送受信部９により変調されてＩ／Ｆ８より回線ＬＮに送出される。すなわち、画像及び音声の送信が実行される。この画像及び音声の入力／送信動作は、キー入力部５において終了操作が行われるまで繰り返し実行される（ステップＳ３）。その際、顔画像表示装置２００には、回線ＬＮを介して通信データが受信され、図１３及び図１４に示したフローに従う動作が開始される。
【００５８】
顔画像表示装置１００では、継続して音声入力部７により音声が取り込まれ、画像入力部６により画像データＩＭＧ２が取り込まれ（図７（ｂ）参照）、３人の中央に位置する人物（乙）が画像ＳＩＭＧ２に示したように音声「おはよう！」の挨拶をすると、音声入力部７には「おはよう！」という音声が取り込まれこれがＣＰＵ２により音声データに変換される。この後、この音声データは画像データＩＭＧ２とともに通信データとして顔画像表示装置２００に送信される。
【００５９】
さらに継続して、音声入力部７により音声が取り込まれ、画像入力部６により画像データＩＭＧ３が取り込まれると（図７（ｃ）参照）、向かって３人の一番左側に位置する人物（甲）が画像ＳＩＭＧ１に示したように音声「お元気ですか？」の挨拶をすると、音声入力部７には「お元気ですか！」という音声が取り込まれこれがＣＰＵ２により音声データに変換される。この後、この音声データは画像データＩＭＧ３とともに通信データとして顔画像表示装置２００に送信される。
【００６０】
このように、送信側の顔画像表示装置１００は、送信終了の指示があるまで、順次画像及び音声を取り込んでこれを通信データとして受信側の顔画像表示装置２００に送信する動作を繰り返す。なお、図９及び図１１についても同様の手順で画像及び音声送信が実行される。
【００６１】
図９（ａ）及び（ｂ）の例では、画像データＩＭＧ１１（図９（ａ））から画像データＩＭＧ１２（図９（ｂ））への移行にみられるように、人物（乙）が音声「おはようございます！お元気ですか？」を発しており、これは送信の段階ではひとつの音声データ（ステレオ状態）として送信されるが、受け手の顔画像表示装置２００では音声認識後に文字群が文節で区切られることから、文字群表示の際に、第１文字群「おはようございます！」と第２文字群「お元気ですか？」との２文となる。
【００６２】
図１１（ａ）及び（ｂ）の例では、画像データＩＭＧ２１（図１１（ａ））から画像データＩＭＧ２２（図１１（ｂ））への移行にみられるように、音声入力部７より音声「おはようございます！」が取り込まれているにもかかわらず、画像データＩＭＧ２２からは口元の動きが読みとれず３人の内の誰が音声を発しているのか不明となる。このため、この実施の形態では、マイクＭＬ，ＭＲを一定の間隔を置いて配置することを前提に、マイクＭＬとＭＲとを図１の例では３人の両端（人物（甲）側と人物（丙）側）にそれぞれ配置させることを条件とすれば、顔画像表示装置２００において音声の発生元を２点（マイクＭＬ，ＭＲ）の検出音量の差異から暫定的に決定することが可能となる。
【００６３】
次に、受信動作について図１並びに図５〜図１４を参照して説明する。以下に説明する動作は、顔画像表示装置２００のＣＰＵ２により制御されるものであり、個々の動作は各部で行われる。
【００６４】
図１に示した顔画像表示装置２００では、顔画像表示装置２００との通信準備が整うと、ステップＳ１１において、前述の図２のフローチャートに従って送信されてくる通信データを受信する動作が開始される。
【００６５】
ステップＳ１１において画像及び音声受信が開始されると、ステップＳ１２において、送受信部９で受信された通信データの内の音声データに基づく音声認識とその音量検出とが開始され、これらの処理は音声認識部１０、音量検出部１１で行われる。
【００６６】
ステップＳ１３では、送受信部９で受信された通信データの内の画像データは合成ＲＡＭ４３にドット展開され、表示部１３に受信画像が表示されるとともに、音声発生部１４では、受信された音声データを基づいて音声が発生され、その音声がスピーカ部１５のスピーカＳＬ，ＳＲよりステレオ状態で放音される。すでに送信動作で説明した図７（ａ）、（ｂ）、（ｃ）の例を挙げると、顔画像表示装置１００では、図７（ｂ）の段階で人物（乙）が音声「おはよう！」を発している人物画像ＳＩＭＧ２及びその音声を取り込む処理が実行され、一方、これを通信データとして受け取った顔画像表示装置２００では、表示部１３の表示画面３０に受信画像を表示するとともに、左右のスピーカＳＬ，ＳＲから均等な音量で音声認識された音声「おはよう！」を出力する処理が実行される。
【００６７】
なお、人物（乙）がマイクＭＬ，ＭＲ間のほぼ中央に位置しているため、スピーカＳＬ，ＳＲの出力音量は均等となる。この受信側での画像表示と音声出力とが行われる際にステップＳ１３以降の処理が実行される。
【００６８】
次のステップＳ１４では、図７（ｂ）に示した画像データＩＭＧ２が受信された場合、その画像データＩＭＧ２はＩＩＭＧ２として吹出し画像ＲＡＭ４２にドット展開される。この画像データＩＩＭＧ２はステップＳ１３においてすでに合成ＲＡＭ４３にも格納されている。続くステップＳ１５及びＳ１６において、図６（ａ）に示したように吹出し画像ＲＡＭ４２にドット展開された画像データＩＩＭＧ２から特定領域すなわち人物画像ＳＩＭＧ１，２，３に対応する人物領域ＳＳＩＭＧ１，２，３が検出され、その人物領域ＳＳＩＭＧ１，２，３の各画像データが一定の色属性をもつドットにマスク（図中、斜線で示す）される。その結果、吹出し画像ＲＡＭ４２では、このマスクされた人物領域ＳＳＩＭＧ１，２，３を除く領域が背景領域ＢＫとして設定される。
【００６９】
なお、ステップＳ１５における人物領域ＳＳＩＭＧ１，２，３の検出には、使用者がキー入力部５を操作して表示部１３の表示画像に対して設定する等の方法を適用することができる。
【００７０】
次に、ステップＳ１７では、上述したステップＳ１５において検出された人物領域ＳＳＩＭＧ１，２，３に対応する合成ＲＡＭ４３の画像データＩＩＭＧ２から所定の変化を行う領域を検出する処理が開始される。この所定の変化を行う領域とは、口の開閉動作（口元の動き）に相当する口元領域をいう。
【００７１】
図６（ｃ）に示した合成ＲＡＭ４３において、その画像データＩＩＭＧ２から口元領域３２ＡＡが検出されると（ステップＳ１８）、その口元領域３２ＡＡに対応する口元画像ＭＶが図６（ｂ）の画像データＩＩＭＧ２より決定され、その口元画像ＭＶの座標位置が口元座標データとして吹出しデータＲＡＭ４１に格納される（ステップＳ１９）。その後、処理はステップＳ２０（図１４参照）に移行する。図７（ｂ）に示した画像ＩＭＧ２及びその音声に対応する画像データＩＩＭＧ２及びその音声データにかかるデータを吹出しデータＮｏ．１とした場合、図５に示した如く、口元位置データはＭＤ１として記憶される。
【００７２】
なお、図７（ａ）に示した画像データＩＭＧ１及びその音声データが受信された場合には、まず口元の動きが検出できないことから、ステップＳ１８において口元の動きなしという判定がなされ、処理がステップＳ２１（図１４参照）に移行する。このステップＳ２１では、その受信された画像データＩＭＧ１に対応する音声データから音声認識が行われ、音声認識ができなかった場合には処理はステップＳ３０に移行し、一方、音声認識ができた場合には処理は次のステップＳ２２に移行する。
【００７３】
ここで処理の説明をステップＳ２０に戻し、このステップＳ２０では、受信された画像データＩＭＧ１に対応する音声データから音声認識が行われ、音声認識ができなかった場合には処理はステップＳ３０に移行し、一方、音声認識ができた場合には処理は次のステップＳ２４に移行する。図７（ｂ）の例では、音声認識部１０より音声認識できた音声データがＣＰＵ２に供給されるので、ＣＰＵ２は辞書ＲＯＭ３３を参照してその音声データに基づく文字群データを発生させる。その際、ステップＳ２４において、その文字群データから文節分けが必要か否かの判断がなされる。図７（ｂ）の例では人物（乙）が音声「おはよう！」の一文節のみであることから、ステップＳ２４において文節分け不要という判断がなされ、ステップＳ２６において、図５に示した如く文字群データがＣＨＲ１として吹出しデータＲＡＭ４１に格納される。なお、ステップＳ２４において文節分け必要という判断がなされた場合には、後述するが、図８に示した如く、吹出しデータＮｏ．１、Ｎｏ．２…のように文節分けした数に応じた吹出しデータの格納領域が設定される。
【００７４】
続くステップＳ２７では、上述した口元位置データＭＤ１、文字群データＣＨＲ１、及び背景領域ＢＫ（図６（ｂ）参照）の座標位置データに基づいて、表示画面３０に表示させる際の文字群のサイズ（文字列の段数や文字列の文字数など）、吹出し位置及び吹出し方向を算出して求め、その算出結果に対応する吹出しパターン及びその矢印パターンと、これらパターンの各起点位置（配置させる基準の位置）とを決定する処理が実行される。
【００７５】
上述した図７（ｂ）の例では、文字群データＣＨＲ１に対応する文字群は「おはよう」となっているので、その文字数は４文字である。この４文字の文字群「おはよう」については、ステップＳ２７において、一列で口元画像ＭＶ近傍の背景領域ＢＫに配置できるという結果からその起点位置（ＸＣ，ＹＣ）が得られ、かつ、その一列４文字を包囲できる吹出しパターンとして認識文字数４文字に対応するパーツＮｏ．Ｐ０４の吹出しパターン及びその起点位置（ＸＡ，ＹＡ）が決定される。また、吹出し方向は、図６（ｂ）に示したように右上との決定が得られたことから、矢印パターンはパーツＮｏ．Ｄ０１がその起点位置（ＸＢ，ＹＢ）とともに決定される。
【００７６】
このように、文字群及びその起点位置、吹出しパターン及びその起点位置、ならびに、矢印パターン及びその起点位置が決定されると、これらの各データＣＨＲ１、（ＸＣ，ＹＣ）、Ｐ０４、（ＸＡ，ＹＡ）、Ｄ０１、（ＸＢ，ＹＢ）が吹出しデータＮｏ．１の所定の格納エリア（吹出しデータＲＡＭ４１）に格納される。
【００７７】
続くステップＳ２８では、吹出しデータＲＡＭ４１に格納された各データに基づいて図６（ｂ）に示した如く吹出し画像ＲＡＭ４２の背景領域ＢＫに画像データがドット展開される。すなわち、吹出し画像ＲＡＭ４２には、吹出しパターンデータに基づく吹出しパターンＰ０４がドット展開され、この吹出しパターンＰ０４に対して矢印パターンデータに基づく矢印パターンＤ０１が合成してドット展開され、さらに文字群データＣＨＲ１に基づく文字パターンが吹出しパターンＰ０４内に収まるようにドット展開される。このようにして、吹出しパターンＰ０４、矢印パターンＤ０１、及び文字群「おはよう」の各データよりなる吹出し画像データ３０ＡＡが形成される。
【００７８】
次のステップＳ２９では、合成ＲＡＭ４３にすでに展開されている画像データＩＩＭＧ２に対して、上記ステップＳ２８により吹出し画像ＲＡＭ４２に展開された背景領域ＢＫ部分の画像データが合成される。その結果、図６（ｃ）に示した如く、口元領域３２ＡＡ近傍に上述した吹出し画像データ３０ＡＡが合成されるので、表示部１３の表示画面３０には、図７（ｂ）に示したように、人物（乙）の人物画像ＲＩＭＧ２の口元３２Ａから吹出すように吹出し画像３０Ａ「おはよう」が表示され、その際に、左右のスピーカＳＬ，ＳＲよりほぼ均等の音量で音声「おはよう」が出力される。受信側では、吹出し画像３０Ａ中の吹出し位置３１Ａからだれからの吹き出しであるのかを口元の動きとともに確認することができる。
【００７９】
そして、キー入力部５の操作で終了が指示されるまでは、処理は再びステップＳ１３に戻り、上述したステップＳ１３〜Ｓ２９までの動作を繰り返し実行する（ステップＳ３０）。
【００８０】
続いて、図７（ｂ）の状態から同図（ｃ）の状態に送信画像が推移した場合には、向かって一番左に位置する人物（甲）（人物画像ＳＩＭＧ１参照）が音声「お元気ですか？」を発していることから、人物（乙）の場合と同様に、表示部１３の表示画面３０には、人物（甲）の人物画像ＲＩＭＧ１の口元３２Ｂから吹出すように吹出し画像３０Ｂ「おげんきですか」（この場合には、文字群の文字数と背景領域のサイズとの関係から文字列が２段となる）が表示され、その際に、スピーカＳＬがスピーカＳＲよりも音量が大きくなるように音声「お元気ですか？」が出力される。人物（甲）はマイクＭＬ近傍に位置しており、もうひとつのマイクＭＲからは離れているので、マイクＭＬによって集音される音量は高くなるが、これに比べてマイクＭＲによって集音される音量は低くなるので、スピーカＳＬ，ＳＲがこれに対応してステレオ状態で音声を出力する。この集音された音量の違いは、受信側において音量検出部１１によって検出され、後述するが、口元の動きが検出できなかったときに暫定的に音声発生位置を決定するために採用される。このように、受信側では、吹出し画像３０Ｂ中の吹出し位置３１Ｂからだれからの吹き出しであるのかを口元の動きとともに確認することができる。
【００８１】
なお、吹出しデータＲＡＭ４１には、今度は吹出しデータＮｏ．２として、口元位置データＭＤ２、吹出しパターンＰ０７その起点位置（ＸＤ，ＹＤ）、矢印パターンＤ０１及びその起点位置（ＸＥ，ＹＥ）、文字群データＣＨＲ２及びその起点位置（ＸＦ，ＹＦ）が記憶される。
【００８２】
また、図９（ａ）及び（ｂ）の各画像データＩＭＧ１１，ＩＭＧ１２に示したように、送信側（顔画像表示装置１００）でひとりの人物（乙）（人物画像ＳＩＭＧ２）により発せられた音声「おはようございます！お元気ですか？」から、図９（ａ）、（ｂ）及び（ｃ）の各表示画面３０に示したように、受信側（顔画像表示装置２００）で複数の文節（第１文字群「おはようございます」と第２文字群「おげんきですか」）に分けて各文節に対応した表示画像（図９（ｂ）及び（ｃ））を連続して表示する必要があると、前述のステップＳ２４（図１４参照）において、文節分けが必要であると判断され、処理はステップＳ２５に移行する。
【００８３】
このステップＳ２５では、図８に示した如く、文節分けにより２つの吹出しデータは関連性あるものとなり、予め吹出しデータＲＡＭ４１には、吹出しデータＮｏ．１及びＮｏ．２の格納領域が確保される。その際、各吹出しデータの格納領域において、口元位置データ（例えばＭＤ３）は共通化して格納される。
【００８４】
続くステップＳ２６〜Ｓ２９までは前述と同様に処理が実行されるが、その際、各ステップにおいて吹出しデータＮｏ．１とＮｏ．２とにそれぞれペアでデータを格納する処理が行われる。
【００８５】
吹出しデータＲＡＭ４１において、吹出しデータＮｏ．１には、口元位置データＭＤ３、第１文字群の９文字に対応する吹出しパターンＰ０９その起点位置（ＸＧ，ＹＧ）、吹出しパターンＰ０９の吹出し方向が中上であることを示す矢印パターンＤ０２及びその起点位置（ＸＥ，ＹＥ）、第１文字群「おはようございます」の文字群データＣＨＲ３及びその起点位置（ＸＩ，ＹＩ）が記憶される。また、吹出しデータＮｏ．２には、吹出しデータＮｏ．１と同様の口元位置データＭＤ３、第２文字群の７文字に対応する吹出しパターンＰ０７その起点位置（ＸＪ，ＹＪ）、吹出しパターンＰ０７の吹出し方向が中上であることを示す矢印パターンＤ０２及びその起点位置（ＸＫ，ＹＫ）、第２文字群「おげんきですか」の文字群データＣＨＲ４及びその起点位置（ＸＬ，ＹＬ）が記憶される。
【００８６】
表示部１３の表示画面３０には、第１文節すなわち第１文字群について（図９（ｂ）参照）、人物（乙）の人物画像ＲＩＭＧ２の口元３２Ｃ近傍から吹出すように吹出し画像３０Ｃ「おはようございます」が表示され、その際に、左右のスピーカＳＬ，ＳＲよりほぼ均等の音量で音声「おはようございます」が出力される。受信側においては、吹出し画像３０Ｃ中の吹出し位置３１Ｃからだれからの吹き出しであるのかを口元の動きとともに確認することができる。続く第２文節すなわち第２文字群について（図９（ｃ）参照）、人物（乙）の人物画像ＲＩＭＧ２の口元３２Ｄ近傍から吹出すように吹出し画像３０Ｄ「おげんきですか」が表示され、その際に、左右のスピーカＳＬ，ＳＲよりほぼ均等の音量で音声「お元気ですか？」が出力される。受信側では、吹出し画像３０Ｄ中の吹出し位置３１Ｄからだれからの吹き出しであるのかを口元の動きとともに確認することができる。
【００８７】
この図９に示した表示画面３０中の口元（３１Ｃ，３１Ｄ）と吹出し画像（３０Ｃ，３０Ｄ）との位置関係は、第１文字群、第２文字群のいずれも図７に示した表示画面３０中の口元３１Ａと吹出し画像３０Ａとの位置関係よりも離間しており、これは、各文字群の文字数を包囲する吹出しパターンのサイズとその吹出しパターンを配置できる背景領域との関係から決定されるものである。
【００８８】
また、図１１（ａ）及び（ｂ）の各画像データＩＭＧ２１，ＩＭＧ２２に示したように、送信側（顔画像表示装置１００）で口元の動きが無くひとりの人物により発せられた音声「おはようございます！」があると、図１１（ａ）及び（ｂ）の各表示画面３０に示したように、受信側（顔画像表示装置２００）では暫定的に吹出し画像３０Ｅを表示して、これに合せてスピーカ部１５より音声出力する処理が行われる。
【００８９】
具体的には、前述のステップＳ２１（図１４参照）において音声認識ができたという判定がなされると、処理はステップＳ２２に移行し、音量検出部１１にて検出されたマイクＭＬに対応する左側音量データとマイクＭＲに対応する右側音量データとに基づいて左右の音量差が算出される。続くステップＳ２３において、その音量差から口元位置データが暫定的に求められ、その口元位置データは図１０に示した如く暫定フラグＦとともにＭＤ４として吹出しデータＮｏ．１（吹出しデータＲＡＭ４１）の格納領域に格納される。
【００９０】
その後、処理はステップＳ２４に移行し、この場合には文節分けが不要なことから、さらにステップＳ２６以降の処理が前述した通り実行される。
【００９１】
図１０に示した吹出しデータＮｏ．１には、暫定的に決定された口元位置データＭＤ４及び暫定フラグＦ、文字群の９文字に対応する吹出しパターンＰ０９及びその起点位置（ＸＭ，ＹＭ）、吹出しパターンＰ０９の吹出し方向が暫定的に中上であることを示す矢印パターンＤ０２及びその起点位置（ＸＮ，ＹＮ）、文字群「おはようございます」の文字群データＣＨＲ５及びその起点位置（ＸＰ，ＹＰ）が記憶される。
【００９２】
表示部１３の表示画面３０には（図１１（ｂ）参照）、暫定的に人物（乙）の人物画像ＲＩＭＧ２の口元近傍から吹出すように吹出し画像３０Ｅ「おはようございます」が表示され、その際に、左右のスピーカＳＬ，ＳＲよりほぼ均等の音量で音声「おはようございます」が出力される。受信側においては、吹出し画像３０Ｅ中の吹出し位置３１Ｅからだれからの吹き出しであるのかを口元の動きが無くても確認することができる。その際、スピーカＳＬ，ＳＲから出力される音量差の助けも借りて音声発生源を容易に推測することができる。
【００９３】
以上説明したように本実施の形態によれば、顔画像表示装置間で画像データと音声データとを送信し、受信側において画像データに基づく人物画像と音声データに基づく会話の音声とを出力する際にその人物画像の口元近傍にその音声対応の文字群を同時に表示するようにしたので、画像及び音声を送信する簡単なシステムにおいてその音声に対応する文字群を人物画像や音声とともに口元を音声発生位置にみたてて同時に表示出力することが可能である。その結果、複数の顔画像から同時に音声対応の文字が表示された場合でも、その各文字と複数の顔画像との対応関係を明瞭に視認することができる。
【００９４】
また、顔画像を表示出力する際に、その顔画像中に口元位置又はそれの近傍位置と音声の発生位置との少なくとも一方の位置に、受信された音声対応の文字を表示制御するようにしたので、顔画像中の口元の動きが検出されない場合又は音声の受信が良好でなかった場合でも、受信された音声に対応する文字を顔画像の口元位置等に暫定的に表示出力することが可能である。
【００９５】
また、表示の際に文字群を吹出しパターンで包囲するようにしたので、文字群を他の表示画像から判別しやすいように表示することが可能である。
【００９６】
また、音声認識された文字の数に応じたサイズの吹出しパターンを採用するようにしたので、必要以上に吹出しパターンの表示領域をとらずに済み、これによって、他の表示画像の隠蔽を必要最小限に抑えることが可能である。
【００９７】
また、人物画像領域等の特定領域を除いた表示領域に吹出しパターンを合成表示するようにしたので、その特定領域の画像を隠蔽せずに吹出しパターンを表示することが可能となり、これによって、遠隔地の相手の表情や動きを十分に読み取りながら、提示された資料を見逃すことのないように、及び伝達情報に欠落のないように、会話を進めることができる。
【００９８】
さて、前述の実施の形態では、吹出しパターンの輪郭形状は図３に示したように矩形となっているが、矩形以外の楕円、円、星、雲、多角形等であってもよく、あるいは、これら各輪郭形状を予め吹出しパターンＲＯＭ３１に記憶しておき、キー入力部５の操作で選択できるようにしてもよく、吹出しパターンの選択幅を広げて使用者の用途や好みに応じた吹出しパターンを適宜提供することが可能である。
【００９９】
また、前述の実施の形態では、吹出しパターンと矢印パターンとをそれぞれ独立して記憶していたが、吹出しパターンと矢印パターンとを一体化したパターンを一元管理する形態にしてもよく、これによって吹出しパターンと矢印パターンとを合成する処理を省くことができる。
【０１００】
また、前述の実施の形態では、人物画像の表示領域を特定領域としていたが、人物画像の顔部分を特定領域としてもよく、この場合にも少なくとも誰が音声を発しているのかを判別することに支障はない。
【０１０１】
また、前述の実施の形態において、特定領域を判別する際に、キー入力部５のキー操作で設定する方法以外に、人物の背景に所定の色（例えば青色）で印刷されたスクリーン等を配置し、受信側で画像処理によってその色を検出することで、人物画像と特定領域とを境界を判別できるようにしてもよい。
【０１０２】
また、前述の実施の形態では、文字群の表示単位を文節としていたが、その文節以外に、単語や文章を表示単位としてもよい。
【０１０３】
【発明の効果】
以上説明したように請求項１記載の発明によれば、受信された顔画像データに基づく顔画像を表示出力する際にその顔画像の口元の位置又はその近傍位置に、受信された音声対応の文字を同時に表示するようにしたので、複数の顔画像から同時に音声対応の文字が表示された場合でも、その各文字と複数の顔画像との対応関係を明確に視認することが可能な顔画像表示装置を得られるという効果を奏する。
【０１０４】
請求項２記載の発明によれば、受信された顔画像データに基づく顔画像を表示出力する際にその顔画像中に口元位置又はそれの近傍位置と音声の発生位置との少なくとも一方の位置に、受信された音声対応の文字の表示を制御するようにしたので、顔画像中の口元の動きが検出されない場合又は音声の受信が良好でなかった場合でも、受信された音声に対応する文字を顔画像の口元位置等に暫定的に表示出力することが可能な顔画像表示装置を得られるという効果を奏する。
【０１０５】
請求項３記載の発明によれば、受信された音声対応の文字の表示とともにその音声を外部に出力するようにしたので、請求項１又は２に記載の発明の効果に加え、視覚と聴覚との相乗効果で音声内容を確認することが可能な顔画像表示装置を得られるという効果を奏する。
【０１０６】
請求項４記載の発明によれば、受信された音声に対応する文字を表示の際にその文字を吹出し画像で包囲するようにしたので、請求項１又は２に記載の発明の効果に加え、文字を他の文字又は他の表示画像から判別しやすいように表示することが可能な顔画像表示装置を得られるという効果を奏する。
【０１０７】
請求項５記載の発明によれば、音声認識された音声に対応する文字の数に応じたサイズの吹出し画像を採用するようにしたので、請求項１又は２に記載の発明の効果に加え、必要以上に吹出し画像の領域をとらず、表示画像の隠蔽を必要最小限に抑えることが可能な顔画像表示装置を得られるという効果を奏する。
【０１０８】
請求項６記載の発明によれば、特定領域を除いた表示領域に吹出し画像を表示するようにしたので、請求項１又は２に記載の発明の効果に加え、特定領域の表示画像を隠蔽せずに吹出し画像を表示することが可能な顔画像表示装置を得られるという効果を奏する。
【０１０９】
請求項７記載の発明によれば、表示の際に音声に対応する文字を吹出し画像で包囲するようにしたので、請求項１又は２に記載の発明の効果に加え、文字を他の表示画像から判別しやすいように表示することが可能な顔画像表示装置を得られるという効果を奏する。
【０１１０】
請求項８記載の発明によれば、送信装置から顔画像表示装置に対して顔画像データと音声データとを送信するだけで、顔画像データに基づく顔画像を表示出力する際にその顔画像の口元の位置又はその近傍位置に、受信された音声対応の文字を同時に表示するようにしたので、簡単なシステム構成で音声に対応する文字と顔画像とを表示出力することが可能な顔画像通信システムを得られるという効果を奏する。
【０１１１】
請求項９記載の発明によれば、送信装置から顔画像表示装置に対して複数の顔画像データと複数の音声データとを送信するだけで、顔画像データに基づく顔画像を表示出力する際にその顔画像中に口元位置又はそれの近傍位置と音声の発生位置との少なくとも一方の位置に、受信された音声対応の文字の表示を制御するようにしたので、簡単なシステム構成で音声に対応する文字と顔画像とを表示出力することが可能な顔画像通信システムを得られるという効果を奏する。
【図面の簡単な説明】
【図１】本発明に係る顔画像通信システムの一実施の形態を示す構成図である。
【図２】本発明に係る顔画像表示装置の一実施の形態を示すブロック図である。
【図３】図２に示した吹出しパターンＲＯＭのメモリ構成の一例を示す図である。
【図４】図２に示した矢印パターンＲＯＭのメモリ構成の一例を示す図である。
【図５】図２に示した吹出しデータＲＡＭのメモリ構成の一例を示す図である。
【図６】本実施の形態における画像合成手順を示す図である。
【図７】本実施の形態における送受信画像の対応関係の一例を示す図である。
【図８】図２に示した吹出しデータＲＡＭのメモリ構成の他の例を示す図である。
【図９】本実施の形態における送受信画像の対応関係の他の例を示す図である。
【図１０】図２に示した吹出しデータＲＡＭのメモリ構成の他の例を示す図である。
【図１１】本実施の形態における送受信画像の対応関係の他の例を示す図である。
【図１２】本実施の形態による送信時の動作を説明するフローチャートである。
【図１３】本実施の形態による受信時の動作（前半）を説明するフローチャートである。
【図１４】本実施の形態による受信時の動作（後半）を説明するフローチャートである。
【符号の説明】
１００，２００顔画像表示装置
１００ａ，２００ａ端末本体
２ＣＰＵ
３ＲＯＭ
４ＲＡＭ
５キー入力部
６画像入力部
７音声入力部
８Ｉ／Ｆ
９送受信部
１０音声認識部
１１音量検出部
１２表示駆動回路
１３表示部
１４音声発生部
１５スピーカ部
３０表示画面
３１吹出しパターンＲＯＭ
３２矢印パターンＲＯＭ
３３辞書ＲＯＭ
４１吹出しデータＲＡＭ
４２吹出し画像ＲＡＭ
４３合成ＲＡＭ

Claims

外部から送られてきた顔画像データ及び音声データを含むデータを受信する受信手段と、
前記受信手段により受信された顔画像データに基づいて対応する顔画像を表示する表示手段と、
前記受信手段により受信されたデータの内の顔画像データに基づいて口元の変化領域を検出する口元位置検出手段と、
前記受信手段により受信されたデータの内の音声データに基づいて音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に対応する文字を出力する文字出力手段と、
前記表示手段により表示されている顔画像の内、前記口元位置検出手段により検出された前記口元の変化領域の位置又はその近傍位置に前記文字出力手段から出力された音声に対応する文字を表示制御する表示制御手段と、
を有することを特徴とする顔画像表示装置。
外部から送られてきた顔画像データ及び複数ヶ所より集音された複数の音声データを含むデータを受信する受信手段と、
前記受信手段により受信されたデータの内の顔画像データに基づいて対応する顔画像を表示する表示手段と、
前記受信手段により受信されたデータの内の顔画像データに基づいて口元の変化領域を検出する口元位置検出手段と、
前記受信手段により受信されたデータの内の音声データに基づいて音声を認識する音声認識手段と、
前記音声認識手段により認識された音声に対応する文字を出力する文字出力手段と、
前記受信手段により受信されたデータの内の複数の音声データに基づいて当該複数の音声データそれぞれの発生位置を検出する音声位置検出手段と、
前記表示手段に表示されている顔画像の内、前記口元位置検出手段により検出された口元の変化領域の位置又はその近傍位置と前記音声位置検出手段により検出された各音声の発生位置に対応する表示位置との少なくとも一方の位置に、前記文字出力手段から出力された音声に対応する文字を表示制御する表示制御手段と、
を有することを特徴とする顔画像表示装置。
前記受信手段により受信されたデータの内の音声データに基づいて対応する音声を外部に出力する音声出力手段を更に有することを特徴とする請求項１又は２に記載の顔画像表示装置。
前記文字出力手段から出力される音声に対応する文字を包囲する吹出し画像が記憶されている吹出し記憶手段を更に備えており、
前記表示制御手段は、前記文字出力手段から文字を出力した際に、その文字の表示領域を包囲する吹出し画像を前記吹出し記憶手段から読み出して合成表示する吹出し表示制御手段を備えていることを特徴とする請求項１又は２に記載の顔画像表示装置。
表示文字数に対応させてサイズの異なる複数の吹出し画像を記憶する吹出し画像記憶手段を更に備えており、
前記表示制御手段は、前記文字出力手段から出力された音声に対応する文字の文字数に対応する吹出し画像を前記吹出し記憶手段に記憶された複数の吹出し画像の中から読み出して表示する吹出し表示制御手段を備えていることを特徴とする請求項１又は２に記載の顔画像表示装置。
前記口元位置検出手段は、前記受信手段により受信されたデータの内の顔画像データに基づいて前記表示手段の表示領域における特定領域を検出する特定領域検出手段を有し、前記表示制御手段は、前記受信手段により受信されたデータの内の顔画像データに基づく表示画面上で前記特定領域検出手段により検出された特定領域の表示領域とは別の領域に前記吹出し画像を表示する吹出し表示制御手段を備えていることを特徴とする請求項１又は２に記載の顔画像表示装置。
前記文字出力手段から出力される音声に対応する文字を包囲する吹出し画像およびこの吹出し画像と前記口元位置検出手段により検出された口元位置とに配置される吹出し起点画像がそれぞれ記憶されている画像記憶手段とを更に備えており、
前記表示制御手段は、前記文字出力手段から文字を出力した際に、その文字の表示領域を包囲する吹出し画像と前記口元位置検出手段により検出された口元位置に配置される吹出し起点画像とを前記画像記憶手段から読み出して合成表示する吹出し表示制御手段を備えていることを特徴とする請求項１又は２に記載の顔画像表示装置。
請求項１記載の顔画像表示装置と、前記顔画像表示装置に対し回線を介してデータを送信する送信装置とからなる顔画像通信システムにおいて、
前記送信装置は、
顔画像データを入力する画像入力手段と、
音声データを入力する音声入力手段と、
前記画像入力手段により入力された顔画像データと前記音声入力手段により入力された音声データとをデータとして前記顔画像表示装置に送信する送信手段と、
を有することを特徴とする顔画像通信システム。
請求項２記載の顔画像表示装置と、前記顔画像表示装置に対し回線を介してデータを送信する送信装置とからなる顔画像通信システムにおいて、
前記送信装置は、
複数の顔画像データを入力する画像入力手段と、
複数ヶ所より集音された複数の音声データを入力する音声入力手段と、
前記画像入力手段により入力された複数の顔画像データと前記音声入力手段により入力された複数の音声データとをデータとして前記顔画像表示装置に送信する送信手段と、
を有することを特徴とする顔画像通信システム。