JP4437514B2 - Image transmission system - Google Patents

Image transmission system Download PDF

Info

Publication number
JP4437514B2
JP4437514B2 JP2000192965A JP2000192965A JP4437514B2 JP 4437514 B2 JP4437514 B2 JP 4437514B2 JP 2000192965 A JP2000192965 A JP 2000192965A JP 2000192965 A JP2000192965 A JP 2000192965A JP 4437514 B2 JP4437514 B2 JP 4437514B2
Authority
JP
Japan
Prior art keywords
data
image
circuit
motion
side terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000192965A
Other languages
Japanese (ja)
Other versions
JP2002008051A (en
Inventor
哲也 成瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000192965A priority Critical patent/JP4437514B2/en
Publication of JP2002008051A publication Critical patent/JP2002008051A/en
Application granted granted Critical
Publication of JP4437514B2 publication Critical patent/JP4437514B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は画像伝送システムに関し、例えばユーザ間で音声と共に画像の送受信を行なうテレビジョン電話システムに適用して好適なものである。
【0002】
【従来の技術】
従来、図6に示すようにテレビジョン電話システム1は、送信側端末2と受信側端末3とによって構成されている。この送信側端末2は、撮像手段(図示せず)によってユーザの顔を撮像した後にディジタル変換した画像データD1を1フレーム分ずつ画像圧縮符号化回路4及び動き画像成分抽出回路5に順次送出する。
【0003】
画像圧縮符号化回路4は、画像データD1を所定の方式で圧縮符号化することにより画像符号化データD2を生成し、これを多重化回路6に送出する。
【0004】
動き画像成分抽出回路5は、まず画像データD1における顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことによりワイヤフレームと呼ばれる基準の顔画像モデルを生成する。因みにワイヤフレームは、顔の中で特に動きのある目元や口元にポイントが数多く配置されている
【0005】
そして動き画像成分抽出回路5は、ワイヤフレームの各ポイントを分析パラメータとして用い、当該分析パラメータの時間的変化(すなわち前フレームと現フレームとの差分)をワイヤフレームの動き画像成分として抽出した後に圧縮符号化することにより例えば口元部分の動きを表す動き画像成分データD3を生成し、これを多重化回路6に送出する。
【0006】
また送信側端末2は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを音声符号化データD5として多重化回路6に送出する。
【0007】
多重化回路6は、画像符号化データD2、動き画像成分データD3及び音声符号化データD5を多重化処理し、その結果得られる多重化データD6を変調回路8に送出する。
【0008】
変調回路8は、通信路9を介して送信するための所定の変調方式で多重化データD6を変調処理した後、これを送信データD7として通信路9を介して受信側端末3へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0009】
すなわち通信路9が無線通信路であるときには、送信側端末2及び受信側端末3として例えばカメラ付携帯電話機を用いたテレビジョン電話システム1であることを想定し、通信路9が有線通信路であるときには、送信側端末2及び受信側端末3として例えば家庭に設置されるカメラ付電話機を用いたテレビジョン電話システム1であることを想定している。
【0010】
受信側端末3は、通信路9を介して送信されてきた送信データD7を受信データD8として受信して復調回路10に送出する。復調回路10は、受信データD8に対して復調処理を施すことにより復調データD9を得、これを分離回路11に送出する。
【0011】
なお実際上、復調回路10は通信路9を介して受信した受信データD8を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0012】
分離回路11は、送信側端末2の多重化データD6に相当する復調データD9を多重化処理の逆の手順で分離処理することにより、元の画像符号化データD2、動き画像成分データD3及び音声符号化データD5にそれぞれ相当する画像符号化データD12、動き画像成分データD13及び音声符号化データD15に分離し、音声符号化データD15を音声復号化回路12に送出し、動き画像成分データD13を動き画像成分復号化回路13に送出すると共に、画像符号化データD12を画像復号化回路14に送出する。
【0013】
画像復号化回路14は、分離回路11から順次送られてくる画像符号化データD12を復号することにより元の顔画像を表す基準の画像データD16を1フレーム分ずつ復元し、これらを順次画像データ保持回路15に送出する。
【0014】
画像データ保持回路15は、画像復号化回路14から送られてきた画像データD16を内部メモリ(図示せず)に順次保持した後、合成回路16に送出するようになされている。
【0015】
動き画像成分復号化回路13は、分離回路11から連続的に送られてくる動き画像成分データD13を復号することにより元の動き画像成分データD3に相当する動き画像成分データを復元した後、当該動き画像成分データに基づいて動きのあるワイヤフレームを生成し、これをワイヤフレームデータD18として合成回路16に送出する。
【0016】
合成回路16は、動き画像成分復号化回路13から供給されたワイヤフレームデータD18と、画像データ保持回路15から順次供給された基準の画像データD16とを合成することにより、顔画像の口元が音声に合わせて動くような合成画像データD19を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0017】
音声復号化回路12は、音声符号化データD15を復号することにより元の音声データD4に相当する音声データD17を復元し、これをアナログ変換した後に、合成回路16から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0018】
【発明が解決しようとする課題】
ところでかかる構成のテレビジョン電話システム1においては、送信側端末2が1フレーム分ずつ画像データD1及びその動き画像成分について圧縮符号化して受信側端末3へ順次送信する必要があると共に、ユーザの音声データD4についても画像データD1及びその動き画像成分とは別個に圧縮符号化して受信側端末3へ送信する必要があり、非常に多くのデータ伝送量を要すると共に多大な伝送時間を要してリアルタイムな処理を実行し得ないという問題があった。
【0019】
またテレビジョン電話システム1においては、画像データD1及びその動き画像成分の圧縮符号化処理、音声データD4の圧縮符号化処理を要すると共に、それに対応する復号処理を要することにより高速かつ大量のディジタル処理が必要であり、それに伴って送信側端末2及び受信側端末3の構成が複雑になると共に多大な消費電力を要するという問題があった。
【0020】
本発明は以上の点を考慮してなされたもので、簡易な構成及び低消費電力でリアルタイムな処理を実行し得る画像伝送システムを提案しようとするものである。
【0021】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、送信装置及び受信装置によって構成される画像伝送システムにおいて、送信装置は、マイクロフォンによって集音したユーザの音声データを受信装置へ送信する音声データ送信手段と、ユーザの顔を撮影することにより得られた基準となる1フレーム分の顔画像データを複数のポイントに分割して結ぶことによりワイヤフレームでなる顔画像モデルを生成し、これを受信装置へ送信する顔画像モデル送信手段と、ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、音声データを受信装置へ送信している間だけ、顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を上記ワイヤフレームの動き画像成分データとして抽出し、これを受信装置へ送信する動き画像成分データ送信手段とを具え、受信装置は、顔画像モデルを保持する顔画像モデル保持手段と、動き画像成分データに基づいて顔画像モデルの目元部分について動きのある目元部分動き画像データを生成する目元部分動き画像データ生成手段と、音声データに基づいて顔画像モデルの口元部分の動き状態を解読することにより口元部分動き画像データを生成する口元部分動き画像データ生成手段と、顔画像モデルに対して、目元部分動き画像データ及び口元部分動き画像データを合成することにより合成画像を生成する合成手段と、合成画像を表示する表示手段とを具えるようにする。
【0022】
これにより、送信側ではユーザの音声データと、1フレーム分の顔画像モデルと、ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、音声データを受信装置へ送信している間だけ顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を示す上記ワイヤフレームの動き画像成分データとを送信し、受信側では、動き画像成分データに基づいて目元部分動き画像データを生成し、音声データに基づいて口元部分動き画像データを生成した後、顔画像モデルと合成することにより、送信装置から受信装置へのデータ伝送量を低減しつつ、目元部分と口元部分との間に表情として相関関係を持たせた状態の表情豊かな顔画像を表示することができる。
【0025】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0026】
(1)第1の実施の形態
図6との対応部分に同一符号を付して示す図1において、20は全体として第1の実施の形態におけるテレビジョン電話システムを示し、送信側端末21及び受信側端末22によって構成されている。因みにテレビジョン電話システム20では、送信側端末21が受信側となり、受信側端末22が送信側となってもよい。
【0027】
送信側端末21は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを言葉情報に相当する音声符号化データD5として多重化回路6に送出する。
【0028】
また送信側端末21は、画像データベース23に予め格納しておいたユーザ自身の顔画像を表す基準となる画像データD23を通信開始時の最初に1フレーム分だけ読み出し、これを画像圧縮符号化回路24に送出する。画像圧縮符号化回路24は、画像データD23を所定の圧縮符号化方法によって圧縮符号化することにより画像符号化データD24を生成し、これを多重化回路6に送出する。
【0029】
多重化回路6は、画像符号化データD24及び音声符号化データD5を多重化処理し、その結果得られる多重化データD25を変調回路8に送出する。ここで多重化回路6は、通信開始時の最初に画像圧縮符号化回路24から1フレーム分の画像符号化データD24が供給されたときのみ、当該画像符号化データD24及び音声符号化データD5を多重化処理するが、それ以降は画像符号化データD24が供給されることはないので音声符号化データD5だけを変調回路8に送出する。
【0030】
変調回路8は、多重化データD25及びそれ以降供給される音声符号化データD5を順次変調処理した後、これを送信データD26として通信路9を介して受信側端末22へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0031】
すなわち通信路9が無線通信路であるときには、送信側端末21及び受信側端末22として例えばカメラ付携帯電話機を用いたテレビジョン電話システム20であることを想定し、通信路9が有線通信路であるときには、送信側端末21及び受信側端末22として例えば家庭に設置されるカメラ付電話機を用いたテレビジョン電話システム20であることを想定している。
【0032】
受信側端末22は、通信路9を介して送信されてきた送信データD26を受信データD27として受信して復調回路10に送出する。復調回路10は、受信データD27に対して復調処理を施すことにより復調データD28を得、これを分離回路11に送出する。
【0033】
なお実際上、復調回路10は通信路9を介して受信した受信データD27を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0034】
分離回路11は、送信側端末21の多重化データD25に相当する復調データD28を多重化処理とは逆の手順で分離処理することにより、元の画像符号化データD24及び音声符号化データD5にそれぞれ対応する画像符号化データD29及び音声符号化データD30に分離し、当該音声符号化データD30を音声復号化回路12及び画像合成部27の動き画像保持回路25に送出すると共に、画像符号化データD29を画像復号化回路14に送出する。
【0035】
因みに分離回路11は、最初に復調データD28を画像符号化データD29及び音声符号化データD30に分離した後には、それ以降の復調データD28に画像符号化データD29が多重化されていることはないので、音声符号化データD30だけを音声復号化回路12及び動き画像保持回路25に送出するようになされている。
【0036】
画像復号化回路14は、分離回路11から最初にのみ送られてくる画像符号化データD29を復号することにより画像データD23に相当する元の1フレーム分の基準となる画像データD31を復元し、これを静止画記憶手段としての画像データ保持回路15に送出する。
【0037】
画像データ保持回路15は、画像復号化回路14から送られてきた基準の画像データD31を内部メモリ(図示せず)に一旦保持した後、画像合成部27の合成回路26に送出するようになされている。
【0038】
動き画像生成手段としての動き画像保持回路25は、分離回路11から順次送られてくる言葉情報としての音声符号化データD30の符号パターンに対応した例えば口元の動きを表す動き画像データD32を内部メモリ(図示せず)に複数保持しており、当該音声符号化データD30に対応する動き画像データD32を読み出して合成回路26に送出する。
【0039】
ここで音声符号化データD30は、人間が音声を発する際の口元部分の形態をモデル化したものを基にディジタル圧縮符号化処理されたデータである。従って動き画像保持回路25は、音声符号化データD30の符号パターンに対応した例えば口元の動きを表す動き画像データD32を予め内部メモリに複数保持していることにより、音声符号化データD30の符号パターンに対応する動き画像データD32を直ちに読み出して合成手段としての合成回路26に送出し得るようになされている。
【0040】
合成回路26は、画像データ保持回路15から供給された基準の画像データD31に対して、動き画像保持回路25から順次供給された動き画像データD32を重ねて合成することにより、基準の顔画像に対して口元だけを動かしたような合成画像データD33を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0041】
音声復号化回路12は、音声符号化データD30を復号することにより元の音声データD34を復元し、これをアナログ変換した後に、合成回路26から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0042】
以上の構成において、第1の実施の形態におけるテレビジョン電話システム20においては、送信側端末21が通信開始時の最初だけ画像データベース23から読み出した1フレーム分の基準となる顔画像の画像データD23を圧縮符号化して受信側端末22に送信し、音声データD4についても順次圧縮符号化して受信側端末22に送信する。
【0043】
これにより送信側端末21は、ユーザ自身の顔画像を撮影しながら圧縮符号化して受信側端末22に毎フレームずつ送信する必要はなく、予め画像データベース23に格納してある自分の顔画像の画像データD23を通信開始時の最初にだけ圧縮符号化して受信側端末22に送信すればよく、データ伝送量を格段に低減することができる。
【0044】
また送信側端末21は、従来の送信側端末2(図6)と比較して動き画像成分抽出回路5が不要となる分だけ回路構成を簡素化できると共に、複雑なディジタル信号処理についてもその処理量を低減することができるので、消費電力を一段と低減することができる。
【0045】
これに対して受信側端末22は、受信データD27を復調して分離した後、画像復号化回路14によって通信開始時の最初だけ送られてくる基準となる顔画像の画像データD31を復元すると共に、動き画像保持回路25によって音声符号化データD30に対応した口元の動きを表す動き画像データD32を読み出し、基準となる顔画像の画像データD31に口元の動きを表す動き画像データD32を重ねて合成することにより合成画像データD33を生成した後、表示画像として出力する。
【0046】
このとき受信側端末22は、音声復号化回路12によって音声符号化データD30を復号することにより元の音声データD34を復元し、これをアナログ変換した後に、合成回路26で合成された表示画像とタイミングを合わせて音声として出力する。
【0047】
このように受信側端末22は、キャラクタの口元部分だけをユーザの音声に合わせて動した表示画像を表示することにより、あたかも送信側端末21のユーザの音声に合わせてキャラクタが喋っているような画像効果をもたらすことができる。
【0048】
このときも受信側端末22は、従来の受信側端末3(図6)と比較して動き画像成分復号化回路13が不要となる分だけ回路構成を簡素化できると共に、ユーザの顔画像に関する復号処理を最初に1回だけ行えば済むので複雑なディジタル信号処理についてもその処理量を低減することができ、かくして消費電力を一段と低減することができる。
【0049】
以上の構成によれば、第1の実施の形態におけるテレビジョン電話システム20は、送信側端末21が音声データD4を圧縮符号化して受信側端末22に送信すると共に、予め画像データベース23に格納してある自分の顔画像の画像データD23を通信開始時の最初にだけ圧縮符号化して受信側端末22に送信することにより、データ伝送量を従来の送信側端末2と比較して格段に低減すると共に消費電力を一段と低減することができる。
【0050】
またテレビジョン電話システム20は、受信側端末22が送信側端末21から最初にだけ送られてくる画像符号化データD29を1度だけ復号することにより得られた顔画像の画像データD31に対して、音声符号化データD30に対応した口元部分の動きを表す動き画像データD32を動き画像保持回路25によって読み出して合成することにより、あたかも動画像のように送信側端末21のユーザが喋っているような表示画像を表示することができる。
【0051】
このとき受信側端末22は、画像復号処理が1度だけで済むと共に、従来の受信側端末3のような動き画像成分復号化回路13による動き画像成分復号化処理が不要になる分だけディジタル信号処理の処理量を格段に低減すると共に消費電力を一段と低減することができ、かくして音声のタイミングと一致して口元部分が動く表示画像をリアルタイムに表示することができる。
【0052】
(2)第2の実施の形態
図1との対応部分に同一符号を付して示す図2において、40は全体として第2の実施の形態におけるテレビジョン電話システムを示し、送信側端末41及び受信側端末42によって構成されている。因みにテレビジョン電話システム40では、送信側端末41が受信側となり、受信側端末42が送信側となってもよい。
【0053】
送信側端末41は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを音声符号化データD5として多重化回路6に送出する。
【0054】
また送信側端末41は、画像データベース42に予め格納しておいた例えばキャラクタの顔画像の画像データに対応した画像識別情報D42を通信開始時の最初にだけ読み出し、これを多重化回路6に送出する。
【0055】
多重化回路6は、画像識別情報D42及び音声符号化データD5を多重化処理し、その結果得られる多重化データD43を変調回路8に送出する。ここで多重化回路6は、通信開始時の最初に画像データベース42から読み出された画像識別情報D42が供給されたときのみ、当該画像識別情報D42と音声符号化データD5とを多重化処理するが、それ以降は画像識別情報D42が供給されることはないので音声符号化データD5だけを変調回路8に送出する。
【0056】
変調回路8は、多重化データD43及びそれ以降供給される音声符号化データD5を順次変調処理した後、これを送信データD44として通信路9を介して受信側端末42へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0057】
受信側端末42は、通信路9を介して送信されてきた送信データD44を受信データD45として受信して復調回路10に送出する。復調回路10は、受信データD45に対して復調処理を施すことにより復調データD46を得、これを分離回路11に送出する。
【0058】
なお実際上、復調回路10は通信路9を介して受信した受信データD45を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0059】
分離回路11は、送信側端末41の多重化データD43に相当する復調データD46を多重化処理とは逆の手順で分離処理することにより、元の画像識別情報D42及び音声符号化データD5にそれぞれ対応する画像識別情報D47及び音声符号化データD48に分離し、当該音声符号化データD48を音声復号化回路12及び画像合成部49のワイヤフレーム生成回路44に送出すると共に、画像識別情報D47を静止画記憶手段としての画像データベース43に送出する。
【0060】
因みに分離回路11は、最初に復調データD46を画像識別情報D47及び音声符号化データD48に分離した後には、それ以降の復調データD46に画像識別情報D47が多重化されていることはないので、音声符号化データD48だけを音声復号化回路12及びワイヤフレーム生成回路44に送出するようになされている。
【0061】
動き画像生成手段としてのワイヤフレーム生成回路44は、分離回路11から順次送られてくる言葉情報としての音声符号化データD48に基づいてキャラクタの顔画像の例えば口元の動き状態を解読し、内部メモリ(図示せず)から解読結果に対応した動きのあるワイヤフレームを読み出し、これを動き画像に相当するワイヤフレームデータD50として合成手段に相当する合成回路26に送出する。
【0062】
ここでワイヤフレームとは、例えばキャラクタの顔画像の顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことにより生成される顔画像モデルのことであり、顔部分の中で特に動きのある目元や口元にポイントが数多く配置されている。
【0063】
受信側端末42の画像データベース43は、送信側端末43の画像データベース42と同一内容の画像データを格納しており、分離回路11から供給された画像識別情報D47に対応するキャラクタの顔画像を表す画像データD49を読み出して合成回路26に送出する。
【0064】
すなわち、送信側端末41の画像データベース42から読み出されたキャラクタの顔画像を表す画像データD42と、受信側端末42の画像データベース43から読み出されたキャラクタの顔画像を表す画像データD49とは同一内容のデータである。
【0065】
ここで画像データD49も、ワイヤフレームであり、キャラクタの顔部分における各ポイントの配置場所は、ワイヤフレーム生成回路44によって生成されたワイヤフレームデータD50の各ポイントと一致している。
【0066】
合成回路26は、画像データベース43から供給されたキャラクタの顔画像を表すワイヤフレームの画像データD49に対してワイヤフレームデータD50を合成し、ワイヤフレームデータD50に応じて動き部分の画像ひずみ分を補正することによりキャラクタの口元部分が音声に合わせて動くような合成画像データD51を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0067】
音声復号化回路12は、音声符号化データD48を復号することにより元の音声データD52を復元し、これをアナログ変換した後に、合成回路26から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0068】
以上の構成において、テレビジョン電話システム20においては送信側端末41が通信開始時の最初だけ画像データベース42からキャラクタの顔画像の画像データを示す画像識別情報D42を読み出して受信側端末42に送信し、音声データD4についても順次圧縮符号化して受信側端末42に送信する。
【0069】
これにより送信側端末41は、ユーザ自身の顔画像を撮影しながら圧縮符号化して送信する必要はなく、予め画像データベース42に格納してあるキャラクタの顔画像データを示す画像識別情報D42を通信開始時の最初だけ受信側端末42に送信すればよいので、1枚だけ画像データD23を送信する第1の実施の形態における送信側端末21よりもさらにデータ伝送量を低減することができる。
【0070】
また送信側端末41は、従来の送信側端末2(図6)と比較して画像圧縮符号化回路4及び動き画像成分抽出回路5が不要となる分だけ回路構成を簡素化できると共に、複雑なディジタル信号処理についてもその処理量を低減することができるので、消費電力を一段と低減することができる。
【0071】
これに対して受信側端末42は、受信データD45を復調して分離した後、画像データベース43から通信開始時の最初だけ送られてきた画像識別情報D47に対応するキャラクタの顔画像を表す画像データD49を読み出すと共に、ワイヤフレーム生成回路44によって音声符号化データD48に対応するワイヤフレームデータD50を生成する。
【0072】
そして受信側端末42は、ワイヤフレームデータD50に基づいてキャラクタの顔画像における動き部分の画像ひずみ分を補正することによりキャラクタの口元部分が送信側端末41のユーザの音声と同じように動く合成画像データD51を生成し、これを表示画像として出力すると共に、音声復号化回路12によって復号した音声を表示画像とタイミングを合わせてスピーカから出力する。
【0073】
このように受信側端末42は、キャラクタの口元部分をユーザの音声に合わせて動した表示画像を表示することにより、あたかも送信側端末41のユーザの音声に合わせてキャラクタが喋っているような画像効果をもたらすことができる。
【0074】
このときも受信側端末42は、従来の受信側端末3(図6)と比較して動き画像成分復号化回路13が不要となる上に、第1の実施の形態における受信側端末22の画像復号化回路14が不要となる分だけ回路構成をさらに簡素化できると共に、複雑なディジタル信号処理についてもその処理量をさらに低減することができ、かくして消費電力をより一段と低減することができる。
【0075】
以上の構成によれば、第2の実施の形態におけるテレビジョン電話システム40は、送信側端末41が音声データD4を圧縮符号化して受信側端末42に送信すると共に、予め画像データベース23に格納してあるキャラクタの画像データの画像識別情報D42を通信開始時の最初にだけ受信側端末42に送信することにより、第1の実施の形態における送信側端末21と比較してデータ伝送量をさらに低減すると共に消費電力を一段と低減することができる。
【0076】
またテレビジョン電話システム20は、受信側端末42が送信側端末41から最初に1回だけ送られてくる画像識別情報D42に基づいてキャラクタの画像データD49を読み出し、音声符号化データD48に対応したワイヤフレームデータD50を生成してキャラクタの画像データD49と合成することにより、あたかも送信側端末41のユーザの音声に合わせてキャラクタが喋っているような表示画像を生成することができる。
【0077】
このとき受信側端末42は、画像復号処理を全く必要としない分だけ、さらにディジタル信号処理の処理量を第1の実施の形態における受信側端末42よりも低減すると共に消費電力を一段と低減することができ、かくして音声のタイミングと一致して口元部分が動く表示画像をリアルタイムに表示することができる。
【0078】
(3)第3の実施の形態
図1との対応部分に同一符号を付して示す図3において、60は全体として第3の実施の形態におけるテレビジョン電話システムを示し、送信側端末61及び受信側端末62によって構成されている。
【0079】
送信側端末61は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを言葉情報に相当する音声符号化データD5として変調回路8に送出する。
【0080】
変調回路8は、音声圧縮符号化回路7から順次供給される音声符号化データD5を変調処理した後、これを送信データD61として通信路9を介して受信側端末62へ送信する。
【0081】
この場合の送信側端末61は、通常の携帯電話機と同様の回路構成であり、特にカメラ付携帯電話やテレビジョン電話システム60特有の送信側端末である必要はなく、一般的な携帯電話機と同様の構成を有していれば良く、また通信路9に関しても、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0082】
受信側端末62は、通信路9を介して送信されてきた送信データD61を受信データD62として受信して復調回路10に送出する。復調回路10は、受信データD62に対して復調処理を施すことにより送信側端末21の音声符号化データD5に相当する音声符号化データD63を得、これを音声復号化回路12及び画像合成部69のワイヤフレーム生成回路63に送出する。
【0083】
動き画像生成手段としてのワイヤフレーム生成回路63は、復調回路10から順次送られてくる言葉情報としての音声符号化データD63に基づいてキャラクタの顔画像の例えば口元の動き状態を解読して動きのあるワイヤフレームを生成し、これを動き画像に相当するワイヤフレームデータD64として合成手段に相当する合成回路64に送出する。
【0084】
ここでワイヤフレームとは、例えばキャラクタの顔画像の顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことにより生成される顔画像モデルのことであり、顔部分の中で特に動きのある目元や口元にポイントが数多く配置されている。
【0085】
一方、静止画記憶手段としての画像データベース65は、予め決められた所定のキャラクタの顔画像を表す画像データD65を読み出して合成回路64に送出するようになされている。ここで画像データD65も、ワイヤフレームであり、キャラクタの顔部分における各ポイントの配置場所は、ワイヤフレーム生成回路63によって生成されたワイヤフレームデータD64の各ポイントと一致している。
【0086】
合成回路64は、ワイヤフレーム生成回路63からワイヤフレームデータD64の供給を受けると同時に、画像データベース65から予め決められた所定のキャラクタの顔画像を表す画像データD65の供給を受け、当該画像データD65に対してワイヤフレームデータD64を合成し、ワイヤフレームデータD64に応じて動き部分の画像ひずみ分を補正することにより、キャラクタの口元部分が音声に合わせて動くような合成画像データD66を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0087】
音声復号化回路12は、音声符号化データD63を復号することにより元の音声データD67を復元し、これをアナログ変換した後に、画像合成回路64から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0088】
以上の構成において、テレビジョン電話システム60においては送信側端末61が画像データを送信する必要はなく通常の音声データD4だけを順次圧縮符号化して受信側端末62へ送信するだけで良いので、第1及び第2の実施の形態における送信側端末21及び41よりもデータ伝送量を低減し得ると同時に、通常の音声通話だけを行う一般的な携帯電話機と同等のデータ伝送量に抑えることができる。
【0089】
これに対して受信側端末62は、予め画像データベース65に保持しているキャラクタの画像データD65を読み出し、音声符号化データD63に基づく口元の動き状態を表すワイヤフレームデータD64を画像データD65に合成することにより、キャラクタの口元部分が音声に合わせて動くような合成画像データD66を生成し、これを表示画像として出力することができる。
【0090】
このように受信側端末62は、第2の実施の形態における受信側端末42のように分離回路11を必要としない分と、画像復号処理を必要としない分だけ回路構成をさらに簡素化し得ると共に、複雑なディジタル信号処理についてもその処理量をさらに低減することができるので、消費電力を一段と低減することができる。
【0091】
さらにテレビジョン電話システム60においては、送信側端末61及び受信側端末62を必ず1組として用いる必要ななく、送信側端末61と同等の一般的な携帯電話機であっても、当該携帯電話機から音声データさえ受信することができれば、受信側端末62においてキャラクタの顔画像をベースに口元部分を音声に合わせて動かす表示画像を表示することができ、ユーザの使い勝手を一段と向上させることができる。
【0092】
以上の構成によれば、第3の実施の形態におけるテレビジョン電話システム60は、受信側端末62が送信側端末61から受信した音声符号化データD63に基づいて口元部分の動き状態を表すワイヤフレームデータD64を生成し、これを画像データベース65に予め保持していたキャラクタの画像データD65に合成して合成画像データD66を生成し、これを表示画像として出力することにより、送信側端末61から画像データを送信してもらうことなく音声データだけからキャラクタの口元部分が音声に合わせて動くような画像効果をもたらすことができる。
【0093】
また受信側端末62は、第1及び第2の実施の形態における受信側端末21及び42よりも回路構成を簡素化し得ると共にディジタル信号処理の処理量を低減することができるので、消費電力をさらに一段と低減することができ、かくして音声のタイミングと一致して口元部分が動く表示画像をリアルタイムに表示することができる。
【0094】
(4)第4の実施の形態
図6との対応部分に同一符号を付して示す図4において、80は全体として第4の実施の形態におけるテレビジョン電話システムを示し、送信側端末81及び受信側端末82によって構成されている。因みにテレビジョン電話システム80では、送信側端末81が受信側となり、受信側端末82が送信側となっても良い。
【0095】
送信側端末81は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを音声符号化データD5として多重化回路6及び動き画像成分抽出回路83に送出する。
【0096】
また送信側端末81は、撮像手段(図示せず)によってユーザの顔を撮像した後にディジタル変換した画像データD1を画像圧縮符号化回路4及び動き画像成分抽出回路83に順次送出する。
【0097】
ここで送信側端末81は、通信開始時の最初に1フレーム分の基準となる画像データD1を画像圧縮符号化回路4に送出した以後は、次フレーム以降の画像データD1を画像圧縮符号化回路4に送出するこはなく、動き画像成分抽出回路83にのみ画像データD1を送出するようになされている。
【0098】
画像圧縮符号化回路4は、画像データD1における顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことによりワイヤフレームと呼ばれる基準の顔画像モデルを生成する。因みにワイヤフレームは、顔の中で特に動きのある目元部分や口元部分にポイントが数多く配置されている。
【0099】
そして画像圧縮符号化回路4は、ワイヤフレーム化した画像データD1を所定の方式で圧縮符号化することにより画像符号化データD2を生成し、これを多重化回路6に送出する。
【0100】
動き画像成分抽出回路83も、ワイヤフレームと呼ばれる基準の顔画像モデルを生成し、音声圧縮符号化回路7から音声符号化データD5が供給されている間だけ、ワイヤフレームの口元部分を除く例えば目元部分の各ポイントを分析パラメータとして用い、当該分析パラメータの時間的変化(すなわち前フレームと現フレームとの差分)をワイヤフレームの動き画像成分として抽出した後に圧縮符号化することにより動き画像成分データD83を生成し、これを多重化回路6に送出する。
【0101】
すなわち動き画像成分抽出回路83は、音声圧縮符号化回路7から供給された音声符号化データD5との相関を考慮し、音声が発せられたときに顔の表情が変化すると考えて、音声が発せられている間の目元部分に関する動き画像成分データD83を生成するようになされている。
【0102】
多重化回路6は、音声符号化データD5、画像符号化データD2及び動き画像成分データD83を多重化処理し、その結果得られる多重化データD84を変調回路8に送出する。
【0103】
ここで多重化回路6は、通信開始時の最初に画像圧縮符号化回路4から1フレーム分の画像符号化データD2が供給されたときのみ、当該画像符号化データD2、音声符号化データD5及び動き画像成分データD83を多重化処理するが、それ以降は画像符号化データD2が供給されることはないので、音声符号化データD5及び動き画像成分データD83だけを多重化処理することになる。
【0104】
変調回路8は、通信路9を介して送信するための所定の変調方式で多重化データD84を変調処理した後、これを送信データD85として通信路9を介して受信側端末82へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0105】
受信側端末82は、通信路9を介して送信されてきた送信データD85を受信データD86として受信して復調回路10に送出する。復調回路10は、受信データD86に対して復調処理を施すことにより復調データD87を得、これを分離回路11に送出する。
【0106】
なお実際上、復調回路10は通信路9を介して受信した受信データD86を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0107】
分離回路11は、送信側端末81の多重化データD84に相当する復調データD87を多重化処理の逆の手順で分離処理することにより、元の音声符号化データD5、画像符号化データD2及び動き画像成分データD83にそれぞれ相当する音声符号化データD88、画像符号化データD89及び動き画像成分データD90に分離し、音声符号化データD88を音声復号化回路12及び画像合成部89のワイヤフレーム生成回路85に送出し、動き画像成分データD90を動き画像成分復号化回路84に送出すると共に、画像符号化データD89を画像復号化回路14に送出する。
【0108】
因みに分離回路11は、最初に復調データD87を音声符号化データD88、画像符号化データD89及び動き画像成分データD90に分離した後には、それ以降の復調データD87に画像符号化データD89が多重化されていることはないので、画像復号化回路14に画像符号化データD89を送出することはない。
【0109】
画像復号化回路14は、分離回路11から最初にのみ送られてくる画像符号化データD89を復号することによりワイヤフレーム化された元の顔画像に相当する基準の画像データD16を復元し、これを画像データ保持回路15に送出する。
【0110】
画像データ保持回路15は、画像復号化回路14から送られてきた基準の画像データD16を内部メモリ(図示せず)に一旦保持した後、画像合成部89の合成回路86に送出するようになされている。
【0111】
動き画像成分復号化回路84は、分離回路11から連続的に送られてくる動き画像成分データD90を復号することにより元の動き画像成分データD83に相当する動き画像成分データを復元した後、当該動き画像成分データに基づいて動きのあるワイヤフレームを生成し、これを動き成分画像に相当するワイヤフレームデータD91として合成回路86に送出する。この場合、ワイヤフレームデータD91とは、ユーザの顔画像のうちで目元部分の動きを表したデータである。
【0112】
動き画像生成手段としてのワイヤフレーム生成回路85は、分離回路11から連続的に送られてくる言葉情報としての音声符号化データD88に基づいて顔画像の例えば口元部分の動き状態を解読して動きのあるワイヤフレームを生成し、これを動き画像に相当するワイヤフレームデータD92として合成手段に相当する合成回路86に送出する。
【0113】
ここで、画像復号化回路14によって復号されたワイヤフレームの画像データD16と、動き画像成分復号化回路84によって生成された目元部分の動きを表すワイヤフレームデータD91と、ワイヤフレーム生成回路85によって生成された口元部分の動きを表すワイヤフレームデータD92とは、顔部分における各ポイントの配置場所が互いに一致している。
【0114】
合成回路86は、画像データ保持回路15から供給された送信側端末81の顔画像の画像データD16に対して、動き画像成分抽出回路84から供給された目元部分のワイヤフレームデータD91と、ワイヤフレーム生成回路85から供給された口元部分のワイヤフレームデータD92とを合成し、ワイヤフレームデータD91及びD92に応じて動き部分の画像ひずみ分を補正することにより、音声に合わせて目元部分及び口元部分が動くような合成画像データD93を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0115】
音声復号化回路12は、音声符号化データD88を復号することにより元の音声データD17を復元し、これをアナログ変換した後に、画像合成回路86から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0116】
以上の構成において、テレビジョン電話システム80においては送信側端末81が通信開始時の最初にユーザの顔画像を表す画像データD1を1フレーム分だけ圧縮符号化することにより画像符号化データD2を生成して多重化回路6に送出すると共に、ユーザの音声データD4を順次圧縮符号化することにより音声符号化データD5を生成して多重化回路6に送出する。
【0117】
このとき送信側端末81は、音声が発せられたときに顔の表情が変化する場合が一般的に多いと考えられるので、音声が発せられている間の目元部分に関する動き画像成分データD83を抽出して多重化回路6に送出する。
【0118】
そして送信側端末81は、多重化回路6によって通信開始時の最初にのみ画像符号化データD2、音声符号化データD5及び動き画像成分データD83を多重化し、変調処理して送信した後は、音声符号化データD5及び動き画像成分データD83を多重化し、変調処理して送信する。
【0119】
このように送信側端末81は、音声が発せられている間においては口元部分以外の目元部分に関する動き画像成分データD83を抽出することにより、目元部分の動きを再現するための動き画像成分データD83と、口元部分の動きを再現するための音声符号化データD5との間に相関関係を持たせている。
【0120】
これにより送信側端末81は、基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とが互いにデータとして無駄に重なりあうことなく、それぞれ必要最小限のデータ量として送信することができ、かくして従来の送信側端末2(図6)と比較してデータ伝送量を格段に低減すると共に消費電力を一段と低減することができる。
【0121】
これに対して受信側端末82は、通信開始時の最初だけ送られてくる基準となる顔画像の画像データD16を復元した後、音声符号化データD88に基づいて生成された口元部分の動きを表すワイヤフレームデータD92と、動き画像成分データD90に基づいて生成されたワイヤフレームデータD91とを顔画像の画像データD16に重ねて合成し、ワイヤフレームデータD91及びD92に応じて動き部分の画像ひずみ分を補正することにより、音声に合わせて目元部分及び口元部分が動くような動き画像データD93を生成して表示画像として出力する。
【0122】
これにより受信側端末82は、送信側端末81のユーザの音声に合わせて顔画像の口元を動かして喋っているような表示画像を表示するだけでなく、その時の目元部分の動きを表示することにより、表情豊かな顔画像を表示画像として表示することができる。
【0123】
このとき受信側端末82は、基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とがそれぞれ関連付けられており、それぞれ必要最小限のデータ処理量で表示画像を生成することができるので、従来の受信側端末3(図6)と比較してデータ処理量を格段に低減することができ、かくして消費電力を一段と低減することができる。
【0124】
以上の構成によれば、第4の実施の形態におけるテレビジョン電話システム80は、送信側端末81が基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とが互いにデータとして無駄に重なりあうことなく関連付けて、それぞれ必要最小限のデータ量として送信することができ、かくして従来の送信側端末2と比較してデータ伝送量を格段に低減すると共に消費電力を一段と低減することができる。
【0125】
またテレビジョン電話システム80は、受信側端末82が基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とをそれぞれ必要最小限のデータ処理量で表示画像を生成することができるので、従来の受信側端末3と比較してデータ処理量を格段に低減することができ、かくして消費電力を一段と低減することができる。
【0126】
このとき受信側端末82は、基準の顔画像に対して口元部分及び目元部分を音声に合わせて動かして表示することができるので、表情豊かでより高次元な表示画像をリアルタイムに提供することができる。
【0127】
(5)他の実施の形態
なお上述の第1の実施の形態においては、受信側端末22が動き画像保持回路25によって音声符号化データD32に対応した口元部分の動きを表す動き画像データD32を読み出し、合成回路26で基準の画像データD31と合成するようにした場合について述べたが、本発明はこれに限らず、音声復号化回路12の後段に音声認識回路を設けることによって音声を認識し、その認識結果をテキスト化して対応する動き画像データD32を動き画像保持回路25から読み出し、又は認識結果を発音記号化して対応する動き画像データD32を動き画像保持回路25から読み出し、これらを基準の画像データD31と合成するようにしても良い。
【0128】
また上述の第1の実施の形態においては、送信側端末21がユーザの顔画像を表す画像データD23を圧縮符号化して受信側端末22へ送信するようにした場合について述べたが、本発明はこれに限らず、キャラクタの顔を表す画像データD23を圧縮符号化して送信するようにしても良い。
【0129】
さらに上述の第1の実施の形態においては、受信側端末22が動き画像保持回路25によって音声符号化データD32に対応した口元部分の動きを表す動き画像データD32を読み出し、合成回路26で基準の画像データD31と合成するようにした場合について述べたが、本発明はこれに限らず、送信側端末21で音声符号化データD32に対応した口元部分の動きを表す動き画像データを指定し、当該指定した動き画像データに対応する動き画像識別情報を受信側端末22へ送信することにより、当該受信側端末22で動き画像識別情報に対応する動き画像データを読み出して基準の画像データと合成するようにしても良い。
【0130】
この場合、図1との対応部分に同一符号を付して示す図5において、テレビジョン電話システム100の受信側端末22は音声圧縮符号化回路7によって圧縮符号化された音声符号化データD5を多重化回路6及び動き画像データベース101に送出する。動き画像データベース101は、音声符号化データD5に応じた口元部分の動きを表す動き画像データを認識し、当該認識した動き画像データに対応する動き画像識別情報D101を多重化回路6に送出する。
【0131】
多重化回路6は、画像符号化データD24、音声符号化データD5及び動き画像識別情報D101を多重化処理し、その結果得られる多重化データD102を変調回路8に送出する。この場合も多重化回路6は、通信開始時の最初に画像圧縮符号化回路24から1フレーム分の画像符号化データD24が供給されたときのみ、当該画像符号化データD24、音声符号化データD5及び動き画像識別情報D101を多重化処理するが、それ以降は画像符号化データD24が供給されることはないので音声符号化データD5及び動き画像識別情報D101を多重化処理することによって得られる多重化データD102を変調回路8に送出する。変調回路8は、多重化データD102を順次変調処理した後、これを送信データD103として通信路9を介して受信側端末22へ送信する。
【0132】
受信側端末22は、通信路9を介して送信されてきた送信データD103を受信データD104として受信して復調回路10に送出する。復調回路10は、受信データD104に対して復調処理を施すことにより復調データD105を得、これを分離回路11に送出する。分離回路11は、復調データD105を分離処理することにより、元の画像符号化データD24、音声符号化データD5及び動き画像識別情報D101にそれぞれ相当する画像符号化データD29、音声符号化データD30及び動き画像識別情報D106に分離し、音声符号化データD30を音声復号化回路12に送出し、画像符号化データD29を画像復号化回路14に送出すると共に、動き画像識別情報D106を画像合成部102の動き画像データベース103に送出する。
【0133】
動き画像データベース103は、送信側端末21に設けられている動き画像データベース101と同一の動き画像データが格納されており、動き画像識別情報D106に対応する動き画像データD107を読み出して合成回路26に送出する。合成回路26は、画像データ保持回路15から供給された基準の画像データD31に対して、動き画像データベース103から順次供給された動き画像データD107を重ねて合成することにより、基準の顔画像に対して口元部分だけを動かしたような合成画像データD108を生成し、これを表示画像として表示部を介して出力するようになされている。
【0134】
さらに上述の第2の実施の形態においては、送信側端末41がキャラクタの顔画像を表す画像データに対応した画像識別情報D42を受信側端末42へ送信するようにした場合について述べたが、本発明はこれに限らず、ユーザの顔画像を表す画像データに対応した画像識別情報D42受信側端末42へ送信するようにしても良い。
【0135】
さらに上述の第2〜第4の実施の形態においては、受信側端末42がワイヤフレーム生成回路44、63及び85を用いて音声に対応した口元部分の動きを表すワイヤフレームデータD50、D64及びD92を生成し、これを基準となる画像データD49、D65及びD16に合成するようにした場合について述べたが、本発明はこれに限らず、ワイヤフレーム生成回路44、63及び85の代わりに第1の実施の形態における送信側端末21のような動き画像保持回路25を用いて音声符号化データD30に対応した口元部分の動きを表す動き画像データを読み出し、これを基準となる画像データD49、D65及びD16に合成したり、あるいは音声復号化回路12の後段に音声認識回路を設けることによって音声を認識し、その認識結果をテキスト化して対応する動き画像データD32を動き画像保持回路25から読み出し、又は認識結果を発音記号化して対応する音声画像データD32を画像保持回路25から読み出し、これらを基準となる画像データD49、D65及びD16に合成するようにしても良い。
【0136】
さらに上述の第1〜第4の実施の形態においては、送信側端末21、41、61及び81から受信した音声符号化データに対応する言葉情報に基づいて口元部分の動きを解読し、それに応じて口元部分が動く表示画像を表示するようにした場合について述べたが、本発明はこれに限らず、テキストデータや発音記号等に対応する言葉情報に基づいて口元部分が動く表示画像を表示するようにしても良い。
【0137】
さらに上述の第1〜第4の実施の形態においては、送信側端末21、41、61及び81から受信した言葉情報としての音声符号化データに基づいて口元部分の動きを解読し、それに応じた動きを表示画像として表示するようにした場合について述べたが、本発明はこれに限らず、例えば基地局と受信側端末22、42、62及び82との間で、当該受信側端末22、42、62及び82が基地局から受信した音声符号化データに対応する言葉情報に基づいて口元部分の動きを解読し、それに応じて口元部分が動く表示画像を表示するようにしても良い。
【0138】
【発明の効果】
上述のように本発明によれば、送信側ではユーザの音声データと、1フレーム分の顔画像モデルと、ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、音声データを受信装置へ送信している間だけ顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を示す上記ワイヤフレームの動き画像成分データとを送信し、受信側では、動き画像成分データに基づいて目元部分動き画像データを生成し、音声データに基づいて口元部分動き画像データを生成した後、顔画像モデルと合成することにより、送信装置から受信装置へのデータ伝送量を低減しつつ、目元部分と口元部分との間に表情として相関関係を持たせた状態の表情豊かな顔画像を表示することができ、かくして簡易な構成及び低消費電力でリアルタイムな処理を実行し得る画像伝送システムを実現できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図2】本発明の第2の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図3】本発明の第3の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図4】本発明の第4の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図5】他の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図6】従来のテレビジョン電話システムの構成を示すブロック図である。
【符号の説明】
1、20、40、60、80、100……テレビジョン電話システム、2、21、41、61、81……送信側端末、3、22、42、62、82……受信側端末、4、24……画像圧縮符号化回路、5、83……動き画像成分抽出回路、6……多重化回路、7……音声圧縮符号化回路、8……変調回路、9……通信路、10……復調回路、11……分離回路、12……音声復号化回路、13、84……動き画像成分復号化回路、14……画像復号化回路、15……画像データ保持回路、16、26、64、86……合成回路、25……動き画像保持回路、23、42、43、65……画像データベース、44、63、85……ワイヤフレーム生成回路、101、103……動き画像データベース。
[0001]
BACKGROUND OF THE INVENTION
The present invention Is a picture Image transmission system To For example, the present invention is suitable for application to a television telephone system that transmits and receives images together with sound between users.
[0002]
[Prior art]
Conventionally, as shown in FIG. 6, the television telephone system 1 is composed of a transmission side terminal 2 and a reception side terminal 3. The transmission side terminal 2 sequentially sends image data D1 digitally converted after the user's face is imaged by an imaging means (not shown) to the image compression encoding circuit 4 and the motion image component extraction circuit 5 one frame at a time. .
[0003]
The image compression encoding circuit 4 generates image encoded data D2 by compressing and encoding the image data D1 by a predetermined method, and sends this to the multiplexing circuit 6.
[0004]
The moving image component extraction circuit 5 first divides a face portion in the image data D1 into a plurality of points, and generates a reference face image model called a wire frame by connecting the plurality of points. By the way, the wire frame has many points placed around the eyes and mouth that are particularly moving in the face.
[0005]
Then, the motion image component extraction circuit 5 uses each point of the wire frame as an analysis parameter, extracts a temporal change of the analysis parameter (that is, a difference between the previous frame and the current frame) as a motion image component of the wire frame, and then compresses By encoding, for example, motion image component data D3 representing the motion of the mouth portion is generated and sent to the multiplexing circuit 6.
[0006]
Further, the transmission side terminal 2 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice compression coding circuit 7. The audio compression encoding circuit 7 compresses and encodes the audio data D4 by a predetermined compression encoding method, and then sends this to the multiplexing circuit 6 as audio encoded data D5.
[0007]
The multiplexing circuit 6 multiplexes the image encoded data D2, the motion image component data D3, and the audio encoded data D5, and sends the multiplexed data D6 obtained as a result to the modulation circuit 8.
[0008]
The modulation circuit 8 modulates the multiplexed data D6 by a predetermined modulation method for transmission via the communication path 9, and transmits this to the receiving side terminal 3 via the communication path 9 as transmission data D7. Incidentally, the communication path 9 is not particularly limited to wired and wireless, and may be any one.
[0009]
That is, when the communication path 9 is a wireless communication path, it is assumed that the transmission side terminal 2 and the reception side terminal 3 are a television telephone system 1 using, for example, a camera-equipped mobile phone, and the communication path 9 is a wired communication path. In some cases, it is assumed that the transmission-side terminal 2 and the reception-side terminal 3 are a television telephone system 1 using, for example, a camera phone installed at home.
[0010]
The receiving side terminal 3 receives transmission data D7 transmitted via the communication path 9 as reception data D8 and sends it to the demodulation circuit 10. The demodulating circuit 10 obtains demodulated data D9 by demodulating the received data D8 and sends it to the separating circuit 11.
[0011]
In practice, the demodulation circuit 10 detects and corrects data errors occurring on the communication path 9 when demodulating the received data D8 received via the communication path 9, but is omitted here for convenience of explanation.
[0012]
The separation circuit 11 separates the demodulated data D9 corresponding to the multiplexed data D6 of the transmission side terminal 2 in the reverse order of the multiplexing processing, thereby obtaining the original image encoded data D2, motion image component data D3, and audio. The encoded data D5 is divided into image encoded data D12, motion image component data D13, and audio encoded data D15 corresponding to the encoded data D5. The audio encoded data D15 is sent to the audio decoding circuit 12, and the motion image component data D13 is output. The encoded image data D12 is transmitted to the image decoding circuit 14 while being transmitted to the motion image component decoding circuit 13.
[0013]
The image decoding circuit 14 restores the reference image data D16 representing the original face image for each frame by decoding the encoded image data D12 sequentially sent from the separation circuit 11, and sequentially restores these image data. The data is sent to the holding circuit 15.
[0014]
The image data holding circuit 15 sequentially holds the image data D16 sent from the image decoding circuit 14 in an internal memory (not shown), and then sends it to the synthesizing circuit 16.
[0015]
The motion image component decoding circuit 13 restores the motion image component data corresponding to the original motion image component data D3 by decoding the motion image component data D13 continuously sent from the separation circuit 11, and then A wire frame having a motion is generated based on the motion image component data, and this is sent as wire frame data D18 to the synthesis circuit 16.
[0016]
The synthesizing circuit 16 synthesizes the wire frame data D18 supplied from the motion image component decoding circuit 13 and the reference image data D16 sequentially supplied from the image data holding circuit 15, so that the mouth of the face image is voiced. The composite image data D19 that moves in accordance with is generated, and is output as a display image via a display unit (not shown).
[0017]
The speech decoding circuit 12 restores the speech data D17 corresponding to the original speech data D4 by decoding the speech encoded data D15, converts this into analog, and then outputs it from the synthesis circuit 16 via the display unit. The sound is output as a sound from a speaker (not shown) in synchronization with the display image to be displayed.
[0018]
[Problems to be solved by the invention]
By the way, in the video telephone system 1 having such a configuration, it is necessary for the transmission side terminal 2 to compress and encode the image data D1 and its motion image component frame by frame and sequentially transmit them to the reception side terminal 3 as well as the user's voice. The data D4 also needs to be compressed and encoded separately from the image data D1 and its motion image component and transmitted to the receiving side terminal 3, which requires a large amount of data transmission and a large amount of transmission time in real time. There was a problem that it was not possible to execute proper processing.
[0019]
Further, the television telephone system 1 requires compression encoding processing of the image data D1 and its motion image component, and compression encoding processing of the audio data D4, and also requires decoding processing corresponding thereto. As a result, the configurations of the transmission side terminal 2 and the reception side terminal 3 become complicated, and a large amount of power is required.
[0020]
The present invention has been made in consideration of the above points, and can execute real-time processing with a simple configuration and low power consumption. Painting Image transmission system The It is what we are going to propose.
[0021]
[Means for Solving the Problems]
In order to solve such a problem, in the present invention, in an image transmission system constituted by a transmitting device and a receiving device, the transmitting device transmits audio data of a user collected by a microphone to the receiving device; A face image model of a wire frame is generated by dividing the face image data for one frame obtained by photographing the user's face into a plurality of points and connecting them, and this is transmitted to the receiving device. A face image model transmission means; Considering the correlation that facial expression changes when the user's voice is emitted, Audio data Sending to receiving device Each point of the eye part of the face image model As an analysis parameter Change over time Of the above wireframe A moving image component data transmitting means for extracting the moving image component data and transmitting it to the receiving device; the receiving device includes a face image model holding means for holding a face image model; and a face based on the moving image component data. Eye part motion image data generating means for generating eye part motion image data having movement for the eye part of the image model, and mouth part motion image data by decoding the motion state of the mouth part of the face image model based on the audio data The mouth partial motion image data generating means for generating the eye, the combining means for generating the composite image by combining the eye partial motion image data and the mouth partial motion image data with the face image model, and the display for displaying the composite image Means Prepare Like that.
[0022]
Thereby, on the transmission side, the user's voice data, the face image model for one frame, Considering the correlation that facial expression changes when the user's voice is emitted, Audio data Only while sending to the receiver Each point of eye area of face image model As an analysis parameter Change over time Showing of the above wireframe The motion image component data is transmitted, and on the receiving side, the eye partial motion image data is generated based on the motion image component data, the mouth partial motion image data is generated based on the audio data, and then synthesized with the face image model. By reducing the amount of data transmitted from the transmitting device to the receiving device, the distance between the eye portion and the mouth portion is reduced. As facial expression It is possible to display an expression-rich face image with a correlation.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
[0026]
(1) First embodiment
In FIG. 1, in which parts corresponding to those in FIG. 6 are assigned the same reference numerals, 20 denotes the television telephone system according to the first embodiment as a whole, which is composed of a transmission side terminal 21 and a reception side terminal 22. . Incidentally, in the television telephone system 20, the transmission side terminal 21 may be the reception side, and the reception side terminal 22 may be the transmission side.
[0027]
The transmitting side terminal 21 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice compression coding circuit 7. The audio compression encoding circuit 7 compresses and encodes the audio data D4 by a predetermined compression encoding method, and then sends this to the multiplexing circuit 6 as audio encoded data D5 corresponding to word information.
[0028]
Further, the transmission side terminal 21 reads image data D23, which is stored in advance in the image database 23 and serving as a reference representing the user's own face image, for one frame at the beginning of communication, and this is read out by an image compression coding circuit. 24. The image compression encoding circuit 24 generates image encoded data D24 by compressing and encoding the image data D23 by a predetermined compression encoding method, and sends this to the multiplexing circuit 6.
[0029]
The multiplexing circuit 6 multiplexes the encoded image data D24 and the encoded audio data D5 and sends the multiplexed data D25 obtained as a result to the modulation circuit 8. Here, the multiplexing circuit 6 receives the encoded image data D24 and the encoded audio data D5 only when the encoded image data D24 for one frame is supplied from the compressed image encoding circuit 24 at the beginning of communication. After the multiplexing process, the encoded image data D24 is not supplied thereafter, so only the encoded audio data D5 is sent to the modulation circuit 8.
[0030]
The modulation circuit 8 sequentially modulates the multiplexed data D25 and the encoded audio data D5 supplied thereafter, and transmits this to the receiving terminal 22 via the communication path 9 as transmission data D26. Incidentally, the communication path 9 is not particularly limited to wired and wireless, and may be any one.
[0031]
That is, when the communication path 9 is a wireless communication path, it is assumed that the video telephone system 20 uses, for example, a camera-equipped mobile phone as the transmission-side terminal 21 and the reception-side terminal 22, and the communication path 9 is a wired communication path. In some cases, it is assumed that the transmission-side terminal 21 and the reception-side terminal 22 are, for example, a television telephone system 20 using a camera phone installed at home.
[0032]
The reception side terminal 22 receives the transmission data D26 transmitted via the communication path 9 as reception data D27 and sends it to the demodulation circuit 10. The demodulation circuit 10 obtains demodulated data D28 by performing demodulation processing on the received data D27, and sends it to the separation circuit 11.
[0033]
In practice, the demodulation circuit 10 detects and corrects data errors occurring on the communication path 9 when demodulating the received data D27 received via the communication path 9, but is omitted here for convenience of explanation.
[0034]
The demultiplexing circuit 11 demultiplexes the demodulated data D28 corresponding to the multiplexed data D25 of the transmission side terminal 21 in the reverse procedure of the multiplexing process, so that the original image encoded data D24 and audio encoded data D5 are obtained. The encoded image data D29 and the encoded audio data D30 are respectively separated, and the encoded audio data D30 is sent to the audio decoding circuit 12 and the motion image holding circuit 25 of the image synthesizing unit 27 and the encoded image data. D29 is sent to the image decoding circuit 14.
[0035]
Incidentally, the separation circuit 11 first separates the demodulated data D28 into the encoded image data D29 and the encoded audio data D30, and then the encoded image data D29 is not multiplexed with the demodulated data D28 thereafter. Therefore, only the audio encoded data D30 is sent to the audio decoding circuit 12 and the motion image holding circuit 25.
[0036]
The image decoding circuit 14 restores the original image data D31 for one frame corresponding to the image data D23 by decoding the image encoded data D29 sent only from the separation circuit 11 first, This is sent to the image data holding circuit 15 as still image storage means.
[0037]
The image data holding circuit 15 temporarily holds the reference image data D31 sent from the image decoding circuit 14 in an internal memory (not shown), and then sends it to the synthesis circuit 26 of the image synthesis unit 27. ing.
[0038]
The motion image holding circuit 25 as the motion image generation means stores, for example, motion image data D32 representing the motion of the mouth corresponding to the code pattern of the speech encoded data D30 as the word information sequentially sent from the separation circuit 11 in the internal memory. A plurality of motion image data D32 corresponding to the audio encoded data D30 is read out and sent to the synthesis circuit 26.
[0039]
Here, the speech encoded data D30 is data that has been subjected to digital compression encoding processing based on a model of the form of the mouth portion when a human utters speech. Therefore, the motion image holding circuit 25 stores, for example, a plurality of motion image data D32 representing the movement of the mouth corresponding to the code pattern of the audio encoded data D30 in the internal memory in advance, whereby the code pattern of the audio encoded data D30 is stored. The motion image data D32 corresponding to the above can be immediately read out and sent to the synthesizing circuit 26 as synthesizing means.
[0040]
The synthesis circuit 26 superimposes the motion image data D32 sequentially supplied from the motion image holding circuit 25 on the reference image data D31 supplied from the image data holding circuit 15, thereby combining the reference image data D31 with the reference face image. On the other hand, composite image data D33 in which only the mouth is moved is generated, and this is output as a display image via a display unit (not shown).
[0041]
The audio decoding circuit 12 restores the original audio data D34 by decoding the audio encoded data D30, converts this to analog, and then gives a timing to the display image output from the synthesis circuit 26 via the display unit. In addition, the sound is output from a speaker (not shown).
[0042]
In the above configuration, in the videophone system 20 according to the first embodiment, the image data D23 of the face image serving as a reference for one frame read from the image database 23 by the transmitting terminal 21 only at the beginning of communication. Are compressed and encoded and transmitted to the receiving side terminal 22, and the audio data D <b> 4 is also sequentially encoded and transmitted to the receiving side terminal 22.
[0043]
As a result, it is not necessary for the transmission side terminal 21 to compress and encode the user's own face image and transmit it to the reception side terminal 22 frame by frame, but the image of the face image stored in the image database 23 in advance The data D23 may be compressed and encoded only at the beginning of communication and transmitted to the receiving terminal 22, and the amount of data transmission can be significantly reduced.
[0044]
Further, the transmission side terminal 21 can simplify the circuit configuration to the extent that the moving image component extraction circuit 5 is not required as compared with the conventional transmission side terminal 2 (FIG. 6), and can also process complicated digital signal processing. Since the amount can be reduced, the power consumption can be further reduced.
[0045]
On the other hand, the receiving side terminal 22 demodulates and separates the received data D27, and then restores the image data D31 of the reference face image sent by the image decoding circuit 14 only at the beginning of communication. Then, the motion image holding circuit 25 reads out the motion image data D32 representing the motion of the mouth corresponding to the encoded audio data D30, and the motion image data D32 representing the motion of the mouth is superimposed on the image data D31 of the reference face image and synthesized. Thus, the composite image data D33 is generated and then output as a display image.
[0046]
At this time, the receiving-side terminal 22 restores the original audio data D34 by decoding the audio encoded data D30 by the audio decoding circuit 12, and after converting the analog audio data D34 to the display image synthesized by the synthesis circuit 26, Output as audio at the same timing.
[0047]
In this way, the receiving side terminal 22 displays a display image in which only the mouth portion of the character is moved according to the user's voice, so that the character seems to sing according to the voice of the user of the transmitting side terminal 21. An image effect can be brought about.
[0048]
Also at this time, the receiving side terminal 22 can simplify the circuit configuration to the extent that the moving image component decoding circuit 13 becomes unnecessary as compared with the conventional receiving side terminal 3 (FIG. 6), and also decodes the face image of the user Since the processing only needs to be performed once at the beginning, the processing amount of complicated digital signal processing can be reduced, and thus power consumption can be further reduced.
[0049]
According to the above configuration, in the videophone system 20 in the first embodiment, the transmission side terminal 21 compresses and encodes the audio data D4 and transmits it to the reception side terminal 22 and stores it in the image database 23 in advance. By compressing and encoding the image data D23 of its own face image only at the beginning of communication and transmitting it to the receiving terminal 22, the amount of data transmission is significantly reduced compared to the conventional transmitting terminal 2. In addition, the power consumption can be further reduced.
[0050]
In addition, the videophone system 20 uses the facial image data D31 obtained by decoding the encoded image data D29 sent only from the transmitting terminal 21 first by the receiving terminal 22 only once. Then, the moving image data D32 representing the movement of the mouth corresponding to the audio encoded data D30 is read and synthesized by the moving image holding circuit 25, so that the user of the transmission side terminal 21 sings like a moving image. Display images can be displayed.
[0051]
At this time, the receiving side terminal 22 only needs to perform the image decoding process once, and the digital signal corresponding to the amount that the moving image component decoding process by the moving image component decoding circuit 13 as in the conventional receiving side terminal 3 becomes unnecessary. The amount of processing can be significantly reduced and the power consumption can be further reduced, and thus a display image in which the mouth portion moves in accordance with the timing of the voice can be displayed in real time.
[0052]
(2) Second embodiment
In FIG. 2, in which parts corresponding to those in FIG. 1 are denoted by the same reference numerals, reference numeral 40 denotes a television telephone system according to the second embodiment as a whole, which includes a transmission side terminal 41 and a reception side terminal 42. . Incidentally, in the television telephone system 40, the transmission side terminal 41 may be the reception side, and the reception side terminal 42 may be the transmission side.
[0053]
The transmission side terminal 41 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice compression coding circuit 7. The audio compression encoding circuit 7 compresses and encodes the audio data D4 by a predetermined compression encoding method, and then sends this to the multiplexing circuit 6 as audio encoded data D5.
[0054]
Further, the transmission side terminal 41 reads the image identification information D42 corresponding to the image data of the facial image of the character, for example, stored in advance in the image database 42 only at the beginning of communication, and sends this to the multiplexing circuit 6 To do.
[0055]
The multiplexing circuit 6 multiplexes the image identification information D42 and the encoded audio data D5 and sends the multiplexed data D43 obtained as a result to the modulation circuit 8. Here, the multiplexing circuit 6 multiplexes the image identification information D42 and the audio encoded data D5 only when the image identification information D42 read from the image database 42 is supplied at the beginning of communication. However, since the image identification information D42 is not supplied thereafter, only the audio encoded data D5 is sent to the modulation circuit 8.
[0056]
The modulation circuit 8 sequentially modulates the multiplexed data D43 and the voice encoded data D5 supplied thereafter, and transmits this to the receiving terminal 42 via the communication path 9 as transmission data D44. Incidentally, the communication path 9 is not particularly limited to wired and wireless, and may be any one.
[0057]
The receiving side terminal 42 receives the transmission data D44 transmitted via the communication path 9 as reception data D45 and sends it to the demodulation circuit 10. The demodulation circuit 10 obtains demodulated data D46 by performing demodulation processing on the received data D45, and sends it to the separation circuit 11.
[0058]
In practice, the demodulation circuit 10 detects and corrects data errors occurring on the communication path 9 when demodulating the reception data D45 received via the communication path 9, but is omitted here for convenience of explanation.
[0059]
The separation circuit 11 separates the demodulated data D46 corresponding to the multiplexed data D43 of the transmission side terminal 41 in the reverse order of the multiplexing process, thereby obtaining the original image identification information D42 and the audio encoded data D5, respectively. The corresponding image identification information D47 and audio encoded data D48 are separated, and the audio encoded data D48 is sent to the audio decoding circuit 12 and the wire frame generation circuit 44 of the image synthesis unit 49, and the image identification information D47 is stationary. The image data is sent to an image database 43 as image storage means.
[0060]
Incidentally, since the separation circuit 11 first separates the demodulated data D46 into the image identification information D47 and the audio encoded data D48, the image identification information D47 is never multiplexed with the demodulated data D46 thereafter. Only the audio encoded data D48 is sent to the audio decoding circuit 12 and the wire frame generation circuit 44.
[0061]
The wire frame generation circuit 44 as a motion image generation means decodes, for example, the motion state of the mouth of the character's face image based on the speech encoded data D48 as the word information sequentially sent from the separation circuit 11, and the internal memory A wire frame having a motion corresponding to the decoding result is read from (not shown), and this is sent as wire frame data D50 corresponding to the motion image to the combining circuit 26 corresponding to the combining means.
[0062]
Here, the wire frame is a face image model generated by, for example, dividing a face portion of a character's face image into a plurality of points and connecting the plurality of points. Many points are placed around a certain eye or mouth.
[0063]
The image database 43 of the receiving terminal 42 stores image data having the same contents as the image database 42 of the transmitting terminal 43, and represents a character face image corresponding to the image identification information D47 supplied from the separation circuit 11. The image data D49 is read out and sent to the synthesis circuit 26.
[0064]
That is, the sending terminal 41 The image data D42 representing the character's face image read from the image database 42 and the image data D49 representing the character's face image read from the image database 43 of the receiving terminal 42 are data having the same contents. .
[0065]
Here, the image data D49 is also a wire frame, and the location of each point in the character's face portion matches each point of the wire frame data D50 generated by the wire frame generation circuit 44.
[0066]
The synthesizing circuit 26 synthesizes the wire frame data D50 with the wire frame image data D49 representing the character's face image supplied from the image database 43, and corrects the image distortion of the moving part according to the wire frame data D50. As a result, the composite image data D51 in which the mouth portion of the character moves according to the voice is generated, and this is output as a display image via a display unit (not shown).
[0067]
The audio decoding circuit 12 restores the original audio data D52 by decoding the audio encoded data D48, converts this to analog, and then gives a timing to the display image output from the synthesis circuit 26 via the display unit. In addition, the sound is output from a speaker (not shown).
[0068]
In the above configuration, in the videophone system 20, the transmission side terminal 41 reads the image identification information D42 indicating the image data of the character's face image from the image database 42 only at the beginning of communication and transmits it to the reception side terminal 42. The audio data D4 is also sequentially compression encoded and transmitted to the receiving terminal 42.
[0069]
As a result, the transmission side terminal 41 does not need to compress and transmit the user's own face image while photographing, and starts communication with the image identification information D42 indicating the character face image data stored in the image database 42 in advance. Since it is only necessary to transmit to the receiving side terminal 42 only at the beginning of the time, the data transmission amount can be further reduced compared to the transmitting side terminal 21 in the first embodiment in which only one image data D23 is transmitted.
[0070]
In addition, the transmission side terminal 41 can simplify the circuit configuration to the extent that the image compression coding circuit 4 and the motion image component extraction circuit 5 are not required, as compared with the conventional transmission side terminal 2 (FIG. 6). Since the processing amount of digital signal processing can be reduced, power consumption can be further reduced.
[0071]
On the other hand, the receiving terminal 42 demodulates and separates the received data D45, and then the image data representing the facial image of the character corresponding to the image identification information D47 sent from the image database 43 only at the beginning of communication. In addition to reading D49, the wire frame generation circuit 44 generates wire frame data D50 corresponding to the audio encoded data D48.
[0072]
Then, the receiving side terminal 42 corrects the image distortion of the moving part in the character's face image based on the wire frame data D50, thereby causing the mouth portion of the character to move in the same manner as the voice of the user of the transmitting side terminal 41. Data D51 is generated and output as a display image, and the audio decoded by the audio decoding circuit 12 is output from the speaker in synchronization with the display image.
[0073]
In this way, the receiving terminal 42 displays a display image in which the mouth portion of the character is moved in accordance with the user's voice, so that the image is as if the character is speaking in accordance with the user's voice of the transmitting terminal 41. Can have an effect.
[0074]
Also at this time, the receiving side terminal 42 does not require the moving image component decoding circuit 13 as compared with the conventional receiving side terminal 3 (FIG. 6), and the image of the receiving side terminal 22 in the first embodiment. The circuit configuration can be further simplified as much as the decoding circuit 14 is not required, and the processing amount of complicated digital signal processing can be further reduced, and thus power consumption can be further reduced.
[0075]
According to the above configuration, in the videophone system 40 according to the second embodiment, the transmission side terminal 41 compresses and encodes the audio data D4 and transmits the audio data D4 to the reception side terminal 42, and stores it in the image database 23 in advance. By transmitting the image identification information D42 of the image data of a certain character to the receiving terminal 42 only at the beginning of communication, the data transmission amount is further reduced compared with the transmitting terminal 21 in the first embodiment. In addition, power consumption can be further reduced.
[0076]
In addition, the videophone system 20 reads the character image data D49 based on the image identification information D42 sent from the transmission side terminal 41 only once from the transmission side terminal 41, and corresponds to the audio encoded data D48. By generating the wire frame data D50 and synthesizing it with the character image data D49, it is possible to generate a display image as if the character is speaking according to the voice of the user of the transmission side terminal 41.
[0077]
At this time, the receiving side terminal 42 further reduces the processing amount of the digital signal processing as compared with the receiving side terminal 42 in the first embodiment and further reduces power consumption by the amount that does not require any image decoding processing. Thus, it is possible to display in real time a display image in which the mouth portion moves in accordance with the audio timing.
[0078]
(3) Third embodiment
In FIG. 3, in which parts corresponding to those in FIG. 1 are denoted by the same reference numerals, 60 indicates a television telephone system according to the third embodiment as a whole, and is composed of a transmission side terminal 61 and a reception side terminal 62. .
[0079]
The transmission side terminal 61 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice compression coding circuit 7. The audio compression encoding circuit 7 compresses and encodes the audio data D4 by a predetermined compression encoding method, and then sends this to the modulation circuit 8 as audio encoding data D5 corresponding to word information.
[0080]
The modulation circuit 8 modulates the audio encoded data D5 sequentially supplied from the audio compression encoding circuit 7, and transmits this to the receiving terminal 62 via the communication path 9 as transmission data D61.
[0081]
The transmission side terminal 61 in this case has a circuit configuration similar to that of a normal mobile phone, and does not have to be a transmission side terminal specific to a camera-equipped mobile phone or the television phone system 60, and is similar to a general mobile phone. The communication path 9 is not particularly limited to wired and wireless, and any of them may be used.
[0082]
The reception side terminal 62 receives the transmission data D61 transmitted via the communication path 9 as reception data D62 and sends it to the demodulation circuit 10. The demodulation circuit 10 performs demodulation processing on the reception data D62 to obtain audio encoded data D63 corresponding to the audio encoded data D5 of the transmission side terminal 21, which is obtained as the audio decoding circuit 12 and the image synthesis unit 69. To the wire frame generation circuit 63.
[0083]
The wire frame generation circuit 63 as a motion image generation means decodes, for example, the motion state of the mouth of the character's face image based on the speech encoded data D63 as the word information sequentially sent from the demodulation circuit 10 to detect the motion. A certain wire frame is generated, and this is sent as wire frame data D64 corresponding to the motion image to the combining circuit 64 corresponding to the combining means.
[0084]
Here, the wire frame is a face image model generated by, for example, dividing a face portion of a character's face image into a plurality of points and connecting the plurality of points. Many points are placed around a certain eye or mouth.
[0085]
On the other hand, the image database 65 as a still image storage means reads out image data D65 representing a face image of a predetermined character determined in advance and sends it to the synthesis circuit 64. Here, the image data D65 is also a wire frame, and the location of each point on the character's face coincides with each point of the wire frame data D64 generated by the wire frame generation circuit 63.
[0086]
The synthesizing circuit 64 receives the supply of the wire frame data D64 from the wire frame generation circuit 63, and at the same time, receives the supply of image data D65 representing a predetermined character face image from the image database 65, and the image data D65. Is combined with the wire frame data D64, and the image distortion of the moving portion is corrected according to the wire frame data D64, thereby generating the combined image data D66 such that the mouth portion of the character moves in accordance with the voice, This is output as a display image via a display unit (not shown).
[0087]
The audio decoding circuit 12 restores the original audio data D67 by decoding the audio encoded data D63, converts it into an analog signal, and then performs a timing on the display image output from the image synthesis circuit 64 via the display unit. Are output as sound from a speaker (not shown).
[0088]
In the above configuration, in the videophone system 60, it is not necessary for the transmission side terminal 61 to transmit image data, and only normal audio data D4 is sequentially compressed and encoded and transmitted to the reception side terminal 62. The data transmission amount can be reduced as compared with the transmission side terminals 21 and 41 in the first and second embodiments, and at the same time, the data transmission amount can be suppressed to be equivalent to that of a general mobile phone that performs only normal voice calls. .
[0089]
On the other hand, the receiving side terminal 62 reads the character image data D65 stored in the image database 65 in advance, and synthesizes the wire frame data D64 representing the movement state of the mouth based on the voice encoded data D63 into the image data D65. By doing so, it is possible to generate the composite image data D66 in which the mouth portion of the character moves according to the voice, and output this as a display image.
[0090]
As described above, the receiving side terminal 62 can further simplify the circuit configuration by the amount that does not require the separation circuit 11 and the amount that does not require the image decoding process, unlike the receiving side terminal 42 in the second embodiment. Since the processing amount of complicated digital signal processing can be further reduced, the power consumption can be further reduced.
[0091]
Further, in the television telephone system 60, it is not always necessary to use the transmission side terminal 61 and the reception side terminal 62 as one set, and even if a general mobile phone equivalent to the transmission side terminal 61 is used, audio from the mobile phone If only the data can be received, the receiving terminal 62 can display a display image in which the mouth portion is moved in accordance with the voice based on the face image of the character, and the usability for the user can be further improved.
[0092]
According to the above configuration, the videophone system 60 according to the third embodiment is a wire frame that represents the movement state of the mouth portion based on the audio encoded data D63 received by the receiving terminal 62 from the transmitting terminal 61. Data D64 is generated, and this is combined with character image data D65 previously stored in the image database 65 to generate composite image data D66, which is output as a display image. It is possible to bring about an image effect that the mouth portion of the character moves in accordance with the voice only from the voice data without having the data transmitted.
[0093]
Further, the receiving side terminal 62 can simplify the circuit configuration and reduce the processing amount of the digital signal processing as compared with the receiving side terminals 21 and 42 in the first and second embodiments. Thus, a display image in which the mouth portion moves in accordance with the audio timing can be displayed in real time.
[0094]
(4) Fourth embodiment
In FIG. 4, in which parts corresponding to those in FIG. 6 are assigned the same reference numerals, 80 denotes a television telephone system according to the fourth embodiment as a whole, which is composed of a transmitting terminal 81 and a receiving terminal 82. . Incidentally, in the television telephone system 80, the transmission side terminal 81 may be the reception side, and the reception side terminal 82 may be the transmission side.
[0095]
The transmission side terminal 81 sends the voice data D4 of the user digitally converted after being collected by a microphone (not shown) to the voice compression coding circuit 7. The audio compression encoding circuit 7 compresses and encodes the audio data D4 by a predetermined compression encoding method, and then sends this to the multiplexing circuit 6 and the motion image component extraction circuit 83 as audio encoding data D5.
[0096]
Further, the transmission side terminal 81 sequentially sends the image data D1 digitally converted after the user's face is imaged by an imaging means (not shown) to the image compression coding circuit 4 and the motion image component extraction circuit 83.
[0097]
Here, after sending the image data D1 serving as a reference for one frame to the image compression encoding circuit 4 at the beginning of communication, the transmission side terminal 81 transmits the image data D1 of the next frame and thereafter to the image compression encoding circuit. However, the image data D1 is transmitted only to the motion image component extraction circuit 83.
[0098]
The image compression encoding circuit 4 divides the face portion in the image data D1 into a plurality of points, and generates a reference face image model called a wire frame by connecting the plurality of points. By the way, the wire frame has many points arranged in the face part and the mouth part which are particularly moving in the face.
[0099]
Then, the image compression encoding circuit 4 generates image encoded data D2 by compressing and encoding the wire frame image data D1 by a predetermined method, and sends this to the multiplexing circuit 6.
[0100]
The motion image component extraction circuit 83 also generates a reference face image model called a wire frame, and removes the mouth portion of the wire frame only while the audio encoded data D5 is supplied from the audio compression encoding circuit 7, for example, the eyes The motion image component data D83 is obtained by using each point of the portion as an analysis parameter, extracting the temporal change of the analysis parameter (that is, the difference between the previous frame and the current frame) as a motion image component of the wire frame, and then compressing and encoding it. Is transmitted to the multiplexing circuit 6.
[0101]
That is, the motion image component extraction circuit 83 considers the correlation with the audio encoded data D5 supplied from the audio compression encoding circuit 7 and considers that the facial expression changes when the audio is output, The motion image component data D83 relating to the eye portion while it is being generated is generated.
[0102]
The multiplexing circuit 6 multiplexes the audio encoded data D5, the image encoded data D2, and the motion image component data D83, and sends the multiplexed data D84 obtained as a result to the modulation circuit 8.
[0103]
Here, only when image encoded data D2 for one frame is supplied from the image compression encoding circuit 4 at the beginning of communication, the multiplexing circuit 6 performs the image encoded data D2, the audio encoded data D5, and Although the motion image component data D83 is multiplexed, the encoded image data D2 is not supplied thereafter, so that only the audio encoded data D5 and the motion image component data D83 are multiplexed.
[0104]
The modulation circuit 8 modulates the multiplexed data D84 by a predetermined modulation method for transmission via the communication path 9, and transmits this to the reception side terminal 82 via the communication path 9 as transmission data D85. Incidentally, the communication path 9 is not particularly limited to wired and wireless, and may be any one.
[0105]
The receiving side terminal 82 receives the transmission data D85 transmitted via the communication path 9 as the reception data D86 and sends it to the demodulation circuit 10. The demodulating circuit 10 performs demodulation processing on the received data D86 to obtain demodulated data D87 and sends it to the separating circuit 11.
[0106]
In practice, the demodulation circuit 10 detects and corrects data errors occurring on the communication path 9 when demodulating the received data D86 received via the communication path 9, but is omitted here for convenience of explanation.
[0107]
The demultiplexing circuit 11 demultiplexes the demodulated data D87 corresponding to the multiplexed data D84 of the transmission side terminal 81 in the reverse procedure of the multiplexing process, whereby the original audio encoded data D5, the image encoded data D2, and the motion The audio encoded data D88, the image encoded data D89, and the motion image component data D90 respectively corresponding to the image component data D83 are separated into the audio encoded data D88 and the wire frame generating circuit of the image synthesizing unit 89. 85, the moving image component data D90 is transmitted to the moving image component decoding circuit 84, and the encoded image data D89 is transmitted to the image decoding circuit 14.
[0108]
Incidentally, the separation circuit 11 first separates the demodulated data D87 into the audio encoded data D88, the image encoded data D89, and the motion image component data D90, and then the image encoded data D89 is multiplexed with the demodulated data D87 thereafter. Therefore, the encoded image data D89 is not sent to the image decoding circuit 14.
[0109]
The image decoding circuit 14 restores the reference image data D16 corresponding to the original face image formed into a wire frame by decoding the image encoded data D89 sent only from the separation circuit 11 for the first time. Is sent to the image data holding circuit 15.
[0110]
The image data holding circuit 15 temporarily holds the reference image data D16 sent from the image decoding circuit 14 in an internal memory (not shown), and then sends it to the synthesis circuit 86 of the image synthesis unit 89. ing.
[0111]
The motion image component decoding circuit 84 restores the motion image component data corresponding to the original motion image component data D83 by decoding the motion image component data D90 continuously sent from the separation circuit 11, and then A wire frame having a motion is generated based on the motion image component data, and this is sent to the synthesis circuit 86 as wire frame data D91 corresponding to the motion component image. In this case, the wire frame data D91 is data representing the movement of the eye portion in the face image of the user.
[0112]
The wire frame generation circuit 85 as the motion image generation means decodes the motion state of, for example, the mouth portion of the face image based on the voice encoded data D88 as the word information continuously sent from the separation circuit 11 and moves. Is generated, and is transmitted as wire frame data D92 corresponding to the motion image to the combining circuit 86 corresponding to the combining means.
[0113]
Here, the wire frame image data D16 decoded by the image decoding circuit 14, the wire frame data D91 representing the movement of the eye part generated by the motion image component decoding circuit 84, and the wire frame generation circuit 85 are generated. The wire frame data D92 representing the movement of the mouth portion is the same as the location of each point in the face portion.
[0114]
The synthesizing circuit 86 uses the wire image data D91 of the eye portion supplied from the motion image component extraction circuit 84 and the wire frame for the image data D16 of the face image of the transmitting terminal 81 supplied from the image data holding circuit 15. By synthesizing the wire frame data D92 of the mouth portion supplied from the generating circuit 85 and correcting the image distortion of the moving portion according to the wire frame data D91 and D92, the eye portion and the mouth portion are matched to the sound. The moving composite image data D93 is generated and output as a display image via a display unit (not shown).
[0115]
The audio decoding circuit 12 restores the original audio data D17 by decoding the audio encoded data D88, converts this to analog, and then outputs a timing to the display image output from the image synthesis circuit 86 via the display unit. Are output as sound from a speaker (not shown).
[0116]
In the above configuration, in the videophone system 80, the transmission side terminal 81 generates image encoded data D2 by compressing and encoding the image data D1 representing the user's face image for one frame at the beginning of communication. Then, the audio data D4 of the user is sequentially compression-encoded to generate audio encoded data D5 and output to the multiplexing circuit 6.
[0117]
At this time, since it is considered that the transmitting terminal 81 generally changes the facial expression when a voice is emitted, it extracts the motion image component data D83 relating to the eye part while the voice is being emitted. And sent to the multiplexing circuit 6.
[0118]
Then, the transmission side terminal 81 multiplexes the image encoded data D2, the audio encoded data D5, and the motion image component data D83 only at the beginning of communication by the multiplexing circuit 6, and after performing modulation processing and transmitting, The encoded data D5 and the motion image component data D83 are multiplexed, modulated and transmitted.
[0119]
In this way, the transmitting-side terminal 81 extracts the motion image component data D83 relating to the eye portion other than the mouth portion while the sound is being emitted, thereby moving image component data D83 for reproducing the motion of the eye portion. And the speech encoded data D5 for reproducing the movement of the mouth portion.
[0120]
As a result, the transmitting-side terminal 81 wastefully overlaps the image data D1 of the face image for one frame serving as a reference, the motion image component data D83 related to the eye portion, and the audio encoded data D5 related to the mouth portion as data. Therefore, the data can be transmitted as the minimum necessary amount of data, respectively, and thus the data transmission amount can be remarkably reduced and the power consumption can be further reduced as compared with the conventional transmission side terminal 2 (FIG. 6). .
[0121]
On the other hand, the receiving side terminal 82 restores the image data D16 of the reference face image sent only at the beginning of communication, and then moves the movement of the mouth portion generated based on the audio encoded data D88. The wire frame data D92 to be represented and the wire frame data D91 generated based on the motion image component data D90 are superimposed on the image data D16 of the face image and synthesized, and the image distortion of the motion portion is determined according to the wire frame data D91 and D92. By correcting the minutes, motion image data D93 in which the eye portion and the mouth portion move according to the sound is generated and output as a display image.
[0122]
As a result, the receiving terminal 82 not only displays a display image as if the mouth of the face image is moving in accordance with the voice of the user of the transmitting terminal 81 but also displays the movement of the eye part at that time. As a result, a face image rich in expression can be displayed as a display image.
[0123]
At this time, the receiving-side terminal 82 is associated with image data D1 of the face image for one frame serving as a reference, motion image component data D83 related to the eye portion, and speech encoded data D5 related to the mouth portion, respectively. Since the display image can be generated with the minimum necessary data processing amount, the data processing amount can be greatly reduced as compared with the conventional receiving side terminal 3 (FIG. 6), thus further reducing the power consumption. can do.
[0124]
According to the above configuration, the videophone system 80 according to the fourth embodiment includes the face image image data D1 for one frame on which the transmission side terminal 81 is a reference, and the motion image component data D83 relating to the eye portion. The speech encoded data D5 related to the mouth portion can be associated with each other without wastefully overlapping each other, and can be transmitted as the minimum necessary amount of data, respectively. Thus, data transmission can be performed as compared with the conventional transmission side terminal 2. The amount can be remarkably reduced and the power consumption can be further reduced.
[0125]
In addition, the videophone system 80 requires image data D1 of a face image for one frame on which the receiving terminal 82 serves as a reference, motion image component data D83 relating to the eye portion, and voice encoded data D5 relating to the mouth portion. Since a display image can be generated with a minimum amount of data processing, the amount of data processing can be significantly reduced as compared with the conventional receiving side terminal 3, and thus power consumption can be further reduced.
[0126]
At this time, the receiving-side terminal 82 can move and display the mouth portion and the eye portion in accordance with the voice with respect to the reference face image, so that it is possible to provide an expression-rich and higher-dimensional display image in real time. it can.
[0127]
(5) Other embodiments
In the first embodiment described above, the receiving side terminal 22 reads out the motion image data D32 representing the movement of the mouth portion corresponding to the speech encoded data D32 by the motion image holding circuit 25, and the combining circuit 26 reads the reference image. Although the case of synthesizing with the image data D31 has been described, the present invention is not limited to this, and a speech recognition circuit is provided at the subsequent stage of the speech decoding circuit 12 to recognize speech, and the recognition result is converted into text. The corresponding motion image data D32 is read from the motion image holding circuit 25, or the recognition result is converted into phonetic symbols, and the corresponding motion image data D32 is read from the motion image holding circuit 25, and these are combined with the reference image data D31. May be.
[0128]
Further, in the above-described first embodiment, the case where the transmission side terminal 21 compresses and encodes the image data D23 representing the user's face image and transmits the image data D23 to the reception side terminal 22 has been described. However, the present invention is not limited thereto, and the image data D23 representing the character's face may be compressed and transmitted.
[0129]
Furthermore, in the first embodiment described above, the receiving side terminal 22 reads out the motion image data D32 representing the movement of the mouth portion corresponding to the speech encoded data D32 by the motion image holding circuit 25, and the combining circuit 26 reads the reference image. Although the case of combining with the image data D31 has been described, the present invention is not limited to this, and the transmitting-side terminal 21 designates motion image data representing the movement of the mouth portion corresponding to the audio encoded data D32, and By transmitting the moving image identification information corresponding to the designated moving image data to the receiving side terminal 22, the receiving side terminal 22 reads out the moving image data corresponding to the moving image identification information and combines it with the reference image data. Anyway.
[0130]
In this case, in FIG. 5 in which the same reference numerals are assigned to corresponding parts to FIG. 1, the receiving side terminal 22 of the television telephone system 100 receives the audio encoded data D5 compression encoded by the audio compression encoding circuit 7. The data is sent to the multiplexing circuit 6 and the motion image database 101. The motion image database 101 recognizes motion image data representing the motion of the mouth portion according to the audio encoded data D5, and sends motion image identification information D101 corresponding to the recognized motion image data to the multiplexing circuit 6.
[0131]
The multiplexing circuit 6 multiplexes the image encoded data D24, the audio encoded data D5, and the motion image identification information D101, and sends the resulting multiplexed data D102 to the modulation circuit 8. Also in this case, the multiplexing circuit 6 can only perform the encoded image data D24 and the encoded audio data D5 when the encoded image data D24 for one frame is supplied from the compressed image encoding circuit 24 at the beginning of communication. However, since the encoded image data D24 is not supplied thereafter, the multiplexing obtained by multiplexing the audio encoded data D5 and the motion image identification information D101 is multiplexed. The digitized data D102 is sent to the modulation circuit 8. The modulation circuit 8 sequentially modulates the multiplexed data D102, and transmits this to the reception side terminal 22 via the communication path 9 as transmission data D103.
[0132]
The reception side terminal 22 receives the transmission data D103 transmitted via the communication path 9 as reception data D104 and sends it to the demodulation circuit 10. The demodulation circuit 10 obtains demodulated data D105 by performing demodulation processing on the received data D104, and sends this to the separation circuit 11. The separation circuit 11 performs a separation process on the demodulated data D105 so that the original encoded image data D24, the encoded audio data D5, and the encoded image data D29, the encoded audio data D30, and the encoded moving image identification information D101, respectively. Separated into motion image identification information D106, audio encoded data D30 is transmitted to the audio decoding circuit 12, image encoded data D29 is transmitted to the image decoding circuit 14, and the motion image identification information D106 is transmitted to the image synthesizing unit 102. To the motion image database 103.
[0133]
The moving image database 103 stores the same moving image data as the moving image database 101 provided in the transmission-side terminal 21, reads out the moving image data D107 corresponding to the moving image identification information D106, and sends it to the synthesis circuit 26. Send it out. The synthesizing circuit 26 superimposes the motion image data D107 sequentially supplied from the motion image database 103 on the reference image data D31 supplied from the image data holding circuit 15 to synthesize the reference face image. Then, composite image data D108 in which only the mouth portion is moved is generated, and this is output as a display image via a display unit.
[0134]
Furthermore, in the second embodiment described above, a case has been described in which the transmitting terminal 41 transmits image identification information D42 corresponding to image data representing a character's face image to the receiving terminal 42. The invention is not limited to this, and image identification information D42 corresponding to image data representing the face image of the user. The You may make it transmit to the receiving side terminal 42. FIG.
[0135]
Further, in the second to fourth embodiments described above, the reception side terminal 42 uses the wire frame generation circuits 44, 63 and 85, and wire frame data D50, D64 and D92 representing the movement of the mouth portion corresponding to the voice. Has been described, and this is combined with the reference image data D49, D65, and D16. However, the present invention is not limited to this, and the first embodiment is not limited to the wire frame generation circuits 44, 63, and 85. The moving image data representing the movement of the mouth portion corresponding to the audio encoded data D30 is read out using the moving image holding circuit 25 such as the transmitting-side terminal 21 in the embodiment, and the image data D49 and D65 serving as the reference are read out. And D16, or by providing a speech recognition circuit downstream of the speech decoding circuit 12, the speech is recognized and recognized. The result is converted into text and the corresponding motion image data D32 is read out from the motion image holding circuit 25, or the recognition result is converted into phonetic symbols and the corresponding audio image data D32 is read out from the image holding circuit 25. These are used as reference image data D49. , D65 and D16 may be combined.
[0136]
Furthermore, in the above-described first to fourth embodiments, the movement of the mouth portion is decoded based on the word information corresponding to the speech encoded data received from the transmitting side terminals 21, 41, 61 and 81, and accordingly However, the present invention is not limited to this, and a display image in which the mouth portion moves is displayed based on word information corresponding to text data, phonetic symbols, and the like. You may do it.
[0137]
Furthermore, in the above-described first to fourth embodiments, the movement of the mouth portion is decoded based on the speech encoded data as the word information received from the transmitting side terminals 21, 41, 61 and 81, and accordingly Although the case where the movement is displayed as the display image has been described, the present invention is not limited to this. For example, between the base station and the receiving side terminals 22, 42, 62 and 82, the receiving side terminals 22, 42 are provided. 62 and 82 may decode the movement of the mouth portion based on the word information corresponding to the speech encoded data received from the base station, and display a display image in which the mouth portion moves accordingly.
[0138]
【The invention's effect】
As described above, according to the present invention, on the transmission side, the user's voice data, the face image model for one frame, Considering the correlation that facial expression changes when the user's voice is emitted, Audio data Only while sending to the receiver Each point of eye area of face image model As an analysis parameter Change over time Showing of the above wireframe The motion image component data is transmitted, and on the receiving side, the eye partial motion image data is generated based on the motion image component data, the mouth partial motion image data is generated based on the audio data, and then synthesized with the face image model. By reducing the amount of data transmitted from the transmitting device to the receiving device, the distance between the eye portion and the mouth portion is reduced. As facial expression An expression-rich face image in a correlated state can be displayed, thus realizing an image transmission system capable of executing real-time processing with a simple configuration and low power consumption.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a television telephone system according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a television telephone system according to a second embodiment of the present invention.
FIG. 3 is a block diagram showing a configuration of a television telephone system according to a third embodiment of the present invention.
FIG. 4 is a block diagram showing a configuration of a television telephone system according to a fourth embodiment of the present invention.
FIG. 5 is a block diagram showing a configuration of a videophone system according to another embodiment.
FIG. 6 is a block diagram showing a configuration of a conventional television telephone system.
[Explanation of symbols]
1, 20, 40, 60, 80, 100... TV telephone system, 2, 21, 41, 61, 81... Transmitting terminal, 3, 22, 42, 62, 82. 24... Image compression encoding circuit, 5, 83... Motion image component extraction circuit, 6... Multiplexing circuit, 7. ... demodulation circuit, 11 ... separation circuit, 12 ... sound decoding circuit, 13, 84 ... moving image component decoding circuit, 14 ... image decoding circuit, 15 ... image data holding circuit, 16, 26, 64, 86... Composition circuit, 25... Motion image holding circuit, 23, 42, 43, 65... Image database, 44, 63, 85.

Claims (1)

送信装置及び受信装置によって構成される画像伝送システムにおいて、
上記送信装置は、
マイクロフォンによって集音したユーザの音声データを上記受信装置へ送信する音声データ送信手段と、
上記ユーザの顔を撮影することにより得られた基準となる1フレーム分の顔画像データを複数のポイントに分割して結ぶことによりワイヤフレームでなる顔画像モデルを生成し、これを上記受信装置へ送信する顔画像モデル送信手段と、
上記ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、上記音声データを上記受信装置へ送信している間だけ、上記顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を上記ワイヤフレームの動き画像成分データとして抽出し、これを上記受信装置へ送信する動き画像成分データ送信手段と
を具え、
上記受信装置は、
上記顔画像モデルを保持する顔画像モデル保持手段と、
上記動き画像成分データに基づいて上記顔画像モデルの上記目元部分について動きのある目元部分動き画像データを生成する目元部分動き画像データ生成手段と、
上記音声データに基づいて上記顔画像モデルの口元部分の動き状態を解読することにより口元部分動き画像データを生成する口元部分動き画像データ生成手段と、
上記顔画像モデルに対して、上記目元部分動き画像データ及び上記口元部分動き画像データを合成することにより合成画像を生成する合成手段と、
上記合成画像を表示する表示手段と
を具える画像伝送システム。
In an image transmission system including a transmission device and a reception device,
The transmitter is
Voice data transmitting means for transmitting user voice data collected by a microphone to the receiving device;
A face image model of a wire frame is generated by dividing the face image data for one frame obtained by photographing the user's face into a plurality of points and connecting it to the receiving device. A face image model transmitting means for transmitting;
Considering the correlation that facial expression changes when the user's voice is emitted , each point in the eye portion of the face image model is analyzed only while the voice data is being transmitted to the receiving device. It is used as a parameter, and its temporal change is extracted as motion image component data of the wire frame, and includes a motion image component data transmitting means for transmitting this to the receiving device,
The receiving device is
Face image model holding means for holding the face image model;
Eye part motion image data generating means for generating eye part motion image data with movement for the eye part of the face image model based on the motion image component data;
Mouth portion motion image data generating means for generating mouth portion motion image data by decoding the motion state of the mouth portion of the face image model based on the audio data;
A synthesizing unit that generates a synthesized image by synthesizing the eye partial motion image data and the mouth partial motion image data with respect to the face image model;
An image transmission system comprising: display means for displaying the composite image.
JP2000192965A 2000-06-27 2000-06-27 Image transmission system Expired - Fee Related JP4437514B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000192965A JP4437514B2 (en) 2000-06-27 2000-06-27 Image transmission system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000192965A JP4437514B2 (en) 2000-06-27 2000-06-27 Image transmission system

Publications (2)

Publication Number Publication Date
JP2002008051A JP2002008051A (en) 2002-01-11
JP4437514B2 true JP4437514B2 (en) 2010-03-24

Family

ID=18692032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000192965A Expired - Fee Related JP4437514B2 (en) 2000-06-27 2000-06-27 Image transmission system

Country Status (1)

Country Link
JP (1) JP4437514B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220329743A1 (en) * 2019-08-20 2022-10-13 Sony Interactive Entertainment Inc. Transfer control device, image processing device, transfer control method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967834A (en) * 2015-07-29 2015-10-07 南阳理工学院 Computer image processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220329743A1 (en) * 2019-08-20 2022-10-13 Sony Interactive Entertainment Inc. Transfer control device, image processing device, transfer control method, and program
US11910110B2 (en) * 2019-08-20 2024-02-20 Sony Interactive Entertainment Inc. Transfer control device, image processing device, transfer control method, and program

Also Published As

Publication number Publication date
JP2002008051A (en) 2002-01-11

Similar Documents

Publication Publication Date Title
JP4842033B2 (en) Image display apparatus and method for portable terminal
US7859561B2 (en) Method and system for video conference
KR100827802B1 (en) Video telephony apparatus of potable device and transmit-receiving method thereof
JP2004533666A (en) Communications system
KR20080043492A (en) Portable terminal having image overlay function and method for image overlaying in portable terminal
JP2006262484A (en) Method and apparatus for composing images during video communication
JP2004304601A (en) Tv phone and its data transmitting/receiving method
CN1777284A (en) Image encoding method, image decoding method, and apparatus thereof
US20040227811A1 (en) Communication apparatus and method
JPH1013799A (en) Video telephone set
JP4437514B2 (en) Image transmission system
JP2003152888A (en) Mobile phone with video function and automatic answering message function
JP2000092460A (en) Device and method for subtitle-voice data translation
KR100678035B1 (en) Device and method for identifying photographer of image in terminal using camera
KR101232537B1 (en) Video communication terminal and video method communicating in video communication terminal
JP2003309829A (en) Mobile moving picture phone
JP2003061098A (en) Image processor, image processing method, recording medium and program
US20040208481A1 (en) Apparatus and method for image processing, and image processing system using the same and program
JP3062080U (en) Telephone with screen
KR100769672B1 (en) Mobile communication terminal having the function of video communication
JP2005173772A (en) Image communication system and image formation method
JP2006217187A (en) Telephone system and its telephone call method, telephone terminal, telephone system control program, and recording medium with same program recorded thereon
KR20000009754A (en) Intelligent image telephone and data processing method applied to the same
KR20090097319A (en) Method for performing a video telephony using substitution picture in a portable terminal and a apparatus thereof
JPS6284689A (en) Picture transmission and display system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070307

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090716

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091223

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees