JP4437514B2 - Image transmission system - Google Patents
Image transmission system Download PDFInfo
- Publication number
- JP4437514B2 JP4437514B2 JP2000192965A JP2000192965A JP4437514B2 JP 4437514 B2 JP4437514 B2 JP 4437514B2 JP 2000192965 A JP2000192965 A JP 2000192965A JP 2000192965 A JP2000192965 A JP 2000192965A JP 4437514 B2 JP4437514 B2 JP 4437514B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- circuit
- motion
- side terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Editing Of Facsimile Originals (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Processing Or Creating Images (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は画像伝送システムに関し、例えばユーザ間で音声と共に画像の送受信を行なうテレビジョン電話システムに適用して好適なものである。
【0002】
【従来の技術】
従来、図6に示すようにテレビジョン電話システム1は、送信側端末2と受信側端末3とによって構成されている。この送信側端末2は、撮像手段(図示せず)によってユーザの顔を撮像した後にディジタル変換した画像データD1を1フレーム分ずつ画像圧縮符号化回路4及び動き画像成分抽出回路5に順次送出する。
【0003】
画像圧縮符号化回路4は、画像データD1を所定の方式で圧縮符号化することにより画像符号化データD2を生成し、これを多重化回路6に送出する。
【0004】
動き画像成分抽出回路5は、まず画像データD1における顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことによりワイヤフレームと呼ばれる基準の顔画像モデルを生成する。因みにワイヤフレームは、顔の中で特に動きのある目元や口元にポイントが数多く配置されている
【0005】
そして動き画像成分抽出回路5は、ワイヤフレームの各ポイントを分析パラメータとして用い、当該分析パラメータの時間的変化(すなわち前フレームと現フレームとの差分)をワイヤフレームの動き画像成分として抽出した後に圧縮符号化することにより例えば口元部分の動きを表す動き画像成分データD3を生成し、これを多重化回路6に送出する。
【0006】
また送信側端末2は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを音声符号化データD5として多重化回路6に送出する。
【0007】
多重化回路6は、画像符号化データD2、動き画像成分データD3及び音声符号化データD5を多重化処理し、その結果得られる多重化データD6を変調回路8に送出する。
【0008】
変調回路8は、通信路9を介して送信するための所定の変調方式で多重化データD6を変調処理した後、これを送信データD7として通信路9を介して受信側端末3へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0009】
すなわち通信路9が無線通信路であるときには、送信側端末2及び受信側端末3として例えばカメラ付携帯電話機を用いたテレビジョン電話システム1であることを想定し、通信路9が有線通信路であるときには、送信側端末2及び受信側端末3として例えば家庭に設置されるカメラ付電話機を用いたテレビジョン電話システム1であることを想定している。
【0010】
受信側端末3は、通信路9を介して送信されてきた送信データD7を受信データD8として受信して復調回路10に送出する。復調回路10は、受信データD8に対して復調処理を施すことにより復調データD9を得、これを分離回路11に送出する。
【0011】
なお実際上、復調回路10は通信路9を介して受信した受信データD8を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0012】
分離回路11は、送信側端末2の多重化データD6に相当する復調データD9を多重化処理の逆の手順で分離処理することにより、元の画像符号化データD2、動き画像成分データD3及び音声符号化データD5にそれぞれ相当する画像符号化データD12、動き画像成分データD13及び音声符号化データD15に分離し、音声符号化データD15を音声復号化回路12に送出し、動き画像成分データD13を動き画像成分復号化回路13に送出すると共に、画像符号化データD12を画像復号化回路14に送出する。
【0013】
画像復号化回路14は、分離回路11から順次送られてくる画像符号化データD12を復号することにより元の顔画像を表す基準の画像データD16を1フレーム分ずつ復元し、これらを順次画像データ保持回路15に送出する。
【0014】
画像データ保持回路15は、画像復号化回路14から送られてきた画像データD16を内部メモリ(図示せず)に順次保持した後、合成回路16に送出するようになされている。
【0015】
動き画像成分復号化回路13は、分離回路11から連続的に送られてくる動き画像成分データD13を復号することにより元の動き画像成分データD3に相当する動き画像成分データを復元した後、当該動き画像成分データに基づいて動きのあるワイヤフレームを生成し、これをワイヤフレームデータD18として合成回路16に送出する。
【0016】
合成回路16は、動き画像成分復号化回路13から供給されたワイヤフレームデータD18と、画像データ保持回路15から順次供給された基準の画像データD16とを合成することにより、顔画像の口元が音声に合わせて動くような合成画像データD19を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0017】
音声復号化回路12は、音声符号化データD15を復号することにより元の音声データD4に相当する音声データD17を復元し、これをアナログ変換した後に、合成回路16から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0018】
【発明が解決しようとする課題】
ところでかかる構成のテレビジョン電話システム1においては、送信側端末2が1フレーム分ずつ画像データD1及びその動き画像成分について圧縮符号化して受信側端末3へ順次送信する必要があると共に、ユーザの音声データD4についても画像データD1及びその動き画像成分とは別個に圧縮符号化して受信側端末3へ送信する必要があり、非常に多くのデータ伝送量を要すると共に多大な伝送時間を要してリアルタイムな処理を実行し得ないという問題があった。
【0019】
またテレビジョン電話システム1においては、画像データD1及びその動き画像成分の圧縮符号化処理、音声データD4の圧縮符号化処理を要すると共に、それに対応する復号処理を要することにより高速かつ大量のディジタル処理が必要であり、それに伴って送信側端末2及び受信側端末3の構成が複雑になると共に多大な消費電力を要するという問題があった。
【0020】
本発明は以上の点を考慮してなされたもので、簡易な構成及び低消費電力でリアルタイムな処理を実行し得る画像伝送システムを提案しようとするものである。
【0021】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、送信装置及び受信装置によって構成される画像伝送システムにおいて、送信装置は、マイクロフォンによって集音したユーザの音声データを受信装置へ送信する音声データ送信手段と、ユーザの顔を撮影することにより得られた基準となる1フレーム分の顔画像データを複数のポイントに分割して結ぶことによりワイヤフレームでなる顔画像モデルを生成し、これを受信装置へ送信する顔画像モデル送信手段と、ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、音声データを受信装置へ送信している間だけ、顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を上記ワイヤフレームの動き画像成分データとして抽出し、これを受信装置へ送信する動き画像成分データ送信手段とを具え、受信装置は、顔画像モデルを保持する顔画像モデル保持手段と、動き画像成分データに基づいて顔画像モデルの目元部分について動きのある目元部分動き画像データを生成する目元部分動き画像データ生成手段と、音声データに基づいて顔画像モデルの口元部分の動き状態を解読することにより口元部分動き画像データを生成する口元部分動き画像データ生成手段と、顔画像モデルに対して、目元部分動き画像データ及び口元部分動き画像データを合成することにより合成画像を生成する合成手段と、合成画像を表示する表示手段とを具えるようにする。
【0022】
これにより、送信側ではユーザの音声データと、1フレーム分の顔画像モデルと、ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、音声データを受信装置へ送信している間だけ顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を示す上記ワイヤフレームの動き画像成分データとを送信し、受信側では、動き画像成分データに基づいて目元部分動き画像データを生成し、音声データに基づいて口元部分動き画像データを生成した後、顔画像モデルと合成することにより、送信装置から受信装置へのデータ伝送量を低減しつつ、目元部分と口元部分との間に表情として相関関係を持たせた状態の表情豊かな顔画像を表示することができる。
【0025】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【0026】
(1)第1の実施の形態
図6との対応部分に同一符号を付して示す図1において、20は全体として第1の実施の形態におけるテレビジョン電話システムを示し、送信側端末21及び受信側端末22によって構成されている。因みにテレビジョン電話システム20では、送信側端末21が受信側となり、受信側端末22が送信側となってもよい。
【0027】
送信側端末21は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを言葉情報に相当する音声符号化データD5として多重化回路6に送出する。
【0028】
また送信側端末21は、画像データベース23に予め格納しておいたユーザ自身の顔画像を表す基準となる画像データD23を通信開始時の最初に1フレーム分だけ読み出し、これを画像圧縮符号化回路24に送出する。画像圧縮符号化回路24は、画像データD23を所定の圧縮符号化方法によって圧縮符号化することにより画像符号化データD24を生成し、これを多重化回路6に送出する。
【0029】
多重化回路6は、画像符号化データD24及び音声符号化データD5を多重化処理し、その結果得られる多重化データD25を変調回路8に送出する。ここで多重化回路6は、通信開始時の最初に画像圧縮符号化回路24から1フレーム分の画像符号化データD24が供給されたときのみ、当該画像符号化データD24及び音声符号化データD5を多重化処理するが、それ以降は画像符号化データD24が供給されることはないので音声符号化データD5だけを変調回路8に送出する。
【0030】
変調回路8は、多重化データD25及びそれ以降供給される音声符号化データD5を順次変調処理した後、これを送信データD26として通信路9を介して受信側端末22へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0031】
すなわち通信路9が無線通信路であるときには、送信側端末21及び受信側端末22として例えばカメラ付携帯電話機を用いたテレビジョン電話システム20であることを想定し、通信路9が有線通信路であるときには、送信側端末21及び受信側端末22として例えば家庭に設置されるカメラ付電話機を用いたテレビジョン電話システム20であることを想定している。
【0032】
受信側端末22は、通信路9を介して送信されてきた送信データD26を受信データD27として受信して復調回路10に送出する。復調回路10は、受信データD27に対して復調処理を施すことにより復調データD28を得、これを分離回路11に送出する。
【0033】
なお実際上、復調回路10は通信路9を介して受信した受信データD27を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0034】
分離回路11は、送信側端末21の多重化データD25に相当する復調データD28を多重化処理とは逆の手順で分離処理することにより、元の画像符号化データD24及び音声符号化データD5にそれぞれ対応する画像符号化データD29及び音声符号化データD30に分離し、当該音声符号化データD30を音声復号化回路12及び画像合成部27の動き画像保持回路25に送出すると共に、画像符号化データD29を画像復号化回路14に送出する。
【0035】
因みに分離回路11は、最初に復調データD28を画像符号化データD29及び音声符号化データD30に分離した後には、それ以降の復調データD28に画像符号化データD29が多重化されていることはないので、音声符号化データD30だけを音声復号化回路12及び動き画像保持回路25に送出するようになされている。
【0036】
画像復号化回路14は、分離回路11から最初にのみ送られてくる画像符号化データD29を復号することにより画像データD23に相当する元の1フレーム分の基準となる画像データD31を復元し、これを静止画記憶手段としての画像データ保持回路15に送出する。
【0037】
画像データ保持回路15は、画像復号化回路14から送られてきた基準の画像データD31を内部メモリ(図示せず)に一旦保持した後、画像合成部27の合成回路26に送出するようになされている。
【0038】
動き画像生成手段としての動き画像保持回路25は、分離回路11から順次送られてくる言葉情報としての音声符号化データD30の符号パターンに対応した例えば口元の動きを表す動き画像データD32を内部メモリ(図示せず)に複数保持しており、当該音声符号化データD30に対応する動き画像データD32を読み出して合成回路26に送出する。
【0039】
ここで音声符号化データD30は、人間が音声を発する際の口元部分の形態をモデル化したものを基にディジタル圧縮符号化処理されたデータである。従って動き画像保持回路25は、音声符号化データD30の符号パターンに対応した例えば口元の動きを表す動き画像データD32を予め内部メモリに複数保持していることにより、音声符号化データD30の符号パターンに対応する動き画像データD32を直ちに読み出して合成手段としての合成回路26に送出し得るようになされている。
【0040】
合成回路26は、画像データ保持回路15から供給された基準の画像データD31に対して、動き画像保持回路25から順次供給された動き画像データD32を重ねて合成することにより、基準の顔画像に対して口元だけを動かしたような合成画像データD33を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0041】
音声復号化回路12は、音声符号化データD30を復号することにより元の音声データD34を復元し、これをアナログ変換した後に、合成回路26から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0042】
以上の構成において、第1の実施の形態におけるテレビジョン電話システム20においては、送信側端末21が通信開始時の最初だけ画像データベース23から読み出した1フレーム分の基準となる顔画像の画像データD23を圧縮符号化して受信側端末22に送信し、音声データD4についても順次圧縮符号化して受信側端末22に送信する。
【0043】
これにより送信側端末21は、ユーザ自身の顔画像を撮影しながら圧縮符号化して受信側端末22に毎フレームずつ送信する必要はなく、予め画像データベース23に格納してある自分の顔画像の画像データD23を通信開始時の最初にだけ圧縮符号化して受信側端末22に送信すればよく、データ伝送量を格段に低減することができる。
【0044】
また送信側端末21は、従来の送信側端末2(図6)と比較して動き画像成分抽出回路5が不要となる分だけ回路構成を簡素化できると共に、複雑なディジタル信号処理についてもその処理量を低減することができるので、消費電力を一段と低減することができる。
【0045】
これに対して受信側端末22は、受信データD27を復調して分離した後、画像復号化回路14によって通信開始時の最初だけ送られてくる基準となる顔画像の画像データD31を復元すると共に、動き画像保持回路25によって音声符号化データD30に対応した口元の動きを表す動き画像データD32を読み出し、基準となる顔画像の画像データD31に口元の動きを表す動き画像データD32を重ねて合成することにより合成画像データD33を生成した後、表示画像として出力する。
【0046】
このとき受信側端末22は、音声復号化回路12によって音声符号化データD30を復号することにより元の音声データD34を復元し、これをアナログ変換した後に、合成回路26で合成された表示画像とタイミングを合わせて音声として出力する。
【0047】
このように受信側端末22は、キャラクタの口元部分だけをユーザの音声に合わせて動した表示画像を表示することにより、あたかも送信側端末21のユーザの音声に合わせてキャラクタが喋っているような画像効果をもたらすことができる。
【0048】
このときも受信側端末22は、従来の受信側端末3(図6)と比較して動き画像成分復号化回路13が不要となる分だけ回路構成を簡素化できると共に、ユーザの顔画像に関する復号処理を最初に1回だけ行えば済むので複雑なディジタル信号処理についてもその処理量を低減することができ、かくして消費電力を一段と低減することができる。
【0049】
以上の構成によれば、第1の実施の形態におけるテレビジョン電話システム20は、送信側端末21が音声データD4を圧縮符号化して受信側端末22に送信すると共に、予め画像データベース23に格納してある自分の顔画像の画像データD23を通信開始時の最初にだけ圧縮符号化して受信側端末22に送信することにより、データ伝送量を従来の送信側端末2と比較して格段に低減すると共に消費電力を一段と低減することができる。
【0050】
またテレビジョン電話システム20は、受信側端末22が送信側端末21から最初にだけ送られてくる画像符号化データD29を1度だけ復号することにより得られた顔画像の画像データD31に対して、音声符号化データD30に対応した口元部分の動きを表す動き画像データD32を動き画像保持回路25によって読み出して合成することにより、あたかも動画像のように送信側端末21のユーザが喋っているような表示画像を表示することができる。
【0051】
このとき受信側端末22は、画像復号処理が1度だけで済むと共に、従来の受信側端末3のような動き画像成分復号化回路13による動き画像成分復号化処理が不要になる分だけディジタル信号処理の処理量を格段に低減すると共に消費電力を一段と低減することができ、かくして音声のタイミングと一致して口元部分が動く表示画像をリアルタイムに表示することができる。
【0052】
(2)第2の実施の形態
図1との対応部分に同一符号を付して示す図2において、40は全体として第2の実施の形態におけるテレビジョン電話システムを示し、送信側端末41及び受信側端末42によって構成されている。因みにテレビジョン電話システム40では、送信側端末41が受信側となり、受信側端末42が送信側となってもよい。
【0053】
送信側端末41は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを音声符号化データD5として多重化回路6に送出する。
【0054】
また送信側端末41は、画像データベース42に予め格納しておいた例えばキャラクタの顔画像の画像データに対応した画像識別情報D42を通信開始時の最初にだけ読み出し、これを多重化回路6に送出する。
【0055】
多重化回路6は、画像識別情報D42及び音声符号化データD5を多重化処理し、その結果得られる多重化データD43を変調回路8に送出する。ここで多重化回路6は、通信開始時の最初に画像データベース42から読み出された画像識別情報D42が供給されたときのみ、当該画像識別情報D42と音声符号化データD5とを多重化処理するが、それ以降は画像識別情報D42が供給されることはないので音声符号化データD5だけを変調回路8に送出する。
【0056】
変調回路8は、多重化データD43及びそれ以降供給される音声符号化データD5を順次変調処理した後、これを送信データD44として通信路9を介して受信側端末42へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0057】
受信側端末42は、通信路9を介して送信されてきた送信データD44を受信データD45として受信して復調回路10に送出する。復調回路10は、受信データD45に対して復調処理を施すことにより復調データD46を得、これを分離回路11に送出する。
【0058】
なお実際上、復調回路10は通信路9を介して受信した受信データD45を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0059】
分離回路11は、送信側端末41の多重化データD43に相当する復調データD46を多重化処理とは逆の手順で分離処理することにより、元の画像識別情報D42及び音声符号化データD5にそれぞれ対応する画像識別情報D47及び音声符号化データD48に分離し、当該音声符号化データD48を音声復号化回路12及び画像合成部49のワイヤフレーム生成回路44に送出すると共に、画像識別情報D47を静止画記憶手段としての画像データベース43に送出する。
【0060】
因みに分離回路11は、最初に復調データD46を画像識別情報D47及び音声符号化データD48に分離した後には、それ以降の復調データD46に画像識別情報D47が多重化されていることはないので、音声符号化データD48だけを音声復号化回路12及びワイヤフレーム生成回路44に送出するようになされている。
【0061】
動き画像生成手段としてのワイヤフレーム生成回路44は、分離回路11から順次送られてくる言葉情報としての音声符号化データD48に基づいてキャラクタの顔画像の例えば口元の動き状態を解読し、内部メモリ(図示せず)から解読結果に対応した動きのあるワイヤフレームを読み出し、これを動き画像に相当するワイヤフレームデータD50として合成手段に相当する合成回路26に送出する。
【0062】
ここでワイヤフレームとは、例えばキャラクタの顔画像の顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことにより生成される顔画像モデルのことであり、顔部分の中で特に動きのある目元や口元にポイントが数多く配置されている。
【0063】
受信側端末42の画像データベース43は、送信側端末43の画像データベース42と同一内容の画像データを格納しており、分離回路11から供給された画像識別情報D47に対応するキャラクタの顔画像を表す画像データD49を読み出して合成回路26に送出する。
【0064】
すなわち、送信側端末41の画像データベース42から読み出されたキャラクタの顔画像を表す画像データD42と、受信側端末42の画像データベース43から読み出されたキャラクタの顔画像を表す画像データD49とは同一内容のデータである。
【0065】
ここで画像データD49も、ワイヤフレームであり、キャラクタの顔部分における各ポイントの配置場所は、ワイヤフレーム生成回路44によって生成されたワイヤフレームデータD50の各ポイントと一致している。
【0066】
合成回路26は、画像データベース43から供給されたキャラクタの顔画像を表すワイヤフレームの画像データD49に対してワイヤフレームデータD50を合成し、ワイヤフレームデータD50に応じて動き部分の画像ひずみ分を補正することによりキャラクタの口元部分が音声に合わせて動くような合成画像データD51を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0067】
音声復号化回路12は、音声符号化データD48を復号することにより元の音声データD52を復元し、これをアナログ変換した後に、合成回路26から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0068】
以上の構成において、テレビジョン電話システム20においては送信側端末41が通信開始時の最初だけ画像データベース42からキャラクタの顔画像の画像データを示す画像識別情報D42を読み出して受信側端末42に送信し、音声データD4についても順次圧縮符号化して受信側端末42に送信する。
【0069】
これにより送信側端末41は、ユーザ自身の顔画像を撮影しながら圧縮符号化して送信する必要はなく、予め画像データベース42に格納してあるキャラクタの顔画像データを示す画像識別情報D42を通信開始時の最初だけ受信側端末42に送信すればよいので、1枚だけ画像データD23を送信する第1の実施の形態における送信側端末21よりもさらにデータ伝送量を低減することができる。
【0070】
また送信側端末41は、従来の送信側端末2(図6)と比較して画像圧縮符号化回路4及び動き画像成分抽出回路5が不要となる分だけ回路構成を簡素化できると共に、複雑なディジタル信号処理についてもその処理量を低減することができるので、消費電力を一段と低減することができる。
【0071】
これに対して受信側端末42は、受信データD45を復調して分離した後、画像データベース43から通信開始時の最初だけ送られてきた画像識別情報D47に対応するキャラクタの顔画像を表す画像データD49を読み出すと共に、ワイヤフレーム生成回路44によって音声符号化データD48に対応するワイヤフレームデータD50を生成する。
【0072】
そして受信側端末42は、ワイヤフレームデータD50に基づいてキャラクタの顔画像における動き部分の画像ひずみ分を補正することによりキャラクタの口元部分が送信側端末41のユーザの音声と同じように動く合成画像データD51を生成し、これを表示画像として出力すると共に、音声復号化回路12によって復号した音声を表示画像とタイミングを合わせてスピーカから出力する。
【0073】
このように受信側端末42は、キャラクタの口元部分をユーザの音声に合わせて動した表示画像を表示することにより、あたかも送信側端末41のユーザの音声に合わせてキャラクタが喋っているような画像効果をもたらすことができる。
【0074】
このときも受信側端末42は、従来の受信側端末3(図6)と比較して動き画像成分復号化回路13が不要となる上に、第1の実施の形態における受信側端末22の画像復号化回路14が不要となる分だけ回路構成をさらに簡素化できると共に、複雑なディジタル信号処理についてもその処理量をさらに低減することができ、かくして消費電力をより一段と低減することができる。
【0075】
以上の構成によれば、第2の実施の形態におけるテレビジョン電話システム40は、送信側端末41が音声データD4を圧縮符号化して受信側端末42に送信すると共に、予め画像データベース23に格納してあるキャラクタの画像データの画像識別情報D42を通信開始時の最初にだけ受信側端末42に送信することにより、第1の実施の形態における送信側端末21と比較してデータ伝送量をさらに低減すると共に消費電力を一段と低減することができる。
【0076】
またテレビジョン電話システム20は、受信側端末42が送信側端末41から最初に1回だけ送られてくる画像識別情報D42に基づいてキャラクタの画像データD49を読み出し、音声符号化データD48に対応したワイヤフレームデータD50を生成してキャラクタの画像データD49と合成することにより、あたかも送信側端末41のユーザの音声に合わせてキャラクタが喋っているような表示画像を生成することができる。
【0077】
このとき受信側端末42は、画像復号処理を全く必要としない分だけ、さらにディジタル信号処理の処理量を第1の実施の形態における受信側端末42よりも低減すると共に消費電力を一段と低減することができ、かくして音声のタイミングと一致して口元部分が動く表示画像をリアルタイムに表示することができる。
【0078】
(3)第3の実施の形態
図1との対応部分に同一符号を付して示す図3において、60は全体として第3の実施の形態におけるテレビジョン電話システムを示し、送信側端末61及び受信側端末62によって構成されている。
【0079】
送信側端末61は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを言葉情報に相当する音声符号化データD5として変調回路8に送出する。
【0080】
変調回路8は、音声圧縮符号化回路7から順次供給される音声符号化データD5を変調処理した後、これを送信データD61として通信路9を介して受信側端末62へ送信する。
【0081】
この場合の送信側端末61は、通常の携帯電話機と同様の回路構成であり、特にカメラ付携帯電話やテレビジョン電話システム60特有の送信側端末である必要はなく、一般的な携帯電話機と同様の構成を有していれば良く、また通信路9に関しても、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0082】
受信側端末62は、通信路9を介して送信されてきた送信データD61を受信データD62として受信して復調回路10に送出する。復調回路10は、受信データD62に対して復調処理を施すことにより送信側端末21の音声符号化データD5に相当する音声符号化データD63を得、これを音声復号化回路12及び画像合成部69のワイヤフレーム生成回路63に送出する。
【0083】
動き画像生成手段としてのワイヤフレーム生成回路63は、復調回路10から順次送られてくる言葉情報としての音声符号化データD63に基づいてキャラクタの顔画像の例えば口元の動き状態を解読して動きのあるワイヤフレームを生成し、これを動き画像に相当するワイヤフレームデータD64として合成手段に相当する合成回路64に送出する。
【0084】
ここでワイヤフレームとは、例えばキャラクタの顔画像の顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことにより生成される顔画像モデルのことであり、顔部分の中で特に動きのある目元や口元にポイントが数多く配置されている。
【0085】
一方、静止画記憶手段としての画像データベース65は、予め決められた所定のキャラクタの顔画像を表す画像データD65を読み出して合成回路64に送出するようになされている。ここで画像データD65も、ワイヤフレームであり、キャラクタの顔部分における各ポイントの配置場所は、ワイヤフレーム生成回路63によって生成されたワイヤフレームデータD64の各ポイントと一致している。
【0086】
合成回路64は、ワイヤフレーム生成回路63からワイヤフレームデータD64の供給を受けると同時に、画像データベース65から予め決められた所定のキャラクタの顔画像を表す画像データD65の供給を受け、当該画像データD65に対してワイヤフレームデータD64を合成し、ワイヤフレームデータD64に応じて動き部分の画像ひずみ分を補正することにより、キャラクタの口元部分が音声に合わせて動くような合成画像データD66を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0087】
音声復号化回路12は、音声符号化データD63を復号することにより元の音声データD67を復元し、これをアナログ変換した後に、画像合成回路64から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0088】
以上の構成において、テレビジョン電話システム60においては送信側端末61が画像データを送信する必要はなく通常の音声データD4だけを順次圧縮符号化して受信側端末62へ送信するだけで良いので、第1及び第2の実施の形態における送信側端末21及び41よりもデータ伝送量を低減し得ると同時に、通常の音声通話だけを行う一般的な携帯電話機と同等のデータ伝送量に抑えることができる。
【0089】
これに対して受信側端末62は、予め画像データベース65に保持しているキャラクタの画像データD65を読み出し、音声符号化データD63に基づく口元の動き状態を表すワイヤフレームデータD64を画像データD65に合成することにより、キャラクタの口元部分が音声に合わせて動くような合成画像データD66を生成し、これを表示画像として出力することができる。
【0090】
このように受信側端末62は、第2の実施の形態における受信側端末42のように分離回路11を必要としない分と、画像復号処理を必要としない分だけ回路構成をさらに簡素化し得ると共に、複雑なディジタル信号処理についてもその処理量をさらに低減することができるので、消費電力を一段と低減することができる。
【0091】
さらにテレビジョン電話システム60においては、送信側端末61及び受信側端末62を必ず1組として用いる必要ななく、送信側端末61と同等の一般的な携帯電話機であっても、当該携帯電話機から音声データさえ受信することができれば、受信側端末62においてキャラクタの顔画像をベースに口元部分を音声に合わせて動かす表示画像を表示することができ、ユーザの使い勝手を一段と向上させることができる。
【0092】
以上の構成によれば、第3の実施の形態におけるテレビジョン電話システム60は、受信側端末62が送信側端末61から受信した音声符号化データD63に基づいて口元部分の動き状態を表すワイヤフレームデータD64を生成し、これを画像データベース65に予め保持していたキャラクタの画像データD65に合成して合成画像データD66を生成し、これを表示画像として出力することにより、送信側端末61から画像データを送信してもらうことなく音声データだけからキャラクタの口元部分が音声に合わせて動くような画像効果をもたらすことができる。
【0093】
また受信側端末62は、第1及び第2の実施の形態における受信側端末21及び42よりも回路構成を簡素化し得ると共にディジタル信号処理の処理量を低減することができるので、消費電力をさらに一段と低減することができ、かくして音声のタイミングと一致して口元部分が動く表示画像をリアルタイムに表示することができる。
【0094】
(4)第4の実施の形態
図6との対応部分に同一符号を付して示す図4において、80は全体として第4の実施の形態におけるテレビジョン電話システムを示し、送信側端末81及び受信側端末82によって構成されている。因みにテレビジョン電話システム80では、送信側端末81が受信側となり、受信側端末82が送信側となっても良い。
【0095】
送信側端末81は、マイクロフォン(図示せず)で集音した後にディジタル変換したユーザの音声データD4を音声圧縮符号化回路7に送出する。音声圧縮符号化回路7は、音声データD4を所定の圧縮符号化方法によって圧縮符号化した後、これを音声符号化データD5として多重化回路6及び動き画像成分抽出回路83に送出する。
【0096】
また送信側端末81は、撮像手段(図示せず)によってユーザの顔を撮像した後にディジタル変換した画像データD1を画像圧縮符号化回路4及び動き画像成分抽出回路83に順次送出する。
【0097】
ここで送信側端末81は、通信開始時の最初に1フレーム分の基準となる画像データD1を画像圧縮符号化回路4に送出した以後は、次フレーム以降の画像データD1を画像圧縮符号化回路4に送出するこはなく、動き画像成分抽出回路83にのみ画像データD1を送出するようになされている。
【0098】
画像圧縮符号化回路4は、画像データD1における顔部分を複数のポイントに分割し、それら複数のポイントを結ぶことによりワイヤフレームと呼ばれる基準の顔画像モデルを生成する。因みにワイヤフレームは、顔の中で特に動きのある目元部分や口元部分にポイントが数多く配置されている。
【0099】
そして画像圧縮符号化回路4は、ワイヤフレーム化した画像データD1を所定の方式で圧縮符号化することにより画像符号化データD2を生成し、これを多重化回路6に送出する。
【0100】
動き画像成分抽出回路83も、ワイヤフレームと呼ばれる基準の顔画像モデルを生成し、音声圧縮符号化回路7から音声符号化データD5が供給されている間だけ、ワイヤフレームの口元部分を除く例えば目元部分の各ポイントを分析パラメータとして用い、当該分析パラメータの時間的変化(すなわち前フレームと現フレームとの差分)をワイヤフレームの動き画像成分として抽出した後に圧縮符号化することにより動き画像成分データD83を生成し、これを多重化回路6に送出する。
【0101】
すなわち動き画像成分抽出回路83は、音声圧縮符号化回路7から供給された音声符号化データD5との相関を考慮し、音声が発せられたときに顔の表情が変化すると考えて、音声が発せられている間の目元部分に関する動き画像成分データD83を生成するようになされている。
【0102】
多重化回路6は、音声符号化データD5、画像符号化データD2及び動き画像成分データD83を多重化処理し、その結果得られる多重化データD84を変調回路8に送出する。
【0103】
ここで多重化回路6は、通信開始時の最初に画像圧縮符号化回路4から1フレーム分の画像符号化データD2が供給されたときのみ、当該画像符号化データD2、音声符号化データD5及び動き画像成分データD83を多重化処理するが、それ以降は画像符号化データD2が供給されることはないので、音声符号化データD5及び動き画像成分データD83だけを多重化処理することになる。
【0104】
変調回路8は、通信路9を介して送信するための所定の変調方式で多重化データD84を変調処理した後、これを送信データD85として通信路9を介して受信側端末82へ送信する。因みに通信路9としては、有線及び無線に特にこだわるものではなく、いずれであっても良い。
【0105】
受信側端末82は、通信路9を介して送信されてきた送信データD85を受信データD86として受信して復調回路10に送出する。復調回路10は、受信データD86に対して復調処理を施すことにより復調データD87を得、これを分離回路11に送出する。
【0106】
なお実際上、復調回路10は通信路9を介して受信した受信データD86を復調する際、通信路9上で生じるデータ誤りの検出及び訂正を行っているが、ここでは説明の便宜上省略する。
【0107】
分離回路11は、送信側端末81の多重化データD84に相当する復調データD87を多重化処理の逆の手順で分離処理することにより、元の音声符号化データD5、画像符号化データD2及び動き画像成分データD83にそれぞれ相当する音声符号化データD88、画像符号化データD89及び動き画像成分データD90に分離し、音声符号化データD88を音声復号化回路12及び画像合成部89のワイヤフレーム生成回路85に送出し、動き画像成分データD90を動き画像成分復号化回路84に送出すると共に、画像符号化データD89を画像復号化回路14に送出する。
【0108】
因みに分離回路11は、最初に復調データD87を音声符号化データD88、画像符号化データD89及び動き画像成分データD90に分離した後には、それ以降の復調データD87に画像符号化データD89が多重化されていることはないので、画像復号化回路14に画像符号化データD89を送出することはない。
【0109】
画像復号化回路14は、分離回路11から最初にのみ送られてくる画像符号化データD89を復号することによりワイヤフレーム化された元の顔画像に相当する基準の画像データD16を復元し、これを画像データ保持回路15に送出する。
【0110】
画像データ保持回路15は、画像復号化回路14から送られてきた基準の画像データD16を内部メモリ(図示せず)に一旦保持した後、画像合成部89の合成回路86に送出するようになされている。
【0111】
動き画像成分復号化回路84は、分離回路11から連続的に送られてくる動き画像成分データD90を復号することにより元の動き画像成分データD83に相当する動き画像成分データを復元した後、当該動き画像成分データに基づいて動きのあるワイヤフレームを生成し、これを動き成分画像に相当するワイヤフレームデータD91として合成回路86に送出する。この場合、ワイヤフレームデータD91とは、ユーザの顔画像のうちで目元部分の動きを表したデータである。
【0112】
動き画像生成手段としてのワイヤフレーム生成回路85は、分離回路11から連続的に送られてくる言葉情報としての音声符号化データD88に基づいて顔画像の例えば口元部分の動き状態を解読して動きのあるワイヤフレームを生成し、これを動き画像に相当するワイヤフレームデータD92として合成手段に相当する合成回路86に送出する。
【0113】
ここで、画像復号化回路14によって復号されたワイヤフレームの画像データD16と、動き画像成分復号化回路84によって生成された目元部分の動きを表すワイヤフレームデータD91と、ワイヤフレーム生成回路85によって生成された口元部分の動きを表すワイヤフレームデータD92とは、顔部分における各ポイントの配置場所が互いに一致している。
【0114】
合成回路86は、画像データ保持回路15から供給された送信側端末81の顔画像の画像データD16に対して、動き画像成分抽出回路84から供給された目元部分のワイヤフレームデータD91と、ワイヤフレーム生成回路85から供給された口元部分のワイヤフレームデータD92とを合成し、ワイヤフレームデータD91及びD92に応じて動き部分の画像ひずみ分を補正することにより、音声に合わせて目元部分及び口元部分が動くような合成画像データD93を生成し、これを表示画像として表示部(図示せず)を介して出力する。
【0115】
音声復号化回路12は、音声符号化データD88を復号することにより元の音声データD17を復元し、これをアナログ変換した後に、画像合成回路86から表示部を介して出力される表示画像にタイミングを合わせてスピーカ(図示せず)から音声として出力する。
【0116】
以上の構成において、テレビジョン電話システム80においては送信側端末81が通信開始時の最初にユーザの顔画像を表す画像データD1を1フレーム分だけ圧縮符号化することにより画像符号化データD2を生成して多重化回路6に送出すると共に、ユーザの音声データD4を順次圧縮符号化することにより音声符号化データD5を生成して多重化回路6に送出する。
【0117】
このとき送信側端末81は、音声が発せられたときに顔の表情が変化する場合が一般的に多いと考えられるので、音声が発せられている間の目元部分に関する動き画像成分データD83を抽出して多重化回路6に送出する。
【0118】
そして送信側端末81は、多重化回路6によって通信開始時の最初にのみ画像符号化データD2、音声符号化データD5及び動き画像成分データD83を多重化し、変調処理して送信した後は、音声符号化データD5及び動き画像成分データD83を多重化し、変調処理して送信する。
【0119】
このように送信側端末81は、音声が発せられている間においては口元部分以外の目元部分に関する動き画像成分データD83を抽出することにより、目元部分の動きを再現するための動き画像成分データD83と、口元部分の動きを再現するための音声符号化データD5との間に相関関係を持たせている。
【0120】
これにより送信側端末81は、基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とが互いにデータとして無駄に重なりあうことなく、それぞれ必要最小限のデータ量として送信することができ、かくして従来の送信側端末2(図6)と比較してデータ伝送量を格段に低減すると共に消費電力を一段と低減することができる。
【0121】
これに対して受信側端末82は、通信開始時の最初だけ送られてくる基準となる顔画像の画像データD16を復元した後、音声符号化データD88に基づいて生成された口元部分の動きを表すワイヤフレームデータD92と、動き画像成分データD90に基づいて生成されたワイヤフレームデータD91とを顔画像の画像データD16に重ねて合成し、ワイヤフレームデータD91及びD92に応じて動き部分の画像ひずみ分を補正することにより、音声に合わせて目元部分及び口元部分が動くような動き画像データD93を生成して表示画像として出力する。
【0122】
これにより受信側端末82は、送信側端末81のユーザの音声に合わせて顔画像の口元を動かして喋っているような表示画像を表示するだけでなく、その時の目元部分の動きを表示することにより、表情豊かな顔画像を表示画像として表示することができる。
【0123】
このとき受信側端末82は、基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とがそれぞれ関連付けられており、それぞれ必要最小限のデータ処理量で表示画像を生成することができるので、従来の受信側端末3(図6)と比較してデータ処理量を格段に低減することができ、かくして消費電力を一段と低減することができる。
【0124】
以上の構成によれば、第4の実施の形態におけるテレビジョン電話システム80は、送信側端末81が基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とが互いにデータとして無駄に重なりあうことなく関連付けて、それぞれ必要最小限のデータ量として送信することができ、かくして従来の送信側端末2と比較してデータ伝送量を格段に低減すると共に消費電力を一段と低減することができる。
【0125】
またテレビジョン電話システム80は、受信側端末82が基準となる1フレーム分の顔画像の画像データD1と、目元部分に関する動き画像成分データD83と、口元部分に関する音声符号化データD5とをそれぞれ必要最小限のデータ処理量で表示画像を生成することができるので、従来の受信側端末3と比較してデータ処理量を格段に低減することができ、かくして消費電力を一段と低減することができる。
【0126】
このとき受信側端末82は、基準の顔画像に対して口元部分及び目元部分を音声に合わせて動かして表示することができるので、表情豊かでより高次元な表示画像をリアルタイムに提供することができる。
【0127】
(5)他の実施の形態
なお上述の第1の実施の形態においては、受信側端末22が動き画像保持回路25によって音声符号化データD32に対応した口元部分の動きを表す動き画像データD32を読み出し、合成回路26で基準の画像データD31と合成するようにした場合について述べたが、本発明はこれに限らず、音声復号化回路12の後段に音声認識回路を設けることによって音声を認識し、その認識結果をテキスト化して対応する動き画像データD32を動き画像保持回路25から読み出し、又は認識結果を発音記号化して対応する動き画像データD32を動き画像保持回路25から読み出し、これらを基準の画像データD31と合成するようにしても良い。
【0128】
また上述の第1の実施の形態においては、送信側端末21がユーザの顔画像を表す画像データD23を圧縮符号化して受信側端末22へ送信するようにした場合について述べたが、本発明はこれに限らず、キャラクタの顔を表す画像データD23を圧縮符号化して送信するようにしても良い。
【0129】
さらに上述の第1の実施の形態においては、受信側端末22が動き画像保持回路25によって音声符号化データD32に対応した口元部分の動きを表す動き画像データD32を読み出し、合成回路26で基準の画像データD31と合成するようにした場合について述べたが、本発明はこれに限らず、送信側端末21で音声符号化データD32に対応した口元部分の動きを表す動き画像データを指定し、当該指定した動き画像データに対応する動き画像識別情報を受信側端末22へ送信することにより、当該受信側端末22で動き画像識別情報に対応する動き画像データを読み出して基準の画像データと合成するようにしても良い。
【0130】
この場合、図1との対応部分に同一符号を付して示す図5において、テレビジョン電話システム100の受信側端末22は音声圧縮符号化回路7によって圧縮符号化された音声符号化データD5を多重化回路6及び動き画像データベース101に送出する。動き画像データベース101は、音声符号化データD5に応じた口元部分の動きを表す動き画像データを認識し、当該認識した動き画像データに対応する動き画像識別情報D101を多重化回路6に送出する。
【0131】
多重化回路6は、画像符号化データD24、音声符号化データD5及び動き画像識別情報D101を多重化処理し、その結果得られる多重化データD102を変調回路8に送出する。この場合も多重化回路6は、通信開始時の最初に画像圧縮符号化回路24から1フレーム分の画像符号化データD24が供給されたときのみ、当該画像符号化データD24、音声符号化データD5及び動き画像識別情報D101を多重化処理するが、それ以降は画像符号化データD24が供給されることはないので音声符号化データD5及び動き画像識別情報D101を多重化処理することによって得られる多重化データD102を変調回路8に送出する。変調回路8は、多重化データD102を順次変調処理した後、これを送信データD103として通信路9を介して受信側端末22へ送信する。
【0132】
受信側端末22は、通信路9を介して送信されてきた送信データD103を受信データD104として受信して復調回路10に送出する。復調回路10は、受信データD104に対して復調処理を施すことにより復調データD105を得、これを分離回路11に送出する。分離回路11は、復調データD105を分離処理することにより、元の画像符号化データD24、音声符号化データD5及び動き画像識別情報D101にそれぞれ相当する画像符号化データD29、音声符号化データD30及び動き画像識別情報D106に分離し、音声符号化データD30を音声復号化回路12に送出し、画像符号化データD29を画像復号化回路14に送出すると共に、動き画像識別情報D106を画像合成部102の動き画像データベース103に送出する。
【0133】
動き画像データベース103は、送信側端末21に設けられている動き画像データベース101と同一の動き画像データが格納されており、動き画像識別情報D106に対応する動き画像データD107を読み出して合成回路26に送出する。合成回路26は、画像データ保持回路15から供給された基準の画像データD31に対して、動き画像データベース103から順次供給された動き画像データD107を重ねて合成することにより、基準の顔画像に対して口元部分だけを動かしたような合成画像データD108を生成し、これを表示画像として表示部を介して出力するようになされている。
【0134】
さらに上述の第2の実施の形態においては、送信側端末41がキャラクタの顔画像を表す画像データに対応した画像識別情報D42を受信側端末42へ送信するようにした場合について述べたが、本発明はこれに限らず、ユーザの顔画像を表す画像データに対応した画像識別情報D42を受信側端末42へ送信するようにしても良い。
【0135】
さらに上述の第2〜第4の実施の形態においては、受信側端末42がワイヤフレーム生成回路44、63及び85を用いて音声に対応した口元部分の動きを表すワイヤフレームデータD50、D64及びD92を生成し、これを基準となる画像データD49、D65及びD16に合成するようにした場合について述べたが、本発明はこれに限らず、ワイヤフレーム生成回路44、63及び85の代わりに第1の実施の形態における送信側端末21のような動き画像保持回路25を用いて音声符号化データD30に対応した口元部分の動きを表す動き画像データを読み出し、これを基準となる画像データD49、D65及びD16に合成したり、あるいは音声復号化回路12の後段に音声認識回路を設けることによって音声を認識し、その認識結果をテキスト化して対応する動き画像データD32を動き画像保持回路25から読み出し、又は認識結果を発音記号化して対応する音声画像データD32を画像保持回路25から読み出し、これらを基準となる画像データD49、D65及びD16に合成するようにしても良い。
【0136】
さらに上述の第1〜第4の実施の形態においては、送信側端末21、41、61及び81から受信した音声符号化データに対応する言葉情報に基づいて口元部分の動きを解読し、それに応じて口元部分が動く表示画像を表示するようにした場合について述べたが、本発明はこれに限らず、テキストデータや発音記号等に対応する言葉情報に基づいて口元部分が動く表示画像を表示するようにしても良い。
【0137】
さらに上述の第1〜第4の実施の形態においては、送信側端末21、41、61及び81から受信した言葉情報としての音声符号化データに基づいて口元部分の動きを解読し、それに応じた動きを表示画像として表示するようにした場合について述べたが、本発明はこれに限らず、例えば基地局と受信側端末22、42、62及び82との間で、当該受信側端末22、42、62及び82が基地局から受信した音声符号化データに対応する言葉情報に基づいて口元部分の動きを解読し、それに応じて口元部分が動く表示画像を表示するようにしても良い。
【0138】
【発明の効果】
上述のように本発明によれば、送信側ではユーザの音声データと、1フレーム分の顔画像モデルと、ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、音声データを受信装置へ送信している間だけ顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を示す上記ワイヤフレームの動き画像成分データとを送信し、受信側では、動き画像成分データに基づいて目元部分動き画像データを生成し、音声データに基づいて口元部分動き画像データを生成した後、顔画像モデルと合成することにより、送信装置から受信装置へのデータ伝送量を低減しつつ、目元部分と口元部分との間に表情として相関関係を持たせた状態の表情豊かな顔画像を表示することができ、かくして簡易な構成及び低消費電力でリアルタイムな処理を実行し得る画像伝送システムを実現できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図2】本発明の第2の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図3】本発明の第3の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図4】本発明の第4の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図5】他の実施の形態におけるテレビジョン電話システムの構成を示すブロック図である。
【図6】従来のテレビジョン電話システムの構成を示すブロック図である。
【符号の説明】
1、20、40、60、80、100……テレビジョン電話システム、2、21、41、61、81……送信側端末、3、22、42、62、82……受信側端末、4、24……画像圧縮符号化回路、5、83……動き画像成分抽出回路、6……多重化回路、7……音声圧縮符号化回路、8……変調回路、9……通信路、10……復調回路、11……分離回路、12……音声復号化回路、13、84……動き画像成分復号化回路、14……画像復号化回路、15……画像データ保持回路、16、26、64、86……合成回路、25……動き画像保持回路、23、42、43、65……画像データベース、44、63、85……ワイヤフレーム生成回路、101、103……動き画像データベース。[0001]
BACKGROUND OF THE INVENTION
The present invention Is a picture Image transmission system To For example, the present invention is suitable for application to a television telephone system that transmits and receives images together with sound between users.
[0002]
[Prior art]
Conventionally, as shown in FIG. 6, the
[0003]
The image
[0004]
The moving image
[0005]
Then, the motion image
[0006]
Further, the transmission side terminal 2 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice
[0007]
The
[0008]
The
[0009]
That is, when the
[0010]
The receiving side terminal 3 receives transmission data D7 transmitted via the
[0011]
In practice, the
[0012]
The
[0013]
The
[0014]
The image
[0015]
The motion image
[0016]
The synthesizing
[0017]
The
[0018]
[Problems to be solved by the invention]
By the way, in the
[0019]
Further, the
[0020]
The present invention has been made in consideration of the above points, and can execute real-time processing with a simple configuration and low power consumption. Painting Image transmission system The It is what we are going to propose.
[0021]
[Means for Solving the Problems]
In order to solve such a problem, in the present invention, in an image transmission system constituted by a transmitting device and a receiving device, the transmitting device transmits audio data of a user collected by a microphone to the receiving device; A face image model of a wire frame is generated by dividing the face image data for one frame obtained by photographing the user's face into a plurality of points and connecting them, and this is transmitted to the receiving device. A face image model transmission means; Considering the correlation that facial expression changes when the user's voice is emitted, Audio data Sending to receiving device Each point of the eye part of the face image model As an analysis parameter Change over time Of the above wireframe A moving image component data transmitting means for extracting the moving image component data and transmitting it to the receiving device; the receiving device includes a face image model holding means for holding a face image model; and a face based on the moving image component data. Eye part motion image data generating means for generating eye part motion image data having movement for the eye part of the image model, and mouth part motion image data by decoding the motion state of the mouth part of the face image model based on the audio data The mouth partial motion image data generating means for generating the eye, the combining means for generating the composite image by combining the eye partial motion image data and the mouth partial motion image data with the face image model, and the display for displaying the composite image Means Prepare Like that.
[0022]
Thereby, on the transmission side, the user's voice data, the face image model for one frame, Considering the correlation that facial expression changes when the user's voice is emitted, Audio data Only while sending to the receiver Each point of eye area of face image model As an analysis parameter Change over time Showing of the above wireframe The motion image component data is transmitted, and on the receiving side, the eye partial motion image data is generated based on the motion image component data, the mouth partial motion image data is generated based on the audio data, and then synthesized with the face image model. By reducing the amount of data transmitted from the transmitting device to the receiving device, the distance between the eye portion and the mouth portion is reduced. As facial expression It is possible to display an expression-rich face image with a correlation.
[0025]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
[0026]
(1) First embodiment
In FIG. 1, in which parts corresponding to those in FIG. 6 are assigned the same reference numerals, 20 denotes the television telephone system according to the first embodiment as a whole, which is composed of a transmission side terminal 21 and a reception side terminal 22. . Incidentally, in the
[0027]
The transmitting side terminal 21 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice
[0028]
Further, the transmission side terminal 21 reads image data D23, which is stored in advance in the
[0029]
The
[0030]
The
[0031]
That is, when the
[0032]
The reception side terminal 22 receives the transmission data D26 transmitted via the
[0033]
In practice, the
[0034]
The
[0035]
Incidentally, the
[0036]
The
[0037]
The image
[0038]
The motion
[0039]
Here, the speech encoded data D30 is data that has been subjected to digital compression encoding processing based on a model of the form of the mouth portion when a human utters speech. Therefore, the motion
[0040]
The
[0041]
The
[0042]
In the above configuration, in the
[0043]
As a result, it is not necessary for the transmission side terminal 21 to compress and encode the user's own face image and transmit it to the reception side terminal 22 frame by frame, but the image of the face image stored in the
[0044]
Further, the transmission side terminal 21 can simplify the circuit configuration to the extent that the moving image
[0045]
On the other hand, the receiving side terminal 22 demodulates and separates the received data D27, and then restores the image data D31 of the reference face image sent by the
[0046]
At this time, the receiving-side terminal 22 restores the original audio data D34 by decoding the audio encoded data D30 by the
[0047]
In this way, the receiving side terminal 22 displays a display image in which only the mouth portion of the character is moved according to the user's voice, so that the character seems to sing according to the voice of the user of the transmitting side terminal 21. An image effect can be brought about.
[0048]
Also at this time, the receiving side terminal 22 can simplify the circuit configuration to the extent that the moving image
[0049]
According to the above configuration, in the
[0050]
In addition, the
[0051]
At this time, the receiving side terminal 22 only needs to perform the image decoding process once, and the digital signal corresponding to the amount that the moving image component decoding process by the moving image
[0052]
(2) Second embodiment
In FIG. 2, in which parts corresponding to those in FIG. 1 are denoted by the same reference numerals,
[0053]
The transmission side terminal 41 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice
[0054]
Further, the transmission side terminal 41 reads the image identification information D42 corresponding to the image data of the facial image of the character, for example, stored in advance in the
[0055]
The
[0056]
The
[0057]
The receiving
[0058]
In practice, the
[0059]
The
[0060]
Incidentally, since the
[0061]
The wire
[0062]
Here, the wire frame is a face image model generated by, for example, dividing a face portion of a character's face image into a plurality of points and connecting the plurality of points. Many points are placed around a certain eye or mouth.
[0063]
The image database 43 of the receiving
[0064]
That is, the sending terminal 41 The image data D42 representing the character's face image read from the
[0065]
Here, the image data D49 is also a wire frame, and the location of each point in the character's face portion matches each point of the wire frame data D50 generated by the wire
[0066]
The synthesizing
[0067]
The
[0068]
In the above configuration, in the
[0069]
As a result, the transmission side terminal 41 does not need to compress and transmit the user's own face image while photographing, and starts communication with the image identification information D42 indicating the character face image data stored in the
[0070]
In addition, the transmission side terminal 41 can simplify the circuit configuration to the extent that the image
[0071]
On the other hand, the receiving
[0072]
Then, the receiving
[0073]
In this way, the receiving
[0074]
Also at this time, the receiving
[0075]
According to the above configuration, in the
[0076]
In addition, the
[0077]
At this time, the receiving
[0078]
(3) Third embodiment
In FIG. 3, in which parts corresponding to those in FIG. 1 are denoted by the same reference numerals, 60 indicates a television telephone system according to the third embodiment as a whole, and is composed of a transmission side terminal 61 and a reception side terminal 62. .
[0079]
The transmission side terminal 61 sends the voice data D4 of the user digitally converted after collecting the sound with a microphone (not shown) to the voice
[0080]
The
[0081]
The transmission side terminal 61 in this case has a circuit configuration similar to that of a normal mobile phone, and does not have to be a transmission side terminal specific to a camera-equipped mobile phone or the
[0082]
The reception side terminal 62 receives the transmission data D61 transmitted via the
[0083]
The wire
[0084]
Here, the wire frame is a face image model generated by, for example, dividing a face portion of a character's face image into a plurality of points and connecting the plurality of points. Many points are placed around a certain eye or mouth.
[0085]
On the other hand, the image database 65 as a still image storage means reads out image data D65 representing a face image of a predetermined character determined in advance and sends it to the
[0086]
The synthesizing
[0087]
The
[0088]
In the above configuration, in the
[0089]
On the other hand, the receiving side terminal 62 reads the character image data D65 stored in the image database 65 in advance, and synthesizes the wire frame data D64 representing the movement state of the mouth based on the voice encoded data D63 into the image data D65. By doing so, it is possible to generate the composite image data D66 in which the mouth portion of the character moves according to the voice, and output this as a display image.
[0090]
As described above, the receiving side terminal 62 can further simplify the circuit configuration by the amount that does not require the
[0091]
Further, in the
[0092]
According to the above configuration, the
[0093]
Further, the receiving side terminal 62 can simplify the circuit configuration and reduce the processing amount of the digital signal processing as compared with the receiving
[0094]
(4) Fourth embodiment
In FIG. 4, in which parts corresponding to those in FIG. 6 are assigned the same reference numerals, 80 denotes a television telephone system according to the fourth embodiment as a whole, which is composed of a transmitting terminal 81 and a receiving terminal 82. . Incidentally, in the
[0095]
The transmission side terminal 81 sends the voice data D4 of the user digitally converted after being collected by a microphone (not shown) to the voice
[0096]
Further, the transmission side terminal 81 sequentially sends the image data D1 digitally converted after the user's face is imaged by an imaging means (not shown) to the image
[0097]
Here, after sending the image data D1 serving as a reference for one frame to the image
[0098]
The image
[0099]
Then, the image
[0100]
The motion image
[0101]
That is, the motion image
[0102]
The
[0103]
Here, only when image encoded data D2 for one frame is supplied from the image
[0104]
The
[0105]
The receiving side terminal 82 receives the transmission data D85 transmitted via the
[0106]
In practice, the
[0107]
The
[0108]
Incidentally, the
[0109]
The
[0110]
The image
[0111]
The motion image
[0112]
The wire
[0113]
Here, the wire frame image data D16 decoded by the
[0114]
The synthesizing
[0115]
The
[0116]
In the above configuration, in the
[0117]
At this time, since it is considered that the transmitting terminal 81 generally changes the facial expression when a voice is emitted, it extracts the motion image component data D83 relating to the eye part while the voice is being emitted. And sent to the
[0118]
Then, the transmission side terminal 81 multiplexes the image encoded data D2, the audio encoded data D5, and the motion image component data D83 only at the beginning of communication by the
[0119]
In this way, the transmitting-side terminal 81 extracts the motion image component data D83 relating to the eye portion other than the mouth portion while the sound is being emitted, thereby moving image component data D83 for reproducing the motion of the eye portion. And the speech encoded data D5 for reproducing the movement of the mouth portion.
[0120]
As a result, the transmitting-side terminal 81 wastefully overlaps the image data D1 of the face image for one frame serving as a reference, the motion image component data D83 related to the eye portion, and the audio encoded data D5 related to the mouth portion as data. Therefore, the data can be transmitted as the minimum necessary amount of data, respectively, and thus the data transmission amount can be remarkably reduced and the power consumption can be further reduced as compared with the conventional transmission side terminal 2 (FIG. 6). .
[0121]
On the other hand, the receiving side terminal 82 restores the image data D16 of the reference face image sent only at the beginning of communication, and then moves the movement of the mouth portion generated based on the audio encoded data D88. The wire frame data D92 to be represented and the wire frame data D91 generated based on the motion image component data D90 are superimposed on the image data D16 of the face image and synthesized, and the image distortion of the motion portion is determined according to the wire frame data D91 and D92. By correcting the minutes, motion image data D93 in which the eye portion and the mouth portion move according to the sound is generated and output as a display image.
[0122]
As a result, the receiving terminal 82 not only displays a display image as if the mouth of the face image is moving in accordance with the voice of the user of the transmitting terminal 81 but also displays the movement of the eye part at that time. As a result, a face image rich in expression can be displayed as a display image.
[0123]
At this time, the receiving-side terminal 82 is associated with image data D1 of the face image for one frame serving as a reference, motion image component data D83 related to the eye portion, and speech encoded data D5 related to the mouth portion, respectively. Since the display image can be generated with the minimum necessary data processing amount, the data processing amount can be greatly reduced as compared with the conventional receiving side terminal 3 (FIG. 6), thus further reducing the power consumption. can do.
[0124]
According to the above configuration, the
[0125]
In addition, the
[0126]
At this time, the receiving-side terminal 82 can move and display the mouth portion and the eye portion in accordance with the voice with respect to the reference face image, so that it is possible to provide an expression-rich and higher-dimensional display image in real time. it can.
[0127]
(5) Other embodiments
In the first embodiment described above, the receiving side terminal 22 reads out the motion image data D32 representing the movement of the mouth portion corresponding to the speech encoded data D32 by the motion
[0128]
Further, in the above-described first embodiment, the case where the transmission side terminal 21 compresses and encodes the image data D23 representing the user's face image and transmits the image data D23 to the reception side terminal 22 has been described. However, the present invention is not limited thereto, and the image data D23 representing the character's face may be compressed and transmitted.
[0129]
Furthermore, in the first embodiment described above, the receiving side terminal 22 reads out the motion image data D32 representing the movement of the mouth portion corresponding to the speech encoded data D32 by the motion
[0130]
In this case, in FIG. 5 in which the same reference numerals are assigned to corresponding parts to FIG. 1, the receiving side terminal 22 of the
[0131]
The
[0132]
The reception side terminal 22 receives the transmission data D103 transmitted via the
[0133]
The moving
[0134]
Furthermore, in the second embodiment described above, a case has been described in which the transmitting terminal 41 transmits image identification information D42 corresponding to image data representing a character's face image to the receiving
[0135]
Further, in the second to fourth embodiments described above, the
[0136]
Furthermore, in the above-described first to fourth embodiments, the movement of the mouth portion is decoded based on the word information corresponding to the speech encoded data received from the transmitting side terminals 21, 41, 61 and 81, and accordingly However, the present invention is not limited to this, and a display image in which the mouth portion moves is displayed based on word information corresponding to text data, phonetic symbols, and the like. You may do it.
[0137]
Furthermore, in the above-described first to fourth embodiments, the movement of the mouth portion is decoded based on the speech encoded data as the word information received from the transmitting side terminals 21, 41, 61 and 81, and accordingly Although the case where the movement is displayed as the display image has been described, the present invention is not limited to this. For example, between the base station and the receiving
[0138]
【The invention's effect】
As described above, according to the present invention, on the transmission side, the user's voice data, the face image model for one frame, Considering the correlation that facial expression changes when the user's voice is emitted, Audio data Only while sending to the receiver Each point of eye area of face image model As an analysis parameter Change over time Showing of the above wireframe The motion image component data is transmitted, and on the receiving side, the eye partial motion image data is generated based on the motion image component data, the mouth partial motion image data is generated based on the audio data, and then synthesized with the face image model. By reducing the amount of data transmitted from the transmitting device to the receiving device, the distance between the eye portion and the mouth portion is reduced. As facial expression An expression-rich face image in a correlated state can be displayed, thus realizing an image transmission system capable of executing real-time processing with a simple configuration and low power consumption.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a television telephone system according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a television telephone system according to a second embodiment of the present invention.
FIG. 3 is a block diagram showing a configuration of a television telephone system according to a third embodiment of the present invention.
FIG. 4 is a block diagram showing a configuration of a television telephone system according to a fourth embodiment of the present invention.
FIG. 5 is a block diagram showing a configuration of a videophone system according to another embodiment.
FIG. 6 is a block diagram showing a configuration of a conventional television telephone system.
[Explanation of symbols]
1, 20, 40, 60, 80, 100... TV telephone system, 2, 21, 41, 61, 81... Transmitting terminal, 3, 22, 42, 62, 82. 24... Image compression encoding circuit, 5, 83... Motion image component extraction circuit, 6... Multiplexing circuit, 7. ... demodulation circuit, 11 ... separation circuit, 12 ... sound decoding circuit, 13, 84 ... moving image component decoding circuit, 14 ... image decoding circuit, 15 ... image data holding circuit, 16, 26, 64, 86... Composition circuit, 25... Motion image holding circuit, 23, 42, 43, 65... Image database, 44, 63, 85.
Claims (1)
上記送信装置は、
マイクロフォンによって集音したユーザの音声データを上記受信装置へ送信する音声データ送信手段と、
上記ユーザの顔を撮影することにより得られた基準となる1フレーム分の顔画像データを複数のポイントに分割して結ぶことによりワイヤフレームでなる顔画像モデルを生成し、これを上記受信装置へ送信する顔画像モデル送信手段と、
上記ユーザの音声が発せられたときに顔の表情が変化するという相関関係を考慮し、上記音声データを上記受信装置へ送信している間だけ、上記顔画像モデルの目元部分の各ポイントを分析パラメータとして用い、その時間的変化を上記ワイヤフレームの動き画像成分データとして抽出し、これを上記受信装置へ送信する動き画像成分データ送信手段と
を具え、
上記受信装置は、
上記顔画像モデルを保持する顔画像モデル保持手段と、
上記動き画像成分データに基づいて上記顔画像モデルの上記目元部分について動きのある目元部分動き画像データを生成する目元部分動き画像データ生成手段と、
上記音声データに基づいて上記顔画像モデルの口元部分の動き状態を解読することにより口元部分動き画像データを生成する口元部分動き画像データ生成手段と、
上記顔画像モデルに対して、上記目元部分動き画像データ及び上記口元部分動き画像データを合成することにより合成画像を生成する合成手段と、
上記合成画像を表示する表示手段と
を具える画像伝送システム。In an image transmission system including a transmission device and a reception device,
The transmitter is
Voice data transmitting means for transmitting user voice data collected by a microphone to the receiving device;
A face image model of a wire frame is generated by dividing the face image data for one frame obtained by photographing the user's face into a plurality of points and connecting it to the receiving device. A face image model transmitting means for transmitting;
Considering the correlation that facial expression changes when the user's voice is emitted , each point in the eye portion of the face image model is analyzed only while the voice data is being transmitted to the receiving device. It is used as a parameter, and its temporal change is extracted as motion image component data of the wire frame, and includes a motion image component data transmitting means for transmitting this to the receiving device,
The receiving device is
Face image model holding means for holding the face image model;
Eye part motion image data generating means for generating eye part motion image data with movement for the eye part of the face image model based on the motion image component data;
Mouth portion motion image data generating means for generating mouth portion motion image data by decoding the motion state of the mouth portion of the face image model based on the audio data;
A synthesizing unit that generates a synthesized image by synthesizing the eye partial motion image data and the mouth partial motion image data with respect to the face image model;
An image transmission system comprising: display means for displaying the composite image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000192965A JP4437514B2 (en) | 2000-06-27 | 2000-06-27 | Image transmission system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000192965A JP4437514B2 (en) | 2000-06-27 | 2000-06-27 | Image transmission system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002008051A JP2002008051A (en) | 2002-01-11 |
JP4437514B2 true JP4437514B2 (en) | 2010-03-24 |
Family
ID=18692032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000192965A Expired - Fee Related JP4437514B2 (en) | 2000-06-27 | 2000-06-27 | Image transmission system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4437514B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220329743A1 (en) * | 2019-08-20 | 2022-10-13 | Sony Interactive Entertainment Inc. | Transfer control device, image processing device, transfer control method, and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104967834A (en) * | 2015-07-29 | 2015-10-07 | 南阳理工学院 | Computer image processing system |
-
2000
- 2000-06-27 JP JP2000192965A patent/JP4437514B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220329743A1 (en) * | 2019-08-20 | 2022-10-13 | Sony Interactive Entertainment Inc. | Transfer control device, image processing device, transfer control method, and program |
US11910110B2 (en) * | 2019-08-20 | 2024-02-20 | Sony Interactive Entertainment Inc. | Transfer control device, image processing device, transfer control method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2002008051A (en) | 2002-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4842033B2 (en) | Image display apparatus and method for portable terminal | |
US7859561B2 (en) | Method and system for video conference | |
KR100827802B1 (en) | Video telephony apparatus of potable device and transmit-receiving method thereof | |
JP2004533666A (en) | Communications system | |
KR20080043492A (en) | Portable terminal having image overlay function and method for image overlaying in portable terminal | |
JP2006262484A (en) | Method and apparatus for composing images during video communication | |
JP2004304601A (en) | Tv phone and its data transmitting/receiving method | |
CN1777284A (en) | Image encoding method, image decoding method, and apparatus thereof | |
US20040227811A1 (en) | Communication apparatus and method | |
JPH1013799A (en) | Video telephone set | |
JP4437514B2 (en) | Image transmission system | |
JP2003152888A (en) | Mobile phone with video function and automatic answering message function | |
JP2000092460A (en) | Device and method for subtitle-voice data translation | |
KR100678035B1 (en) | Device and method for identifying photographer of image in terminal using camera | |
KR101232537B1 (en) | Video communication terminal and video method communicating in video communication terminal | |
JP2003309829A (en) | Mobile moving picture phone | |
JP2003061098A (en) | Image processor, image processing method, recording medium and program | |
US20040208481A1 (en) | Apparatus and method for image processing, and image processing system using the same and program | |
JP3062080U (en) | Telephone with screen | |
KR100769672B1 (en) | Mobile communication terminal having the function of video communication | |
JP2005173772A (en) | Image communication system and image formation method | |
JP2006217187A (en) | Telephone system and its telephone call method, telephone terminal, telephone system control program, and recording medium with same program recorded thereon | |
KR20000009754A (en) | Intelligent image telephone and data processing method applied to the same | |
KR20090097319A (en) | Method for performing a video telephony using substitution picture in a portable terminal and a apparatus thereof | |
JPS6284689A (en) | Picture transmission and display system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090716 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091223 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |