JPH08251562A - Video conversation system - Google Patents

Video conversation system

Info

Publication number
JPH08251562A
JPH08251562A JP7054431A JP5443195A JPH08251562A JP H08251562 A JPH08251562 A JP H08251562A JP 7054431 A JP7054431 A JP 7054431A JP 5443195 A JP5443195 A JP 5443195A JP H08251562 A JPH08251562 A JP H08251562A
Authority
JP
Japan
Prior art keywords
image
memory
motion vector
motion
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7054431A
Other languages
Japanese (ja)
Inventor
Noritoshi Shibuya
文紀 渋谷
Hiroya Kusaka
博也 日下
Masaaki Nakayama
正明 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7054431A priority Critical patent/JPH08251562A/en
Publication of JPH08251562A publication Critical patent/JPH08251562A/en
Pending legal-status Critical Current

Links

Landscapes

  • Studio Circuits (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

PURPOSE: To permit conversation in a natural state wherein users look at each other when the users communicate with each other while viewing mutual images of television telephone, television conference, etc., on monitors. CONSTITUTION: A memory 103 stores the image of the full face of a user 100 (image pickup device sight) and a memory 104 stores the image of a current user (who is using the system) at all times. A movement detection means 105 detects the state of the position shift of the image in the memory 103 from the image in the memory 104, and an image position moving means 106 moves the image position in the memory 103 so as to minimize the position shift and writes the moved image in the memory 103 into a memory 107. A moving detecting means 108 detects moving vectors by units of pixels or areas of the image in the memory 104 as to the image in the memory 107 and a control means 109 makes corrections on the basis of the moving vectors so that the image in the memory 104 is put composite with the image in the memory 107, and outputs the resulting image.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、テレビ電話、テレビ会
議などのモニタを通じて相手側の画像を見ながらコミニ
ュケートする映像対話システムに関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a video interactive system for communicating while watching the image of the other party through a monitor such as a videophone and a video conference.

【0002】[0002]

【従来の技術】映像と音声を双方向で伝送する映像対話
システムは、自分、あるいは相手側の画像を取り込む撮
像装置と、この撮像装置で取り込んだ画像を映すモニタ
を使用して映像を送受信する。ここで、利用者がモニタ
を通じて相手側の顔を見ながら対話する場合、利用者ど
うしの目線が合っていれば違和感のない自然な対話がで
きる。
2. Description of the Related Art A video interactive system for bidirectionally transmitting video and audio transmits and receives video by using an image pickup device that captures an image of itself or the other party and a monitor that displays the image captured by this image pickup device. . Here, when the user has a dialogue while looking at the other party's face through the monitor, if the eyes of the users are matched, a natural dialogue without a feeling of strangeness can be performed.

【0003】従来の映像対話システムとしては、例えば
実開昭62−21687号公報に示されている。
A conventional image interactive system is disclosed in, for example, Japanese Utility Model Laid-Open No. 62-21687.

【0004】以下に、従来の映像対話システムについて
説明する。図13はこの従来の映像対話システムの構成
図を示すものである。図13において、1301は遮光
ケース、1302は利用者を撮影する撮像装置、130
3は相手利用者を映すモニタ、1304はハーフミラ
ー、1305は利用者である。
A conventional video dialogue system will be described below. FIG. 13 is a block diagram of this conventional video dialogue system. In FIG. 13, 1301 is a light-shielding case, 1302 is an image pickup device for photographing the user, 130
Reference numeral 3 is a monitor showing the other user, 1304 is a half mirror, and 1305 is a user.

【0005】以上のように構成された映像対話システム
について、以下その動作について説明する。
The operation of the video dialogue system configured as described above will be described below.

【0006】まず、遮光ケース1301はシステム内に
入ってくる外光を遮断する。利用者1305はモニタ1
303に映された相手利用者をハーフミラー1304に
反射させて見る。このとき、利用者の目線はハーフミラ
ー1304を向いているので、このハーフミラー130
4を隔てた利用者の目線上に撮像装置1302の光軸を
合わせて利用者を撮影して相手利用者にその画像を伝送
する。
First, the light shielding case 1301 blocks the external light entering the system. User 1305 is monitor 1
The other user reflected on 303 is reflected by the half mirror 1304 for viewing. At this time, since the user's eyes are directed to the half mirror 1304, this half mirror 130
The optical axis of the image pickup device 1302 is aligned with the line of sight of the user, which is separated by 4, and the user is photographed and the image is transmitted to the other user.

【0007】[0007]

【発明が解決しようとする課題】しかしながら上記の従
来の構成では、ハーフミラーを使用するためモニタの大
きさが限定され、さらにシステム全体が大きな容積を持
ってしまうという問題点を有していた。
However, the above-mentioned conventional configuration has a problem that the size of the monitor is limited because the half mirror is used, and the whole system has a large volume.

【0008】本発明は上記従来の問題点を解決するもの
で、小型で、モニタの大きさも自由に選択でき、モニタ
を見ながらでも利用者同士が目線を合わせて自然な状態
で通話することができる映像対話システムを提供するこ
とを目的とする。
The present invention solves the above-mentioned conventional problems. It is compact, the size of the monitor can be freely selected, and users can talk in a natural state while looking at the monitor while looking at each other. The purpose is to provide a video dialogue system that can be used.

【0009】[0009]

【課題を解決するための手段】この目的を達成するため
に本発明の映像対話システムは、モニタを見る人物を撮
影する撮像装置と、この人物の顔の正面の画像を記憶す
ることができる第1のメモリと、撮像装置の画像を記憶
する第2のメモリと、第1のメモリの画像に対する第2
のメモリの画像の動きベクトルを検出する第1の動き検
出手段と、この動きベクトルのスカラー量が最小になる
ように第1のメモリの画像位置を移動させる画像位置移
動手段と、移動後の第1のメモリの画像を記憶する第3
のメモリと、第3のメモリの画像に対する第2のメモリ
の画像の動きベクトルを検出する第2の動き検出手段
と、この動きベクトルをもとに第2のメモリの画像をコ
ントロールして第2のメモリの画像と第3のメモリの画
像を合成した画像を出力するコントロール手段とを備え
ている。
In order to achieve this object, a video interactive system of the present invention is capable of storing an image pickup device for photographing a person looking at a monitor and a front image of the person's face. No. 1 memory, a second memory for storing an image of the imaging device, and a second memory for the image of the first memory.
First motion detecting means for detecting the motion vector of the image in the memory, image position moving means for moving the image position in the first memory so that the scalar amount of the motion vector is minimized, and the first position after the movement. Third storing image of memory 1
Memory, and second motion detecting means for detecting a motion vector of the image of the second memory with respect to the image of the third memory, and controlling the image of the second memory based on this motion vector to control the second Control means for outputting an image obtained by synthesizing the image in the memory and the image in the third memory.

【0010】[0010]

【作用】本発明は上記した構成により、第1のメモリに
記憶されている正面を向いた利用者の画像に対する第2
のメモリに記憶されている現在の利用者の画像の動きベ
クトルを検出し、この動きベクトルがもっとも小さくな
るように第1のメモリの画像位置を移動して第2のメモ
リの画像に近似して第3のメモリに記憶させる。
According to the present invention, with the above-described structure, the second image for the front-facing user image stored in the first memory can be obtained.
Detects the motion vector of the image of the current user stored in the memory of, and moves the image position of the first memory so that this motion vector becomes the smallest, and approximates it to the image of the second memory. It is stored in the third memory.

【0011】つぎに、第3のメモリの画像に対する第2
のメモリの画像の動きベクトルを検出してこの動きベク
トルがk倍(0<k<1)になるように第2のメモリの
画像を補正する。以上の処理をすることによりテレビ電
話やテレビ会議などの互いの画像をモニタで見ながら通
話する場合、互いに目線を合わせて自然な状態の通話を
することができる。
Then, the second image for the image in the third memory is
The motion vector of the image in the memory is detected, and the image in the second memory is corrected so that the motion vector becomes k times (0 <k <1). By performing the above processing, when making a call while viewing each other's images on a monitor such as a videophone or a videoconference, it is possible to make a natural call by matching the eyes.

【0012】[0012]

【実施例】以下本発明の第1の実施例について、図面を
参照しながら説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the present invention will be described below with reference to the drawings.

【0013】図1は本発明の第1の実施例における映像
対話システムの構成図を示すものである。図1において
100は利用者であり、101は利用者を撮影する撮像
装置であり、1010は撮像装置101の出力をデジタ
ル信号に変換するアナログーデジタル変換手段(図では
A/Dと記す)であり、102は対話相手を映すモニタ
であり、103は利用者100の正面を向いた(撮像装
置目線の)画像を記憶するメモリであり、104は現在
の(システム利用中の)利用者の画像を記憶するメモリ
であり、105はメモリ103の画像に対するメモリ1
04の画像の位置ズレの状態を検出する動き検出手段で
あり、106はこの位置ズレが最小になるようにメモリ
103の画像位置を移動する画像位置移動手段であり、
107はこの移動したメモリ103の画像を記憶するメ
モリであり、108はメモリ107の画像に対するメモ
リ104の画像の画素、あるいはある単位のエリアごと
に動きベクトルを検出する動き検出手段であり、109
はこの動きベクトルをもとにメモリ104の画像をメモ
リ107の画像と合成するように補正して出力するコン
トロール手段である。
FIG. 1 is a block diagram of a video interactive system according to the first embodiment of the present invention. In FIG. 1, reference numeral 100 denotes a user, 101 denotes an image pickup apparatus for photographing the user, and 1010 denotes an analog-digital conversion unit (denoted as A / D in the figure) for converting the output of the image pickup apparatus 101 into a digital signal. Yes, 102 is a monitor showing a conversation partner, 103 is a memory for storing an image of the front of the user 100 (as viewed from the imaging device), and 104 is an image of the current user (while using the system). Is a memory for storing an image, and 105 is a memory 1 for an image in the memory 103.
Reference numeral 04 is a motion detecting means for detecting the state of positional deviation of the image, and 106 is an image position moving means for moving the image position of the memory 103 so as to minimize the positional deviation.
107 is a memory for storing the moved image of the memory 103, 108 is a motion detecting means for detecting a motion vector for each pixel of the image of the memory 104 or an area of a certain unit with respect to the image of the memory 107, 109
Is a control means for correcting the image of the memory 104 based on this motion vector so as to be combined with the image of the memory 107 and outputting it.

【0014】以上のように構成された本実施例の映像対
話システムについて、以下その動作について説明する。
利用者100はモニタ102に映っている相手側の映像
を見ながら対話しており、撮像装置101はその利用者
100を撮影する。アナログーデジタル変換手段101
0は撮像装置101の信号をデジタル信号に変換する。
The operation of the video interactive system of the present embodiment constructed as described above will be described below.
The user 100 is interacting while watching the video of the other party displayed on the monitor 102, and the imaging device 101 photographs the user 100. Analog-digital conversion means 101
0 converts the signal of the imaging device 101 into a digital signal.

【0015】メモリ103にはシステム利用前に利用者
の正面画像(カメラ目線画像)を記憶させておき、メモ
リ104には撮像装置101の画像を随時記憶させる。
動き検出手段105はメモリ103の画像とメモリ10
4の画像を複数のエリアに分割し、そのエリアごとにメ
モリ103の画像とメモリ104の画像を比較してメモ
リ103の画像に対するメモリ104の画像の動きベク
トルを各エリアごとに検出してそれらを平均して出力
し、画像位置移動手段106は動き検出手段105から
出力される動きベクトルが最小となるようにメモリ10
3の画像を移動する。これによりメモリ103の画像を
メモリ104の画像に近似させる。メモリ107はこの
移動した画像を記憶する。動き検出手段108はこのメ
モリ107の画像に対するメモリ104の画像の動きベ
クトルを画素単位で検出し、コントロール手段109は
この動きベクトルがある範囲まで小さくなるようにメモ
リ104の画像を補正することでメモリ104の画像と
メモリ107の画像を合成したような画像を出力する。
Before the system is used, the memory 103 stores the front image of the user (the image viewed from the camera), and the memory 104 stores the image of the image pickup device 101 at any time.
The motion detection means 105 includes the image of the memory 103 and the memory 10.
The image of No. 4 is divided into a plurality of areas, the image of the memory 103 and the image of the memory 104 are compared for each area, the motion vector of the image of the memory 104 with respect to the image of the memory 103 is detected for each area, and they are calculated. The average position is outputted, and the image position moving means 106 makes the memory 10 so that the motion vector outputted from the motion detecting means 105 becomes the minimum.
Move the image of 3. As a result, the image in the memory 103 is approximated to the image in the memory 104. The memory 107 stores this moved image. The motion detection means 108 detects the motion vector of the image of the memory 104 with respect to the image of the memory 107 in pixel units, and the control means 109 corrects the image of the memory 104 so that the motion vector is reduced to a certain range. An image similar to the image of 104 and the image of the memory 107 is output.

【0016】図2、図3、図4、図5、図6を用いて以
下に詳細な説明をする。図2(a)はメモリ103に記
憶されている画像(利用者の正面画像)を示したもので
ある。図2(b)はメモリ104に記憶されている画像
(撮像装置101の画像)を示したものであり、利用者
はモニタ102を見ているため目線は撮像装置101を
向いていない。図3(a)はメモリ103の画像(図2
(a))とメモリ104の画像(図2(b))を模式的
に重ねた図である。この図における画像の位置ズレを動
き検出手段105により動きベクトルとして検出する。
検出方法としては、それぞれの画像を複数のエリアにブ
ロック分割し(図3に示す)、一方の画像のあるエリア
を他方の画像とエリアごとに比較し、一致または近似し
たエリアが存在した場合、それらのエリアの位置の差を
動きベクトルとして検出し、この処理を総てのエリアに
ついて行い、検出した動きベクトルを画像位置移動手段
106に出力する。図3(b)はその動きベクトルのみ
を表したものである。画像位置移動手段106は動き検
出手段105で検出された動きベクトルを平均し、これ
が最小になるようにメモリ103の画像を移動する。移
動はメモリ103の先頭アドレスデータの位置をその位
置から動きベクトルの平均した値の位置にシフトするよ
うにメモリ103の画像をメモリ107に書き込み、メ
モリ104の画像位置にメモリ107の画像位置が重な
った状態にする。
A detailed description will be given below with reference to FIGS. 2, 3, 4, 5, and 6. FIG. 2A shows an image (a front image of the user) stored in the memory 103. FIG. 2B shows an image (image of the image pickup apparatus 101) stored in the memory 104, and since the user is looking at the monitor 102, the line of sight is not facing the image pickup apparatus 101. FIG. 3A shows an image in the memory 103 (see FIG.
FIG. 3A is a diagram schematically showing an image (FIG. 2B) in the memory 104 superimposed on each other. The positional deviation of the image in this figure is detected by the motion detecting means 105 as a motion vector.
As a detection method, each image is divided into a plurality of areas (shown in FIG. 3), one area of one image is compared with the other image for each area, and when there is a matched or approximated area, The difference between the positions of these areas is detected as a motion vector, this processing is performed for all areas, and the detected motion vector is output to the image position moving means 106. FIG. 3B shows only the motion vector. The image position moving means 106 averages the motion vectors detected by the motion detecting means 105, and moves the image in the memory 103 so as to minimize the motion vector. In the movement, the image of the memory 103 is written in the memory 107 so that the position of the head address data of the memory 103 is shifted from that position to the position of the average value of the motion vector, and the image position of the memory 107 overlaps the image position of the memory 104. Turn it on.

【0017】図3(c)はその模式図である。図4は動
き検出手段108によるメモリ107の画像に対するメ
モリ104の画像の画素ごとの動きベクトルの検出を示
したものである。検出方法は動き検出手段105と同様
にするが分割するエリアの大きさが画素単位となる。図
4中の矢印が動きベクトルを示しており、矢印の数は見
やすさ上いくつか省略している。ここで、動き検出手段
105、画像位置移動手段106、動き検出手段108
に関しては、すでに画像処理の分野では一般的に知られ
ており、例えばテレヒ゛シ゛ョン学会技術報告Vol.11No.3,pp43-
48,PPOE'87-12(May1987)に詳細な報告があり、このよう
な方法で実現することができる。ゆえに本実施例ではこ
れ以上の詳細な説明は省略する。
FIG. 3C is a schematic diagram thereof. FIG. 4 shows the detection of the motion vector for each pixel of the image in the memory 104 with respect to the image in the memory 107 by the motion detecting means 108. The detection method is the same as that of the motion detection means 105, but the size of the divided area is in pixel units. The arrows in FIG. 4 indicate motion vectors, and the number of arrows is omitted for clarity. Here, the motion detecting means 105, the image position moving means 106, and the motion detecting means 108.
Is already generally known in the field of image processing, for example, Technical Report of Television Society Vol.11 No.3, pp43-
48, PPOE'87-12 (May 1987) has a detailed report and can be realized by such a method. Therefore, further detailed description is omitted in this embodiment.

【0018】図5はコントロール手段109の処理内容
を示すものであり、図中矢印aは動き検出手段108に
より検出されたメモリ104中のある画素に対するメモ
リ107中の画素の動きベクトルを表している。コント
ロール手段109の処理は、動きベクトルaをk倍(0
<k<1)した位置にメモリ104の画素を移動させる
ことでメモリ104の画素をメモリ107の画素と合成
するように補正して出力する。図6(a)はコントロー
ル手段を構成するブロック図である。図中s1はメモリ1
04の画像データであり、画素、あるいは画面をある単
位のエリアに分割した場合の各エリアデータごとにコン
トロール手段109に入力される。s2はこのデータs1の
メモリ104でのアドレスであり、s3は動き検出手段1
08で検出されたデータs1に対応する動きベクトルであ
る。601はデータs1、アドレスs2と動きベクトルs3の
入力タイミングを合わせるバッファであり、602は後
述するメモリ603にデータs1を書き込む時に、動きベ
クトルs3とアドレスs2をもとに書き込みアドレスを与え
る書き込みアドレスコントロール手段であり、メモリ6
03は書き込みアドレスコントロール手段602で与え
られたアドレスにデータs1を書き込み、メモリ104の
データを総て書き終えた時点で補正した画像データとし
て出力するメモリであり、604は動きベクトルs3をk
倍(0<k<1)する乗算器である。以下に詳細な動作
を図6(b)を用いて説明する。図6(b)はコントロ
ール手段109により画面中のデータの移動の様子を表
す模式図である。図中A1はデータs1のメモリ104での
データ位置(メモリ104でのアドレス)であり、ka
は動きベクトルs3を乗算器604でk倍したものであ
る。
FIG. 5 shows the processing contents of the control means 109, and the arrow a in the figure represents the motion vector of the pixel in the memory 107 for a certain pixel in the memory 104 detected by the motion detecting means 108. . The processing of the control means 109 is performed by multiplying the motion vector a by k (0
By moving the pixel of the memory 104 to the position <k <1), the pixel of the memory 104 is corrected so as to be combined with the pixel of the memory 107, and then output. FIG. 6A is a block diagram of the control means. In the figure, s1 is memory 1
The image data of No. 04 is input to the control unit 109 for each pixel or each area data when the screen is divided into areas of a certain unit. s2 is the address of this data s1 in the memory 104, and s3 is the motion detection means 1
It is a motion vector corresponding to the data s1 detected in 08. Reference numeral 601 denotes a buffer for adjusting the input timing of the data s1, the address s2 and the motion vector s3, and 602 is a write address control for giving a write address based on the motion vector s3 and the address s2 when writing the data s1 in the memory 603 described later. Means and memory 6
Reference numeral 03 is a memory for writing the data s1 at the address given by the write address control means 602 and outputting it as corrected image data when all the data in the memory 104 has been written. Reference numeral 604 denotes the motion vector s3 by k.
It is a multiplier that doubles (0 <k <1). The detailed operation will be described below with reference to FIG. FIG. 6B is a schematic view showing how the data in the screen is moved by the control means 109. In the figure, A1 is the data position (address in the memory 104) of the data s1 in the memory 104, and ka
Is the motion vector s3 multiplied by k in the multiplier 604.

【0019】A2はデータs1を動きベクトルkaに従って
移動した位置(メモリ603でのアドレス)であり、こ
の位置がデータs1をメモリ603に書き込むアドレスと
なる。
A2 is a position (address in the memory 603) where the data s1 is moved according to the motion vector ka, and this position is an address for writing the data s1 in the memory 603.

【0020】書き込みアドレスコントロール手段602
はアドレスs2(図6(b)中A1)と動きベクトルs3(図
6(b)中ka)により図6(b)中A2の位置を示すア
ドレスを演算してメモリ603に出力し、メモリ603
はこのアドレスにデータs1を書き込む。これによりデー
タs1は、A1からA2に移動することになる。図7はコント
ロール手段109によるメモリ104の画像の補正の様
子を示したものである。図7(a)は補正前の図4中の
太円内の拡大図で、矢印が動きベクトルを示している。
この動きベクトルをk倍(0<k<1)してコントロー
ル部で補正した様子を表したものが図7(b)である。
図7(b)中波線部分は補正前のメモリ104とメモリ
107の画像であり補正後は実線部分に表される。
Write address control means 602
6A calculates the address indicating the position of A2 in FIG. 6B from the address s2 (A1 in FIG. 6B) and the motion vector s3 (ka in FIG. 6B) and outputs it to the memory 603.
Writes data s1 to this address. This causes the data s1 to move from A1 to A2. FIG. 7 shows how the control means 109 corrects the image in the memory 104. FIG. 7A is an enlarged view inside the thick circle in FIG. 4 before correction, and the arrow indicates the motion vector.
FIG. 7B shows a state in which the motion vector is multiplied by k (0 <k <1) and corrected by the control unit.
In FIG. 7B, the middle wavy line part is an image of the memory 104 and the memory 107 before correction and is shown by the solid line part after correction.

【0021】以上のような構成により、テレビ電話やテ
レビ会議などの互いの画像をモニタで見ながら通話する
場合、互いに目線を合わせて自然な状態の通話をするこ
とができる。
With the above configuration, when making a call while viewing each other's images on a monitor such as in a videophone or a videoconference, it is possible to make a natural call by matching the eyes.

【0022】なお、本実施例において動き検出手段10
5、画像位置移動手段106、動き検出手段108に関
しては、テレヒ゛シ゛ョン学会技術報告Vol.11No.3,pp43-48,PPO
E'87-12(May1987)に報告されている方法で実現すること
ができると述べたが、これに限定されるものではない。
In this embodiment, the motion detecting means 10
5. Regarding the image position moving means 106 and the motion detecting means 108, the Television Society Technical Report Vol.11 No.3, pp43-48, PPO
Although it can be realized by the method reported in E'87-12 (May 1987), it is not limited thereto.

【0023】また、本実施例においては、撮像装置はア
ナログ映像信号を出力するものとして説明したがこれに
限るものではなく、例えばデジタル信号を出力する撮像
装置を用い、アナログーデジタル変換手段を用いない構
成も考えられる。
Further, in the present embodiment, the image pickup device is described as outputting an analog video signal, but the present invention is not limited to this. For example, an image pickup device outputting a digital signal is used, and analog-digital conversion means is used. It is also possible that there is no configuration.

【0024】また、本実施例においては、本映像対話シ
ステムの出力はデジタル信号となるが、これに限るもの
ではなく、相手方との通信方式に応じてデジタルからア
ナログへの変換、あるいは、画像情報の圧縮等が行える
ことは明らかである。
In the present embodiment, the output of the video interactive system is a digital signal, but the output is not limited to this, and conversion from digital to analog or image information is performed according to the communication system with the other party. It is obvious that the compression and the like can be performed.

【0025】また、本実施例では動き検出手段を2つ設
けているが、これを1つにまとめる構成も考えられるこ
とは明らかである。
Further, although two motion detecting means are provided in the present embodiment, it is obvious that a configuration in which they are combined is also conceivable.

【0026】図8は本発明の第2の実施例を示す映像対
話システムの構成図である。同図において、100は利
用者であり、102はモニタであり、101は利用者1
00を撮影する撮像装置であり、1010は撮像装置1
01の出力をデジタル信号に変換するアナログーデジタ
ル変換手段(図ではA/Dと記す)であり、103はシ
ステム利用前に利用者の正面画像(カメラ目線画像)を
記憶させておくメモリであり、104に撮像装置101
の画像を随時記憶するメモリであり、105はメモリ1
03の画像に対するメモリ104の画像(撮像装置10
1の画像)の位置ズレの状態を検出する動き検出手段で
あり、106はこの位置ズレが最小となるようにメモリ
103の画像を移動する画像位置移動手段であり、10
7はこの移動したメモリ103の画像を記憶するメモリ
であり、108はこのメモリ107の画像に対するメモ
リ104の画像の動きベクトルを検出する動き検出手段
であり、109はこの動きベクトルがk倍(0<k<
1)になるようにメモリ104の画像をコントロールす
ることでメモリ104の画像をメモリ107の画像と合
成するように補正して出力するコントロール手段であ
り、以上は第1の実施例の構成と同様なものである。第
1の実施例と異なるのは801のセレクタをもうけた点
である。セレクタ801は動き検出手段105により検
出された動きベクトルの大きさが非常に大きい場合は補
正範囲外と判断し、また非常に小さい場合は補正の必要
がないと判断してメモリ104の画像をスルーで出力す
るものである。
FIG. 8 is a block diagram of a video interactive system showing a second embodiment of the present invention. In the figure, 100 is a user, 102 is a monitor, 101 is a user 1.
Reference numeral 1010 denotes the image pickup apparatus 1
Reference numeral 103 is an analog-to-digital conversion means (indicated as A / D in the figure) for converting the output of 01 into a digital signal, and 103 is a memory for storing the front image of the user (camera line-of-sight image) before using the system. , 104 to the imaging device 101
105 is a memory for storing the image of
Image of the memory 104 (image pickup device 10
1) is a motion detecting means for detecting a position deviation state, and 106 is an image position moving means for moving the image in the memory 103 so as to minimize the position deviation.
7 is a memory for storing the moved image of the memory 103, 108 is a motion detecting means for detecting a motion vector of the image of the memory 104 with respect to the image of the memory 107, and 109 is k times (0 <K <
This is a control means for correcting the image of the memory 104 so as to be combined with the image of the memory 107 by controlling the image of the memory 104 so as to be 1), and the above is the same as the configuration of the first embodiment. It is something. The difference from the first embodiment is that an 801 selector is provided. The selector 801 judges that the magnitude of the motion vector detected by the motion detecting means 105 is out of the correction range when it is very large, and judges that correction is unnecessary when it is very small, and the image in the memory 104 is passed through. Is output by.

【0027】以上のように本実施例によれば利用者の正
面画像に対するシステム利用中の利用者の画像の動きベ
クトルの大きさによりセレクタで補正画とスルー画を選
択して出力することで、過剰な補正による不自然な画像
の出力を軽減でき、テレビ電話やテレビ会議などの互い
の画像をモニタで見ながら通話する場合、互いに目線を
合わせて自然な状態の通話をすることができる。
As described above, according to the present embodiment, the correction image and the through image are selected and output by the selector according to the magnitude of the motion vector of the image of the user who is using the system with respect to the front image of the user. Unnatural image output due to excessive correction can be reduced, and when making a call while viewing each other's image on a monitor such as a videophone or a videoconference, it is possible to make a natural call by aligning the eyes.

【0028】図9は、本発明の第3の実施例の構成図で
ある。同図において、100は映像対話システムの利用
者、102は相手方の映像を映し出すモニタ、901、
902は利用者100を撮影するためにモニタ102の
側面に設置された撮像装置、1010,1011は撮像
装置901、902の出力をデジタル信号に変換するア
ナログーデジタル変換手段(図ではA/Dと記す)、9
04は、アナログーデジタル変換手段1010,101
1によりデジタル信号に変換された利用者100の映像
信号から、利用者100を正面から撮影した場合と類似
の映像を画像処理により合成する画像合成手段である。
FIG. 9 is a block diagram of the third embodiment of the present invention. In the figure, 100 is a user of the video interactive system, 102 is a monitor for displaying the video of the other party, 901,
Reference numeral 902 denotes an image pickup device installed on the side surface of the monitor 102 for taking an image of the user 100, and 1010 and 1011 denote analog-to-digital conversion means (A / D and A / D in the figure) for converting outputs of the image pickup devices 901 and 902 into digital signals. Note), 9
04 is analog-digital conversion means 1010, 101
It is an image synthesizing means for synthesizing, by image processing, a video similar to that when the user 100 is photographed from the front, from the video signal of the user 100 converted into a digital signal by 1.

【0029】図10は、図9に示した画像合成手段の具
体的な構成例を示したブロック図である。図10におい
て、1000は撮像装置901、902により撮影され
た利用者100の映像から、特に顔の目、鼻、口、等の
構成要素を抽出する特徴抽出手段、1001は、特徴抽
出手段1000により抽出された利用者100の顔の
目、鼻、口等の各部位の三次元的位置を推定する三次元
位置推定手段、1002は、三次元位置推定手段100
1による推定結果に基づき、利用者100の顔の正面画
像を合成する正面画像合成手段である。
FIG. 10 is a block diagram showing a concrete configuration example of the image synthesizing means shown in FIG. In FIG. 10, reference numeral 1000 denotes a feature extracting means for extracting constituent elements such as eyes, nose, and mouth of a face from the images of the user 100 captured by the image capturing devices 901 and 902, and 1001 denotes a feature extracting means 1000. A three-dimensional position estimating unit 1002 that estimates the three-dimensional position of each part of the face, eye, nose, mouth, etc. of the extracted user 100, and three-dimensional position estimating unit 100.
It is a front image synthesizing means for synthesizing the front image of the face of the user 100 based on the estimation result of 1.

【0030】以上のように構成された本実施例の映像対
話システムに関して、以下その動作について説明する。
なお、この画像合成手段904に関しては、すでに画像
処理の分野では、一般的に知られており、例えば、電子
情報通信学会技術研究報告HC91−43、p.9〜1
6またはナショナルテクニカルレポート第40巻第6号
p.106〜113、等に詳細な報告がある。ゆえに本
実施例においては詳細な説明は省略する。
The operation of the video interactive system of the present embodiment having the above configuration will be described below.
The image synthesizing means 904 is generally known in the field of image processing, and is described in, for example, IEICE Technical Research Report HC91-43, p. 9-1
6 or National Technical Report Vol. 40, No. 6, p. There are detailed reports in 106-113, etc. Therefore, detailed description is omitted in this embodiment.

【0031】撮像装置901、902により撮影された
利用者100の2つの映像は、特徴抽出手段1000に
送られる。特徴抽出手段1000では、2つの映像から
まず顔の部分の特徴、例えば、目、鼻、口、等の顔の構
成部品を抽出する。そしてこの抽出結果に基づき、三次
元位置推定手段1001により、上記、目、鼻、口、等
の顔の構成部品の三次元的な位置を推定し、この推定結
果を元に、正面画像合成手段1002により、利用者1
00の正面画像を合成する。そしてこの合成された利用
者100の正面画像を相手方に送信する。
Two images of the user 100 photographed by the image pickup devices 901 and 902 are sent to the feature extraction means 1000. The feature extracting unit 1000 first extracts the features of the face portion from the two images, for example, face constituent parts such as eyes, nose, and mouth. Then, based on this extraction result, the three-dimensional position estimating means 1001 estimates the three-dimensional positions of the face components such as the eyes, nose, mouth, etc., and based on this estimation result, the front image synthesizing means. 1002, user 1
The front image of 00 is synthesized. Then, the synthesized front image of the user 100 is transmitted to the other party.

【0032】以上のように、本実施例によれば、2台の
撮像装置により撮影された映像を用いて利用者の正面画
像を合成することにより、テレビ電話やテレビ会議な
ど、互いの画像をモニタで見ながら通話をする場合、互
いに目線を合わせて自然な状態の通話を行うことができ
る。
As described above, according to this embodiment, the front images of the users are combined by using the images captured by the two image pickup devices, so that the images of each other such as a videophone and a video conference can be displayed. When making a call while looking at a monitor, it is possible to make a call in a natural state by aligning the eyes of each other.

【0033】また、従来の例として示したハーフミラー
を用いた構成による映像対話システムに比べ、本実施例
の構成は画像合成手段904を電気部品、例えばIC等
で構成できるため、システム全体の大幅に小型・軽量化
が可能である。
Further, as compared with the video interactive system having the configuration using the half mirror shown as the conventional example, in the configuration of the present embodiment, the image synthesizing means 904 can be constructed by electric parts, for example, IC, etc. It can be made smaller and lighter.

【0034】なお、本実施例においては、2台の撮像装
置を用いる構成に関して説明したがこれに限るものでは
なく、例えば1台の撮像装置を用いる構成も考えられ、
この場合、全体のシステム構成が簡素化され、更に小型
・軽量化が実現できる。また、例えば3台以上の撮像装
置を用いる構成をとれば、より一層、精度の高い利用者
の正面画像の合成が可能となる。
In this embodiment, the configuration using two image pickup devices has been described, but the present invention is not limited to this. For example, a configuration using one image pickup device can be considered.
In this case, the entire system configuration is simplified, and the size and weight can be further reduced. In addition, for example, if three or more image pickup devices are used, it is possible to more accurately combine the front images of the user.

【0035】また、本実施例においては、撮像装置はア
ナログ映像信号を出力するものとして説明したがこれに
限るものではなく、例えばデジタル信号を出力する撮像
装置を用い、画像合成手段904はデジタルインターフ
ェイスにより映像信号を受け取る構成も考えられる。
Further, in the present embodiment, the image pickup device is described as outputting an analog video signal, but the present invention is not limited to this. For example, an image pickup device outputting a digital signal is used, and the image synthesizing means 904 is a digital interface. It is also conceivable that the configuration receives a video signal.

【0036】また、本実施例においては、画像合成手段
904の出力は、デジタル信号となるが、これに限るも
のではなく、相手方との通信方式に応じて、デジタルか
らアナログへの変換、もしくは、画像情報の圧縮等が行
えることは明かである。
Further, in the present embodiment, the output of the image synthesizing means 904 is a digital signal, but the output is not limited to this, and conversion from digital to analog or according to the communication system with the other party, or It is obvious that image information can be compressed.

【0037】また、本実施例においては、撮像装置をモ
ニタの両側面に配置する構成を用いて説明したがこれに
限るものではなく、例えば撮像装置をモニタの上下もし
くはモニタの対角線上に配置する等の構成も考えられ
る。
Further, although the present embodiment has been described by using the configuration in which the image pickup device is arranged on both sides of the monitor, the present invention is not limited to this. For example, the image pickup device is arranged above and below the monitor or on a diagonal line of the monitor. A configuration such as is also conceivable.

【0038】また、本実施例においては、画像合成手段
に関しては、特徴抽出手段1000、三次元位置推定手
段1001及び正面画像合成手段1002の3つの手段
をもって構成したがこれに限るものではない。
Further, in the present embodiment, the image synthesizing means is constituted by three means of the feature extracting means 1000, the three-dimensional position estimating means 1001 and the front image synthesizing means 1002, but the invention is not limited to this.

【0039】図11は、本発明の第4の実施例の構成図
である。本実施例は、アナログーデジタル変換手段(図
ではA/Dと記す)1010,1011によりデジタル
信号に変換された利用者100の映像信号に対し、肌色
部分の面積を検出した結果に基づき、2つの映像信号の
うち、どちらか一方を後述するセレクタ1102に送
り、且つ別の信号出力系により2つの映像信号をそのま
ま画像合成手段904に送る画像判定手段1101と、
画像判定手段1101からの制御信号(これをC1とす
る)により最終出力画像を画像合成手段904の出力と
するか、画像判定手段1101の出力とするかを選択す
るセレクタ1102を設けた部分のみ、第3の実施例と
異なる。
FIG. 11 is a block diagram of the fourth embodiment of the present invention. In the present embodiment, based on the result of detecting the area of the flesh-colored portion in the video signal of the user 100 converted into a digital signal by the analog-digital conversion means (denoted as A / D in the figure) 1010, 1011, 2 An image determination unit 1101 which sends one of the two video signals to the selector 1102 described later and sends the two video signals to the image synthesis unit 904 as they are by another signal output system,
Only a portion provided with a selector 1102 for selecting whether to output the final output image from the image synthesizing means 904 or the image determining means 1101 by a control signal from the image determining means 1101 (C1). Different from the third embodiment.

【0040】よって、第3の実施例と異なる部分に関し
てのみ説明する。図12は、図11に示した画像判定手
段の具体的な構成例を示したブロック図である。図12
において、1202及び1203は、撮像装置901及
び902により撮影された映像(撮像装置901により
撮影された映像をi1、撮像装置902により撮影され
た映像をi2とする)から肌色部分を検出する肌色検出
手段、1201は肌色検出手段1202、1203によ
り得られた検出結果を比較し、この比較結果を元にセレ
クタ1204とセレクタ1102を制御する比較手段、
1204は比較手段1201からの制御信号(これをs
cとする)に基づき2つの映像i1,i2のうちどちら
か一方を選択し出力するセレクタである。なお、この肌
色検出手段1202、1203に関しては一般に知られ
ており、先行特許(例えば特開平6−105323号公
報)等に詳細な報告がある。ゆえに本実施例においては
詳細な説明は省略する。
Therefore, only the parts different from the third embodiment will be described. FIG. 12 is a block diagram showing a specific configuration example of the image determination means shown in FIG. 12
In 1202 and 1203, flesh color detection for detecting a flesh color part from a video imaged by the imaging devices 901 and 902 (i1 is a video imaged by the imaging device 901 and i2 is a video imaged by the imaging device 902) A means 1201 compares the detection results obtained by the skin color detecting means 1202, 1203, and a comparison means for controlling the selector 1204 and the selector 1102 based on the comparison result.
1204 is a control signal from the comparison means 1201
It is a selector that selects and outputs either one of the two images i1 and i2 based on the (c). The skin color detecting means 1202 and 1203 are generally known, and there are detailed reports in prior patents (for example, Japanese Patent Laid-Open No. 6-105323). Therefore, detailed description is omitted in this embodiment.

【0041】以上のように構成された本実施例の映像対
話システムに関して、以下その動作について説明する。
The operation of the video interactive system of the present embodiment having the above configuration will be described below.

【0042】肌色検出手段1202は、映像i1からそ
の肌色の部分を検出し、その画素数をカウントする(カ
ウント結果をsaとする)。同様に肌色検出手段120
3は、映像i2から肌色部分の画素数をカウントする
(カウント結果をsbとする)。
The flesh color detecting means 1202 detects the flesh color portion from the image i1 and counts the number of pixels (the counting result is sa). Similarly, the skin color detecting means 120
3 counts the number of pixels of the flesh-colored portion from the image i2 (the count result is sb).

【0043】ここで肌色部分のカウントを行うのは、映
像中の利用者100の顔の部分の面積を検出するためで
ある。カウント結果sa,sbは比較手段1201に送
られ、ここでsaとsbの比が計算される。そして比較
手段1201はこの比の値に応じてセレクタ1204が
i1,i2のどちらか一方の映像を選択し出力するよう
制御する。具体的には、閾値k1(k1>1)及びk2
(k2<1)を設定し、sa/sb>k1の場合、つま
り映像i2に比べ映像i1に利用者100の顔の部分が
より多く映し出されている場合、セレクタ1204はi
1を選択し、sa/sb<k2の場合、つまり映像i1
に比べ映像i2に利用者100の顔の部分がより多く映
し出されている場合、セレクタ1204はi2を選択し
出力するように制御する。また、同じく比較手段120
1は、k1≦sa/sb≦k2の場合、つまり映像i
1、i2ともに肌色部分の面積に大きな差が無い場合
(これは利用者100がモニタを注視していると判断で
きる)、セレクタ1102が最終出力を画像合成手段9
04の出力とし、sa/sb>k1またはsa/sb<
k2の場合、つまり映像i1、i2で肌色部分の面積に
大きな差が有る場合(これはモニタよりも撮像装置の方
に利用者100が顔を向けていると判断できる)、セレ
クタ1102が最終出力を画像判定手段1101の出力
とするよう制御する。このように肌色検出の結果に従い
セレクタにより映像の選択を行うことで、例えば映像i
1、i2で肌色部分の面積に大きな差が有る場合、つま
りモニタよりも撮像装置の方に利用者100が顔を向け
ていると判断できる場合には、2つの映像の合成画像で
はなく、もとの撮影画像をそのまま相手方に送信するこ
とができ、絶えず合成画像のみを送信する場合に比べ、
より臨場感のある映像対話が実現できる。
The reason why the flesh-colored portion is counted here is to detect the area of the face portion of the user 100 in the image. The count results sa and sb are sent to the comparing means 1201, where the ratio of sa and sb is calculated. Then, the comparison means 1201 controls the selector 1204 to select and output either one of the images i1 and i2 according to the value of this ratio. Specifically, thresholds k1 (k1> 1) and k2
When (k2 <1) is set and sa / sb> k1, that is, when the face portion of the user 100 is displayed more in the image i1 than in the image i2, the selector 1204 selects i.
1 is selected and sa / sb <k2, that is, the image i1
When more of the face portion of the user 100 is displayed in the image i2 as compared with, the selector 1204 controls to select and output i2. Similarly, the comparing means 120
1 is in the case of k1 ≦ sa / sb ≦ k2, that is, the image i
When there is no large difference in the areas of the skin-colored portions of 1 and i2 (this can be judged to be the user 100 gazing at the monitor), the selector 1102 outputs the final output to the image synthesizing means 9
04 / sa / sb> k1 or sa / sb <
In the case of k2, that is, when there is a large difference in the areas of the flesh-colored portions between the images i1 and i2 (this can be judged to be that the user 100 faces his / her imaging device rather than the monitor), the selector 1102 makes a final output. Is output as the output of the image determination means 1101. In this way, by selecting the image with the selector according to the result of the skin color detection, for example, the image i
If there is a large difference in the area of the flesh-colored portion between 1 and i2, that is, if it can be determined that the user 100 faces his or her imaging device rather than the monitor, it is not a composite image of the two images, but You can send the captured image with and to the other party as it is, compared to the case where only the composite image is continuously sent
A more realistic video dialogue can be realized.

【0044】以上のように、本実施例によれば、2台の
撮像装置により撮影された映像を用いて利用者の正面画
像を合成することにより、テレビ電話やテレビ会議な
ど、互いの画像をモニタで見ながら通話をする場合、互
いに目線を合わせて自然な状態の通話を行うことができ
る。
As described above, according to the present embodiment, the images captured by the two image pickup devices are used to synthesize the front images of the users so that images of each other such as a videophone and a video conference can be displayed. When making a call while looking at a monitor, it is possible to make a call in a natural state by aligning the eyes of each other.

【0045】また、従来の例として示したハーフミラー
を用いた構成による映像対話システムに比べ、本実施例
の構成は画像合成手段904を電気部品、例えばIC等
で構成できるため、システム全体の大幅に小型・軽量化
が可能である。
Further, as compared with the video interactive system having the structure using the half mirror shown as the conventional example, in the structure of the present embodiment, the image synthesizing means 904 can be composed of electric parts, for example, IC, etc. It can be made smaller and lighter.

【0046】また、モニタよりも撮像装置の方に利用者
100が顔を向けていると判断できる場合には、2つの
映像の合成画像ではなく、利用者100が顔を向けてい
るほうの撮像装置の撮影画像をそのまま相手方に送信す
ることができ、絶えず合成画像のみを送信する場合に比
べ、より臨場感のある映像対話が実現できる。
If it is possible to determine that the user 100 faces his / her face toward the image pickup device rather than the monitor, it is not a composite image of the two images, but an image of the one in which the user 100 faces his / her face. The captured image of the device can be directly transmitted to the other party, and a more realistic video dialogue can be realized as compared with the case where only the composite image is constantly transmitted.

【0047】なお、本実施例においては、2台の撮像装
置を用いる構成に関して説明したがこれに限るものでは
なく、例えば1台の撮像装置を用いる構成も考えられ、
この場合、全体のシステム構成が簡素化され、更に小型
・軽量化が実現できる。また、例えば3台以上の撮像装
置を用いる構成をとれば、より一層、精度の高い利用者
の正面画像の合成が可能となる。
In the present embodiment, the configuration using two image pickup devices has been described, but the present invention is not limited to this. For example, a configuration using one image pickup device may be considered.
In this case, the entire system configuration is simplified, and the size and weight can be further reduced. In addition, for example, if three or more image pickup devices are used, it is possible to more accurately combine the front images of the user.

【0048】また、本実施例においては、撮像装置はア
ナログ映像信号を出力するものとして説明したがこれに
限るものではなく、例えばデジタル信号を出力する撮像
装置を用い、画像合成手段904はデジタルインターフ
ェイスにより映像信号を受け取る構成も考えられる。
In the present embodiment, the image pickup device is described as outputting an analog video signal, but the present invention is not limited to this. For example, an image pickup device outputting a digital signal is used, and the image synthesizing means 904 is a digital interface. It is also conceivable that the configuration receives a video signal.

【0049】また、本実施例においては、画像合成手段
904の出力は、デジタル信号となるが、これに限るも
のではなく、相手方との通信方式に応じて、デジタルか
らアナログへの変換、もしくは、画像情報の圧縮等が行
えることは明かである。
Further, in the present embodiment, the output of the image synthesizing means 904 is a digital signal, but the output is not limited to this, and conversion from digital to analog or according to the communication system with the other party, or It is obvious that image information can be compressed.

【0050】また、本実施例においては、撮像装置をモ
ニタの両側面に配置する構成を用いて説明したがこれに
限るものではなく、例えば撮像装置をモニタの上下もし
くはモニタの対角線上に配置する等の構成も考えられ
る。
Further, although the present embodiment has been described by using the configuration in which the image pickup device is arranged on both side surfaces of the monitor, the present invention is not limited to this. For example, the image pickup device is arranged above and below the monitor or on a diagonal line of the monitor. A configuration such as is also conceivable.

【0051】また、本実施例においては、肌色検出手段
を2つ用いる構成をとっているが、これに限るものでは
なく、肌色検出手段を1つにまとめる構成も考えられ
る。
In this embodiment, two skin color detecting means are used. However, the present invention is not limited to this, and a structure in which the skin color detecting means is integrated is also conceivable.

【0052】[0052]

【発明の効果】以上のように本発明は、モニタを見る人
物を撮影する撮像装置と、この人物の顔の正面の画像を
記憶することができる第1のメモリと、撮像装置の画像
を記憶する第2のメモリと、第1のメモリの画像に対す
る第2のメモリの画像の動きベクトルを検出する第1の
動き検出手段と、この動きベクトルのスカラー量が最小
になるように第1のメモリの画像位置を移動させる画像
位置移動手段と、移動後の第1のメモリの画像を記憶す
る第3のメモリと、第3のメモリの画像に対する第2の
メモリの画像の動きベクトルを検出する第2の動き検出
手段と、この動きベクトルをもとに第2のメモリの画像
をコントロールして第2のメモリの画像と第3のメモリ
の画像を合成した画像を出力するコントロール手段とを
備えていることにより、テレビ電話やテレビ会議などの
互いの画像をモニタで見ながら通話する場合、互いに目
線を合わせて自然な状態の通話をすることができる。
As described above, according to the present invention, an image pickup apparatus for photographing a person looking at a monitor, a first memory capable of storing an image of the front of the face of this person, and an image of the image pickup apparatus are stored. And a first motion detecting means for detecting the motion vector of the image of the second memory with respect to the image of the first memory, and the first memory for minimizing the scalar amount of this motion vector. Image position moving means for moving the image position of the second memory, a third memory for storing the image of the first memory after the movement, and a motion vector of the image of the second memory with respect to the image of the third memory. And a control means for controlling the image in the second memory based on this motion vector and outputting an image obtained by combining the image in the second memory and the image in the third memory. To be Ri, if you want to call while watching a monitor each other's image, such as a television telephone and videoconferencing, it is possible to call the natural state in accordance with the eyes each other.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例における映像対話システ
ムの構成図
FIG. 1 is a configuration diagram of a video dialogue system according to a first embodiment of the present invention.

【図2】本発明の第1の実施例における映像対話システ
ムのメモリ103、104の画像の模式図
FIG. 2 is a schematic diagram of images in memories 103 and 104 of the video interactive system according to the first embodiment of the present invention.

【図3】本発明の第1の実施例における映像対話システ
ムの動き検出手段105の処理内容の模式図
FIG. 3 is a schematic diagram of the processing contents of the motion detecting means 105 of the video interactive system according to the first embodiment of the present invention.

【図4】本発明の第1の実施例における映像対話システ
ムの動き検出手段108の処理内容の模式図
FIG. 4 is a schematic diagram of processing contents of the motion detecting means 108 of the video interactive system according to the first embodiment of the present invention.

【図5】本発明の第1の実施例における映像対話システ
ムのコントロール手段の処理内容の模式図
FIG. 5 is a schematic diagram of the processing contents of the control means of the video interactive system according to the first embodiment of the present invention.

【図6】(a)本発明の第1の実施例における映像対話
システムのコントロール手段の構成図 (b)本発明の第1の実施例における映像対話システム
のコントロール手段による画面中のデータの移動の様子
を表す模式図
FIG. 6A is a block diagram of the control means of the video interactive system according to the first embodiment of the present invention. FIG. 6B is a diagram showing the movement of data in the screen by the control means of the video interactive system according to the first embodiment of the present invention. Schematic diagram showing the situation of

【図7】本発明の第1の実施例における映像対話システ
ムのコントロール手段の処理内容の模式図
FIG. 7 is a schematic diagram of the processing contents of the control means of the video interactive system according to the first embodiment of the present invention.

【図8】本発明の第2の実施例における映像対話システ
ムの構成図
FIG. 8 is a configuration diagram of a video interactive system according to a second embodiment of the present invention.

【図9】本発明の第3の実施例における映像対話システ
ムの構成図
FIG. 9 is a configuration diagram of a video dialogue system according to a third embodiment of the present invention.

【図10】本発明の第3の実施例における映像対話シス
テムの画像合成手段のブロック図
FIG. 10 is a block diagram of an image synthesizing means of a video interactive system according to a third embodiment of the present invention.

【図11】本発明の第4の実施例における映像対話シス
テムの構成図
FIG. 11 is a configuration diagram of a video dialogue system according to a fourth embodiment of the present invention.

【図12】本発明の第4の実施例における映像対話シス
テムの画像判定手段のブロック図
FIG. 12 is a block diagram of image determination means of a video interactive system according to a fourth embodiment of the present invention.

【図13】従来例の映像対話システムの構成図FIG. 13 is a block diagram of a conventional video dialogue system.

【符号の説明】[Explanation of symbols]

100 システム利用者 101,901,902 撮像装置 102 モニタ 103,104,107 メモリ 105 動き検出手段 106 画像位置移動手段 108 動き検出手段 109 コントロール手段 801,1102 セレクタ 904 画像合成手段 1101 画像判定手段 100 system user 101, 901, 902 imaging device 102 monitor 103, 104, 107 memory 105 motion detection means 106 image position moving means 108 motion detection means 109 control means 801, 1102 selector 904 image synthesizing means 1101 image judging means

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 相手側の画像を映すモニタと、 前記モニタを見ながら相手側と通話する人物を撮影する
撮像装置と、 前記人物の顔の正面の画像を記憶することができる第1
のメモリと、 前記撮像装置の画像を記憶する第2のメモリと、 前記第1のメモリの画像に対する前記第2のメモリの画
像の動きベクトルを検出する第1の動き検出手段と、 前記第1の動き検出手段で検出された動きベクトルに基
づき前記第1のメモリの画像位置を移動させる画像位置
移動手段と、 前記画像位置移動手段により移動された移動後の前記第
1のメモリの画像を記憶する第3のメモリと、 前記第2のメモリの画像に対する前記第3のメモリの画
像の動きベクトルを検出する第2の動き検出手段と、 前記第2の動き検出手段により検出される動きベクトル
をもとに前記第2のメモリの画像をコントロールして前
記第2のメモリの画像と前記第3のメモリの画像を合成
した画像を出力するコントロール手段とを備えた映像対
話システム。
1. A monitor for displaying an image of the other party, an image pickup device for photographing a person talking with the other party while looking at the monitor, and a front image of a face of the person can be stored.
Memory, a second memory for storing an image of the imaging device, a first motion detection unit for detecting a motion vector of the image of the second memory with respect to the image of the first memory, and the first memory. Image position moving means for moving the image position of the first memory based on the motion vector detected by the motion detecting means, and storing the moved image of the first memory moved by the image position moving means. And a second motion detecting means for detecting a motion vector of the image of the third memory with respect to the image of the second memory, and a motion vector detected by the second motion detecting means. A video interactive system provided with control means for controlling the image in the second memory and outputting an image obtained by combining the image in the second memory and the image in the third memory. Beam.
【請求項2】 相手側の画像を映すモニタと、 前記モニタを見ながら相手側と通話する人物を撮影する
撮像装置と、 前記人物の顔の正面の画像を記憶することができる第1
のメモリと、 前記撮像装置の画像を記憶する第2のメモリと、 前記第1のメモリの画像に対する前記第2のメモリの画
像の動きベクトルを検出する第1の動き検出手段と、 前記第1の動き検出手段により検出される動きベクトル
に基づき前記第1のメモリの画像位置を移動させる画像
位置移動手段と、 前記画像位置移動手段により移動された移動後の前記第
1のメモリの画像を記憶する第3のメモリと、 前記第2のメモリの画像に対する前記第3のメモリの画
像の動きベクトルを検出する第2の動き検出手段と、 前記第1の動き検出手段により検出される動きベクトル
をもとに前記第2のメモリの画像をコントロールして前
記第2のメモリの画像と前記第3のメモリの画像を合成
した画像を出力するコントロール手段と、 前記第1の動き検出手段で得られた動きベクトルの値が
ある範囲外ならば前記第2のメモリのスルー画像を出力
し、前記動きベクトルの値がある範囲内ならば前記コン
トロール手段から出力される画像を出力するセレクタを
備えた映像対話システム。
2. A monitor displaying an image of the other party, an imaging device for photographing a person talking with the other party while looking at the monitor, and a front image of a face of the person can be stored.
Memory, a second memory for storing an image of the imaging device, a first motion detection unit for detecting a motion vector of the image of the second memory with respect to the image of the first memory, and the first memory. Image position moving means for moving the image position of the first memory based on the motion vector detected by the motion detecting means, and storing the image of the moved first memory moved by the image position moving means. And a second motion detecting means for detecting a motion vector of the image of the third memory with respect to the image of the second memory, and a motion vector detected by the first motion detecting means. Control means for controlling the image of the second memory to output an image obtained by combining the image of the second memory and the image of the third memory, and the first motion If the value of the motion vector obtained by the detection means is outside the certain range, the through image of the second memory is output, and if the value of the motion vector is within the certain range, the image output from the control means is output. Video dialogue system with selector.
【請求項3】 相手側の画像を映すモニタと、 前記モニタを見ながら相手側と通話する人物を撮影する
1台以上の撮像装置と、 前記撮像装置から得られる前記人物の画像信号から前記
人物を正面から撮影した場合と類似の画像を画像合成処
理により合成する画像合成手段を備えた映像対話システ
ム。
3. A monitor displaying an image of the other party, one or more imaging devices for photographing a person talking with the other party while looking at the monitor, and the person based on the image signal of the person obtained from the imaging device. A video interactive system including image synthesizing means for synthesizing an image similar to that when a front is photographed by image synthesizing processing.
【請求項4】 相手側の画像を映すモニタと、 前記モニタを見ながら相手側と通話する人物を撮影する
1台以上の撮像装置と、前記撮像装置から出力される前
記人物の画像信号の特徴量をもとに1つの画像信号を選
択する画像判定手段と、 前記撮像装置から出力される前記人物の画像信号から前
記人物を正面から撮影した場合と類似の画像を画像合成
処理により合成する画像合成手段と、 前記画像判定手段により選択された画像と、前記画像合
成手段により合成された画像のうちの一方を選択するセ
レクタを備えた映像対話システム。
4. A feature of a monitor displaying an image of the other party, one or more imaging devices for photographing a person talking with the other party while looking at the monitor, and an image signal of the person output from the imaging device. An image determination unit that selects one image signal based on the amount, and an image that is similar to an image obtained when the person is photographed from the front based on the image signal of the person that is output from the image pickup apparatus and that is combined by image combining processing. A video interactive system comprising a synthesizing means, an image selected by the image determining means, and a selector for selecting one of the images synthesized by the image synthesizing means.
【請求項5】 第1の動き検出手段、第2の動き検出手
段は、入力するそれぞれの画像を画素ごとに、あるいは
あるエリアごとに分割し、一方の画像のあるエリアと他
方の画像のそれぞれのエリアを比較し、一致または近似
するエリアが存在した場合、それぞれのエリアの位置の
差分を動きベクトルとして検出して出力することを特徴
とする請求項1または2記載の映像対話システム。
5. The first motion detecting means and the second motion detecting means divide each input image into each pixel or into each certain area, and respectively divide one image into one area and the other image. 3. The video interactive system according to claim 1, wherein the areas are compared with each other, and if there is a matching or approximate area, the difference in the position of each area is detected and output as a motion vector.
【請求項6】 画像位置移動手段は、第1の動き検出手
段で得られた動きベクトルを平均し、第1のメモリのデ
ータのアドレスを前記平均した動きベクトルに応じた位
置に変換し、第3のメモリの前記変換したアドレスに前
記第1のメモリのデータを書き込むことで第1のメモリ
の画像を移動させることを特徴とする請求項1または2
記載の映像対話システム。
6. The image position moving means averages the motion vectors obtained by the first motion detecting means, and converts the address of the data in the first memory into a position according to the averaged motion vector, 3. The image of the first memory is moved by writing the data of the first memory to the converted address of the third memory.
The described video dialogue system.
【請求項7】 コントロール手段は、第2のメモリの画
像と第2の動き検出手段から出力される動きベクトルと
のタイミングを合わせるバッファと、メモリにデータを
書き込む場合、書き込むアドレスを設定する書き込みア
ドレスコントロール手段と、前記バッファから出力され
る第2のメモリの画像を書き込むことができる第4のメ
モリを備え、前記書き込みアドレスコントロール手段
は、第2の動き検出手段から出力される動きベクトルに
もとづいて前記バッファから出力される第2のメモリの
画像を第4のメモリに書き込むアドレスを設定すること
を特徴とする請求項1または2記載の映像対話システ
ム。
7. The control means comprises a buffer for adjusting the timing of the image in the second memory and the motion vector output from the second motion detecting means, and a write address for setting a write address when writing data in the memory. The write address control means includes a control means and a fourth memory capable of writing an image of the second memory output from the buffer, and the write address control means is based on the motion vector output from the second motion detection means. 3. The video interactive system according to claim 1, wherein an address for writing the image of the second memory output from the buffer into the fourth memory is set.
【請求項8】 画像合成手段は、撮像装置より撮影され
た人物の画像から、特に目、鼻、口等の顔面構成要素を
抽出する特徴抽出手段を備えることを特徴とする請求項
3または4記載の映像対話システム。
8. The image synthesizing means comprises a feature extracting means for extracting facial components such as eyes, nose and mouth from the image of the person photographed by the image pickup device. The described video dialogue system.
【請求項9】 画像合成手段は、撮像装置より撮影され
た人物の画像から、人物の特に目、鼻、口等の各部位の
三次元的位置を推定する三次元位置推定手段を備えるこ
とを特徴とする請求項3または4記載の映像対話システ
9. The image synthesizing means comprises a three-dimensional position estimating means for estimating a three-dimensional position of each part of the person, particularly eyes, nose, mouth, etc., from the image of the person photographed by the imaging device. The video interactive system according to claim 3 or 4, characterized in that
【請求項10】 画像合成手段は、撮像装置より撮影さ
れた人物の画像から、特に目、鼻、口等の顔面構成要素
を抽出する特徴抽出手段と、 前記特徴抽出手段により抽出された前記人物の目、鼻、
口等の各部位の三次元的位置を推定する三次元位置推定
手段と、 前記三次元位置推定手段による推定結果にもとづき、前
記人物の正面画像を合成する正面画像合成手段を備える
ことを特徴とする請求項3または4記載の映像対話シス
テム。
10. An image synthesizing means, a feature extracting means for extracting facial constituent elements such as eyes, nose, mouth, etc., from an image of a person photographed by an imaging device, and the person extracted by the feature extracting means. Eyes, nose,
A three-dimensional position estimating means for estimating a three-dimensional position of each part such as a mouth, and a front image synthesizing means for synthesizing a front image of the person based on an estimation result by the three-dimensional position estimating means. The video dialogue system according to claim 3 or 4.
【請求項11】 画像判定手段は、各画像の肌色部分を
検出する肌色検出手段と、前記肌色検出手段により検出
された各画像の肌色部分の大きさを比較する比較手段
と、前記比較手段の比較結果により制御されるセレクタ
を備え、前記セレクタに各撮像装置からの画像が入力さ
れ、前記比較手段の結果をもとに最も肌色部分の多い撮
像装置からの画像を前記セレクタで選択する事を特徴と
する請求項4記載の映像対話システム。
11. The image determining means includes a skin color detecting means for detecting a skin color portion of each image, a comparing means for comparing the sizes of the skin color portions of the images detected by the skin color detecting means, and a comparing means of the comparing means. It is provided with a selector controlled by a comparison result, and an image from each image pickup device is input to the selector, and an image from the image pickup device having the most skin color part is selected by the selector based on the result of the comparison means. The video dialogue system according to claim 4, characterized in that
JP7054431A 1995-03-14 1995-03-14 Video conversation system Pending JPH08251562A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7054431A JPH08251562A (en) 1995-03-14 1995-03-14 Video conversation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7054431A JPH08251562A (en) 1995-03-14 1995-03-14 Video conversation system

Publications (1)

Publication Number Publication Date
JPH08251562A true JPH08251562A (en) 1996-09-27

Family

ID=12970539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7054431A Pending JPH08251562A (en) 1995-03-14 1995-03-14 Video conversation system

Country Status (1)

Country Link
JP (1) JPH08251562A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158801A2 (en) * 2000-05-22 2001-11-28 Matsushita Electric Industrial Co., Ltd. Image communication terminal
JP2004272933A (en) * 2004-06-03 2004-09-30 Toshiba Corp Face image monitoring system
JP2015109557A (en) * 2013-12-04 2015-06-11 キヤノン株式会社 Display device including imaging unit and control method of the same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158801A2 (en) * 2000-05-22 2001-11-28 Matsushita Electric Industrial Co., Ltd. Image communication terminal
EP1158801A3 (en) * 2000-05-22 2006-09-13 Matsushita Electric Industrial Co., Ltd. Image communication terminal
JP2004272933A (en) * 2004-06-03 2004-09-30 Toshiba Corp Face image monitoring system
JP2015109557A (en) * 2013-12-04 2015-06-11 キヤノン株式会社 Display device including imaging unit and control method of the same

Similar Documents

Publication Publication Date Title
US8379074B2 (en) Method and system of tracking and stabilizing an image transmitted using video telephony
US6208373B1 (en) Method and apparatus for enabling a videoconferencing participant to appear focused on camera to corresponding users
US6704042B2 (en) Video processing apparatus, control method therefor, and storage medium
KR100881526B1 (en) Data transmission method, apparatus using same, and data transmission system
JP4464360B2 (en) Monitoring device, monitoring method, and program
JP4849988B2 (en) Imaging apparatus and output image generation method
US20100118112A1 (en) Group table top videoconferencing device
CN113973190A (en) Video virtual background image processing method and device and computer equipment
JP4794938B2 (en) Monitoring system, monitoring device, monitoring method, and program
US20060192847A1 (en) Display apparatus, and display control method for the display apparatus
CN110505415A (en) Picture pick-up device and its control method and non-transitory computer-readable storage media
JP2001136501A (en) Sight line match video conference apparatus
JPH08251562A (en) Video conversation system
JP2007049375A (en) Image processor, camera, communication equipment, and program for realizing image processor
JPH06178295A (en) Picture signal processing unit for video conference and utterance party pattern mgnification synthesis device
TWI248021B (en) Method and system for correcting out-of-focus eyesight of attendant images in video conferencing
CN116208851A (en) Image processing method and related device
JPH08256316A (en) Communication conference system
JP2887272B2 (en) 3D image device
JP2005110160A (en) Imaging apparatus
JP2004159061A (en) Image display device with image pickup function
EP1081943A1 (en) Digital transceiver camera
JPH07193796A (en) Video communication system
JPH0832947A (en) Image communication equipment
JPH0823527A (en) Video telephone system