JP2004193962A - Image communication equipment, image communication method, and computer program - Google Patents

Image communication equipment, image communication method, and computer program Download PDF

Info

Publication number
JP2004193962A
JP2004193962A JP2002359387A JP2002359387A JP2004193962A JP 2004193962 A JP2004193962 A JP 2004193962A JP 2002359387 A JP2002359387 A JP 2002359387A JP 2002359387 A JP2002359387 A JP 2002359387A JP 2004193962 A JP2004193962 A JP 2004193962A
Authority
JP
Japan
Prior art keywords
image
user
communication
communication partner
cameras
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002359387A
Other languages
Japanese (ja)
Other versions
JP4539015B2 (en
Inventor
Takayuki Ashigahara
隆之 芦ヶ原
Keisuke Yamaoka
啓介 山岡
Yoshiaki Iwai
嘉昭 岩井
Kazunori Hayashi
和慶 林
Atsushi Yokoyama
敦 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002359387A priority Critical patent/JP4539015B2/en
Publication of JP2004193962A publication Critical patent/JP2004193962A/en
Application granted granted Critical
Publication of JP4539015B2 publication Critical patent/JP4539015B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide image communication equipment with which the user can communicate with its communicating counterparty by transmitting its image and which can realize such a presence that the user communicates with the counterparty through a window, and to provide an image communication method. <P>SOLUTION: The image communication equipment photographs the image of an image transmitting user 1a with a plurality of cameras from different viewpoints, and inputs the positional information on the communicating counterparty 1b through a network. Then the equipment selects an image which is close to the image of the user 1a viewed from the viewpoint of the coutnerparty 1b with respect to the user 1a, and displayed on the display device on the counterparty 1b side from among the plurality of images of the user 1a picked up with the plurality of cameras of the photographing section of the equipment as the image to be transmitted to the counterparty 1b and transmits the selected image. Consequently, the users 1a and 1b can observe such images that are obtained when the users look at their counterparties from desired positions and can communicate with each other with such a presence that the users 1a and 1b communicate with each other through a window, because their gaze can be made to coincide with each other even when the users 1a and 1b move. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、画像通信装置、および画像通信方法、並びにコンピュータ・プログラムに関する。さらに、詳細には、テレビ電話、テレビ会議等のように通信手段を介して会話相手をディスプレイに表示して会話を行なうシステムにおいて、ユーザの動きに応じた表示画像の制御を行なうことにより、会話を行なうユーザの違和感を減少させたディスプレイ表示を可能とした画像通信装置、および画像通信方法、並びにコンピュータ・プログラムに関する。
【0002】
【従来の技術】
テレビ電話、テレビ会議等のように、通信手段を介して会話相手をディスプレイに表示して会話を行なうシステムが様々な分野で利用されている。昨今では、パーソナルコンピュータ(PC)の高機能化、低価格化が進み、PCあるいは携帯端末等にデジタルカメラを備え、インターネット等のネットワークを介して音声および画像データを送受信するテレビ電話機能を持つ装置も実用化されている。
【0003】
このようにユーザ同士が、双方に通信相手に対して撮像装置により撮影した画像データを通信回線を介して送信し、相手ユーザの画像を表示して対話を行なうシステムでは、表示装置を見ている利用者と、表示装置に表示されている相手の画像の目線(視線)を合致させることが自然な感覚での対話を実現するため重要な要素となる。
【0004】
双方の利用者の目線を一致させるための構成については、すでにいくつかの提案がなされている。たとえば、ハーフミラーを用いてカメラの向きと表示画面を合わせるもの(たとえば特許文献1)、あるいは、光透過状態と光錯乱状態を制御できるスクリーンとプロジェクタを用いて時系列で表示と撮像を行うもの(たとえば特許文献2)、ホログラムスクリーンとプロジェクタを用いることで、表示と撮像を同時実行可能としたもの(たとえば特許文献3)などがある。
【0005】
しかし、上述の各従来技術に開示されたシステムでは、画像データを提供し合うユーザの双方において、それぞれ1台の固定カメラのみを備えた構成であるため、固定カメラによって取得された一視点からの映像のみが相手方に送信されることになり、違った視点における映像を送信することはできない。従って、人物がたとえば左あるいは右に移動した場合、画像を見ながら対話を行なっている利用者の視線方向にずれが生じ、コミュニケーションが不自然になってしまうという問題がある。
【0006】
このような不自然さを解消するため、映像を見ている人物の位置を計測し、その情報に合わせて相手のカメラを動かして、人物が動いても視線の一致を実現するシステムも提案されている(例えば特許文献4)。本特許文献4に記載の構成は、利用者を撮影するカメラを動かす稼動部を設け、映像を見ている人物の位置を計測し、その情報に合わせて相手のカメラを動かす構成である。しかし、本構成においては、利用者の動きの検出に基づいてカメラの移動を開始することになり、カメラ移動に伴うタイムラグの発生により、ユーザの動きに十分追従できず、不自然さを十分解消するには至らないという問題がある。また、制御信号に基づいてカメラを正確に駆動させるための稼動部構成の困難性や信頼性に問題がある。
【0007】
また、複数のカメラを備えた画像対話装置についても提案されている(例えば特許文献5)。これはA地点とB地点で対話を行う場合に、A地点に設置した複数のカメラによって取得される複数の画像から、A地点の利用者の顔を撮影している画像を選択して、その画像をB地点の利用者に対して提示する構成である。この構成は、利用者のディスプレイに常に相手の顔を表示しようとするものである。しかし、本構成は、ディスプレイを見ている利用者の動きに応じて、その利用者が見ている表示画像を制御する構成ではないため、ディスプレイを見ている利用者が動いても、その利用者が見ている表示画像は、固定的な相手方の顔画像となり、対話を行なう利用者の違和感を減少させるに十分な構成とは言い難い。
【0008】
【特許文献1】
特開昭61−65683号公報
【特許文献2】
特開平4−11485号公報
【特許文献3】
特開平9−168141号公報
【特許文献4】
特開2000−83228号公報
【特許文献5】
特開平6−303601号公報
【0009】
【発明が解決しようとする課題】
本発明は、上述した従来技術の問題点に鑑みてなされたものであり、テレビ電話、テレビ会議等のように、通信路を介して利用者の画像データを送信し、双方のディスプレイに表示して会話を行なうシステムにおいて、ユーザの動きに応じた表示画像の制御を行なうことにより、会話を行なうユーザの違和感を減少させた画像表示を可能とした画像通信装置、および画像通信方法、並びにコンピュータ・プログラムを提供することを目的とする。
【0010】
さらに、前述の従来技術に開示されているシステムは、いずれも2つの地点を結ぶ双方向通信システムであり3地点以上のユーザ相互間で画像を提示して対話を行なおうとする場合の構成については開示されていない。3地点以上のユーザ相互間で画像を提示するシステムの場合は、1つのディスプレイに対話に参加する複数地点の画像データを併せて表示する構成が望まれる。例えば、ディスプレイを分割して複数の相手を表示し、ディスプレイを見る利用者の視線に応じて、ディスレイに表示する画像の制御を行ない、ディスプレイを見る利用者の視線方向にある表示画像領域の利用者画像の視線を合わせる調整を行なうことで、より自然な対話感をもたらすことができるものと考えられる。
【0011】
本発明の構成では、このような3地点以上の通信手段を介して会話相手をディスプレイに表示して会話を行なうシステムにおいて、ユーザの動きに応じた表示画像の制御を行なうことにより、会話を行なうユーザの違和感を減少させたディスプレイ表示を可能とした画像通信装置、および画像通信方法、並びにコンピュータ・プログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明の第1の側面は、
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信装置であり、
画像送信元の利用者(A)の画像を異なる視点から撮影する複数のカメラを有する撮像部と、
通信相手(B)の画像を表示する表示部と、
前記利用者(A)の位置情報を取得する検出部と、
前記ネットワークを介して通信相手(B)の位置情報を入力し、入力する通信相手(B)の位置情報に基づいて、前記撮像部の複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する送信映像制御部と、
を有することを特徴とする画像通信装置にある。
【0013】
さらに、本発明の画像通信装置の一実施態様において、前記画像通信装置は、3地点以上の多地点のコミュニケーションに利用可能な構成を有し、前記表示部は、単一の通信相手を表示する一人対面モードと、複数の通信相手を画面分割により同時に表示する複数人対面モードとのモード変更による異なる画面表示が可能な構成を有し、前記送信映像制御部は、前記表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する前記撮像部の複数カメラの範囲を区分する処理を実行する構成であることを特徴とする。
【0014】
さらに、本発明の画像通信装置の一実施態様において、前記送信映像制御部は、前記撮像部の複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理部を有し、前記画像処理部は、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を、前記撮像部の複数カメラの撮影画像に基づく画像処理により生成する処理を実行し、前記送信映像制御部は、前記画像処理部の生成画像を、前記通信相手(B)に対する送信画像として設定する処理を実行する構成であることを特徴とする。
【0015】
さらに、本発明の画像通信装置の一実施態様において、前記検出部は、前記撮像部を構成するカメラの取得した画像に基づいて、前記利用者(A)の位置情報を取得する処理を実行する構成であることを特徴とする。
【0016】
さらに、本発明の画像通信装置の一実施態様において、前記検出部は、前記撮像部を構成する異なる視点の複数カメラの取得画像に基づくステレオ法による三次元位置取得処理により、前記利用者(A)の位置情報を取得する構成であることを特徴とする。
【0017】
さらに、本発明の画像通信装置の一実施態様において、前記撮像部を構成する複数のカメラは、前記表示部方向からの前記利用者(A)画像を異なる視点で撮影する構成であることを特徴とする。
【0018】
さらに、本発明の画像通信装置の一実施態様において、前記撮像部を構成する複数のカメラは水平上に複数配列され、画像送信元の利用者(A)の画像を少なくとも水平方向に異なる視点から撮影する構成であることを特徴とする。
【0019】
さらに、本発明の画像通信装置の一実施態様において、前記撮像部を構成する複数のカメラはアレイ状に配列され、画像送信元の利用者(A)の画像を水平方向および垂直方向において異なる視点から撮影する構成であることを特徴とする。
【0020】
さらに、本発明の第2の側面は、
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信装置であり、
画像送信元の利用者(A)の画像を異なる視点から撮影する複数のカメラを有する撮像部と、
通信相手(B)の画像を表示する表示部と、
前記利用者(A)の位置情報を取得する検出部と、
前記ネットワークを介して通信相手(B)を異なる視点から撮影した複数の画像データを入力し、前記検出部の検出した前記利用者(A)の位置情報に基づいて、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、前記表示部に対する出力画像として選択する表示映像制御部と、
を有することを特徴とする画像通信装置にある。
【0021】
さらに、本発明の画像通信装置の一実施態様において、前記表示映像制御部は、前記撮像部の複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理部を有し、前記画像処理部は、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、前記ネットワークを介して受信する通信相手(B)を異なる視点から撮影した複数の画像データに基づいて生成する処理を実行し、前記表示映像制御部は、前記画像処理部の生成画像を、前記表示部に対する出力画像とする構成であることを特徴とする。
【0022】
さらに、本発明の第3の側面は、
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信方法であり、
画像送信元の利用者(A)の画像を異なる視点から複数のカメラによって撮影する撮影ステップと、
前記ネットワークを介して通信相手(B)の位置情報を入力する位置情報入力ステップと、
入力する通信相手(B)の位置情報に基づいて、前記複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する画像選択ステップと、
前記画像選択ステップにおいて選択した画像を通信相手に送信する画像送信ステップと、
を有することを特徴とする画像通信方法にある。
【0023】
さらに、本発明の画像通信方法の一実施態様において、前記画像通信方法は、さらに、表示部を、単一の通信相手を表示する一人対面モード、あるいは複数の通信相手を画面分割により同時に表示する複数人対面モードのいずれかのモードに設定するモード設定ステップと、前記表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する前記撮像部の複数カメラの範囲を区分する区分ステップとを有し、前記画像選択ステップは、前記区分ステップにおいて区分されたカメラの取得する画像のみから各通信相手に送信する画像を選択する処理を実行することを特徴とする。
【0024】
さらに、本発明の画像通信方法の一実施態様において、前記画像選択ステップは、前記複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理ステップを有し、前記画像処理ステップは、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を、前記複数カメラの撮影画像に基づく画像処理により生成する処理を実行するステップであり、前記画像選択ステップは、前記画像処理ステップにおける生成画像を、前記通信相手(B)に対する送信画像として設定する処理を実行することを特徴とする。
【0025】
さらに、本発明の画像通信方法の一実施態様において、前記画像通信方法は、さらに、前記通信相手(B)に送信するための画像送信元の利用者(A)の位置情報を検出する検出ステップを有し、前記検出ステップは、前記複数カメラの取得画像に基づいて、前記利用者(A)の位置情報を取得する処理を実行することを特徴とする。
【0026】
さらに、本発明の画像通信方法の一実施態様において、前記検出ステップは、前記複数カメラの取得画像に基づくステレオ法による三次元位置取得処理により、前記利用者(A)の位置情報を取得することを特徴とする。
【0027】
さらに、本発明の第4の側面は、
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信方法であり、
画像送信元の利用者(A)の位置情報を取得する検出ステップと
ネットワークを介して通信相手(B)を異なる視点から撮影した複数の画像データを入力する画像データ入力ステップと、
前記検出ステップにおいて検出した前記利用者(A)の位置情報に基づいて、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、表示部に対する出力画像として選択する表示映像制御ステップと、
前記表示映像制御ステップにおいて選択した出力画像を表示部に出力する表示ステップと、
を有することを特徴とする画像通信方法にある。
【0028】
さらに、本発明の画像通信方法の一実施態様において、前記表示映像制御ステップは、前記複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理ステップを有し、前記画像処理ステップは、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、前記ネットワークを介して受信する通信相手(B)を異なる視点から撮影した複数の画像データに基づいて生成する処理を実行し、前記表示映像制御ステップは、前記画像処理ステップにおいて生成した生成画像を、前記表示部に対する出力画像とすることを特徴とする。
【0029】
さらに、本発明の第5の側面は、
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現するための画像通信処理を実行するコンピュータ・プログラムであって、
画像送信元の利用者(A)の画像を異なる視点から複数のカメラによって撮影する撮影ステップと、
前記ネットワークを介して通信相手(B)の位置情報を入力する位置情報入力ステップと、
入力する通信相手(B)の位置情報に基づいて、前記複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する画像選択ステップと、
前記画像選択ステップにおいて選択した画像を通信相手に送信する画像送信ステップと、
を具備することを特徴とするコンピュータ・プログラムにある。
【0030】
さらに、本発明の第6の側面は、
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現するための画像通信処理を実行するコンピュータ・プログラムであって、
画像送信元の利用者(A)の位置情報を取得する検出ステップと
ネットワークを介して通信相手(B)を異なる視点から撮影した複数の画像データを入力する画像データ入力ステップと、
前記検出ステップにおいて検出した前記利用者(A)の位置情報に基づいて、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、表示部に対する出力画像として選択する表示映像制御ステップと、
前記表示映像制御ステップにおいて選択した出力画像を表示部に出力する表示ステップと、
を具備することを特徴とするコンピュータ・プログラムにある。
【0031】
【作用】
本発明の構成によれば、ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する構成において、画像送信元の利用者(A)の画像を複数カメラを用いて異なる視点から撮影し、ネットワークを介して通信相手の利用者(B)の位置情報を入力し、入力する通信相手(B)の位置情報に基づいて、撮像部の複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する構成としたので、利用者の位置が変化しても視線の一致を得ることが可能となり、利用者は、互いに先方の利用者を所望の位置から見ているような映像を観察することができ、あたかも窓を介して会話しているような臨場感でコミュニケーションを図ることが可能となる。
【0032】
さらに、本発明の構成によれば、表示部を、単一の通信相手を表示する一人対面モードと、複数の通信相手を画面分割により同時に表示する複数人対面モードとのモード変更による異なる画面表示が可能な構成とし、送信映像制御部は、表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する撮像部の複数カメラの範囲を区分する処理を実行する構成としたので、3地点以上の多地点のコミュニケーションに利用する場合においても、利用者は、互いに先方の利用者を所望の位置から見ているような映像を観察することが可能となる。
【0033】
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能な汎用コンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記憶媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータ・システム上でプログラムに応じた処理が実現される。
【0034】
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づく、より詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【0035】
【発明の実施の形態】
以下、本発明の画像通信装置、および画像通信方法の詳細について、図面を参照しながら複数の実施例を説明する。
【0036】
[実施例1]
まず、本発明の第1の実施形態について説明する。図1は、実施例1に係る画像通信装置の構成を示す図である。図1は、ラインPQの上部Aに示す利用者1aとラインPQの下部Bに示すユーザ1bとがネットワーク7を介して通信を実行するシステムを示している。双方のユーザ1a,1bがそれぞれ本実施例に係る画像通信装置2a,2bを利用して双方向に映像および音声情報の交換を行なう構成例である。なお、以下の説明において、映像とは、カメラによって連続して撮影された画像、すなわち動画像のことであり、画像の下位概念である。
【0037】
また、AB以外の他の地点に利用者が存在する場合や、同一箇所に複数人の利用者が存在する場合には、全ての利用者の組み合わせ毎に同様の画像通信装置が設置され、画像通信装置に相対して一人の利用者のみが位置するように設定して、相互に画像データを送受信する構成とする。なお、3地点以上の多地点間の具体的構成例については、実施例3において説明する。
【0038】
A地点側の画像通信装置2aは、検出部3a、表示部4a、送信映像制御部5a、および撮像部6a等、および図示しない音声処理部および音声情報伝送処理部等により構成される。なお、音声処理および音声伝送処理については、従来からの処理構成を適用可能であるため、本明細書における詳細な説明は省略する。
【0039】
また、B地点側の画像通信装置2bもA地点の画像通信装置2aと同様の構成を有し、検出部3b、表示部4b、送信映像制御部5b、および撮像部6b、さらに図示しない音声処理部および伝送処理部等により構成される。
【0040】
画像通信装置2a、2bのそれぞれがインターネット、専用回線、公衆回線、LAN等、様々なデータ通信ネットワークによって構成されるネットワーク7に接続され、地点A、Bにおいてネットワーク7を介して互いに映像データおよび音声データが転送され、相互に通信相手の画像を見ながらコミュニケーションを行なう。本発明の構成においては、さらに利用者位置情報がネットワークを介して転送される。
【0041】
具体的には、A地点側の画像通信装置2aにおいて取得された映像情報DAと、位置情報CAと、音声情報(図示せず)とが、B地点側の画像通信装置2bに供給されると共に、B地点側の画像通信装置2bにおいて形成された映像情報DBと、位置情報CBと音声情報等とがA地点側の画像通信装置2aに供給される。
【0042】
地点Aおよび地点Bのいずれの地点の画像通信装置2a、2bも同一構成であるので、以下では、利用者1a側の画像通信装置2aを例に挙げてその構成と動作について説明する。
【0043】
表示部4aは、例えば、ホログラムスクリーン41とプロジェクタ42により構成されており、表示部4aには、B地点の画像通信装置2b内の異なる視点からの画像を撮影する複数のカメラからなる撮像部6bにより撮影された複数の画像の1つが、B地点の画像通信装置2b内の送信映像制御部5bにおいて選択され、選択映像情報DBとしてネットワーク7を介して供給される。
【0044】
従って、表示部4aには、B地点の複数のカメラからなる撮像部6bにおいて取得された複数映像の中から選択送信された1つの映像、すなわち選択映像情報DBに基づく映像が表示される。なお、表示部4aのホログラムスクリーン41を介して利用者1aが図1中において矢印81で示されるように映像を見ることを考慮し、例えば、反転されると共に、歪み補正処理された映像が表示部4aに映し出される。また、表示部4aは、ホログラムスクリーン41とプロジェクタ42以外の例えばCRTなどの表示装置とハーフミラーで構成してもよい。
【0045】
撮像部6aを構成する複数のカメラは、表示部4aの表示手段としてのホログラムスクリーン41の方向からの利用者1aの画像を撮影する。撮像部6aは、異なる視点からの映像を撮影する複数台のカメラにより構成されており、この複数台のカメラにより図1中において矢印82で示されるように利用者1aが撮影される。このとき、利用者1aの映像を正面から捉えるカメラと、たとえばその左右に利用者1aの正面からわずかにずれた位置からの映像を捉える複数台のカメラを設置する。
【0046】
図2に、撮像部6aの構成例を示す。撮像部6aには、複数台のカメラ61〜65が設定され、それぞれのカメラがホログラムスクリーン41を介して利用者1aを異なる方向から撮影する。カメラ61は、利用者1aの左側面から、カメラ63は、利用者1aの真正面から、カメラ65は、利用者1aの右側面からの映像を撮影する。
【0047】
送信映像制御部5aには、B地点の検出部3bにおいて取得された利用者1bの位置情報CBが供給される。送信映像制御部5aは、ネットワークを介してB地点から入力する位置情報CBに基づいて撮像部6aのどのカメラからの映像を出力、すなわち、複数の異なる視点からの映像のどの映像をB地点の表示部4bに提示するかを選択する。
【0048】
送信映像制御部5aが利用者1bの位置情報CBに基づいて選択した1つの映像、すなわち利用者1aの選択映像が選択映像情報DAとして、ネットワーク7を介してB地点に送信され、B地点の画像通信装置2bの表示部4bに供給される。
【0049】
すなわち、本発明の構成においては、B地点の利用者1bの位置情報がB地点側の検出部3bによって取得され、この利用者1bの位置情報CBがA地点の送信映像制御部5aに送信され、この情報に基づいて、A地点の利用者1aを撮影する複数カメラの取得映像から最適視点映像が選択されてB地点に送信される。すなわち映像を見ている側の動きに応じて、映像データが切り替えられる。
【0050】
同様に、A地点の利用者1aの位置情報がA地点側の検出部3aによって取得され、この利用者1aの位置情報CAがB地点の送信映像制御部5bに送信され、この情報に基づいて、B地点の利用者1bを撮影する複数カメラの取得映像から最適視点映像が選択されてA地点に送信される。
【0051】
検出部の処理について説明する。A地点側の検出部の処理について説明する。表示部4aの近接部に取り付けられた検出部3aは、たとえばカメラ部31および検出器32により構成される。図1において矢印83で示されるようにカメラ部31により利用者1aの姿が撮影され、カメラ部31の映像出力が検出器32に供給される。検出器32は、画像解析により利用者1aの位置情報、例えば顔の位置を検出する。検出した利用者1aの位置情報CAをB地点側の送信映像制御部5bに送信する。B地点側の送信映像制御部5bは、A地点の検出部3aから入力する位置情報CAに基づいて、利用者1bの複数視点映像から送信映像を選択する。
【0052】
検出部3aにおいてなされる顔の位置の検出処理は、例えば、カメラ31を1台設置し、カメラ31の取得映像における利用者1aの顔領域の位置大きさ等を解析し、利用者の顔の空間における位置を検出する処理として実行される。あるいは、利用者1aに対してレーザを照射し三角測量による物体位置計測手法を適用する構成や、カメラ部31に複数のカメラを設置して、複数カメラの取得画像を検出器32に入力してステレオ法による視差検出を実行することにより、利用者1aの位置情報を取得する構成としてもよい。
【0053】
ステレオ法について、その原理を簡単に説明する。ステレオ法は複数のカメラを用いて2つ以上の視点(異なる視線方向)から同一対象物を撮影して得られる複数の画像における画素同士を対応づけることで計測対象物の三次元空間における位置を求めようとするものである。例えば基準カメラと検出カメラにより異なる視点から同一対象物を撮影して、それぞれの画像内の計測対象物の距離を三角測量の原理により測定する。
【0054】
図3は、ステレオ法の原理を説明する図である。基準カメラ(Camera 1)と検出カメラ(Camera 2)は異なる視点から同一対象物を撮影する。基準カメラによって撮影された画像中の「mb」というポイントの奥行きを求めることを考える。
【0055】
基準カメラによる撮影画像中のポイント「mb」に見える物体は、異なる視点から同一物体を撮影している検出カメラによって撮影された画像において、「m1」、「m2」、「m3」のようにある直線上に展開されることになる。この直線をエピポーラライン(Epipolar line)Lpと呼ぶ。
【0056】
基準カメラにおけるポイント「mb」の位置は、検出カメラによる画像中では「エピポーラ・ライン」と呼ばれる直線上に現れる。撮像対象となる点P(P1,P2,P3を含む直線上に存在する点)は、基準カメラの視線上に存在する限り、奥行きすなわち基準カメラとの距離の大小に拘らず、基準画像上では同じ観察点「mb」に現れる。これに対し、検出カメラによる撮影画像上における点Pは、エピポーラ・ライン上に基準カメラと観察点Pとの距離の大小に応じた位置にあらわれる。
【0057】
図3は、エピポーラ・ラインと、検出カメラ画像中における観察点「mb」の対応を図解している。同図に示すように、観察点Pの位置がP1,P2,P3へと変化するに従って、検出カメラ画像中の観察点は「m1」、「m2」、「m3」へとシフトする。
【0058】
以上の幾何光学的性質を利用して、観察点「mb」をエピポーラ・ライン上で探索することにより、点Pの距離を同定することができる。これが「ステレオ法」の基本的原理である。このような方法で画面上のすべての画素についての三次元情報を取得する。取得した三次元情報は画素ごとに対応した画素属性データとして使用することが可能となる。
【0059】
上述のステレオ画像法は1台の基準カメラと1台の検出カメラとを用いた構成としたが、検出カメラを複数用いたマルチベースラインステレオ(Multi Baseline Stereo)法によって評価値を求めて、該評価値に基づいて画素ごとの三次元情報を取得するように構成してもよい。マルチベースラインステレオ画像法は、1つの基準カメラと複数の検出カメラによって撮影される画像を用い、複数の検出カメラ画像それぞれについて基準カメラ画像との相関を表す評価値を求め、それぞれの評価値を加算し、その加算値を最終的な評価値とするものである。このマルチベースラインステレオ画像法の詳細は、例えば「複数の基線長を利用したステレオマッチング」、電子情報通信学会論文誌D−11Vol.J75−D−II No.8 pp.1317−1327 1992年8月、に記載されている。
【0060】
上述のように、ステレオ法は、複数のカメラを用いて2つ以上の視点(異なる視線方向)から同一対象物を撮影して得られる複数の画像における画素同士を対応づけること、すなわち「対応点付け(マッチング)」を実施することで計測対象物の三次元空間における位置を求めようとするものである。
【0061】
従来から、よく使われている「対応点付け」の手法は、Pixel-basedマッチング、Area-basedマッチングとFeature-basedマッチングに大別される。Pixel-basedマッチングとは、一方の画像における点の対応を、他方の画像でそのまま探索する方法である。Area-basedマッチングとは、一方の画像における点の対応を、他方の画像で探す時、その点の周りの局所的な画像パターンを用いて探索する方法である。Feature-basedマッチングとは、画像から濃淡エッジなどの特徴を抽出し、画像間の特徴だけを用いて対応付けを行う方法である。
【0062】
一般的に、高精度で対象の3次元形状(または奥行き)を画素毎に求めるための手法としてArea-basedマッチングは有効であり、よく使われている。一般的なArea-basedマッチングによるステレオ視の対応点の求め方について図4を用いて説明する。図4(a)は、基準カメラの観測画像であり、図4(b)は検出カメラによる観測画像である。基準カメラによる観測画像上の点Nbの周辺の小領域Wをテンプレートとして、検出カメラ画像のエピポーラライン上の数点における画像相関値を求める。この図に示す例の場合は、距離分解能はNd1〜Nd6の6点で、この距離番号1〜6が例えば撮影した基準カメラから1m、2m、3m、4m、5m、6mの距離に対応しているとする。
【0063】
各点の画像相関値は、例えば以下に示す式(1)を用いて求める評価値を用いることができる。なお、以下に示す式中のI(x)は基準カメラで撮影した基準画像における輝度値、I’(x’)は検出カメラで撮影した検出カメラ画像の輝度値を示している。
【0064】
【数1】

Figure 2004193962
【0065】
上記式を用いて得られる図4のNd1〜Nd6の6点での評価値中、最も低いところを対応点とする。これを示したのが図4の下段のグラフである。図4の例の場合は、Nd3の位置、すなわちカメラから3mの位置を距離データとする。なお、さらにサンプリングデータ間の補間処理を実行してサンプルデータ以外の部分において最も低い点を求めることも可能である。この補間処理を行なった場合、図4のグラフのNd3とNd4の間にある点が最小の評価値であり、この場合、計測対象はカメラから約3.3mの距離であるとされる。なお、エピポーラライン、およびエピポーラライン上の位置と物体との距離との関係は、予めキャリブレーションによって求めておく。例えば基準カメラ画像上のすべての画素に対して、各距離に応じた検出カメラ画像上の対応点の座標をテーブルにして保持しておく。
【0066】
このように、基準カメラ画像と検出カメラ画像とのマッチング処理を各測定点の画素について繰り返し実行することにより、全ての画素に対する三次元形状データ、すなわち三次元空間における位置情報を得ることができる。
【0067】
図1に示す検出部3aのカメラ31として、異なる視点から利用者1aを撮影する複数カメラを設定し、これらを基準カメラと参照カメラとして、検出器32において上述の対応点マッチング処理を適用したステレオ法による取得画像の位置情報の取得処理を実行する。この処理により利用者1aの顔の位置情報CAを取得し、B地点の送信映像制御部5bに送信する構成とすることができる。なお、検出部3aの構成は、前述したように、ステレオ法に限らず、利用者の顔の位置の検出が可能な構成であればよく、様々な構成の適用が可能である。
【0068】
このように検出器32において利用者1aの顔の位置が検出され、得られた検出結果に応じた位置信号が検出器32において形成される。この位置信号がネットワークインタフェース等の伝送処理部を介して位置情報CAとして、ネットワーク7を介してB地点の画像通信装置2bの送信映像制御部5bに供給される。
【0069】
なお、図示されていない画像通信装置2aに内蔵された音声処理部は、アンプ、スピーカおよびマイクロホン等により構成されており、音声信号の入出力処理を行う。また、図示しない伝送処理部は、ネットワークインターフェース回路、伝送符号/復号器等により構成されており、映像信号および音声信号と位置信号とを伝送媒体等に応じた伝送形態となるように変換し、得られた情報を伝送路上に送出すると共に、その逆に供給される先方からの所定の伝送形態の情報から元の情報を復元し、各部に供給する。
【0070】
上述したA地点側の画像通信装置2aと同様にB地点の画像通信装置2b側が構成される。従って、システム全体の動作としては、画像通信装置2aの検出部3aにおいて利用者1aの顔の位置が検出され、この検出結果に応じて形成された位置情報CAが画像通信装置2bの送信映像制御部5bに供給されると共に、画像通信装置2bの検出部3bにおいて利用者1bの顔の位置が検出され、この検出結果に応じて形成された位置情報CBが画像通信装置2aの送信映像制御部5aに供給される。
【0071】
画像通信装置2aの送信映像制御部5aにおいて、B地点の利用者1bの位置情報CBがネットワークを介して入力され、利用者1bの位置情報CBに基づいて、利用者1aを異なる視点から撮影する複数カメラからなる撮像部6aのどのカメラ映像をB地点側に送信し、B地点の表示部4bに出力するかを選択する。同様に、B地点の画像通信装置2bの送信映像制御部5bは、A地点の利用者1aの位置情報CAに基づいて、利用者1bを異なる視点から撮影する複数カメラからなる撮像部6bのどのカメラ映像をA地点側に送信し、A地点の表示部4aに出力するかを選択する。
【0072】
A地点の画像通信装置2aの送信映像制御部5aが選択した利用者1aの選択映像情報DAは、ネットワーク7を介してB地点の画像通信装置2bの表示部4bに供給される。一方、B地点の画像通信装置2bの送信映像制御部5bが選択した利用者1bの選択映像情報DBは、A地点の画像通信装置2aの表示部4aに供給される。
【0073】
A地点の利用者1aが見ている表示部4aには、B地点において撮影された利用者1bの映像が映し出される。この利用者1bの表示映像は、利用者1aの顔の位置に応じて変更して映し出される。一方、B地点の表示部4bには、A地点において撮影された利用者1aの映像が映し出される。この利用者1aの表示映像は、利用者1bの顔の位置に応じ、変更して映し出される。この変更処理により、利用者1a、1bは、互いに先方の利用者を所望の位置から見ているような映像をホログラムスクリーン上に観察することができ、あたかも窓を介して会話しているような臨場感でコミュニケーションを図ることができる。
【0074】
受信側の利用者の視点位置に応じて送信側の複数カメラの画像から選択して受信側の表示装置に表示する手順を、図5および図6を用いて詳細に説明する。図5および図6は、画像通信装置2a側(つまりA地点)からのカメラ画像選択操作を説明するもので、図5はその処理手順を示している、各ステップには、S1〜S5の参照符号を付している。各ステップの処理について、以下説明する。
【0075】
まず、ステップS1において、A地点の利用者1aの顔の位置の検出処理が実行される。例えば、上述した複数のカメラを用いたステレオ法による視差検出に基づいて、利用者1aの三次元空間上での顔の位置が利用者1aの位置情報CAとして検出される。
【0076】
次に、ステップS2において、検出された位置情報CAがB地点の画像通信装置2bにネットワーク7を介して送信される。ステップS3では、位置情報CAをB地点の画像通信装置2b内の送信映像制御部5bが受信し、B地点の利用者2bを撮影している撮像部6bを構成する複数視点の複数カメラの映像から1つをA地点に対する出力映像として選択し、この選択映像を選択映像情報DBとしてA地点に対して出力する。
【0077】
送信映像制御部5bにおいて実行する位置情報CAに基づく映像選択処理について図6を用いて説明する。図6(J1)および(J3)はA地点での利用者1aと表示部4aと仮想的なB地点の利用者1bの像を上方から観察した状況を示している。
【0078】
図6(J2)および(J4)はB地点での利用者1bと表示部4bと撮像部6bを構成するカメラ61〜65を上方から観察した状況を示している。本発明の画像通信装置においては、表示部に表示される通信相手の映像を制御することで、双方の利用者1a,1bが、面前に存在する感覚で対話を行なえるように映像制御を行なう構成を持つ。
【0079】
例えば、図6(J1)のように、A地点とB地点の間で本装置を用いてコミュニケーションをとる場合に、A地点の利用者1aにとって、表示部4aに表示されるB地点の利用者1bが、あたかも利用者aの前方に実在し、窓を介して会話しているような臨場感を提供する。
【0080】
図6(J1)に示す利用者1aの視点位置で観察される利用者1bの像は、図6(J2)における撮像部6bのカメラ63の取得映像に含まれる利用者1bの像にもっとも近い。よって、A地点から送られてきた利用者aの位置情報が図6(J1)にある利用者1aの位置の近傍を示していた場合には、B地点の送信映像制御部5bはカメラ63が撮影している利用者1bの映像を選択して、この選択映像を選択映像情報DBとしてA地点に対して出力する。
【0081】
また、図6(J3)のように、A地点の利用者1aが表示部4aに向かって正面よりやや左に移動している場合には、そこで利用者1aが観察する利用者1bの像は、図6(J4)における撮像部6bのカメラ62の映像に写っている利用者1bの像がもっとも近い像となる。
【0082】
よって、A地点から送られてきた利用者aの位置情報が図6(J3)の位置の近傍を示していた場合には、B地点側の送信映像制御部5bはカメラ62が撮影している利用者1bの映像を選択して、この選択映像を選択映像情報DBとしてA地点に対して出力する。
【0083】
このように、画像送信側の送信映像制御部は、表示部において表示画像を見る画像受信側の利用者の視点位置で観察される像に最も近い像を提供するカメラの映像の選択処理を実行し出力する。この選択処理においては、画像受信側の利用者の位置情報が適用される。すなわち、画像受信側の利用者位置から見ている対話相手の画像にもっとも近い画像が選択されて送信、表示される。
【0084】
図5のフローに戻り、説明を続ける。ステップS4において、上述した映像選択処理に基づいて選択された選択映像情報DBが、送信映像制御部5bからA地点の画像通信装置2aに送信される。ステップS5において、B地点から送られてきた選択映像情報DBが表示部4aに表示される。
【0085】
上述の表示画像制御により、コミュニケーションを行なう利用者双方は、それぞれの表示部に表示される通信相手が、あたかも前方に実在し、窓を介して会話しているような臨場感を得ることが可能となる。
【0086】
本発明の画像通信装置の送信映像制御部の処理をまとめると以下のようになる。図1のA地点側の送信映像制御部5aの処理として説明する。送信映像制御部5aは、ネットワークを介して通信相手である利用者1bの位置情報を入力し、入力する通信相手の利用者1bの位置情報に基づいて、撮像部3aの複数カメラが撮影する利用者1aの複数の画像から、通信相手の利用者1b側の表示部4bに表示される利用者1aに対する通信相手1bの視点方向からの利用者1aの画像に近い画像を通信相手1bに対する送信画像として選択する処理を実行するということになる。
【0087】
なお、上述した実施例の説明において、撮像部6a、6bのカメラは水平方向に並べた構成例としたが、利用者の上下方向の視点移動に対応するために、上下方向にもカメラを設置し、たとえばアレイ状に配列する構成としてもよい。このようなアレイ状にカメラを配列すれば、利用者の左右の動きばかりでなく、上下の動きに応じた最適映像データを選択して送信することが可能となる。
【0088】
また、利用者が前後方向に移動、すなわち表示部に対して近づいたり離れたりする際にも対応可能とするために、撮像部6a、6bのカメラの映像のレンズのズームを、前後方向の位置に応じて操作し、利用者が前後に移動したときに観察されるべき映像を擬似的に生成する構成としてもよい。あるいは、レンズのズームを操作するのでなく、カメラの映像を比較的広い視野角に固定して撮像しておき、その映像を信号処理し、表示部に表示される利用者の表示領域を大きくしたり小さくする制御を実行して、同様の効果を持たせる構成としてもよい。
【0089】
[実施例2]
図7は、本発明の第2の実施形態における画像通信装置の構成を示す。実施例1において説明した図1と同様の構成部に関しては同一の参照符号を付してある。また、図7においては、B地点の画像通信装置2bは省略した。
【0090】
第2の実施形態では、第1の実施形態にある検出部3aを構成するカメラ部31を削除し、撮像部6aを構成するカメラによって取得した画像に基づいて、利用者1aの位置情報を取得する構成とした。
【0091】
前述したように、利用者1aの位置情報は、利用者を撮影するカメラの情報に基づいて実行することが可能である。例えば1台のカメラの撮影画像の解析に基づいて、利用者1aの位置を求めることが可能である。この場合は、撮像部6aを構成する複数カメラの撮影画像の1つを用いて、撮影画像の解析に基づいて、利用者1aの位置を求める。また、前述したステレオ法では、異なる視点からの撮影画像として基準カメラと参照カメラとの画像を用いるが、撮像部6aを構成する複数カメラは、上述の説明において理解されるように異なる視点方向の画像を取得可能であり、これらの画像を用いてステレオ法による利用者1aの位置情報が取得できる。
【0092】
図8を参照して、本実施例の構成における検出器32の処理について説明する。撮像部6aは、前述の実施例1と同様、利用者1aを異なる方向から撮影する複数のカメラ61〜65から構成される。カメラ61は、利用者1aの左側面から、カメラ63は、利用者1aの真正面から、カメラ65は、利用者1aの右側面からの映像を撮影する。
【0093】
送信映像制御部5aには、B地点の検出部3bにおいて取得された利用者1bの位置情報CBが供給される。送信映像制御部5aは、ネットワークを介してB地点から入力する位置情報CBに基づいて撮像部6aのどのカメラからの映像を出力、すなわち、複数の異なる視点からの映像のどの映像をB地点の表示部4bに提示するかを選択する。送信映像制御部5aが利用者1bの位置情報CBに基づいて選択した1つの映像、すなわち利用者1aの選択映像が選択映像情報DAとして、ネットワーク7を介してB地点に送信され、B地点の画像通信装置2bの表示部4bに供給される。この映像選択構成は、実施例1と同様である。
【0094】
本実施例においては、撮像部6aを構成する複数のカメラ61〜65の取得映像を検出器32に入力する。例えばカメラ61の映像と、カメラ65の取得映像を検出器32に入力し、先に図3、図4を参照して説明したステレオ法を適用して利用者1aの三次元上の位置を求める。求めた位置情報は、利用者1aの位置情報CAとして、B地点の画像通信装置の送信映像制御部5bに送られる。
【0095】
このように、本実施例によれば、利用者の位置情報検出に、撮像部のカメラの撮影画像を適用する構成としたので、検出部にカメラを設置する必要がなくなり、装置の小型化、コストダウンが実現される。
【0096】
[実施例3]
上述した実施例1、2では、2地点間の利用者を想定した構成例を説明した。次に、3地点以上に利用者がおり、それぞれの利用者映像をネットワークを介して相互に送信する処理構成例について説明する。
【0097】
A地点、B地点、C地点の3地点を結んだ通信での運用例について説明する。画像通信装置は、モード切り替え機構を有し、「一人対面モード」と「二人対面モード」との切り替えが可能な構成を持ち、状況に応じて利用者がモードを切り替えることができる。「一人対面モード」は、これまで説明してきた2地点間の通信において用いられる。「複数人対面モード」は、多地点での同時運用時に利用され、たとえばA地点の画像通信装置2aにおいて、通信している別の2地点(B地点、C地点)からの映像を、画像通信装置2aの表示映像を分割して左右に並べて利用者1aに提示するモードである。
【0098】
図9は、「複数人(二人)対面モード」の状態を図示している。A地点の利用者1aが「複数人(二人)対面モード」を選択すると、通信している別の2地点(B地点、C地点)からの映像を、画像通信装置2aのスクリーン41a上の表示映像を区分、すなわち分割して左右に並べて利用者1aに提示する。
【0099】
画像通信装置2a内の送信映像制御部5aの構成例を図10に示す。送信映像制御部5aのモード設定部51は、利用者からのモード設定コマンドを入力する。「一人対面モード」の際には、送信映像制御部5aから出力される受信側に送るための映像は、撮像部6aの複数のカメラ61〜65すべてからの映像を選択候補映像として、対面している通信相手の位置情報に基づいて選択して送信する。
【0100】
例えばB地点の利用者1bとのみ対面する状態の場合には、B地点に送信する利用者1aの画像は、撮像部6aの複数のカメラ61〜65すべてからの映像を選択候補映像として、B地点の利用者1bの位置情報CBを第1位置情報入力部53を介して入力し、映像選択部52において選択しB地点への選択出力画像とする。
【0101】
「複数人(二人)対面モード」の設定の場合には、B地点およびC地点に送る映像を、撮像部6aの複数のカメラ61〜65の撮影映像を区分して設定する。例えばB地点に送る映像は、カメラ61〜63の映像を選択候補とする。C地点に送る映像は、カメラ63〜65の映像を選択候補とするなどである。
【0102】
すなわち、本実施例の画像通信装置では、表示部は、単一の通信相手を表示する一人対面モードと、複数の通信相手を画面分割により同時に表示する複数人対面モードとのモード変更による異なる画面表示が可能な構成を有し、送信映像制御部は、表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する撮像部の複数カメラの範囲を区分する処理を実行する構成である。
【0103】
例えば、A地点の画像通信装置2aの利用者1aが見ているスクリーン41a上の映像に向かって右半分がB地点からの映像、左半分がC地点からの映像とすると、B地点に送られる映像を、利用者1aから見て向かって右半分のカメラ群から選択し、C地点に送られる映像を、利用者1aから見て向かって左半分のカメラ群から選択する。このように設定することで、利用者1aの前に利用者1bと利用者1cが隣合って対面しているように映像表示することが可能となる。
【0104】
A地点の画像通信装置2aは、B地点の利用者1bの位置情報CBを第1位置情報入力部53を介して入力し、映像選択部52において、選択画像候補としてカメラ61〜63の取得画像を設定し、この設定内の取得画像から送信映像を選択し、B地点への選択出力映像とする。また、C地点の利用者1cの位置情報CCを第2位置情報入力部54を介して入力し、映像選択部52において、選択画像候補としてカメラ63〜65の取得画像を設定し、この設定内の取得画像から送信映像を選択し、C地点への選択出力映像とする。
【0105】
さらに、たとえばB地点の利用者1bが画像通信装置2bの正面に位置している場合に、これまでの「一人対面モード」では撮像部6aの複数のカメラの中心付近にあるカメラの映像を選ぶように設定されていたが、「二人対面モード」では、これをB地点用のカメラ群の中心付近にあるカメラの位置に設定する。同様に、C地点の利用者1cが画像通信装置2cの正面に位置している場合に、「二人対面モード」では、これをC地点用のカメラ群の中心付近にあるカメラの位置に設定する。また、B地点用のカメラ群とC地点用のカメラ群は重なりなく分割しても、多少の重なりを持たせた分割でもよい。
【0106】
このように運用することで、たとえばA地点の利用者1aが画像通信装置2aのスクリーン41a上に表示されているB地点の利用者1bの映像に視線を合わせて対話している場合には、B地点の利用者1bが見ている画像通信装置2bのスクリーン41b上に表示されているA地点の利用者1aの映像は視線の一致が図れ、C地点の利用者1cが見ている画像通信装置2cのスクリーン41c上に表示されているA地点の利用者1aの映像は違った方向を見ていることになり、より臨場感を高めた対話が実現できる。
【0107】
なお、ここでは3地点での対話の例を挙げたが、4地点以上の対話においても、同様の運用を行うことで、同様の効果が得られる。
【0108】
[ビューインターポレーションによる画像処理]
上述した実施例においては、撮像部に複数のカメラを設置し、利用者の位置に応じて、各カメラの取得映像を切り替えて表示する構成を説明した。しかし、上述の構成においては、撮像部に設置可能なカメラの数には制限がある。従って、利用者の位置によっては、個々のカメラの撮影映像のみでは利用者位置を正確に反映した映像を提示できなくなる場合がある。
【0109】
例えば上述の例では、撮像部6aには5台のカメラ61〜65を設置した構成を示している。この場合、各カメラ位置5箇所においては利用者の位置を正確に反映した映像を提供できるが、各カメラ間に対応する位置に利用者が位置した場合の正確な映像は提示できない。このような問題を解決するため、複数カメラの画像に基づいて、実際には撮影されていない位置の画像を生成して送信する構成例を説明する。
【0110】
図11に実際のカメラ撮影画像に基づいて、実際には撮影されていない画像を生成するビューインターポレーションを実行する画像処理部構成を持つ画像通信装置の送信映像制御部5aの構成例を示す。なお、ここでは、2地点間の画像通信例を説明するが、前述の3地点以上の地点間の画像通信においても同様の画像処理が適用可能である。
【0111】
撮像部6aには、複数台のカメラ61〜65が設定され、それぞれのカメラが利用者を異なる方向から撮影する。送信映像制御部5aの位置情報入力部56には、B地点の検出部3bにおいて取得された利用者1bの位置情報CBが供給される。映像選択部57は、複数台のカメラ61〜65の映像から、位置情報CBに対応した位置にある利用者映像を選択してB地点に対する出力映像とする。この構成は、上述の各実施例で述べた処理を実行する基本構成である。
【0112】
送信映像制御部5aは、さらに、画像処理部58を有する。画像処理部58は、位置情報入力部56の入力位置情報に正確に対応する取得映像がない場合、複数カメラの映像に基づいて、実際には撮影されていない位置の映像、すなわちカメラ間に対応する位置にある利用者位置に対応する映像を生成する。すなわち、ビューインターポレーションによる画像処理を実行する。
【0113】
実際にカメラのない位置を視点とした映像を、周辺の複数のカメラの実写映像から生成するビューインターポレーション(View Interpolation; View Morphingとも呼ばれる)の技術を用いれば、利用者の視点の移動に伴う映像の変化を、より違和感のないものとして実現可能となる。
【0114】
ビューインターポレーションとは、複数のカメラからの映像から、実際のカメラのない視点から見える映像を生成する技術である。図12に示すように、カメラAからの画像AとカメラBからの画像Bを用いて、その間に位置する仮想的なカメラCで撮影されるべき画像Cを生成する。画像Cは、実際にカメラCがあったとして得られる画像と寸分違わぬ画像である必要はなく、人の目に違和感なく自然に見えればよい。このビューインターポレーションを実現するための技術としては、たとえば[S. M. Seitzand C. R. Dyer, "View Morphing," Proc. SIGGRAPH 96, ACM, 1996pp.21-30.]に記載の画像処理手法が利用できる。なお、この文献に記載の手法は仮想視点がカメラの投影中心を結んだ直線上の移動のみを考慮したものであるが、仮想視点がカメラより前方に移動する(被写体に近づく)場合の画像生成には、[S.J. Gortler, R. Grzeszczuk, R. Szeliski, and M.F. Cohen, "The Lumigraph", Proc. of SIGGRAPH '96, ACM, 1996, pp. 43-54]に記載の手法が利用できる。
【0115】
このように、ビューインターポレーションによれば、複数のカメラに基づく実際の取得画像に基づいて、カメラのない視点の画像の生成が可能であり、この画像処理を本発明の画像通信装置において実行することで、利用者の位置に対応した画像を限られた数のカメラの取得画像に基づいて生成、送信することが可能となり、より臨場感のある画像を各利用者に提供することが可能となる。
【0116】
[その他の実施例]
上述の複数の実施例においては、いずれも画像を送信する側の画像通信装置の送信映像制御部において、複数カメラの取得画像から1つの画像を選択、または、ビューインタポレーションによる合成画像を生成して通信相手に送信する構成例を説明した。
【0117】
このように、画像を送信する側で、1つの送信画像を設定することなく、複数カメラの取得画像を全て通信相手の装置に送信し、通信相手側の画像通信装置において画像を選択あるいはビューインタポレーションによる画像生成を実行して、唯一の表示画像を設定して表示する構成としてもよい。
【0118】
複数の画像を受信して、画像選択あるいは画像生成を実行する場合は、画像通信装置に表示映像制御部を設け、表示映像制御部において、通信相手から受信する複数画像データからの画像選択処理、あるいは通信相手から受信する複数画像データに基づいてビューインタポレーション等の画像処理を実行する構成とする。
【0119】
表示映像制御部は、自装置の検出部において検出した自分の位置情報を入力し、位置情報に基づいて、通信相手から受信する複数画像からの画像選択処理またはビューインタポレーションによる画像処理を実行して、表示画像の選択あるいは生成を行なう。この構成においては、画像データの送信量は増加するが、画像選択に適用する利用者位置情報をネットワークを介して送信する必要がなくなる。
【0120】
[ハードウェア構成例]
次に、図13を参照して、本発明の画像通信装置のハードウェア構成例について説明する。本発明の画像通信装置は、図1他を参照して説明したように、ディスプレイに相対して位置する利用者を撮影する複数のカメラ構成を有することが必要となるが、これら複数カメラの取得画像の選択処理、ディスプレイに対する表示制御処理、データ送受信制御処理は、例えばPC、PDA、携帯端末等CPU等の制御部、メモリ、通信インタフェース等を備えた様々な情報処理装置構成において実現可能である。複数カメラの取得画像の選択処理、ディスプレイに対する表示制御処理、あるいはデータ送受信処理を実行するための情報処理装置の具体的ハードウェア構成例について、図13を参照して説明する。
【0121】
CPU(Central Processing Unit)856は、各種アプリケーションプログラムの実行制御を行なう。例えば外部から入力される利用者位置情報に基づくカメラ取得画像の選択処理、ディスプレイに対する表示制御処理、データ送受信処理制御を実行する制御部として機能するプロセッサである。メモリ857は、CPU856が実行するプログラム、あるいは演算パラメータとしての固定データを格納するROM(Read-Only-Memory)、CPU856の処理において実行されるプログラム、およびプログラム処理において適宜変化するパラメータの格納エリア、ワーク領域として使用されるRAM(Random Access Memory)等によって構成される。
【0122】
HDD858はプログラム格納領域として利用可能であり、また、送受信画像データの格納領域として利用可能なハードディスクを持つ記憶部である。なお、図には、HDDを利用した例を示しているが、CD、DVD等を記憶媒体として適用することも可能である。
【0123】
コーデック851は、ネットワークを介して送受信する画像データのエンコード(符号化)処理、デコード(復号)処理を実行する。画像データは、情報量が多いため、例えばMPEG符号化によりデータ量を削減して送信することが好ましい。
【0124】
ネットワークインタフェース852は、インターネット、LAN等の各種通信ネットワークとのインタフェースとして機能する。入力インタフェース853は、マウス837、キーボード836等の入力機器とのインタフェースとして機能する。ユーザは例えばキーボード836からのデータ入力により、前述した実施例3で説明したモード設定を実行する。
【0125】
AVインタフェース854、ディスプレイインタフェース855は、カメラ群833、マイク834、スピーカ835等のAVデータ入出力機器からのデータ入出力を行なう。PCIバス859を介して制御情報、データが各構成要素間において転送される。これらのデータ転送制御、その他各種プログラム制御はCPU856によって実行される。
【0126】
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
【0127】
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
【0128】
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
【0129】
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
【0130】
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
【0131】
【発明の効果】
以上、説明したように、本発明の構成によれば、ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する構成において、画像送信元の利用者1aの画像を複数カメラを用いて異なる視点から撮影し、ネットワークを介して通信相手の利用者1bの位置情報を入力し、入力する通信相手1bの位置情報に基づいて、撮像部の複数カメラが撮影する利用者1aの複数の画像から、通信相手1b側表示装置に表示される利用者1aに対する通信相手1bの視点方向からの利用者1aの画像に近い画像を通信相手1bに対する送信画像として選択する構成としたので、利用者の位置が変化しても視線の一致を得ることが可能となり、利用者は、互いに先方の利用者を所望の位置から見ているような映像を観察することができ、あたかも窓を介して会話しているような臨場感でコミュニケーションを図ることが可能となる。
【0132】
さらに、本発明の構成によれば、表示部を、単一の通信相手を表示する一人対面モードと、複数の通信相手を画面分割により同時に表示する複数人対面モードとのモード変更による異なる画面表示が可能な構成とし、送信映像制御部は、表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する撮像部の複数カメラの範囲を区分する処理を実行する構成としたので、3地点以上の多地点のコミュニケーションに利用する場合においても、利用者は、互いに先方の利用者を所望の位置から見ているような映像を観察することが可能となる。
【図面の簡単な説明】
【図1】本発明の画像通信装置の構成および通信処理について説明する図である。
【図2】本発明の画像通信装置の撮像部、表示時構成例について説明する図である。
【図3】本発明において利用者位置情報検出に適用可能なステレオ法について説明する図である。
【図4】本発明において利用者位置情報検出に適用可能なステレオ法について説明する図である。
【図5】本発明の画像通信装置の処理シーケンスを説明するフロー図である。
【図6】本発明の画像通信装置における送信画像の選択処理について説明する図である。
【図7】本発明の画像通信装置の第2実施例構成を示す図である。
【図8】本発明の画像通信装置の第2実施例構成の詳細を説明する図である。
【図9】本発明の画像通信装置の第3実施例構成を示す図である。
【図10】本発明の画像通信装置の第3実施例における送信映像制御部の構成を示す図である。
【図11】画像生成処理を実行する画像処理部を有する本発明の画像通信装置の送信映像制御部の構成を示す図である。
【図12】ビューインタポレーション処理について説明する図である。
【図13】本発明の画像通信装置のハードウェア構成例を示すハードウェア構成図である。
【符号の説明】
1a,1b,1c 利用者
2a,2b,2c 画像通信装置
3a,3b 検出部
4a,4b 表示部
5a,5b 送信映像制御部
6a,6b,6c カメラ
7 ネットワーク
31 カメラ
32 検出器
41 ホログラムスクリーン
42 プロジェクタ
51 モード設定部
52 映像選択部
53 第1位置情報入力部
54 第2位置情報入力部
56 位置情報入力部
57 映像選択部
58 画像処理部
61〜63 カメラ
832 ディスプレイ
833 ビデオカメラ
834 マイク
835 スピーカ
836 キーボード
837 マウス
850 画像制御処理装置
851 コーデック
852 ネットワークインタフェース
853 入出力インタフェース
854 AVインタフェース
855 ディスプレイインタフェース
856 CPU
857 メモリ
858 HDD
859 PCIバス[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an image communication device, an image communication method, and a computer program. More specifically, in a system in which a conversation partner is displayed on a display via a communication means, such as a videophone or a video conference, and a conversation is performed, by controlling a display image according to a user's movement, the conversation is performed. TECHNICAL FIELD The present invention relates to an image communication apparatus, an image communication method, and a computer program that enable display on a display with reduced discomfort of a user who performs the operation.
[0002]
[Prior art]
2. Description of the Related Art Systems such as a videophone and a videoconference, in which a conversation partner is displayed on a display via a communication means to have a conversation, are used in various fields. In recent years, personal computers (PCs) have advanced functions and lower prices, and PCs or portable terminals have digital cameras and have a videophone function of transmitting and receiving voice and image data via a network such as the Internet. Has also been put to practical use.
[0003]
As described above, in a system in which users transmit image data captured by an imaging device to a communication partner via a communication line, and display an image of the partner user, the user views the display device. Matching the line of sight (the line of sight) of the user and the image of the other party displayed on the display device is an important factor for realizing a conversation with a natural feeling.
[0004]
Some proposals have already been made for a configuration for matching the eyes of both users. For example, a device that adjusts the direction of a camera and a display screen using a half mirror (for example, Patent Document 1), or a device that performs display and imaging in a time series using a screen and a projector that can control a light transmission state and a light confusion state For example, Japanese Patent Application Laid-Open No. H11-163873 and Japanese Patent Application Laid-Open Publication No. H11-15795 disclose a method that enables display and imaging to be performed simultaneously by using a hologram screen and a projector.
[0005]
However, in the systems disclosed in the above-described prior arts, since both users who provide image data each have only one fixed camera, the system is provided with only one fixed camera from one viewpoint acquired by the fixed camera. Only the video is transmitted to the other party, and it is not possible to transmit a video from a different viewpoint. Therefore, when the person moves left or right, for example, there is a problem in that a shift occurs in the line of sight of the user who is conducting the conversation while watching the image, and communication becomes unnatural.
[0006]
In order to eliminate such unnaturalness, a system has been proposed that measures the position of the person watching the video, moves the other party's camera according to the information, and matches the eyes even if the person moves. (For example, Patent Document 4). The configuration described in Patent Literature 4 is a configuration in which an operating unit that moves a camera for photographing a user is provided, the position of a person watching an image is measured, and the other party's camera is moved according to the information. However, in this configuration, the movement of the camera is started based on the detection of the movement of the user, and due to the occurrence of a time lag due to the movement of the camera, the movement of the user cannot be sufficiently followed, and the unnaturalness is sufficiently resolved. There is a problem that it does not reach. In addition, there is a problem in the difficulty and reliability of an operating unit configuration for accurately driving a camera based on a control signal.
[0007]
Further, an image interactive device including a plurality of cameras has been proposed (for example, Patent Document 5). This is to select an image capturing the face of the user at the point A from a plurality of images acquired by a plurality of cameras installed at the point A when performing a conversation between the point A and the point B. This is a configuration in which an image is presented to a user at point B. In this configuration, the face of the partner is always displayed on the display of the user. However, this configuration does not control the display image viewed by the user according to the movement of the user watching the display. The display image seen by the user becomes a fixed face image of the other party, and it is hard to say that the configuration is sufficient to reduce the discomfort of the user who performs the conversation.
[0008]
[Patent Document 1]
JP-A-61-65683
[Patent Document 2]
JP-A-4-11485
[Patent Document 3]
JP-A-9-168141
[Patent Document 4]
JP 2000-83228 A
[Patent Document 5]
JP-A-6-303601
[0009]
[Problems to be solved by the invention]
The present invention has been made in view of the above-described problems of the related art, and transmits image data of a user via a communication path, such as a videophone and a video conference, and displays the image data on both displays. Communication device, image communication method, image communication method, and image display method capable of controlling a display image in accordance with the movement of a user to reduce the discomfort of the user performing the conversation The purpose is to provide the program.
[0010]
Further, the systems disclosed in the above-mentioned prior arts are all two-way communication systems connecting two points, and have a configuration in which an image is presented between users at three or more points to carry out a dialogue. Is not disclosed. In the case of a system that presents images between users at three or more locations, a configuration is desired in which image data of a plurality of locations participating in a dialog are displayed together on one display. For example, a display is divided to display a plurality of opponents, an image to be displayed on a display is controlled in accordance with a line of sight of a user viewing the display, and a display image area in a line of sight of the user watching the display is used. It is considered that a more natural sense of dialogue can be provided by performing the adjustment to match the line of sight of the user image.
[0011]
According to the configuration of the present invention, in a system in which a conversation partner is displayed on a display via such communication means at three or more points and a conversation is performed, a conversation is performed by controlling a display image according to a movement of a user. It is an object of the present invention to provide an image communication device, an image communication method, and a computer program that enable display on a display with reduced user discomfort.
[0012]
[Means for Solving the Problems]
According to a first aspect of the present invention,
An image communication device that transmits a user image via a network and realizes communication in which the user image is displayed on a display unit,
An imaging unit having a plurality of cameras for capturing an image of the user (A) of the image transmission source from different viewpoints;
A display unit for displaying an image of the communication partner (B);
A detection unit for acquiring position information of the user (A);
The location information of the communication partner (B) is input via the network, and based on the input location information of the communication partner (B), a plurality of images of the user (A) captured by the plurality of cameras of the imaging unit are obtained. An image close to the image of the user (A) from the viewpoint of the communication partner (B) with respect to the user (A) displayed on the display device of the communication partner (B) is selected as the transmission image to the communication partner (B). A transmission video control unit to perform
An image communication apparatus characterized by having:
[0013]
Further, in one embodiment of the image communication device of the present invention, the image communication device has a configuration that can be used for communication at three or more points, and the display unit displays a single communication partner. Person-to-person mode, has a configuration that allows different screen display by mode change between multiple person-to-person mode to simultaneously display multiple communication partners by screen division, the transmission video control unit, according to the setting mode of the display unit According to a feature of the present invention, a process is performed in which a range of a plurality of cameras of the imaging unit to be selected as a transmission image to a communication partner is divided according to a display area of the divided communication partner.
[0014]
Further, in one embodiment of the image communication device of the present invention, the transmission video control unit has an image processing unit that combines images between cameras based on a plurality of images captured by a plurality of cameras of the imaging unit, The image processing unit converts an image close to an image of the user (A) from the viewpoint direction of the communication partner (B) with respect to the user (A) displayed on the communication partner (B) side display device by the imaging unit. A configuration for performing a process of generating by image processing based on images captured by a plurality of cameras, and the transmission video control unit performing a process of setting a generated image of the image processing unit as a transmission image to the communication partner (B) It is characterized by being.
[0015]
Further, in one embodiment of the image communication device according to the present invention, the detection unit executes a process of acquiring position information of the user (A) based on an image acquired by a camera constituting the imaging unit. It is characterized by having a configuration.
[0016]
Further, in one embodiment of the image communication device of the present invention, the detection unit performs the three-dimensional position acquisition process by a stereo method based on images acquired by a plurality of cameras of different viewpoints constituting the imaging unit, and thereby the user (A) ) To acquire the position information.
[0017]
Further, in one embodiment of the image communication apparatus according to the present invention, the plurality of cameras constituting the imaging unit are configured to photograph the user (A) image from the display unit direction from different viewpoints. And
[0018]
Further, in one embodiment of the image communication device of the present invention, a plurality of cameras constituting the imaging unit are horizontally arranged in a plurality, and images of the user (A) of the image transmission source are viewed from different viewpoints at least in the horizontal direction. It is characterized by taking pictures.
[0019]
Further, in one embodiment of the image communication apparatus according to the present invention, the plurality of cameras constituting the imaging unit are arranged in an array, and images of the user (A) as the image transmission source are viewed from different viewpoints in the horizontal and vertical directions. It is characterized in that it is configured to shoot from.
[0020]
Further, a second aspect of the present invention provides
An image communication device that transmits a user image via a network and realizes communication in which the user image is displayed on a display unit,
An imaging unit having a plurality of cameras for capturing an image of the user (A) of the image transmission source from different viewpoints;
A display unit for displaying an image of the communication partner (B);
A detection unit for acquiring position information of the user (A);
A plurality of image data obtained by photographing the communication partner (B) from different viewpoints via the network is input, and the viewpoint of the user (A) is determined based on the position information of the user (A) detected by the detection unit. A display image control unit for selecting a communication partner (B) image close to the image of the communication partner (B) viewed from the direction as an output image to the display unit;
An image communication apparatus characterized by having:
[0021]
Further, in one embodiment of the image communication device of the present invention, the display video control unit has an image processing unit that combines images between cameras based on a plurality of images captured by a plurality of cameras of the imaging unit, The image processing unit is configured to transmit a communication partner (B) image that is close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) to the communication partner (B) that receives the communication partner (B) from a different viewpoint. The display image control unit performs a process of generating the image data based on a plurality of captured image data, and the display image control unit uses the image generated by the image processing unit as an output image to the display unit.
[0022]
Further, a third aspect of the present invention provides
An image communication method for transmitting a user image via a network and realizing communication in which the user image is displayed on a display unit,
A photographing step of photographing an image of the user (A) of the image transmission source from a plurality of viewpoints by a plurality of cameras;
A position information inputting step of inputting position information of a communication partner (B) via the network;
Communication with the user (A) displayed on the communication partner (B) side display device from a plurality of images of the user (A) captured by the plurality of cameras based on the input positional information of the communication partner (B). An image selection step of selecting an image close to the image of the user (A) from the viewpoint direction of the partner (B) as a transmission image to the communication partner (B);
An image transmitting step of transmitting the image selected in the image selecting step to a communication partner,
Image communication method.
[0023]
Further, in one embodiment of the image communication method of the present invention, the image communication method further includes displaying the display unit in a one-to-one mode in which a single communication partner is displayed, or simultaneously displaying a plurality of communication partners by screen division. A mode setting step of setting any one of a plurality of face-to-face modes; and a plurality of cameras of the imaging unit that are selected as transmission images for the communication partner according to a display area of the communication partner divided according to the setting mode of the display unit. The image selecting step executes a process of selecting an image to be transmitted to each communication partner from only the images obtained by the camera classified in the dividing step. I do.
[0024]
Further, in one embodiment of the image communication method of the present invention, the image selecting step includes an image processing step of combining images between cameras based on a plurality of images captured by the plurality of cameras, and the image processing step An image close to the image of the user (A) from the viewpoint direction of the communication partner (B) with respect to the user (A) displayed on the display device of the communication partner (B) based on the images captured by the plurality of cameras. A step of executing a process of generating by image processing, wherein the image selecting step executes a process of setting a generated image in the image processing step as a transmission image to the communication partner (B).
[0025]
Further, in one embodiment of the image communication method according to the present invention, the image communication method further includes a detecting step of detecting position information of a user (A) of an image transmission source for transmitting to the communication partner (B). Wherein the detecting step executes a process of acquiring position information of the user (A) based on the acquired images of the plurality of cameras.
[0026]
Further, in one embodiment of the image communication method according to the present invention, in the detecting step, the position information of the user (A) is obtained by a three-dimensional position obtaining process by a stereo method based on the images obtained by the plurality of cameras. It is characterized by.
[0027]
Further, a fourth aspect of the present invention provides
An image communication method for transmitting a user image via a network and realizing communication in which the user image is displayed on a display unit,
A detecting step of acquiring the position information of the user (A) of the image transmission source;
An image data inputting step of inputting a plurality of image data obtained by photographing a communication partner (B) from different viewpoints via a network;
Based on the position information of the user (A) detected in the detection step, a communication partner (B) image close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) is displayed on the display unit. A display video control step of selecting as an output image;
A display step of outputting the output image selected in the display image control step to a display unit,
Image communication method.
[0028]
Further, in one embodiment of the image communication method according to the present invention, the display image control step includes an image processing step of combining images between cameras based on a plurality of images captured by the plurality of cameras, and The step comprises: capturing a communication partner (B) image close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) from a different viewpoint; A display image control step of using the generated image generated in the image processing step as an output image to the display unit.
[0029]
Furthermore, a fifth aspect of the present invention provides
A computer program for transmitting a user image via a network and performing an image communication process for realizing communication in which the user image is displayed on a display unit,
A photographing step of photographing an image of the user (A) of the image transmission source from a plurality of viewpoints by a plurality of cameras;
A position information inputting step of inputting position information of a communication partner (B) via the network;
Communication with the user (A) displayed on the communication partner (B) side display device from a plurality of images of the user (A) captured by the plurality of cameras based on the input positional information of the communication partner (B). An image selection step of selecting an image close to the image of the user (A) from the viewpoint direction of the partner (B) as a transmission image to the communication partner (B);
An image transmitting step of transmitting the image selected in the image selecting step to a communication partner,
A computer program characterized by comprising:
[0030]
Further, a sixth aspect of the present invention provides
A computer program for transmitting a user image via a network and performing an image communication process for realizing communication in which the user image is displayed on a display unit,
A detecting step of acquiring the position information of the user (A) of the image transmission source;
An image data inputting step of inputting a plurality of image data obtained by photographing a communication partner (B) from different viewpoints via a network;
Based on the position information of the user (A) detected in the detection step, a communication partner (B) image close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) is displayed on the display unit. A display video control step of selecting as an output image;
A display step of outputting the output image selected in the display image control step to a display unit,
A computer program characterized by comprising:
[0031]
[Action]
According to the configuration of the present invention, in a configuration for transmitting a user image via a network and realizing communication in which the user image is displayed on the display unit, the image of the user (A) as the image transmission source is transmitted to a plurality of cameras. Use from different viewpoints, input the position information of the user (B) of the communication partner via the network, and use the plurality of cameras of the imaging unit to shoot based on the input position information of the communication partner (B). From the plurality of images of the user (A), an image close to the image of the user (A) from the viewpoint direction of the communication partner (B) with respect to the user (A) displayed on the communication partner (B) display device is communicated. Since the transmission image is selected as the transmission image for the other party (B), it is possible to obtain the same gaze even if the position of the user changes, and the users can see the other user from the desired position. Video that looks like It can be that Presumably, though it is possible to achieve a communication in the sense of presence, such as a conversation through the window.
[0032]
Furthermore, according to the configuration of the present invention, the display unit displays different screens by changing the mode between a one-person mode that displays a single communication partner and a multi-person mode that simultaneously displays a plurality of communication partners by dividing the screen. The transmission video control unit performs a process of classifying a range of a plurality of cameras of the imaging unit to be selected as a transmission image for the communication partner according to the display area of the communication partner classified according to the setting mode of the display unit. Since it is configured to execute, even in the case of using for communication at three or more points, it is possible for the user to observe an image that looks at the user at the other end from a desired position. .
[0033]
The computer program of the present invention is provided, for example, in a computer-readable format for a general-purpose computer system capable of executing various program codes, in a storage medium or communication medium such as a CD, FD, or MO. And a computer program that can be provided by a communication medium such as a network. By providing such a program in a computer-readable format, processing according to the program is realized on a computer system.
[0034]
Further objects, features, and advantages of the present invention will become apparent from a more detailed description based on embodiments of the present invention described below and the accompanying drawings. In this specification, the term “system” refers to a logical set of a plurality of devices, and is not limited to a device having each component in the same housing.
[0035]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, a plurality of embodiments will be described in detail with reference to the drawings, for details of an image communication device and an image communication method of the present invention.
[0036]
[Example 1]
First, a first embodiment of the present invention will be described. FIG. 1 is a diagram illustrating the configuration of the image communication device according to the first embodiment. FIG. 1 shows a system in which a user 1a shown in an upper part A of a line PQ and a user 1b shown in a lower part B of the line PQ execute communication via a network 7. This is a configuration example in which both users 1a and 1b bidirectionally exchange video and audio information using the image communication devices 2a and 2b according to the present embodiment. In the following description, a video is an image continuously captured by a camera, that is, a moving image, and is a lower concept of an image.
[0037]
Further, when a user exists at a location other than AB or when a plurality of users exist at the same location, a similar image communication device is installed for each combination of all users. The configuration is such that only one user is located relative to the communication device, and image data is transmitted and received between each other. A specific configuration example between three or more points will be described in a third embodiment.
[0038]
The image communication device 2a at the point A includes a detection unit 3a, a display unit 4a, a transmission video control unit 5a, an imaging unit 6a, and the like, and an audio processing unit and an audio information transmission processing unit (not shown). Note that a conventional processing configuration can be applied to the audio processing and the audio transmission processing, and thus detailed description in this specification is omitted.
[0039]
The image communication device 2b at the point B also has the same configuration as the image communication device 2a at the point A, and includes a detection unit 3b, a display unit 4b, a transmission video control unit 5b, an imaging unit 6b, and an audio processing unit (not shown). And a transmission processing unit.
[0040]
Each of the image communication apparatuses 2a and 2b is connected to a network 7 composed of various data communication networks such as the Internet, a dedicated line, a public line, and a LAN. The data is transferred, and communication is performed with each other while viewing the image of the communication partner. In the configuration of the present invention, the user location information is further transferred via the network.
[0041]
Specifically, the video information DA, the position information CA, and the audio information (not shown) acquired by the image communication device 2a on the point A side are supplied to the image communication device 2b on the point B side. , The image information DB formed in the image communication device 2b on the point B side, the position information CB, the audio information and the like are supplied to the image communication device 2a on the point A side.
[0042]
Since the image communication devices 2a and 2b at both points A and B have the same configuration, the configuration and operation of the image communication device 2a on the user 1a side will be described below as an example.
[0043]
The display unit 4a includes, for example, a hologram screen 41 and a projector 42. The display unit 4a includes an imaging unit 6b including a plurality of cameras that capture images from different viewpoints in the image communication device 2b at the point B. Is selected in the transmission video control unit 5b in the image communication device 2b at the point B, and is supplied via the network 7 as the selected video information DB.
[0044]
Accordingly, the display unit 4a displays one image selectively transmitted from the plurality of images acquired by the imaging unit 6b including the plurality of cameras at the point B, that is, an image based on the selected image information DB. In consideration of the fact that the user 1a views the image as indicated by the arrow 81 in FIG. 1 through the hologram screen 41 of the display unit 4a, for example, the image that has been inverted and subjected to the distortion correction processing is displayed. The image is displayed on the unit 4a. The display unit 4a may be configured by a display device such as a CRT other than the hologram screen 41 and the projector 42 and a half mirror.
[0045]
The plurality of cameras constituting the imaging unit 6a capture an image of the user 1a from the direction of the hologram screen 41 as a display unit of the display unit 4a. The imaging unit 6a includes a plurality of cameras that capture images from different viewpoints, and the user 1a is captured by the plurality of cameras as indicated by an arrow 82 in FIG. At this time, a camera that captures an image of the user 1a from the front and a plurality of cameras that capture images from a position slightly shifted from the front of the user 1a are installed on the left and right sides of the camera.
[0046]
FIG. 2 shows a configuration example of the imaging unit 6a. A plurality of cameras 61 to 65 are set in the imaging unit 6a, and each camera photographs the user 1a from a different direction via the hologram screen 41. The camera 61 captures an image from the left side of the user 1a, the camera 63 captures an image from the front of the user 1a, and the camera 65 captures an image from the right side of the user 1a.
[0047]
The transmission image control unit 5a is supplied with the position information CB of the user 1b obtained by the point B detection unit 3b. The transmission image control unit 5a outputs an image from any camera of the imaging unit 6a based on the position information CB input from the point B via the network, that is, which image of the images from a plurality of different viewpoints The user selects whether to present the information on the display unit 4b.
[0048]
One image selected by the transmission image control unit 5a based on the position information CB of the user 1b, that is, the selected image of the user 1a is transmitted to the point B via the network 7 as the selected image information DA. It is supplied to the display unit 4b of the image communication device 2b.
[0049]
That is, in the configuration of the present invention, the position information of the user 1b at the point B is acquired by the detection unit 3b at the point B, and the position information CB of the user 1b is transmitted to the transmission image control unit 5a at the point A. Based on this information, the optimal viewpoint video is selected from the images obtained by the multiple cameras that photograph the user 1a at the point A and transmitted to the point B. That is, the video data is switched in accordance with the movement of the side watching the video.
[0050]
Similarly, the position information of the user 1a at the point A is acquired by the detection unit 3a at the point A, and the position information CA of the user 1a is transmitted to the transmission image control unit 5b at the point B, and based on this information. , The optimal viewpoint image is selected from the images acquired by the plurality of cameras that photograph the user 1b at the point B and transmitted to the point A.
[0051]
The processing of the detection unit will be described. The processing of the detection unit on the point A side will be described. The detection unit 3a attached to the vicinity of the display unit 4a includes, for example, a camera unit 31 and a detector 32. As shown by an arrow 83 in FIG. 1, the figure of the user 1 a is photographed by the camera section 31, and the video output of the camera section 31 is supplied to the detector 32. The detector 32 detects the position information of the user 1a, for example, the position of the face by image analysis. The position information CA of the detected user 1a is transmitted to the transmission image control unit 5b on the point B side. The transmission image control unit 5b on the point B side selects the transmission image from the multiple viewpoint images of the user 1b based on the position information CA input from the detection unit 3a at the point A.
[0052]
The face position detection process performed by the detection unit 3a is performed, for example, by installing one camera 31 and analyzing the position size and the like of the face area of the user 1a in an image obtained by the camera 31, and detecting the face of the user 1a. It is executed as a process of detecting a position in space. Alternatively, a configuration in which the user 1 a is irradiated with a laser to apply an object position measurement method by triangulation, or a plurality of cameras are installed in the camera unit 31, and images acquired by the plurality of cameras are input to the detector 32. A configuration may be adopted in which positional information of the user 1a is acquired by executing parallax detection by the stereo method.
[0053]
The principle of the stereo method will be briefly described. The stereo method associates pixels in multiple images obtained by photographing the same object from two or more viewpoints (different line-of-sight directions) using a plurality of cameras to associate the position of the measurement object in a three-dimensional space. It is what we seek. For example, the same object is photographed from different viewpoints by the reference camera and the detection camera, and the distance between the measurement objects in each image is measured based on the principle of triangulation.
[0054]
FIG. 3 is a diagram illustrating the principle of the stereo method. The reference camera (Camera 1) and the detection camera (Camera 2) photograph the same object from different viewpoints. Consider finding the depth of a point “mb” in an image captured by a reference camera.
[0055]
Objects that appear at the point “mb” in the image captured by the reference camera are “m1”, “m2”, and “m3” in images captured by the detection cameras capturing the same object from different viewpoints. It will be developed on a straight line. This straight line is referred to as an epipolar line Lp.
[0056]
The position of the point “mb” in the reference camera appears on a straight line called “epipolar line” in the image obtained by the detection camera. As long as the point P to be imaged (a point existing on a straight line including P1, P2, and P3) is on the line of sight of the reference camera, regardless of the depth, that is, the distance from the reference camera, on the reference image. Appears at the same observation point "mb". On the other hand, the point P on the image captured by the detection camera appears on the epipolar line at a position corresponding to the magnitude of the distance between the reference camera and the observation point P.
[0057]
FIG. 3 illustrates the correspondence between the epipolar line and the observation point “mb” in the detected camera image. As shown in the figure, as the position of the observation point P changes to P1, P2, and P3, the observation point in the detected camera image shifts to "m1,""m2," and "m3."
[0058]
The distance of the point P can be identified by searching for the observation point “mb” on the epipolar line using the above-described geometric optical properties. This is the basic principle of the “stereo method”. In this way, three-dimensional information on all pixels on the screen is obtained. The acquired three-dimensional information can be used as pixel attribute data corresponding to each pixel.
[0059]
Although the above-described stereo image method has a configuration using one reference camera and one detection camera, evaluation values are obtained by a multi-baseline stereo (Multi Baseline Stereo) method using a plurality of detection cameras. You may comprise so that the three-dimensional information for every pixel may be acquired based on an evaluation value. The multi-baseline stereo image method uses an image taken by one reference camera and a plurality of detection cameras, obtains an evaluation value representing a correlation between the plurality of detection camera images and the reference camera image, and calculates each evaluation value. The sum is added, and the sum is used as a final evaluation value. The details of the multi-baseline stereo image method are described in, for example, “Stereo Matching Using Plural Baseline Lengths”, IEICE Transactions D-11Vol. J75-D-II No. 8 pp. 1317-1327, August 1992.
[0060]
As described above, the stereo method associates pixels in a plurality of images obtained by photographing the same object from two or more viewpoints (different line-of-sight directions) using a plurality of cameras; By performing “matching”, the position of the measurement object in the three-dimensional space is obtained.
[0061]
Conventionally, the method of “corresponding scoring” that is often used is roughly classified into pixel-based matching, area-based matching, and feature-based matching. Pixel-based matching is a method of searching for the correspondence of points in one image as it is in the other image. The area-based matching is a method of searching for a correspondence of a point in one image by using a local image pattern around the point when searching in the other image. Feature-based matching is a method of extracting features such as dark and light edges from images and performing correspondence using only features between images.
[0062]
In general, Area-based matching is effective and often used as a method for obtaining a three-dimensional shape (or depth) of an object with high accuracy for each pixel. A method of obtaining a corresponding point in stereo vision by general Area-based matching will be described with reference to FIG. FIG. 4A is an observation image of the reference camera, and FIG. 4B is an observation image of the detection camera. Using the small area W around the point Nb on the image observed by the reference camera as a template, image correlation values at several points on the epipolar line of the detected camera image are obtained. In the case of the example shown in this figure, the distance resolution is six points of Nd1 to Nd6, and the distance numbers 1 to 6 correspond to distances of 1 m, 2 m, 3 m, 4 m, 5 m, and 6 m from the reference camera which has taken the image, for example. Suppose you have
[0063]
As the image correlation value of each point, for example, an evaluation value obtained by using the following equation (1) can be used. In the following equation, I (x) indicates a luminance value in a reference image captured by the reference camera, and I ′ (x ′) indicates a luminance value of a detected camera image captured by the detection camera.
[0064]
(Equation 1)
Figure 2004193962
[0065]
The lowest point among the evaluation values at the six points Nd1 to Nd6 in FIG. 4 obtained by using the above equation is defined as the corresponding point. This is shown in the lower graph of FIG. In the case of the example of FIG. 4, the position of Nd3, that is, the position of 3 m from the camera is set as distance data. In addition, it is also possible to obtain the lowest point in a portion other than the sample data by executing an interpolation process between the sampling data. When this interpolation processing is performed, the point between Nd3 and Nd4 in the graph of FIG. 4 is the minimum evaluation value, and in this case, the measurement target is assumed to be a distance of about 3.3 m from the camera. Note that the relationship between the epipolar line and the position on the epipolar line and the distance to the object is obtained in advance by calibration. For example, the coordinates of the corresponding points on the detected camera image corresponding to each distance are stored in a table for all the pixels on the reference camera image.
[0066]
In this way, by repeatedly executing the matching process between the reference camera image and the detected camera image for the pixels at each measurement point, it is possible to obtain three-dimensional shape data for all pixels, that is, position information in a three-dimensional space.
[0067]
A plurality of cameras for photographing the user 1a from different viewpoints are set as the cameras 31 of the detection unit 3a shown in FIG. 1, and these are used as a reference camera and a reference camera. The position information of the acquired image is acquired by the method. With this processing, the position information CA of the face of the user 1a can be acquired and transmitted to the transmission image control unit 5b at the point B. The configuration of the detection unit 3a is not limited to the stereo method as described above, and may be any configuration that can detect the position of the user's face, and various configurations can be applied.
[0068]
As described above, the position of the face of the user 1a is detected by the detector 32, and a position signal corresponding to the obtained detection result is formed by the detector 32. This position signal is supplied as position information CA via a transmission processing unit such as a network interface to the transmission video control unit 5b of the image communication device 2b at the point B via the network 7.
[0069]
Note that an audio processing unit incorporated in the image communication device 2a (not shown) is configured by an amplifier, a speaker, a microphone, and the like, and performs input / output processing of an audio signal. The transmission processing unit (not shown) includes a network interface circuit, a transmission code / decoder, and the like, and converts a video signal, an audio signal, and a position signal into a transmission form corresponding to a transmission medium and the like. The obtained information is sent out on the transmission path, and the original information is restored from the supplied information of a predetermined transmission form from the other side and supplied to each unit.
[0070]
The image communication device 2b at the point B is configured similarly to the image communication device 2a at the point A described above. Therefore, as the operation of the entire system, the position of the face of the user 1a is detected by the detection unit 3a of the image communication device 2a, and the position information CA formed according to the detection result is transmitted to the transmission image control of the image communication device 2b. While being supplied to the unit 5b, the position of the face of the user 1b is detected by the detection unit 3b of the image communication device 2b, and the position information CB formed according to the detection result is transmitted to the transmission image control unit of the image communication device 2a. 5a.
[0071]
In the transmission image control unit 5a of the image communication device 2a, the position information CB of the user 1b at the point B is input via the network, and the user 1a is photographed from a different viewpoint based on the position information CB of the user 1b. The user selects which camera image of the imaging unit 6a including a plurality of cameras is to be transmitted to the point B side and is output to the display unit 4b at the point B. Similarly, based on the position information CA of the user 1a at the point A, the transmission video control unit 5b of the image communication device 2b at the point B selects one of the imaging units 6b including a plurality of cameras for photographing the user 1b from different viewpoints. The user selects whether to transmit the camera image to the point A and output the image to the display unit 4a at the point A.
[0072]
The selected video information DA of the user 1a selected by the transmission video control unit 5a of the image communication device 2a at the point A is supplied to the display unit 4b of the image communication device 2b at the point B via the network 7. On the other hand, the selected video information DB of the user 1b selected by the transmission video control unit 5b of the image communication device 2b at the point B is supplied to the display unit 4a of the image communication device 2a at the point A.
[0073]
An image of the user 1b captured at the point B is displayed on the display unit 4a viewed by the user 1a at the point A. The display image of the user 1b is changed and projected according to the position of the face of the user 1a. On the other hand, an image of the user 1a photographed at the point A is displayed on the display unit 4b at the point B. The display image of the user 1a is changed and projected according to the position of the face of the user 1b. By this change processing, the users 1a and 1b can observe an image on the hologram screen as if they were viewing the other user from a desired position, and as if they were talking through a window. Communication can be achieved with a sense of reality.
[0074]
The procedure for selecting images from a plurality of cameras on the transmitting side and displaying them on the display device on the receiving side in accordance with the viewpoint position of the user on the receiving side will be described in detail with reference to FIGS. 5 and 6 illustrate a camera image selection operation from the image communication device 2a side (that is, point A), and FIG. 5 illustrates a processing procedure thereof. In each step, refer to S1 to S5. Signs are attached. The processing of each step will be described below.
[0075]
First, in step S1, detection processing of the position of the face of the user 1a at the point A is executed. For example, based on the parallax detection by the stereo method using a plurality of cameras described above, the position of the face of the user 1a in the three-dimensional space is detected as the position information CA of the user 1a.
[0076]
Next, in step S2, the detected position information CA is transmitted to the image communication device 2b at the point B via the network 7. In step S3, the transmission image control unit 5b in the image communication device 2b at the point B receives the position information CA, and the images of a plurality of cameras from a plurality of viewpoints configuring the imaging unit 6b that is capturing the user 2b at the point B. Is selected as the output video for the point A, and the selected video is output to the point A as the selected video information DB.
[0077]
The video selection process based on the position information CA executed in the transmission video control unit 5b will be described with reference to FIG. 6 (J1) and (J3) show the situation where the images of the user 1a at the point A, the display unit 4a, and the user 1b at the virtual point B are observed from above.
[0078]
6 (J2) and (J4) show a situation in which the user 1b, the display unit 4b, and the cameras 61 to 65 constituting the imaging unit 6b at the point B are observed from above. In the image communication device according to the present invention, by controlling the video of the communication partner displayed on the display unit, the video control is performed so that the two users 1a and 1b can interact with each other as if they were in front of the user. Have a configuration.
[0079]
For example, as shown in FIG. 6 (J1), when communication is performed between the point A and the point B using the present apparatus, the user at the point B displayed on the display unit 4a for the user 1a at the point A. 1b provides a sense of realism as if it were in front of the user a and had a conversation through a window.
[0080]
The image of the user 1b observed at the viewpoint position of the user 1a shown in FIG. 6 (J1) is closest to the image of the user 1b included in the image acquired by the camera 63 of the imaging unit 6b in FIG. 6 (J2). . Therefore, if the position information of the user a sent from the point A indicates the vicinity of the position of the user 1a in FIG. 6 (J1), the transmission image control unit 5b at the point B The video of the user 1b that is shooting is selected, and the selected video is output to the point A as the selected video information DB.
[0081]
Also, as shown in FIG. 6 (J3), when the user 1a at the point A is moving slightly left from the front toward the display unit 4a, the image of the user 1b observed by the user 1a there is The image of the user 1b shown in the image of the camera 62 of the imaging unit 6b in FIG. 6 (J4) is the closest image.
[0082]
Therefore, when the position information of the user a sent from the point A indicates the vicinity of the position in FIG. 6 (J3), the camera 62 shoots the transmission image control unit 5b on the point B side. The image of the user 1b is selected, and the selected image is output to the point A as the selected image information DB.
[0083]
As described above, the transmission image control unit on the image transmission side executes the selection processing of the image of the camera that provides the image closest to the image observed at the viewpoint position of the user on the image reception side who views the display image on the display unit. And output. In this selection process, the position information of the user on the image receiving side is applied. That is, the image closest to the image of the conversation partner viewed from the user position on the image receiving side is selected, transmitted, and displayed.
[0084]
Returning to the flow of FIG. 5, the description will be continued. In step S4, the selected video information DB selected based on the above-described video selection processing is transmitted from the transmission video control unit 5b to the image communication device 2a at the point A. In step S5, the selected video information DB sent from the point B is displayed on the display unit 4a.
[0085]
With the above-described display image control, both communicating users can obtain a sense of reality as if the communication partner displayed on each display unit is as if they were actually in front and talking through a window. It becomes.
[0086]
The processing of the transmission video control unit of the image communication device of the present invention is summarized as follows. A description will be given as the processing of the transmission video control unit 5a on the point A side in FIG. The transmission video control unit 5a inputs the position information of the user 1b as the communication partner via the network, and uses the plurality of cameras of the imaging unit 3a to shoot based on the input position information of the user 1b of the communication partner. From a plurality of images of the user 1a, an image close to the image of the user 1a from the viewpoint direction of the communication partner 1b with respect to the user 1a displayed on the display unit 4b of the communication partner user 1b is transmitted to the communication partner 1b. Will be executed.
[0087]
In the description of the above-described embodiment, the cameras of the imaging units 6a and 6b are arranged in the horizontal direction. However, cameras are also installed in the vertical direction in order to respond to the user's vertical viewpoint movement. However, for example, the configuration may be such that they are arranged in an array. By arranging the cameras in such an array, it is possible to select and transmit the optimal video data according to not only the left and right movement of the user but also the up and down movement.
[0088]
Further, in order to be able to cope with the case where the user moves in the front-back direction, that is, when the user approaches or moves away from the display unit, the zoom of the lens of the image of the camera of the imaging units 6a and 6b is adjusted in the front-back direction. , And an image to be observed when the user moves back and forth may be generated in a pseudo manner. Alternatively, instead of operating the zoom of the lens, an image of the camera is imaged with the image fixed at a relatively wide viewing angle, the image is processed, and the display area of the user displayed on the display unit is enlarged. It is also possible to execute a control to reduce the size of the image, and obtain a similar effect.
[0089]
[Example 2]
FIG. 7 shows a configuration of an image communication device according to the second embodiment of the present invention. The same components as those in FIG. 1 described in the first embodiment are denoted by the same reference numerals. In FIG. 7, the image communication device 2b at the point B is omitted.
[0090]
In the second embodiment, the camera unit 31 forming the detection unit 3a according to the first embodiment is deleted, and the position information of the user 1a is obtained based on the image obtained by the camera forming the imaging unit 6a. Configuration.
[0091]
As described above, the position information of the user 1a can be executed based on the information of the camera that photographs the user. For example, the position of the user 1a can be obtained based on an analysis of an image captured by one camera. In this case, the position of the user 1a is obtained based on the analysis of the captured image, using one of the images captured by a plurality of cameras included in the imaging unit 6a. Further, in the above-described stereo method, images of the reference camera and the reference camera are used as images taken from different viewpoints. Images can be obtained, and the position information of the user 1a can be obtained by the stereo method using these images.
[0092]
With reference to FIG. 8, the processing of the detector 32 in the configuration of the present embodiment will be described. The imaging unit 6a includes a plurality of cameras 61 to 65 that photograph the user 1a from different directions, as in the first embodiment. The camera 61 captures an image from the left side of the user 1a, the camera 63 captures an image from the front of the user 1a, and the camera 65 captures an image from the right side of the user 1a.
[0093]
The transmission image control unit 5a is supplied with the position information CB of the user 1b obtained by the point B detection unit 3b. The transmission image control unit 5a outputs an image from any camera of the imaging unit 6a based on the position information CB input from the point B via the network, that is, which image of the images from a plurality of different viewpoints The user selects whether to present the information on the display unit 4b. One image selected by the transmission image control unit 5a based on the position information CB of the user 1b, that is, the selected image of the user 1a is transmitted to the point B via the network 7 as the selected image information DA. It is supplied to the display unit 4b of the image communication device 2b. This video selection configuration is the same as in the first embodiment.
[0094]
In the present embodiment, the acquired images of the plurality of cameras 61 to 65 constituting the imaging unit 6a are input to the detector 32. For example, the image of the camera 61 and the image obtained by the camera 65 are input to the detector 32, and the three-dimensional position of the user 1a is obtained by applying the stereo method described above with reference to FIGS. . The obtained position information is sent to the transmission image control unit 5b of the image communication device at the point B as the position information CA of the user 1a.
[0095]
As described above, according to the present embodiment, since the configuration is such that the captured image of the camera of the imaging unit is applied to the detection of the position information of the user, it is not necessary to install a camera in the detection unit, and the device can be downsized. Cost reduction is realized.
[0096]
[Example 3]
In the first and second embodiments described above, the configuration examples have been described assuming a user between two points. Next, a description will be given of a processing configuration example in which users are present at three or more locations and the respective user images are mutually transmitted via a network.
[0097]
A description will be given of an example of operation in communication connecting three points A, B, and C. The image communication device has a mode switching mechanism, has a configuration capable of switching between a “one-person facing mode” and a “two-person facing mode”, and allows a user to switch the mode according to the situation. The “person-to-person mode” is used in the communication between two points described above. The “multi-person facing mode” is used at the time of simultaneous operation at multiple points. For example, in the image communication device 2a at the point A, images from two other points (points B and C) communicating with each other are transmitted by image communication. This is a mode in which a display image of the device 2a is divided, arranged side by side, and presented to the user 1a.
[0098]
FIG. 9 illustrates a state of the “multi-person (two-person) facing mode”. When the user 1a at the point A selects the "multi-person (two-person) face-to-face mode", images from the other two communicating points (points B and C) are displayed on the screen 41a of the image communication device 2a. The display video is divided, that is, divided and arranged side by side and presented to the user 1a.
[0099]
FIG. 10 shows a configuration example of the transmission video control unit 5a in the image communication device 2a. The mode setting unit 51 of the transmission video control unit 5a inputs a mode setting command from a user. In the “person-to-person mode”, the video output from the transmission video control unit 5a to be sent to the receiving side is face-to-face using all the cameras 61 to 65 of the imaging unit 6a as selection candidate videos. Selected and transmitted based on the location information of the communication partner.
[0100]
For example, when the user 1b at the point B faces only the user 1a, the image of the user 1a to be transmitted to the point B is selected from images from all of the cameras 61 to 65 of the imaging unit 6a as selection candidate images. The position information CB of the point user 1b is input via the first position information input unit 53, and is selected by the video selection unit 52 to be a selected output image for the point B.
[0101]
In the case of the setting of the “multi-person (two-person) face-to-face mode”, the images to be sent to the points B and C are set by dividing the images captured by the cameras 61 to 65 of the imaging unit 6a. For example, as for the image to be sent to the point B, the images of the cameras 61 to 63 are set as selection candidates. The image to be sent to the point C is, for example, images of the cameras 63 to 65 as selection candidates.
[0102]
That is, in the image communication device of the present embodiment, the display unit displays different screens due to a mode change between a one-person meeting mode for displaying a single communication partner and a multi-person meeting mode for simultaneously displaying a plurality of communication partners by screen division. The transmission image control unit has a configuration capable of displaying, and according to the display area of the communication partner classified according to the setting mode of the display unit, divides the range of the plurality of cameras of the imaging unit to be selected as the transmission image for the communication partner. This is a configuration for executing processing.
[0103]
For example, if the right half is an image from the point B and the left half is an image from the point C toward the image on the screen 41a viewed by the user 1a of the image communication device 2a at the point A, the image is sent to the point B. An image is selected from the right half of the camera group as viewed from the user 1a, and an image to be sent to the point C is selected from the left half of the camera group as viewed from the user 1a. With this setting, it is possible to display an image as if the user 1b and the user 1c face each other in front of the user 1a.
[0104]
The image communication device 2a at the point A inputs the position information CB of the user 1b at the point B via the first position information input unit 53, and the image selection unit 52 obtains images obtained by the cameras 61 to 63 as selected image candidates. Is set, and a transmission video is selected from the acquired images in this setting, and is set as a selected output video to the point B. Further, the position information CC of the user 1c at the point C is input through the second position information input unit 54, and the image selection unit 52 sets the acquired images of the cameras 63 to 65 as the selected image candidates. The transmission video is selected from the obtained images, and is set as the selection output video to the point C.
[0105]
Further, for example, when the user 1b at the point B is located in front of the image communication device 2b, in the conventional "one-to-one mode", a camera image near the center of the plurality of cameras of the imaging unit 6a is selected. However, in the “two-person facing mode”, this is set to a camera position near the center of the camera group for point B. Similarly, when the user 1c at the point C is located in front of the image communication device 2c, in the “two-person facing mode”, this is set to the position of the camera near the center of the camera group for the point C. I do. Further, the camera group for the point B and the camera group for the point C may be divided without overlapping, or may be divided with some overlap.
[0106]
By operating in this way, for example, when the user 1a at the point A is interacting with the image of the user 1b at the point B displayed on the screen 41a of the image communication device 2a, The video of the user 1a at the point A displayed on the screen 41b of the image communication device 2b viewed by the user 1b at the point B can match the line of sight, and the image communication viewed by the user 1c at the point C Since the image of the user 1a at the point A displayed on the screen 41c of the device 2c is looking in a different direction, a dialog with a more realistic feeling can be realized.
[0107]
Although the example of the dialogue at three points has been described here, the same effect can be obtained by performing the same operation in the dialogue at four or more points.
[0108]
[Image processing by view interpolation]
In the above-described embodiment, a configuration has been described in which a plurality of cameras are installed in the imaging unit, and the acquired images of each camera are switched and displayed according to the position of the user. However, in the above configuration, the number of cameras that can be installed in the imaging unit is limited. Therefore, depending on the position of the user, it may not be possible to present an image accurately reflecting the user's position using only the captured image of each camera.
[0109]
For example, the above-described example shows a configuration in which five cameras 61 to 65 are installed in the imaging unit 6a. In this case, although an image accurately reflecting the position of the user can be provided at each of the five camera positions, an accurate image when the user is located at a position corresponding to between the cameras cannot be presented. In order to solve such a problem, a configuration example will be described in which an image at a position that is not actually photographed is generated and transmitted based on images from a plurality of cameras.
[0110]
FIG. 11 shows a configuration example of a transmission video control unit 5a of an image communication device having an image processing unit configuration that executes a view interpolation that generates an image that is not actually captured based on an actual camera captured image. . Although an example of image communication between two points will be described here, the same image processing can be applied to image communication between three or more points described above.
[0111]
A plurality of cameras 61 to 65 are set in the imaging unit 6a, and each camera photographs a user from a different direction. The position information CB of the user 1b acquired by the point B detection unit 3b is supplied to the position information input unit 56 of the transmission video control unit 5a. The image selection unit 57 selects a user image at a position corresponding to the position information CB from the images of the plurality of cameras 61 to 65 and sets the selected image as an output image for the point B. This configuration is a basic configuration that executes the processing described in each of the above embodiments.
[0112]
The transmission video control unit 5a further has an image processing unit 58. If there is no acquired image that accurately corresponds to the input position information of the position information input unit 56, the image processing unit 58 determines, based on the images of a plurality of cameras, an image of a position that is not actually photographed, Then, an image corresponding to the user position at the position is generated. That is, the image processing by the view interpolation is executed.
[0113]
By using a technique of view interpolation (also referred to as view morphing) for generating an image from a position where there is no camera as a viewpoint from actual images of a plurality of peripheral cameras, the viewpoint of the user can be moved. The accompanying change in the image can be realized as a less unnatural feeling.
[0114]
View interpolation is a technique for generating an image viewed from a viewpoint without an actual camera from images from a plurality of cameras. As shown in FIG. 12, an image C to be captured by a virtual camera C located therebetween is generated using an image A from a camera A and an image B from a camera B. The image C does not need to be an image that is not so different from an image obtained when the camera C is actually present, and it is sufficient that the image C looks natural without any discomfort to human eyes. Techniques for realizing this view interpolation include, for example, [SM Seitzand CR Dyer, "View Morphing," Proc. SIGGRAPH 96, ACM, 1996 pp. 21-30. ] Can be used. Although the method described in this document considers only the movement of the virtual viewpoint on a straight line connecting the projection center of the camera, image generation when the virtual viewpoint moves ahead of the camera (approaches the subject) The method described in [SJ Gortler, R. Grzeszczuk, R. Szeliski, and MF Cohen, "The Lumigraph", Proc. Of SIGGRAPH '96, ACM, 1996, pp. 43-54] can be used.
[0115]
As described above, according to the view interpolation, it is possible to generate an image of a viewpoint without a camera based on an actually acquired image based on a plurality of cameras, and this image processing is performed in the image communication device of the present invention. By doing so, it is possible to generate and transmit images corresponding to the user's position based on images acquired by a limited number of cameras, and to provide more realistic images to each user It becomes.
[0116]
[Other Examples]
In the above-described plurality of embodiments, the transmission image control unit of the image communication device on the image transmission side selects one image from the images acquired by the plurality of cameras, or generates a composite image by view interpolation. A configuration example of transmitting to a communication partner has been described.
[0117]
As described above, the image transmitting side transmits all the images acquired by the plurality of cameras to the communication partner device without setting one transmission image, and selects the image or the view interface in the communication partner image communication device. It is also possible to adopt a configuration in which image generation by poration is executed to set and display only one display image.
[0118]
When receiving a plurality of images and performing image selection or image generation, a display video control unit is provided in the image communication device, and in the display video control unit, an image selection process from a plurality of image data received from a communication partner, Alternatively, image processing such as view interpolation is performed based on a plurality of image data received from a communication partner.
[0119]
The display image control unit inputs its own position information detected by the detection unit of its own device, and executes image selection processing from a plurality of images received from a communication partner or image processing by view interpolation based on the position information. Then, a display image is selected or generated. In this configuration, the transmission amount of the image data increases, but there is no need to transmit the user position information applied to the image selection via the network.
[0120]
[Example of hardware configuration]
Next, an example of a hardware configuration of the image communication apparatus of the present invention will be described with reference to FIG. As described with reference to FIG. 1 and the like, the image communication apparatus of the present invention needs to have a plurality of camera configurations for photographing a user located opposite to the display. The image selection processing, the display control processing for the display, and the data transmission / reception control processing can be realized in various information processing apparatus configurations including a control unit such as a CPU such as a PC, a PDA, and a portable terminal, a memory, and a communication interface. . A specific example of a hardware configuration of an information processing apparatus for executing processing for selecting images acquired by a plurality of cameras, display control processing for a display, or data transmission / reception processing will be described with reference to FIG.
[0121]
A CPU (Central Processing Unit) 856 controls execution of various application programs. For example, it is a processor that functions as a control unit that executes a process of selecting a camera-acquired image based on user position information input from the outside, a display control process for a display, and a data transmission / reception process control. The memory 857 includes a ROM (Read-Only-Memory) for storing a program to be executed by the CPU 856 or fixed data as operation parameters, a storage area for a program to be executed in the processing of the CPU 856, and a parameter to be appropriately changed in the program processing. It is composed of a RAM (Random Access Memory) used as a work area.
[0122]
The HDD 858 is a storage unit having a hard disk that can be used as a program storage area and that can be used as a storage area for transmitted / received image data. Although the figure shows an example in which an HDD is used, a CD, a DVD, or the like can be applied as a storage medium.
[0123]
The codec 851 executes encoding (encoding) processing and decoding (decoding) processing of image data transmitted and received via a network. Since image data has a large amount of information, it is preferable to transmit the image data with the data amount reduced by, for example, MPEG encoding.
[0124]
The network interface 852 functions as an interface with various communication networks such as the Internet and a LAN. The input interface 853 functions as an interface with input devices such as a mouse 837 and a keyboard 836. The user executes the mode setting described in the third embodiment by inputting data from the keyboard 836, for example.
[0125]
The AV interface 854 and the display interface 855 perform data input / output from AV data input / output devices such as a camera group 833, a microphone 834, and a speaker 835. Control information and data are transferred between the components via a PCI bus 859. The data transfer control and other various program controls are executed by the CPU 856.
[0126]
The present invention has been described in detail with reference to the specific embodiments. However, it is obvious that those skilled in the art can modify or substitute the embodiment without departing from the spirit of the present invention. That is, the present invention has been disclosed by way of example, and should not be construed as limiting. In order to determine the gist of the present invention, the claims described at the beginning should be considered.
[0127]
Note that the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both. When executing the processing by software, the program recording the processing sequence is installed in a memory in a computer embedded in dedicated hardware and executed, or the program is stored in a general-purpose computer capable of executing various processing. It can be installed and run.
[0128]
For example, the program can be recorded in a hard disk or a ROM (Read Only Memory) as a recording medium in advance. Alternatively, the program may be temporarily or permanently stored on a removable recording medium such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, or a semiconductor memory. It can be stored (recorded). Such a removable recording medium can be provided as so-called package software.
[0129]
The program may be installed on the computer from the removable recording medium as described above, or may be wirelessly transferred from the download site to the computer, or transferred to the computer via a network such as a LAN (Local Area Network) or the Internet by wire. The computer can receive the program transferred in this way and install it on a recording medium such as a built-in hard disk.
[0130]
The various processes described in the specification may be executed not only in chronological order according to the description but also in parallel or individually according to the processing capability of the device that executes the processes or as necessary. Further, in this specification, a system is a logical set configuration of a plurality of devices, and is not limited to a device having each configuration in the same housing.
[0131]
【The invention's effect】
As described above, according to the configuration of the present invention, in the configuration for transmitting the user image via the network and realizing the communication in which the user image is displayed on the display unit, the user 1a of the image transmission source is realized. Images are taken from different viewpoints using a plurality of cameras, the position information of the communication partner user 1b is input via the network, and the plurality of cameras of the imaging unit shoot based on the input position information of the communication partner 1b. A configuration in which an image close to the image of the user 1a from the viewpoint direction of the communication partner 1b with respect to the user 1a displayed on the communication partner 1b side display device is selected as a transmission image to the communication partner 1b from a plurality of images of the user 1a. Therefore, even if the position of the user changes, it is possible to obtain the same gaze even if the user's position changes. It could be observed, though it is possible to achieve communication with realism as a conversation through the window.
[0132]
Furthermore, according to the configuration of the present invention, the display unit displays different screens by changing the mode between a one-person mode that displays a single communication partner and a multi-person mode that simultaneously displays a plurality of communication partners by dividing the screen. The transmission video control unit performs a process of classifying a range of a plurality of cameras of the imaging unit to be selected as a transmission image for the communication partner according to the display area of the communication partner classified according to the setting mode of the display unit. Since it is configured to execute, even in the case of using for communication at three or more points, it is possible for the user to observe an image that looks at the user at the other end from a desired position. .
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration and a communication process of an image communication device according to the present invention.
FIG. 2 is a diagram illustrating an example of a configuration of an image capturing unit and a display of the image communication device according to the present invention.
FIG. 3 is a diagram illustrating a stereo method applicable to user position information detection in the present invention.
FIG. 4 is a diagram illustrating a stereo method applicable to user position information detection in the present invention.
FIG. 5 is a flowchart illustrating a processing sequence of the image communication device of the present invention.
FIG. 6 is a diagram illustrating a transmission image selection process in the image communication device according to the present invention.
FIG. 7 is a diagram showing the configuration of a second embodiment of the image communication apparatus of the present invention.
FIG. 8 is a diagram illustrating details of the configuration of a second embodiment of the image communication apparatus according to the present invention.
FIG. 9 is a diagram showing the configuration of a third embodiment of the image communication apparatus of the present invention.
FIG. 10 is a diagram illustrating a configuration of a transmission video control unit in a third embodiment of the image communication device of the present invention.
FIG. 11 is a diagram illustrating a configuration of a transmission video control unit of the image communication device of the present invention having an image processing unit that executes an image generation process.
FIG. 12 is a diagram illustrating a view interpolation process.
FIG. 13 is a hardware configuration diagram illustrating an example of a hardware configuration of an image communication device according to the present invention.
[Explanation of symbols]
1a, 1b, 1c Users
2a, 2b, 2c image communication device
3a, 3b detector
4a, 4b display unit
5a, 5b Transmission video control unit
6a, 6b, 6c camera
7 Network
31 Camera
32 detector
41 Hologram Screen
42 Projector
51 Mode setting section
52 Video selection section
53 1st position information input section
54 second position information input unit
56 Position information input section
57 Image selection section
58 Image processing unit
61-63 camera
832 display
833 video camera
834 microphone
835 speaker
836 keyboard
837 mouse
850 Image control processor
851 codec
852 network interface
853 I / O interface
854 AV interface
855 display interface
856 CPU
857 memory
858 HDD
859 PCI bus

Claims (19)

ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信装置であり、
画像送信元の利用者(A)の画像を異なる視点から撮影する複数のカメラを有する撮像部と、
通信相手(B)の画像を表示する表示部と、
前記利用者(A)の位置情報を取得する検出部と、
前記ネットワークを介して通信相手(B)の位置情報を入力し、入力する通信相手(B)の位置情報に基づいて、前記撮像部の複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する送信映像制御部と、
を有することを特徴とする画像通信装置。
An image communication device that transmits a user image via a network and realizes communication in which the user image is displayed on a display unit,
An imaging unit having a plurality of cameras for capturing an image of the user (A) of the image transmission source from different viewpoints;
A display unit for displaying an image of the communication partner (B);
A detection unit for acquiring position information of the user (A);
The location information of the communication partner (B) is input via the network, and based on the input location information of the communication partner (B), a plurality of images of the user (A) captured by the plurality of cameras of the imaging unit are obtained. An image close to the image of the user (A) from the viewpoint of the communication partner (B) with respect to the user (A) displayed on the display device of the communication partner (B) is selected as the transmission image to the communication partner (B). A transmission video control unit to perform
An image communication device comprising:
前記画像通信装置は、
3地点以上の多地点のコミュニケーションに利用可能な構成を有し、
前記表示部は、単一の通信相手を表示する一人対面モードと、複数の通信相手を画面分割により同時に表示する複数人対面モードとのモード変更による異なる画面表示が可能な構成を有し、
前記送信映像制御部は、
前記表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する前記撮像部の複数カメラの範囲を区分する処理を実行する構成であることを特徴とする請求項1に記載の画像通信装置。
The image communication device,
It has a configuration that can be used for multipoint communication at three or more points,
The display unit has a configuration in which a different screen display can be performed by a mode change between a one-person facing mode for displaying a single communication partner and a multi-person facing mode for simultaneously displaying a plurality of communication partners by screen division,
The transmission video control unit,
According to a feature of the present invention, a process is performed for dividing a range of a plurality of cameras of the imaging unit to be selected as a transmission image for a communication partner according to a display area of the communication partner classified according to a setting mode of the display unit. The image communication device according to claim 1.
前記送信映像制御部は、
前記撮像部の複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理部を有し、
前記画像処理部は、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を、前記撮像部の複数カメラの撮影画像に基づく画像処理により生成する処理を実行し、
前記送信映像制御部は、
前記画像処理部の生成画像を、前記通信相手(B)に対する送信画像として設定する処理を実行する構成であることを特徴とする請求項1に記載の画像通信装置。
The transmission video control unit,
An image processing unit that synthesizes an image between cameras based on a plurality of images captured by a plurality of cameras of the imaging unit,
The image processing unit converts an image close to an image of the user (A) from the viewpoint direction of the communication partner (B) with respect to the user (A) displayed on the communication partner (B) side display device by the imaging unit. Executing a process of generating by image processing based on images taken by a plurality of cameras,
The transmission video control unit,
The image communication device according to claim 1, wherein the image communication device is configured to execute a process of setting a generated image of the image processing unit as a transmission image to the communication partner (B).
前記検出部は、
前記撮像部を構成するカメラの取得した画像に基づいて、前記利用者(A)の位置情報を取得する処理を実行する構成であることを特徴とする請求項1に記載の画像通信装置。
The detection unit,
The image communication device according to claim 1, wherein the image communication device is configured to execute a process of acquiring position information of the user (A) based on an image acquired by a camera constituting the imaging unit.
前記検出部は、
前記撮像部を構成する異なる視点の複数カメラの取得画像に基づくステレオ法による三次元位置取得処理により、前記利用者(A)の位置情報を取得する構成であることを特徴とする請求項1に記載の画像通信装置。
The detection unit,
The configuration according to claim 1, wherein the position information of the user (A) is obtained by a three-dimensional position obtaining process by a stereo method based on images obtained by a plurality of cameras at different viewpoints constituting the imaging unit. The image communication device according to claim 1.
前記撮像部を構成する複数のカメラは、前記表示部方向からの前記利用者(A)画像を異なる視点で撮影する構成であることを特徴とする請求項1に記載の画像通信装置。2. The image communication device according to claim 1, wherein the plurality of cameras configuring the imaging unit are configured to capture the user (A) image from a different direction from the display unit. 3. 前記撮像部を構成する複数のカメラは水平上に複数配列され、画像送信元の利用者(A)の画像を少なくとも水平方向に異なる視点から撮影する構成であることを特徴とする請求項1に記載の画像通信装置。2. The camera according to claim 1, wherein a plurality of cameras constituting the imaging unit are arranged horizontally, and the image of the user (A) as the image transmission source is captured at least in a horizontal direction from different viewpoints. The image communication device according to claim 1. 前記撮像部を構成する複数のカメラはアレイ状に配列され、画像送信元の利用者(A)の画像を水平方向および垂直方向において異なる視点から撮影する構成であることを特徴とする請求項1に記載の画像通信装置。2. The camera according to claim 1, wherein the plurality of cameras constituting the imaging unit are arranged in an array, and photograph an image of the user (A) as an image transmission source from different viewpoints in a horizontal direction and a vertical direction. An image communication device according to claim 1. ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信装置であり、
画像送信元の利用者(A)の画像を異なる視点から撮影する複数のカメラを有する撮像部と、
通信相手(B)の画像を表示する表示部と、
前記利用者(A)の位置情報を取得する検出部と、
前記ネットワークを介して通信相手(B)を異なる視点から撮影した複数の画像データを入力し、前記検出部の検出した前記利用者(A)の位置情報に基づいて、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、前記表示部に対する出力画像として選択する表示映像制御部と、
を有することを特徴とする画像通信装置。
An image communication device that transmits a user image via a network and realizes communication in which the user image is displayed on a display unit,
An imaging unit having a plurality of cameras for capturing an image of the user (A) of the image transmission source from different viewpoints;
A display unit for displaying an image of the communication partner (B);
A detection unit for acquiring position information of the user (A);
A plurality of image data obtained by photographing the communication partner (B) from different viewpoints via the network is input, and the viewpoint of the user (A) is determined based on the position information of the user (A) detected by the detection unit. A display image control unit for selecting a communication partner (B) image close to the image of the communication partner (B) viewed from the direction as an output image to the display unit;
An image communication device comprising:
前記表示映像制御部は、
前記撮像部の複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理部を有し、
前記画像処理部は、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、前記ネットワークを介して受信する通信相手(B)を異なる視点から撮影した複数の画像データに基づいて生成する処理を実行し、
前記表示映像制御部は、
前記画像処理部の生成画像を、前記表示部に対する出力画像とする構成であることを特徴とする請求項9に記載の画像通信装置。
The display image control unit,
An image processing unit that synthesizes an image between cameras based on a plurality of images captured by a plurality of cameras of the imaging unit,
The image processing unit is configured to transmit a communication partner (B) image that is close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) to the communication partner (B) that receives the communication partner (B) from a different viewpoint. Execute a process of generating based on a plurality of captured image data,
The display image control unit,
The image communication device according to claim 9, wherein the image generated by the image processing unit is configured to be an output image to the display unit.
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信方法であり、
画像送信元の利用者(A)の画像を異なる視点から複数のカメラによって撮影する撮影ステップと、
前記ネットワークを介して通信相手(B)の位置情報を入力する位置情報入力ステップと、
入力する通信相手(B)の位置情報に基づいて、前記複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する画像選択ステップと、
前記画像選択ステップにおいて選択した画像を通信相手に送信する画像送信ステップと、
を有することを特徴とする画像通信方法。
An image communication method for transmitting a user image via a network and realizing communication in which the user image is displayed on a display unit,
A photographing step of photographing an image of the user (A) of the image transmission source from a plurality of viewpoints by a plurality of cameras;
A position information inputting step of inputting position information of a communication partner (B) via the network;
Communication with the user (A) displayed on the communication partner (B) side display device from a plurality of images of the user (A) captured by the plurality of cameras based on the input positional information of the communication partner (B). An image selection step of selecting an image close to the image of the user (A) from the viewpoint direction of the partner (B) as a transmission image to the communication partner (B);
An image transmitting step of transmitting the image selected in the image selecting step to a communication partner,
An image communication method comprising:
前記画像通信方法は、さらに、
表示部を、単一の通信相手を表示する一人対面モード、あるいは複数の通信相手を画面分割により同時に表示する複数人対面モードのいずれかのモードに設定するモード設定ステップと、
前記表示部の設定モードに従って区分された通信相手の表示領域に応じて、通信相手に対する送信画像として選択する前記撮像部の複数カメラの範囲を区分する区分ステップとを有し、
前記画像選択ステップは、
前記区分ステップにおいて区分されたカメラの取得する画像のみから各通信相手に送信する画像を選択する処理を実行することを特徴とする請求項11に記載の画像通信方法。
The image communication method further includes:
A mode setting step of setting the display unit to one of a person-to-person mode for displaying a single communication partner, or a multiple-person facing mode for simultaneously displaying a plurality of communication partners by screen division,
According to the display area of the communication partner classified according to the setting mode of the display unit, a classification step of dividing the range of the plurality of cameras of the imaging unit to be selected as a transmission image to the communication partner,
The image selecting step includes:
12. The image communication method according to claim 11, wherein a process of selecting an image to be transmitted to each communication partner from only images acquired by the cameras divided in the division step is performed.
前記画像選択ステップは、
前記複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理ステップを有し、
前記画像処理ステップは、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を、前記複数カメラの撮影画像に基づく画像処理により生成する処理を実行するステップであり、
前記画像選択ステップは、
前記画像処理ステップにおける生成画像を、前記通信相手(B)に対する送信画像として設定する処理を実行することを特徴とする請求項11に記載の画像通信方法。
The image selecting step includes:
An image processing step of combining images between cameras based on a plurality of images taken by the plurality of cameras,
In the image processing step, an image close to the image of the user (A) from the viewpoint direction of the communication partner (B) with respect to the user (A) displayed on the communication partner (B) side display device is converted by the plurality of cameras. It is a step of executing a process of generating by image processing based on the captured image,
The image selecting step includes:
12. The image communication method according to claim 11, wherein a process of setting a generated image in the image processing step as a transmission image to the communication partner (B) is performed.
前記画像通信方法は、さらに、
前記通信相手(B)に送信するための画像送信元の利用者(A)の位置情報を検出する検出ステップを有し、
前記検出ステップは、
前記複数カメラの取得画像に基づいて、前記利用者(A)の位置情報を取得する処理を実行することを特徴とする請求項11に記載の画像通信方法。
The image communication method further includes:
A detecting step of detecting position information of a user (A) of an image transmission source for transmitting to the communication partner (B),
The detecting step includes:
12. The image communication method according to claim 11, wherein a process of acquiring position information of the user (A) is performed based on images acquired by the plurality of cameras.
前記検出ステップは、
前記複数カメラの取得画像に基づくステレオ法による三次元位置取得処理により、前記利用者(A)の位置情報を取得することを特徴とする請求項14に記載の画像通信方法。
The detecting step includes:
The image communication method according to claim 14, wherein the position information of the user (A) is obtained by a three-dimensional position obtaining process by a stereo method based on the images obtained by the plurality of cameras.
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現する画像通信方法であり、
画像送信元の利用者(A)の位置情報を取得する検出ステップと
ネットワークを介して通信相手(B)を異なる視点から撮影した複数の画像データを入力する画像データ入力ステップと、
前記検出ステップにおいて検出した前記利用者(A)の位置情報に基づいて、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、表示部に対する出力画像として選択する表示映像制御ステップと、
前記表示映像制御ステップにおいて選択した出力画像を表示部に出力する表示ステップと、
を有することを特徴とする画像通信方法。
An image communication method for transmitting a user image via a network and realizing communication in which the user image is displayed on a display unit,
A detection step of acquiring position information of a user (A) as an image transmission source, and an image data input step of inputting a plurality of image data obtained by photographing a communication partner (B) from different viewpoints via a network;
Based on the position information of the user (A) detected in the detection step, a communication partner (B) image close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) is displayed on the display unit. A display video control step of selecting as an output image;
A display step of outputting the output image selected in the display image control step to a display unit,
An image communication method comprising:
前記表示映像制御ステップは、
前記複数カメラが撮影する複数の画像に基づいてカメラ間の画像を合成する画像処理ステップを有し、
前記画像処理ステップは、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、前記ネットワークを介して受信する通信相手(B)を異なる視点から撮影した複数の画像データに基づいて生成する処理を実行し、
前記表示映像制御ステップは、
前記画像処理ステップにおいて生成した生成画像を、前記表示部に対する出力画像とすることを特徴とする請求項16に記載の画像通信方法。
The display image control step,
An image processing step of combining images between cameras based on a plurality of images taken by the plurality of cameras,
The image processing step includes the steps of: transmitting a communication partner (B) image close to an image of the communication partner (B) viewed from the viewpoint direction of the user (A) to the communication partner (B) receiving the communication partner (B) from a different viewpoint; Execute a process of generating based on a plurality of captured image data,
The display image control step,
17. The image communication method according to claim 16, wherein the generated image generated in the image processing step is an output image for the display unit.
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現するための画像通信処理を実行するコンピュータ・プログラムであって、
画像送信元の利用者(A)の画像を異なる視点から複数のカメラによって撮影する撮影ステップと、
前記ネットワークを介して通信相手(B)の位置情報を入力する位置情報入力ステップと、
入力する通信相手(B)の位置情報に基づいて、前記複数カメラが撮影する利用者(A)の複数の画像から、通信相手(B)側表示装置に表示される利用者(A)に対する通信相手(B)の視点方向からの利用者(A)の画像に近い画像を通信相手(B)に対する送信画像として選択する画像選択ステップと、
前記画像選択ステップにおいて選択した画像を通信相手に送信する画像送信ステップと、
を具備することを特徴とするコンピュータ・プログラム。
A computer program for transmitting a user image via a network and performing an image communication process for realizing communication in which the user image is displayed on a display unit,
A photographing step of photographing an image of the user (A) of the image transmission source from a plurality of viewpoints by a plurality of cameras;
A position information inputting step of inputting position information of a communication partner (B) via the network;
Communication with the user (A) displayed on the communication partner (B) side display device from a plurality of images of the user (A) captured by the plurality of cameras based on the input positional information of the communication partner (B). An image selection step of selecting an image close to the image of the user (A) from the viewpoint direction of the partner (B) as a transmission image to the communication partner (B);
An image transmitting step of transmitting the image selected in the image selecting step to a communication partner,
A computer program comprising:
ネットワークを介して利用者画像を送信し、利用者画像を表示部に表示したコミュニケーションを実現するための画像通信処理を実行するコンピュータ・プログラムであって、
画像送信元の利用者(A)の位置情報を取得する検出ステップと
ネットワークを介して通信相手(B)を異なる視点から撮影した複数の画像データを入力する画像データ入力ステップと、
前記検出ステップにおいて検出した前記利用者(A)の位置情報に基づいて、利用者(A)の視点方向から通信相手(B)を見た画像に近い通信相手(B)画像を、表示部に対する出力画像として選択する表示映像制御ステップと、
前記表示映像制御ステップにおいて選択した出力画像を表示部に出力する表示ステップと、
を具備することを特徴とするコンピュータ・プログラム。
A computer program for transmitting a user image via a network and performing an image communication process for realizing communication in which the user image is displayed on a display unit,
A detection step of acquiring position information of a user (A) as an image transmission source, and an image data input step of inputting a plurality of image data obtained by photographing a communication partner (B) from different viewpoints via a network;
Based on the position information of the user (A) detected in the detection step, a communication partner (B) image close to the image of the communication partner (B) viewed from the viewpoint direction of the user (A) is displayed on the display unit. A display video control step of selecting as an output image;
A display step of outputting the output image selected in the display image control step to a display unit,
A computer program comprising:
JP2002359387A 2002-12-11 2002-12-11 Image communication apparatus, image communication method, and computer program Expired - Fee Related JP4539015B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002359387A JP4539015B2 (en) 2002-12-11 2002-12-11 Image communication apparatus, image communication method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002359387A JP4539015B2 (en) 2002-12-11 2002-12-11 Image communication apparatus, image communication method, and computer program

Publications (2)

Publication Number Publication Date
JP2004193962A true JP2004193962A (en) 2004-07-08
JP4539015B2 JP4539015B2 (en) 2010-09-08

Family

ID=32758798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002359387A Expired - Fee Related JP4539015B2 (en) 2002-12-11 2002-12-11 Image communication apparatus, image communication method, and computer program

Country Status (1)

Country Link
JP (1) JP4539015B2 (en)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006080581A (en) * 2004-09-07 2006-03-23 Hitachi Ltd Intermediate image forming apparatus
KR100713415B1 (en) 2004-12-10 2007-05-04 삼성전자주식회사 Mobile phone modifying image view
WO2007122907A1 (en) * 2006-03-29 2007-11-01 Matsushita Electric Industrial Co., Ltd. Image codec device
GB2450345A (en) * 2007-06-20 2008-12-24 Iona Simpson Videoconference terminal providing enhanced user interface
WO2009119288A1 (en) * 2008-03-25 2009-10-01 コニカミノルタホールディングス株式会社 Communication system and communication program
JP2009239459A (en) * 2008-03-26 2009-10-15 Nippon Telegr & Teleph Corp <Ntt> Video image composition system, video image composition device, and program
JP2010035237A (en) * 2009-11-12 2010-02-12 Fujifilm Corp Position detection device and method of target image and program for controlling position detection device of target image
US7747157B2 (en) 2005-09-16 2010-06-29 Fujifilm Corporation Target-image position detecting apparatus, method and program for controlling said apparatus
JP2012186805A (en) * 2011-03-07 2012-09-27 Ricoh Co Ltd Automated selection and switching of displayed information
JP2012244583A (en) * 2011-05-24 2012-12-10 Canon Inc Imaging device, image processing method, and program
JP2013009111A (en) * 2011-06-23 2013-01-10 Oki Electric Ind Co Ltd Communication system and communication apparatus
JP2014049797A (en) * 2012-08-29 2014-03-17 Canon Inc Display device with camera
JP2014057217A (en) * 2012-09-12 2014-03-27 Fujitsu Ltd Device, method and program for encoding moving image, and moving image communication device
JP2014086775A (en) * 2012-10-19 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> Video communication system and video communication method
JP2016507929A (en) * 2012-12-18 2016-03-10 クゥアルコム・インコーポレイテッドQualcomm Incorporated Real viewpoint video method and apparatus
JP2017022600A (en) * 2015-07-13 2017-01-26 国立大学法人静岡大学 Image communication device
CN113395479A (en) * 2021-06-16 2021-09-14 随锐科技集团股份有限公司 Video conference picture processing method and system
CN117041670A (en) * 2023-10-08 2023-11-10 荣耀终端有限公司 Image processing method and related equipment

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07123385A (en) * 1993-10-22 1995-05-12 Nippon Telegr & Teleph Corp <Ntt> Multi-spot video communications system
JPH0937224A (en) * 1995-07-21 1997-02-07 Matsushita Electric Ind Co Ltd Video conference equipment
JPH09154114A (en) * 1995-11-28 1997-06-10 Nec Corp Electronic conference terminal equipment
JPH09200715A (en) * 1996-01-19 1997-07-31 Canon Inc Equipment, method and system for communication
JP2001136501A (en) * 1999-11-10 2001-05-18 Nec Corp Sight line match video conference apparatus
JP2001338280A (en) * 2000-05-30 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> Three-dimensional space information input device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07123385A (en) * 1993-10-22 1995-05-12 Nippon Telegr & Teleph Corp <Ntt> Multi-spot video communications system
JPH0937224A (en) * 1995-07-21 1997-02-07 Matsushita Electric Ind Co Ltd Video conference equipment
JPH09154114A (en) * 1995-11-28 1997-06-10 Nec Corp Electronic conference terminal equipment
JPH09200715A (en) * 1996-01-19 1997-07-31 Canon Inc Equipment, method and system for communication
JP2001136501A (en) * 1999-11-10 2001-05-18 Nec Corp Sight line match video conference apparatus
JP2001338280A (en) * 2000-05-30 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> Three-dimensional space information input device

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006080581A (en) * 2004-09-07 2006-03-23 Hitachi Ltd Intermediate image forming apparatus
KR100713415B1 (en) 2004-12-10 2007-05-04 삼성전자주식회사 Mobile phone modifying image view
US7747157B2 (en) 2005-09-16 2010-06-29 Fujifilm Corporation Target-image position detecting apparatus, method and program for controlling said apparatus
WO2007122907A1 (en) * 2006-03-29 2007-11-01 Matsushita Electric Industrial Co., Ltd. Image codec device
GB2450345A (en) * 2007-06-20 2008-12-24 Iona Simpson Videoconference terminal providing enhanced user interface
WO2009119288A1 (en) * 2008-03-25 2009-10-01 コニカミノルタホールディングス株式会社 Communication system and communication program
JP2009239459A (en) * 2008-03-26 2009-10-15 Nippon Telegr & Teleph Corp <Ntt> Video image composition system, video image composition device, and program
JP2010035237A (en) * 2009-11-12 2010-02-12 Fujifilm Corp Position detection device and method of target image and program for controlling position detection device of target image
JP2012186805A (en) * 2011-03-07 2012-09-27 Ricoh Co Ltd Automated selection and switching of displayed information
JP2012244583A (en) * 2011-05-24 2012-12-10 Canon Inc Imaging device, image processing method, and program
JP2013009111A (en) * 2011-06-23 2013-01-10 Oki Electric Ind Co Ltd Communication system and communication apparatus
JP2014049797A (en) * 2012-08-29 2014-03-17 Canon Inc Display device with camera
JP2014057217A (en) * 2012-09-12 2014-03-27 Fujitsu Ltd Device, method and program for encoding moving image, and moving image communication device
JP2014086775A (en) * 2012-10-19 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> Video communication system and video communication method
JP2016507929A (en) * 2012-12-18 2016-03-10 クゥアルコム・インコーポレイテッドQualcomm Incorporated Real viewpoint video method and apparatus
US10116911B2 (en) 2012-12-18 2018-10-30 Qualcomm Incorporated Realistic point of view video method and apparatus
JP2017022600A (en) * 2015-07-13 2017-01-26 国立大学法人静岡大学 Image communication device
CN113395479A (en) * 2021-06-16 2021-09-14 随锐科技集团股份有限公司 Video conference picture processing method and system
CN113395479B (en) * 2021-06-16 2022-06-24 随锐科技集团股份有限公司 Video conference picture processing method and system
CN117041670A (en) * 2023-10-08 2023-11-10 荣耀终端有限公司 Image processing method and related equipment
CN117041670B (en) * 2023-10-08 2024-04-02 荣耀终端有限公司 Image processing method and related equipment

Also Published As

Publication number Publication date
JP4539015B2 (en) 2010-09-08

Similar Documents

Publication Publication Date Title
JP4539015B2 (en) Image communication apparatus, image communication method, and computer program
US8345961B2 (en) Image stitching method and apparatus
CN104641633B (en) System and method for combining the data from multiple depth cameras
US7855752B2 (en) Method and system for producing seamless composite images having non-uniform resolution from a multi-imager system
US10547822B2 (en) Image processing apparatus and method to generate high-definition viewpoint interpolation image
US11736801B2 (en) Merging webcam signals from multiple cameras
US20130335535A1 (en) Digital 3d camera using periodic illumination
US10554928B2 (en) Telepresence device
US20080158340A1 (en) Video chat apparatus and method
JP5963006B2 (en) Image conversion apparatus, camera, video system, image conversion method, and recording medium recording program
WO2019204027A1 (en) Telepresence devices operation methods
US10255664B2 (en) Image processing device and method
JP2013025649A (en) Image processing device, image processing method, and program
JP2014203462A (en) Apparatus and method for forming light field image
WO2017141584A1 (en) Information processing apparatus, information processing system, information processing method, and program
Schreer et al. 3dpresence-a system concept for multi-user and multi-party immersive 3d videoconferencing
JP2007235969A (en) Video recording system, program and recording medium
JP2011097447A (en) Communication system
JP2018033107A (en) Video distribution device and distribution method
JP2011113206A (en) System and method for video image communication
GB2565301A (en) Three-dimensional video processing
JP6004978B2 (en) Subject image extraction device and subject image extraction / synthesis device
JP2005142765A (en) Apparatus and method for imaging
CN115315939A (en) Information processing apparatus, information processing method, and program
KR20140045636A (en) Apparatus for generating layered panorama image

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100614

R151 Written notification of patent or utility model registration

Ref document number: 4539015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees