JP6312345B2 - テレビ会議システム - Google Patents

テレビ会議システム Download PDF

Info

Publication number
JP6312345B2
JP6312345B2 JP2016523436A JP2016523436A JP6312345B2 JP 6312345 B2 JP6312345 B2 JP 6312345B2 JP 2016523436 A JP2016523436 A JP 2016523436A JP 2016523436 A JP2016523436 A JP 2016523436A JP 6312345 B2 JP6312345 B2 JP 6312345B2
Authority
JP
Japan
Prior art keywords
video
face
unit
camera
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016523436A
Other languages
English (en)
Other versions
JPWO2015182440A1 (ja
Inventor
成樹 向井
成樹 向井
保孝 若林
保孝 若林
田中 誠一
誠一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPWO2015182440A1 publication Critical patent/JPWO2015182440A1/ja
Application granted granted Critical
Publication of JP6312345B2 publication Critical patent/JP6312345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、テレビ会議システムに関する。
本願は、2014年5月29日に、日本に出願された特願2014−111419号に基づき優先権を主張し、その内容をここに援用する。
近年、光通信や高速無線通信などを使った高速インターネットの普及により、テレビやカメラを接続して双方向通信を行うテレビ会議システムが利用されている。このテレビ会議システムでは、双方で資料を共有し、資料映像と相手側のカメラの映像(相手側の出席者の顔の映像)を同一のディスプレイで同時に見たいというニーズがある。
例えば、資料映像と相手側のカメラの映像を同一のディスプレイで同時に見るシステムでは、資料映像を親画面、カメラ映像を子画面として分け、2つの画面を並べて表示する方法が考えられるが、ディスプレイ画面の限られた表示領域内で親画面と子画面とを単に並べて表示してしまうと、資料映像の表示サイズが小さくなってしまうため、文字が読みづらくなってしまう等の問題がある。
この問題を解決する方法として、例えば、特許文献1では、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示するため、資料映像の表示サイズを変えずに相手側の出席者の顔を把握することが可能になる。また、特許文献2では、複数拠点でのカメラ映像をアイコンとして資料の周囲に表示し、それらのアイコンがユーザによって選択されると、その拠点にいる出席者の顔が資料映像に重畳されて表示されるため、出席者を把握しながら資料を見ることが可能になる。
特開2013−115527号公報 特開2010−93583号公報
しかしながら、特許文献1に記載の方法では、相手側に複数の出席者がいた場合には、出席者のうちの話者のみの映像しか資料映像に重畳されないため、話者の発言内容に対する他の出席者の反応や状況が分からず、コミュニケーションが取りづらくなる可能性がある。また、資料映像の一部に人物の顔が重畳されてしまうため、資料の内容によっては文字や画像が隠れてしまい視認性が悪くなることがある。また、特許文献2に記載の方法では、選択された拠点の出席者の映像が資料映像の一部に重畳されるため、選択する拠点が増えるほど、又は出席者が多いほど資料が隠れてしまう。このように、資料映像の視認性と、相手側の出席者の状況を把握すること、との両立が困難であった。
本発明の一態様は、上述した事情に鑑みてなされたもので、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができるテレビ会議システムを提供する。
本発明の一態様は、少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、前記端末装置は、カメラにより撮影された映像である第一の映像から顔を検出する顔検出部と、会議で使用する資料の映像である第二の映像の映像領域の周囲に、前記顔検出部が検出した顔の映像を前記第一の映像における当該顔の相対位置に応じて配置した映像を生成する生成部と、を備えるテレビ会議システムである。
本発明の一態様によれば、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができる。
第1の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。 第1の実施形態によるテレビ会議システムの使用環境の一例を示す模式図である。 第1の実施形態によるテレビ会議システムにおける処理の流れを示すフローチャートである。 第1の実施形態によるカメラ映像の一例を示す図である。 第1の実施形態によるカメラ映像に対する顔検出結果の一例を示す図である。 顔の回転方向の角度の説明図である。 カメラ映像から検出された顔に対する回転処理の説明図である。 背景画像の一例を示す図である。 資料映像に対する縮小処理の説明図である。 背景映像に資料映像を貼りつけた映像の一例を示す図である。 カメラ映像における顔の相対位置を示す図である。 資料映像と顔映像とを合成した合成映像を示す図である。 第2の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。 第2の施形態によるテレビ会議システムの使用環境の一例を示す模式図である。 第2の実施形態によるテレビ会議システムにおける処理の流れを示すフローチャートである。 第2の実施形態によるカメラAが撮影した映像の一例を示す図である。 ディスプレイAに表示させるパターンの一例を示す図である。 パターンをディスプレイAに表示させた場合のカメラ映像の一例を示す図である。 テンプレートの例を示す図である。 テンプレートマッチングによる位置検出の説明図である。 第2の実施形態による回転処理の一例を説明する説明図である。 回転処理後のカメラ映像において顔が検出された状態を示す図である。 第3の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。 第3の実施形態によるテレビ会議システムにおける処理の流れを示すフローチャートである。 送受信端末Bの第一映像取得部BがカメラBから取得したカメラ映像を示す図である。 合成映像にアイコンを重畳した映像を示す図である。 第4の実施形態によるテレビ会議システムの概略構成の一例を示すブロック図である。 カメラ映像301bにおける顔の相対位置及び顔方向を示す図である。 部屋を天井側から見下ろしたときの状態を示す模式図である。 顔方向に応じたアイコンを配置した合成映像の一例を示す図である。
以下、図面を参照して、本発明の実施の形態について説明する。なお、各図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。また、各図面における各部の大きさ等は理解を容易にするため大小関係を誇張して描いており、実際の大きさとは異なる。
<第1の実施形態>
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態によるテレビ会議システム1の概略構成の一例を示すブロック図である。
テレビ会議システム1は、送信端末100と、この送信端末100に接続される情報端末4、カメラ12、及びマイク13と、受信端末200と、この受信端末200に接続されるディスプレイ5、及びスピーカー14と、を備える。
カメラ12は、送信端末100の周辺にいる会議の出席者を撮影するための撮像装置であり、撮影した映像をケーブル等で接続された送信端末100に供給する。マイク13は、送信端末100の周辺の音声を集音し、音声信号をケーブル等で接続された送信端末100に供給する。なお、音声は、人の声に限定されるものではなく、様々な音又は声を指すものとする。
ディスプレイ5は、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、又は有機EL(Electro-Luminescence)ディスプレイ等を備える表示装置やプロジェクタなどの映像投射装置であり、映像や情報を表示する装置であればどのようなものであってもよい。例えば、ディスプレイ5は、受信端末200から出力される映像を表示する。スピーカー14は、受信端末200から出力される音声信号を音声に変換して出力する。なお、スピーカー14は、1チャンネルの音声を出力するものであってもよいし、左右2チャンネルの音声を出力するものであってもよい。
情報端末4は、例えばパーソナルコンピュータのような固定式の情報端末装置、又はデジタルカメラ等、会議で使用する資料映像を生成する装置であればどのような情報装置であってもよい。ここでは、情報端末4がノート型のパーソナルコンピュータであるものとして説明する。情報端末4は、データ記憶部4aと、端末ディスプレイ4bとを備えている。データ記憶部4aは、HDD(Hard Disk Drive)、フラッシュメモリ、又はDRAM(Dynamic Random Access Memory)といった半導体記憶装置や磁気記憶装置を備えている。このデータ記憶部4aには、会議で使用される資料(文書、画像、又は映像による資料、プレゼンテーション資料等)のデータが記憶されている。例えば、情報端末4は、データ記憶部4aから読み出したデータに基づいて、会議で使用される資料の映像(以下、資料映像とも称する)を出力する。端末ディスプレイ4bは、上述したディスプレイ5と同様に、映像や情報を表示する。
送信端末100及び受信端末200は、ネットワークを介して互いに通信する端末装置であり、例えば、セットトップボックスやパーソナルコンピュータのような固定情報端末や、PDA(Personal Digital Assistant)やスマートフォンのような移動体通信端末、あるいはテレビ会議専用の通信装置である。
送信端末100は、テレビ会議システム1における送信側の端末装置の一例である。図示する送信端末100は、第一映像取得部101と、顔検出部102と、第二映像取得部103と、合成映像生成部104(生成部)と、音声取得部105と、データ混合部106と、データ送信部107と、を備えている。
第一映像取得部101は、カメラ12が撮影した映像(以下、カメラ映像とも称する)を取得する。顔検出部102は、第一映像取得部101が取得したカメラ映像から顔を検出する。例えば、顔検出部102は、第一映像取得部101が取得したカメラ映像から顔の領域を検出するとともに、検出した顔の回転方向の角度を検出する。ここで、顔の回転方向の角度とは、顔を正面から見たときの中心を回転中心とする顔の回転方向の角度である。第二映像取得部103は、情報端末4が備えるデータ記憶部4aから会議で使用する資料映像データを読み出し、資料映像として取得する。
合成映像生成部104は、顔検出部102が検出した顔の領域を第一映像取得部101が取得した映像から切り取り、切り取った顔の映像(以下、顔映像とも称する)と、第二映像取得部103が取得した資料映像とを合成する。また、合成映像生成部104は、合成した合成映像データをデータ混合部106に供給する。
音声取得部105は、マイク13から供給された音声信号を取得し、取得した音声信号に基づく音声データをデータ混合部106に供給する。
データ混合部106は、合成映像生成部104が生成した合成映像データと、音声取得部105が取得した音声データとを混合し、混合した混合データをデータ送信部107に供給する。データ送信部107は、データ混合部106から供給された混合データを受信端末200に送信する。
受信端末200は、テレビ会議システム1における受信側の端末装置の一例である。図示する受信端末200は、データ受信部208と、データ分離部209と、音声出力部210と、映像出力部211と、を備えている。
データ受信部208は、送信端末100から送信された混合データを受信する。データ分離部209は、データ受信部208が受信した混合データを、音声データと映像データとに分離する。そして、データ分離部209は、音声データを音声出力部210に供給し、映像データを映像出力部211に供給する。
音声出力部210は、データ分離部209が混合データから分離した音声データを所定の音声信号に変換してスピーカー14に出力する。映像出力部211は、データ分離部209が混合データから分離した映像データを所定の映像信号に変換してディスプレイ5に出力する。これにより、映像データに基づく映像がディスプレイ5に表示される。
このように、受信端末200では、送信端末100から混合データにより送信された資料映像と顔映像(送信端末100側の会議の出席者の顔映像)との合成映像がディスプレイ5に表示され、送信端末100から混合データにより送信された音声(送信端末100側の会議の出席者の音声)がスピーカー14から出力される。
なお、受信端末200は、さらに送信端末100の各部を備えた構成としてもよく、送信端末100の機能も実行可能な端末装置としてもよい。また、送信端末100は、さらに受信端末200の各部を備えた構成としてもよく、受信端末200の機能も実行可能な端末装置としてもよい。
(テレビ会議システム1の使用環境の具体例)
次に、図2を参照して、本実施形態によるテレビ会議システム1の使用環境の一例を説明する。
図2は、本実施形態によるテレビ会議システム1の使用環境の一例を示す模式図である。図示するテレビ会議システム1は、少なくとも一組の端末装置として、送信端末100と受信端末200とを備えている。部屋500に設置されている送信端末100と、部屋501に設置されている受信端末200とがネットワーク3を介して互いに通信を行い、テレビ会議が行われる。ネットワーク3は、インターネットや公衆回線網等であり、いずれか一方を用いて接続される場合も、両方が組み合わされて接続される場合もある。なお、送信端末100及び受信端末200のそれぞれは、LAN(Local Area Network)15a、LAN15bを介してネットワーク3に接続される。なお、LAN15a、15bは、有線LANでもよいし無線LANでもよい。
部屋500のテーブル20の略中央には、送信端末100が設置されている。また、テーブル20には、情報端末4、カメラ12、及びマイク13が設置されており、それぞれ送信端末100に接続されている。また、部屋500では、出席者A16、出席者B17、及び出席者C18の3名がテレビ会議に出席(参加)している。その3名の出席者は、テーブル20に設置された送信端末100を挟んで情報端末4の設置場所の反対側にいるものとする。つまり、出席者A16、出席者B17、及び出席者C18と、情報端末4とが、送信端末100をとり囲むような位置関係となっている。また、出席者A16、出席者B17、及び出席者C18は、情報端末4の端末ディスプレイ4bを視認できる位置におり、情報端末4の端末ディスプレイ4bの表示映像を見ながらテレビ会議を行うことができる。
カメラ12は、テーブル20の略中央(ここでは、送信端末100の上)に設置されている。例えば、カメラ12は、画角180度の円の中心からの距離が入射角に比例している等距離射影方式を採用している魚眼カメラであり、画角が広く、光軸が部屋500の天井面に対して垂直に交わるように、上向きに設置されている。なお、部屋500の天井面はテーブル20のテーブル面と平行であるものとする。これにより、カメラ12は、送信端末100をとり囲むような位置関係にある情報端末4、出席者A16、出席者B17、及び出席者C18を、同時に一つの映像として撮影することができる。また、マイク13は、無指向性のマイクを採用しており、カメラ12の周囲で発せられた音声を集音することができる。
一方、部屋501のテーブル21には、受信端末200が設置されている。また、テーブル21には、ディスプレイ5、及びスピーカー14が設置されており、それぞれ受信端末200に接続されている。また、部屋501では、出席者D19がテレビ会議に出席している。出席者D19は、テーブル21に設置された受信端末200を挟んで、ディスプレイ5の設置場所の反対側にいるものとする。つまり、出席者D19は、ディスプレイ5を視認できる位置におり、ディスプレイ5の表示映像を見ながらテレビ会議を行うことができる。
(テレビ会議システム1の処理)
次に、図3から図12を参照して、本実施形態によるテレビ会議システム1における処理を詳しく説明する。
図3は、本実施形態によるテレビ会議システム1における処理の流れを示すフローチャートである。また、図4から図8は、テレビ会議システム1における処理に従って各部が実行する機能を説明するための説明図である。
まず、第一映像取得部101は、カメラ12が撮影したカメラ映像(第一の映像)を取得する(ステップS100)。図4は、カメラ12が撮影したカメラ映像101aの一例を示す図である。図示するように、カメラ映像101aには、情報端末4、出席者A16、出席者B17、及び出席者C18が撮影されている。また、音声取得部105は、出席者A16、出席者B17、及び出席者C18の発言に応じて、音声信号をマイク13から取得する(ステップS110)。
第二映像取得部103は、情報端末4のデータ記憶部4aに記憶されているデータに基づいて資料映像(第二の映像)を取得する(ステップS120)。ここで、データ記憶部4aに記憶されているデータには、例えば、jpeg(Joint Photographic Experts Group)形式やPNG(Portable Network Graphic)形式等の画像データ、PDF(登録商標)形式やPowerPoint(登録商標)形式等のデータ等が含まれる。なお、データ記憶部4aに記憶されているデータは、上記以外の形式の各種データであってもよい。
第一映像取得部101は、カメラ12から取得したカメラ映像101aを、顔検出部102に供給する。顔検出部102は、第一映像取得部101から供給されたカメラ映像101aから顔を検出する顔検出処理を行う。例えば、顔検出処理では、顔検出を行う映像に対して探索窓(例えば8ピクセル×8ピクセルのような判定領域)を左上から走査して順番に動かし、探索窓の領域毎に顔と認識できる特徴点を持つ領域があるか否かを判定することによって顔を検出する。この顔検出の方法としては、例えば、Viola−Jones法など、様々なアルゴリズムが提案されており、いずれの顔検出方法を用いてもよい。
上述の顔検出処理において、顔検出部102は、カメラ映像101aから顔が検出されたか否かを判定する(ステップS130)。カメラ映像101aから顔が検出されなかった場合(ステップS130:No)、顔検出部102は、顔検出処理を終了して、ステップS150に処理を進める。一方、カメラ映像101aから顔が検出された場合(ステップS130:Yes)、顔検出部102は、検出した顔の領域の座標と、検出した際の顔の回転方向の角度を合成映像生成部104に供給する。
図5は、カメラ映像101aに対する顔検出結果の一例を示す図である。例えば、顔検出部102は、図4に示すカメラ映像101aに対して顔検出処理を行った場合、図5に示すように、それぞれ出席者A16の顔領域40、出席者B17の顔領域41、及び出席者C18の顔領域42を検出するとともに、それぞれ検出された顔の回転方向の角度を検出する。なお、顔の回転方向とは、顔を正面から見たときの中心を回転中心とする顔の回転方向である。
図6は、顔の回転方向の角度の説明図である。この図を参照して、顔の回転方向の角度について説明する。図示するように、カメラ映像101aの映像領域の中心座標43とカメラ映像101aの下辺46aとを結ぶ直線44が下辺46aと直交するとき、中心座標43を回転中心とする直線44の回転方向の角度を0度とする。この直線44と、顔を左半分と右半分とに分ける境界線となる顔の中心線45とが平行な関係にあるときに、顔の回転方向の角度を0度とする。顔検出部102は、顔の回転方向の角度を、反時計回りに0度から359度までの範囲で検出できるものとする。
例えば、中心座標43を回転中心として直線44を回転させたとき、カメラ映像101aの右辺46bと直交するときの直線44の回転方向の角度が90度、上辺46cと直交するときの直線44の回転方向の角度が180度、直線44が左辺46dと直交するときの直線44の回転方向の角度が270度となる。回転方向の角度が90度、180度、270度になるそれぞれの直線44と顔の中心線45とが平行な関係にあるとき、それぞれの顔の回転方向の角度が90度、180度、270度となる。
次に、合成映像生成部104は、顔検出部102が検出した顔領域の座標情報に基づいて、第一映像取得部101が取得したカメラ映像101aから顔の領域を切り出すとともに、検出した顔の回転方向の角度に基づいて、それぞれの顔の回転方向の角度が0度になるように、切り出した顔映像の回転処理を行う(ステップS140)。また、合成映像生成部104は、第二映像取得部103が取得した資料映像に対し、映像のサイズを変換(縮小)する処理を行う(ステップS150)。
続いて、合成映像生成部104は、サイズを変換した資料映像の映像領域の周囲に、当該資料映像に重ならないように、切り出して回転処理を行った顔映像を配置する。例えば、合成映像生成部104は、資料映像の映像領域の周囲に、切り出して回転処理を行った顔映像をカメラ映像101aにおける顔の相対位置に応じて配置した合成映像を生成する。具体的には、合成映像生成部104は、まず黒で塗りつぶされた背景映像を生成して、その背景映像の中央に、サイズ変換後(縮小後)の資料映像を貼りつける。次に、合成映像生成部104は、サイズ変換後(縮小後)の資料映像の映像領域の周囲の背景映像の領域に、切り出して回転処理を行った顔映像を、カメラ映像101aにおいて検出された顔領域の中心座標を基に顔領域の相対位置関係を保持したまま貼りつけ、合成映像を生成する(ステップS160)。
以下、図7から図12を参照して、ステップS140からステップS160の合成映像生成部104の処理を具体的に説明する。なお、ステップS100において第一映像取得部101が取得したカメラ映像101a(図4参照)の解像度を横1280×縦720画素とする。また、ステップS130において、顔検出部102が、出席者A16の顔領域40(横100×縦100画素)、出席者B17の顔領域41(横100×縦100画素)、出席者C18の顔領域42(横100×縦100画素)のそれぞれの領域を顔領域として検出するものとする(図5参照)。
ステップS140において、合成映像生成部104は、第一映像取得部101が取得したカメラ映像101aから、顔検出部102が検出した顔の領域を切り出すとともに、切り出した顔映像の回転処理を行う。
図7は、カメラ映像101aから検出された顔に対する回転処理の説明図である。図7(a)は、カメラ映像101aから切り出された顔映像を示している。ここでは、検出された顔領域40、顔領域41、及び顔領域42のそれぞれの顔の回転方向の角度が、270度、10度、80度である場合の顔映像の例を示している。合成映像生成部104は、それぞれの顔の回転方向が0度になるように回転処理を行う。図7(b)は、回転処理後の顔領域40、顔領域41、及び顔領域42のそれぞれの顔映像を示している。
次に、ステップS150において、合成映像生成部104は、第二映像取得部103が取得した資料映像を縮小して、背景映像に貼りつける。図8は、背景画像の一例を示す図である。例えば、合成映像生成部104は、図示するような黒色で塗られた映像(横1280×縦720画素)を背景映像101bとして生成する。なお、ここでは、黒色で塗られた映像を背景映像101bとしたが、他の色の映像、模様のある映像、又は写真映像等のようにいずれの映像を背景映像としてもよい。符号47は、背景映像101bの映像領域の中心座標を示す。
また、第二映像取得部103が取得した資料映像が横1280×縦720画素であったとする。この場合、合成映像生成部104は、この資料映像を横1080×縦520画素となるように縮小処理を行う。図9は、資料映像に対する縮小処理の説明図である。この図では、第二映像取得部103が取得した資料映像101c(縮小処理前)が、資料映像101dに縮小されることを示している。符号48は、縮小処理後の資料映像101dの映像領域の中心座標を示す。
ここで、縮小処理には、ニアレストネイバー法、バイリニア法、バイキュービック法等どのような手法が用いられてもよい。また、縮小処理は、アスペクト比を固定したまま縮小させる処理としてもよい。アスペクト比を固定した縮小処理とする場合、横と縦の長さのうち短い方を基準に縮小させる必要があり、上述した解像度の場合には横944×縦520画素となるように縮小させてもよい。
次に、合成映像生成部104は、背景映像101bの中心座標47(図8参照)と、縮小処理後の資料映像101dの中心座標48(図9参照)とが一致するように、背景映像101bに資料映像101dを貼りつける。図10は、背景映像101bに資料映像101dを貼りつけた映像の一例を示す図である。
そして、ステップS160において、合成映像生成部104は、図7(b)に示す回転処理後の顔映像を、図10に示す背景映像101bに資料映像101dを貼りつけた映像の、資料映像101dの周囲(外側)に貼りつけた合成映像を生成する。このとき、合成映像生成部104は、カメラ映像101aにおいて検出された顔領域の中心座標を基に顔領域の相対位置関係を保持したまま、顔映像を貼りつける。
図11は、カメラ映像101aにおける顔の相対位置を示す図である。カメラ映像101aから検出された顔領域40、顔領域41、及び顔領域42のそれぞれの中心の座標を、座標50、座標51、及び座標52とする。また、カメラ映像101aの中心座標43と、座標50、座標51、及び座標52のそれぞれとを結んだ直線を、直線53、直線54、及び直線55とする。この場合、カメラ映像101aにおいて検出されたそれぞれの顔の相対位置は、カメラ映像101aの中心座標43を基準として、直線53、直線54、及び直線55のそれぞれの線上の位置として表すことができる。
図12は、資料映像101dと顔映像とを合成した合成映像101eの一例を示す図である。合成映像生成部104は、図10に示す背景映像101bに資料映像101dを貼りつけた映像に対して顔映像を貼りつけて合成映像101eを生成する。このとき、合成映像生成部104は、図11に示すカメラ映像101aの中心座標43に代えて資料映像101dの中心座標48を基準とし、中心座標48を基準としたときの直線53、直線54、及び直線55のそれぞれの直線上、且つ資料映像101dの周囲(外側)に、図7(b)に示す回転処理後の顔領域40、顔領域41、及び顔領域42のそれぞれの顔映像を貼りつける。
このようにすることで、合成映像101e上に表示される顔映像が、カメラ映像101aにおいて検出された顔の相対位置関係を保持したまま表示されることになる。なお、上述したカメラ映像101a、顔領域40、顔領域41、顔領域42、背景映像101b、資料映像101c、及び資料映像101dのそれぞれの画素は、一例であってこれに限定されるものではない。
図3に戻り、ステップS170以降の処理を説明する。
データ混合部106は、合成映像生成部104が生成した合成映像データと、音声取得部105が取得した音声データとの同期を取り、多重化したストリームに変換することで混合を行う(ステップS170)。そして、データ混合部106は、混合した混合データをデータ送信部107に供給する。
データ送信部107は、データ混合部106から供給された混合データをLAN15経由で、受信端末200に送信する(ステップS180)。ここで、混合データの送受信の一例として、H.320の通信プロトコルを用いた通信が行われるものとするが、これに限られるものではなく、H.323、H.324等のようにいずれの通信プロトコルを用いた通信が行われてもよい。
一方、受信端末200は、送信端末100から送信された、混合データを受信する。例えば、受信端末200のデータ受信部208は、送信端末100から送信された混合データを受信し、データ分離部209に供給する(ステップS190)。データ分離部209は、混合データの多重化されたストリームを映像データと音声データとに分離する。そして、データ分離部209は、分離した映像データを映像出力部211に供給し、分離した音声データを音声出力部210に供給する(ステップS200)。
映像出力部211は、映像データに基づく映像をディスプレイ5に表示させる。つまり、映像出力部211は、送信端末100で合成された合成映像101e(図12参照)をディスプレイ5に表示させる。(ステップS210)。また、音声出力部210は、音声データに基づく音声をスピーカー14から出力させる(ステップS220)。
以上説明したように、本実施形態によるテレビ会議システム1は、少なくとも一組以上の端末装置(例えば、送信端末100及び受信端末200)がネットワーク3を介して映像を送受信する。送信端末100は、顔検出部102と、合成映像生成部104(生成部)と、を備えている。顔検出部102は、カメラ12により撮影されたカメラ映像101a(第一の映像)から顔を検出する。そして、合成映像生成部104は、会議で使用する資料の資料映像101d(第二の映像)の映像領域の周囲に、顔検出部102が検出した顔映像をカメラ映像101aにおける当該顔の相対位置に応じて配置した合成映像を生成する。
このように、本実施形態によるテレビ会議システム1は、顔を検出した座標の相対位置関係を保持したまま、顔映像を資料映像の周囲に表示させるため、会議の資料映像と相手側の出席者の顔映像との両方を、視認性を保ちつつ同時に見ながらテレビ会議を行うことができる。また、テレビ会議システム1は、相手側の出席者同士の相対位置関係を保持して表示することができるため、相手側の会議の状況や出席者の反応を限られた表示領域の中だけで、直観的に把握することができる。よって、本実施形態によれば、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができる。
なお、合成映像生成部104が、顔映像を資料映像の周囲に配置する場合、顔映像が資料映像に重ならないよう資料映像の外側に配置するのが望ましいが、資料映像の視認性を著しく損なわない程度に、資料映像の一部に重なるように配置してもよい。
また、カメラ12に画角180度の魚眼カメラを用いた例を説明したが、カメラ12が設置された部屋500で会議に出席している出席者のほぼ全員を映すための画角のカメラであれば、画角180度の魚眼カメラに限られるものではない。ここで、ほぼ全員と記述しているのは、出席者のいる場所によっては、画角180度の魚眼カメラを用いたとしても出席者の全員が映ることが保障されるものではないためである。例えば、カメラ12は、テーブル20の周囲近傍にいる出席者の全員を映すことが可能な程度の画角を有するカメラであることが望ましい。また、カメラ12は、複数のカメラを組み合わせて、パノラマ映像、全周囲映像を生成して映像を出力するカメラであってもよい。
また、マイク13に無指向性のマイクを用いた例を説明したが、カメラ12の周囲で発せられた音声を入力することができれば、いずれのマイクを用いてもよい。
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。
第1の実施形態では、縮小後の資料映像101dの映像領域の周囲に、図4に示すカメラ映像101aから検出した顔映像を合成することにより、図12に示す合成映像101eを生成する例を説明した。この例の場合には、カメラ12の設置方向によって、カメラ映像101a内の情報端末4の端末ディスプレイ4bの位置が変わり、検出される出席者の位置も変化する。したがって、第1の実施形態では、合成映像において、出席者の顔映像どうしの相対位置関係が保持されたとしても、カメラ12の設置方向によって、いずれの方向から見たときの出席者の位置になるかが変化することになる。例えば、図4に示すように情報端末4の端末ディスプレイ4bの位置が垂直方向で上部且つ水平方向で中央となるようなカメラ映像101aから検出された顔映像の相対位置関係が保持されれば、送信側の出席者と受信側の出席者とが向かい合った関係で合成映像を見ながら会議を行うことができる。そのためには、第1の実施形態では、カメラ12を設置する際にカメラ12の向きを合わせておく必要があるが、本実施形態では、向きを合わせなくてもよい形態について説明する。
図13は、本実施形態によるテレビ会議システム1aの概略構成の一例を示すブロック図である。テレビ会議システム1aは、送受信端末A300と、この送受信端末A300に接続されるカメラA60、マイクA61、スピーカーA62、ディスプレイA63、及び情報端末A68と、送受信端末B400と、この送受信端末B400に接続されるカメラB64、マイクB65、ディスプレイB66、及びスピーカーB67を備える。
カメラA60及びカメラB64は、図1のカメラ12に相当し、マイクA61及びマイクB65は、図1のマイク13に相当する。また、スピーカーA62及びスピーカーB67は、図1のスピーカー14に相当し、ディスプレイA63及びディスプレイB66は、図1のディスプレイ5に相当する。また、情報端末A68は、図1の情報端末4に相当し、会議で使用される資料や情報等のデータが記憶されるデータ記憶部A68aを備えている。なお、ディスプレイA63は、図1の情報端末4が備える端末ディスプレイ4bに相当する構成としてもよく、ここでは、情報端末A68に備えられているものとして説明する。
送受信端末A300及び送受信端末B400は、図1の送信端末100及び受信端末200と同様にネットワーク3を介して互いに通信する端末装置である。
送受信端末A300は、第一映像取得部A301と、ディスプレイ検出部A302(位置検出部)と、回転処理部A303と、顔検出部A304と、第二映像取得部A305と、合成映像生成部A306(生成部)と、音声取得部A307と、データ混合部A308と、データ送信部A309と、データ受信部A310と、データ分離部A311と、音声出力部A312と、映像出力部A314と、を備えている。
第一映像取得部A301は、カメラA60が撮影した映像を取得する。ディスプレイ検出部A302は、第一映像取得部A301が取得した映像からディスプレイA63の位置を検出する。回転処理部A303は、ディスプレイ検出部A302が検出したディスプレイA63の位置に応じて、第一映像取得部A301が取得した映像に回転処理を行う。
顔検出部A304は、回転処理部A303が回転処理を行った映像から顔の領域と、顔の回転方向の角度を検出する。第二映像取得部A305は、情報端末A68が備えるデータ記憶部A68aから会議で使用する資料映像データを読み出し、資料映像として取得する。
合成映像生成部A306は、顔検出部A304が検出した顔の領域を第一映像取得部A301が取得した映像から切り取り、切り取った顔映像と、第二映像取得部A305が取得した資料映像とを合成する。また、合成映像生成部A306は、合成した合成映像データをデータ混合部A308に供給する。音声取得部A307は、マイクA61から供給された音声信号を取得し、取得した音声信号に基づく音声データをデータ混合部A308に供給する。
データ混合部A308は、合成映像生成部A306が生成した合成映像データと、音声取得部A307が取得した音声データとを混合し、混合した混合データをデータ送信部A309に供給する。データ送信部A309は、データ混合部A308から供給された混合データを送受信端末B400に送信する。
次に受信側の機能として、データ受信部A310は、送受信端末B400から送信された混合データを受信する。データ分離部A311は、データ受信部A310が受信した混合データを、音声データと映像データとに分離する。そして、データ分離部A311は、音声データを音声出力部A312に供給し、映像データを映像出力部A314に供給する。
音声出力部A312は、データ分離部A311が混合データから分離した音声データを所定の音声信号に変換してスピーカーA62に出力する。映像出力部A314は、データ分離部A311が混合データから分離した映像データを所定の映像信号に変換してディスプレイA63に出力する。これにより、映像データに基づく映像が情報端末A68のディスプレイA63に表示される。
なお、送受信端末B400は、送受信端末A300の各部と同様の構成を備え、同様の機能を有しているものとする。例えば、送受信端末B400は、第一映像取得部B401と、ディスプレイ検出部B402(位置検出部)と、回転処理部B403と、顔検出部B404と、第二映像取得部B405と、合成映像生成部B406(生成部)と、音声取得部B407と、データ混合部B408と、データ送信部B409と、データ受信部B410と、データ分離部B411と、音声出力部B412と、映像出力部B414と、を備えており、これらの各部が送受信端末A300の各部に対応する。なお、この図13では、送受信端末B400に情報端末A68に相当する情報端末の図示を省略しているが、送受信端末B400には情報端末が接続されてもよいし接続されなくてもよい。
(テレビ会議システム1aの使用環境の具体例)
次に、図14を参照して、本実施形態によるテレビ会議システム1aの使用環境の一例を説明する。図14は、本実施形態によるテレビ会議システム1aの使用環境の一例を示す模式図である。
図示するテレビ会議システム1aは、少なくとも一組の端末装置として、送受信端末A300と送受信端末B400とを備えている。部屋510に設置されている送受信端末A300と、部屋511に設置されている送受信端末B400とがネットワーク3を介して互いに通信を行い、テレビ会議が行われる。本例では、送受信端末A300及び送受信端末B400のそれぞれは、Wi-Fi(登録商標:Wireless Fidelity)73、Wi−Fi75を介してネットワーク3に接続される。なお、送受信端末A300及び送受信端末B400のそれぞれは、有線LANを介してネットワーク3に接続されてもよい。
部屋510のテーブル70の略中央には、送受信端末A300が設置されている。また、テーブル70には、情報端末A68、カメラA60、マイクA61、及びスピーカーA62が設置されており、それぞれ送受信端末A300に接続されている。また、部屋510では、出席者E80、出席者F81、及び出席者G82の3名がテレビ会議に出席(参加)している。その3名の出席者は、テーブル70に設置された送受信端末A300を挟んで情報端末A68の設置場所の反対側にいるものとする。つまり、出席者E80、出席者F81、及び出席者G82と、情報端末A68とが、送受信端末A300をとり囲むような位置関係となっている。また、出席者E80、出席者F81、及び出席者G82は、情報端末A68のディスプレイA63を視認できる位置におり、情報端末A68のディスプレイA63の表示映像を見ながらテレビ会議を行うことができる。
一方、部屋511のテーブル71には、送受信端末B400が設置されている。また、テーブル71には、カメラB64、マイクB65、ディスプレイB66、及びスピーカーB67が設置されており、それぞれ送受信端末B400に接続されている。また、部屋511では、出席者H83がテレビ会議に出席している。出席者H83は、テーブル71に設置された送受信端末B400を挟んで、ディスプレイB66の設置場所の反対側にいるものとする。つまり、出席者H83は、ディスプレイB66を視認できる位置におり、ディスプレイB66の表示映像を見ながらテレビ会議を行うことができる。
カメラA60は、送受信端末A300の上に設置されている。一方、カメラB64は、送受信端末B400の上に設置されている。例えば、カメラA60及びカメラB64は、画角180度の映像上の面積が立体角に比例する等立体角射影方式を採用している魚眼カメラであり、画角が広く、それぞれの光軸が部屋510の天井面と部屋511の天井面とのそれぞれに対して垂直に交わるように、上向きに設置されている。なお、部屋510及び部屋511の天井面のそれぞれは、テーブル70及びテーブル71のそれぞれのテーブル面と平行であるものとする。例えば、カメラA60は、送受信端末A300をとり囲むような位置関係にある情報端末A68、出席者E80、出席者F81、及び出席者G82を、同時に一つの映像として撮影することができる。また、カメラB64は、ディスプレイB66及び出席者H83を、同時に一つの映像として撮影することができる。また、マイクA61及びマイクB65のそれぞれは、無指向性のマイクを採用しており、カメラA60とカメラB64とのそれぞれの周囲で発せられた音声を集音することができる。
(テレビ会議システム1aの処理)
次に、図15から図22を参照して、本実施形態によるテレビ会議システム1aにおける処理を詳しく説明する。
図15は、本実施形態によるテレビ会議システム1aにおける処理の流れを示すフローチャートである。また、図16から図22は、テレビ会議システム1aにおける処理に従って各部が実行する機能を説明するための説明図である。
なお、図15に示す処理の流れにおいて、ステップS300からステップS320までの各処理は、図3に示すステップS100からステップS120までの各処理と同様の処理であり、適宜説明を省略する。また、図15に示す処理の流れにおいて、ステップS330からステップS420までの各処理は、図3に示すステップS130からステップS420までの各処理と同様の処理であり、適宜説明を省略する。
まず、第一映像取得部A301は、カメラA60が撮影したカメラ映像(第一の映像)を取得する(ステップS300)。図16は、カメラA60が撮影したカメラ映像301aの一例を示す図である。本例のカメラ映像301aには、情報端末A68、出席者E80、出席者F81、及び出席者G82が撮影されているが、それらの被写体が撮影されている位置が図4に示す例と異なる。例えば、図4に示すように情報端末4の端末ディスプレイ4b(図16では情報端末A68のディスプレイA63)の位置が垂直方向で上部且つ水平方向で中央となるような映像を得るためには、カメラA60を設置する際にカメラA60の向きを合わせておく必要がある。この図16に示すカメラ映像301aの例は、カメラA60を設置する際にカメラA60の向きを合わせていない場合の例であり、情報端末A68のディスプレイA63の位置が垂直方向で上部且つ水平方向で中央となる位置にない。
また、音声取得部A307は、出席者E80、出席者F81、及び出席者G82の発言に応じて、音声信号をマイクA61から取得する(ステップS310)。第二映像取得部A305は、情報端末A68のデータ記憶部A68aに記憶されているデータに基づいて資料映像(第二の映像)を取得する(ステップS320)。
次に、ディスプレイ検出部A302は、第一映像取得部A301が取得したカメラ映像301aからディスプレイA63を検出する。例えば、ディスプレイ検出部A302は、ディスプレイA63に一定のパターンを表示させることにより、そのパターンを認識してディスプレイA63の位置を検出する。図17は、ディスプレイA63に表示させるパターン90の一例を示す図である。図示するパターン90は、横2×縦2の白黒の市松模様のパターンである。図18は、図17のパターン90(例えば、横1280×縦720画素)をディスプレイA63に表示させた場合に、第一映像取得部A301が取得するカメラ映像301aの一例を示す図である。
ディスプレイ検出部A302は、パターン90を縮小させた画像をテンプレート91(例えば、横80×縦45画素)として、テンプレートマッチングを行うことによりカメラ映像301aからディスプレイA63の位置を検出する。図19は、テンプレート91の例を示す図である。例えば、パターン90の縮小画像を、縮小画像の中央を回転中心として0度、45度(225度)、90度(270度)、135度(315度)のそれぞれの回転角度に回転させた4種類の画像をテンプレート91として用いる。
図20は、テンプレートマッチングによる位置検出の説明図である。ディスプレイ検出部A302は、4種類の回転方向のテンプレート91を順番に用いて4方向探索のテンプレートマッチングを行い、最も一致度が高くなったときのテンプレート91の中心座標を、カメラ映像301aにおけるディスプレイA63の位置として検出する。
なお、ディスプレイ検出部A302は、図17に示すパターン90に限らず、赤や青色等の単色のパターンをディスプレイA63に表示させ、表示させたパターンと同様な色の領域の面積が最も大きくなる領域の中心座標をディスプレイA63の位置として検出してもよい。
次に、回転処理部A303は、ディスプレイ検出部A302によりカメラ映像301aからディスプレイA63が検出されたか否かを判定する(ステップS322)。カメラ映像301aからディスプレイA63が検出されなかったと判定された場合(ステップS322:No)、回転処理部A303は、回転処理を行わず、ステップS300に処理を戻す。
一方、カメラ映像301aからディスプレイA63が検出されたと判定された場合(ステップS322:Yes)、回転処理部A303は、ディスプレイ検出部A302が検出したディスプレイA63の位置に応じて、カメラ映像301aの回転処理を行う。例えば、回転処理部A303は、ディスプレイ検出部A302が検出したディスプレイA63(表示部)の位置が垂直方向で上部且つ水平方向で中央となるようにカメラ映像301aを回転させる(ステップS324)。
図21は、本実施形態による回転処理の一例を説明する説明図である。図21(a)は回転処理前のカメラ映像301aを示しており、図21(b)は回転処理後のカメラ映像301bを示している。図21(a)において、ディスプレイA63の画面の中心座標93とカメラ映像301aの映像領域の中心座標92とを結ぶ直線を直線94とする。回転処理部A303は、直線94がカメラ映像301aの上辺95と直交するように、中心座標92を回転中心としてカメラ映像301aを回転させる。図21(b)に示すように、回転処理後のカメラ映像301bでは、直線94がカメラ映像301bの上辺95と直交するように回転された映像となる。即ち、図21(b)に示すカメラ映像301bは、ディスプレイA63の位置が垂直方向で上部且つ水平方向で中央となるように回転された映像である。
次に、顔検出部A304は、回転処理部A303が回転処理を行ったカメラ映像301bに対して顔検出処理を行い、顔が検出されたか否かを判定する(ステップS330)。
顔が検出されなかった場合(ステップS330:No)、顔検出部A304は、顔検出処理を終了して、ステップS350に処理を進める。一方、顔が検出された場合(ステップS330:Yes)、顔検出部A304は、検出した顔の領域の座標と、検出した際の顔の回転方向の角度を合成映像生成部A306に供給する。図22は、回転処理後のカメラ映像301bにおいて顔が検出された状態を示す図である。顔検出部A304は、出席者E80の顔領域96、出席者F81の顔領域97、出席者G82の顔領域98のそれぞれの領域を顔領域として検出する。この図に示す顔が検出された状態は、図5に示す顔が検出された状態と同様である。そのため、ステップS330より後の各処理は、第1の実施形態で説明した、図3のステップS130より後の各処理と基本的に同様の処理とすることができる。以下、ステップS330以降について詳細を省略して説明する。
合成映像生成部A306は、顔検出部A304が検出した顔領域の座標情報に基づいて、回転処理部A303が回転処理を行ったカメラ映像301bから顔の領域を切り出すとともに、検出した顔の回転方向の角度に基づいて、それぞれの顔の回転方向の角度が0度になるように、切り出した顔映像の回転処理を行う(ステップS340:図7参照)。また、合成映像生成部A306は、第二映像取得部A305が取得した資料映像に対し、映像のサイズを変換(縮小)する処理を行う(ステップS350:図9参照)。
次に、合成映像生成部A306は、サイズを変換した資料映像の映像領域の周囲に、切り出して回転処理を行った顔映像を、回転処理後のカメラ映像301bにおける顔の相対位置に応じて配置した合成映像を生成する(ステップS360:図12の合成映像101e参照)。
データ混合部A308は、合成映像生成部A306が生成した合成映像データと、音声取得部A307が取得した音声データとを混合し、混合した混合データをデータ送信部A309に供給する(ステップS370)。データ送信部A309は、データ混合部A308から供給された混合データを、送受信端末B400に送信する(ステップS380)。
一方、送受信端末B400は、送受信端末A300から送信された、混合データを受信する。例えば、送受信端末B400のデータ受信部B410は、送受信端末A300から送信された混合データを受信し、データ分離部B411に供給する(ステップS390)。データ分離部B411は、混合データを映像データと音声データとに分離する。そして、データ分離部B411は、分離した映像データを映像出力部B414に供給し、分離した音声データを音声出力部B412に供給する(ステップS400)。
映像出力部B414は、映像データに基づく映像をディスプレイB66に表示させる(ステップS410)。また、音声出力部B412は、音声データに基づく音声をスピーカーB67から出力させる(ステップS420)。
なお、本実施形態では、送受信端末A300と送受信端末B400とが同様の機能を持ち互いに映像を送受信することができる。そのため、上述した送受信端末A300がステップS300からステップS380の処理を行うのと平行して送受信端末B400も同様の処理を行い、送受信端末B400がステップS390からステップS420の処理を行うのと平行して送受信端末A300も同様の処理を行うことができる。
以上説明したように、本実施形態によるテレビ会議システム1aは、少なくとも一組以上の端末装置(例えば、送受信端末A300及び送受信端末400)がネットワーク3を介して映像を送受信する。
例えば、送受信端末A300が備えるカメラA60は、送受信端末A300を利用して会議に出席している出席者と、送受信端末400(他の端末装置)から取得した映像を表示可能なディスプレイA63(表示部)と、を含むカメラ映像301a(第一の映像)を撮影する。また、送受信端末A300は、ディスプレイ検出部A302(位置検出部)と、回転処理部A303と、顔検出部A304と、合成映像生成部A306(生成部)と、を備えている。
ディスプレイ検出部A302は、カメラA60により撮影されたカメラ映像301aからディスプレイA63の位置を検出する。回転処理部A303は、ディスプレイ検出部A302が検出したディスプレイA63の位置が垂直方向で上部且つ水平方向で中央となるようにカメラ映像301aを回転させる。顔検出部A304は、回転処理部A303が回転させたカメラ映像301bから顔を検出する。そして、合成映像生成部A306は、顔検出部A304が検出した顔の映像を、会議で使用する資料の資料映像(第二の映像)の映像領域の周囲に配置する際に、回転処理部A303が回転させたカメラ映像301bにおける当該顔の相対位置に応じて配置する。
このように、本実施形態によるテレビ会議システム1は、画角の広いカメラA60を天井上部方向に向けて設置し、ディスプレイA63の位置が垂直方向で上部且つ水平方向で中央となるようにカメラA60により撮影されたカメラ映像301aを回転させ、顔の相対位置関係を保持したまま顔映像を資料映像の周囲に表示させる。これにより、送受信端末A300と送受信端末B400とが向かい合った関係の映像を送受できるため、会議の出席者が相手側の出席者との位置関係を直観的に認識して対話することが可能となるとともに、会議の資料映像の視認性も確保できる。よって、本実施形態によれば、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することができる。
また、本実施形態では、送受信端末A300及び送受信端末B400が、ディスプレイA63の位置が垂直方向で上部且つ水平方向で中央となるようにカメラ映像301aを回転させるため、カメラA60を設置する際にカメラA60の向きを合わせる必要がなく、設置の際の手間を省くことができる。
なお、本実施形態では、送信側の機能と受信側の機能との両方を有する送受信端末A300及び送受信端末B400がネットワーク3を介して映像を送受信するテレビ会議システム1aについて説明したが、これに限られるものではなく、第1の実施形態で説明したような送信側の機能を有する端末装置と受信側の機能を有する端末装置とによるテレビ会議システム1aとしてもよい。例えば、送受信端末A300は、図13に示す送受信端末A300が備える構成のうちの送信側の機能を有する構成のみを備えてもよいし、受信側の機能を有する構成のみを備えてもよい。一方、送受信端末B400は、受信側の機能を有する構成のみを備えてもよいし、送信側の機能を有する構成のみを備えてもよい。
また、カメラA60に画角180度の魚眼カメラを用いた例を説明したが、カメラA60が設置された部屋で、ディスプレイA63と、会議に出席している出席者のほぼ全員とを映すための画角のカメラであれば、画角180度の魚眼カメラに限られるものではない。ここで、ほぼ全員と記述しているのは、出席者のいる場所によっては、画角180度の魚眼カメラを用いたとしても出席者の全員が映ることが保障されるものではないためである。例えば、カメラA60は、テーブル70に設置されているディスプレイA63と、テーブル70の周囲近傍にいる出席者の全員を映すことが可能な程度の画角を有するカメラであることが望ましい。また、複数のカメラを組み合わせて、パノラマ映像、全周囲映像を生成して映像を出力するカメラであってもよい。また、カメラB64もカメラA60と同様である。
また、マイクA61に無指向性のマイクを用いた例を説明したが、カメラA60の周囲で発せられた音声を入力することができれば、いずれのマイクを用いてもよい。また、マイクB65マイクA61と同様である。
<第3の実施形態>
次に、本発明の第3の実施形態について説明する。
本実施形態では、テレビ会議の出席者自身が顔検出されているか否かを容易に判断できるようにする形態を説明する。
図23は、本実施形態によるテレビ会議システム1bの概略構成の一例を示すブロック図である。この図に示すテレビ会議システム1bの構成は、図8に示すテレビ会議システム1aの送受信端末A300及び送受信端末B400に代えて、送受信端末A350及び送受信端末B450を備えている。送受信端末A350は、図8の送受信端末A300の構成に加えて、アイコン重畳部A313を備えている。また、送受信端末B450は、図8の送受信端末B400の構成に加えて、アイコン重畳部B413を備えている。
アイコン重畳部A313は、データ分離部A311が分離した映像データの映像に対して、顔検出部A304が検出した顔の位置にアイコンを重畳する。そして、映像出力部A314は、アイコン重畳部A313がアイコンを重畳した映像をディスプレイA63に表示させる。同様に、アイコン重畳部B413は、データ分離部B411が分離した映像データの映像に対して、顔検出部B404が検出した顔の位置にアイコンを重畳する。そして、映像出力部B414は、アイコン重畳部B413がアイコンを重畳した映像をディスプレイB66に表示させる。つまり、アイコン重畳部A313及びアイコン重畳部B413は、テレビ会議に出席している出席者が見ている映像に、その出席者自身が顔検出されている場合にはアイコンが表示されるようにする。
(テレビ会議システム1bの処理)
次に、図24から図26を参照して、本実施形態によるテレビ会議システム1bにおける処理を詳しく説明する。なお、本実施形態のテレビ会議システム1bの使用環境は、第2の実施形態で説明した図14に示す例と同様であるものとして説明する。
図24は、本実施形態によるテレビ会議システム1bにおける処理の流れを示すフローチャートである。図24に示す処理は、図15に示す処理に対して、ステップS405の処理が追加された点が異なる。なお、図24において、図15の各処理に対応する処理には同一の符号を付けており、その説明を省略し、ここでは、相違点であるステップS405の処理について説明する。
送受信端末B450のアイコン重畳部B413は、データ分離部B411が分離した映像データの映像に対して、送受信端末B450の顔検出部B404が検出した出席者H83の顔に対応するアイコンを重畳する(ステップS405)。このアイコンを重畳する処理について、以下に詳しく説明する。
図25は、送受信端末B450の第一映像取得部B401がカメラB64から取得したカメラ映像401aを示す図である。このカメラ映像401aは、データ分離部B411が分離した映像データの映像である。カメラ映像401aには、ディスプレイB66と、出席者H83とが撮影されており、顔検出部B404により出席者H83の顔領域600が検出されている。
なお、このカメラ映像401aでは、ディスプレイB66の位置が垂直方向で上部且つ水平方向で中央となっている。ディスプレイB66の位置が垂直方向で上部且つ水平方向で中央となっていない場合には、回転処理部B403が回転処理を行った後のカメラ映像401bを用いて顔検出部B404による顔検出処理が行われてもよい。
ここで、カメラ映像401a(401b)の中心座標602から出席者H83の顔領域600の中心座標601を通る直線605を、中心座標602を通るカメラ映像401a(401b)の上辺603に直交する直線604を基準に左右反転させた直線を直線606とする。この場合、カメラB64のレンズ中心を基準とした実際の出席者H83の顔の相対位置は、カメラ映像401a(401b)の中心座標602を基準とした直線606の線上の位置として表すことができる。
図26は、資料映像と顔映像とを合成した合成映像にアイコン99を重畳した映像を示す図である。アイコン重畳部B413は、資料映像101dと顔映像とを合成した合成映像(図10の合成映像101e参照)に対して、出席者H83の顔に対応するアイコン99を重畳する。この場合、アイコン重畳部B413は、図25に示すカメラ映像401a(401b)の中心座標602に代えて資料映像101dの映像領域の中心座標48を基準とし、中心座標48を基準としたときの直線606の線上、且つ資料映像101dの周囲(外側)に、出席者H83の顔に対応するアイコン99を重畳する。
ここで、アイコン重畳部B413が重畳するアイコン99は、送受信端末B450の合成映像生成部B406が切り出して回転させた顔映像をアイコンとしたものでもよいし、顔映像のアイコン以外に、絵柄、記号、印等のアイコンとしてもよい。また、出席者が予め作成して登録しておいたアイコンを用いるようにしてもよい。
以上説明したように、本実施形態によるテレビ会議システム1bおいて、送受信端末B450は、顔検出部B404と、データ受信部B410(受信部)と、アイコン重畳部B413(重畳部)と、を備えている。顔検出部B404は、カメラB64が撮影したカメラ映像401a(又は回転処理後のカメラ映像401b)から顔を検出する。データ受信部B410は、送受信端末A350(他の端末装置)の合成映像生成部A306(生成部)が生成した映像を受信する。そして、アイコン重畳部B413は、データ受信部B410が受信した映像に、顔検出部B404が検出した顔に応じてアイコン99(第一情報)を重畳する。
このように、本実施形態によるテレビ会議システム1bは、会議の出席者の顔が検出されているか否かを示すアイコン99を、出席者自身が見るディスプレイに表示するため、出席者が確認画面に表示を切り替えることなく、資料映像及び相手側の出席者の顔映像が表示されている限られた表示領域の中で、出席者自身の顔検出の状態を容易に確認することができる。
また、アイコン重畳部B413は、データ受信部B410が受信した映像に、顔検出部B404が検出した顔の位置に応じてアイコン99を重畳してもよい。これにより、テレビ会議システム1は、会議の出席者が複数人の場合であっても、各出席者が自身のアイコン99を区別することができるため、出席者自身の顔検出の状態を容易に確認することができる。
また、アイコン重畳部B413は、アイコン99に用いる映像および作成した映像のαチャンネルを設定し、アイコン99の透明度をデータ分離部B411が分離した映像データより、下げて重畳してもよい。
これにより、アイコン99が顔映像の合成位置と重なってしまった場合でも、顔映像の視認性低下を抑制することができる。
なお、本実施形態では、送受信端末A350と送受信端末B450とが同様の機能を持ち互いに映像を送受信することができる。そのため、上述した送受信端末B450のアイコン重畳部B413行う処理と同様の処理を、送受信端末A350のアイコン重畳部A113も行うことができる。
<第4の実施形態>
次に、本発明の第4の実施形態について説明する。
本実施形態では、テレビ会議において、相手側の出席者がディスプレイに表示されている資料を見ている否かを容易に判断できるようにする形態を説明する。
図27は、本実施形態によるテレビ会議システム1cの概略構成の一例を示すブロック図である。この図において、図23の各部に対応する構成には同一の符号を付け、その説明を省略する。
図27に示すテレビ会議システム1cの構成は、図23に示すテレビ会議システム1bの送受信端末A350及び送受信端末B450に代えて、送受信端末A360及び送受信端末B460を備えている。送受信端末A360は、図23の送受信端末A350の構成に対して、顔方向推定部A361を更に備えている点と、合成映像生成部A362が合成映像生成部A306の機能に加えて出席者の顔方向に応じた情報を合成する点とが異なる。同様に、送受信端末B460は、図23の送受信端末B450の構成に対して、顔方向推定部B461を更に備えている点と、合成映像生成部B462が合成映像生成部B406の機能に加えて出席者の顔方向に応じた情報を合成する点とが異なる。
顔方向推定部A361は、顔検出部A304が検出した顔領域の映像に基づいて、顔が向いている方向(顔方向)を推定する。例えば、顔方向推定部A361は、顔検出部A304が検出した顔領域から顔の特徴点である鼻や目、口の位置を抽出し、抽出した特徴点から求めた特徴量に基づいて、顔方向が顔正面から左右方向に何度の方向に向いているかの角度を推定する。
ここで特徴点とは、鼻の頂点、目の端点、口の端点等の座標のことを指し、特徴量とは、これらの座標を基に算出した距離や面積等を指す。例えば、顔方向推定部A361は、抽出した複数の特徴点から、特徴点間の距離、3つの特徴点で囲まれる面積、輝度分布等の特徴量を求める。そして、顔方向推定部A361は、予め複数人の顔を用いて取得しておいた、顔方向の角度に対応する特徴点から求めた特徴量が集約されたデータベースを参照することにより、顔方向の角度を推定する。
合成映像生成部A362は、顔検出部102が検出した顔の領域を第一映像取得部101が取得した映像から切り取り、切り取った顔映像と、第二映像取得部A305が取得した資料映像とを合成するとともに、合成した顔映像に対応する位置に、顔方向推定部A361が推定した当該顔の顔方向に応じたアイコンを重畳した合成映像を生成する。
なお、送受信端末B460の顔方向推定部B461及び合成映像生成部B462のそれぞれは、送受信端末A360の顔方向推定部A361及び合成映像生成部A362のそれぞれと同様の機能を有している。
(テレビ会議システム1cの処理)
次に、本実施形態によるテレビ会議システム1cにおける処理について詳しく説明する。なお、本実施形態のテレビ会議システム1cの使用環境は、第2の実施形態で説明した図14に示す例と同様であるものとして説明する。
本実施形態による処理の流れは、図15又は図24に示す処理において以下の処理を変更すればよい。例えば、図15又は図24のステップS340において、合成映像生成部A362がカメラ映像301bから顔の領域を切り出して回転を行うとともに、顔方向推定部A361が当該顔の顔方向を推定すればよい。また、図15又は図24のステップS360において、合成映像生成部A362が、顔映像と資料映像とを合成するとともに、顔方向に応じたアイコンを重畳した合成映像を生成すればよい。
例えば、合成映像生成部A362は、検出された顔からディスプレイA63への方向と、顔方向推定部A361が推定した当該顔の顔方向とが一致している場合、その旨を示すアイコンを当該顔映像に対応する位置に配置する。即ち、合成映像生成部A362は、検出された顔がディスプレイA63の方向を向いているか否かを示す情報としてのアイコンを重畳した映像を生成する。
以下、図28及び図29を参照して検出された顔からディスプレイA63への方向と、顔方向推定部A361が推定した当該顔の顔方向との関係をについて説明する。
図28は、カメラ映像301bにおける顔の相対位置及び顔方向を示す図である。この図において、回転処理部A303による回転処理後のカメラ映像301bから検出されたディスプレイA63の画面の中心座標を座標701とする。また、カメラ映像301bから検出された顔領域96、顔領域97、及び顔領域98のそれぞれの中心の座標を、座標702、座標703、及び座標704とする。そして、カメラ映像301bの映像領域の中心座標92から、座標701、座標702、座標703、及び座標704のそれぞれを通る直線を、直線705、直線706、直線707、及び直線708とする。
例えば、顔検出部A304により、出席者E80、出席者F81、出席者G82のそれぞれの顔が、中心座標92を回転中心とした回転方向の角度が270度、10度、80度の位置に検出されたとする。また、中心座標92を回転中心としたディスプレイA63の回転方向の角度は180度である。この場合、直線705、直線706、直線707、及び直線708のそれぞれの回転方向の角度は、180度、270度、10度、80度となる。なお、カメラ映像301bにおける回転方向の角度は、中心座標92からカメラ映像301bの下辺709に直交する直線上の位置を回転方向の角度を0度とし、反時計まわりに0度から359度まで検出されるものとする。
また、顔方向については、カメラ映像301bにおいて顔正面に向かって右向き(出席者自身からみて左向き)を正(+)の角度、左向き(出席者からみて右向き)を負(−)の角度で表す。例えば、顔方向推定部A361は、正負それぞれ60度までの角度範囲まで推定できるものとする。ここでは、顔方向推定部A361により、出席者E80、出席者F81、及び出席者G82のそれぞれの顔方向が、0度、30度、40度であると推定されたとする。
図29は、部屋501を天井側から見下ろしたときの状態を示す模式図である。この図には、図28に示すカメラ映像301bに撮影されている各位置関係を対応させて、同一の符号を用いて表している。なお、説明を容易にするため、カメラA60から、ディスプレイA63、出席者E80の顔、出席者F81の顔、及び出席者G82の顔のそれぞれまでの距離が等しいものとして説明する。
図29のカメラA60のレンズの中心座標92は、図28のカメラ映像301bの映像領域の中心座標92に対応する。この図29では、出席者E80、出席者F81、及び出席者G82のそれぞれの顔の回転方向の角度は、時計回りでそれぞれ270度、10度、80度となる位置になる。また、ディスプレイA63の回転方向の角度は、時計回りで180度となる位置になる。座標702、座標703、及び座標704のそれぞれは、出席者E80、出席者F81、及び出席者G82のそれぞれの顔中心に対応する。
出席者E80の顔中心の座標702と中心座標92とを結ぶ直線706は、ディスプレイA63の中心の座標701と中心座標92とを結ぶ直線705に直交する。また、ディスプレイA63の画面の中心座標701と出席者E80の顔中心の座標702とを結ぶ直線を直線711とすると、直線711と直線706とのなす角(鋭角側)は45度(出席者E80の顔方向としては負方向に45度)である。よって、出席者E80の顔方向が−45度の場合に、出席者E80の顔がディスプレイA63の方向を向いていることになる。ここで、顔方向推定部A361により、出席者E80の顔方向が0度であると推定されたため、出席者E80の顔がディスプレイA63の方向を向いていないと判断できる。
また、出席者F81の顔中心の座標703と中心座標92とを結ぶ直線707と、ディスプレイA63の中心の座標701と中心座標92とを結ぶ直線705と、のなす角(鋭角側)は170度である。また、ディスプレイA63の画面の中心座標701と出席者F81の顔中心の座標703とを結ぶ直線を直線712とすると、直線712と直線707とのなす角(鋭角側)は5度(出席者F81の顔方向として正方向に5度)である。よって、出席者F81の顔方向が5度の場合に、出席者F81の顔がディスプレイA63の方向を向いていることになる。ここで、顔方向推定部A361により、出席者F81の顔方向が30度であると推定されたため、出席者F81の顔がディスプレイA63の方向を向いていないと判断できる。
また、出席者G82の顔中心の座標704と中心座標92とを結ぶ直線708と、ディスプレイA63の中心の座標701と中心座標92とを結ぶ直線705とのなす角(鋭角側)は100度である。また、ディスプレイA63の画面の中心座標701と出席者G82の顔中心の座標704とを結ぶ直線を直線713とすると、直線713と直線708とのなす角(鋭角側)は40度(出席者G82の顔方向として正方向に40度)である。よって、出席者G82の顔方向が40度の場合に、出席者G82の顔がディスプレイA63の方向を向いていることになる。ここで、顔方向推定部A361により、出席者G82の顔方向が40度であると推定されたため、推定された顔方向と出席者G82の顔からディスプレイA63への方向とが一致し、出席者G82の顔がディスプレイA63の方向を向いていると判断できる。
例えば、合成映像生成部A362は、検出された顔からディスプレイA63への方向と、顔方向推定部A361が推定した当該顔の顔方向とが一致している出席者G82の顔映像に対応する位置に、顔方向がディスプレイA63の方向を向いていることを示すアイコンを重畳する。一方、合成映像生成部A362は、検出された顔からディスプレイA63への方向と、顔方向推定部A361が推定した当該顔の顔方向とが一致していない出席者E80及び出席者F81の顔映像に対応する位置には、顔方向がディスプレイA63の方向を向いていないことを示すアイコンを重畳する。
図30は、顔方向に応じたアイコンを配置した合成映像301dの一例を示す図である。図示する例では、アイコン800、アイコン801、アイコン802のそれぞれが、出席者E80、出席者F81、及び出席者G82のそれぞれの顔領域(横100×縦100画素)に対応する位置に重畳される。例えば、資料映像101dと、顔領域96、顔領域97、及び顔領域98のそれぞれとが接している辺上にそれぞれのアイコンが重畳される。
例えば、出席者の顔方向がディスプレイA63の方向と一致している場合と一致していない場合とで、色又は濃度の異なるアイコンが表示される。ここでは、出席者G82の顔方向がディスプレイA63の方向と一致しており、アイコン802は、一致していることを示すアイコン(例えば、黒丸)である。一方、アイコン800及びアイコン801は、出席者の顔方向がディスプレイA63の方向と一致していないことを示すアイコン(例えば、白丸)である。
なお、出席者の顔方向がディスプレイA63の方向と一致している場合と一致していない場合とで、アイコンの種類を変えてもよい。
また、出席者の顔方向に応じてアイコンの位置を変えてもよい。図30において、合成映像301dの映像領域の中心座標803は、図29のカメラA60のレンズの中心座標92に対応する。また、この中心座標803を基準としたときの直線705の180度側の直線上、且つ資料映像101dの周囲(外側)にある座標804を、図29のディスプレイA63の画面の中心座標701に対応する位置とする。
つまり、図30に示す例では、各出席者の顔領域からディスプレイA63の中心座標に相当する座標804への方向が、各出席者の顔に対するディスプレイA63の方向(顔方向0度)となる。そして、資料映像101dと各顔領域とが接している辺上において、各出席者の顔方向と各出席者の顔からディスプレイA63への方向との差分に応じた位置にそれぞれのアイコンが重畳される。
例えば、出席者G82の顔方向がディスプレイA63の方向と一致しているため、資料映像101dと出席者G82の顔領域98とが接する辺上において、顔領域98の中心と座標804とを結ぶ直線713に交わる位置に、アイコン802が重畳される。
一方、出席者E80の顔方向はディスプレイA63の方向と一致していない。そのため、アイコン800は、資料映像101dと出席者E80の顔領域96とが接する辺上において、顔領域96の中心と座標804とを結ぶ直線711に交わる位置に対して、顔方向に応じて離れた位置に重畳される。例えば、図示するように、アイコン800は、資料映像101dと顔領域96とが接する辺上において、直線711に交わる位置から出席者F80の顔の向いている側に離れた位置に重畳される。なお、直線711に交わる位置からアイコン800が重畳される位置までの距離は、例えば、顔方向とディスプレイA63の方向との差の大きさに応じて定まる。
同様に、出席者F81の顔方向はディスプレイA63の方向と一致していない。そのため、アイコン801は、資料映像101dと出席者F81の顔領域97とが接する辺上において、顔領域97の中心と座標804とを結ぶ直線712に交わる位置に対して、顔方向に応じて離れた位置に重畳される。
以上説明したように、本実施形態によるテレビ会議システム1cにおいて、例えば、送受信端末A360が備えるカメラA60は、送受信端末A360を利用して会議に出席している出席者と、送受信端末B460(他の端末装置)から取得した映像を表示可能なディスプレイA63(表示部)と、を含むカメラ映像301a(第一の映像)を撮影する。
送受信端末A360は、ディスプレイ検出部A302(位置検出部)と、顔検出部A304と、顔方向推定部A361と、合成映像生成部A362(生成部)と、を備えている。ディスプレイ検出部A302は、カメラA60により撮影されたカメラ映像301aからディスプレイA63の位置を検出する。顔検出部A304は、カメラA60により撮影されたカメラ映像301a(又は、回転処理部A303が回転させたカメラ映像301bでもよい)から顔を検出する。顔方向推定部A361は、顔検出部A304が検出した顔に基づいて、当該顔の顔方向を推定する。そして、合成映像生成部A362は、顔検出部A304が検出した顔の位置からディスプレイ検出部A302が検出したディスプレイA63の位置への方向と、顔方向推定部A361が推定した顔方向との関係に応じて、顔検出部A304が検出した顔の映像に対応する位置にアイコン(第二情報)を重畳した映像を生成する。
このように、本実施形態によるテレビ会議システム1cは、例えば、送受信端末A360を利用して会議に出席している出席者E80、出席者F81、及び出席者G82がディスプレイA63の方向を向いているか否かを示すアイコンを、送受信端末B460を利用して会議に出席している出席者H83が見るディスプレイB66に表示させる。これにより、送受信端末B460のディスプレイB66を見ている出席者H83は、相手側の出席者E80、出席者F81、及び出席者G82が資料を見ているか否かがわかるため、より相手側の出席者の状況を知ることができる。また、出席者H83が資料を使用して説明している際に、相手側の出席者E80、出席者F81、及び出席者G82から注目されているか否かを知ることができる。よって、本実施形態によれば、相手側の出席者の状況を詳しく把握することができる。
なお、上記説明では、各出席者の顔方向がディスプレイA63の方向と一致している場合と一致していない場合とで、アイコンの色又は種類を変えてもよいことを説明したが、完全一致の場合に限られるものではなく、一定範囲内(例えば、−10度〜10度の範囲)であれば一致していると判定されてもよい。また、合成映像生成部A362は、顔方向がディスプレイA63の方向と一致している場合のみ、アイコンを描画するようにしてもよい。
以上、この発明の第1から第4の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態によって限定的に解釈されるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれ種々の変更が可能である。例えば、上述の第1から第4の実施形態において説明した各機能は、任意に組み合わせることができる。また、上記実施形態の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する形態も本発明に含まれるものである。
なお、上述した実施形態における送信端末100、受信端末200、送受信端末A300(A350、A360)、又は送受信端末B400(450、460)の一部または全部の機能をコンピュータで実現するようにしてもよい。その場合、上述の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって上述の機能を実現してもよい。なお、ここでいう「コンピュータシステム」とは、送信端末100、受信端末200、送受信端末A300(A350、A360)、又は送受信端末B400(450、460)に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における送信端末100、受信端末200、送受信端末A300(A350、A360)、又は送受信端末B400(450、460)の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。送信端末100、受信端末200、送受信端末A300(A350、A360)、又は送受信端末B400(450、460)の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
本発明の一態様は、会議の資料映像の視認性を保ちつつ、相手側の出席者の状況を把握することが必要なテレビ会議システムなどに適用することができる。
1、1a、1b、1c テレビ会議システム、3、ネットワーク、4 情報端末、4a データ記憶部、4b 端末ディスプレイ、5 ディスプレイ、12 カメラ、13 マイク、14 スピーカー、60 カメラA、61 マイクA、62 スピーカーA、63ディスプレイA、64 カメラB、65 マイクB、66 ディスプレイB、67 スピーカーB、68 情報端末A、68a データ記憶部A、100 送信端末、101 第一映像取得部、102 顔検出部、103 第二映像取得部、104 合成映像生成部(生成部)、105 音声取得部、106 データ混合部、107 データ送信部、200受信端末、208 データ受信部、209 データ分離部、210 音声出力部、211 映像出力部、300、350、360 送受信端末A、301 第一映像取得部A、302 ディスプレイ検出部A(位置検出部)、303 回転処理部A、304 顔検出部A、305 第二映像取得部A、306、362 合成映像生成部A(生成部)、307 音声取得部A、308 データ混合部A、309 データ送信部A、310 データ受信部A、311 データ分離部A、312 音声出力部A、313 アイコン重畳部A、314 映像出力部A、361 顔方向推定部A、400、450、460 送受信端末B、401 第一映像取得部B、402 ディスプレイ検出部B(位置検出部)、403 回転処理部B、404 顔検出部B、405 第二映像取得部B、406、462 合成映像生成部B(生成部)、407 音声取得部B、408 データ混合部B、409 データ送信部B、410 データ受信部B、411 データ分離部B、412 音声出力部B、413 アイコン重畳部B、414映像出力部B、461 顔方向推定部B

Claims (5)

  1. 少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、
    前記端末装置は、
    カメラにより撮影された映像である第一の映像から顔を検出する顔検出部と、
    前記第一の画像から映像を表示可能な表示部の位置を検出する位置検出部と、
    会議で使用する資料の映像である第二の映像の映像領域の周囲に、
    前記顔検出部が検出した顔の映像を、前記顔検出部で検出した前記顔の相対位置、および、前記位置検出部で検出した前記表示部の位置に応じて配置した映像を生成する生成部と、
    を備えるテレビ会議システム。
  2. 少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、
    前記端末装置は、
    カメラにより撮影された映像であって、前記端末装置を利用して会議に出席している出席者と、映像を表示可能な表示部と、を含む第一の映像から顔を検出する顔検出部と、
    前記会議で使用する資料の映像である第二の映像の映像領域の周囲に、前記顔検出部が検出した顔の映像を前記第一の映像における当該顔の相対位置に応じて配置した映像を生成する生成部と、
    前記カメラにより撮影された前記第一の映像から前記表示部の位置を検出する位置検出部と、
    前記位置検出部が検出した前記表示部の位置が垂直方向で上部且つ水平方向で中央となるように前記第一の映像を回転させる回転処理部と、
    を備え、
    前記生成部は、
    前記顔検出部が検出した顔の映像を、前記回転処理部が回転させた前記第一の映像における当該顔の相対位置に応じて配置する、
    テレビ会議システム。
  3. 前記端末装置は、
    他の端末装置の前記生成部が生成した映像を受信する受信部と、
    前記受信部が受信した映像に、前記顔検出部が検出した顔に応じて第一情報を重畳する重畳部と、
    を備える請求項2に記載のテレビ会議システム。
  4. 前記重畳部は、
    重畳する第一情報の透明度を、前記受信部が受信した映像より下げて重畳する
    請求項3に記載のテレビ会議システム。
  5. 少なくとも一組以上の端末装置がネットワークを介して映像を送受信するテレビ会議システムであって、
    前記端末装置は、
    カメラにより撮影された映像であって、前記端末装置を利用して会議に出席している出席者と、映像を表示可能な表示部と、を含む第一の映像から顔を検出する顔検出部と、
    会議で使用する資料の映像である第二の映像の映像領域の周囲に、前記顔検出部が検出した顔の映像を前記第一の映像における当該顔の相対位置に応じて配置した映像を生成する生成部と、
    前記カメラにより撮影された前記第一の映像から前記表示部の位置を検出する位置検出部と、
    前記顔検出部が検出した顔に基づいて、当該顔の顔方向を推定する顔方向推定部と、
    を備え、
    前記生成部は、
    前記顔検出部が検出した顔の位置から前記位置検出部が検出した前記表示部の位置への方向と、前記顔方向推定部が推定した前記顔方向との関係に応じて、前記顔検出部が検出した顔の映像に対応する位置に第二情報を重畳した映像を生成する、
    を備えるテレビ会議システム。
JP2016523436A 2014-05-29 2015-05-19 テレビ会議システム Active JP6312345B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014111419 2014-05-29
JP2014111419 2014-05-29
PCT/JP2015/064321 WO2015182440A1 (ja) 2014-05-29 2015-05-19 テレビ会議システム

Publications (2)

Publication Number Publication Date
JPWO2015182440A1 JPWO2015182440A1 (ja) 2017-04-20
JP6312345B2 true JP6312345B2 (ja) 2018-04-18

Family

ID=54698777

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016523436A Active JP6312345B2 (ja) 2014-05-29 2015-05-19 テレビ会議システム

Country Status (3)

Country Link
US (1) US9967518B2 (ja)
JP (1) JP6312345B2 (ja)
WO (1) WO2015182440A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD823312S1 (en) * 2014-08-11 2018-07-17 Sony Corporation Display panel or screen with graphical user interface
CA2931630A1 (en) * 2016-05-30 2017-11-30 Peyman Askari Facilitating monitoring of users
GB2551323B (en) * 2016-06-08 2021-02-10 Companion Ltd System providing a shared environment
CN106780658B (zh) * 2016-11-16 2021-03-09 北京旷视科技有限公司 人脸特征添加方法、装置及设备
CN106780662B (zh) 2016-11-16 2020-09-18 北京旷视科技有限公司 人脸图像生成方法、装置及设备
US10438089B2 (en) * 2017-01-11 2019-10-08 Hendricks Corp. Pte. Ltd. Logo detection video analytics
JP2019180027A (ja) * 2018-03-30 2019-10-17 株式会社リコー 通信端末、画像通信システム、表示方法、及びプログラム
CN112219393A (zh) * 2018-06-07 2021-01-12 麦克赛尔株式会社 便携信息终端
JP7286838B2 (ja) * 2018-06-07 2023-06-05 マクセル株式会社 携帯情報端末
JP7225631B2 (ja) * 2018-09-21 2023-02-21 ヤマハ株式会社 画像処理装置、カメラ装置、および画像処理方法
US10491857B1 (en) * 2018-11-07 2019-11-26 Nanning Fugui Precision Industrial Co., Ltd. Asymmetric video conferencing system and method
WO2020110811A1 (ja) * 2018-11-27 2020-06-04 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
JP7080164B2 (ja) * 2018-12-17 2022-06-03 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置および画像生成方法
KR20220074092A (ko) * 2020-11-27 2022-06-03 삼성전자주식회사 화상 회의를 제공하는 전자 장치 및 그 방법
US11443560B1 (en) * 2021-06-09 2022-09-13 Zoom Video Communications, Inc. View layout configuration for increasing eye contact in video communications
CN113784084B (zh) * 2021-09-27 2023-05-23 联想(北京)有限公司 一种处理方法及装置
TWI814270B (zh) * 2022-03-08 2023-09-01 巧連科技股份有限公司 辨位聽聲會議視訊裝置及其方法
US11947871B1 (en) 2023-04-13 2024-04-02 International Business Machines Corporation Spatially aware virtual meetings

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08256316A (ja) * 1995-03-17 1996-10-01 Toshiba Corp 通信会議システム
JP4625404B2 (ja) * 2005-11-28 2011-02-02 パナソニック株式会社 映像切替装置および切替対象切替装置
JP5217877B2 (ja) * 2008-10-08 2013-06-19 ヤマハ株式会社 会議支援装置
JP5369947B2 (ja) * 2009-07-09 2013-12-18 ソニー株式会社 撮像装置、画像処理方法及びプログラム
JP2011066745A (ja) * 2009-09-18 2011-03-31 Brother Industries Ltd 端末装置、通信方法および通信システム
EP2562581A4 (en) * 2010-04-21 2014-11-12 Panasonic Ip Corp America 3D VIDEO DISPLAY AND 3D VIDEO DISPLAY
JP2012085009A (ja) * 2010-10-07 2012-04-26 Sony Corp 情報処理装置および情報処理方法
JP2012142727A (ja) * 2010-12-28 2012-07-26 Brother Ind Ltd 会議システム、会議用端末、および遠隔側端末
US9160965B2 (en) * 2011-08-01 2015-10-13 Thomson Licensing Telepresence communications system and method
JP2013115527A (ja) * 2011-11-28 2013-06-10 Hitachi Consumer Electronics Co Ltd テレビ会議システム及びテレビ会議方法
US9894476B2 (en) * 2013-10-02 2018-02-13 Federico Fraccaroli Method, system and apparatus for location-based machine-assisted interactions

Also Published As

Publication number Publication date
WO2015182440A1 (ja) 2015-12-03
JPWO2015182440A1 (ja) 2017-04-20
US9967518B2 (en) 2018-05-08
US20170187987A1 (en) 2017-06-29

Similar Documents

Publication Publication Date Title
JP6312345B2 (ja) テレビ会議システム
US9860486B2 (en) Communication apparatus, communication method, and communication system
US10771694B1 (en) Conference terminal and conference system
US11115626B2 (en) Apparatus for video communication
JP6551155B2 (ja) 通信システム、通信装置、通信方法およびプログラム
US20220070371A1 (en) Merging webcam signals from multiple cameras
US20190391778A1 (en) Apparatus, system, and method for controlling display, and recording medium
JP2017059902A (ja) 情報処理装置、プログラム、画像処理システム
JP2008545331A (ja) カメラ用の正規化画像
EP2775704B1 (en) A conference call terminal and method for operating user interface thereof
WO2015070558A1 (zh) 一种控制视频拍摄的方法和装置
US9007531B2 (en) Methods and apparatus for expanding a field of view in a video communication session
US10979666B2 (en) Asymmetric video conferencing system and method
EP3465631B1 (en) Capturing and rendering information involving a virtual environment
CN114520888A (zh) 影像撷取系统
TWI616102B (zh) 視訊影像生成系統及其視訊影像生成之方法
CN102202206B (zh) 通信设备
JP2011097447A (ja) コミュニケーションシステム
WO2022262134A1 (zh) 图像显示方法、装置、设备及存储介质
JP6435701B2 (ja) 制御装置
US20220400244A1 (en) Multi-camera automatic framing
JP5171772B2 (ja) テレビインターホン装置
TWI755938B (zh) 影像擷取系統
US11606508B1 (en) Enhanced representations based on sensor data
JP2010283550A (ja) コミュニケーションシステム、コミュニケーション装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180319

R150 Certificate of patent or registration of utility model

Ref document number: 6312345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150