JP2013115527A - Video conference system and video conference method - Google Patents
Video conference system and video conference method Download PDFInfo
- Publication number
- JP2013115527A JP2013115527A JP2011258427A JP2011258427A JP2013115527A JP 2013115527 A JP2013115527 A JP 2013115527A JP 2011258427 A JP2011258427 A JP 2011258427A JP 2011258427 A JP2011258427 A JP 2011258427A JP 2013115527 A JP2013115527 A JP 2013115527A
- Authority
- JP
- Japan
- Prior art keywords
- video
- information
- face
- receiving
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
複数の情報端末からなるテレビ会議システムに関わり、特に映像、音声、データを他の情報端末に送信し、前記情報を受信し再生する情報端末に関する。 The present invention relates to a video conference system including a plurality of information terminals, and more particularly to an information terminal that transmits video, audio, and data to other information terminals, and receives and reproduces the information.
近年、高速インターネットの普及により、テレビやカメラと接続して双方向通信を行うテレビ会議機能を利用するユーザがますます増えている。特に、テレビ会議システムで、双方で資料を共有し、資料映像と相手カメラの映像を同時に見たいというニーズが非常に高くなってきている。 In recent years, with the widespread use of the high-speed Internet, more and more users use a video conference function that performs two-way communication by connecting to a TV or a camera. In particular, in a video conference system, there is an increasing need to share materials between both parties and view the material image and the image of the other camera at the same time.
資料映像と相手カメラの映像を同時に見るシステムの実現においては、たとえば画面をいくつかに分解し、一つの画面では資料映像、他方の画面では相手カメラの映像を表示するといった方法で上記システムを実現しているが、この場合、資料の表示サイズが小さくなるために字が読みづらくなるという問題がある。 In the realization of a system for simultaneously viewing the document video and the video of the other camera, for example, the above system is realized by dividing the screen into several parts and displaying the material video on one screen and the other camera's video on the other screen. However, in this case, there is a problem that it is difficult to read the characters because the display size of the material is small.
この問題を解決するための方法として、特許文献1のような技術を用いることにより、相手カメラで撮影した相手の顔の領域をピクチャーインピクチャー機能で小さく表示して、その代わり資料の表示サイズを大きくすることができる。しかし、この方法では、複数の人数が同時に会議に参加する場面などでは、資料が見づらくなるという問題がある。
As a method for solving this problem, by using a technique such as
テレビ会議システムにおいて、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現する。 In a video conferencing system, a mechanism is realized in which the face of a person who has made a sound is cut out from the camera video and superimposed on the document video.
上記目的を解決するために、例えば特許請求の範囲に記載の構成を採用する。 In order to solve the above-described object, for example, the configuration described in the claims is adopted.
音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現することが可能となる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。 It is possible to realize a mechanism in which the face of a person who has made a sound is cut out from the camera video and superimposed on the document video. Problems, configurations, and effects other than those described above will be clarified by the following description of embodiments.
上記課題は、以下の手段により解決される。 The above problem is solved by the following means.
本願にかかるテレビ会議システムは、例えば映像情報、音声情報、背景情報を入力し送信する送信端末と、これら情報を受信し再生する受信端末とから構成される。 The video conference system according to the present application includes, for example, a transmission terminal that inputs and transmits video information, audio information, and background information, and a reception terminal that receives and reproduces the information.
送信端末は、映像情報をカメラから入力する第一映像入力手段と、データを入力し背景情報として取得する第二映像入力手段と、音声情報を入力する音声入力手段と、第一映像入力手段で入力した映像から顔を認識する顔認識手段と、顔の映像を切り出すための情報である切出情報を生成する切出情報生成手段と、どの方向から音声が来たかを検知し指向情報を生成する指向情報生成手段と、指向情報、切取情報、音声情報、背景情報、映像情報を多重化するMUX手段と、通信を行う通信手段とから構成される。 The transmission terminal includes first video input means for inputting video information from the camera, second video input means for inputting data and acquiring it as background information, audio input means for inputting audio information, and first video input means. Face recognition means for recognizing a face from the input video, cutout information generation means for generating cutout information that is information for cutting out the face video, and generating direction information by detecting from which direction the voice comes Directing information generating means, MUX means for multiplexing the directivity information, clipping information, audio information, background information, and video information, and communication means for performing communication.
また、受信端末は、情報を受信する通信手段と、情報を分離するDEMUX手段と、切出情報を取得する切出情報取得手段と、指向情報を取得する指向情報取得手段と、背景情報を取得する第二映像取得手段と、切出情報をもとに顔を選択する映像選択手段と、切出情報と映像情報とから顔映像を切り出す映像切取手段と、顔映像と背景情報を重ね合わせる映像重畳手段と、これら情報を表示する表示手段と、音声を出力する音声出力手段とから構成される。 The receiving terminal also acquires communication means for receiving information, DEMUX means for separating information, cutout information acquisition means for acquiring cutout information, directivity information acquisition means for acquiring directivity information, and background information. Second video acquisition means, video selection means for selecting a face based on the cut-out information, video cut-out means for cutting out the face video from the cut-out information and the video information, and a video that superimposes the face video and the background information It comprises superimposing means, display means for displaying such information, and sound output means for outputting sound.
なお、受信端末は、送信端末の各手段を保有して送信端末の機能を具有してもよい。同様に送信端末は、受信端末の各手段と保有して受信端末の機能を具有してもよい。 The receiving terminal may have each function of the transmitting terminal and have the function of the transmitting terminal. Similarly, the transmitting terminal may have the functions of the receiving terminal owned by each means of the receiving terminal.
上記の目的は、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みは、以下のような処理手段の働きにより実現される。 The above-described object is achieved by the following processing means that cuts out the face of a person who has produced a sound from the camera video and superimposes it on the material video for display.
送信端末においては、第一映像入力手段によりカメラから映像情報を入力し、第二映像入力手段により、背景情報を入力する。音声入力手段によりマイクから音声情報を入力する。顔認識手段により映像情報から顔が映像情報のどの位置にあるかを認識し、切出情報生成手段により、顔が映像情報のどの位置にあるかを示す切出情報を生成する。指向情報生成手段により、音声入力手段により入力した音声情報を解析してどの方向から音声が到達したかを把握し、音声の到達方向を表す指向情報を生成する。MUX手段により、映像情報、音声情報、背景情報、切出情報、指向情報を多重化しストリームを生成し、通信手段によりストリームを通信回線を経由して受信端末に送信する。 In the transmission terminal, video information is input from the camera by the first video input means, and background information is input by the second video input means. Voice information is input from a microphone by voice input means. The face recognition means recognizes the position of the face in the video information from the video information, and the cut-out information generation means generates cut-out information indicating the position of the face in the video information. The directivity information generation means analyzes the voice information input by the voice input means to grasp from which direction the voice has arrived, and generates directivity information representing the voice arrival direction. The MUX means multiplexes the video information, audio information, background information, cutout information, and directivity information to generate a stream, and the communication means transmits the stream to the receiving terminal via the communication line.
受信端末においては、通信手段により前記ストリームを受信し、DEMUX手段により前記ストリームを分解する。第二映像取得手段により背景情報を取得し、切出情報取得手段により切出情報を取得し、指向情報取得手段により指向情報を取得する。映像選択手段により指向情報を解析して音声の到達方向に位置する顔の映像を選択し、映像切取手段により映像情報から顔の映像を切り取る。映像重畳手段により、背景情報と前記顔の映像とを重ね合わせて映像化し、表示手段により前記映像を表示し、音声出力手段により音声を出力する。 In the receiving terminal, the stream is received by the communication means, and the stream is decomposed by the DEMUX means. Background information is acquired by the second video acquisition means, cut-out information is acquired by the cut-out information acquisition means, and directivity information is acquired by the directivity information acquisition means. The video selection means analyzes the directivity information to select a face video located in the direction of voice arrival, and the video clipping means cuts out the face video from the video information. The video superimposing means superimposes the background information and the face video into a video, displays the video by the display means, and outputs the sound by the audio output means.
このような処理手段の働きにより、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みが実現される。 By such a function of the processing means, a mechanism is realized in which the face of the person who made the sound is cut out from the camera image and superimposed on the document image for display.
また、上記の目的は、下記のような手段の働きによっても実現可能である。 The above object can also be realized by the following means.
送信端末においては、第一映像入力手段によりカメラから映像情報を入力し、第二映像入力手段により、背景情報を入力する。音声入力手段によりマイクから音声情報を入力する。MUX手段により、映像情報、音声情報、背景情報を多重化しストリームを生成し、通信手段によりストリームを通信回線を経由して受信端末に送信する。 In the transmission terminal, video information is input from the camera by the first video input means, and background information is input by the second video input means. Voice information is input from a microphone by voice input means. The video information, audio information, and background information are multiplexed by the MUX means to generate a stream, and the stream is transmitted to the receiving terminal via the communication line by the communication means.
受信端末において、通信手段により前記ストリームを受信し、DEMUX手段により前記ストリームを分解する。第二映像取得手段により背景情報を取得する。顔認識手段により映像情報から顔に前記当する部分を認識し、切出情報生成手段により顔に前記当する部分を示す切出情報を生成する。音声取得手段により、音声情報を取得し、指向情報生成手段により、音声がどの方向から到達したかを認識して指向情報を生成する。 In the receiving terminal, the stream is received by the communication means, and the stream is decomposed by the DEMUX means. The background information is acquired by the second video acquisition means. The face recognition unit recognizes the portion corresponding to the face from the video information, and the cutout information generation unit generates cutout information indicating the portion corresponding to the face. Voice information is acquired by the voice acquisition means, and the direction information generation means recognizes from which direction the voice has arrived and generates the direction information.
映像選択手段により指向情報を解析して音声の到達方向に位置する顔の映像を選択し、映像切取手段により映像情報から顔の映像を切り取る。映像重畳手段により、背景情報と前記顔の映像とを重ね合わせて映像化し、表示手段により前記映像を表示し、音声出力手段により音声を出力する。 The video selection means analyzes the directivity information to select a face video located in the direction of voice arrival, and the video clipping means cuts out the face video from the video information. The video superimposing means superimposes the background information and the face video into a video, displays the video by the display means, and outputs the sound by the audio output means.
このような手段の働きにより、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みが実現される。 With the function of such means, a mechanism is realized in which the face of the person who made the sound is cut out from the camera image and superimposed on the document image for display.
以下、本発明の実施例を図面を用いて説明する。 Embodiments of the present invention will be described below with reference to the drawings.
以下、実施例1について図1を用いて説明する。 Hereinafter, Example 1 will be described with reference to FIG.
図1は、本発明の実施例であるシステムの構成を示すブロック図の1例である。本システムは、送信端末1、受信端末2、インターネット3、背景情報423を生成する情報装置4、映像情報424を表示する表示装置5、音声情報422を取得するマイク装置8、音声情報422を出力するスピーカ装置10とから構成される。人物6及び人物9は送信端末1を操作し、送信端末1のカメラで撮像される対象となる人物であり、人物7は受信端末2を操作する人物である。
FIG. 1 is an example of a block diagram showing a configuration of a system according to an embodiment of the present invention. This system outputs a
本テレビ会議システムは、一組の送信端末1、受信端末2から構成される。送信端末1及び受信端末2はインターネット3を介して互いに通信する端末装置であり、例えば、セットトップボックスやパソコンのような固定式の情報端末や、PDAやスマートフォンのような移動体通信端末、あるいはテレビ会議専用の通信装置である。この送信端末1及び受信端末2には通信装置が搭載され、CPUで作動するプログラムにより互いに通信することが可能である。情報装置4は、例えばパソコンのような固定式のコンピュータやカメラなど、映像を生成する装置であればどのような情報装置であってもよい。また、表示装置5は、例えばテレビのような表示装置やプロジェクタなどの映像投射装置であり、映像情報を表示する情報装置であればどのようなものであってもよい。
This video conference system is composed of a pair of a
送信端末1及び受信端末2の構成の一例を図1に示すブロック図で説明する。送信端末1及び受信端末2は、図1の各ブロックに対応する各処理手段をハードウェアとして実装していても良いし、ソフトウェアとして実装していても良い。
ハードウェアとして各処理手段を実装する場合、実装されるハードウェアは複数の処理手段が行う処理を一つのハードウェアが行っても良いし、逆に一つの処理手段が行う処理を複数のハードウェアが行っても良い。
また、ソフトウェアとして各処理手段を実装する場合、送信端末1及び受信手段2は、CPU及び記憶装置及びメモリ等を実装しており、CPUは記憶装置に記憶されたプログラムをメモリに展開して実行することで各処理手段が行う処理を行うことができる。ここで、上記のソフトウェアは、複数の処理手段が行う処理を一つのソフトウェアが行っても良いし、逆に一つの処理手段が行う処理を複数のソフトウェアが行っても良い。
An example of the configuration of the
When each processing means is implemented as hardware, the hardware to be implemented may be processed by a plurality of processing means by one hardware, or conversely, the processing performed by one processing means may be performed by a plurality of hardware. May go.
Further, when each processing means is implemented as software, the
以下の説明では説明の簡易化のため、送信端末1及び受信端末2がそれぞれ備えるCPUがテレビ会議プログラムを実行しており、テレビ会議プログラムを実行することで図1に示すブロック図に対応する処理手段に相当する機能を発言できるものとして説明を行う。また、以下の説明ではCPUがテレビ会議プログラムを実行することで発現される各機能を、図1のブロック図に示される各処理手段が実行しているものとして説明を行う。
In the following description, for simplification of explanation, the CPU provided in each of the
送信端末1は、カメラ装置など映像を出力する機器に接続して映像情報421を入力する第一映像入力手段100と、情報装置4から背景情報423を取得する第二映像入力手段103と、マイク装置から音声情報422を取得する音声入力手段106と、前記第一映像入力手段100で入力した映像情報421から人物6あるいは人物9の顔を認識する顔認識手段101と、顔認識手段101により認識された顔の位置の情報を切出情報424に変換する切出情報生成手段102と、音声入力手段106で入力した音声情報422から音声の到達方向を認識し、指向情報425に変換する指向情報生成手段107と、前記映像情報421、背景情報423、音声情報422、指向情報425及び切出情報424を多重化しストリーム400に変換するMUX手段104と、前記ストリーム400をインターネット3を介して受信端末2に送信する通信手段105とから構成される。
The
受信端末2は、インターネット3を介してストリーム400を受信する通信手段200と、ストリーム400を分解するDEMUX手段201と、DEMUX手段201から切出情報424を取得する切出情報取得手段202と、DEMUX手段201から背景情報423を取得する第二映像取得手段203と、DEMUX手段201から指向情報425を取得する指向情報取得手段207と、指向情報425から人物6あるいは人物9の顔を選択する映像選択手段208と、切出情報424及び映像情報421とから映像選択手段208により選択された顔の映像を切り出す映像切取手段204と、顔の映像と背景情報423とを重ね合わせて出力映像とする映像重畳手段205と、出力映像を表示装置5に表示する表示手段206と、音声を出力する音声出力手段213とから構成される。
The receiving terminal 2 includes a
次に、送信端末1及び受信端末2で使用されるストリーム400、送信情報410について図2を用いて説明する。
Next, the
ストリーム400は、1つあるいは複数の送信情報410とから構成される。送信端末1は、送信情報410を時系列的に列挙したストリーム400を受信端末2に送信することにより、映像や音声などの情報を受信端末2に伝えることができる。
The
送信情報410は、映像情報421、音声情報422、背景情報423、切出情報424及び指向情報425のうち1つ以上の情報が格納された情報であり、どれか1つの情報だけを格納していてもよいし、複数の種類が同時に送信情報410に多重化されていてもよい。
The
映像情報421は、カメラ装置など映像を出力する情報装置から出力されるデータであり、カメラで撮影した人物6あるいは人物9の顔の映像を含有するデータである。映像情報421は時刻情報510を含み、受信装置2において、時刻情報510で整列して出力することにより動画の情報として表示装置5に表示することが出来る情報である。
The
音声情報422は、マイク装置8が出力するデータであり、カメラで撮影した人物6および人物9の発した音声の情報である。また、音声情報422は、音声がどの方向から到達したかを示す指向性の情報も持っており、たとえばステレオ音声などである。また、音声情報422は時刻情報510を含み、時刻情報510で整列してスピーカ装置10で出力することが出来る情報である。
The audio information 422 is data output from the microphone device 8 and is information on the sound produced by the person 6 and the person 9 photographed by the camera. The audio information 422 also has directivity information indicating from which direction the audio has reached, such as stereo audio. Also, the audio information 422 includes time information 510 and is information that can be output by the
背景情報423は、パソコンなどの情報装置の出力する映像であり、動画像あるいは静止画であってもよい。背景情報423は時刻情報510を含み、時刻情報510で整列して出力することが出来る情報である。
The
次に、送信情報410に含まれる切出情報424及び指向情報425について図3を用いて説明する。切出情報424は、映像情報421に含まれるユーザの顔が映像情報421のどの座標にあるかを示す情報である。また、指向情報425は、マイク8が検出した音声がどの方向から発せられたのかを示す情報である。
Next, the
切出情報424は、時刻情報510、映像識別情報511、原点情報513、サイズ514及び方位情報515とから構成される。
The cut-out
時刻情報510は、情報をいつ出力するかを決定する時刻の情報であり、たとえば、GMTやJSTなどの絶対時刻であったり、ある周波数における1周期を1カウントとする経過時間情報である。この時刻情報510を用いることで、送信情報410に含まれる映像情報421、音声情報422、背景情報423、切出情報424及び指向情報425を決まった時刻に同時に受信端末2から出力することが可能である。
The time information 510 is time information for determining when to output information, and is, for example, absolute time such as GMT or JST, or elapsed time information in which one period at a certain frequency is one count. By using this time information 510, the
映像識別情報511は、映像情報421毎に固有に割り振られた識別子であり、映像情報421を特定する情報である。
The video identification information 511 is an identifier uniquely assigned to each
原点情報513は、映像識別情報511で識別される映像情報421に対し、どの座標位置から切り出すかを決定する原点を表す情報であり、X軸方向及びY軸方向の座標位置を含む情報である。
The origin information 513 is information representing an origin for determining which coordinate position to cut out from the
サイズ514は、原点情報513からX軸方向及びY軸方向にどれくらいの範囲が切り出す情報であるかを示す範囲情報であり、たとえば縦と横のドットサイズで表す。
The
方位情報515は、前記切出情報424の示す顔映像が、3次元空間においてどの方角から到達したかを表す情報であり、たとえば北を0として時計回りに360度回転したときの角度であったり、東西南北などの方位情報であってもよい。
The
指向情報425は、時刻情報521及び方位情報523とから構成される。
The directivity information 425 includes
時刻情報521は、情報をいつ出力するかを決定する時刻の情報であり、たとえば、GMTやJSTなどの絶対時刻であったり、ある周波数における1周期を1カウントとする経過時間情報である。
The
方位情報523は、切出情報424の方位情報515に対応する情報であり、たとえば北を0として時計回りに360度回転したときの角度であったり、東西南北などの方位情報である。要するに、音声がどの方角からやってきたかを示す情報であればどのようなものであってもよい。
The
次に、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現する動作について、図4のフローチャートを用いて説明する。 Next, an operation for realizing a mechanism in which the face of a person who has produced a sound is cut out from the camera image and superimposed on the document image will be described with reference to the flowchart of FIG.
ユーザにより送信端末1と受信端末2との間でテレビ会議の開始が指示されると、送信端末1においては処理1000が、受信端末2においては処理1100が実行される。以下、フローチャートに従い説明する。
When the user instructs the start of the video conference between the
送信端末1、受信端末2においてそれぞれのCPUは、テレビ会議プログラムを記憶装置から読み出してメモリ上に展開し、テレビ会議プログラムを実行することによりテレビ会議機能を発現する(1000、1100)。
In the
送信端末1の第二映像入力手段103は、背景情報423を外部あるいは内部のプログラムから受領してMUX手段104に出力する(1001)。
また、第一映像入力手段100は、映像情報421を外部あるいは内部のカメラ装置などの撮像装置から取得して顔認識手段101及びMUX手段104に出力する(1002)。
The second video input means 103 of the
Also, the first
次に、顔認識手段101は、映像情報421に対し画像解析を施して、顔がどこにあるかを検出し、その座標値を取得して切出情報生成手段102に出力する(1003)。この顔検出は、映像をピクセル単位で解析して目、鼻、口、輪郭などの特徴を検出することにより顔を判別したり、あるいは顔画像のデータベースと照合して一致することにより顔を判別するなどのいずれの方法でもよく、要は顔が映像情報421のうちのどの座標に位置するかが判定できればよい。
Next, the face recognition unit 101 performs image analysis on the
次に、切出情報生成手段102は、ステップ1003で顔認識手段101が取得した座標情報を受信し、座標情報に基づき、切出情報424を生成し、MUX手段104に出力する(1004)。
Next, the cutout information generation unit 102 receives the coordinate information acquired by the face recognition unit 101 in
切出情報生成手段102は、現在時刻を時刻情報510に、映像情報421の識別情報を映像識別情報511に、ステップ1003で取得した座標情報から取得した情報を原点情報513及びサイズ514にそれぞれ保存する。また、切出情報生成手段102は、カメラ装置の向いている方向を原点に、映像情報421の中の顔の位置がどの方位に位置しているかを計算し、方位情報515として切出情報424に保存する。
The cut-out information generation unit 102 stores the current time in the time information 510, the identification information of the
次に、音声入力手段106は、マイク装置8から音声情報422を取得する(1005)。
このとき、音声入力手段106は、音声がどの方角から到達しているかを複数のマイクを使って検出し、指向情報425を生成する(1006)。音声入力手段106は、図3で解説したとおり、現在時刻を時刻情報521に保存する。また、音声の到達方向を、カメラ装置の向いている方角を原点として方位を計算し、方位情報523に保存する。
切出情報生成手段102、音声入力手段106は、それぞれ生成した切出情報424、指向情報425をする。
Next, the voice input unit 106 acquires the voice information 422 from the microphone device 8 (1005).
At this time, the voice input means 106 detects from which direction the voice has arrived using a plurality of microphones, and generates directivity information 425 (1006). The voice input means 106 stores the current time in the
The cut-out information generation unit 102 and the voice input unit 106 perform the cut-out
次に、MUX手段104は、映像情報421、音声情報422、背景情報423、切出情報424及び指向情報425を多重化処理することでストリーム400を作成し、通信手段及びインターネット3を介して受信装置2にストリーム400を送信する(1007)。
Next, the MUX unit 104 creates a
受信端末2の通信手段200は、ステップ1007で送信端末1が送信したストリーム400を受信し(1101)、受信したすおリーム400をDEMUX手段201に出力する。
DEMUX手段201は、多重化された前記ストリーム400を分解する(1102)。
次に、映像切取手段204はDEMUX手段201から映像情報421を取得し(1103)、第二映像取得手段203は背景情報423を取得し(1104)、切出情報取得手段202は切出情報424を取得する(1105)。
The communication means 200 of the receiving terminal 2 receives the
The DEMUX means 201 decomposes the multiplexed stream 400 (1102).
Next, the video cutout unit 204 acquires the
次に、DEMUX手段201から音声情報422を取得し(1106)、指向情報取得手段207は指向情報425を取得する(1107)。音声出力手段213は、該音声情報422をスピーカ装置10を用いて音声として出力する。
Next, the voice information 422 is acquired from the DEMUX means 201 (1106), and the directivity information acquisition means 207 acquires the directivity information 425 (1107). The sound output means 213 outputs the sound information 422 as sound using the
ここで、映像選択手段208は、指向情報425の方位情報523と、切出情報424の方位情報515が一致する切出情報424を取得して、映像識別情報511と原点情報513とサイズ514を取得して顔を選択する(1108)。
Here, the video selection unit 208 acquires the
次に、映像切取手段204は、映像識別情報511に関連付けられている映像情報421に対し、前記原点情報513及びサイズ514に基づいて映像情報を切出して顔映像を取得する(1109)。
次に、映像重畳手段205は、背景情報423の上に前記顔映像を上書きして映像を重ね合わせてあらたな映像情報を作成する(1110)。
映像重畳手段205は作成した映像情報を、表示装置5に出力する(1111)。
Next, the video cutout unit 204 cuts out the video information based on the origin information 513 and the
Next, the video superimposing means 205 overwrites the face video on the
The video superimposing means 205 outputs the created video information to the display device 5 (1111).
以上の動作により、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現することができる。 With the above operation, it is possible to realize a mechanism in which the face of a person who has made a sound is cut out from the camera video and superimposed on the document video.
また、受信端末2のステップ1109において、指向情報425の方位情報523を使うのではなく、複数の切出情報424の原点情報513及びサイズ514を用いて順に時間を開けて映像情報421を切り取るようにすることにより、参加者全員の顔を順に一つづつ背景情報423の上に表示する仕組みを実現することも可能である。
Further, in step 1109 of the receiving terminal 2, the
また、受信端末2のステップ1110において、ステップ1109が生成した全ての顔映像を背景情報423の上に整列して上書きすることにより、参加者全員の顔を同時に背景情報423の上に表示する仕組みを実現することも可能である。
Further, in
以下、実施例2について図5を用いて説明する。 Hereinafter, Example 2 will be described with reference to FIG.
図5は、実施例2のシステムの構成を示すブロック図の1例である。図1で説明したシステムと同様、本システムは、送信端末1、受信端末2、インターネット3、背景情報423を生成する情報装置4、映像情報424を表示する表示装置5、音声情報422を取得するマイク装置8と、音声情報422を出力するスピーカ装置10とから構成される。
FIG. 5 is an example of a block diagram illustrating the configuration of the system according to the second embodiment. Similar to the system described in FIG. 1, the system acquires the
送信端末1及び受信端末2の構成の一例を図5に示すブロック図で説明する。
An example of the configuration of the
送信端末1は、カメラ装置など映像を出力する機器に接続して映像情報421を入力する第一映像入力手段100と、情報装置4から背景情報423を取得する第二映像入力手段103と、マイク装置から音声情報422を取得する音声入力手段106と、前記映像情報421、背景情報423、音声情報422を多重化しストリーム400に変換するMUX手段104と、前記ストリーム400をインターネット3を介して受信端末2に送信する通信手段105とから構成される。
The
受信端末2は、インターネット3を介してストリーム400を受信する通信手段200と、ストリーム400を分解するDEMUX手段201と、ストリーム400から背景情報423を取得する第二映像取得手段203と、ストリーム400から映像情報421を取得し、顔がどこにあるかを認識する顔認識手段209と、顔がどこにあるかを示す切取情報424を生成する切取情報生成手段210と、ストリーム400から音声情報422を取得する音声取得手段211と、前記音声情報422を解析し、音声がどの方角が到達したかを示す指向情報425を生成する指向情報生成手段212と、指向情報425から人物6あるいは人物9の顔を選択する映像選択手段208と、切出情報424及び映像情報とから映像選択手段208により選択された顔の映像を切り出す映像切取手段204と、顔の映像と背景情報とを重ね合わせて出力映像とする映像重畳手段205と、出力映像を表示装置5に表示する表示手段206とから構成される。
The receiving terminal 2 includes a
次に、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みの実現例について、図6のフローチャートを用いて説明する。 Next, an implementation example of a mechanism for cutting out the face of a person who uttered sound from a camera video and superimposing it on a material video will be described with reference to the flowchart of FIG.
ユーザにより送信端末1と受信端末2との間でテレビ会議の開始が指示されると、送信端末1においては処理1000が、受信端末2においては処理1100が実行される。以下、フローチャートに従い説明する。
When the user instructs the start of the video conference between the
送信端末1、受信端末2においてそれぞれのCPUは、テレビ会議プログラムを記憶装置から読み出してメモリ上に展開し、テレビ会議プログラムを実行することによりテレビ会議機能を発現する(1000、1100)。
In the
送信端末1の第二映像入力手段103は、背景情報423を外部あるいは内部のプログラムから受領してMUX手段104に出力する(1001)。
また、第一映像入力手段100は、映像情報421を外部あるいは内部のカメラ装置などの撮像装置から取得て顔認識手段101及びMUX手段104に出力し保存する(1002)。
The second video input means 103 of the
Also, the first
次に、音声入力手段106は、マイク装置8から音声情報422を取得する(1005)。
MUX手段104は、映像情報421、音声情報422、背景情報423を多重化処理することでストリーム400を作成し、通信手段及びインターネット3を介して受信装置2にストリーム400を送信する(1007)。
Next, the voice input unit 106 acquires the voice information 422 from the microphone device 8 (1005).
The MUX means 104 creates a
受信端末2の通信手段200は、ステップ1007で送信端末1が送信したストリーム400を受信し(1101)、受信したすおリーム400をDEMUX手段201に出力する。
DEMUX手段201は、多重化された前記ストリーム400を分解する(1102)。
次に、映像切取手段204はDEMUX手段201から映像情報421を取得し(1103)、第二映像取得手段203は背景情報423を取得する(1104)。
The communication means 200 of the receiving terminal 2 receives the
The DEMUX means 201 decomposes the multiplexed stream 400 (1102).
Next, the video cutout unit 204 acquires the
次に、顔認識手段209は、映像情報421に対し画像解析を施して、顔がどこにあるかを検出し、その座標値を取得して切出情報生成手段210に出力する(1113)。この顔検出は、映像をピクセル単位で解析して目、鼻、口、輪郭などの特徴を検出することにより顔を判別したり、あるいは顔映像のデータベースと照合して一致することにより顔を判別するなどのいずれの方法でもよく、要は顔が映像情報421のうちのどの座標に位置するかが判定できればよい。
Next, the face recognition unit 209 performs image analysis on the
次に、切出情報生成手段210は、ステップ1113で顔認識手段209が取得した座標情報を受信し、座標情報に基づき、切出情報424を生成し、MUX手段104に出力する(1114)。切出情報生成手段210は、現在時刻を時刻情報510に、映像情報421の識別情報を映像識別情報511に、ステップ1113で取得した座標情報から取得した情報を原点情報513及びサイズ514にそれぞれ保存する。また、切出情報生成手段102は、映像情報421の中の顔の位置がどの方位に位置しているかを計算し、方位情報515として切出情報424に保存する。
Next, the cutout information generation unit 210 receives the coordinate information acquired by the face recognition unit 209 in step 1113, generates
次に、音声取得手段211は、DEMUX手段201から音声情報422を取得する(1106)。
音声取得手段211は、音声を解析することにより、音声がどの方角から到達しているか検出し、指向情報425を生成する(1115)。
Next, the voice acquisition unit 211 acquires the voice information 422 from the DEMUX unit 201 (1106).
The voice acquisition unit 211 analyzes the voice to detect from which direction the voice has arrived, and generates directivity information 425 (1115).
ここで、映像選択手段208は、指向情報425の方位情報523と、切出情報424の方位情報515が一致する切出情報424を取得して、映像識別情報511と原点情報513とサイズ514を取得して顔を選択する(1108)。
Here, the video selection unit 208 acquires the
次に、映像切取手段204は、映像識別情報511に関連付けられている映像情報421に対し、前記原点情報513及びサイズ514に基づいて映像情報を切出して顔映像を取得する(1109)。
次に、映像重畳手段205は、背景情報423の上に前記顔映像を上書きして映像を重ね合わせてあらたな映像情報を作成する(1110)。
映像重畳手段205は作成した映像情報を、表示装置5に出力する(1111)。
Next, the video cutout unit 204 cuts out the video information based on the origin information 513 and the
Next, the video superimposing means 205 overwrites the face video on the
The video superimposing means 205 outputs the created video information to the display device 5 (1111).
以上の動作により、音声を発した人物の顔をカメラ映像から切り取り、資料映像に重畳して表示する仕組みを実現することができる。 With the above operation, it is possible to realize a mechanism in which the face of a person who has made a sound is cut out from the camera video and superimposed on the document video.
また、受信端末2のステップ1109において、指向情報425の方位情報523を使うのではなく、複数の切出情報424の原点情報513及びサイズ514を用いて順に時間を開けて映像情報421を切り取るようにすることにより、参加者全員の顔を順に一つづつ背景情報423の上に表示する仕組みを実現することができる。
Further, in step 1109 of the receiving terminal 2, the
また、受信端末2のステップ1110において、ステップ1109が生成した複数の顔映像を背景情報423の上に整列して上書きすることにより、複数の参加者の顔を同時に背景情報423の上に表示する仕組みを実現することができる。
In
なお、以上の実施例では受信端末2が備える映像切出手段204が、切出情報424および指向情報425に基づいて、映像情報から顔映像を取得する構成としたが、実施例1の構成に加えて送信端末1が映像切出手段を備える構成とすることも可能である。これにより受信装置2の構成から切出し情報取得手段202、指向情報取得手段207、映像選択手段208を省略することができる。この場合、送信装置1が通信手段105を介して受信装置2に送信する映像情報はすでに映像切出手段によって切出しの処理が行われている顔映像であるため、送信装置1から受信装置2に送信される情報量を減少させることができる。
In the above-described embodiment, the video cutout unit 204 included in the receiving terminal 2 is configured to acquire a face video from the video information based on the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 In addition, this invention is not limited to an above-described Example, Various modifications are included. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described. Further, a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. Further, it is possible to add, delete, and replace other configurations for a part of the configuration of each embodiment.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD(Digital Versatile Disk)等の記録媒体に置くことができる。 Each of the above-described configurations, functions, processing units, processing means, and the like may be realized by hardware by designing a part or all of them with, for example, an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files for realizing each function is stored in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD (Digital Versatile Disk). Can be put.
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。 Further, the control lines and information lines indicate what is considered necessary for the explanation, and not all the control lines and information lines on the product are necessarily shown. Actually, it may be considered that almost all the components are connected to each other.
上記の実施例は、無線、有線により接続された通信システムにおいて、資料映像とカメラ映像を重ね合わせて表示するピクチャオンピクチャを実現するテレビ会議システムにおいて有効である。 The above embodiment is effective in a video conference system that realizes a picture-on-picture in which a document video and a camera video are displayed in a superimposed manner in a communication system connected by radio and wire.
1…送信端末
2…受信端末
400…ストリーム
410…送信情報
424…切出情報
425…指向情報
1000…送信端末1の動作を実現する処理フロー
1100…受信端末2の動作を実現する処理フロー
DESCRIPTION OF
Claims (12)
第一の映像の入力を受け付ける第一映像入力手段と、
第二の映像の入力を受け付ける第二映像入力手段と、
前記第一の映像に含まれる人物の顔を認識する顔認識手段と、
前記顔の座標を示す情報である切出情報を生成する切出情報生成手段と、
前記第一の映像、前記第二の映像及び前記切出情報を送信する第一の通信手段と、から構成され、
前記受信端末は、
前記第一の映像、前記第二の映像及び前記切出情報を受信する第二の通信手段と、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成する映像切取手段と、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成する映像重畳手段と、
前記第四の映像を出力する出力手段と、から構成される、
ことを特徴とするテレビ会議システム。 A video conference system comprising a transmission terminal that transmits video and a reception terminal that receives video transmitted from the transmission terminal, wherein the transmission terminal includes:
First video input means for receiving input of the first video;
Second video input means for receiving input of the second video;
Face recognition means for recognizing a human face included in the first video;
Cutting information generating means for generating cutting information which is information indicating the coordinates of the face;
A first communication means for transmitting the first video, the second video and the cutout information;
The receiving terminal is
Second communication means for receiving the first video, the second video, and the cutout information;
Video cutting means for generating the face as a third video based on the first video and the clipping information;
Video superimposing means for superposing the third video and the second video to generate a fourth video;
Output means for outputting the fourth video,
A video conference system characterized by that.
前記送信端末は、
音声を入力する音声入力手段と、
音声の到達方向を示す指向情報を生成する指向情報生成手段と、を備え、
前記第一の通信手段は、前記第一の映像、前記第二の映像、前記切出情報及び前記指向情報を送信する機能を備えることを特徴とするテレビ会議システム。 The video conference system according to claim 1,
The transmitting terminal is
Voice input means for inputting voice;
Directional information generating means for generating directional information indicating the direction of voice arrival,
Said 1st communication means is provided with the function to transmit said 1st image | video, said 2nd image | video, said cut-out information, and said directional information, The video conference system characterized by the above-mentioned.
前記第二の通信手段は、前記第一の映像、前記第二の映像、前記切出情報及び前記指向情報を受信し、
前記受信端末は、
前記指向情報に基づき、前記映像切取手段により作成された複数の第三の映像から、前記第二の映像に重ね合わせる映像を選択する映像選択手段を備え、
前記映像重畳手段は、前記映像選択手段により選択された前記第三の映像と前記第二の映像とを重ね合わせ第四の映像を生成する、
ことを特徴とするテレビ会議システム。 The video conference system according to claim 2,
The second communication means receives the first video, the second video, the cutout information, and the directional information,
The receiving terminal is
Based on the directivity information, from a plurality of third video created by the video clipping means, comprising video selection means for selecting a video to be superimposed on the second video,
The video superimposing unit generates the fourth video by superimposing the third video selected by the video selection unit and the second video,
A video conference system characterized by that.
第一の映像の入力を受け付ける第一映像入力手段と、
第二の映像の入力を受け付ける第二映像入力手段と、
前記第一の映像及び前記第二の映像を送信する第一の通信手段と、から構成され、
前記受信端末は、
前記第一の映像及び前記第二の映像を受信する第二の通信手段と、
前記第一の映像に含まれる人物の顔を認識する顔認識手段と、
前記顔の座標を示す情報である切出情報を生成する切出情報生成手段と、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成する映像切取手段と、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成する映像重畳手段と、
前記第四の映像を出力する出力手段とから構成される、
ことを特徴とするテレビ会議システム。 A video conference system comprising a transmission terminal that transmits video and a reception terminal that receives video transmitted from the transmission terminal, wherein the transmission terminal includes:
First video input means for receiving input of the first video;
Second video input means for receiving input of the second video;
A first communication means for transmitting the first video and the second video,
The receiving terminal is
Second communication means for receiving the first video and the second video;
Face recognition means for recognizing a human face included in the first video;
Cutting information generating means for generating cutting information which is information indicating the coordinates of the face;
Video cutting means for generating the face as a third video based on the first video and the clipping information;
Video superimposing means for superposing the third video and the second video to generate a fourth video;
Output means for outputting the fourth video,
A video conference system characterized by that.
前記送信端末は、音声を入力する音声入力手段を備え、
前記第一の通信手段は、前記第一の映像、前記第二の映像及び前記音声を送信すること、
を特徴とするテレビ会議システム。 The video conference system according to claim 4,
The transmitting terminal includes voice input means for inputting voice,
The first communication means transmits the first video, the second video, and the audio;
A video conference system characterized by
前記第二の通信手段は、前記第一の映像、前記第二の映像、及び前記音声を受信し、
前記受信端末は、
前記音声の到達方向を示す指向情報を生成する指向情報生成手段と、
前記指向情報に基づき、前記映像切取手段により作成された複数の第三の映像から、前記第二の映像に重ね合わせる映像を選択する映像選択手段と、を備え、
前記映像重畳手段は、前記映像選択手段により選択された前記第三の映像と前記第二の映像とを重ね合わせ第四の映像を生成する、
ことを特徴とするテレビ会議システム。 The video conference system according to claim 5,
The second communication means receives the first video, the second video, and the audio,
The receiving terminal is
Directional information generating means for generating directional information indicating the arrival direction of the voice;
Video selection means for selecting a video to be superimposed on the second video from a plurality of third videos created by the video clipping means based on the orientation information;
The video superimposing unit generates the fourth video by superimposing the third video selected by the video selection unit and the second video,
A video conference system characterized by that.
第一の映像の入力を受け付けるステップと、
第二の映像の入力を受け付けるステップと、
前記第一の映像に含まれる人物の顔を認識するステップと、
前記顔の座標を示す情報である切出情報を生成するステップと、
前記第一の映像、前記第二の映像及び前記切出情報を送信するステップと、を行い、
前記受信装置において、
第一の映像、第二の映像及び切出情報を受信するステップと、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成するステップと、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成するステップと、
前記第四の映像を出力するステップと、を行う
ことを特徴とするテレビ会議方法。 A video conference method used in a video conference system comprising: a transmission terminal that transmits video; and a reception terminal that receives video transmitted from the transmission terminal, wherein the transmission terminal includes:
Receiving the input of the first video;
Receiving a second video input;
Recognizing a human face included in the first video;
Generating cutout information that is information indicating the coordinates of the face;
Transmitting the first video, the second video, and the cut-out information;
In the receiving device,
Receiving the first video, the second video and the clipping information;
Generating the face as a third video based on the first video and the clipping information;
Superposing the third video and the second video to generate a fourth video;
And a step of outputting the fourth video.
音声の入力を受け付けるステップと、
前記音声の到達方向を示す指向情報を生成するステップと、を行い、
前記第一の映像、前記第二の映像及び前記切出情報を送信するステップにおいて、前記指向情報を送信する、
ことを特徴とするテレビ会議方法。 The video conference method according to claim 7, wherein in the transmission device,
Receiving voice input;
Generating directivity information indicating a direction of arrival of the voice, and
In the step of transmitting the first video, the second video, and the cutout information, the directional information is transmitted.
A video conferencing method characterized by the above.
前記指向情報を取得するステップと、
前記指向情報に基づき複数の第三の映像から、前記第二の映像に重ね合わせる映像を選択するステップと、
前記切出情報及び前記指向情報から第三の映像を生成するステップと、
を行うことを特徴とするテレビ会議方法。 9. The video conference method according to claim 8, wherein in the receiving device,
Obtaining the directional information;
Selecting a video to be superimposed on the second video from a plurality of third videos based on the orientation information;
Generating a third video from the cut-out information and the directional information;
A video conferencing method characterized by:
第一の映像の入力を受け付けるステップと、
第二の映像の入力を受け付けるステップと、
前記第一の映像及び前記第二の映像を送信するステップと、を行い、
前記受信端末において、
前記第一の映像及び前記第二の映像を受信するステップと、
前記第一の映像に含まれる人物の顔を認識するステップと、
前記顔の座標を示す情報である切出情報を生成するステップと、
前記第一の映像と前記切出情報とに基づき、前記顔を第三の映像として生成するステップと、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成するステップと、
第四の映像を出力するステップと
から構成されることを特徴とするテレビ会議方法。 A video conference method used in a video conference system comprising: a transmission terminal that transmits video; and a reception terminal that receives video transmitted from the transmission terminal, wherein the transmission terminal includes:
Receiving the input of the first video;
Receiving a second video input;
Transmitting the first video and the second video, and
In the receiving terminal,
Receiving the first video and the second video;
Recognizing a human face included in the first video;
Generating cutout information that is information indicating the coordinates of the face;
Generating the face as a third video based on the first video and the clipping information;
Superposing the third video and the second video to generate a fourth video;
A video conferencing method comprising: a step of outputting a fourth video.
音声の入力を受け付けるステップと、
前記音声を送信するステップと、を行うことを特徴とするテレビ会議方法。 The video conference method according to claim 10, wherein in the transmission terminal,
Receiving voice input;
And transmitting the voice. A video conference method comprising:
前記音声を受信し、
前記音声の到達方向を示す指向情報を生成するステップと、
前記指向情報に基づき、複数の前記第三の映像から、前記第二の映像に重ね合わせる映像を選択するステップと、を行い、
前記第三の映像と前記第二の映像を重ね合わせて第四の映像を生成するステップにおいて、前記選択された前記第三の映像と前記第二の映像とを重ね合わせ第四の映像を生成する、
ことを特徴とするテレビ会議方法。 12. The video conference method according to claim 11, wherein the receiving apparatus includes:
Receiving the voice,
Generating directional information indicating a direction of arrival of the voice;
Selecting a video to be superimposed on the second video from the plurality of third videos based on the directivity information, and
In the step of generating the fourth image by superimposing the third image and the second image, the fourth image is generated by superimposing the selected third image and the second image. To
A video conferencing method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011258427A JP2013115527A (en) | 2011-11-28 | 2011-11-28 | Video conference system and video conference method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011258427A JP2013115527A (en) | 2011-11-28 | 2011-11-28 | Video conference system and video conference method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013115527A true JP2013115527A (en) | 2013-06-10 |
Family
ID=48710714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011258427A Pending JP2013115527A (en) | 2011-11-28 | 2011-11-28 | Video conference system and video conference method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013115527A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016083225A (en) * | 2014-10-27 | 2016-05-19 | 株式会社ソニー・コンピュータエンタテインメント | Information processor |
JPWO2015182440A1 (en) * | 2014-05-29 | 2017-04-20 | シャープ株式会社 | Video conference system |
WO2020034150A1 (en) * | 2018-08-16 | 2020-02-20 | 华为技术有限公司 | Method and apparatus for displaying and uploading advertisement picture |
WO2022001635A1 (en) * | 2020-07-03 | 2022-01-06 | 海信视像科技股份有限公司 | Display device and display method |
JP2022017369A (en) * | 2015-04-01 | 2022-01-25 | オウル・ラブズ・インコーポレイテッド | Compositing and scaling angularly separated sub-scenes |
US11729342B2 (en) | 2020-08-04 | 2023-08-15 | Owl Labs Inc. | Designated view within a multi-view composited webcam signal |
US11736801B2 (en) | 2020-08-24 | 2023-08-22 | Owl Labs Inc. | Merging webcam signals from multiple cameras |
-
2011
- 2011-11-28 JP JP2011258427A patent/JP2013115527A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015182440A1 (en) * | 2014-05-29 | 2017-04-20 | シャープ株式会社 | Video conference system |
US9967518B2 (en) | 2014-05-29 | 2018-05-08 | Sharp Kabushiki Kaisha | Video conference system |
JP2016083225A (en) * | 2014-10-27 | 2016-05-19 | 株式会社ソニー・コンピュータエンタテインメント | Information processor |
US11109108B2 (en) | 2014-10-27 | 2021-08-31 | Sony Interactive Entertainment Inc. | Information processing device |
JP2022017369A (en) * | 2015-04-01 | 2022-01-25 | オウル・ラブズ・インコーポレイテッド | Compositing and scaling angularly separated sub-scenes |
WO2020034150A1 (en) * | 2018-08-16 | 2020-02-20 | 华为技术有限公司 | Method and apparatus for displaying and uploading advertisement picture |
US11682148B2 (en) | 2018-08-16 | 2023-06-20 | Huawei Technologies Co., Ltd. | Method for displaying advertisement picture, method for uploading advertisement picture, and apparatus |
WO2022001635A1 (en) * | 2020-07-03 | 2022-01-06 | 海信视像科技股份有限公司 | Display device and display method |
US11729342B2 (en) | 2020-08-04 | 2023-08-15 | Owl Labs Inc. | Designated view within a multi-view composited webcam signal |
US11736801B2 (en) | 2020-08-24 | 2023-08-22 | Owl Labs Inc. | Merging webcam signals from multiple cameras |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013115527A (en) | Video conference system and video conference method | |
US7227567B1 (en) | Customizable background for video communications | |
EP3319344B1 (en) | Method and apparatus for generating audio signal information | |
JP4377886B2 (en) | Image composition method and apparatus during image communication | |
US20080235724A1 (en) | Face Annotation In Streaming Video | |
US9491405B2 (en) | Method and apparatus for displaying conference material in video conference | |
KR101861590B1 (en) | Apparatus and method for generating three-dimension data in portable terminal | |
CN110401810B (en) | Virtual picture processing method, device and system, electronic equipment and storage medium | |
JP7100824B2 (en) | Data processing equipment, data processing methods and programs | |
JP7441926B2 (en) | Computer program that performs video coding | |
JP2009071478A (en) | Information communication terminal and information communication system | |
JP2018191186A (en) | Client device, processing method for client device, server, and processing method for server | |
EP3465631B1 (en) | Capturing and rendering information involving a virtual environment | |
CN110168630B (en) | Augmented video reality | |
JP2016213674A (en) | Display control system, display control unit, display control method, and program | |
WO2015139562A1 (en) | Method for implementing video conference, synthesis device, and system | |
CN111163280B (en) | Asymmetric video conference system and method thereof | |
JP5483012B2 (en) | TV with videophone function | |
JP2010157906A (en) | Video display device | |
JP2009065696A (en) | Device, method and program for synthesizing video image | |
CN112887654B (en) | Conference equipment, conference system and data processing method | |
JP2009147792A (en) | Communication apparatus with image, communication display method with image, program and communication system with image | |
JP6004978B2 (en) | Subject image extraction device and subject image extraction / synthesis device | |
EP4033755A1 (en) | System for broadcasting volumetric videoconferences in 3d animated virtual environment with audio information, and method for operating said system | |
JP5388032B2 (en) | Remote communication system, control device, control method and program |