JP5813542B2 - Image communication system, AR (Augmented Reality) video generation device, and program - Google Patents

Image communication system, AR (Augmented Reality) video generation device, and program Download PDF

Info

Publication number
JP5813542B2
JP5813542B2 JP2012060659A JP2012060659A JP5813542B2 JP 5813542 B2 JP5813542 B2 JP 5813542B2 JP 2012060659 A JP2012060659 A JP 2012060659A JP 2012060659 A JP2012060659 A JP 2012060659A JP 5813542 B2 JP5813542 B2 JP 5813542B2
Authority
JP
Japan
Prior art keywords
moving image
image data
terminal
unit
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012060659A
Other languages
Japanese (ja)
Other versions
JP2013196154A (en
Inventor
紀子 水口
紀子 水口
内山 健
健 内山
まり 阿久澤
まり 阿久澤
択磨 松村
択磨 松村
大樹 清水
大樹 清水
洋志 野中
洋志 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Nippon Control System Corp
Original Assignee
NTT Docomo Inc
Nippon Control System Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc, Nippon Control System Corp filed Critical NTT Docomo Inc
Priority to JP2012060659A priority Critical patent/JP5813542B2/en
Publication of JP2013196154A publication Critical patent/JP2013196154A/en
Application granted granted Critical
Publication of JP5813542B2 publication Critical patent/JP5813542B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、拡張現実(AR)を用いたコミュニケーションに関する。   The present invention relates to communication using augmented reality (AR).

AR技術による合成画像を通信ネットワークを介して配信する技術がある(例えば、特許文献1参照)。合成画像を得るための方法としては、クロマキー合成(ブルーバック合成)のように特定色の背景を利用して撮影を行うものや、CG(Computer Graphics)によって得られた実在しない画像(アバタなど)を合成するものなどが知られている。   There is a technique for distributing a composite image by an AR technique via a communication network (see, for example, Patent Document 1). As a method for obtaining a composite image, a method using a background of a specific color, such as chroma key composition (blue back composition), or a non-existent image (such as an avatar) obtained by CG (Computer Graphics) The one that synthesizes is known.

特開2004−341642号公報JP 2004-341642 A

ところで、AR技術を利用した従来の合成画像は、ユーザが撮影した映像に対して、あらかじめ用意された画像を重ね合わせるものが一般的であった。したがって、いわゆるテレビ電話のような、ユーザ同士の実際の映像(すなわち、あらかじめ用意されたものではない画像)を利用したリアルタイムなコミュニケーションにそのまま適用することはできなかった。
そこで、本発明は、相互のユーザによって撮影された映像に基づいて合成された動画を用いたリアルタイムなコミュニケーションを可能にする技術を提供する。
By the way, a conventional composite image using the AR technology is generally a superposition of a previously prepared image on a video shot by a user. Therefore, it cannot be applied as it is to real-time communication using actual videos (that is, images not prepared in advance) between users such as so-called videophones.
Therefore, the present invention provides a technique that enables real-time communication using a moving image synthesized based on videos taken by mutual users.

本発明の一態様に係る画像コミュニケーションシステムは、第1端末と第2端末との接続を管理する接続管理装置と、前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、前記接続管理装置は、前記第1端末と前記第2端末とを接続する通信回線に関する回線情報を前記AR動画生成装置に供給し、前記AR動画生成装置は、前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを前記他方の端末に送信する送信部とを備え、前記接続管理装置により供給された回線情報に応じて、前記合成動画データが表す映像を異ならせる。
好ましい態様において、前記AR動画生成装置は、前記回線情報に基づいて、前記合成動画データによるコミュニケーションが可能であるか否かを前記第1端末と前記第2端末のそれぞれについて判断する判断部を備え、前記判断部により前記合成動画データによるコミュニケーションが可能であると判断された端末について、前記合成動画データを生成及び送信する。
また、本発明の一態様に係る画像コミュニケーションシステムは、第1端末と第2端末との接続を管理する接続管理装置と、前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、前記接続管理装置は、前記第1端末と前記第2端末とにおけるハードウェア又はソフトウェアのリソースに関するリソース情報を前記AR動画生成装置に供給し、前記AR動画生成装置は、前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを前記他方の端末に送信する送信部とを備え、前記接続管理装置により供給されたリソース情報に応じて、前記合成動画データが表す映像を異ならせる。
好ましい態様において、前記AR動画生成装置は、前記リソース情報に基づいて、前記合成動画データによるコミュニケーションが可能であるか否かを前記第1端末と前記第2端末のそれぞれについて判断する判断部を備え、前記判断部により前記合成動画データによるコミュニケーションが可能であると判断された端末について、前記合成動画データを生成及び送信する。
また、本発明の一態様に係る画像コミュニケーションシステムは、第1端末と第2端末との接続を管理する接続管理装置と、前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、前記接続管理装置は、前記第1端末と前記第2端末との間で音声メッセージを送受信する送受信部を備えるとともに、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報を前記AR動画生成装置に供給し、前記AR動画生成装置は、前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを前記他方の端末に送信する送信部とを備え、前記接続管理装置により供給された音量又は音質の変化を表す情報に応じて、前記合成動画データが表す映像を異ならせる。
また、本発明の一態様に係る画像コミュニケーションシステムは、第1端末と第2端末との接続を管理する接続管理装置と、前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、前記AR動画生成装置は、前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを前記他方の端末に送信する送信部と、前記第1受信部により受信された第1動画データにおける前記被写体の変化を解析する解析部を備え、前記解析部により解析された前記被写体の変化を表す情報を前記接続管理装置に供給し、前記接続管理装置は、前記第1端末と前記第2端末との間で音声メッセージを送受信する送受信部であって、前記AR動画生成装置により供給された前記被写体の変化を表す情報に応じて、送受信する前記音声メッセージの音量又は音質を異ならせる送受信部を備える。
An image communication system according to an aspect of the present invention includes a connection management device that manages a connection between a first terminal and a second terminal, and the first terminal and the second terminal that are managed by the connection management device. An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both sides to at least one, wherein the connection management device includes the first terminal and the second terminal. Is connected to the AR video generation device, and the AR video generation device captures a subject including a predetermined object from one of the first terminal and the second terminal. A first receiver for receiving first moving image data including distance information for each pixel of the subject, and a marker of a predetermined shape from the other of the first terminal and the second terminal. A second receiving unit that receives second moving image data that captures a background including the image, and a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first receiving unit And a three-dimensional coordinate system of the background defined based on the marker in the background represented by the second moving image data received by the second receiving unit, and extracted by the extracting unit Generating a combined moving image data generated by combining the image corresponding to the selected pixel with the background so as to correspond to the coordinate system, and transmitting the combined moving image data generated by the generating unit to the other terminal and a transmission unit, according to the channel information supplied by the connection management apparatus, Ru with different image represented by the composite video data.
In a preferred aspect, the AR video generation device includes a determination unit that determines whether communication using the composite video data is possible for each of the first terminal and the second terminal based on the line information. The synthesized moving image data is generated and transmitted for a terminal that is determined by the determination unit to be able to communicate with the synthesized moving image data.
An image communication system according to an aspect of the present invention includes a connection management device that manages a connection between a first terminal and a second terminal, the first terminal whose connection is managed by the connection management device, and the second terminal. An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both sides to at least one of the terminals, wherein the connection management device includes the first terminal and the second terminal. Resource information relating to hardware or software resources in the terminal is supplied to the AR video generation device, and the AR video generation device photographs a subject including a predetermined object from one of the first terminal and the second terminal. A first receiving unit that receives first moving image data including distance information for each pixel of the subject, the first terminal, and the front Based on the distance information of the 1st animation data received by the 2nd receiving part which receives the 2nd animation data which photoed the background containing the marker of the predetermined shape from the other of the 2nd terminal, and the 1st receiving part A three-dimensional background defined based on the marker in the background represented by the second moving image data received by the second receiver and an extraction unit that extracts pixels corresponding to the predetermined object from the subject A generating unit that generates a composite moving image data in which an image corresponding to the pixel extracted by the extracting unit is combined with the background so as to correspond to the coordinate system, and generated by the generating unit A transmission unit that transmits the combined moving image data to the other terminal, and changes the video represented by the combined moving image data according to the resource information supplied by the connection management device.
In a preferred aspect, the AR video generation device includes a determination unit that determines whether communication using the composite video data is possible for each of the first terminal and the second terminal based on the resource information. The synthesized moving image data is generated and transmitted for a terminal that is determined by the determination unit to be able to communicate with the synthesized moving image data.
An image communication system according to an aspect of the present invention includes a connection management device that manages a connection between a first terminal and a second terminal, the first terminal whose connection is managed by the connection management device, and the second terminal. An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both sides to at least one of the terminals, wherein the connection management device includes the first terminal and the second terminal. A transmission / reception unit that transmits / receives a voice message to / from a terminal, and supplies information representing a change in volume or sound quality of the voice message transmitted / received by the transmission / reception unit to the AR video generation device; First moving image data obtained by photographing a subject including a predetermined object from one of the first terminal and the second terminal, and distance information for each pixel of the subject. And a second receiving unit for receiving second moving image data obtained by capturing a background including a marker having a predetermined shape from the other of the first terminal and the second terminal. Based on the distance information of the first moving image data received by the first receiving unit, an extraction unit for extracting pixels corresponding to the predetermined object from the subject, and the second receiving unit A three-dimensional coordinate system of the background defined based on the marker in the background represented by the second moving image data is specified, and an image corresponding to the pixel extracted by the extraction unit is made to correspond to the coordinate system. A volume that is provided by the connection management device, and includes a generation unit that generates the combined moving image data combined with the background and a transmission unit that transmits the combined moving image data generated by the generation unit to the other terminal. Alternatively, the video represented by the synthetic moving image data is made different according to the information representing the change in sound quality.
An image communication system according to an aspect of the present invention includes a connection management device that manages a connection between a first terminal and a second terminal, the first terminal whose connection is managed by the connection management device, and the second terminal. An AR (Augmented Reality) moving image generating device that transmits combined moving image data obtained by synthesizing videos taken by both the terminals to at least one of the terminals, wherein the AR moving image generating device includes the first terminal and the first A first receiver for receiving first moving image data obtained by photographing a subject including a predetermined object from one of two terminals, the first moving image data including distance information for each pixel of the subject; A second receiving unit that receives second moving image data obtained by capturing a background including a marker having a predetermined shape from the other of the terminal and the second terminal; and a front of the first moving image data received by the first receiving unit. Based on the distance information, an extraction unit that extracts a pixel corresponding to the predetermined object from the subject, and the marker that is defined based on the marker in the background represented by the second moving image data received by the second reception unit A generating unit that identifies a three-dimensional coordinate system of a background and generates synthetic moving image data synthesized with the background so that an image corresponding to the pixel extracted by the extracting unit corresponds to the coordinate system; A transmitting unit that transmits the combined moving image data generated by the unit to the other terminal, and an analyzing unit that analyzes the change in the subject in the first moving image data received by the first receiving unit. The analyzed information representing the change in the subject is supplied to the connection management apparatus, and the connection management apparatus transmits and receives a voice message between the first terminal and the second terminal. A receiving unit, comprising: a transmitting / receiving unit that varies the volume or sound quality of the voice message to be transmitted / received in accordance with the information representing the change of the subject supplied by the AR video generation device.

ましい態様において、前記AR動画生成装置は、前記第2受信部により受信された第2動画データを解析し、前記座標系を算出する算出部を備え、前記生成部は、前記算出部により算出された座標系に基づいて、前記合成動画データを生成する。 In favorable preferable embodiment, the AR video production apparatus analyzes the second moving image data received by the second receiving unit includes a calculation unit for calculating the coordinate system, the generating unit, by the calculation unit Based on the calculated coordinate system, the synthesized moving image data is generated.

本発明の他の態様に係るAR動画生成装置は、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを送信する送信部とを備え、前記第1動画データを送信した端末と前記第2動画データを送信した端末との接続を管理する接続管理装置から、前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する通信回線に関する回線情報が供給され、供給された前記回線情報に応じて、前記合成動画データが表す映像を異ならせる。
また、本発明の他の態様に係るAR動画生成装置は、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを送信する送信部とを備え、前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する接続管理装置から、前記端末におけるハードウェア又はソフトウェアのリソースに関するリソース情報が供給され、供給された前記リソース情報に応じて、前記合成動画データが表す映像を異ならせる。
また、本発明の他の態様に係るAR動画生成装置は、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを送信する送信部とを備え、前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部を備えるとともに、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報を供給する接続管理装置から、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報が供給され、供給された情報に応じて、前記合成動画データが表す映像を異ならせる。
また、本発明の他の態様に係るAR動画生成装置は、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、前記生成部により生成された合成動画データを送信する送信部と、前記第1受信部により受信された第1動画データにおける前記被写体の変化を解析する解析部を備え、前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部であって、供給される前記被写体の変化を表す情報に応じて、送受信する前記音声メッセージの音量又は音質を異ならせる送受信部を備える接続管理装置へ、前記解析部により解析された前記被写体の変化を表す情報を供給する。
An AR moving image generating apparatus according to another aspect of the present invention receives first moving image data including distance information for each pixel of a subject, the first moving image data capturing a subject including a predetermined object. A second receiving unit that receives second moving image data in which a background including a marker having a predetermined shape is captured, wherein a three-dimensional coordinate system is defined based on the marker; An extraction unit for extracting pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit, and a pixel corresponding to the pixels extracted by the extraction unit A generating unit that generates synthesized moving image data in which the image is combined with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit; And a transmission unit for transmitting the synthesized video data, the connection management apparatus for managing a connection with the transmitted terminal the second moving image data and transmitted by the terminal to the first video data, transmitting the first video data the terminal and the second transmit the moving picture data line information about the communication line for connecting the terminal is supplied in accordance with a supplied the line information, Ru with different image represented by the composite video data.
The AR video generation device according to another aspect of the present invention receives first video data including distance information for each pixel of the subject, the first video data capturing a subject including a predetermined object. A second receiving unit that receives second moving image data in which a three-dimensional coordinate system is defined based on the first receiving unit that captures a background including a marker having a predetermined shape. An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit, and a pixel extracted by the extraction unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit, and the generating unit A connection unit that connects the terminal that has transmitted the first moving image data and the terminal that has transmitted the second moving image data to a hardware or software in the terminal Resource information related to these resources is supplied, and the video represented by the composite video data is made different according to the supplied resource information.
The AR video generation device according to another aspect of the present invention receives first video data including distance information for each pixel of the subject, the first video data capturing a subject including a predetermined object. A second receiving unit that receives second moving image data in which a three-dimensional coordinate system is defined based on the first receiving unit that captures a background including a marker having a predetermined shape. An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit, and a pixel extracted by the extraction unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit, and the generating unit A transmission unit that transmits the synthesized video data formed, and a transmission / reception unit that transmits and receives a voice message between the terminal that transmitted the first video data and the terminal that transmitted the second video data, Information indicating a change in volume or sound quality of a voice message transmitted / received by the transmitter / receiver is supplied and supplied from a connection management device that supplies information indicating a change in volume or sound quality of a voice message transmitted / received by the transmitter / receiver. In accordance with the information, the video represented by the synthesized video data is made different.
The AR video generation device according to another aspect of the present invention receives first video data including distance information for each pixel of the subject, the first video data capturing a subject including a predetermined object. A second receiving unit that receives second moving image data in which a three-dimensional coordinate system is defined based on the first receiving unit that captures a background including a marker having a predetermined shape. An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit, and a pixel extracted by the extraction unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit, and the generating unit A transmission unit that transmits the synthesized moving image data formed; and an analysis unit that analyzes a change in the subject in the first moving image data received by the first reception unit; the terminal that transmitted the first moving image data; A transmission / reception unit that transmits / receives a voice message to / from a terminal that has transmitted the second moving image data, wherein transmission / reception varies in volume or sound quality of the voice message to be transmitted / received according to supplied information representing the change in the subject. Information representing a change in the subject analyzed by the analysis unit is supplied to a connection management device including the unit.

本発明の他の態様に係るプログラムは、コンピュータに、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、前記第4ステップにより生成された合成動画データを送信する第5ステップと、前記第1動画データを送信した端末と前記第2動画データを送信した端末との接続を管理する接続管理装置から、前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する通信回線に関する回線情報が供給され、供給された前記回線情報に応じて、前記合成動画データが表す映像を異ならせる第6ステップとを実行させるためのプログラムである。According to another aspect of the present invention, there is provided a program for receiving, on a computer, first moving image data obtained by photographing a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject. A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker; A third step of extracting pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step, and an image corresponding to the pixels extracted in the third step Is generated on the background so as to correspond to the coordinate system defined in the second moving image data received in the second step. A connection management device for managing a connection between the terminal that has transmitted the first moving image data and the terminal that has transmitted the second moving image data, and a fifth step of transmitting the combined moving image data generated by the step 4 To, line information relating to a communication line connecting the terminal that transmitted the first moving image data and the terminal that transmitted the second moving image data is supplied, and the combined moving image data is represented according to the supplied line information. This is a program for executing the sixth step of making a video different.
また、本発明の他の態様に係るプログラムは、コンピュータに、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、前記第4ステップにより生成された合成動画データを送信する第5ステップと、前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する接続管理装置から、前記端末におけるハードウェア又はソフトウェアのリソースに関するリソース情報が供給され、供給された前記リソース情報に応じて、前記合成動画データが表す映像を異ならせる第6ステップとを実行させるためのプログラムである。In addition, a program according to another aspect of the present invention receives first moving image data including distance information for each pixel of a subject, the first moving image data capturing a subject including a predetermined object, on a computer. A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker; A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step, and according to the pixel extracted in the third step The synthesized video data is synthesized with the background corresponding to the coordinate system defined in the second video data received in the second step. Connection management for connecting the terminal that has transmitted the first moving picture data and the terminal that has transmitted the second moving picture data to the fourth step that transmits the synthetic moving picture data generated by the fourth step. A program for executing resource information on hardware or software resources in the terminal from a device, and executing a sixth step of differentiating the video represented by the composite video data according to the supplied resource information. is there.
また、本発明の他の態様に係るプログラムは、コンピュータに、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、前記第4ステップにより生成された合成動画データを送信する第5ステップと、前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部を備えるとともに、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報を供給する接続管理装置から、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報が供給され、供給された情報に応じて、前記合成動画データが表す映像を異ならせる第6ステップとを実行させるためのプログラムである。In addition, a program according to another aspect of the present invention receives first moving image data including distance information for each pixel of a subject, the first moving image data capturing a subject including a predetermined object, on a computer. A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker; A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step, and according to the pixel extracted in the third step The synthesized video data is synthesized with the background corresponding to the coordinate system defined in the second video data received in the second step. A voice message between the terminal that has transmitted the first moving image data and the terminal that has transmitted the second moving image data. And a change in volume or sound quality of the voice message transmitted / received by the transmitter / receiver from a connection management device that supplies information indicating a change in volume or sound quality of the voice message transmitted / received by the transmitter / receiver. Is provided, and a sixth step is executed to execute the sixth step of making the video represented by the synthesized moving image data different in accordance with the supplied information.
また、本発明の他の態様に係るプログラムは、コンピュータに、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、前記第4ステップにより生成された合成動画データを送信する第5ステップと、前記第1ステップにより受信された第1動画データにおける前記被写体の変化を解析する第6ステップと、前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部であって、供給される前記被写体の変化を表す情報に応じて、送受信する前記音声メッセージの音量又は音質を異ならせる送受信部を備える接続管理装置へ、前記第6ステップにより解析された前記被写体の変化を表す情報を供給する第7ステップとを実行させるためのプログラムである。In addition, a program according to another aspect of the present invention receives first moving image data including distance information for each pixel of a subject, the first moving image data capturing a subject including a predetermined object, on a computer. A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker; A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step, and according to the pixel extracted in the third step The synthesized video data is synthesized with the background corresponding to the coordinate system defined in the second video data received in the second step. A fourth step, a fifth step for transmitting the composite moving image data generated by the fourth step, a sixth step for analyzing a change in the subject in the first moving image data received by the first step, A transmission / reception unit that transmits and receives a voice message between a terminal that has transmitted the first moving image data and a terminal that has transmitted the second moving image data, and transmits and receives the message according to information representing a change in the supplied subject. A program for executing a seventh step of supplying information representing a change in the subject analyzed in the sixth step to a connection management device including a transmission / reception unit that varies the volume or sound quality of the voice message.

本発明によれば、相互のユーザによって撮影された映像に基づいて合成された動画を用いたリアルタイムなコミュニケーションが可能である。   ADVANTAGE OF THE INVENTION According to this invention, real-time communication using the moving image synthesize | combined based on the image | video image | photographed by the mutual user is possible.

通信システムの全体構成を示すブロック図Block diagram showing overall configuration of communication system ユーザ端末のハードウェア構成を示すブロック図Block diagram showing the hardware configuration of the user terminal AR動画生成装置及び接続管理装置のハードウェア構成を示すブロック図The block diagram which shows the hardware constitutions of AR animation production | generation apparatus and a connection management apparatus AR動画生成装置及び接続管理装置の機能構成を示すブロック図The block diagram which shows the function structure of AR moving image production | generation apparatus and a connection management apparatus 動画データが表す映像を説明するための模式図Schematic diagram for explaining the video represented by video data オブジェクトの抽出原理を説明するための図Diagram for explaining the object extraction principle AR動画生成装置が実行する処理を示すフローチャートThe flowchart which shows the process which AR animation production | generation apparatus performs 通信システムの各装置における処理を示すシーケンスチャートSequence chart showing processing in each device of the communication system

[実施形態]
図1は、本発明の一実施形態である通信システム10の全体構成を示すブロック図である。通信システム10は、ユーザ間で音声とAR動画によるリアルタイムなコミュニケーションを実現するための情報処理システムであり、本発明に係る画像コミュニケーションシステムの一例である。ここにおいて、AR動画とは、複数のユーザによって撮影された映像を互いに合成した動画をいい、AR技術を用いて生成されるものである。なお、ここでいうリアルタイムとは、目的とする処理があらかじめ決められた時間までに終了することを意味し、当該時間が比較的短時間であるものを意味する。通信システム10は、AR動画生成装置100と、接続管理装置200と、ユーザ端末300と、ネットワーク400とを備える。
[Embodiment]
FIG. 1 is a block diagram showing an overall configuration of a communication system 10 according to an embodiment of the present invention. The communication system 10 is an information processing system for realizing real-time communication using voice and AR video between users, and is an example of an image communication system according to the present invention. Here, the AR moving image refers to a moving image obtained by synthesizing videos taken by a plurality of users, and is generated using the AR technology. Note that the real time here means that the target processing is completed by a predetermined time, and that the time is relatively short. The communication system 10 includes an AR video generation device 100, a connection management device 200, a user terminal 300, and a network 400.

AR動画生成装置100は、複数のユーザ端末300から動画データを受信し、これらを合成した合成動画データを生成及び送信するサーバ装置である。接続管理装置200は、ユーザ端末300間の接続(ここでは呼接続)を管理し、発話や終話を制御するサーバ装置である。接続管理装置200による管理には、コミュニケーションのリアルタイム性を確保するための処理が含まれる。なお、AR動画生成装置100と接続管理装置200とは、ネットワーク400によらずに、これとは異なる通信回線で互いに接続されていてもよい。   The AR moving image generating device 100 is a server device that receives moving image data from a plurality of user terminals 300, and generates and transmits synthesized moving image data obtained by combining these moving image data. The connection management device 200 is a server device that manages the connection (here, call connection) between the user terminals 300 and controls the utterance and the call termination. Management by the connection management device 200 includes processing for ensuring real-time communication. Note that the AR video generation device 100 and the connection management device 200 may be connected to each other via a communication line different from the network 400, without using the network 400.

ユーザ端末300は、通信システム10によってコミュニケーションを行うユーザが使用する通信端末である。ユーザ端末300は、通信システム10のための専用の通信端末であってもよいし、本実施形態のコミュニケーションを行うために必要な周辺機器をスマートフォンやパーソナルコンピュータに取り付けたものであってもよい。なお、ユーザ端末300は、実際にはネットワーク400に多数接続されていてもよいが、図1ではコミュニケーションを行う二者の端末のみが図示されている。以下においては、これらの端末を区別する必要がある場合には、「ユーザ端末300a」、「ユーザ端末300b」と表記するものとする。   The user terminal 300 is a communication terminal used by a user who communicates with the communication system 10. The user terminal 300 may be a dedicated communication terminal for the communication system 10 or may be a device in which peripheral devices necessary for performing communication according to the present embodiment are attached to a smartphone or a personal computer. Note that a large number of user terminals 300 may actually be connected to the network 400, but only two terminals that perform communication are illustrated in FIG. In the following, when it is necessary to distinguish these terminals, they will be referred to as “user terminal 300a” and “user terminal 300b”.

ネットワーク400は、音声や動画などのデータを送受信するためのネットワークである。ネットワーク400は、音声を送受信するための通信回線と動画を送受信するための通信回線を別異に構成したものであってもよいが、そうでなくともよい。また、ネットワーク400は、パケット交換方式と回線交換方式のいずれの通信回線のいずれを用いたものであってもよい。   The network 400 is a network for transmitting and receiving data such as voice and moving images. The network 400 may be configured such that a communication line for transmitting and receiving audio and a communication line for transmitting and receiving a moving image are different from each other, but this need not be the case. Further, the network 400 may use any of the communication lines of the packet switching system and the circuit switching system.

図2は、ユーザ端末300のハードウェア構成を示すブロック図である。ユーザ端末300は、制御部310と、記憶部320と、通信部330と、第1撮影部340と、第2撮影部350と、表示部360と、音声入出力部370と、操作部380とを備える。図2に示す構成のことを、以下においては「標準構成」という。   FIG. 2 is a block diagram illustrating a hardware configuration of the user terminal 300. The user terminal 300 includes a control unit 310, a storage unit 320, a communication unit 330, a first imaging unit 340, a second imaging unit 350, a display unit 360, a voice input / output unit 370, and an operation unit 380. Is provided. The configuration shown in FIG. 2 is hereinafter referred to as “standard configuration”.

制御部310は、ユーザ端末300の動作を制御する手段である。制御部310は、CPU(Central Processing Unit)などの演算処理装置やメモリを備え、所定のプログラムを実行することによって動画の撮影やデータ通信などを制御する。また、制御部310は、後述する3次元の座標系を算出する算出部311を備える。なお、算出部311による座標系の算出方法は、周知の方法と同様であってよい。例えば、算出部311は、撮影された映像の中から所定の形状のマーカを認識し、当該認識された形状と実際の形状の相違(すなわち歪み)に基づいて傾きを特定して傾き情報を算出するとともに、特定した傾きとマーカの位置とに基づいて3次元の直交座標系を定義し、座標を表す座標情報を算出する。   The control unit 310 is means for controlling the operation of the user terminal 300. The control unit 310 includes an arithmetic processing device such as a CPU (Central Processing Unit) and a memory, and controls shooting of moving images, data communication, and the like by executing a predetermined program. In addition, the control unit 310 includes a calculation unit 311 that calculates a three-dimensional coordinate system to be described later. Note that the calculation method of the coordinate system by the calculation unit 311 may be the same as a known method. For example, the calculation unit 311 recognizes a marker having a predetermined shape from the captured video, specifies inclination based on a difference (that is, distortion) between the recognized shape and the actual shape, and calculates inclination information. In addition, a three-dimensional orthogonal coordinate system is defined based on the specified inclination and the position of the marker, and coordinate information representing the coordinates is calculated.

記憶部320は、データを記憶する手段である。記憶部320は、補助記憶装置に相当し、例えば、ハードディスクやフラッシュメモリを含んで構成される。記憶部320は、ユーザ端末300(自装置)のリソースに関するリソース情報を記憶している。ここにおいて、リソース情報とは、ユーザ端末300がどのようなリソースを有しているかを示すデータをいう。ここでいうリソースは、ハードウェア的なリソースとソフトウェア的なリソースの双方を含み得る。リソース情報は、例えば、ユーザ端末300の識別情報(機種名など)、CPUの処理能力、第1撮影部340や第2撮影部350の性能(画素数など)、表示部360の性能(表示解像度など)、対応しているコーデック、コミュニケーションに必要なソフトウェアのバージョン情報などを示す。   The storage unit 320 is means for storing data. The storage unit 320 corresponds to an auxiliary storage device and includes, for example, a hard disk or a flash memory. The memory | storage part 320 has memorize | stored the resource information regarding the resource of the user terminal 300 (own apparatus). Here, the resource information refers to data indicating what resources the user terminal 300 has. The resource here may include both a hardware resource and a software resource. The resource information includes, for example, the identification information (model name, etc.) of the user terminal 300, the processing capability of the CPU, the performance (number of pixels, etc.) of the first imaging unit 340 and the second imaging unit 350, and the performance (display resolution) of the display unit 360. Etc.), the corresponding codec, software version information necessary for communication, etc.

通信部330は、ネットワーク400を介してデータを送受信する手段である。通信部330による通信は、無線・有線のいずれであってもよい。また、通信部330は、ユーザ端末300の一部が外付けの周辺機器によって構成される場合に当該周辺機器と通信を行う構成を含んでもよい。   The communication unit 330 is means for transmitting / receiving data via the network 400. Communication by the communication unit 330 may be either wireless or wired. Further, the communication unit 330 may include a configuration for communicating with a peripheral device when a part of the user terminal 300 is configured with an external peripheral device.

第1撮影部340及び第2撮影部350は、いずれも被写体を撮影して動画データを出力する手段である。第1撮影部340及び第2撮影部350により出力される動画データは、被写体の各画素の色を表す色情報を少なくとも含んでいる。また、第1撮影部340は、ユーザを含む被写体を撮影するために用いられ、第2撮影部350は、マーカ(ARマーカ)を含む被写体を撮影するために用いられる。さらに、第1撮影部340は、距離画像センサを含んで構成される。一方、第2撮影部350は、通常のイメージセンサ、すなわち距離情報を出力しないイメージセンサであってもよい。   The first photographing unit 340 and the second photographing unit 350 are both means for photographing a subject and outputting moving image data. The moving image data output by the first photographing unit 340 and the second photographing unit 350 includes at least color information representing the color of each pixel of the subject. The first photographing unit 340 is used for photographing a subject including a user, and the second photographing unit 350 is used for photographing a subject including a marker (AR marker). Furthermore, the first imaging unit 340 includes a distance image sensor. On the other hand, the second imaging unit 350 may be a normal image sensor, that is, an image sensor that does not output distance information.

距離画像センサとは、各画素の距離情報を出力することができるイメージセンサである。距離画像センサには、あらかじめ決められたパターンの光を照射し、その反射光の歪みによってセンサと被写体との距離を測定する「パターン照射方式」と、被写体に対して光を照射し、光が被写体に反射して戻ってくるまでの所要時間によってセンサと被写体との距離を測定する「TOF(Time of Flight)方式」とがあるが、第1撮影部340にはいずれの方式が用いられてもよい。   The distance image sensor is an image sensor that can output distance information of each pixel. The distance image sensor irradiates light with a predetermined pattern, measures the distance between the sensor and the subject by distortion of the reflected light, and irradiates the subject with light. There is a “TOF (Time of Flight) method” in which the distance between the sensor and the subject is measured according to the time required for the light to reflect back to the subject, and any method is used for the first photographing unit 340. Also good.

第1撮影部340は、このような距離画像センサと通常のイメージセンサとを備え、色情報と距離情報とを出力する。距離画像センサとイメージセンサは、同じ方向を撮影し、距離画像センサの画素とイメージセンサの画素との対応付けがあらかじめ得られているものとする。   The first photographing unit 340 includes such a distance image sensor and a normal image sensor, and outputs color information and distance information. It is assumed that the distance image sensor and the image sensor photograph the same direction, and the correspondence between the pixels of the distance image sensor and the pixels of the image sensor is obtained in advance.

表示部360は、画像を表示する手段である。表示部360は、ユーザ端末300に備わる液晶等のディスプレイであってもよいし、ユーザ端末300とは別体のテレビのようなディスプレイであってもよい。また、表示部360は、HMD(Head Mounted Display)のようにユーザに装着される構成であってもよい。   The display unit 360 is a means for displaying an image. The display unit 360 may be a display such as a liquid crystal provided in the user terminal 300, or may be a display such as a television separate from the user terminal 300. Further, the display unit 360 may be configured to be worn by the user like an HMD (Head Mounted Display).

音声入出力部370は、音声を入力及び出力する手段である。音声入出力部370は、スピーカやマイクロホンを備える。音声入出力部370は、音声の入出力をステレオ・モノラルのいずれで行ってもよい。
操作部380は、ユーザの操作を受け付ける手段である。操作部380は、キーパッド(キーボード)や、表示部360のディスプレイに重ねて設けられるタッチスクリーンを備える。
The voice input / output unit 370 is means for inputting and outputting voice. The voice input / output unit 370 includes a speaker and a microphone. The audio input / output unit 370 may perform audio input / output in either stereo or monaural.
The operation unit 380 is a unit that receives a user operation. The operation unit 380 includes a keypad (keyboard) and a touch screen provided to overlap the display of the display unit 360.

なお、ユーザ端末300は、これらの構成を全て備えるものを標準構成とするが、後述するように、当該構成の一部を有しない端末であっても、本実施形態のコミュニケーションを(制限付きで)行うことが可能である。また、ユーザ端末300は、表示解像度などの個々のリソースが一致していなくてもよい。   Note that the user terminal 300 includes all of these configurations as a standard configuration. However, as will be described later, even in a terminal that does not have a part of the configuration, the communication of this embodiment (with restrictions) ) Is possible. In addition, the user terminal 300 does not have to match individual resources such as display resolution.

図3は、AR動画生成装置100及び接続管理装置200のハードウェア構成を示すブロック図である。AR動画生成装置100は、制御部110と、記憶部120と、通信部130とを備える。また、接続管理装置200は、制御部210と、記憶部220と、通信部130とを備える。制御部110、120は、自装置(AR動画生成装置100又は接続管理装置200)の動作を制御する手段である。また、記憶部120、220は、データを記憶する手段であり、通信部130、230は、データを送受信する手段である。通信部130、230は、ネットワーク400と通信するほか、ネットワーク400を介さずに互いに通信することも可能である。   FIG. 3 is a block diagram showing the hardware configuration of the AR video generation device 100 and the connection management device 200. The AR video generation device 100 includes a control unit 110, a storage unit 120, and a communication unit 130. The connection management apparatus 200 includes a control unit 210, a storage unit 220, and a communication unit 130. The control units 110 and 120 are means for controlling the operation of the own device (the AR video generation device 100 or the connection management device 200). The storage units 120 and 220 are units for storing data, and the communication units 130 and 230 are units for transmitting and receiving data. The communication units 130 and 230 can communicate with each other without going through the network 400 in addition to communicating with the network 400.

図4は、AR動画生成装置100及び接続管理装置200の機能構成を示すブロック図である。AR動画生成装置100及び接続管理装置200は、所定のプログラムを実行することにより、図4に示す機能を実現させる。接続管理装置200の制御部210は、送受信部211及びデータ授受部212として機能する。また、AR動画生成装置100の制御部110は、合成制御部110a及び同期制御部110bとして機能する。   FIG. 4 is a block diagram illustrating functional configurations of the AR moving image generating apparatus 100 and the connection management apparatus 200. The AR video generation device 100 and the connection management device 200 implement the functions shown in FIG. 4 by executing a predetermined program. The control unit 210 of the connection management apparatus 200 functions as a transmission / reception unit 211 and a data transmission / reception unit 212. In addition, the control unit 110 of the AR video generation device 100 functions as a synthesis control unit 110a and a synchronization control unit 110b.

送受信部211は、音声メッセージを送受信する手段である。送受信部211は、ユーザ端末300aから送信された音声メッセージをユーザ端末300bに送信し、ユーザ端末300bから送信された音声メッセージをユーザ端末300aに送信する。また、送受信部211は、音声メッセージを送受信するために必要な接続管理を行い、必要に応じて、音量や音質の制御を行う。   The transmission / reception unit 211 is means for transmitting / receiving a voice message. The transmission / reception unit 211 transmits the voice message transmitted from the user terminal 300a to the user terminal 300b, and transmits the voice message transmitted from the user terminal 300b to the user terminal 300a. In addition, the transmission / reception unit 211 performs connection management necessary for transmitting / receiving voice messages, and controls volume and sound quality as necessary.

データ授受部212は、AR動画生成装置100との間でデータを授受する手段である。データ授受部212は、AR動画生成装置100からリソース情報を取得し、AR動画生成装置100に回線情報を供給する。回線情報は、ユーザ端末300a、300bのそれぞれが使用している通信回線に関する情報であって、通信回線の伝達能力(転送帯域など)を示す。回線情報は、ユーザの通信事業者との契約内容によって異なる場合もあるし、通信回線の実際の利用状況(混雑の度合い)などによっても異なり得る。   The data exchanging unit 212 is a means for exchanging data with the AR moving image generating apparatus 100. The data transmission / reception unit 212 acquires resource information from the AR video generation device 100 and supplies line information to the AR video generation device 100. The line information is information relating to the communication line used by each of the user terminals 300a and 300b, and indicates the transmission capability (transfer bandwidth, etc.) of the communication line. The line information may differ depending on the contents of the contract with the user's telecommunications carrier, and may differ depending on the actual usage status (degree of congestion) of the communication line.

合成制御部110aは、映像の合成を制御する手段である。合成制御部110aは、より詳細には、第1受信部111a、111bと、第2受信部112a、112bと、抽出部113a、113bと、生成部114a、114bと、送信部115a、115bとを備える。   The composition control unit 110a is means for controlling the composition of video. More specifically, the composition control unit 110a includes first reception units 111a and 111b, second reception units 112a and 112b, extraction units 113a and 113b, generation units 114a and 114b, and transmission units 115a and 115b. Prepare.

なお、第1受信部111a、第2受信部112a、抽出部113a、生成部114a及び送信部115aは、それぞれ、ユーザ端末300aに合成動画データを送信するための構成である。一方、第1受信部111b、第2受信部112b、抽出部113b、生成部114b及び送信部115bは、それぞれ、ユーザ端末300bに合成動画データを送信するための構成である。例えば、第1受信部111aと第1受信部111bとは、動画データを受信する端末が異なるだけであって、実行する動作自体には相違がない。同様に、第2受信部112a、112b、抽出部113a、113b、生成部114a、114b及び送信部115a、115bの各組み合わせも、処理対象とするデータが異なるだけで、実行可能な処理には相違がないものである。   In addition, the 1st receiving part 111a, the 2nd receiving part 112a, the extraction part 113a, the production | generation part 114a, and the transmission part 115a are the structures for transmitting synthetic | combination moving image data to the user terminal 300a, respectively. On the other hand, the 1st receiving part 111b, the 2nd receiving part 112b, the extraction part 113b, the production | generation part 114b, and the transmission part 115b are the structures for transmitting synthetic | combination moving image data to the user terminal 300b, respectively. For example, the first receiving unit 111a and the first receiving unit 111b differ only in the terminal that receives the moving image data, and there is no difference in the operation itself. Similarly, the combinations of the second receiving units 112a and 112b, the extracting units 113a and 113b, the generating units 114a and 114b, and the transmitting units 115a and 115b differ only in the data to be processed and are different in the executable processing. There is no.

第1受信部111a、111bは、第1撮影部340により撮影された動画データを受信する手段である。すなわち、第1受信部111a、111bは、通信部130を介して受信されるデータのうち、第1撮影部340により撮影された動画データを選択的に取得する。第1受信部111aは、この動画データをユーザ端末300bから取得し、第1受信部111bは、この動画データをユーザ端末300aから取得する。第1受信部111a、111bが受信する動画データは、距離情報を含む動画データである。   The first receiving units 111a and 111b are means for receiving moving image data shot by the first shooting unit 340. That is, the first receiving units 111a and 111b selectively acquire the moving image data shot by the first shooting unit 340 among the data received via the communication unit 130. The first receiving unit 111a acquires the moving image data from the user terminal 300b, and the first receiving unit 111b acquires the moving image data from the user terminal 300a. The moving image data received by the first receiving units 111a and 111b is moving image data including distance information.

第2受信部112a、112bは、第2撮影部350により撮影された動画データを受信する手段である。すなわち、第2受信部112a、112bは、通信部130を介して受信されるデータのうち、第2撮影部350により撮影された動画データを選択的に取得する。第2受信部112aは、この動画データをユーザ端末300aから取得し、第2受信部112bは、この動画データをユーザ端末300bから取得する。第2受信部112a、112bが受信する動画データは、その映像中にマーカを少なくとも含み、当該マーカによって定義される3次元の座標系の情報を含む動画データである。   The second receiving units 112 a and 112 b are means for receiving the moving image data shot by the second shooting unit 350. That is, the second receiving units 112a and 112b selectively acquire the moving image data shot by the second shooting unit 350 among the data received via the communication unit 130. The second receiving unit 112a acquires the moving image data from the user terminal 300a, and the second receiving unit 112b acquires the moving image data from the user terminal 300b. The moving image data received by the second receiving units 112a and 112b is moving image data including at least a marker in the video and including information on a three-dimensional coordinate system defined by the marker.

以下においては、説明の便宜上、第1撮影部340により撮影された動画データを「第1動画データ」といい、第2撮影部350により撮影された動画データを「第2動画データ」という。つまり、第1動画データは距離情報を含み、第2動画データは(座標系を特定可能な)マーカの画像を含む。   In the following, for convenience of explanation, the moving image data shot by the first shooting unit 340 is referred to as “first moving image data”, and the moving image data shot by the second shooting unit 350 is referred to as “second moving image data”. That is, the first moving image data includes distance information, and the second moving image data includes an image of a marker (which can specify a coordinate system).

抽出部113a、113bは、第1受信部111a、111bにより受信された第1動画データから、所定のオブジェクトに相当する画素を抽出する手段である。抽出部113a、113bは、第1動画データの距離情報に基づき、センサとの距離が所定の条件を満たす画素を抽出し、当該画素の色情報と距離情報を特定する。ここにおいて、所定の条件は、センサとの距離について設定された閾値によって定まる。閾値は、距離の上限のみが設定されていてもよいし、上限と下限の双方が設定されていてもよい。   The extraction units 113a and 113b are means for extracting pixels corresponding to a predetermined object from the first moving image data received by the first reception units 111a and 111b. Based on the distance information of the first moving image data, the extraction units 113a and 113b extract a pixel whose distance from the sensor satisfies a predetermined condition, and specifies the color information and distance information of the pixel. Here, the predetermined condition is determined by a threshold set for the distance from the sensor. As the threshold value, only the upper limit of the distance may be set, or both the upper limit and the lower limit may be set.

生成部114a、114bは、第1受信部111a、111bにより受信された第1動画データと第2受信部112a、112bにより受信された第2動画データとに基づいて、合成動画データを生成する手段である。生成部114a、114bは、第2受信部112a、112bにより受信された第2動画データが表す映像から背景中にあるマーカを検出し、検出したマーカに基づいて当該背景の3次元の座標系を特定し、抽出部113a、113bにより抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成する。本実施形態において、生成部114a、114bは、ユーザ端末300の算出部311により算出された座標系を用いて合成動画データを生成する。   The generating units 114a and 114b generate synthetic moving image data based on the first moving image data received by the first receiving units 111a and 111b and the second moving image data received by the second receiving units 112a and 112b. It is. The generation units 114a and 114b detect a marker in the background from the video represented by the second moving image data received by the second reception units 112a and 112b, and based on the detected marker, the three-dimensional coordinate system of the background is detected. The image corresponding to the pixel identified and extracted by the extraction units 113a and 113b is combined with the background so as to correspond to the coordinate system. In the present embodiment, the generation units 114 a and 114 b generate synthetic moving image data using the coordinate system calculated by the calculation unit 311 of the user terminal 300.

生成部114a、114bは、第1動画データが表す映像の座標系と第2動画データが表す映像の座標系を対応するようにして合成動画データを生成する。具体的には、生成部114a、114bは、第1動画データについて、画素の配列に基づいてx軸とy軸を定義し、距離情報の方向にz軸を定義すると、3次元の直交座標系を定義することができる。そして、生成部114a、114bは、第2動画データについてマーカによって定義される座標系と第1動画データに定義された座標系とを対応付けるようにしてこれらの映像を合成する。生成部114a、114bは、いったん両者の座標系を対応付けたら、その後はその対応付けが維持されるようにして映像の合成を続ける。このとき、生成部114a、114bは、一方の座標系のある座標と他方の座標系のある座標とが一致するように合成を行うなどして、これらの映像の位置合わせを行う。   The generation units 114a and 114b generate the combined moving image data so that the coordinate system of the video represented by the first moving image data corresponds to the coordinate system of the video represented by the second moving image data. Specifically, when the generation units 114a and 114b define the x-axis and the y-axis based on the pixel arrangement and the z-axis in the direction of the distance information for the first moving image data, the three-dimensional orthogonal coordinate system Can be defined. Then, the generation units 114a and 114b synthesize these videos so as to associate the coordinate system defined by the marker with the coordinate system defined in the first moving image data for the second moving image data. Once the generating units 114a and 114b associate the two coordinate systems once, the generating units 114a and 114b continue to synthesize the video so that the association is maintained. At this time, the generation units 114a and 114b align these images by performing synthesis so that a certain coordinate in one coordinate system matches a certain coordinate in the other coordinate system.

また、生成部114a、114bは、これらの映像を合成するときに、タイミングの調整やエフェクト等の画像処理を行ってもよい。例えば、生成部114a、114bは、第1動画データと第2動画データの受信タイミングに時間差がある場合に、その時間差が少なくなるように合成時のタイミングを調整する。また、ここでいう画像処理は、映像に対して何らかの画像を重畳する処理であってもよいし、合成する2つの映像の明るさや色合いを合わせる処理であってもよい。   The generation units 114a and 114b may perform image processing such as timing adjustment and effects when combining these videos. For example, when there is a time difference between the reception timings of the first moving image data and the second moving image data, the generation units 114a and 114b adjust the timing at the time of synthesis so that the time difference is reduced. The image processing here may be processing for superimposing some kind of image on the video, or processing for matching the brightness and color of the two videos to be combined.

送信部115a、115bは、生成部114a、114bにより生成された合成動画データをユーザ端末300a、300bに送信する手段である。送信部115aは、合成動画データをユーザ端末300aに送信し、送信部115bは、合成動画データをユーザ端末300bに送信する。このようにすることで、ユーザ端末300a、300bのユーザは、自身が送信した第2動画データ(マーカを撮影した動画データ)に対して相手方のユーザのオブジェクト(顔、上半身など)が合成された動画を見ることができるようになる。   The transmission units 115a and 115b are means for transmitting the combined moving image data generated by the generation units 114a and 114b to the user terminals 300a and 300b. The transmission unit 115a transmits the composite video data to the user terminal 300a, and the transmission unit 115b transmits the composite video data to the user terminal 300b. By doing in this way, the user of user terminal 300a, 300b synthesize | combined the other user's object (a face, upper body, etc.) with the 2nd moving image data (moving image data which image | photographed the marker) which he transmitted. You will be able to watch videos.

同期制御部110bは、合成動画データの再生と音声メッセージの再生とを同期させるための処理を実行する手段である。例えば、同期制御部110bは、回線情報の変化に追従するように、合成動画データの圧縮方式を異ならせることができる。また、同期制御部110bは、送受信部211が音声メッセージを合成動画データに合わせて再生するために必要なデータを接続管理装置200に供給することもできる。同期制御部110bは、より詳細には、データ授受部116と、判断部117と、解析部118とを含んで構成される。   The synchronization control unit 110b is a means for executing processing for synchronizing the reproduction of the synthesized moving image data and the reproduction of the voice message. For example, the synchronization control unit 110b can change the compression method of the combined moving image data so as to follow the change in the line information. The synchronization control unit 110b can also supply the connection management device 200 with data necessary for the transmission / reception unit 211 to reproduce the voice message in accordance with the synthesized moving image data. More specifically, the synchronization control unit 110b includes a data exchange unit 116, a determination unit 117, and an analysis unit 118.

データ授受部116は、接続管理装置200との間でデータを授受する手段である。データ授受部116は、接続管理装置200から回線情報を取得し、接続管理装置200にリソース情報を供給する。   The data transmission / reception unit 116 is a means for exchanging data with the connection management device 200. The data transfer unit 116 acquires line information from the connection management apparatus 200 and supplies resource information to the connection management apparatus 200.

判断部117は、回線情報又はリソース情報に基づいて、ユーザ端末300aとユーザ端末300bとが合成動画データによるコミュニケーションを行うことができるか否かを端末毎に判断する手段である。例えば、合成制御部110aは、ユーザ端末300aとユーザ端末300bの一方の通信回線が合成動画データのリアルタイムな再生に必要な品質を満たしていない場合には、当該一方についての合成動画データを生成せずに、他方の合成動画データのみを生成及び送信する、といった処理を、判断部117による判断結果に基づいて行うことができる。また、合成制御部110aは、リソース情報による判断結果に基づき、ユーザ端末300が第1撮影部340を備えていない場合には合成動画データの生成を行わないようにすることも可能である。   The determining unit 117 is a unit that determines, for each terminal, whether or not the user terminal 300a and the user terminal 300b can perform communication using the composite moving image data based on the line information or the resource information. For example, when one communication line of the user terminal 300a and the user terminal 300b does not satisfy the quality necessary for real-time reproduction of the composite video data, the synthesis control unit 110a generates the composite video data for the one. Instead, the process of generating and transmitting only the other combined moving image data can be performed based on the determination result by the determination unit 117. Further, based on the determination result based on the resource information, the composition control unit 110a can also prevent the composite moving image data from being generated when the user terminal 300 does not include the first photographing unit 340.

解析部118は、第1受信部111a、111bにより受信された第1動画データにおける被写体の変化を解析し、その解析結果を表す情報を生成する手段である。同期制御部110bは、解析部118により生成された情報を接続管理装置200に供給する。解析部118は、例えば、被写体であるユーザの移動を解析する。あるいは、解析部118は、周知の顔認識技術(例えば、笑顔を検出する技術)を用いて、被写体であるユーザの表情の変化を解析してもよい。また、解析部118は、ユーザの変化に限らず、被写体全体の変化(例えば、明るさの変化)を解析により求めてもよい。   The analysis unit 118 is a unit that analyzes changes in the subject in the first moving image data received by the first reception units 111a and 111b and generates information representing the analysis result. The synchronization control unit 110b supplies the information generated by the analysis unit 118 to the connection management apparatus 200. For example, the analysis unit 118 analyzes the movement of the user who is the subject. Alternatively, the analysis unit 118 may analyze changes in the facial expression of the user who is the subject using a known face recognition technique (for example, a technique for detecting a smile). Further, the analysis unit 118 may obtain a change in the entire subject (for example, a change in brightness) by analysis, not limited to a change in the user.

通信システム10の構成は、以上のとおりである。この構成のもと、ユーザは、ユーザ端末300を用いて他のユーザとリアルタイムなコミュニケーションを行う。ここでいうコミュニケーションは、音声と映像とを用いたものであり、例えば、いわゆるテレビ電話のようなものである。ただし、本実施形態のコミュニケーションは、AR技術によって合成された映像を利用可能である点において従来のテレビ電話と異なっている。   The configuration of the communication system 10 is as described above. Under this configuration, the user communicates with other users in real time using the user terminal 300. The communication here uses audio and video, and is, for example, a so-called videophone. However, the communication of the present embodiment is different from the conventional videophone in that an image synthesized by the AR technology can be used.

このようなコミュニケーションを実現するために、ユーザ端末300においては、被写体が異なる2種類の動画データが撮影及び送信される。動画データの一つは、上述した第1動画データであり、ユーザが自身を撮影して得られるものである。また、もう一つの動画データは、上述した第2動画データであり、ユーザがマーカを撮影して得られるものである。   In order to realize such communication, the user terminal 300 captures and transmits two types of moving image data with different subjects. One of the moving image data is the first moving image data described above, and is obtained by the user photographing himself / herself. Another moving image data is the above-described second moving image data, which is obtained by a user shooting a marker.

AR動画生成装置100は、これらの動画データを受信し、合成動画データを生成及び送信する。AR動画生成装置100は、一方のユーザ端末300から送信され、ユーザを被写体に含む第2動画データと、他方のユーザ端末300から送信され、マーカを被写体に含む第1動画データとを用いて合成動画データを生成し、これを当該一方のユーザ端末300に送信する。すなわち、AR動画生成装置100は、マーカを映した動画をあるユーザから受信し、これを背景に用いて、他のユーザを映した映像をここに合成する。このとき、AR動画生成装置100は、第2動画データの映像からユーザに相当する所定のオブジェクトを抽出し、これを背景に重ね合わせる。   The AR moving image generating apparatus 100 receives these moving image data, and generates and transmits composite moving image data. The AR moving image generating apparatus 100 is synthesized using the second moving image data transmitted from one user terminal 300 and including the user as a subject, and the first moving image data transmitted from the other user terminal 300 and including the marker as the subject. Video data is generated and transmitted to the one user terminal 300. That is, the AR moving image generating apparatus 100 receives a moving image showing a marker from a certain user, and uses this as a background to synthesize an image showing another user here. At this time, the AR moving image generating apparatus 100 extracts a predetermined object corresponding to the user from the video of the second moving image data, and superimposes it on the background.

図5は、本実施形態において送受信される動画データが表す映像を説明するための模式図である。ここにおいて、映像V1a、V2a、V3aは、それぞれ、ユーザ端末300aにより送受信される動画データが表す映像であり、映像V1b、V2b、V3bは、それぞれ、ユーザ端末300bにより送受信される動画データが表す映像であるとする。また、映像V1a、V1bが第1動画データ、映像V2a、V2bが第2動画データ、映像V3a、V3bが合成動画データに、それぞれ相当する。   FIG. 5 is a schematic diagram for explaining a video represented by moving image data transmitted and received in the present embodiment. Here, the videos V1a, V2a, and V3a are videos represented by moving picture data transmitted and received by the user terminal 300a, and the videos V1b, V2b, and V3b are videos represented by moving picture data transmitted and received by the user terminal 300b, respectively. Suppose that The videos V1a and V1b correspond to the first moving image data, the videos V2a and V2b correspond to the second moving image data, and the videos V3a and V3b correspond to the combined moving image data, respectively.

なお、図5において、Ma、Mbは、それぞれマーカを示している。マーカMa、Mbは、あらかじめ決められた形状の画像を印刷等によって形成した小片であり、ユーザが好きな場所に配置することが可能である。マーカMa、Mbに形成された画像は、他の背景部分との識別が容易であり、かつ、座標系や傾きの特定が容易なように構成されていれば、どのようなパターンの画像であってもよい。   In FIG. 5, Ma and Mb indicate markers. The markers Ma and Mb are small pieces formed by printing an image of a predetermined shape by printing or the like, and can be arranged at a place the user likes. The image formed on the markers Ma and Mb is any pattern image as long as it can be easily distinguished from other background parts and can be easily specified in the coordinate system and the inclination. May be.

図5に示すように、ユーザ端末300aにおいて表示される映像V3aは、ユーザ端末300bからの第1動画データ(V1b)とユーザ端末300aからの第2動画データ(V2a)とを合成して得られる映像である。一方、ユーザ端末300bにおいて表示される映像V3bは、ユーザ端末300aからの第1動画データ(V1a)とユーザ端末300bからの第2動画データ(V2b)とを合成して得られる映像である。   As shown in FIG. 5, the video V3a displayed on the user terminal 300a is obtained by synthesizing the first moving image data (V1b) from the user terminal 300b and the second moving image data (V2a) from the user terminal 300a. It is a picture. On the other hand, the video V3b displayed on the user terminal 300b is a video obtained by combining the first video data (V1a) from the user terminal 300a and the second video data (V2b) from the user terminal 300b.

なお、図5に示すように、映像V3a、V3bに合成されるオブジェクト(この場合、ユーザの上半身)は、映像V1a、V1bに含まれるオブジェクトと等しい倍率である必要はなく、拡大・縮小などを適宜に行ってよい。また、映像V3a、V3bに合成されるオブジェクトは、距離情報に基づいて凹凸が表現され、色情報に基づいて着色された立体的な画像(ポリゴン)であるとするが、平面的な画像であってもよい。   As shown in FIG. 5, the object (in this case, the user's upper body) to be combined with the videos V3a and V3b does not need to have the same magnification as the objects included in the videos V1a and V1b. It may be done as appropriate. In addition, the object combined with the videos V3a and V3b is a three-dimensional image (polygon) in which unevenness is expressed based on the distance information and colored based on the color information. May be.

図6は、オブジェクトの抽出原理を説明するための図である。距離画像センサによって得られる距離情報は、図中の破線の矢印によって示すように、各画素について得られる。ここにおいて、図中のThで示した閾値を設定し、距離情報により表される距離がこの閾値よりも小さい画素を抽出するようにすれば、被写体のうちのユーザに相当する部分の画素が選択され、ユーザ以外の部分(ユーザの背後の壁など)が除外されたオブジェクトが得られる。   FIG. 6 is a diagram for explaining the principle of object extraction. The distance information obtained by the distance image sensor is obtained for each pixel, as indicated by the dashed arrows in the figure. Here, if a threshold indicated by Th in the figure is set and pixels whose distance represented by the distance information is smaller than this threshold are extracted, the portion of the subject corresponding to the user is selected. Thus, an object excluding a part other than the user (such as a wall behind the user) is obtained.

なお、この閾値は、あらかじめ設定されており、例えばユーザが距離画像センサから1m以内の場所で会話するようにしてもよいし、複数の選択肢の中からユーザが選択できるようになっていてもよい。あるいは、閾値は、ユーザ端末300によって動的に設定されてもよい。例えば、ユーザ端末300は、色情報に基づいてユーザの位置(顔など)を推定し、この推定結果に基づいて閾値を設定することも可能である。   This threshold value is set in advance. For example, the user may have a conversation within a place within 1 m from the distance image sensor, or the user may be able to select from a plurality of options. . Alternatively, the threshold value may be dynamically set by the user terminal 300. For example, the user terminal 300 can estimate the user's position (such as a face) based on the color information and set a threshold based on the estimation result.

ユーザは、このようにして合成された映像を見ながら相手と会話することで、あたかも自分のそば(背景として撮影している位置)に相手がいるような感覚でコミュニケーションを行うことができる。これにより、ユーザは、リアリティのあるコミュニケーションをリアルタイムに行うことが可能になる。   The user can communicate with a partner as if he / she is beside him / herself (position taken as a background) by talking with the partner while watching the synthesized video. Thereby, the user can perform realistic communication in real time.

通信システム10においては、このような映像をユーザ端末300に表示可能にするために、AR動画生成装置100が合成動画データを生成及び送信する。AR動画生成装置100は、リソース情報や回線情報を参照し、必要な合成動画データを生成する。例えば、AR動画生成装置100は、ユーザ端末300のリソースや通信回線の状況に応じて、合成動画データの圧縮方式や転送レートを決定する。また、AR動画生成装置100は、リソース情報や回線情報に基づいて、合成動画データを生成するか否かを判断することも可能である。例えば、AR動画生成装置100は、合成動画データの送信に十分な転送帯域が確保されていない場合や、そもそもユーザ端末300が合成動画データを再生する機能を有しない場合などには、合成動画データを送信しないか、合成動画データよりもデータ量が少ない代替的なデータを送信する、といったことが可能である。   In the communication system 10, the AR video generation device 100 generates and transmits composite video data so that such video can be displayed on the user terminal 300. The AR moving image generating apparatus 100 refers to resource information and line information and generates necessary synthesized moving image data. For example, the AR moving image generating apparatus 100 determines the compression method and transfer rate of the combined moving image data according to the resource of the user terminal 300 and the state of the communication line. Further, the AR moving image generating apparatus 100 can determine whether or not to generate the combined moving image data based on the resource information and the line information. For example, the AR video generation device 100 may generate the composite video data when a transfer band sufficient for transmission of the composite video data is not secured or when the user terminal 300 does not have a function of reproducing the composite video data in the first place. Can be transmitted, or alternative data having a data amount smaller than that of the combined moving image data can be transmitted.

図7は、AR動画生成装置100が合成動画データを生成するときに実行する処理を示すフローチャートである。AR動画生成装置100の制御部110は、まず最初に、リソース情報と回線情報の少なくともいずれかを用いて、合成動画データの生成態様を判定する(ステップSa1)。このとき、制御部110は、合成動画データの生成の可否や、合成動画データを生成するときの圧縮方式や転送レートなどを、合成動画データの送信対象であるユーザ端末300のそれぞれについて判定する。   FIG. 7 is a flowchart showing processing executed when the AR moving image generating apparatus 100 generates composite moving image data. First, the control unit 110 of the AR moving image generating apparatus 100 determines the generation mode of the combined moving image data using at least one of the resource information and the line information (Step Sa1). At this time, the control unit 110 determines whether or not the composite moving image data can be generated, the compression method and the transfer rate when generating the combined moving image data, for each user terminal 300 that is the transmission target of the combined moving image data.

その後、制御部110は、ステップSa1の判定結果に応じた処理を実行する。制御部110は、一方のユーザ端末300であるユーザ端末300aについて、合成動画データを生成するか否か判断し(ステップSa2)、合成動画データを生成すると判定した場合には合成動画データを生成する一方、そうでなければ生成を行わない(ステップSa3)。また、合成動画データを生成する場合、制御部110は、ステップSa1の判定結果に応じて(すなわち回線情報やリソース情報に応じて)、合成動画データの圧縮方式や転送レートなどを異ならせる。   Then, the control part 110 performs the process according to the determination result of step Sa1. The control unit 110 determines whether or not to generate the combined moving image data for the user terminal 300a that is one user terminal 300 (step Sa2), and generates the combined moving image data when it is determined to generate the combined moving image data. On the other hand, generation is not performed otherwise (step Sa3). Further, when generating the composite moving image data, the control unit 110 varies the compression method, the transfer rate, and the like of the composite moving image data according to the determination result of Step Sa1 (that is, according to the line information and resource information).

続いて、制御部110は、他方のユーザ端末300であるユーザ端末300bについても同様に、合成動画データを生成するか否かの判断(ステップSa4)と合成動画データの生成(ステップSa5)とを実行する。そして、制御部110は、生成した合成動画データを通信部130に供給することにより、合成動画データをユーザ端末300a、300bのそれぞれに送信する(ステップSa6)。   Subsequently, similarly to the user terminal 300b, which is the other user terminal 300, the control unit 110 determines whether or not to generate the combined moving image data (Step Sa4) and generates the combined moving image data (Step Sa5). Run. And the control part 110 transmits synthetic | combination moving image data to each of user terminal 300a, 300b by supplying the produced | generated synthetic | combination moving image data to the communication part 130 (step Sa6).

AR動画生成装置100は、このような処理を実行することで、ユーザ端末300aとユーザ端末300bのそれぞれに応じた品質の合成動画データを生成することが可能である。また、AR動画生成装置100は、送信する必要がない合成動画データの生成を省略することが可能であり、自装置のリソースを効率的に使用して処理を進めることができる。   The AR moving image generating apparatus 100 can generate composite moving image data having a quality corresponding to each of the user terminal 300a and the user terminal 300b by executing such processing. Further, the AR moving image generating apparatus 100 can omit the generation of the composite moving image data that does not need to be transmitted, and can proceed with the processing by efficiently using the resource of the own apparatus.

図8は、通信システム10の各装置における処理を示すシーケンスチャートである。なお、図8に示す例は、ユーザ端末300a、300bの双方に合成動画データを送信する場合、すなわち、図7のステップSa2、Sa4のいずれの判断も「YES」となる場合のものである。また、図8においては、図示の便宜上、AR動画生成装置100を2つ示し、ユーザ端末300aに合成動画データを送信するための構成とユーザ端末300bに合成動画データを送信するための構成とを分けているが、実際には同一の装置で同時並行的に処理が行われてもよい。   FIG. 8 is a sequence chart showing processing in each device of the communication system 10. The example shown in FIG. 8 is a case where the composite moving image data is transmitted to both the user terminals 300a and 300b, that is, the case where both determinations in steps Sa2 and Sa4 in FIG. 7 are “YES”. Also, in FIG. 8, for convenience of illustration, two AR video generation devices 100 are shown, and a configuration for transmitting the composite video data to the user terminal 300a and a configuration for transmitting the composite video data to the user terminal 300b. In practice, however, the same apparatus may actually perform processing in parallel.

まず、ユーザ端末300aとユーザ端末300bとは、接続管理装置20を介して、呼接続を確立する(ステップSb1)。例えば、ユーザは、電話番号やこれに代替するもの(ユーザアカウントなど)を用いてコミュニケーションの相手を指定し、発話を開始することができる。   First, the user terminal 300a and the user terminal 300b establish a call connection via the connection management device 20 (step Sb1). For example, the user can designate a communication partner using a telephone number or an alternative (such as a user account) and start speaking.

呼接続が確立すると、接続管理装置20は、ユーザ端末300a、300bに接続情報を送信する(ステップSb2)。接続情報は、ユーザ端末300aとユーザ端末300bとが接続されたときに送信される情報であって、コミュニケーションの相手に関する情報などを含んでいる。例えば、接続情報には、呼接続以降にシステム内部で呼を識別するために用いられる呼識別情報などが含まれる。また、接続情報は、上述した回線情報やリソース情報を含んでもよい。なお、回線情報やリソース情報を接続情報に含む場合、ユーザ端末300は、第1動画データや第2動画データを送信するか否かを接続情報に基づいて判断してもよい。このようにすれば、図7に示した判定の一部をユーザ端末300で行うことが可能になる。   When the call connection is established, the connection management device 20 transmits connection information to the user terminals 300a and 300b (step Sb2). The connection information is information that is transmitted when the user terminal 300a and the user terminal 300b are connected, and includes information related to a communication partner. For example, the connection information includes call identification information used for identifying a call within the system after the call connection. Further, the connection information may include the above-described line information and resource information. When line information or resource information is included in the connection information, the user terminal 300 may determine whether to transmit the first moving image data or the second moving image data based on the connection information. In this way, a part of the determination shown in FIG.

また、ユーザ端末300a、300bは、呼接続が確立すると、映像の撮影を開始する(ステップSb3)。すなわち、ユーザ端末300a、300bは、第1撮影部340及び第2撮影部350を起動し、動画データを送信できる状態にする。そして、ユーザ端末300a、300bは、第1動画データと第2動画データを、AR動画生成装置100にそれぞれ送信する(ステップSb4、Sb5)。AR動画生成装置100は、第1動画データお第2動画データを受信すると、合成動画データを生成し(ステップSb6)、ユーザ端末300a、300bに送信する(ステップSb7)。   In addition, when the call connection is established, the user terminals 300a and 300b start capturing video (step Sb3). That is, the user terminals 300a and 300b activate the first photographing unit 340 and the second photographing unit 350 so that moving image data can be transmitted. Then, the user terminals 300a and 300b transmit the first moving image data and the second moving image data to the AR moving image generating device 100, respectively (steps Sb4 and Sb5). When receiving the first moving image data and the second moving image data, the AR moving image generating apparatus 100 generates the combined moving image data (step Sb6) and transmits it to the user terminals 300a and 300b (step Sb7).

以上のとおり、本実施形態によれば、一方のユーザが撮影した背景に対して他方のユーザの映像を合成し、合成した映像を用いながら音声メッセージをやり取りすることが可能になる。また、本実施形態においては、動画データの合成をAR動画生成装置100が行うため、ユーザ端末300においてポリゴンデータのレンダリングのような比較的負荷が高い処理を実行する必要がない。   As described above, according to the present embodiment, it is possible to synthesize the video of the other user with the background photographed by one user and exchange voice messages using the synthesized video. In the present embodiment, since the AR moving image generation apparatus 100 performs combining of moving image data, it is not necessary to execute a relatively high load process such as polygon data rendering in the user terminal 300.

また、本実施形態において、AR動画生成装置100は、合成動画データの生成態様をリソース情報や回線情報に応じて異ならせることができる。これにより、AR動画生成装置100は、遅延するおそれがより少ない態様でデータ転送を行ったり、無駄な処理の実行を省略したりすることが可能である。また、AR動画生成装置100は、一方のユーザ端末300のみが距離画像センサを備え、他方のユーザ端末300には距離画像センサが備わっていない場合であれば、当該他方のユーザ端末300に送信する合成動画データのみを生成することができ、このような態様でのコミュニケーションも実現可能である。   In the present embodiment, the AR moving image generating device 100 can change the generation mode of the combined moving image data according to the resource information and the line information. As a result, the AR moving image generating apparatus 100 can perform data transfer in a mode in which there is less risk of delay, or can omit performing unnecessary processing. In addition, in the AR video generation device 100, if only one user terminal 300 includes a distance image sensor and the other user terminal 300 does not include a distance image sensor, the AR moving image generation apparatus 100 transmits the other user terminal 300 to the other user terminal 300. Only synthetic video data can be generated, and communication in such a manner can be realized.

[変形例]
本発明は、上述した実施形態の態様に限らず、他の態様でも実施することができる。以下に示すのは、本発明の他の態様の一例である。なお、これらの変形例は、必要に応じて、各々を適宜組み合わせてもよい。
[Modification]
The present invention is not limited to the aspect of the embodiment described above, and can be implemented in other aspects. The following is an example of another embodiment of the present invention. In addition, you may combine these modifications suitably as needed.

(1)本発明は、二者に限らず、三者以上のコミュニケーションにも適用可能である。この場合において、各ユーザのユーザ端末300が距離画像センサを備えていてもよいが、特定の一のユーザのみが距離画像センサで自身を撮影する態様も可能である。例えば、第1ユーザ、第2ユーザ、第3ユーザという3名のユーザがコミュニケーションを行う場合において、第1ユーザのみが距離画像センサで自身を撮影し、第2ユーザと第3ユーザは背景のみを撮影する、といった態様でコミュニケーションを行うことも可能である。この場合、AR動画生成装置100は、撮影された第1ユーザに相当する画像を抽出し、これを第2ユーザ側で撮影された第2動画データに合成する処理と、第3ユーザ側で撮影された第2動画データに合成する処理とを実行し、第2ユーザと第3ユーザのそれぞれに応じた合成動画データを生成する。 (1) The present invention is applicable not only to two parties but also to communication of three or more parties. In this case, the user terminal 300 of each user may be provided with the distance image sensor, but a mode in which only one specific user photographs itself with the distance image sensor is also possible. For example, when three users, a first user, a second user, and a third user, communicate with each other, only the first user takes a picture with the distance image sensor, and the second user and the third user only take the background. It is also possible to communicate in a manner such as shooting. In this case, the AR moving image generating apparatus 100 extracts an image corresponding to the photographed first user, combines this with the second moving image data photographed on the second user side, and photographed on the third user side. A process of synthesizing the generated second moving image data is executed to generate combined moving image data corresponding to each of the second user and the third user.

このようにすれば、第2ユーザにあっては、自身が撮影している背景に第1ユーザの映像が重畳された映像を視聴可能である一方、第3ユーザにあっては、自身が撮影している背景に第1ユーザの映像が重畳された映像(すなわち、第1ユーザの映像は重畳されているが、第2ユーザが視聴している映像とは異なる映像)を視聴可能である。
なお、このような態様においては、第1ユーザのユーザ端末300は第2撮影部350を備えていなくてもよく、また、第2ユーザ及び第3ユーザのユーザ端末300は第1撮影部340を備えていなくてもよい。
In this way, the second user can view the video in which the first user's video is superimposed on the background he / she is shooting, while the third user can take the video. A video in which the video of the first user is superimposed on the background (that is, a video in which the video of the first user is superimposed but is different from the video that the second user is viewing) can be viewed.
In such an aspect, the user terminal 300 of the first user may not include the second photographing unit 350, and the user terminal 300 of the second user and the third user may include the first photographing unit 340. It does not have to be provided.

(2)上述したように、通信システム10においては、音声メッセージの音量又は音質の変化に応じて合成動画データの映像を変化させたり、あるいは第1動画データの映像の変化に応じて音声メッセージの音量又は音質を変化させることが可能である。具体的な例としては、以下のようなものがある。 (2) As described above, in the communication system 10, the video of the synthesized video data is changed according to the change in the volume or the sound quality of the voice message, or the voice message is changed according to the change in the video of the first video data. Volume or sound quality can be changed. Specific examples include the following.

例えば、AR動画生成装置100は、ユーザ端末300aに対して送信する合成動画データに関して、抽出されたオブジェクトを合成する場合において、ユーザ端末300bから送信された音声メッセージの音量が大きくなったときには、当該オブジェクトを拡大する一方、当該音声メッセージの音量が小さくなったときには、当該オブジェクトを縮小するようにしてもよい。また、AR動画生成装置100は、音声メッセージにノイズが生じるなどして音質が悪化した場合に、合成動画データが表す映像にも(意図的な)ノイズを付加したり、あるいは画質を劣化させたりしてもよい。このようにすれば、合成される映像と音声との間に感覚的な連動性を与えることが可能である。   For example, when the AR video generation device 100 combines the extracted objects with respect to the composite video data to be transmitted to the user terminal 300a, when the volume of the voice message transmitted from the user terminal 300b increases, While the object is enlarged, the object may be reduced when the volume of the voice message decreases. In addition, when the sound quality deteriorates due to noise generated in the voice message, the AR moving image generating apparatus 100 adds (intentional) noise to the video represented by the combined moving image data or deteriorates the image quality. May be. In this way, it is possible to give a sensory link between the synthesized video and audio.

また、接続管理装置200は、AR動画生成装置100から被写体の変化を表す情報に基づいて、抽出されたオブジェクトの大きさの変化や、距離情報の変化や、あるいは被写体全体の明るさの変化などを認識することが可能である。接続管理装置200は、このようにして認識された映像の変化に応じて、例えば、オブジェクトの大きさやその距離の変化に合わせて音量を変化させたり、被写体が明るいときと暗いときとで音質を異ならせたりしてもよい。また、接続管理装置200は、被写体であるユーザの表情の変化に応じて音質や音量を異ならせてもよい。さらに、接続管理装置200は、音声メッセージがマルチチャネル(例えばステレオ)のデータの場合であれば、所定のオブジェクトが抽出された位置の変化に応じて音像定位を制御し、例えば、被写体であるユーザの移動に追従するように音量やディレイを調整してもよい。   In addition, the connection management device 200 changes the size of the extracted object, changes in the distance information, or changes in the brightness of the entire subject based on the information representing the change in the subject from the AR video generation device 100. Can be recognized. The connection management device 200 changes the sound volume according to the change in the size of the object and the distance, for example, according to the change in the image recognized in this way, and the sound quality depending on whether the subject is bright or dark. It may be different. Further, the connection management apparatus 200 may vary the sound quality and volume according to changes in the facial expression of the user who is the subject. Further, if the voice message is multi-channel (for example, stereo) data, the connection management apparatus 200 controls the sound image localization according to the change in the position where the predetermined object is extracted, for example, the user who is the subject. The volume and delay may be adjusted so as to follow the movement.

(3)算出部311に相当する機能は、ユーザ端末300ではなく、AR動画生成装置100に備わっていてもよい。すなわち、AR動画生成装置100は、ユーザ端末300から送信された動画データに基づいて座標系を算出するように構成されてもよい。算出部311に相当する機能は、例えば、第2受信部112a、112bが有していてもよい。 (3) A function corresponding to the calculation unit 311 may be included in the AR moving image generation device 100 instead of the user terminal 300. That is, the AR moving image generating apparatus 100 may be configured to calculate a coordinate system based on moving image data transmitted from the user terminal 300. For example, the second reception units 112a and 112b may have a function corresponding to the calculation unit 311.

(4)AR動画生成装置100は、ユーザ端末300の動き(より詳細には、第2撮影部350の動き)に応じて、抽出したオブジェクトを回転させて合成することが可能である。しかし、距離画像センサで撮影ができるのは、ユーザが当該センサに向けている側(正面側)のみであって、反対側(背面側)を撮影することはできない。したがって、抽出されたオブジェクトのうち、距離画像センサで撮影できない部分については、これを表示させないか、あるいはあらかじめ決められた適当な代替的な映像を表示させるようにすればよい。 (4) The AR moving image generating apparatus 100 can synthesize the extracted object by rotating it according to the movement of the user terminal 300 (more specifically, the movement of the second photographing unit 350). However, the distance image sensor can shoot only the side (front side) where the user faces the sensor, and cannot shoot the opposite side (back side). Therefore, a portion of the extracted object that cannot be photographed by the distance image sensor may not be displayed or may be displayed as a suitable alternative video image that has been determined in advance.

なお、オブジェクトの回転は、ユーザの操作によって行われてもよい。すなわち、AR動画生成装置100は、ユーザの操作を受け付け、受け付けた操作に応じてオブジェクトを回転させてから、これを背景の映像に合成して合成動画データを生成することが可能である。   Note that the rotation of the object may be performed by a user operation. That is, the AR moving image generating apparatus 100 can receive a user operation, rotate an object in accordance with the received operation, and then synthesize it with a background image to generate combined moving image data.

(5)AR動画生成装置100は、抽出したオブジェクトに所定の画像を付加し、これを背景に合成することも可能である。ここでいう所定の画像とは、例えば、ユーザの顔や身体に装着する装飾品を模した画像(サングラス、洋服など)である。このようにすれば、ユーザの顔や身体の一部を隠した映像を表示することが可能になる。あるいは、AR動画生成装置100は、抽出したオブジェクトを所定の画像(アバタなど)に置き換えて合成を行ってもよい。AR動画生成装置100は、第2動画データが送信されてこなかった場合や、第2動画データの転送に遅延が生じている場合を判断し、このような場合に置き換えを行うようにしてもよい。なお、これらの画像を表示するための画像データは、あらかじめAR動画生成装置100や接続管理装置200に記憶されていてもよいし、ユーザ端末300がコミュニケーションを開始するときに接続管理装置200に送信してもよい。 (5) The AR moving image generating apparatus 100 can add a predetermined image to the extracted object and synthesize it with the background. The predetermined image referred to here is, for example, an image (sunglasses, clothes, etc.) imitating an ornament worn on the user's face or body. In this way, it is possible to display an image in which a part of the user's face or body is hidden. Alternatively, the AR moving image generating apparatus 100 may perform synthesis by replacing the extracted object with a predetermined image (such as an avatar). The AR video generation device 100 may determine when the second video data has not been transmitted or when there is a delay in the transfer of the second video data, and in such a case, replacement may be performed. . Note that image data for displaying these images may be stored in advance in the AR video generation device 100 or the connection management device 200, or transmitted to the connection management device 200 when the user terminal 300 starts communication. May be.

(6)接続情報には、上述した変形例(4)に示した画像データが含まれてもよい。また、接続情報は、このほかにも、ユーザがあらかじめ設定した属性情報(性別、趣味)などを含み得る。変形例(4)において、AR動画生成装置100は、抽出したオブジェクトを所定の画像に置き換え、又は当該オブジェクトに所定の画像を付加する場合に、表示すべき画像を属性情報に基づいて決定してもよい。 (6) The connection information may include the image data shown in the modified example (4) described above. In addition, the connection information may include attribute information (gender, hobby) set in advance by the user. In the modified example (4), the AR video generation device 100 determines an image to be displayed based on the attribute information when replacing the extracted object with a predetermined image or adding a predetermined image to the object. Also good.

(7)色情報の画素のサイズと距離情報の画素のサイズ、すなわち両者の解像度は、必ずしも一致していなくてもよい。例えば、距離情報の1画素は、色情報の4画素(縦2画素×横2画素)に相当していてもよい。この場合の距離情報は、色情報の4画素分について同一の値であるとしてもよいが、隣り合う画素の距離情報を参照して適当な補間処理を実行して算出されてもよい。 (7) The size of the pixel of color information and the size of the pixel of distance information, that is, the resolutions of both do not necessarily match. For example, one pixel of distance information may correspond to four pixels of color information (vertical 2 pixels × horizontal 2 pixels). The distance information in this case may be the same value for the four pixels of the color information, but may be calculated by executing appropriate interpolation processing with reference to the distance information of adjacent pixels.

(8)本発明において抽出されるオブジェクトは、距離情報が所定の条件を満たすものであればどのようなものであってもよく、必ずしもユーザである必要はない。例えば、ユーザは、自身に代えて、人形や、飼育しているペットを撮影し、これを合成対象の映像とすることも可能である。 (8) The object extracted in the present invention may be any object as long as the distance information satisfies a predetermined condition, and is not necessarily a user. For example, the user can take a picture of a doll or a reared pet instead of himself and use it as a composition target video.

(9)AR動画生成装置100及び接続管理装置200は、別体の装置として構成されるのではなく、一体に構成されてもよい。また、本発明は、音声メッセージに代えて、テキストメッセージを交換するものであってもよい。このようにすれば、チャットのようなコミュニケーションにも本発明を適用することが可能である。この場合において、AR動画生成装置100は、音量や音質に代えて、文字のサイズや文字装飾(フォント、下線、色など)に応じて、あるいは特定の文字(感嘆符など)の有無に応じて映像を異ならせることも可能である。 (9) The AR video generation device 100 and the connection management device 200 may be configured integrally instead of being configured as separate devices. Further, the present invention may replace text messages instead of voice messages. In this way, the present invention can be applied to communication such as chat. In this case, the AR moving image generating apparatus 100 replaces the volume and the sound quality, according to the character size and character decoration (font, underline, color, etc.), or according to the presence or absence of a specific character (exclamation mark, etc.). It is also possible to make the images different.

(10)本発明は、AR動画生成装置やこれを備える画像コミュニケーションシステムとしてだけではなく、AR動画生成装置が実行するプログラムや、合成した動画を用いたコミュニケーション方法として把握することも可能である。また、このプログラムは、光ディスクなどの記録媒体に記録した形態や、インターネットなどのネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にする形態などでも提供することができる。 (10) The present invention can be understood not only as an AR moving image generating device and an image communication system including the AR moving image generating device, but also as a communication method using a program executed by the AR moving image generating device or a synthesized moving image. The program can also be provided in a form recorded on a recording medium such as an optical disk, or a form that is downloaded to a computer via a network such as the Internet, and can be installed and used.

10…通信システム、100…AR動画生成装置、110…制御部、111a、111b…第1受信部、112a、112b…第2受信部、113a、113b…抽出部、114a、114b…生成部、115a、115b…送信部、116…データ授受部、117…判断部、118…解析部、記憶部…120、通信部…130、200…接続管理装置、210…制御部、211…送受信部、212…データ授受部、220…記憶部、130…通信部、300、300a、300b…ユーザ端末、310…制御部、320…記憶部、330…通信部、340…第1撮影部、350…第2撮影部、360…表示部、370…音声入出力部、380…操作部、400…ネットワーク DESCRIPTION OF SYMBOLS 10 ... Communication system, 100 ... AR animation production | generation apparatus, 110 ... Control part, 111a, 111b ... 1st reception part, 112a, 112b ... 2nd reception part, 113a, 113b ... Extraction part, 114a, 114b ... production | generation part, 115a , 115b ... transmission unit, 116 ... data exchange unit, 117 ... determination unit, 118 ... analysis unit, storage unit ... 120, communication unit ... 130, 200 ... connection management device, 210 ... control unit, 211 ... transmission / reception unit, 212 ... Data transmission / reception unit, 220 ... storage unit, 130 ... communication unit, 300, 300a, 300b ... user terminal, 310 ... control unit, 320 ... storage unit, 330 ... communication unit, 340 ... first imaging unit, 350 ... second imaging Part, 360 ... display part, 370 ... voice input / output part, 380 ... operation part, 400 ... network

Claims (15)

第1端末と第2端末との接続を管理する接続管理装置と、
前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、
前記接続管理装置は、
前記第1端末と前記第2端末とを接続する通信回線に関する回線情報を前記AR動画生成装置に供給し、
前記AR動画生成装置は、
前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを前記他方の端末に送信する送信部と
を備え
前記接続管理装置により供給された回線情報に応じて、前記合成動画データが表す映像を異ならせる画像コミュニケーションシステム。
A connection management device for managing the connection between the first terminal and the second terminal;
An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both to the at least one of the first terminal and the second terminal whose connection is managed by the connection management device; Have
The connection management device includes:
Supplying line information regarding a communication line connecting the first terminal and the second terminal to the AR video generation device;
The AR video generation device
A first moving image data obtained by photographing a subject including a predetermined object from one of the first terminal and the second terminal, and receiving first moving image data including distance information for each pixel of the subject. A receiver,
A second receiving unit for receiving second moving image data obtained by capturing a background including a marker having a predetermined shape from the other of the first terminal and the second terminal;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
An image corresponding to the pixel extracted by the extraction unit by specifying a three-dimensional coordinate system of the background defined based on the marker in the background represented by the second moving image data received by the second reception unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system;
A transmission unit that transmits the synthesized moving image data generated by the generation unit to the other terminal ,
The connection management apparatus according to channel information supplied by the image communication system Ru at different image represented by the composite video data.
第1端末と第2端末との接続を管理する接続管理装置と、
前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、
前記接続管理装置は、
前記第1端末と前記第2端末とにおけるハードウェア又はソフトウェアのリソースに関するリソース情報を前記AR動画生成装置に供給し、
前記AR動画生成装置は、
前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを前記他方の端末に送信する送信部と
を備え
前記接続管理装置により供給されたリソース情報に応じて、前記合成動画データが表す映像を異ならせる画像コミュニケーションシステム。
A connection management device for managing the connection between the first terminal and the second terminal;
An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both to the at least one of the first terminal and the second terminal whose connection is managed by the connection management device; Have
The connection management device includes:
Supplying resource information related to hardware or software resources in the first terminal and the second terminal to the AR video generation device;
The AR video generation device
A first moving image data obtained by photographing a subject including a predetermined object from one of the first terminal and the second terminal, and receiving first moving image data including distance information for each pixel of the subject. A receiver,
A second receiving unit for receiving second moving image data obtained by capturing a background including a marker having a predetermined shape from the other of the first terminal and the second terminal;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
An image corresponding to the pixel extracted by the extraction unit by specifying a three-dimensional coordinate system of the background defined based on the marker in the background represented by the second moving image data received by the second reception unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system;
A transmission unit that transmits the synthesized moving image data generated by the generation unit to the other terminal ,
The connection management apparatus according to the resource information supplied by an image communication system in which Ru at different image represented by the composite video data.
前記AR動画生成装置は、
前記回線情報に基づいて、前記合成動画データによるコミュニケーションが可能であるか否かを前記第1端末と前記第2端末のそれぞれについて判断する判断部を備え、
前記判断部により前記合成動画データによるコミュニケーションが可能であると判断された端末について、前記合成動画データを生成及び送信する
請求項1に記載の画像コミュニケーションシステム。
The AR video generation device
On the basis of the line information includes a determination unit for determining for each of the whether it is possible to communicate by said synthesized video data and the first terminal the second terminal,
Image communication system according to claim 1 wherein the terminal is determined to communications are possible by combining video data, generating and transmitting the composite video data by the determining unit.
前記AR動画生成装置は、
記リソース情報に基づいて、前記合成動画データによるコミュニケーションが可能であるか否かを前記第1端末と前記第2端末のそれぞれについて判断する判断部を備え、
前記判断部により前記合成動画データによるコミュニケーションが可能であると判断された端末について、前記合成動画データを生成及び送信する
請求項2に記載の画像コミュニケーションシステム。
The AR video generation device
Before Based on cut source information includes a determination unit for determining for each of the whether it is possible to communicate by said synthesized video data and the first terminal the second terminal,
The image communication system according to claim 2 , wherein the composite moving image data is generated and transmitted with respect to a terminal that is determined by the determination unit to be able to communicate with the composite moving image data.
第1端末と第2端末との接続を管理する接続管理装置と、
前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、
前記接続管理装置は、
前記第1端末と前記第2端末との間で音声メッセージを送受信する送受信部を備えるとともに、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報を前記AR動画生成装置に供給し、
前記AR動画生成装置は、
前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを前記他方の端末に送信する送信部と
を備え
前記接続管理装置により供給された音量又は音質の変化を表す情報に応じて、前記合成動画データが表す映像を異ならせる画像コミュニケーションシステム。
A connection management device for managing the connection between the first terminal and the second terminal;
An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both to the at least one of the first terminal and the second terminal whose connection is managed by the connection management device; Have
The connection management device includes:
A transmission / reception unit that transmits / receives a voice message between the first terminal and the second terminal is provided, and information indicating a change in volume or sound quality of the voice message transmitted / received by the transmission / reception unit is supplied to the AR video generation device. And
The AR video generation device
A first moving image data obtained by photographing a subject including a predetermined object from one of the first terminal and the second terminal, and receiving first moving image data including distance information for each pixel of the subject. A receiver,
A second receiving unit for receiving second moving image data obtained by capturing a background including a marker having a predetermined shape from the other of the first terminal and the second terminal;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
An image corresponding to the pixel extracted by the extraction unit by specifying a three-dimensional coordinate system of the background defined based on the marker in the background represented by the second moving image data received by the second reception unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system;
A transmission unit that transmits the synthesized moving image data generated by the generation unit to the other terminal ,
Image communication system in accordance with the information indicating the change of the supplied volume or sound quality, Ru with different image represented by the composite video data by the connection management apparatus.
第1端末と第2端末との接続を管理する接続管理装置と、
前記接続管理装置により接続が管理された前記第1端末及び前記第2端末の少なくとも一方に対して、双方で撮影された映像を合成した合成動画データを送信するAR(Augmented Reality)動画生成装置とを有し、
前記AR動画生成装置は、
前記第1端末及び前記第2端末の一方から、所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
前記第1端末及び前記第2端末の他方から、所定の形状のマーカを含む背景を撮影した第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記第2受信部により受信された第2動画データが表す背景中の前記マーカに基づいて定義される当該背景の3次元の座標系を特定し、前記抽出部により抽出された画素に応じた画像を当該座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを前記他方の端末に送信する送信部と
前記第1受信部により受信された第1動画データにおける前記被写体の変化を解析する解析部を備え、
前記解析部により解析された前記被写体の変化を表す情報を前記接続管理装置に供給し、
前記接続管理装置は、
前記第1端末と前記第2端末との間で音声メッセージを送受信する送受信部であって、前記AR動画生成装置により供給された前記被写体の変化を表す情報に応じて、送受信する前記音声メッセージの音量又は音質を異ならせる送受信部
を備える画像コミュニケーションシステム。
A connection management device for managing the connection between the first terminal and the second terminal;
An AR (Augmented Reality) video generation device that transmits composite video data obtained by synthesizing videos captured by both to the at least one of the first terminal and the second terminal whose connection is managed by the connection management device; Have
The AR video generation device
A first moving image data obtained by photographing a subject including a predetermined object from one of the first terminal and the second terminal, and receiving first moving image data including distance information for each pixel of the subject. A receiver,
A second receiving unit for receiving second moving image data obtained by capturing a background including a marker having a predetermined shape from the other of the first terminal and the second terminal;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
An image corresponding to the pixel extracted by the extraction unit by specifying a three-dimensional coordinate system of the background defined based on the marker in the background represented by the second moving image data received by the second reception unit A generating unit that generates synthesized moving image data synthesized with the background so as to correspond to the coordinate system;
A transmission unit for transmitting the composite video data generated by the generation unit to the other terminal ;
An analysis unit that analyzes changes in the subject in the first moving image data received by the first reception unit;
Supplying information representing the change in the subject analyzed by the analysis unit to the connection management device;
The connection management device includes:
A transmission / reception unit for transmitting / receiving a voice message between the first terminal and the second terminal, wherein the voice message to be transmitted / received according to information representing a change in the subject supplied by the AR video generation device; An image communication system including a transmission / reception unit that varies sound volume or sound quality .
前記AR動画生成装置は、
前記第2受信部により受信された第2動画データを解析し、前記座標系を算出する算出部を備え、
前記生成部は、
前記算出部により算出された座標系に基づいて、前記合成動画データを生成する
請求項1ないし6のいずれか1項に記載の画像コミュニケーションシステム。
The AR video generation device
Analyzing a second moving image data received by the second receiving unit, and calculating a coordinate system;
The generator is
The image communication system according to any one of claims 1 to 6, wherein the synthesized moving image data is generated based on the coordinate system calculated by the calculation unit.
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを送信する送信部と
を備え
前記第1動画データを送信した端末と前記第2動画データを送信した端末との接続を管理する接続管理装置から、前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する通信回線に関する回線情報が供給され、供給された前記回線情報に応じて、前記合成動画データが表す映像を異ならせるAR動画生成装置。
A first receiver that receives first moving image data of a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second receiving unit that receives second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
Generates synthesized moving image data in which an image corresponding to the pixel extracted by the extracting unit is combined with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit. A generator,
A transmission unit that transmits the composite video data generated by the generation unit ,
A terminal that transmits the first video data and a terminal that transmits the second video data from a connection management device that manages a connection between the terminal that transmits the first video data and the terminal that transmits the second video data; line information about the communication line for connecting is supplied, in accordance with a supplied the line information, the combined moving image data AR moving image generating apparatus of Ru with different image represents.
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを送信する送信部と
を備え
前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する接続管理装置から、前記端末におけるハードウェア又はソフトウェアのリソースに関するリソース情報が供給され、供給された前記リソース情報に応じて、前記合成動画データが表す映像を異ならせるAR動画生成装置。
A first receiver that receives first moving image data of a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second receiving unit that receives second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
Generates synthesized moving image data in which an image corresponding to the pixel extracted by the extracting unit is combined with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit. A generator,
A transmission unit that transmits the composite video data generated by the generation unit ,
Resource information related to hardware or software resources in the terminal is supplied from a connection management device that connects the terminal that transmitted the first video data and the terminal that transmitted the second video data, and the supplied resource information Correspondingly, the combined moving image data AR moving image generating apparatus of Ru with different images represented by the.
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを送信する送信部と
を備え
前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部を備えるとともに、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報を供給する接続管理装置から、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報が供給され、供給された情報に応じて、前記合成動画データが表す映像を異ならせるAR動画生成装置。
A first receiver that receives first moving image data of a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second receiving unit that receives second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
Generates synthesized moving image data in which an image corresponding to the pixel extracted by the extracting unit is combined with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit. A generator,
A transmission unit that transmits the composite video data generated by the generation unit ,
A transmission / reception unit that transmits / receives a voice message between the terminal that has transmitted the first video data and the terminal that has transmitted the second video data, and changes in volume or sound quality of the voice message transmitted / received by the transmission / reception unit; Information representing a change in volume or sound quality of a voice message transmitted / received by the transmission / reception unit is supplied from a connection management device that supplies information to be represented, and the video represented by the composite video data is made different according to the supplied information. AR video generator.
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1受信部と、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2受信部と、
前記第1受信部により受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する抽出部と、
前記抽出部により抽出された画素に応じた画像を、前記第2受信部により受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する生成部と、
前記生成部により生成された合成動画データを送信する送信部と
前記第1受信部により受信された第1動画データにおける前記被写体の変化を解析する解析部を備え、
前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部であって、供給される前記被写体の変化を表す情報に応じて、送受信する前記音声メッセージの音量又は音質を異ならせる送受信部を備える接続管理装置へ、前記解析部により解析された前記被写体の変化を表す情報を供給する
AR動画生成装置。
A first receiver that receives first moving image data of a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second receiving unit that receives second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
An extraction unit that extracts pixels corresponding to the predetermined object from the subject based on the distance information of the first moving image data received by the first reception unit;
Generates synthesized moving image data in which an image corresponding to the pixel extracted by the extracting unit is combined with the background so as to correspond to the coordinate system defined in the second moving image data received by the second receiving unit. A generator,
A transmission unit for transmitting the composite video data generated by the generation unit ;
An analysis unit that analyzes changes in the subject in the first moving image data received by the first reception unit;
A transmission / reception unit that transmits and receives a voice message between a terminal that has transmitted the first moving image data and a terminal that has transmitted the second moving image data, and transmits and receives the message according to information representing a change in the supplied subject. An AR video generation device that supplies information representing a change in the subject analyzed by the analysis unit to a connection management device including a transmission / reception unit that varies the volume or sound quality of the voice message .
コンピュータに、
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、
前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、
前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、
前記第4ステップにより生成された合成動画データを送信する第5ステップと
前記第1動画データを送信した端末と前記第2動画データを送信した端末との接続を管理する接続管理装置から、前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する通信回線に関する回線情報が供給され、供給された前記回線情報に応じて、前記合成動画データが表す映像を異ならせる第6ステップと
を実行させるためのプログラム。
On the computer,
A first step of receiving first moving image data obtained by photographing a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step;
The synthesized moving image data is generated by combining the image corresponding to the pixel extracted in the third step with the background so as to correspond to the coordinate system defined in the second moving image data received in the second step. The fourth step;
A fifth step of transmitting the composite video data generated by the fourth step ;
A terminal that transmits the first video data and a terminal that transmits the second video data from a connection management device that manages a connection between the terminal that transmits the first video data and the terminal that transmits the second video data; A program for executing the sixth step of supplying line information related to the communication line connecting the video and differentiating the video represented by the composite video data according to the supplied line information .
コンピュータに、
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、
前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、
前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、
前記第4ステップにより生成された合成動画データを送信する第5ステップと
前記第1動画データを送信した端末と前記第2動画データを送信した端末とを接続する接続管理装置から、前記端末におけるハードウェア又はソフトウェアのリソースに関するリソース情報が供給され、供給された前記リソース情報に応じて、前記合成動画データが表す映像を異ならせる第6ステップと
を実行させるためのプログラム。
On the computer,
A first step of receiving first moving image data obtained by photographing a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step;
The synthesized moving image data is generated by combining the image corresponding to the pixel extracted in the third step with the background so as to correspond to the coordinate system defined in the second moving image data received in the second step. The fourth step;
A fifth step of transmitting the composite video data generated by the fourth step ;
Resource information related to hardware or software resources in the terminal is supplied from a connection management device that connects the terminal that transmitted the first video data and the terminal that transmitted the second video data, and the supplied resource information And a sixth step of executing the sixth step of making the video represented by the combined video data different .
コンピュータに、
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、
前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、
前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、
前記第4ステップにより生成された合成動画データを送信する第5ステップと
前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部を備えるとともに、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報を供給する接続管理装置から、前記送受信部により送受信される音声メッセージの音量又は音質の変化を表す情報が供給され、供給された情報に応じて、前記合成動画データが表す映像を異ならせる第6ステップと
を実行させるためのプログラム。
On the computer,
A first step of receiving first moving image data obtained by photographing a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step;
The synthesized moving image data is generated by combining the image corresponding to the pixel extracted in the third step with the background so as to correspond to the coordinate system defined in the second moving image data received in the second step. The fourth step;
A fifth step of transmitting the composite video data generated by the fourth step ;
A transmission / reception unit that transmits / receives a voice message between the terminal that has transmitted the first video data and the terminal that has transmitted the second video data, and changes in volume or sound quality of the voice message transmitted / received by the transmission / reception unit; Information representing a change in volume or sound quality of a voice message transmitted / received by the transmission / reception unit is supplied from a connection management device that supplies information to be represented, and the video represented by the composite video data is made different according to the supplied information. A program for executing the sixth step .
コンピュータに、
所定のオブジェクトを含む被写体を撮影した第1動画データであって、当該被写体の画素毎の距離情報を含んだ第1動画データを受信する第1ステップと、
所定の形状のマーカを含む背景を撮影した第2動画データであって、当該マーカに基づいて3次元の座標系が定義される第2動画データを受信する第2ステップと、
前記第1ステップにより受信された第1動画データの前記距離情報に基づき、前記被写体から前記所定のオブジェクトに相当する画素を抽出する第3ステップと、
前記第3ステップにより抽出された画素に応じた画像を、前記第2ステップにより受信された第2動画データに定義される座標系に対応するようにして当該背景に合成した合成動画データを生成する第4ステップと、
前記第4ステップにより生成された合成動画データを送信する第5ステップと
前記第1ステップにより受信された第1動画データにおける前記被写体の変化を解析する第6ステップと、
前記第1動画データを送信した端末と前記第2動画データを送信した端末との間で音声メッセージを送受信する送受信部であって、供給される前記被写体の変化を表す情報に応じて、送受信する前記音声メッセージの音量又は音質を異ならせる送受信部を備える接続管理装置へ、前記第6ステップにより解析された前記被写体の変化を表す情報を供給する第7ステップと
を実行させるためのプログラム。
On the computer,
A first step of receiving first moving image data obtained by photographing a subject including a predetermined object, the first moving image data including distance information for each pixel of the subject;
A second step of receiving second moving image data in which a background including a marker having a predetermined shape is captured, wherein the second moving image data defines a three-dimensional coordinate system based on the marker;
A third step of extracting a pixel corresponding to the predetermined object from the subject based on the distance information of the first moving image data received in the first step;
The synthesized moving image data is generated by combining the image corresponding to the pixel extracted in the third step with the background so as to correspond to the coordinate system defined in the second moving image data received in the second step. The fourth step;
A fifth step of transmitting the composite video data generated by the fourth step ;
A sixth step of analyzing a change in the subject in the first moving image data received in the first step;
A transmission / reception unit that transmits and receives a voice message between a terminal that has transmitted the first moving image data and a terminal that has transmitted the second moving image data, and transmits and receives the message according to information representing a change in the supplied subject. A program for executing a seventh step of supplying information representing a change in the subject analyzed in the sixth step to a connection management device including a transmission / reception unit that varies the volume or sound quality of the voice message .
JP2012060659A 2012-03-16 2012-03-16 Image communication system, AR (Augmented Reality) video generation device, and program Active JP5813542B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012060659A JP5813542B2 (en) 2012-03-16 2012-03-16 Image communication system, AR (Augmented Reality) video generation device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012060659A JP5813542B2 (en) 2012-03-16 2012-03-16 Image communication system, AR (Augmented Reality) video generation device, and program

Publications (2)

Publication Number Publication Date
JP2013196154A JP2013196154A (en) 2013-09-30
JP5813542B2 true JP5813542B2 (en) 2015-11-17

Family

ID=49395073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012060659A Active JP5813542B2 (en) 2012-03-16 2012-03-16 Image communication system, AR (Augmented Reality) video generation device, and program

Country Status (1)

Country Link
JP (1) JP5813542B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6214427B2 (en) * 2014-02-26 2017-10-18 Kddi株式会社 Space sharing device, space sharing system, space sharing method, and program
WO2018158852A1 (en) * 2017-02-28 2018-09-07 サン電子株式会社 Telephone call system and communication system
JP7116410B2 (en) * 2017-03-31 2022-08-10 株式会社バンダイナムコエンターテインメント Program and image generation system
CN112785720A (en) * 2021-01-15 2021-05-11 中电鸿信信息科技有限公司 Single-camera space reconstruction and rendering method based on AR ranging and space multi-marker

Also Published As

Publication number Publication date
JP2013196154A (en) 2013-09-30

Similar Documents

Publication Publication Date Title
TWI650675B (en) Method and system for group video session, terminal, virtual reality device and network device
JP7225631B2 (en) Image processing device, camera device, and image processing method
US11887234B2 (en) Avatar display device, avatar generating device, and program
JP5208810B2 (en) Information processing apparatus, information processing method, information processing program, and network conference system
US10602121B2 (en) Method, system and apparatus for capture-based immersive telepresence in virtual environment
US9210372B2 (en) Communication method and device for video simulation image
CN110413108B (en) Virtual picture processing method, device and system, electronic equipment and storage medium
US11741616B2 (en) Expression transfer across telecommunications networks
US10896322B2 (en) Information processing device, information processing system, facial image output method, and program
WO2017141511A1 (en) Information processing apparatus, information processing system, information processing method, and program
US11204502B2 (en) Image generation apparatus, head mounted display, image generation system, image generation method, and program
JP5813542B2 (en) Image communication system, AR (Augmented Reality) video generation device, and program
US20240048677A1 (en) Information processing system, information processing method, and computer program
JP2011228936A (en) Moving image transmission system, transmitter, receiver, moving image management device, transmission program, reception program, and moving image management program
JP2005065051A (en) Imaging apparatus
JP2010157906A (en) Video display device
KR20050082559A (en) Dance learning system, internet community service system and internet community service method using the same, dance learning method, and computer executable recording media on which programs implement said methods are recorded
CN113676720B (en) Multimedia resource playing method and device, computer equipment and storage medium
JP6454883B1 (en) Content distribution system, content distribution method, and content distribution program
JP5894505B2 (en) Image communication system, image generation apparatus, and program
JP2000090288A (en) Face image control method for three-dimensional shared virtual space communication service, equipment for three-dimensional shared virtual space communication and program recording medium therefor
JP6616023B2 (en) Audio output device, head mounted display, audio output method and program
JP2001092990A (en) Three-dimensional virtual space participant display method, three-dimensional virtual space display device and recording medium stored with three-dimensional virtual space participant display program
JP2019146148A (en) Content distribution system, content distribution method, and content distribution program
US20240015264A1 (en) System for broadcasting volumetric videoconferences in 3d animated virtual environment with audio information, and procedure for operating said device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150916

R150 Certificate of patent or registration of utility model

Ref document number: 5813542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250