JP7065708B2 - Recording / playback device and program - Google Patents

Recording / playback device and program Download PDF

Info

Publication number
JP7065708B2
JP7065708B2 JP2018123840A JP2018123840A JP7065708B2 JP 7065708 B2 JP7065708 B2 JP 7065708B2 JP 2018123840 A JP2018123840 A JP 2018123840A JP 2018123840 A JP2018123840 A JP 2018123840A JP 7065708 B2 JP7065708 B2 JP 7065708B2
Authority
JP
Japan
Prior art keywords
person
data
unit
recording
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018123840A
Other languages
Japanese (ja)
Other versions
JP2020005150A (en
Inventor
裕之 川喜田
健介 久富
拓也 半田
寿哉 森田
賢充 原澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2018123840A priority Critical patent/JP7065708B2/en
Publication of JP2020005150A publication Critical patent/JP2020005150A/en
Application granted granted Critical
Publication of JP7065708B2 publication Critical patent/JP7065708B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、テレビ放送番組及び視聴環境を録画及び再生する録画再生装置及びプログラムに関する。 The present invention relates to a recording / playback device and a program for recording and playing back a television broadcast program and a viewing environment.

従来、人が知覚する現実環境をコンピュータにより拡張する技術として、AR(Augmented Reality:拡張現実)及びVR(Virtual Reality:仮想現実)が知られており、これらに関連するハードウェアの市場が将来に向けて拡大するものと予想される。 Conventionally, AR (Augmented Reality) and VR (Virtual Reality) are known as technologies for expanding the real environment perceived by humans by a computer, and the hardware market related to these is in the future. It is expected to expand toward.

例えば、全方位撮影可能な360度カメラ(例えば特許文献1,2を参照。)、ユーザに装備されるウェアラブル360度カメラ(例えば非特許文献1を参照。)等が知られている。これらのカメラにより撮影された360度映像を録画し、録画したコンテンツの全部または一部を用いてARまたはVRの体験サービスを提供することができる。 For example, a 360-degree camera capable of omnidirectional shooting (see, for example, Patent Documents 1 and 2), a wearable 360-degree camera equipped to a user (see, for example, Non-Patent Document 1) and the like are known. It is possible to record 360-degree video captured by these cameras and provide an AR or VR experience service using all or part of the recorded content.

特開2011-182003号公報Japanese Unexamined Patent Publication No. 2011-182003 特開2011-160442号公報Japanese Unexamined Patent Publication No. 2011-160442

FITT360-The First 360°Neckband Wearable Camera、[online]、Kickstarter、[平成30年4月28日検索]、インターネット<https://www.kickstarter.com/projects/467094941/fitt360-the-first-360-neckband-wearable-camera?lang=ja>FITT360-The First 360 ° Neckband Wearable Camera, [online], Kickstarter, [Searched April 28, 2018], Internet <https://www.kickstarter.com/projects/467094941/fitt360-the-first-360 -neckband-wearable-camera?lang=ja >

テレビ放送番組(以下、「番組」という。)を視聴するユーザは、その番組を録画再生装置に録画しておくことで、何時でも何度でも気軽に過去の番組へアクセスすることができる。 A user who watches a television broadcast program (hereinafter referred to as "program") can easily access a past program at any time by recording the program on a recording / playback device.

ここで、ユーザは、過去に視聴した番組について、そのときの感情を想起したいことがある。ユーザは、録画再生装置を用いて、過去に視聴した番組を再生することで、そのときの感情を想起することができる。 Here, the user may want to recall the feelings at that time about the programs that have been watched in the past. The user can recall the emotion at that time by playing back the program that has been watched in the past by using the recording / playback device.

しかしながら、ユーザだけでなく、ユーザ本人以外の家族または友人等も一緒に番組を視聴していた場合には、同じ番組の再生だけでは、必ずしもそのときと同じ感情を想起できるとは限らない。 However, when not only the user but also family members or friends other than the user himself / herself are watching the program, it is not always possible to recall the same emotions just by playing the same program.

つまり、録画再生装置を用いて同じ番組を再生するだけでは、必ずしも同じ視聴体験を得ることができるとは限らない。なぜならば、視聴体験は、一緒に視聴していた家族または友人等のそのときのしぐさ、反応、会話等が重要な要素になるからである。 That is, it is not always possible to obtain the same viewing experience simply by playing back the same program using the recording / playback device. This is because the viewing experience is an important factor in the behavior, reaction, conversation, etc. of the family or friends who were watching together.

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、過去に視聴した番組について、そのときと同じ視聴体験を得ることが可能な録画再生装置及びプログラムを提供することにある。 Therefore, the present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide a recording / playback device and a program capable of obtaining the same viewing experience as that of a program viewed in the past. It is in.

前記課題を解決するために、請求項1の録画再生装置は、テレビに再生した番組の映像及び音声を含む番組映像音声信号を記録部に記録し、前記番組を再生機器にて視聴するユーザの操作に従い、前記記録部から前記番組映像音声信号を読み出して前記再生機器へ送信する録画再生装置において、前記番組映像音声信号を受信し、当該番組映像音声信号をメインコンテンツとして前記記録部に記録する第1の受信部と、前記ユーザの周囲に存在する人物の映像、及び前記番組が再生されている前記テレビの映像を含む周囲映像信号を受信すると共に、前記ユーザの周囲から収音した周囲音声信号を受信する第2の受信部と、前記第2の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像信号を生成し、人物毎の前記人物映像信号をサブコンテンツとして前記記録部に記録する人物抽出部と、前記第2の受信部により受信された前記周囲映像信号から前記テレビの位置を検出し、前記番組映像音声信号における番組映像信号が前記再生機器により再生される位置を示すテレビ位置データを生成し、当該テレビ位置データを前記サブコンテンツとして前記記録部に記録するテレビ位置検出部と、前記記録部に記録された前記番組映像音声信号、及び前記第2の受信部により受信された前記周囲音声信号に基づいて、前記周囲音声信号に含まれる番組音声信号に対応する前記番組を特定し、前記周囲音声信号と、前記番組の前記番組映像音声信号における番組音声信号との間の差分を求め、前記ユーザの周囲に存在する前記人物の人物音声信号を生成し、当該人物音声信号を前記サブコンテンツとして前記記録部に記録する人物音声抽出部と、前記記録部から前記メインコンテンツ及び前記サブコンテンツを読み出し、当該メインコンテンツ及び当該サブコンテンツを前記再生機器へ送信する送信部と、を備えたことを特徴とする。 In order to solve the above problem, the recording / playback device according to claim 1 records a program video / audio signal including video and audio of a program played on a television in a recording unit, and a user who watches the program on a playback device. A recording / playback device that reads the program video / audio signal from the recording unit and transmits it to the playback device according to the operation, receives the program video / audio signal, and records the program video / audio signal as main content in the recording unit. 1 Receiving unit, an ambient video signal including an image of a person existing around the user and an image of the television on which the program is being played are received, and an ambient audio signal collected from the surroundings of the user. The person is extracted from the second receiving unit that receives the image and the surrounding image signal received by the second receiving unit, a person image signal for each person is generated, and the person image signal for each person is substituting. The position of the television is detected from the person extraction unit recorded in the recording unit as content and the ambient video signal received by the second receiving unit, and the program video signal in the program video / audio signal is generated by the playback device. A television position detection unit that generates television position data indicating a position to be reproduced and records the television position data as the sub-content in the recording unit, the program video / audio signal recorded in the recording unit, and the first. Based on the ambient audio signal received by the receiving unit of 2, the program corresponding to the program audio signal included in the ambient audio signal is specified, and the ambient audio signal and the program video audio signal of the program are used. A person voice extraction unit that obtains a difference between the program voice signal, generates a person voice signal of the person existing around the user, and records the person voice signal as the sub-content in the recording unit, and the person voice extraction unit. The main content and the sub-content are read from the recording unit, and the main content and the sub-content are transmitted to the playback device.

また、請求項2の録画再生装置は、請求項1に記載の録画再生装置において、前記人物抽出部の代わりに人物3D(3次元)生成部を備え、さらに、周囲3D生成部を備え、前記人物3D生成部が、前記第2の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎のボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物の3次元CGアニメーションのデータとして人物3Dデータを生成し、人物毎の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録し、前記周囲3D生成部が、前記第2の受信部により受信された前記周囲映像信号からオブジェクトを抽出し、当該オブジェクトの3次元CGのデータを含む周囲3Dデータを生成し、当該周囲3Dデータを前記サブコンテンツとして前記記録部に記録し、前記記録部には、前記番組映像音声信号が前記メインコンテンツとして記録され、人物毎の前記人物3Dデータ、前記周囲3Dデータ、前記テレビ位置データ及び前記人物音声信号が前記サブコンテンツとして記録される、ことを特徴とする。 Further, the recording / playback device according to claim 2 is the recording / playback device according to claim 1, which includes a person 3D (three-dimensional) generation unit in place of the person extraction unit, and further includes a peripheral 3D generation unit. The person 3D generation unit extracts the person from the surrounding image signal received by the second receiving unit, generates a person image for each person, and estimates the posture of the person included in the surrounding image signal. , Bone data for each person showing the posture of the person is generated, and based on the person video signal and the bone data, person 3D data is generated as data of 3D CG animation of the person, and the person for each person. The 3D data is recorded in the recording unit as the sub-content, and the peripheral 3D generation unit extracts an object from the ambient video signal received by the second receiving unit, and obtains the 3D CG data of the object. The surrounding 3D data including the surrounding 3D data is generated, the surrounding 3D data is recorded as the sub-content in the recording unit, and the program video / audio signal is recorded in the recording unit as the main content, and the person 3D data for each person. The surrounding 3D data, the television position data, and the person voice signal are recorded as the sub-contents.

また、請求項3の録画再生装置は、請求項2に記載の録画再生装置において、さらに、第3の受信部、視線検出部及び補正部を備え、前記第3の受信部が、前記第2の受信部により受信された前記周囲映像信号とは異なる映像信号であって、前記ユーザの周囲に存在する前記人物を含む俯瞰映像信号を受信し、前記人物3D生成部が、前記周囲映像信号から前記人物を抽出し、人物毎の前記人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記第3の受信部により受信された前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物3Dデータを生成し、前記視線検出部が、前記人物の視線を検出し、人物毎の視線方向データを生成し、前記補正部が、前記人物3D生成部により生成された前記人物3Dデータの視線方向が、前記視線検出部により生成された前記視線方向データの示す視線方向と一致するように、前記人物3Dデータを補正し、人物毎の補正後の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。 Further, the recording / reproducing device according to claim 3 is the recording / reproducing device according to claim 2, further comprising a third receiving unit, a line-of-sight detection unit, and a correction unit, and the third receiving unit is the second receiving unit. A video signal different from the ambient video signal received by the reception unit of the above, and a bird's-eye view video signal including the person existing around the user is received, and the person 3D generation unit receives the bird's-eye view video signal from the ambient video signal. The person is extracted, the person image is generated for each person, the posture of the person included in the surrounding image signal is estimated, and the bird's-eye view image signal included in the bird's-eye view image signal received by the third receiving unit is included. The posture of the person is estimated, and the bone data for each person indicating the posture of the person is generated based on the posture of the person estimated from the surrounding video signal and the bird's-eye view video signal, respectively, and the person video signal and the person are described. The person 3D data is generated based on the bone data, the line-of-sight detection unit detects the person's line of sight, the line-of-sight direction data for each person is generated, and the correction unit is generated by the person 3D generation unit. The person 3D data is corrected so that the line-of-sight direction of the person 3D data coincides with the line-of-sight direction indicated by the line-of-sight direction data generated by the line-of-sight detection unit, and the corrected person 3D for each person. The data is recorded in the recording unit as the sub-contents.

また、請求項4の録画再生装置は、請求項2に記載の録画再生装置において、前記人物3D生成部が、予め設定された人物毎の前記人物の3Dデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記3Dデータ及び前記ボーンデータに基づいて、前記人物の3次元CGアニメーションのデータとして事前人物3Dデータを生成し、当該事前人物3Dデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物3Dデータを生成し、人物毎の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。 Further, in the recording / reproducing device according to the fourth aspect, in the recording / reproducing device according to the second aspect, the person 3D generation unit inputs 3D data of the person for each preset person and inputs the 3D data of the person to the ambient video signal. The posture of the person included is estimated, the bone data for each person showing the posture of the person is generated, and the prior person 3D is used as the data of the 3D CG animation of the person based on the 3D data and the bone data. Data is generated, the image of the person included in the surrounding image signal is projected and overwritten on the prior person 3D data, the person 3D data is generated, and the person 3D data for each person is used as the sub-content. It is characterized in that it records in the recording unit.

また、請求項5の録画再生装置は、請求項3に記載の録画再生装置において、前記人物3D生成部が、予め設定された人物毎の前記人物の3Dデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記3Dデータ及び前記ボーンデータに基づいて、前記人物の3次元CGアニメーションのデータとして事前人物3Dデータを生成し、当該事前人物3Dデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物3Dデータを生成し、人物毎の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。 Further, in the recording / reproducing device according to claim 5, in the recording / reproducing device according to claim 3, the person 3D generation unit inputs 3D data of the person for each person preset and is used as the ambient video signal. The posture of the person included is estimated, the posture of the person included in the bird's-eye view video signal is estimated, and the posture of the person is estimated from the surrounding video signal and the bird's-eye view video signal, respectively. The bone data for each person showing the posture is generated, and the pre-person 3D data is generated as the data of the 3D CG animation of the person based on the 3D data and the bone data. It is characterized in that the image of the person included in the ambient video signal is projected and overwritten, the person 3D data is generated, and the person 3D data for each person is recorded in the recording unit as the sub-content.

また、請求項6の録画再生装置は、請求項2から5までのいずれか一項に記載の録画再生装置において、前記周囲3D生成部が、予め設定された、前記ユーザの周囲の3Dデータを事前周囲3Dデータとして入力し、前記周囲映像信号から前記オブジェクトを抽出してオブジェクト映像を生成し、前記事前周囲3Dデータに含まれるオブジェクトに、対応する前記オブジェクト映像を投影して上書きし、前記周囲3Dデータを生成し、当該周囲3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。 Further, in the recording / playback device according to claim 6, in the recording / playback device according to any one of claims 2 to 5, the peripheral 3D generation unit obtains preset 3D data around the user. It is input as pre-peripheral 3D data, the object is extracted from the ambient video signal to generate an object image, and the corresponding object image is projected onto the object included in the pre-peripheral 3D data to overwrite the object. It is characterized in that the surrounding 3D data is generated and the surrounding 3D data is recorded in the recording unit as the sub-content.

また、請求項7のプログラムは、コンピュータを、請求項1から6までのいずれか一項に記載の録画再生装置として機能させることを特徴とする。 The program according to claim 7 is characterized in that the computer functions as the recording / playback device according to any one of claims 1 to 6.

以上のように、本発明によれば、過去に視聴した番組について、そのときと同じ視聴体験を得ることができる。 As described above, according to the present invention, it is possible to obtain the same viewing experience as that of a program that has been viewed in the past.

実施例1の録画再生装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the recording / reproduction apparatus of Example 1. FIG. 実施例1の録画再生装置の処理例を示すフローチャートである。It is a flowchart which shows the processing example of the recording-playback apparatus of Example 1. FIG. 人物音声抽出部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the person voice extraction part. 実施例2の録画再生装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the recording / reproduction apparatus of Example 2. FIG. 実施例2の録画再生装置の処理例を示すフローチャートである。It is a flowchart which shows the processing example of the recording / reproduction apparatus of Example 2. 実施例2の第1変形例における人物3D生成部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the person 3D generation part in the 1st modification of Example 2. FIG. 実施例2の第2変形例における周囲3D生成部の構成例を示すブロック図である。It is a block diagram which shows the structural example of the surrounding 3D generation part in the 2nd modification of Example 2. FIG. 実施例3の録画再生装置の構成例を示すブロック図である。It is a block diagram which shows the structural example of the recording / reproduction apparatus of Example 3. FIG.

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、ユーザである視聴者本人(第一者)等が視聴する番組の映像音声に加え、その番組を一緒に視聴する周囲の人物の反応等を含む部屋内の環境(視聴環境)の映像音声も記録することを特徴とする。ここで、第一者は、視聴体験を再現したい視聴者である。 Hereinafter, embodiments for carrying out the present invention will be described in detail with reference to the drawings. The present invention relates to an environment (viewing environment) in a room that includes the video and audio of a program viewed by the viewer himself (first party) or the like as a user, as well as the reaction of surrounding persons who view the program together. It is characterized by recording video and audio. Here, the first person is a viewer who wants to reproduce the viewing experience.

これにより、番組の映像音声及び視聴環境の映像音声を再生することで、第一者は、過去に視聴した番組について、そのときと同じ視聴体験を得ることができる。例えば、視聴環境そのものを記録及び再生可能なARまたはVR技術によるサービスを実現することができる。 As a result, by reproducing the video / audio of the program and the video / audio of the viewing environment, the first party can obtain the same viewing experience as that of the program that has been viewed in the past. For example, it is possible to realize a service by AR or VR technology that can record and reproduce the viewing environment itself.

以下に説明する実施例1は、番組映像音声に加え、第一者から見た周囲の人物の2D(Dimension:次元)映像及び音声を記録する例である。実施例1では、例えばARグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を2次元CGにて重ね合わせて再生することができる。 The first embodiment described below is an example of recording a 2D (Dimension) video and audio of a surrounding person as seen by a first party, in addition to the program video and audio. In the first embodiment, for example, by using AR glass, it is possible to superimpose and reproduce the program video sound and the video sound of a surrounding person by two-dimensional CG.

また、実施例2は、番組映像音声に加え、第一者から見た周囲の人物の3D(3次元)映像及び音声等を記録する例である。実施例2では、例えばARグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を重ね合わせて再生することができる。また、例えばVRのHMD(Head Mounted Display)を用いることにより、周囲の人物等を3次元CGにて重ね合わせて再生することができる。 Further, the second embodiment is an example of recording a 3D (three-dimensional) video and audio of a surrounding person as seen by a first party, in addition to the program video and audio. In the second embodiment, for example, by using AR glass, the video / audio of the program and the video / audio of a surrounding person can be superposed and reproduced. Further, for example, by using a VR HMD (Head Mounted Display), it is possible to superimpose and reproduce surrounding people and the like on a three-dimensional CG.

また、実施例3は、実施例2において、周囲の人物について精度の高い3D映像を記録する例である。実施例3では、周囲の人物についてリアリティ感の高い3次元CGにて再生することができる。 Further, the third embodiment is an example of recording a highly accurate 3D image of a surrounding person in the second embodiment. In the third embodiment, it is possible to reproduce the surrounding people with a highly realistic three-dimensional CG.

〔実施例1〕
まず、実施例1について説明する。前述のとおり、実施例1は、番組映像音声に加え、第一者から見た周囲の人物の2D映像及び音声を記録する例である。実施例1では、例えばARグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を2次元CGにて重ね合わせて再生することができる。
[Example 1]
First, Example 1 will be described. As described above, the first embodiment is an example of recording 2D video and audio of a surrounding person as seen by a first party, in addition to the program video and audio. In the first embodiment, for example, by using AR glass, it is possible to superimpose and reproduce the program video sound and the video sound of a surrounding person by two-dimensional CG.

図1は、実施例1の録画再生装置の構成例を示すブロック図であり、図2は、実施例1の録画再生装置の処理例を示すフローチャートである。この録画再生装置1-1は、受信部10,11、人物抽出部12、テレビ位置検出部13、人物音声抽出部14、記録部15及び送信部16を備えている。 FIG. 1 is a block diagram showing a configuration example of the recording / playback device of the first embodiment, and FIG. 2 is a flowchart showing a processing example of the recording / playback device of the first embodiment. The recording / playback device 1-1 includes reception units 10 and 11, a person extraction unit 12, a television position detection unit 13, a person voice extraction unit 14, a recording unit 15, and a transmission unit 16.

第一者及び周囲の人物は、テレビに再生された番組を視聴しているものとする。受信部10は、第一者及び周囲の人物が視聴している番組について、その番組映像音声信号を受信する(ステップS201)。そして、受信部10は、番組映像音声信号をメインコンテンツとして記録部15に記録する(ステップS202)。番組映像音声信号は、番組映像信号及び番組音声信号を含んで構成される。 It is assumed that the first person and the surrounding persons are watching the program played on the television. The receiving unit 10 receives the program video / audio signal for the program being viewed by the first party and surrounding persons (step S201). Then, the receiving unit 10 records the program video / audio signal as the main content in the recording unit 15 (step S202). The program video / audio signal is configured to include a program video signal and a program audio signal.

受信部11は、ウェアラブル360度カメラ2から、360度映像音声信号を受信する(ステップS203)。360度映像音声信号は、第一者を中心とした周囲の映像信号、及び第一者の位置にて収音した音声信号を含んで構成される。以下、説明の便宜上、前者の映像信号を360度映像信号といい、後者の音声信号を360度音声信号という。 The receiving unit 11 receives a 360-degree video / audio signal from the wearable 360-degree camera 2 (step S203). The 360-degree video-audio signal is composed of a surrounding video signal centered on the first party and an audio signal picked up at the position of the first party. Hereinafter, for convenience of explanation, the former video signal is referred to as a 360-degree video signal, and the latter audio signal is referred to as a 360-degree audio signal.

360度映像信号は、第一者の周囲にいる人物の映像、番組が再生されているテレビの映像等を含む横方向の映像の周囲映像信号であり、360度音声信号は、第一者の周囲の人物の音声を含む、周囲から収音した周囲音声信号である。 The 360-degree video signal is a peripheral video signal of a lateral video including a video of a person around the first party, a video of a television on which a program is played, and the like, and a 360-degree audio signal is a video signal of the first party. It is an ambient audio signal picked up from the surroundings, including the audio of surrounding people.

ここで、ウェアラブル360度カメラ2は、第一者に着用され、第一者の周囲の360度映像を撮影すると共に、音声を収音し、360度映像及び音声が同期した360度映像音声信号を生成し、360度映像音声信号を録画再生装置1-1へ送信する。 Here, the wearable 360-degree camera 2 is worn by the first party, captures a 360-degree image around the first party, collects sound, and has a 360-degree video and a synchronized 360-degree video-audio signal. Is generated, and a 360-degree video / audio signal is transmitted to the recording / playback device 1-1.

受信部11は、360度映像音声信号を360度映像信号と360度音声信号とに分離する(ステップS204)。そして、受信部11は、360度映像信号を人物抽出部12及びテレビ位置検出部13に出力し、360度音声信号を人物音声抽出部14に出力する。 The receiving unit 11 separates the 360-degree video-audio signal into a 360-degree video signal and a 360-degree audio signal (step S204). Then, the receiving unit 11 outputs the 360-degree video signal to the person extraction unit 12 and the television position detection unit 13, and outputs the 360-degree audio signal to the person voice extraction unit 14.

尚、受信部11は、ウェアラブル360度カメラ2から、同期した360度映像信号及び360度音声信号をそれぞれ受信するようにしてもよい。 The receiving unit 11 may receive the synchronized 360-degree video signal and the 360-degree audio signal from the wearable 360-degree camera 2, respectively.

人物抽出部12は、受信部11から360度映像信号を入力し、360度映像信号を所定の人物抽出処理にて解析し、360度映像信号の映像から、第一者の周囲にいる人物の映像を抽出する。そして、人物抽出部12は、人物毎の映像信号(人物映像信号)をサブコンテンツとして記録部15に記録する(ステップS205)。 The person extraction unit 12 inputs a 360-degree video signal from the reception unit 11, analyzes the 360-degree video signal by a predetermined person extraction process, and extracts a person around the first person from the video of the 360-degree video signal. Extract the video. Then, the person extraction unit 12 records the video signal (personal video signal) for each person as sub-content in the recording unit 15 (step S205).

人物抽出部12による人物抽出処理は既知であり、例えば以下の技術が用いられる。この人物抽出処理は、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)を用いたセグメンテーション技術によるものであり、360度映像信号を人物のいる前景と人物のいない背景とに分離する処理である。
“Google(登録商標)、CNNを用いて人物などの前景と背景を分離するモバイルベースのリアルタイムビデオセグメント技術を発表。YouTube(登録商標)に統合”、[online]、[平成30年5月11日検索]、インターネット<http://shiropen.com/2018/03/02/32805>
The person extraction process by the person extraction unit 12 is known, and for example, the following technique is used. This person extraction process is based on a segmentation technique using a CNN (Convolutional Neural Network), and is a process of separating a 360-degree video signal into a foreground with a person and a background without a person.
"Google (registered trademark) announces mobile-based real-time video segment technology that separates the foreground and background of people using CNN. Integrated into YouTube (registered trademark)", [online], [May 11, 2018 Day search], Internet <http://shiropen.com/2018/03/02/32805>

テレビ位置検出部13は、受信部11から360度映像信号を入力し、360度映像信号を所定のオブジェクト抽出処理及びテレビ位置(姿勢を含む)検出処理にて解析する。そして、テレビ位置検出部13は、360度映像信号の映像からテレビの映像を抽出し、映像全体の中でテレビの位置(姿勢を含む)を特定し、テレビの位置を示すテレビ位置データを生成する。テレビ位置検出部13は、テレビ位置データをサブコンテンツとして記録部15に記録する(ステップS206)。 The television position detection unit 13 inputs a 360-degree video signal from the reception unit 11 and analyzes the 360-degree video signal by a predetermined object extraction process and a television position (including posture) detection process. Then, the television position detection unit 13 extracts the television image from the video of the 360-degree video signal, identifies the position (including the posture) of the television in the entire image, and generates the television position data indicating the position of the television. do. The television position detection unit 13 records the television position data as sub-content in the recording unit 15 (step S206).

テレビ位置検出部13によるオブジェクト抽出処理及びテレビ位置(姿勢を含む)検出処理は既知であり、例えば以下の技術が用いられる。
“携帯端末のカメラによるTV画面の位置と姿勢の推定方法”、情報処理学会論文誌(CDS:コンシューマ・デバイス&システム)、vol.5、no.4、2015、p.61-69
“家庭内リビングにおけるテレビ位置検出手法に関する一検討”、2016年映像情報メディア学会冬季大会講演予稿集、22B-6、2016
The object extraction process and the television position (including posture) detection process by the television position detection unit 13 are known, and for example, the following techniques are used.
"Method of estimating the position and orientation of the TV screen by the camera of the mobile terminal", IPSJ Journal (CDS: Consumer Devices & Systems), vol.5, no.4, 2015, p.61-69
"A Study on Television Position Detection Method in Living Room", 2016 Proceedings of the Winter Games of the Institute of Image Information and Television Engineers, 22B-6, 2016

テレビ位置データは、後述する再生機器3であるARグラスまたはVRのHMD(Head Mounted Display:頭部装着ディスプレイ)が番組映像信号を再生する位置を示すデータである。また、テレビ位置データは、再生機器3が人物毎の人物映像信号を再生する際に、その再生位置を特定する基準となるデータとして用いることができる。 The television position data is data indicating a position where an AR glass or a VR HMD (Head Mounted Display), which is a reproduction device 3 described later, reproduces a program video signal. Further, the television position data can be used as reference data for specifying the reproduction position when the reproduction device 3 reproduces the person video signal for each person.

人物音声抽出部14は、受信部11から360度音声信号を入力すると共に、記録部15からメインコンテンツである番組映像音声信号を読み出す。そして、人物音声抽出部14は、番組映像音声信号から番組音声信号を分離し、360度音声信号を所定の番組音声特定処理にて解析し、360度音声信号に番組音声信号が含まれるか否かを判定する。人物音声抽出部14は、360度音声信号に含まれる番組音声信号に対応する番組を特定する。 The person voice extraction unit 14 inputs a 360-degree audio signal from the reception unit 11, and reads a program video audio signal, which is the main content, from the recording unit 15. Then, the person audio extraction unit 14 separates the program audio signal from the program video audio signal, analyzes the 360-degree audio signal by a predetermined program audio specifying process, and determines whether or not the 360-degree audio signal includes the program audio signal. Is determined. The person voice extraction unit 14 identifies a program corresponding to the program voice signal included in the 360-degree voice signal.

人物音声抽出部14は、360度音声信号と特定した番組の番組音声信号との間の差分を求め、第一者の周囲にいる人物の音声信号(人物音声信号)を生成することで、360度音声信号から人物音声信号を抽出する。そして、人物音声抽出部14は、人物音声信号をサブコンテンツとして記録部15に記録する(ステップS207)。この人物音声信号は、視聴環境の環境音に相当する。 The person voice extraction unit 14 obtains the difference between the 360-degree voice signal and the program voice signal of the specified program, and generates the voice signal (person voice signal) of the person around the first person, thereby 360. The person voice signal is extracted from the voice signal. Then, the person voice extraction unit 14 records the person voice signal as sub-content in the recording unit 15 (step S207). This person voice signal corresponds to the environmental sound of the viewing environment.

人物音声抽出部14による番組音声特定処理は既知であり、例えば以下の技術が用いられる。この番組音声特定処理は、ACR(Automatic Contents Recognition:自動コンテンツ認識)技術によるものであり、360度音声信号及び番組音声信号の特徴点を抽出し、両信号間で特徴点のパターンを比較するマッチングを行い、360度音声信号から番組音声信号に対応する番組を特定する処理である。
“Evixar ACR(自動コンテンツ認識)、音センシング”、[online]、[平成30年5月11日検索]、インターネット<https://www.evixar.com/evixaracr>
The program voice identification process by the person voice extraction unit 14 is known, and for example, the following technique is used. This program audio identification processing is based on ACR (Automatic Contents Recognition) technology, and matching that extracts feature points of a 360-degree audio signal and a program audio signal and compares the pattern of the feature points between the two signals. Is a process of specifying a program corresponding to the program audio signal from the 360-degree audio signal.
"Evixar ACR (Automatic Content Recognition), Sound Sensing", [online], [Search on May 11, 2018], Internet <https://www.evixar.com/evixaracr>

図3は、人物音声抽出部14の構成例を示すブロック図である。この人物音声抽出部14は、番組特定部40及び減算部41を備えている。 FIG. 3 is a block diagram showing a configuration example of the person voice extraction unit 14. The person voice extraction unit 14 includes a program identification unit 40 and a subtraction unit 41.

番組特定部40は、受信部11から360度音声信号を入力すると共に、記録部15からメインコンテンツである番組映像音声信号を読み出し、番組映像音声信号から番組音声信号を分離する。そして、番組特定部40は、前述のACR技術により、360度音声信号と番組音声信号との間で特徴点のパターンを比較するマッチングを行い、360度音声信号に番組音声信号が含まれるか否かを判定する。 The program specifying unit 40 inputs a 360-degree audio signal from the receiving unit 11, reads out the program video audio signal which is the main content from the recording unit 15, and separates the program audio signal from the program video audio signal. Then, the program specifying unit 40 performs matching by comparing the pattern of the feature points between the 360-degree audio signal and the program audio signal by the above-mentioned ACR technique, and whether or not the 360-degree audio signal includes the program audio signal. Is determined.

番組特定部40は、360度音声信号に番組音声信号が含まれると判定した場合、当該番組音声信号の番組を、360度音声信号に含まれる番組音声信号の番組として特定し、360度音声信号内の位置を特定する。そして、番組特定部40は、特定した番組の番組音声信号を減算部41に出力する。 When the program specifying unit 40 determines that the 360-degree audio signal includes the program audio signal, the program specifying unit 40 identifies the program of the program audio signal as a program of the program audio signal included in the 360-degree audio signal, and the 360-degree audio signal. Identify the location within. Then, the program specifying unit 40 outputs the program audio signal of the specified program to the subtracting unit 41.

一方、番組特定部40は、360度音声信号に番組音声信号が含まれていないと判定した場合、すなわち360度音声信号に含まれる番組音声信号に対応する番組を特定できない場合、記録部15から他の番組映像音声信号を読み出す。そして、番組特定部40は、360度音声信号に番組音声信号が含まれるか否かを判定する。 On the other hand, when the program specifying unit 40 determines that the 360-degree audio signal does not include the program audio signal, that is, when the program corresponding to the program audio signal included in the 360-degree audio signal cannot be specified, the recording unit 15 starts from the recording unit 15. Read other program video and audio signals. Then, the program specifying unit 40 determines whether or not the 360-degree audio signal includes the program audio signal.

このように、番組特定部40により、360度音声信号に含まれる番組及びその位置が特定され、その番組の番組音声信号が減算部41に出力される。 In this way, the program specifying unit 40 specifies the program included in the 360-degree audio signal and its position, and the program audio signal of the program is output to the subtracting unit 41.

減算部41は、受信部11から360度音声信号を入力すると共に、番組特定部40から番組音声信号を入力する。そして、減算部41は、360度音声信号における特定された位置を基準として、360度音声信号から番組音声信号を減算することで差分信号を求め、これを人物音声信号とする。減算部41は、人物音声信号をサブコンテンツとして記録部15に記録する。 The subtraction unit 41 inputs a 360-degree audio signal from the reception unit 11, and also inputs a program audio signal from the program identification unit 40. Then, the subtraction unit 41 obtains a difference signal by subtracting the program audio signal from the 360-degree audio signal with reference to the specified position in the 360-degree audio signal, and uses this as the person audio signal. The subtraction unit 41 records the person voice signal as sub-content in the recording unit 15.

図1及び図2に戻って、ステップS201~S207により、記録部15には、メインコンテンツとして複数の番組映像音声信号が記録される。また、サブコンテンツとして、複数の番組映像音声のそれぞれに対応する、第一者の周囲にいる人物に関する人物映像信号、人物音声信号及びテレビ位置データが記録される。 Returning to FIGS. 1 and 2, a plurality of program video / audio signals are recorded in the recording unit 15 as the main content by steps S201 to S207. Further, as sub-contents, a person video signal, a person voice signal, and television position data relating to a person around the first person, corresponding to each of the plurality of program video / audio, are recorded.

ここで、ユーザである第一者は、ARグラス(再生機器3)を着用し、記録部15に記録されたメインコンテンツ等を視聴するものとする。この場合、第一者は、メインコンテンツ等が記録部15に記録されたときと同じ部屋の同じ位置で視聴を行う必要がある。再生機器3は、第一者の操作に従って所定のアプリを起動し、第一者の選択操作に従い、複数のメインコンテンツから再生対象のメインコンテンツを選択する。 Here, the first user, who is a user, wears AR glasses (reproduction device 3) and views the main content or the like recorded in the recording unit 15. In this case, the first party needs to perform viewing at the same position in the same room as when the main content or the like was recorded in the recording unit 15. The playback device 3 activates a predetermined application according to the operation of the first party, and selects the main content to be reproduced from a plurality of main contents according to the selection operation of the first party.

そうすると、送信部16は、記録部15から、選択されたメインコンテンツである番組映像音声信号を読み出すと共に、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを読み出す。 Then, the transmission unit 16 reads the program video / audio signal, which is the selected main content, from the recording unit 15, and the person video signal, the person audio signal, and the television, which are the sub-contents corresponding to the program video / audio signal. Read the position data.

送信部16は、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを、メインコンテンツ及びサブコンテンツを再生するためのデータとして再生機器3へ送信する(ステップS208)。 The transmission unit 16 transmits the program video / audio signal, which is the main content, and the person video signal, the person voice signal, and the television position data for each person, which is the sub content, to the playback device 3 as data for reproducing the main content and the sub content. (Step S208).

再生機器3は、例えばAR用の再生機器である。再生機器3は、録画再生装置1-1から、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを受信し、番組映像音声信号を番組映像信号及び番組音声信号に分離する。 The reproduction device 3 is, for example, a reproduction device for AR. The playback device 3 receives the program video / audio signal, which is the main content, and the person video signal, the person voice signal, and the television position data for each person, which is the sub-content, from the recording / playback device 1-1, and programs the program video / audio signal. Separate into video signals and program audio signals.

再生機器3は、テレビ位置データの示す位置に、メインコンテンツの番組映像信号を再生する。また、再生機器3は、第一者の周囲の所定位置(テレビ位置データの示す位置を基準とした人物毎の所定位置)に、サブコンテンツの人物毎の人物映像信号をそれぞれ再生し、さらに、番組音声信号及び人物音声信号を再生する。 The playback device 3 reproduces the program video signal of the main content at the position indicated by the television position data. Further, the playback device 3 reproduces a person video signal for each person in the sub-content at a predetermined position around the first person (a predetermined position for each person based on the position indicated by the television position data), and further Plays program audio signals and person audio signals.

この場合、人物映像信号が再生される所定位置は、人物毎の位置データとして、第一者により予め設定されるようにしてもよい。再生機器3は、予め設定された人物毎の位置データに従い、それぞれの位置に、人物毎の人物映像信号を再生する。 In this case, the predetermined position where the person video signal is reproduced may be preset by the first party as the position data for each person. The playback device 3 reproduces a person video signal for each person at each position according to preset position data for each person.

また、人物映像信号が再生される所定位置は、再生機器3が録画再生装置1-1から受信するようにしてもよい。具体的には、録画再生装置1-1の人物抽出部12は、360度映像信号の映像から人物映像を抽出する際に、テレビ位置検出部13により検出されたテレビ位置データを基準として、その人物映像の位置を特定する。そして、人物抽出部12は、人物映像信号に位置データを付加して記録部15に記録する。送信部16は、人物映像信号及び位置データを再生機器3へ送信する。 Further, the reproduction device 3 may receive from the recording / reproduction device 1-1 at a predetermined position where the person video signal is reproduced. Specifically, the person extraction unit 12 of the recording / playback device 1-1 uses the television position data detected by the television position detection unit 13 as a reference when extracting the person image from the video of the 360-degree video signal. Identify the position of the portrait image. Then, the person extraction unit 12 adds position data to the person video signal and records it in the recording unit 15. The transmission unit 16 transmits the person video signal and the position data to the reproduction device 3.

再生機器3は、録画再生装置1-1から、人物毎の人物映像信号と共に位置データも受信し、人物毎の位置データに従い、テレビの位置を基準としたそれぞれの位置に、人物毎の人物映像信号をそれぞれ再生する。 The playback device 3 receives position data as well as a person image signal for each person from the recording / playback device 1-1, and according to the position data for each person, the person image for each person is set at each position based on the position of the television. Play each signal.

以上のように、実施例1の録画再生装置1-1によれば、受信部10は、番組映像信号をメインコンテンツとして記録部15に記録し、受信部11は、360度映像音声信号を360度映像信号及び360度音声信号に分離する。 As described above, according to the recording / playback device 1-1 of the first embodiment, the receiving unit 10 records the program video signal as the main content in the recording unit 15, and the receiving unit 11 records the 360-degree video-audio signal 360-degree. It is separated into a video signal and a 360-degree audio signal.

人物抽出部12は、360度映像信号の映像から人物映像を抽出し、人物毎の人物映像信号をサブコンテンツとして記録部15に記録する。また、テレビ位置検出部13は、360度映像信号からテレビ位置を検出し、テレビ位置データをサブコンテンツとして記録部15に記録する。 The person extraction unit 12 extracts a person image from the image of the 360-degree image signal, and records the person image signal for each person as sub-content in the recording unit 15. Further, the television position detection unit 13 detects the television position from the 360-degree video signal and records the television position data as sub-content in the recording unit 15.

人物音声抽出部14は、記録部15から読み出した番組映像音声信号から番組音声信号を分離し、360度音声信号に番組音声信号が含まれるか否かを判定し、番組を特定する。そして、人物音声抽出部14は、360度音声信号と特定した番組の番組音声信号との間の差分を求めることで、360度音声信号から人物音声信号を抽出する。人物音声抽出部14は、人物音声信号をサブコンテンツとして記録部15に記録する。 The person voice extraction unit 14 separates the program audio signal from the program video audio signal read from the recording unit 15, determines whether or not the 360-degree audio signal includes the program audio signal, and identifies the program. Then, the person voice extraction unit 14 extracts the person voice signal from the 360 degree voice signal by obtaining the difference between the 360 degree voice signal and the program voice signal of the specified program. The person voice extraction unit 14 records the person voice signal as sub-content in the recording unit 15.

送信部16は、第一者であるユーザの操作に従い、記録部15からメインコンテンツである番組映像音声信号、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを読み出す。そして、送信部16は、これらのデータを再生機器3へ送信する。 The transmission unit 16 follows the operation of the user who is the first person, and from the recording unit 15, the program video / audio signal which is the main content, the person video signal for each person which is the sub-content corresponding to the program video / audio signal, the person audio signal, and the person audio signal. Read the TV position data. Then, the transmission unit 16 transmits these data to the reproduction device 3.

これにより、例えば第一者が再生機器3であるARグラスを着用している場合、ARグラスには、メインコンテンツがテレビ画面上にオーバーレイ表示されると共にその音声が再生され、同時に、サブコンテンツである周囲の人物の映像及び音声が再生される。第一者は、ARグラスにて、人物以外の周囲について再生時の周囲環境を見ることとなる。 As a result, for example, when the first party wears the AR glass which is the playback device 3, the main content is overlaid on the TV screen and the sound is reproduced on the AR glass, and at the same time, the sub content. The video and audio of surrounding people are played back. The first person will see the surrounding environment at the time of reproduction with AR glass for the surroundings other than the person.

このように、ARグラスを用いることにより、メインコンテンツが再生されると共に、第一者の周囲にいる人物の反応等が再現されるから、過去に視聴した番組について、そのときと同じ視聴体験を得ることができる。また、従来のメインコンテンツだけの再生に比べ、より再現性の高い視聴体験を得ることができる。 In this way, by using the AR glass, the main content is reproduced and the reaction of the person around the first person is reproduced, so that the same viewing experience as at that time is obtained for the programs viewed in the past. be able to. In addition, a more reproducible viewing experience can be obtained as compared with the conventional reproduction of only the main content.

〔実施例2〕
次に、実施例2について説明する。前述のとおり、実施例2は、番組映像音声に加え、第一者から見た周囲の人物の3D映像及び音声等を記録する例である。実施例2では、例えばARグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を重ね合わせて再生することができる。また、例えばVRのHMDを用いることにより、周囲の人物等を3次元CGにて重ね合わせて再生することができる。
[Example 2]
Next, Example 2 will be described. As described above, the second embodiment is an example of recording a 3D image, an audio, and the like of a surrounding person as seen by a first party, in addition to the program video and audio. In the second embodiment, for example, by using AR glass, the video / audio of the program and the video / audio of a surrounding person can be superposed and reproduced. Further, for example, by using a VR HMD, it is possible to superimpose and reproduce surrounding people and the like by three-dimensional CG.

図4は、実施例2の録画再生装置の構成例を示すブロック図であり、図5は、実施例2の録画再生装置の処理例を示すフローチャートである。この録画再生装置1-2は、受信部10,11、人物3D生成部20、周囲3D生成部21、テレビ位置検出部13、人物音声抽出部14、記録部15及び送信部16を備えている。 FIG. 4 is a block diagram showing a configuration example of the recording / playback device of the second embodiment, and FIG. 5 is a flowchart showing a processing example of the recording / playback device of the second embodiment. The recording / playback device 1-2 includes reception units 10 and 11, person 3D generation unit 20, surrounding 3D generation unit 21, television position detection unit 13, person voice extraction unit 14, recording unit 15, and transmission unit 16. ..

受信部10は、図1に示した実施例1と同様に、番組映像音声信号を受信し(ステップS501)、番組映像音声信号をメインコンテンツとして記録部15に記録する(ステップS502)。 Similar to the first embodiment shown in FIG. 1, the receiving unit 10 receives the program video / audio signal (step S501) and records the program video / audio signal as the main content in the recording unit 15 (step S502).

受信部11は、図1に示した実施例1と同様に、ウェアラブル360度カメラ2から360度映像音声信号を受信し(ステップS503)、360度映像音声信号を360度映像信号及び360度音声信号に分離する(ステップS504)。そして、受信部11は、360度映像信号を人物3D生成部20、周囲3D生成部21及びテレビ位置検出部13に出力し、360度音声信号を人物音声抽出部14に出力する。 Similar to the first embodiment shown in FIG. 1, the receiving unit 11 receives the 360-degree video / audio signal from the wearable 360-degree camera 2 (step S503), and the 360-degree video / audio signal is the 360-degree video signal and the 360-degree audio. Separate into signals (step S504). Then, the receiving unit 11 outputs the 360-degree video signal to the person 3D generation unit 20, the surrounding 3D generation unit 21, and the television position detection unit 13, and outputs the 360-degree audio signal to the person voice extraction unit 14.

人物3D生成部20は、受信部11から360度映像信号を入力し、360度映像信号の映像から人物映像を抽出すると共に、人物の姿勢を示すボーンデータを推定する。そして、人物3D生成部20は、人物映像信号及びボーンデータに基づいて人物3Dデータを生成し、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する(ステップS505)。人物3Dデータは、人物の3次元CGアニメーションのデータである。 The person 3D generation unit 20 inputs a 360-degree video signal from the reception unit 11, extracts a person image from the image of the 360-degree video signal, and estimates bone data indicating the posture of the person. Then, the person 3D generation unit 20 generates the person 3D data based on the person video signal and the bone data, and records the person 3D data for each person as sub-contents in the recording unit 15 (step S505). The person 3D data is the data of the person's 3D CG animation.

人物3D生成部20は、人物抽出部12、姿勢推定部22及び生成部23を備えている。人物抽出部12は、図1に示した実施例1と同様に、受信部11から360度映像信号を入力し、360度映像信号を所定の人物抽出処理にて解析し、360度映像信号から人物映像信号のテクスチャ情報を抽出する。そして、人物抽出部12は、人物毎の人物映像信号のテクスチャ情報を生成部23に出力する。 The person 3D generation unit 20 includes a person extraction unit 12, a posture estimation unit 22, and a person generation unit 23. Similar to the first embodiment shown in FIG. 1, the person extraction unit 12 inputs a 360-degree video signal from the receiving unit 11, analyzes the 360-degree video signal by a predetermined person extraction process, and uses the 360-degree video signal. Extract the texture information of the person video signal. Then, the person extraction unit 12 outputs the texture information of the person video signal for each person to the generation unit 23.

姿勢推定部22は、受信部11から360度映像信号を入力し、360度映像信号を所定の姿勢推定処理にて解析し、360度映像信号に含まれる人物映像の体、手、顔等の部位を検出し、人物毎の姿勢を推定する。姿勢推定部22は、人物毎の姿勢を示すボーンデータを生成し、人物毎のボーンデータを生成部23に出力する。 The posture estimation unit 22 inputs a 360-degree video signal from the reception unit 11, analyzes the 360-degree video signal by a predetermined posture estimation process, and analyzes the body, hand, face, etc. of the person image included in the 360-degree video signal. The part is detected and the posture of each person is estimated. The posture estimation unit 22 generates bone data indicating the posture of each person, and outputs the bone data for each person to the generation unit 23.

姿勢推定部22による姿勢推定処理は既知であり、例えば以下の技術が用いられる。この姿勢推定処理は、スケルトン検出アルゴリズムによるものであり、360度映像信号に含まれる人物映像の体、手、顔等の部位を検出し、関節等のキーポイントを基準として、所定のキーポイントを接続した直線で表すことで、人物毎の姿勢を推定する処理である。
“SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)”、[online]、[平成30年5月11日検索]、インターネット<https://www.youtube.com/watch?v=eUnZ2rjxGaE>
The posture estimation process by the posture estimation unit 22 is known, and for example, the following techniques are used. This posture estimation process is based on a skeleton detection algorithm, detects parts such as the body, hands, and face of a person image included in a 360-degree video signal, and determines a predetermined key point based on a key point such as a joint. It is a process of estimating the posture of each person by expressing it with a connected straight line.
"SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)", [online], [Search May 11, 2018], Internet <https://www.youtube.com/watch?v=eUnZ2rjxGaE >

生成部23は、人物抽出部12から人物毎の人物映像信号を入力すると共に、姿勢推定部22から人物毎のボーンデータを入力する。そして、生成部23は、対応する人物映像信号及びボーンデータを所定の人物3Dデータ生成処理にて解析する。生成部23は、ボーンデータ(ボーンデータから得られる人物の3次元モデル)に人物映像信号を投影して上書きし、人物3Dデータ(人物の3次元CGアニメーション)を生成する。生成部23は、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The generation unit 23 inputs a person video signal for each person from the person extraction unit 12, and also inputs bone data for each person from the posture estimation unit 22. Then, the generation unit 23 analyzes the corresponding person video signal and bone data by a predetermined person 3D data generation process. The generation unit 23 projects and overwrites the bone data (three-dimensional model of the person obtained from the bone data) with the person video signal, and generates the person 3D data (three-dimensional CG animation of the person). The generation unit 23 records the person 3D data for each person as sub-contents in the recording unit 15.

生成部23による人物3Dデータ生成処理は既知であり、例えば以下の技術が用いられる。この人物3Dデータ生成処理は、人物映像信号及びボーンデータの合成技術によるものであり、ボーンデータに対して人物映像信号を貼り付ける処理である。
“SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)”、[online]、[平成30年5月11日検索]、インターネット<https://www.youtube.com/watch?v=eUnZ2rjxGaE>
“単眼カメラで撮影した映像を入力に、人の姿勢推定から着用する衣服まで再構築するマーカレスパフォーマンスキャプチャ技術を発表” 、[online]、[平成30年6月15日検索]、インターネット<https://shiropen.com/seamless/vr-monoperfcap>
The person 3D data generation process by the generation unit 23 is known, and for example, the following technique is used. This person 3D data generation process is based on a technique for synthesizing a person video signal and bone data, and is a process of pasting a person video signal to the bone data.
"SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)", [online], [Search May 11, 2018], Internet <https://www.youtube.com/watch?v=eUnZ2rjxGaE >
"Announcement of markerless performance capture technology that reconstructs from posture estimation of a person to clothes to be worn by inputting images taken with a monocular camera", [online], [Search on June 15, 2018], Internet <https //shiropen.com/seamless/vr-monoperfcap >

周囲3D生成部21は、受信部11から360度映像信号を入力し、360度映像信号を所定の周囲3Dデータ生成処理にて解析し、360度映像信号に基づいて、第一者の周囲にあるオブジェクト(第一者の周囲にいる人物及び周囲に存在する物)の3Dデータを含む周囲3Dデータを生成する。周囲3D生成部21は、周囲3Dデータをサブコンテンツとして記録部15に記録する(ステップS506)。周囲3Dデータは、オブジェクトの3次元CGを含む周囲の映像に関するデータである。 The surrounding 3D generation unit 21 inputs a 360-degree video signal from the receiving unit 11, analyzes the 360-degree video signal by a predetermined peripheral 3D data generation process, and based on the 360-degree video signal, surrounds the first person. Generates surrounding 3D data including 3D data of an object (people around the first person and objects around). The peripheral 3D generation unit 21 records the peripheral 3D data as sub-content in the recording unit 15 (step S506). The surrounding 3D data is data related to the surrounding image including the 3D CG of the object.

周囲3D生成部21による周囲3Dデータ生成処理は既知であり、例えば以下の技術が用いられる。この周囲3Dデータ生成処理は、フォトグラメトリー(写真測量法)によるものであり、360度映像信号に含まれるオブジェクトを検出し、オブジェクトの複数の映像信号に基づいて、オブジェクトの3Dデータを生成する処理である。フォトグラメトリーは、3Dの物体を複数の観測点から撮影して得た2次元画像から、視差情報を解析して寸法及び形状を求める写真測量法である。
““フォトグラメトリー”を駆使して現実を3Dで再現「長崎の教会群」VRコンテンツ公開”、[online]、[平成30年5月11日検索]、インターネット<http://www.moguravr.com/hacosco-nagasaki-vr/>
“3DF Zephyr”、[online]、[平成30年5月11日検索]、インターネット<https://www.3dflow.net/3df-zephyr-pro-3d-models-from-photos/>
The peripheral 3D data generation process by the peripheral 3D generation unit 21 is known, and for example, the following techniques are used. This surrounding 3D data generation process is based on photogrammetry (photogrammetry), detects an object included in a 360-degree video signal, and generates 3D data of the object based on a plurality of video signals of the object. It is a process. Photogrammetry is a photogrammetry method for obtaining dimensions and shapes by analyzing parallax information from two-dimensional images obtained by photographing a 3D object from a plurality of observation points.
"Recreating reality in 3D by making full use of" photogrammetry "" Nagasaki Churches "VR content released", [online], [Search on May 11, 2018], Internet <http://www.moguravr .com / hacosco-nagasaki-vr />
"3DF Zephyr", [online], [Search on May 11, 2018], Internet <https://www.3dflow.net/3df-zephyr-pro-3d-models-from-photos/>

テレビ位置検出部13は、図1に示した実施例1と同様に、受信部11から360度映像信号を入力し、360度映像信号の映像からテレビの映像を抽出する。そして、テレビ位置検出部13は、映像全体の中でテレビの位置を特定し、テレビの位置を示すテレビ位置データを生成し、テレビ位置データをサブコンテンツとして記録部15に記録する(ステップS507)。 Similar to the first embodiment shown in FIG. 1, the television position detecting unit 13 inputs a 360-degree video signal from the receiving unit 11 and extracts a television image from the video of the 360-degree video signal. Then, the television position detection unit 13 identifies the position of the television in the entire video, generates television position data indicating the position of the television, and records the television position data as sub-content in the recording unit 15 (step S507). ..

人物音声抽出部14は、図1に示した実施例1と同様に、受信部11から360度音声信号を入力すると共に、記録部15からメインコンテンツである番組映像音声信号を読み出す。そして、人物音声抽出部14は、番組映像音声信号から番組音声信号を分離し、番組を特定する。人物音声抽出部14は、360度音声信号と特定した番組の番組音声信号との間の差分を求め、人物音声信号を生成することで、360度音声信号から人物音声信号を抽出する。人物音声抽出部14は、人物音声信号をサブコンテンツとして記録部15に記録する(ステップS508)。 Similar to the first embodiment shown in FIG. 1, the person voice extraction unit 14 inputs a 360-degree audio signal from the reception unit 11 and reads out a program video audio signal which is the main content from the recording unit 15. Then, the person audio extraction unit 14 separates the program audio signal from the program video audio signal and identifies the program. The person voice extraction unit 14 obtains the difference between the 360-degree voice signal and the program voice signal of the specified program, and generates the person voice signal to extract the person voice signal from the 360-degree voice signal. The person voice extraction unit 14 records the person voice signal as sub-content in the recording unit 15 (step S508).

これにより、記録部15には、メインコンテンツとして複数の番組映像音声が記録される。また、記録部15には、サブコンテンツとして、複数の番組映像音声のそれぞれに対応する、第一者の周囲にいる人物に関する人物毎の人物3Dデータ、第一者の周囲の周囲3Dデータ、人物音声信号及びテレビ位置データが記録される。 As a result, a plurality of program video / audio are recorded in the recording unit 15 as the main content. Further, in the recording unit 15, as sub-contents, person 3D data for each person related to a person around the first person, 3D data around the first person, and a person corresponding to each of a plurality of program video / audio. Audio signals and television position data are recorded.

ここで、ユーザである第一者は、再生機器3であるARグラスまたはVRのHMDを着用し、記録部15に記録されたメインコンテンツ等を視聴するものとする。再生機器3は、第一者の操作に従って所定のアプリを起動し、第一者の選択操作に従い、複数のメインコンテンツから再生対象のメインコンテンツを選択する。 Here, it is assumed that the first user, who is the user, wears the AR glass or the HMD of the VR, which is the playback device 3, and watches the main content or the like recorded in the recording unit 15. The playback device 3 activates a predetermined application according to the operation of the first party, and selects the main content to be reproduced from a plurality of main contents according to the selection operation of the first party.

そうすると、送信部16は、記録部15から、選択されたメインコンテンツである番組映像音声信号を読み出すと共に、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物3Dデータ、周囲3Dデータ、人物音声信号及びテレビ位置データを読み出す。 Then, the transmission unit 16 reads the program video / audio signal, which is the selected main content, from the recording unit 15, and also has the person 3D data, the surrounding 3D data, and the person, which are the sub-contents corresponding to the program video / audio signal. Read the audio signal and TV position data.

送信部16は、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物3Dデータ、周囲3Dデータ、人物音声信号及びテレビ位置データを、メインコンテンツ及びサブコンテンツを再生するためのデータとして再生機器3へ送信する(ステップS509)。 The transmission unit 16 reproduces the program video / audio signal as the main content, and the person 3D data, surrounding 3D data, person voice signal, and television position data for each person as the sub-content as data for reproducing the main content and the sub-content. It is transmitted to the device 3 (step S509).

再生機器3は、例えばAR用の再生機器またはVR用の再生機器である。再生機器3は、録画再生装置1-2から、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物3Dデータ、周囲3Dデータ、人物音声信号及びテレビ位置データを受信し、番組映像音声信号を番組映像信号及び番組音声信号に分離する。 The reproduction device 3 is, for example, a reproduction device for AR or a reproduction device for VR. The playback device 3 receives the program video / audio signal, which is the main content, and the person 3D data, surrounding 3D data, person voice signal, and television position data for each person, which is the sub-content, from the recording / playback device 1-2, and the program video. The audio signal is separated into a program video signal and a program audio signal.

再生機器3がAR用の再生機器である場合、再生機器3は、実施例1と同様に、テレビ位置データの示す位置に、メインコンテンツの番組映像信号を再生する。また、再生機器3は、第一者の周囲の所定位置に、サブコンテンツの人物3Dデータを再生すると共に、番組音声信号及び人物音声信号を再生する。人物3Dデータが再生される所定位置の位置データは、実施例1と同様に、第一者により予め設定されるようにしてもよいし、再生機器3が録画再生装置1-2から受信するようにしてもよい。 When the playback device 3 is a playback device for AR, the playback device 3 reproduces the program video signal of the main content at the position indicated by the television position data, as in the first embodiment. Further, the reproduction device 3 reproduces the person 3D data of the sub-content at a predetermined position around the first person, and also reproduces the program audio signal and the person audio signal. The position data at the predetermined position where the person 3D data is reproduced may be preset by a first party as in the first embodiment, or may be received by the reproduction device 3 from the recording / reproduction device 1-2. You may do it.

再生機器3がVR用の再生機器である場合、再生機器3は、サブコンテンツの周囲3Dデータを再生すると共に、周囲3Dデータからテレビを検出し、その位置にメインコンテンツの番組映像信号を再生する。また、再生機器3は、周囲3Dデータから人物を検出し、その位置にサブコンテンツの人物3Dデータを再生し、番組音声信号及び人物音声信号を再生する。 When the playback device 3 is a playback device for VR, the playback device 3 reproduces the surrounding 3D data of the sub-content, detects the television from the surrounding 3D data, and reproduces the program video signal of the main content at that position. Further, the reproduction device 3 detects a person from the surrounding 3D data, reproduces the person 3D data of the sub-content at the position, and reproduces the program audio signal and the person audio signal.

以上のように、実施例2の録画再生装置1-2によれば、受信部10は、番組映像信号をメインコンテンツとして記録部15に記録し、受信部11は、360度映像音声信号を360度映像信号及び360度音声信号に分離する。 As described above, according to the recording / playback device 1-2 of the second embodiment, the receiving unit 10 records the program video signal as the main content in the recording unit 15, and the receiving unit 11 records the 360-degree video-audio signal 360-degree. It is separated into a video signal and a 360-degree audio signal.

人物3D生成部20は、人物抽出部12にて360度映像信号の映像から人物映像を抽出し、姿勢推定部22にて360度映像信号から人物のボーンデータを推定し、生成部23にて人物映像信号及びボーンデータに基づいて人物3Dデータを生成する。そして、人物3D生成部20は、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The person 3D generation unit 20 extracts a person image from the video of the 360-degree video signal by the person extraction unit 12, estimates the bone data of the person from the 360-degree video signal by the posture estimation unit 22, and the generation unit 23. Person 3D data is generated based on the person video signal and bone data. Then, the person 3D generation unit 20 records the person 3D data for each person as sub-contents in the recording unit 15.

周囲3D生成部21は、360度映像信号から周囲のオブジェクトの3Dデータを含む周囲3Dデータを生成し、周囲3Dデータをサブコンテンツとして記録部15に記録する。テレビ位置検出部13は、360度映像信号からテレビ位置を検出し、テレビ位置データをサブコンテンツとして記録部15に記録する。 The surrounding 3D generation unit 21 generates surrounding 3D data including 3D data of surrounding objects from a 360-degree video signal, and records the surrounding 3D data as sub-content in the recording unit 15. The television position detection unit 13 detects the television position from the 360-degree video signal and records the television position data as sub-content in the recording unit 15.

人物音声抽出部14は、記録部15から読み出した番組映像音声信号から番組音声信号を分離し、360度音声信号に番組音声信号が含まれるか否かを判定し、番組を特定する。そして、人物音声抽出部14は、360度音声信号と特定した番組の番組音声信号との間の差分を求めることで、360度音声信号から人物音声信号を抽出する。人物音声抽出部14は、人物音声信号をサブコンテンツとして記録部15に記録する。 The person voice extraction unit 14 separates the program audio signal from the program video audio signal read from the recording unit 15, determines whether or not the 360-degree audio signal includes the program audio signal, and identifies the program. Then, the person voice extraction unit 14 extracts the person voice signal from the 360 degree voice signal by obtaining the difference between the 360 degree voice signal and the program voice signal of the specified program. The person voice extraction unit 14 records the person voice signal as sub-content in the recording unit 15.

送信部16は、第一者であるユーザの操作に従い、記録部15からメインコンテンツである番組映像音声信号、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物3Dデータ、周囲3Dデータ、人物音声信号及びテレビ位置データを読み出す。そして、送信部16は、これらのデータを再生機器3へ送信する。 According to the operation of the user who is the first person, the transmission unit 16 has the program video / audio signal which is the main content from the recording unit 15, the person 3D data for each person which is the sub-content corresponding to the program video / audio signal, and the surrounding 3D data. Read the person voice signal and the TV position data. Then, the transmission unit 16 transmits these data to the reproduction device 3.

これにより、例えば第一者が再生機器3であるARグラスを着用している場合、ARグラスには、メインコンテンツがテレビ画面上にオーバーレイ表示されると共にその音声が再生される。また、ARグラスには、同時にサブコンテンツである人物3Dデータによる映像が周囲の人物の3次元アニメーションとして再生され、人物の音声が再生される。第一者は、ARグラスにて、人物以外の周囲について再生時の周囲環境を見ることとなる。 As a result, for example, when the first party wears the AR glass which is the reproduction device 3, the main content is overlaid on the TV screen and the sound is reproduced on the AR glass. At the same time, the AR glass reproduces the image of the person 3D data, which is a sub-content, as a three-dimensional animation of the surrounding people, and reproduces the voice of the person. The first person will see the surrounding environment at the time of reproduction with AR glass for the surroundings other than the person.

また、例えば第一者がVRのHMDである再生機器3を着用している場合、VRのHMDには、サブコンテンツである周囲3Dデータによる周囲の人物以外のオブジェクトが3次元CGとして再生される。また、VRのHMDには、メインコンテンツがテレビ画面上にオーバーレイ表示されると共にその音声が再生される。さらに、VRのHMDには、人物以外の3次元CGと共に、サブコンテンツである人物3Dデータによる映像が周囲の人物の3次元アニメーションとして再生され、人物の音声が再生される。 Further, for example, when the first person wears the reproduction device 3 which is the HMD of VR, the object other than the surrounding person by the surrounding 3D data which is the sub-content is reproduced as the 3D CG in the HMD of VR. .. Further, on the VR HMD, the main content is overlaid on the television screen and the sound is reproduced. Further, in the VR HMD, along with the 3D CG other than the person, the image by the person 3D data which is the sub-content is reproduced as the 3D animation of the surrounding person, and the sound of the person is reproduced.

つまり、VRのHMDには、サブコンテンツである周囲3Dデータによる人物以外の3次元CGを背景として、サブコンテンツである人物3Dデータによる人物の3次元CGアニメーション及びメインコンテンツがオーバーレイ表示される。 That is, on the VR HMD, the 3D CG animation of the person by the person 3D data which is the sub-content and the main content are superimposed and displayed against the background of the 3D CG other than the person by the surrounding 3D data which is the sub-content.

このように、ARグラスまたはVRのHMDを用いることにより、メインコンテンツが再生されると共に、第一者の周囲にいる人物の反応等が再現されるから、過去に視聴した番組について、そのときと同じ視聴体験及び新たな視聴体験を得ることができる。 In this way, by using the AR glass or VR HMD, the main content is reproduced and the reaction of the person around the first person is reproduced, so the program that was watched in the past is the same as that time. A viewing experience and a new viewing experience can be obtained.

ARグラスを用いた場合には、任意の視点に移動することができ、新たな視聴体験を得ることができる。さらに、再生時には、第一者の周囲の映像のうち人物以外の映像は再生時(現在)の周囲状況であるから、記録時の過去の状況と再生時の現在の状況との差を強調した視聴体験を得ることができる。 When the AR glass is used, it is possible to move to an arbitrary viewpoint and obtain a new viewing experience. Furthermore, during playback, the images around the first person other than the person are the surrounding conditions at the time of playback (current), so the difference between the past situation at the time of recording and the current situation at the time of playback was emphasized. You can get a viewing experience.

また、VRのHMDを用いた場合も、任意の視点に移動することができ、新たな視聴体験を得ることができる。また、視聴環境全体の再生が可能であるから、任意の場所で再生することができる。 Further, even when the VR HMD is used, it is possible to move to an arbitrary viewpoint, and a new viewing experience can be obtained. Moreover, since the entire viewing environment can be reproduced, it can be reproduced at any place.

〔実施例2の第1変形例〕
次に、実施例2の第1変形例について説明する。実施例2の第1変形例は、実施例2において人物3Dデータを生成する際に、事前の撮影により得られた人物の3Dデータ(事前人物3Dデータ)を用いる例である。
[First modification of Example 2]
Next, the first modification of Example 2 will be described. The first modification of the second embodiment is an example in which the 3D data of the person (preliminary person 3D data) obtained by the prior shooting is used when the person 3D data is generated in the second embodiment.

実施例2の録画再生装置1-2と実施例2の第1変形例の録画再生装置1-2とを比較すると、実施例2の第1変形例の録画再生装置1-2は、実施例2の人物3D生成部20とは異なる人物3D生成部20’を備えている点で相違する。 Comparing the recording / playback device 1-2 of the second embodiment with the recording / playback device 1-2 of the first modification of the second embodiment, the recording / playback device 1-2 of the first modification of the second embodiment is an embodiment. It differs from the person 3D generation unit 20 of 2 in that it has a person 3D generation unit 20'.

図6は、実施例2の第1変形例における人物3D生成部の構成例を示すブロック図である。この人物3D生成部20’は、姿勢推定部22、事前人物3D生成部24及び生成部25を備えている。 FIG. 6 is a block diagram showing a configuration example of the person 3D generation unit in the first modification of the second embodiment. The person 3D generation unit 20'includes a posture estimation unit 22, a pre-person 3D generation unit 24, and a generation unit 25.

人物3D生成部20’は、受信部11から360度映像信号を入力し、360度映像信号から、人物の姿勢を示すボーンデータを推定し、予め設定された事前人物3Dデータ及び推定したボーンデータに基づいて、人物毎の事前人物3Dデータを生成する。そして、人物3D生成部20’は、事前人物3Dデータに、360度映像信号に含まれる人物映像の信号を投影して上書きすることで、人物3Dデータを生成し、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The person 3D generation unit 20'inputs a 360-degree video signal from the reception unit 11, estimates bone data indicating the posture of the person from the 360-degree video signal, and presets preset human 3D data and estimated bone data. Pre-person 3D data for each person is generated based on. Then, the person 3D generation unit 20'generates the person 3D data by projecting and overwriting the signal of the person image included in the 360-degree video signal on the prior person 3D data, and the person 3D data for each person is generated. It is recorded in the recording unit 15 as sub-content.

人物3D生成部20’の姿勢推定部22は、図4に示した実施例2と同様に、受信部11から360度映像信号を入力し、人物毎の姿勢を推定する。そして、姿勢推定部22は、人物毎の姿勢を示すボーンデータを事前人物3D生成部24に出力する。 The posture estimation unit 22 of the person 3D generation unit 20'inputs a 360-degree video signal from the reception unit 11 and estimates the posture of each person, as in the second embodiment shown in FIG. Then, the posture estimation unit 22 outputs bone data indicating the posture of each person to the prior person 3D generation unit 24.

事前人物3D生成部24は、姿勢推定部22から人物毎のボーンデータを入力すると共に、予め設定された人物毎の事前人物3Dデータを入力する。そして、事前人物3D生成部24は、事前人物3Dデータ及びボーンデータを所定の人物3Dデータ生成処理にて解析し、基本となる人物の3次元モデルを示す人物毎の事前人物3Dデータを生成する。 The pre-person 3D generation unit 24 inputs bone data for each person from the posture estimation unit 22, and also inputs preset pre-person 3D data for each person. Then, the pre-person 3D generation unit 24 analyzes the pre-person 3D data and the bone data by a predetermined person 3D data generation process, and generates pre-person 3D data for each person showing a three-dimensional model of the basic person. ..

事前人物3D生成部24による人物3Dデータ生成処理は既知であり、例えば以下の技術が用いられる。この人物3Dデータ生成処理は、事前人物3Dデータにボーンデータをセットアップした後に、人物の動きを付けるための仕組み(リグ)を生成するリギング処理である。
“クイックリグ(Quick Rig)ツール”、[online]、[平成30年6月15日検索]、インターネット<https://knowledge.autodesk.com/ja/support/maya/learn-explore/caas/CloudHelp/cloudhelp/2018/JPN/Maya-CharacterAnimation/files/GUID-DC29C982-D04F-4C20-9DBA-4BBB33E027EF-htm.html>
The person 3D data generation process by the prior person 3D generation unit 24 is known, and for example, the following technique is used. This person 3D data generation process is a rigging process that generates a mechanism (rig) for adding a person's movement after setting up bone data in advance person 3D data.
"Quick Rig Tool", [online], [Search June 15, 2018], Internet <https://knowledge.autodesk.com/ja/support/maya/learn-explore/caas/CloudHelp /cloudhelp/2018/JPN/Maya-CharacterAnimation/files/GUID-DC29C982-D04F-4C20-9DBA-4BBB33E027EF-htm.html>

予め設定された事前人物3Dデータは、第一者の周囲にいる人物について、3D全身スキャン処理または単眼カメラによる3Dモデリング処理により構築された3Dデータであり、人物の3次元CGアニメーションのデータである。 The preset pre-person 3D data is 3D data constructed by 3D whole body scan processing or 3D modeling processing by a monocular camera for a person around the first person, and is data of 3D CG animation of the person. ..

3D全身スキャン処理は既知であり、例えば以下の技術が用いられる。
“SHUN’X 全身高速3Dスキャナーシステム”、[online]、[平成30年5月11日検索]、インターネット<https:// http://www.vrcjp.com/home.jsf>
3D whole body scan processing is known and, for example, the following techniques are used.
"SHUN'X Whole Body High Speed 3D Scanner System", [online], [Search on May 11, 2018], Internet <https: // http://www.vrcjp.com/home.jsf>

また、単眼カメラによる3Dモデリング処理は既知であり、例えば以下の技術が用いられる。
“ブラウンシュヴァイク工科大学ら、1台の単眼カメラから人体3Dアバターを4.5mm精度で生成する機械学習を用いた手法を発表”、[online]、[平成30年5月11日検索]、インターネット<https://shiropen.com/seamless/ai-3d-people-models>
Further, 3D modeling processing by a monocular camera is known, and for example, the following techniques are used.
"Brownschweig Institute of Technology and others announced a method using machine learning to generate a human body 3D avatar with 4.5 mm accuracy from a single monocular camera", [online], [Search on May 11, 2018], Internet <https://shiropen.com/seamless/ai-3d-people-models>

生成部25は、受信部11から360度映像信号を入力すると共に、事前人物3D生成部24から人物毎の事前人物3Dデータを入力し、図4に示した人物抽出部12と同様に、360度映像信号の映像から人物映像を抽出する。そして、生成部25は、人物映像信号と事前人物3Dデータとをマッチング処理にて対応付ける。 The generation unit 25 inputs a 360-degree video signal from the reception unit 11 and inputs pre-person 3D data for each person from the pre-person 3D generation unit 24. Similar to the person extraction unit 12 shown in FIG. 4, 360 A person image is extracted from the image of the video signal. Then, the generation unit 25 associates the person video signal with the prior person 3D data by the matching process.

生成部25は、所定の投影処理により、事前人物3Dデータに、対応する人物映像信号を投影して上書きすることで、人物3Dデータを生成し、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The generation unit 25 generates the person 3D data by projecting and overwriting the corresponding person video signal on the prior person 3D data by a predetermined projection process, and the person 3D data for each person is recorded as sub-contents. Record at 15.

これにより、事前の撮影により事前人物3Dデータが得られたときの過去の人物映像ではなく、第一者が番組を視聴しているときの現在の人物映像が反映された人物3Dデータが得られる。 As a result, it is possible to obtain person 3D data that reflects the current person image when the first person is watching the program, instead of the past person image when the person 3D data was obtained in advance by shooting in advance. ..

生成部25による投影処理は既知であり、例えば以下の技術が用いられる。この投影処理は、一般的な投影マッピングによるものであり、オブジェクトである事前人物3Dデータに、マテリアルである人物映像信号を投影する処理である。
“プロジェクター”、[online]、[平成30年5月11日検索]、インターネット<https://docs.unity3d.com/ja/current/Manual/class-Projector.html>
“Easy Decal 大きな凹凸がある表面でもデカールが貼れる!Terrainでも大丈夫!動的に変化可能なデカールシステム”、[online]、[平成30年5月11日検索]、インターネット<http://www.asset-sale.net/entry/Easy_Decal>
The projection process by the generation unit 25 is known, and for example, the following technique is used. This projection process is based on general projection mapping, and is a process of projecting a person image signal as a material onto the prior person 3D data which is an object.
"Projector", [online], [Search on May 11, 2018], Internet <https://docs.unity3d.com/ja/current/Manual/class-Projector.html>
"Easy Decal Decal can be applied even on large uneven surfaces! Terrain is okay! Dynamically changeable decal system", [online], [Search on May 11, 2018], Internet <http: // www. asset-sale.net/entry/Easy_Decal >

以上のように、実施例2の第1変形例の録画再生装置1-2によれば、人物3D生成部20’は、360度映像から、人物の姿勢を示すボーンデータを推定し、予め設定された事前人物3Dデータ及び推定したボーンデータに基づいて、事前人物3Dデータを生成する。そして、人物3D生成部20’は、事前人物3Dデータに、360度映像信号に含まれる人物映像信号を投影して上書きすることで人物3Dデータを生成し、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 As described above, according to the recording / playback device 1-2 of the first modification of the second embodiment, the person 3D generation unit 20'estimates bone data indicating the posture of the person from the 360-degree image and sets it in advance. Pre-person 3D data is generated based on the pre-person 3D data and the estimated bone data. Then, the person 3D generation unit 20'generates the person 3D data by projecting and overwriting the person video signal included in the 360-degree video signal on the prior person 3D data, and sub-contents the person 3D data for each person. Is recorded in the recording unit 15.

これにより、実施例2よりも精度の高い人物3Dデータが記録部15に記録されるから、再生時には、人物3Dデータによる周囲の人物が3次元アニメーションとして、より現実に近い状態で再生することができる。 As a result, since the person 3D data having higher accuracy than that of the second embodiment is recorded in the recording unit 15, the surrounding people based on the person 3D data can be reproduced as a three-dimensional animation in a state closer to reality at the time of reproduction. can.

〔実施例2の第2変形例〕
次に、実施例2の第2変形例について説明する。実施例2の第2変形例は、実施例2において周囲3Dデータを生成する際に、事前の撮影により得られた第一者の周囲の3Dデータ(事前周囲3Dデータ)を用いる例である。
[Second modification of Example 2]
Next, a second modification of the second embodiment will be described. The second modification of Example 2 is an example of using the 3D data around the first person (pre-surrounding 3D data) obtained by prior imaging when generating the surrounding 3D data in Example 2.

実施例2の録画再生装置1-2と実施例2の第2変形例の録画再生装置1-2とを比較すると、実施例2の第2変形例の録画再生装置1-2は、実施例2の周囲3D生成部21とは異なる周囲3D生成部21’を備えている点で相違する。 Comparing the recording / playback device 1-2 of the second embodiment with the recording / playback device 1-2 of the second modification of the second embodiment, the recording / playback device 1-2 of the second modification of the second embodiment is an embodiment. It differs from the peripheral 3D generation unit 21 of 2 in that it has a peripheral 3D generation unit 21'.

図7は、実施例2の第2変形例における周囲3D生成部の構成例を示すブロック図である。この周囲3D生成部21’は生成部26を備えている。 FIG. 7 is a block diagram showing a configuration example of the surrounding 3D generation unit in the second modification of the second embodiment. The peripheral 3D generation unit 21'includes a generation unit 26.

生成部26は、受信部11から360度映像信号を入力すると共に、予め設定された事前周囲3Dデータを入力する。そして、生成部26は、360度映像信号からオブジェクトを抽出し、オブジェクト映像信号を生成する。 The generation unit 26 inputs a 360-degree video signal from the reception unit 11 and also inputs preset surrounding 3D data. Then, the generation unit 26 extracts an object from the 360-degree video signal and generates an object video signal.

生成部26は、事前周囲3Dデータからオブジェクトを抽出し、360度映像信号から抽出したオブジェクトと、事前周囲3Dデータから抽出したオブジェクトとをマッチング処理にて対応付ける。そして、生成部26は、事前周囲3Dデータのオブジェクトに、対応するオブジェクト映像信号を投影して上書きすることで、周囲3Dデータを生成し、周囲3Dデータをサブコンテンツとして記録部15に記録する。 The generation unit 26 extracts an object from the pre-surrounding 3D data, and associates the object extracted from the 360-degree video signal with the object extracted from the pre-surrounding 3D data by a matching process. Then, the generation unit 26 generates the surrounding 3D data by projecting the corresponding object video signal onto the object of the prior surrounding 3D data and overwriting it, and records the surrounding 3D data as sub-content in the recording unit 15.

これにより、事前の撮影により事前周囲3Dデータが得られたときの過去のオブジェクト映像ではなく、第一者が番組を視聴しているときの現在のオブジェクト映像が反映された周囲3Dデータが得られる。 As a result, it is possible to obtain surrounding 3D data that reflects the current object image when the first person is watching the program, instead of the past object image when the advance surrounding 3D data was obtained by the prior shooting. ..

予め設定された事前周囲3Dデータは、ウェアラブル360度カメラ2等を用いて事前に視聴が行われる部屋内を移動しながら撮影し、撮影した複数の映像を用いて、前述の周囲3Dデータ生成処理のフォトグラメトリーにより構築された3Dデータである。この事前周囲3Dデータには、撮影されたオブジェクトが3次元CGで表された3Dデータが含まれる。 The preset surrounding 3D data is shot while moving in the room where viewing is performed in advance using a wearable 360-degree camera 2, etc., and the above-mentioned surrounding 3D data generation processing is performed using the plurality of shot images. It is 3D data constructed by the photogrammetry of. This pre-peripheral 3D data includes 3D data in which the photographed object is represented by 3D CG.

以上のように、実施例2の第2変形例の録画再生装置1-2によれば、周囲3D生成部21’は、事前周囲3Dデータに、360度映像信号に含まれるオブジェクトの映像を投影して上書きすることで、周囲3Dデータを生成する。そして、周囲3D生成部21’は、周囲3Dデータをサブコンテンツとして記録部15に記録する。 As described above, according to the recording / playback device 1-2 of the second modification of the second embodiment, the surrounding 3D generation unit 21'projects the image of the object included in the 360-degree video signal onto the pre-peripheral 3D data. And overwrite it to generate surrounding 3D data. Then, the peripheral 3D generation unit 21'records the peripheral 3D data as sub-content in the recording unit 15.

これにより、実施例2よりも精度の高い周囲3Dデータが記録部15に記録されるから、再生時には、周囲3Dデータによる周囲の人物以外のオブジェクトを3次元CGとして、より現実に近い状態で再生することができる。 As a result, the surrounding 3D data with higher accuracy than that of the second embodiment is recorded in the recording unit 15. Therefore, at the time of reproduction, the object other than the surrounding person by the surrounding 3D data is reproduced as a 3D CG in a state closer to reality. can do.

〔実施例3〕
次に、実施例3について説明する。前述のとおり、実施例3は、実施例2において、周囲の人物について精度の高い3D映像を記録する例である。実施例3では、周囲の人物についてリアリティ感の高い3次元CGにて再生することができる。
[Example 3]
Next, Example 3 will be described. As described above, Example 3 is an example of recording a highly accurate 3D image of a surrounding person in Example 2. In the third embodiment, it is possible to reproduce the surrounding people with a highly realistic three-dimensional CG.

図8は、実施例3の録画再生装置の構成例を示すブロック図である。この録画再生装置1-3は、受信部10,11,30、人物3D生成部32、周囲3D生成部21、テレビ位置検出部13、人物音声抽出部14、視線検出部31、補正部33、記録部15及び送信部16を備えている。 FIG. 8 is a block diagram showing a configuration example of the recording / playback device of the third embodiment. The recording / playback device 1-3 includes receiving units 10, 11, 30, a person 3D generation unit 32, a surrounding 3D generation unit 21, a television position detection unit 13, a person voice extraction unit 14, a line-of-sight detection unit 31, and a correction unit 33. It includes a recording unit 15 and a transmitting unit 16.

図4に示した実施例2の録画再生装置1-2とこの録画再生装置1-3とを比較すると、両録画再生装置1-2,1-3は、受信部10,11、周囲3D生成部21、テレビ位置検出部13、人物音声抽出部14、記録部15及び送信部16を備えている点で同一である。一方、録画再生装置1-3は、録画再生装置1-2の人物3D生成部20とは異なる人物3D生成部32を備え、さらに、受信部30、視線検出部31及び補正部33を備えている点で相違する。 Comparing the recording / playback device 1-2 of the second embodiment shown in FIG. 4 with the recording / playback device 1-3, both the recording / playback devices 1-2 and 1-3 generate the receiving units 10 and 11 and the surrounding 3D. It is the same in that it includes a unit 21, a television position detection unit 13, a person voice extraction unit 14, a recording unit 15, and a transmission unit 16. On the other hand, the recording / reproducing device 1-3 includes a person 3D generating unit 32 different from the person 3D generating unit 20 of the recording / reproducing device 1-2, and further includes a receiving unit 30, a line-of-sight detection unit 31, and a correction unit 33. It differs in that it is.

録画再生装置1-3は、図5に示したステップS501~S504,S506~509と同一の処理を行う。録画再生装置1-3は、ステップS505において、360度映像信号、人物の俯瞰映像信号及び視線方向データに基づいて、人物3Dデータを生成し、人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The recording / playback apparatus 1-3 performs the same processing as in steps S501 to S504 and S506 to 509 shown in FIG. In step S505, the recording / playback device 1-3 generates person 3D data based on the 360-degree video signal, the bird's-eye view video signal of the person, and the line-of-sight direction data, and the person 3D data for each person is used as sub-content in the recording unit 15. Record in.

受信部10は、図4に示した実施例2と同様に、番組映像音声信号を受信し、番組映像音声信号をメインコンテンツとして記録部15に記録する。 Similar to the second embodiment shown in FIG. 4, the receiving unit 10 receives the program video / audio signal and records the program video / audio signal as the main content in the recording unit 15.

受信部11は、図4に示した実施例2と同様に、ウェアラブル360度カメラ2から360度映像音声信号を受信し、360度映像音声信号を360度映像信号及び360度音声信号に分離する。そして、受信部11は、360度映像信号を人物3D生成部32、周囲3D生成部21及びテレビ位置検出部13に出力し、360度音声信号を人物音声抽出部14に出力する。 Similar to the second embodiment shown in FIG. 4, the receiving unit 11 receives the 360-degree video-audio signal from the wearable 360-degree camera 2 and separates the 360-degree video-audio signal into a 360-degree video signal and a 360-degree audio signal. .. Then, the receiving unit 11 outputs the 360-degree video signal to the person 3D generation unit 32, the surrounding 3D generation unit 21, and the television position detection unit 13, and outputs the 360-degree audio signal to the person voice extraction unit 14.

受信部30は、俯瞰カメラ4から人物の俯瞰映像信号を受信し、俯瞰映像信号を人物3D生成部32に出力する。俯瞰カメラ4は、視聴が行われる部屋に設置され、第一者の周囲の人物を俯瞰した状態で撮影し、人物の俯瞰映像信号を録画再生装置1-3へ送信する。 The receiving unit 30 receives the bird's-eye view video signal of the person from the bird's-eye view camera 4, and outputs the bird's-eye view video signal to the person 3D generation unit 32. The bird's-eye view camera 4 is installed in a room where viewing is performed, takes a picture of a person around the first person in a bird's-eye view, and transmits a bird's-eye view video signal of the person to the recording / playback device 1-3.

この俯瞰カメラ4は、人物3D生成部32にて高精度のボーンデータを生成するために用いられ、結果として高精度の人物3Dデータを生成するために用いられる。俯瞰映像信号は、受信部11から出力される360度映像信号とは異なる信号であり、360度映像信号とは異なる角度から人物が撮影された信号である。 This bird's-eye view camera 4 is used by the person 3D generation unit 32 to generate high-precision bone data, and as a result, is used to generate high-precision person 3D data. The bird's-eye view video signal is a signal different from the 360-degree video signal output from the receiving unit 11, and is a signal in which a person is photographed from an angle different from the 360-degree video signal.

人物3D生成部32は、受信部11から360度映像信号を入力すると共に、受信部30から人物の俯瞰映像信号を入力し、360度映像信号の映像から人物の映像を抽出し、人物映像信号を生成する。人物3D生成部32は、人物映像信号及び人物の俯瞰映像信号から、人物の姿勢を示す人物毎のボーンデータを推定する。そして、人物3D生成部32は、人物映像信号及びボーンデータに基づいて人物3Dデータを生成し、人物毎の人物3Dデータを補正部33に出力する。 The person 3D generation unit 32 inputs a 360-degree video signal from the receiving unit 11, inputs a bird's-eye view video signal of the person from the receiving unit 30, extracts a person's image from the 360-degree video signal image, and extracts the person's image. To generate. The person 3D generation unit 32 estimates bone data for each person indicating the posture of the person from the person image signal and the bird's-eye view image signal of the person. Then, the person 3D generation unit 32 generates the person 3D data based on the person video signal and the bone data, and outputs the person 3D data for each person to the correction unit 33.

人物3D生成部32は、人物抽出部12、姿勢推定部27及び生成部23を備えている。人物抽出部12は、図4に示した実施例2と同様に、受信部11から360度映像信号を入力し、360度映像信号から人物映像信号のテクスチャ情報を抽出する。そして、人物抽出部12は、人物毎の人物映像信号のテクスチャ情報を生成部23に出力する。 The person 3D generation unit 32 includes a person extraction unit 12, a posture estimation unit 27, and a person generation unit 23. Similar to the second embodiment shown in FIG. 4, the person extraction unit 12 inputs a 360-degree video signal from the receiving unit 11 and extracts texture information of the person video signal from the 360-degree video signal. Then, the person extraction unit 12 outputs the texture information of the person video signal for each person to the generation unit 23.

姿勢推定部27は、受信部11から360度映像信号を入力すると共に、受信部30から人物の俯瞰映像信号を入力する。そして、姿勢推定部27は、図4に示した姿勢推定部22と同様に、360度映像信号を所定の姿勢推定処理にて解析し、360度映像信号に含まれる人物映像の体、手、顔等の部位を検出し、人物毎の姿勢を推定する。姿勢推定部27は、360度映像信号と同様に、俯瞰映像信号を所定の姿勢推定処理にて解析し、俯瞰映像信号に含まれる人物映像の体、手、顔等の部位を検出し、人物毎の姿勢を推定する。 The posture estimation unit 27 inputs a 360-degree video signal from the receiving unit 11, and also inputs a bird's-eye view video signal of a person from the receiving unit 30. Then, the posture estimation unit 27 analyzes the 360-degree video signal by a predetermined posture estimation process, similarly to the posture estimation unit 22 shown in FIG. 4, and the body, hand, and the person image included in the 360-degree video signal. Detects parts such as the face and estimates the posture of each person. The posture estimation unit 27 analyzes the bird's-eye view video signal by a predetermined posture estimation process in the same manner as the 360-degree video signal, detects parts of the person image included in the bird's-eye view video signal, such as the body, hands, and face, and the person. Estimate each posture.

姿勢推定部27は、360度映像信号から推定した姿勢及び俯瞰映像信号から推定した姿勢を用いて、関節が外れたり不自然な角度になったりしないで姿勢の自然さを最適化するように、三角測量の要領で3次元位置を特定し、人物毎の姿勢を示すボーンデータを生成する。そして、姿勢推定部27は、人物毎のボーンデータを生成部23に出力する。これにより、ボーンデータは、人物の姿勢が高精度に反映されたデータとなり、後段の生成部23にて、高精度な人物3Dデータを生成することができる。 The posture estimation unit 27 uses the posture estimated from the 360-degree video signal and the posture estimated from the bird's-eye view video signal to optimize the naturalness of the posture without the joints coming off or having an unnatural angle. The three-dimensional position is specified in the manner of triangulation, and bone data showing the posture of each person is generated. Then, the posture estimation unit 27 outputs bone data for each person to the generation unit 23. As a result, the bone data becomes data that reflects the posture of the person with high accuracy, and the generation unit 23 in the subsequent stage can generate highly accurate person 3D data.

姿勢推定部27による姿勢推定処理は既知であり、前述の姿勢推定部22と同様の「SMPLify」の技術、または以下の「OpenPose」の技術が用いられる。
“OpenPose:Real-time multi-person keypoint detection library for body, face, and hands estimation”、[online]、[平成30年5月11日検索]、インターネット<https://github.com/CMU-Perceptual-Computing-Lab/openpose>
The posture estimation process by the posture estimation unit 27 is known, and the same “SMPLify” technique as the above-mentioned posture estimation unit 22 or the following “OpenPose” technique is used.
"OpenPose: Real-time multi-person keypoint detection library for body, face, and hands estimation", [online], [Search on May 11, 2018], Internet <https://github.com/CMU-Perceptual -Computing-Lab / openpose >

生成部23は、人物抽出部12から人物毎の人物映像信号のテクスチャ情報を入力すると共に、姿勢推定部27から人物毎のボーンデータを入力する。そして、生成部23は、図4に示した実施例2と同様に、ボーンデータに人物映像信号を投影して上書きし、人物3Dデータを生成する。生成部23は、人物毎の人物3Dデータを補正部33に出力する。 The generation unit 23 inputs the texture information of the person video signal for each person from the person extraction unit 12, and also inputs the bone data for each person from the posture estimation unit 27. Then, the generation unit 23 projects and overwrites the person video signal on the bone data in the same manner as in the second embodiment shown in FIG. 4, and generates the person 3D data. The generation unit 23 outputs the person 3D data for each person to the correction unit 33.

視線検出部31は、第一者の周囲にいる各人物がウェアラブルな視線検出グラス(図示せず)を着用している状態で、視線検出グラスのカメラにより検出された眼球画像に基づいて、各人物の視線を検出し、人物毎の視線方向データを生成する。そして、視線検出部31は、人物毎の視線方向データを補正部33に出力する。 The line-of-sight detection unit 31 is based on an eyeball image detected by a camera of the line-of-sight detection glass while each person around the first person is wearing a wearable line-of-sight detection glass (not shown). Detects the line of sight of a person and generates line-of-sight direction data for each person. Then, the line-of-sight detection unit 31 outputs the line-of-sight direction data for each person to the correction unit 33.

視線方向の検出処理は既知であるから、ここでは詳細な説明を省略する。視線検出グラスとしては、例えば以下のサイトで紹介されているグラスが用いられる。
“Tobii Pro グラス2”、[online]、[平成30年5月11日検索]、インターネット<https://www.tobiipro.com/ja/product-listing/tobii-pro-glasses-2/>
Since the line-of-sight direction detection process is known, detailed description thereof will be omitted here. As the line-of-sight detection glass, for example, the glass introduced at the following site is used.
"Tobii Pro Glasses 2", [online], [Searched May 11, 2018], Internet <https://www.tobiipro.com/ja/product-listing/tobii-pro-glasses-2/>

補正部33は、人物3D生成部32から人物毎の人物3Dデータを入力すると共に、視線検出部31から人物毎の視線方向データを入力する。そして、補正部33は、人物毎に、視線方向データに基づいて人物がどこを見ていたかを示す視線方向を求める。補正部33は、人物3Dデータの視線方向が視線方向データから求めた視線方向と一致するように、人物3Dデータにおける黒目の位置を補正することで、人物3Dデータを補正する。補正部33は、黒目の位置を補正した人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The correction unit 33 inputs the person 3D data for each person from the person 3D generation unit 32, and inputs the line-of-sight direction data for each person from the line-of-sight detection unit 31. Then, the correction unit 33 obtains the line-of-sight direction indicating where the person was looking based on the line-of-sight direction data for each person. The correction unit 33 corrects the person 3D data by correcting the position of the black eye in the person 3D data so that the line-of-sight direction of the person 3D data matches the line-of-sight direction obtained from the line-of-sight direction data. The correction unit 33 records the person 3D data for each person whose black eye position has been corrected in the recording unit 15 as sub-contents.

これにより、補正後の人物3Dデータによる人物の視線方向は正確な方向となり、高精度の人物3Dデータを生成することができる。 As a result, the line-of-sight direction of the person based on the corrected person 3D data becomes an accurate direction, and high-precision person 3D data can be generated.

テレビ位置検出部13、人物音声抽出部14、記録部15及び送信部16は、図4に示した構成部と同様であるから、ここでは説明を省略する。 Since the television position detection unit 13, the person voice extraction unit 14, the recording unit 15, and the transmission unit 16 are the same as the components shown in FIG. 4, description thereof will be omitted here.

これにより、記録部15には、メインコンテンツとして複数の番組映像音声が記録される。また、記録部15には、サブコンテンツとして、複数の番組映像音声のそれぞれに対応する、第一者の周囲にいる人物に関する人物毎の人物3Dデータ、第一者の周囲にあるオブジェクトに関する周囲3Dデータ、人物音声信号及びテレビ位置データが記録される。人物3Dデータは、実施例2よりも高精度のデータである。 As a result, a plurality of program video / audio are recorded in the recording unit 15 as the main content. Further, in the recording unit 15, as sub-contents, person 3D data for each person related to the person around the first person and surrounding 3D related to the object around the first person corresponding to each of the plurality of program video / audio are provided. Data, person voice signals and television position data are recorded. The person 3D data is data with higher accuracy than that of the second embodiment.

以上のように、実施例3の録画再生装置1-3によれば、人物3D生成部32は、人物抽出部12にて360度映像信号の映像から人物映像を抽出し、姿勢推定部27にて、360度映像信号及び人物の俯瞰映像から人物毎のボーンデータを推定する。そして、人物3D生成部32は、生成部23にて、人物映像信号及びボーンデータに基づいて人物毎の人物3Dデータを生成する。 As described above, according to the recording / playback device 1-3 of the third embodiment, the person 3D generation unit 32 extracts the person image from the image of the 360-degree video signal by the person extraction unit 12, and causes the posture estimation unit 27 to extract the person image. The bone data for each person is estimated from the 360-degree video signal and the bird's-eye view of the person. Then, the person 3D generation unit 32 generates the person 3D data for each person based on the person video signal and the bone data in the generation unit 23.

視線検出部31は、人物毎の視線を検出して視線方向データを生成し、補正部33は、視線方向データに基づいて人物3Dデータの黒目の位置を補正し、補正後の人物毎の人物3Dデータをサブコンテンツとして記録部15に記録する。 The line-of-sight detection unit 31 detects the line of sight of each person and generates line-of-sight direction data, and the correction unit 33 corrects the position of the black eye of the person 3D data based on the line-of-sight direction data, and the corrected person for each person. The 3D data is recorded in the recording unit 15 as sub-contents.

これにより、実施例2よりも高精度の人物3Dデータが記録部15に記録されるから、再生時には、周囲の人物が人物3Dデータによる3次元アニメーションとして、より現実に近い状態で再生することができる。 As a result, the person 3D data with higher accuracy than that of the second embodiment is recorded in the recording unit 15, so that the surrounding people can reproduce the person as a three-dimensional animation based on the person 3D data in a state closer to reality at the time of reproduction. can.

このように、ARグラスまたはVRのHMDを用いることにより、メインコンテンツが再生されると共に、第一者の周囲にいる人物の反応等が再現されるから、過去に視聴した番組について、そのときと同じ視聴体験及び新たな視聴体験を得ることができる。 In this way, by using the AR glass or VR HMD, the main content is reproduced and the reaction of the person around the first person is reproduced, so the program that was watched in the past is the same as that time. A viewing experience and a new viewing experience can be obtained.

尚、録画再生装置1-3は、人物抽出部12、姿勢推定部27及び生成部23を備えた人物3D生成部32にて、360度映像信号及び俯瞰映像信号に基づいて、人物毎の人物3Dデータを生成するようにした。この場合、録画再生装置1-3は、人物3D生成部32の代わりに、図6に示した事前人物3Dデータを用いる人物3D生成部20’を備えるようにしてもよい。 The recording / playback device 1-3 is a person 3D generation unit 32 provided with a person extraction unit 12, a posture estimation unit 27, and a generation unit 23, and is a person for each person based on a 360-degree video signal and a bird's-eye view video signal. I tried to generate 3D data. In this case, the recording / reproducing device 1-3 may include a person 3D generation unit 20'using the prior person 3D data shown in FIG. 6 instead of the person 3D generation unit 32.

録画再生装置1-3の人物3D生成部20’は、図6に示した実施例2の第1変形例と同様に、姿勢推定部22、事前人物3D生成部24及び生成部25を備えている。この場合の姿勢推定部22は、図8に示した姿勢推定部27と同様に、360度映像信号に加え、受信部30から俯瞰映像信号を入力し、ボーンデータを生成して事前人物3D生成部24に出力する。 The person 3D generation unit 20'of the recording / playback device 1-3 includes a posture estimation unit 22, a pre-person 3D generation unit 24, and a generation unit 25, as in the first modification of the second embodiment shown in FIG. There is. In this case, the posture estimation unit 22 inputs a bird's-eye view video signal from the reception unit 30 in addition to the 360-degree video signal, generates bone data, and generates a pre-person 3D, similarly to the posture estimation unit 27 shown in FIG. Output to unit 24.

また、録画再生装置1-3は、周囲3D生成部21にて、360度映像信号に基づいて周囲3Dデータを生成するようにした。この場合、録画再生装置1-3は、周囲3D生成部21の代わりに、図7に示した実施例2の第2変形例と同様に、事前周囲3Dデータを用いる周囲3D生成部21’を備えるようにしてもよい。周囲3D生成部21’は、前述のとおり、360度映像信号及び事前周囲3Dデータに基づいて、周囲3Dデータを生成する。 Further, the recording / playback device 1-3 is configured to generate peripheral 3D data based on the 360-degree video signal by the peripheral 3D generation unit 21. In this case, instead of the peripheral 3D generation unit 21, the recording / playback device 1-3 uses the peripheral 3D generation unit 21'which uses the preliminary peripheral 3D data, as in the second modification of the second embodiment shown in FIG. You may be prepared. As described above, the peripheral 3D generation unit 21'generates peripheral 3D data based on the 360-degree video signal and the preliminary peripheral 3D data.

以上、実施例1,2,3を挙げて本発明を説明したが、本発明は前記実施例1,2,3に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば実施例3の録画再生装置1-3は、俯瞰カメラ4により撮影された人物毎の映像の俯瞰映像信号を用いる人物3D生成部32、人物毎の視線を検出する視線検出部31を備えるようにした。これに対し、録画再生装置1-3は、さらに、人物の顔の表情を検出する表情検出部を備えるようにしてもよい。 Although the present invention has been described above with reference to Examples 1, 2, and 3, the present invention is not limited to the above Examples 1, 2, and 3, and can be variously modified without departing from the technical idea. be. For example, the recording / playback device 1-3 of the third embodiment includes a person 3D generation unit 32 that uses a bird's-eye view video signal of a video of each person taken by the bird's-eye view camera 4, and a line-of-sight detection unit 31 that detects the line of sight of each person. I made it. On the other hand, the recording / reproducing device 1-3 may further include a facial expression detecting unit for detecting the facial expression of a person's face.

この場合、表情検出部は、表情検出デバイスにより検出された人物の表情について、表情データを生成し、これを補正部33に出力する。補正部33は、表情検出部から人物毎の表情データを入力し、人物毎に、人物3Dデータの顔に表情データを反映する。そして、補正部33は、人物毎の新たな人物3Dデータをサブコンテンツとして記録部15に記録する。 In this case, the facial expression detection unit generates facial expression data for the facial expression of the person detected by the facial expression detection device, and outputs this to the correction unit 33. The correction unit 33 inputs facial expression data for each person from the facial expression detection unit, and reflects the facial expression data on the face of the person 3D data for each person. Then, the correction unit 33 records new person 3D data for each person as sub-contents in the recording unit 15.

表情検出部による表情検出処理は既知であり、例えば以下の技術が用いられる。
“人間の視線や表情をVR空間のアバターへ瞬時に反映--360Channelが「FACE」を開発”、[online]、[平成30年5月11日検索]、インターネット<https://japan.cnet.com/article/35101852/>
The facial expression detection process by the facial expression detection unit is known, and for example, the following techniques are used.
"Instantly reflect human eyes and facial expressions on avatars in VR space--360Channel develops" FACE "", [online], [Search on May 11, 2018], Internet <https://japan.cnet .com / article / 35101852 />

表情検出グラスとしては、例えば以下のサイトで紹介されているグラスが用いられる。
“AffectiveWear:装着者の日常的な表情を認識する眼鏡型装置”、[online]、[平成30年5月11日検索]、インターネット<https://www.jstage.jst.go.jp/article/tvrsj/21/2/21_385/_pdf>
As the facial expression detection glass, for example, the glass introduced at the following site is used.
"AffectiveWear: Eyeglass-type device that recognizes the wearer's daily facial expressions", [online], [Search on May 11, 2018], Internet <https://www.jstage.jst.go.jp/article / tvrsj / 21/2 / 21_385 / _pdf >

尚、本発明の実施例1,2,3の録画再生装置1-1,1-2,1-3によるハードウェア構成としては、通常のコンピュータを使用することができる。録画再生装置1-1,1-2,1-3は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。 As the hardware configuration according to the recording / playback devices 1-1, 1-2, 1-3 of the first, second, and third embodiments of the present invention, a normal computer can be used. The recording / playback device 1-1, 1-2, 1-3 is composed of a volatile storage medium such as a CPU and RAM, a non-volatile storage medium such as a ROM, and a computer provided with an interface and the like.

録画再生装置1-1に備えた受信部10,11、人物抽出部12、テレビ位置検出部13、人物音声抽出部14、記録部15及び送信部16の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、録画再生装置1-2に備えた受信部10,11、人物3D生成部20、周囲3D生成部21、テレビ位置検出部13、人物音声抽出部14、記録部15及び送信部16の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、録画再生装置1-3に備えた受信部10,11,30、人物3D生成部32、周囲3D生成部21、テレビ位置検出部13、人物音声抽出部14、視線検出部31、補正部33、記録部15及び送信部16の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。 The functions of the receiving units 10 and 11, the person extracting unit 12, the television position detecting unit 13, the person voice extracting unit 14, the recording unit 15, and the transmitting unit 16 provided in the recording / reproducing device 1-1 describe these functions. Each is realized by having the CPU execute the program. In addition, each of the receiving units 10 and 11, the person 3D generation unit 20, the surrounding 3D generation unit 21, the television position detection unit 13, the person voice extraction unit 14, the recording unit 15, and the transmission unit 16 provided in the recording / playback device 1-2. The functions are also realized by causing the CPU to execute a program describing these functions. In addition, the receiving units 10, 11, 30, the person 3D generation unit 32, the surrounding 3D generation unit 21, the television position detection unit 13, the person voice extraction unit 14, the line-of-sight detection unit 31, and the correction unit provided in the recording / playback device 1-3. The functions of 33, the recording unit 15, and the transmitting unit 16 are also realized by causing the CPU to execute a program describing these functions.

これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。 These programs are stored in the storage medium, read by the CPU, and executed. In addition, these programs can be stored and distributed in storage media such as magnetic disks (floppy (registered trademark) disks, hard disks, etc.), optical disks (CD-ROM, DVD, etc.), semiconductor memories, etc., and can be distributed via a network. You can also send and receive.

1 録画再生装置
2 ウェアラブル360度カメラ
3 再生機器
4 俯瞰カメラ
10,11,30 受信部
12 人物抽出部
13 テレビ位置検出部
14 人物音声抽出部
15 記録部
16 送信部
20,20’,32 人物3D生成部
21,21’ 周囲3D生成部
22,27 姿勢推定部
23 生成部
24 事前人物3D生成部
25,26 生成部
31 視線検出部
33 補正部
40 番組特定部
41 減算部
1 Recording / playback device 2 Wearable 360-degree camera 3 Playback equipment 4 Bird's-eye view camera 10, 11, 30 Receiver 12 Person extraction unit 13 TV position detection unit 14 Person voice extraction unit 15 Recording unit 16 Transmission unit 20, 20', 32 Person 3D Generation unit 21,21'Around 3D generation unit 22,27 Posture estimation unit 23 Generation unit 24 Pre-person 3D generation unit 25,26 Generation unit 31 Line-of-sight detection unit 33 Correction unit 40 Program identification unit 41 Subtraction unit

Claims (7)

テレビに再生した番組の映像及び音声を含む番組映像音声信号を記録部に記録し、前記番組を再生機器にて視聴するユーザの操作に従い、前記記録部から前記番組映像音声信号を読み出して前記再生機器へ送信する録画再生装置において、
前記番組映像音声信号を受信し、当該番組映像音声信号をメインコンテンツとして前記記録部に記録する第1の受信部と、
前記ユーザの周囲に存在する人物の映像、及び前記番組が再生されている前記テレビの映像を含む周囲映像信号を受信すると共に、前記ユーザの周囲から収音した周囲音声信号を受信する第2の受信部と、
前記第2の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像信号を生成し、人物毎の前記人物映像信号をサブコンテンツとして前記記録部に記録する人物抽出部と、
前記第2の受信部により受信された前記周囲映像信号から前記テレビの位置を検出し、前記番組映像音声信号における番組映像信号が前記再生機器により再生される位置を示すテレビ位置データを生成し、当該テレビ位置データを前記サブコンテンツとして前記記録部に記録するテレビ位置検出部と、
前記記録部に記録された前記番組映像音声信号、及び前記第2の受信部により受信された前記周囲音声信号に基づいて、前記周囲音声信号に含まれる番組音声信号に対応する前記番組を特定し、前記周囲音声信号と、前記番組の前記番組映像音声信号における番組音声信号との間の差分を求め、前記ユーザの周囲に存在する前記人物の人物音声信号を生成し、当該人物音声信号を前記サブコンテンツとして前記記録部に記録する人物音声抽出部と、
前記記録部から前記メインコンテンツ及び前記サブコンテンツを読み出し、当該メインコンテンツ及び当該サブコンテンツを前記再生機器へ送信する送信部と、
を備えたことを特徴とする録画再生装置。
The program video / audio signal including the video and audio of the program played on the television is recorded in the recording unit, and the program video / audio signal is read from the recording unit and played back according to the operation of the user who views the program on the playback device. In the recording / playback device that sends to the device
A first receiving unit that receives the program video / audio signal and records the program video / audio signal as the main content in the recording unit.
A second second, which receives an ambient video signal including an image of a person existing around the user and an image of the television on which the program is being played, and also receives an ambient audio signal picked up from the surroundings of the user. Receiver and
Person extraction that extracts the person from the surrounding video signal received by the second receiving unit, generates a person video signal for each person, and records the person video signal for each person as sub-content in the recording unit. Department and
The position of the television is detected from the ambient video signal received by the second receiving unit, and television position data indicating the position where the program video signal in the program video audio signal is reproduced by the playback device is generated. A TV position detection unit that records the TV position data as the sub-content in the recording unit, and
Based on the program video audio signal recorded in the recording unit and the ambient audio signal received by the second receiving unit, the program corresponding to the program audio signal included in the ambient audio signal is specified. , The difference between the ambient audio signal and the program audio signal in the program video audio signal of the program is obtained, a person audio signal of the person existing around the user is generated, and the person audio signal is used. A person audio extraction unit that records in the recording unit as sub-content, and
A transmission unit that reads the main content and the sub-content from the recording unit and transmits the main content and the sub-content to the playback device.
A recording / playback device characterized by being equipped with.
請求項1に記載の録画再生装置において、
前記人物抽出部の代わりに人物3D(3次元)生成部を備え、さらに、周囲3D生成部を備え、
前記人物3D生成部は、
前記第2の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎のボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物の3次元CGアニメーションのデータとして人物3Dデータを生成し、人物毎の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録し、
前記周囲3D生成部は、
前記第2の受信部により受信された前記周囲映像信号からオブジェクトを抽出し、当該オブジェクトの3次元CGのデータを含む周囲3Dデータを生成し、当該周囲3Dデータを前記サブコンテンツとして前記記録部に記録し、
前記記録部には、
前記番組映像音声信号が前記メインコンテンツとして記録され、人物毎の前記人物3Dデータ、前記周囲3Dデータ、前記テレビ位置データ及び前記人物音声信号が前記サブコンテンツとして記録される、ことを特徴とする録画再生装置。
In the recording / playback device according to claim 1,
A person 3D (three-dimensional) generation unit is provided in place of the person extraction unit, and a surrounding 3D generation unit is further provided.
The person 3D generation unit
The person is extracted from the surrounding image signal received by the second receiving unit, a person image for each person is generated, the posture of the person included in the surrounding image signal is estimated, and the posture of the person is determined. Bone data for each person to be shown is generated, person 3D data is generated as data of the 3D CG animation of the person based on the person video signal and the bone data, and the person 3D data for each person is used as the sub-content. Recorded in the recording unit as
The surrounding 3D generation unit is
An object is extracted from the ambient video signal received by the second receiving unit, peripheral 3D data including 3D CG data of the object is generated, and the peripheral 3D data is used as the sub-content in the recording unit. Record and
In the recording unit
The recording / reproduction is characterized in that the program video / audio signal is recorded as the main content, and the person 3D data, the surrounding 3D data, the television position data, and the person audio signal for each person are recorded as the sub-content. Device.
請求項2に記載の録画再生装置において、
さらに、第3の受信部、視線検出部及び補正部を備え、
前記第3の受信部は、
前記第2の受信部により受信された前記周囲映像信号とは異なる映像信号であって、前記ユーザの周囲に存在する前記人物を含む俯瞰映像信号を受信し、
前記人物3D生成部は、
前記周囲映像信号から前記人物を抽出し、人物毎の前記人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記第3の受信部により受信された前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物3Dデータを生成し、
前記視線検出部は、
前記人物の視線を検出し、人物毎の視線方向データを生成し、
前記補正部は、
前記人物3D生成部により生成された前記人物3Dデータの視線方向が、前記視線検出部により生成された前記視線方向データの示す視線方向と一致するように、前記人物3Dデータを補正し、人物毎の補正後の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
In the recording / playback device according to claim 2,
Further, a third receiving unit, a line-of-sight detection unit, and a correction unit are provided.
The third receiving unit is
A video signal different from the ambient video signal received by the second receiving unit, and a bird's-eye view video signal including the person existing around the user is received.
The person 3D generation unit
The person is extracted from the surrounding image signal, the person image is generated for each person, the posture of the person included in the surrounding image signal is estimated, and the bird's-eye view image received by the third receiving unit is used. The posture of the person included in the signal is estimated, and the bone data for each person indicating the posture of the person is generated based on the posture of the person estimated from the surrounding image signal and the bird's-eye view image signal, respectively. The person 3D data is generated based on the person video signal and the bone data.
The line-of-sight detection unit
Detects the line of sight of the person, generates line-of-sight direction data for each person, and
The correction unit
The person 3D data is corrected so that the line-of-sight direction of the person 3D data generated by the person 3D generation unit matches the line-of-sight direction indicated by the line-of-sight direction data generated by the line-of-sight detection unit, and for each person. A recording / playback device characterized in that the corrected person 3D data is recorded in the recording unit as the sub-content.
請求項2に記載の録画再生装置において、
前記人物3D生成部は、
予め設定された人物毎の前記人物の3Dデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記3Dデータ及び前記ボーンデータに基づいて、前記人物の3次元CGアニメーションのデータとして事前人物3Dデータを生成し、当該事前人物3Dデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物3Dデータを生成し、人物毎の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
In the recording / playback device according to claim 2,
The person 3D generation unit
The 3D data of the person for each person set in advance is input, the posture of the person included in the surrounding video signal is estimated, the bone data for each person showing the posture of the person is generated, and the 3D data is generated. And, based on the bone data, the pre-person 3D data is generated as the data of the 3D CG animation of the person, and the image of the person included in the surrounding video signal is projected onto the pre-person 3D data to overwrite the data. A recording / playback device for generating the person 3D data and recording the person 3D data for each person in the recording unit as the sub-contents.
請求項3に記載の録画再生装置において、
前記人物3D生成部は、
予め設定された人物毎の前記人物の3Dデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記3Dデータ及び前記ボーンデータに基づいて、前記人物の3次元CGアニメーションのデータとして事前人物3Dデータを生成し、当該事前人物3Dデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物3Dデータを生成し、人物毎の前記人物3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
In the recording / playback device according to claim 3,
The person 3D generation unit
The 3D data of the person for each person set in advance is input, the posture of the person included in the surrounding image signal is estimated, and the posture of the person included in the bird's-eye view image signal is estimated, and the surrounding image is estimated. Based on the posture of the person estimated from the signal and the bird's-eye view video signal, the bone data for each person indicating the posture of the person is generated, and based on the 3D data and the bone data, the person is three-dimensional. Pre-person 3D data is generated as CG animation data, the image of the person included in the surrounding video signal is projected and overwritten on the pre-person 3D data, the person 3D data is generated, and the said for each person. A recording / playback device characterized in that person 3D data is recorded in the recording unit as the sub-contents.
請求項2から5までのいずれか一項に記載の録画再生装置において、
前記周囲3D生成部は、
予め設定された、前記ユーザの周囲の3Dデータを事前周囲3Dデータとして入力し、前記周囲映像信号から前記オブジェクトを抽出してオブジェクト映像を生成し、前記事前周囲3Dデータに含まれるオブジェクトに、対応する前記オブジェクト映像を投影して上書きし、前記周囲3Dデータを生成し、当該周囲3Dデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
The recording / playback device according to any one of claims 2 to 5.
The surrounding 3D generation unit is
The preset 3D data around the user is input as the pre-peripheral 3D data, the object is extracted from the ambient video signal to generate an object image, and the object included in the pre-surrounding 3D data is combined with the object. A recording / playback device characterized in that the corresponding object image is projected and overwritten, the surrounding 3D data is generated, and the surrounding 3D data is recorded in the recording unit as the sub-content.
コンピュータを、請求項1から6までのいずれか一項に記載の録画再生装置として機能させるためのプログラム。 A program for operating a computer as a recording / playback device according to any one of claims 1 to 6.
JP2018123840A 2018-06-29 2018-06-29 Recording / playback device and program Active JP7065708B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018123840A JP7065708B2 (en) 2018-06-29 2018-06-29 Recording / playback device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018123840A JP7065708B2 (en) 2018-06-29 2018-06-29 Recording / playback device and program

Publications (2)

Publication Number Publication Date
JP2020005150A JP2020005150A (en) 2020-01-09
JP7065708B2 true JP7065708B2 (en) 2022-05-12

Family

ID=69100823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018123840A Active JP7065708B2 (en) 2018-06-29 2018-06-29 Recording / playback device and program

Country Status (1)

Country Link
JP (1) JP7065708B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024014197A1 (en) * 2022-07-14 2024-01-18 ソニーグループ株式会社 Image processing device, image processing method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139305A (en) 2002-10-17 2004-05-13 Nippon Telegr & Teleph Corp <Ntt> Method and terminal for multimedia display in virtual space, virtual space management server, multimedia display program in virtual space and recording medium having the same program recorded thereon
JP2005236428A (en) 2004-02-17 2005-09-02 Fuji Xerox Co Ltd Communication device, system and display method
JP2012089186A (en) 2010-10-18 2012-05-10 Sharp Corp Content management device and content reproduction device
JP2014038523A (en) 2012-08-17 2014-02-27 Institute Of Physical & Chemical Research Substitutional reality system control device, substitutional reality system, substitutional reality control method, program, and storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004139305A (en) 2002-10-17 2004-05-13 Nippon Telegr & Teleph Corp <Ntt> Method and terminal for multimedia display in virtual space, virtual space management server, multimedia display program in virtual space and recording medium having the same program recorded thereon
JP2005236428A (en) 2004-02-17 2005-09-02 Fuji Xerox Co Ltd Communication device, system and display method
JP2012089186A (en) 2010-10-18 2012-05-10 Sharp Corp Content management device and content reproduction device
JP2014038523A (en) 2012-08-17 2014-02-27 Institute Of Physical & Chemical Research Substitutional reality system control device, substitutional reality system, substitutional reality control method, program, and storage medium

Also Published As

Publication number Publication date
JP2020005150A (en) 2020-01-09

Similar Documents

Publication Publication Date Title
JP7135141B2 (en) Information processing system, information processing method, and information processing program
US20130215229A1 (en) Real-time compositing of live recording-based and computer graphics-based media streams
KR20220155396A (en) Video sound processing device, video sound processing method , and computer readable recording medium storing program
KR20200126367A (en) Information processing apparatus, information processing method, and program
JP7441926B2 (en) Computer program that performs video coding
JP2018113616A (en) Information processing unit, information processing method, and program
WO2018100131A1 (en) Determining size of virtual object
JP7065708B2 (en) Recording / playback device and program
JP7385385B2 (en) Image distribution system and image distribution method
WO2017022296A1 (en) Information management device, information management method, image reproduction device and image reproduction method
WO2020017354A1 (en) Information processing device, information processing method, and program
KR20200025285A (en) System and method for entertainer experience
KR101856632B1 (en) Method and apparatus for displaying caption based on location of speaker and apparatus for performing the same
US11287658B2 (en) Picture processing device, picture distribution system, and picture processing method
EP4036858A1 (en) Volumetric imaging
US11825191B2 (en) Method for assisting the acquisition of media content at a scene
JP7011728B2 (en) Image data output device, content creation device, content playback device, image data output method, content creation method, and content playback method
JP5833525B2 (en) Video communication system and video communication method
KR20190125680A (en) Inserting Method of Augment Reality Information in Drone Moving Picture
JP7403256B2 (en) Video presentation device and program
KR102133735B1 (en) Panorama chroma-key synthesis system and method
US20230415040A1 (en) Image generation apparatus, image generation method, and program
WO2023238660A1 (en) Information processing device, information processing method, and program
WO2021131991A1 (en) Image generation device, image generation method, and image generation program
JP6411991B2 (en) Image processing apparatus, image processing method, and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220426

R150 Certificate of patent or registration of utility model

Ref document number: 7065708

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150