JP2020005150A

JP2020005150A - 録画再生装置及びプログラム

Info

Publication number: JP2020005150A
Application number: JP2018123840A
Authority: JP
Inventors: 裕之川喜田; Hiroyuki Kawakita; 健介久富; Kensuke Hisatomi; 半田　拓也; Takuya Handa; 拓也半田; 森田　寿哉; Hisaya Morita; 寿哉森田; 賢充原澤; Masamitsu Harasawa
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-09
Anticipated expiration: 2038-06-29
Also published as: JP7065708B2

Abstract

【課題】過去に視聴した番組について、そのときと同じ視聴体験を得ることが可能な録画再生装置を提供する。【解決手段】録画再生装置１−１の受信部１０は、番組映像音声信号を記録部１５に記録し、受信部１１は、３６０度映像音声信号を３６０度映像信号及び３６０度音声信号に分離する。人物抽出部１２は、３６０度映像信号から人物映像信号を抽出して記録部１５に記録し、テレビ位置検出部１３は、３６０度映像信号からテレビ位置を検出してテレビ位置データを記録部１５に記録する。人物音声抽出部１４は、３６０度音声信号に番組音声信号が含まれるか否かを判定して番組を特定し、３６０度音声信号と特定した番組の番組音声信号との間の差分を求め、差分信号を人物音声信号として記録部１５に記録する。送信部１６は、記録部１５から番組映像音声信号、人物映像信号等を読み出し、これらのデータを再生機器３へ送信する。【選択図】図１

Description

本発明は、テレビ放送番組及び視聴環境を録画及び再生する録画再生装置及びプログラムに関する。

従来、人が知覚する現実環境をコンピュータにより拡張する技術として、ＡＲ（Augmented Reality：拡張現実）及びＶＲ（Virtual Reality：仮想現実）が知られており、これらに関連するハードウェアの市場が将来に向けて拡大するものと予想される。

例えば、全方位撮影可能な３６０度カメラ（例えば特許文献１，２を参照。）、ユーザに装備されるウェアラブル３６０度カメラ（例えば非特許文献１を参照。）等が知られている。これらのカメラにより撮影された３６０度映像を録画し、録画したコンテンツの全部または一部を用いてＡＲまたはＶＲの体験サービスを提供することができる。

特開２０１１−１８２００３号公報特開２０１１−１６０４４２号公報

FITT360-The First 360°Neckband Wearable Camera、［online］、Kickstarter、［平成３０年４月２８日検索］、インターネット＜https://www.kickstarter.com/projects/467094941/fitt360-the-first-360-neckband-wearable-camera?lang=ja＞

テレビ放送番組（以下、「番組」という。）を視聴するユーザは、その番組を録画再生装置に録画しておくことで、何時でも何度でも気軽に過去の番組へアクセスすることができる。

ここで、ユーザは、過去に視聴した番組について、そのときの感情を想起したいことがある。ユーザは、録画再生装置を用いて、過去に視聴した番組を再生することで、そのときの感情を想起することができる。

しかしながら、ユーザだけでなく、ユーザ本人以外の家族または友人等も一緒に番組を視聴していた場合には、同じ番組の再生だけでは、必ずしもそのときと同じ感情を想起できるとは限らない。

つまり、録画再生装置を用いて同じ番組を再生するだけでは、必ずしも同じ視聴体験を得ることができるとは限らない。なぜならば、視聴体験は、一緒に視聴していた家族または友人等のそのときのしぐさ、反応、会話等が重要な要素になるからである。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、過去に視聴した番組について、そのときと同じ視聴体験を得ることが可能な録画再生装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１の録画再生装置は、テレビに再生した番組の映像及び音声を含む番組映像音声信号を記録部に記録し、前記番組を再生機器にて視聴するユーザの操作に従い、前記記録部から前記番組映像音声信号を読み出して前記再生機器へ送信する録画再生装置において、前記番組映像音声信号を受信し、当該番組映像音声信号をメインコンテンツとして前記記録部に記録する第１の受信部と、前記ユーザの周囲に存在する人物の映像、及び前記番組が再生されている前記テレビの映像を含む周囲映像信号を受信すると共に、前記ユーザの周囲から収音した周囲音声信号を受信する第２の受信部と、前記第２の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像信号を生成し、人物毎の前記人物映像信号をサブコンテンツとして前記記録部に記録する人物抽出部と、前記第２の受信部により受信された前記周囲映像信号から前記テレビの位置を検出し、前記番組映像音声信号における番組映像信号が前記再生機器により再生される位置を示すテレビ位置データを生成し、当該テレビ位置データを前記サブコンテンツとして前記記録部に記録するテレビ位置検出部と、前記記録部に記録された前記番組映像音声信号、及び前記第２の受信部により受信された前記周囲音声信号に基づいて、前記周囲音声信号に含まれる番組音声信号に対応する前記番組を特定し、前記周囲音声信号と、前記番組の前記番組映像音声信号における番組音声信号との間の差分を求め、前記ユーザの周囲に存在する前記人物の人物音声信号を生成し、当該人物音声信号を前記サブコンテンツとして前記記録部に記録する人物音声抽出部と、前記記録部から前記メインコンテンツ及び前記サブコンテンツを読み出し、当該メインコンテンツ及び当該サブコンテンツを前記再生機器へ送信する送信部と、を備えたことを特徴とする。

また、請求項２の録画再生装置は、請求項１に記載の録画再生装置において、前記人物抽出部の代わりに人物３Ｄ（３次元）生成部を備え、さらに、周囲３Ｄ生成部を備え、前記人物３Ｄ生成部が、前記第２の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎のボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物の３次元ＣＧアニメーションのデータとして人物３Ｄデータを生成し、人物毎の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録し、前記周囲３Ｄ生成部が、前記第２の受信部により受信された前記周囲映像信号からオブジェクトを抽出し、当該オブジェクトの３次元ＣＧのデータを含む周囲３Ｄデータを生成し、当該周囲３Ｄデータを前記サブコンテンツとして前記記録部に記録し、前記記録部には、前記番組映像音声信号が前記メインコンテンツとして記録され、人物毎の前記人物３Ｄデータ、前記周囲３Ｄデータ、前記テレビ位置データ及び前記人物音声信号が前記サブコンテンツとして記録される、ことを特徴とする。

また、請求項３の録画再生装置は、請求項２に記載の録画再生装置において、さらに、第３の受信部、視線検出部及び補正部を備え、前記第３の受信部が、前記第２の受信部により受信された前記周囲映像信号とは異なる映像信号であって、前記ユーザの周囲に存在する前記人物を含む俯瞰映像信号を受信し、前記人物３Ｄ生成部が、前記周囲映像信号から前記人物を抽出し、人物毎の前記人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記第３の受信部により受信された前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物３Ｄデータを生成し、前記視線検出部が、前記人物の視線を検出し、人物毎の視線方向データを生成し、前記補正部が、前記人物３Ｄ生成部により生成された前記人物３Ｄデータの視線方向が、前記視線検出部により生成された前記視線方向データの示す視線方向と一致するように、前記人物３Ｄデータを補正し、人物毎の補正後の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。

また、請求項４の録画再生装置は、請求項２に記載の録画再生装置において、前記人物３Ｄ生成部が、予め設定された人物毎の前記人物の３Ｄデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記３Ｄデータ及び前記ボーンデータに基づいて、前記人物の３次元ＣＧアニメーションのデータとして事前人物３Ｄデータを生成し、当該事前人物３Ｄデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物３Ｄデータを生成し、人物毎の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。

また、請求項５の録画再生装置は、請求項３に記載の録画再生装置において、前記人物３Ｄ生成部が、予め設定された人物毎の前記人物の３Ｄデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記３Ｄデータ及び前記ボーンデータに基づいて、前記人物の３次元ＣＧアニメーションのデータとして事前人物３Ｄデータを生成し、当該事前人物３Ｄデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物３Ｄデータを生成し、人物毎の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。

また、請求項６の録画再生装置は、請求項２から５までのいずれか一項に記載の録画再生装置において、前記周囲３Ｄ生成部が、予め設定された、前記ユーザの周囲の３Ｄデータを事前周囲３Ｄデータとして入力し、前記周囲映像信号から前記オブジェクトを抽出してオブジェクト映像を生成し、前記事前周囲３Ｄデータに含まれるオブジェクトに、対応する前記オブジェクト映像を投影して上書きし、前記周囲３Ｄデータを生成し、当該周囲３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする。

また、請求項７のプログラムは、コンピュータを、請求項１から６までのいずれか一項に記載の録画再生装置として機能させることを特徴とする。

以上のように、本発明によれば、過去に視聴した番組について、そのときと同じ視聴体験を得ることができる。

実施例１の録画再生装置の構成例を示すブロック図である。実施例１の録画再生装置の処理例を示すフローチャートである。人物音声抽出部の構成例を示すブロック図である。実施例２の録画再生装置の構成例を示すブロック図である。実施例２の録画再生装置の処理例を示すフローチャートである。実施例２の第１変形例における人物３Ｄ生成部の構成例を示すブロック図である。実施例２の第２変形例における周囲３Ｄ生成部の構成例を示すブロック図である。実施例３の録画再生装置の構成例を示すブロック図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、ユーザである視聴者本人（第一者）等が視聴する番組の映像音声に加え、その番組を一緒に視聴する周囲の人物の反応等を含む部屋内の環境（視聴環境）の映像音声も記録することを特徴とする。ここで、第一者は、視聴体験を再現したい視聴者である。

これにより、番組の映像音声及び視聴環境の映像音声を再生することで、第一者は、過去に視聴した番組について、そのときと同じ視聴体験を得ることができる。例えば、視聴環境そのものを記録及び再生可能なＡＲまたはＶＲ技術によるサービスを実現することができる。

以下に説明する実施例１は、番組映像音声に加え、第一者から見た周囲の人物の２Ｄ（Dimension：次元）映像及び音声を記録する例である。実施例１では、例えばＡＲグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を２次元ＣＧにて重ね合わせて再生することができる。

また、実施例２は、番組映像音声に加え、第一者から見た周囲の人物の３Ｄ（３次元）映像及び音声等を記録する例である。実施例２では、例えばＡＲグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を重ね合わせて再生することができる。また、例えばＶＲのＨＭＤ（Head Mounted Display）を用いることにより、周囲の人物等を３次元ＣＧにて重ね合わせて再生することができる。

また、実施例３は、実施例２において、周囲の人物について精度の高い３Ｄ映像を記録する例である。実施例３では、周囲の人物についてリアリティ感の高い３次元ＣＧにて再生することができる。

〔実施例１〕
まず、実施例１について説明する。前述のとおり、実施例１は、番組映像音声に加え、第一者から見た周囲の人物の２Ｄ映像及び音声を記録する例である。実施例１では、例えばＡＲグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を２次元ＣＧにて重ね合わせて再生することができる。

図１は、実施例１の録画再生装置の構成例を示すブロック図であり、図２は、実施例１の録画再生装置の処理例を示すフローチャートである。この録画再生装置１−１は、受信部１０，１１、人物抽出部１２、テレビ位置検出部１３、人物音声抽出部１４、記録部１５及び送信部１６を備えている。

第一者及び周囲の人物は、テレビに再生された番組を視聴しているものとする。受信部１０は、第一者及び周囲の人物が視聴している番組について、その番組映像音声信号を受信する（ステップＳ２０１）。そして、受信部１０は、番組映像音声信号をメインコンテンツとして記録部１５に記録する（ステップＳ２０２）。番組映像音声信号は、番組映像信号及び番組音声信号を含んで構成される。

受信部１１は、ウェアラブル３６０度カメラ２から、３６０度映像音声信号を受信する（ステップＳ２０３）。３６０度映像音声信号は、第一者を中心とした周囲の映像信号、及び第一者の位置にて収音した音声信号を含んで構成される。以下、説明の便宜上、前者の映像信号を３６０度映像信号といい、後者の音声信号を３６０度音声信号という。

３６０度映像信号は、第一者の周囲にいる人物の映像、番組が再生されているテレビの映像等を含む横方向の映像の周囲映像信号であり、３６０度音声信号は、第一者の周囲の人物の音声を含む、周囲から収音した周囲音声信号である。

ここで、ウェアラブル３６０度カメラ２は、第一者に着用され、第一者の周囲の３６０度映像を撮影すると共に、音声を収音し、３６０度映像及び音声が同期した３６０度映像音声信号を生成し、３６０度映像音声信号を録画再生装置１−１へ送信する。

受信部１１は、３６０度映像音声信号を３６０度映像信号と３６０度音声信号とに分離する（ステップＳ２０４）。そして、受信部１１は、３６０度映像信号を人物抽出部１２及びテレビ位置検出部１３に出力し、３６０度音声信号を人物音声抽出部１４に出力する。

尚、受信部１１は、ウェアラブル３６０度カメラ２から、同期した３６０度映像信号及び３６０度音声信号をそれぞれ受信するようにしてもよい。

人物抽出部１２は、受信部１１から３６０度映像信号を入力し、３６０度映像信号を所定の人物抽出処理にて解析し、３６０度映像信号の映像から、第一者の周囲にいる人物の映像を抽出する。そして、人物抽出部１２は、人物毎の映像信号（人物映像信号）をサブコンテンツとして記録部１５に記録する（ステップＳ２０５）。

人物抽出部１２による人物抽出処理は既知であり、例えば以下の技術が用いられる。この人物抽出処理は、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）を用いたセグメンテーション技術によるものであり、３６０度映像信号を人物のいる前景と人物のいない背景とに分離する処理である。
“Google（登録商標）、CNNを用いて人物などの前景と背景を分離するモバイルベースのリアルタイムビデオセグメント技術を発表。YouTube（登録商標）に統合”、［online］、［平成３０年５月１１日検索］、インターネット＜http://shiropen.com/2018/03/02/32805＞

テレビ位置検出部１３は、受信部１１から３６０度映像信号を入力し、３６０度映像信号を所定のオブジェクト抽出処理及びテレビ位置（姿勢を含む）検出処理にて解析する。そして、テレビ位置検出部１３は、３６０度映像信号の映像からテレビの映像を抽出し、映像全体の中でテレビの位置（姿勢を含む）を特定し、テレビの位置を示すテレビ位置データを生成する。テレビ位置検出部１３は、テレビ位置データをサブコンテンツとして記録部１５に記録する（ステップＳ２０６）。

テレビ位置検出部１３によるオブジェクト抽出処理及びテレビ位置（姿勢を含む）検出処理は既知であり、例えば以下の技術が用いられる。
“携帯端末のカメラによるTV画面の位置と姿勢の推定方法”、情報処理学会論文誌（ＣＤＳ：コンシューマ・デバイス＆システム）、vol.5、no.4、2015、p.61-69
“家庭内リビングにおけるテレビ位置検出手法に関する一検討”、2016年映像情報メディア学会冬季大会講演予稿集、22B-6、2016

テレビ位置データは、後述する再生機器３であるＡＲグラスまたはＶＲのＨＭＤ（Head Mounted Display：頭部装着ディスプレイ）が番組映像信号を再生する位置を示すデータである。また、テレビ位置データは、再生機器３が人物毎の人物映像信号を再生する際に、その再生位置を特定する基準となるデータとして用いることができる。

人物音声抽出部１４は、受信部１１から３６０度音声信号を入力すると共に、記録部１５からメインコンテンツである番組映像音声信号を読み出す。そして、人物音声抽出部１４は、番組映像音声信号から番組音声信号を分離し、３６０度音声信号を所定の番組音声特定処理にて解析し、３６０度音声信号に番組音声信号が含まれるか否かを判定する。人物音声抽出部１４は、３６０度音声信号に含まれる番組音声信号に対応する番組を特定する。

人物音声抽出部１４は、３６０度音声信号と特定した番組の番組音声信号との間の差分を求め、第一者の周囲にいる人物の音声信号（人物音声信号）を生成することで、３６０度音声信号から人物音声信号を抽出する。そして、人物音声抽出部１４は、人物音声信号をサブコンテンツとして記録部１５に記録する（ステップＳ２０７）。この人物音声信号は、視聴環境の環境音に相当する。

人物音声抽出部１４による番組音声特定処理は既知であり、例えば以下の技術が用いられる。この番組音声特定処理は、ＡＣＲ（Automatic Contents Recognition：自動コンテンツ認識）技術によるものであり、３６０度音声信号及び番組音声信号の特徴点を抽出し、両信号間で特徴点のパターンを比較するマッチングを行い、３６０度音声信号から番組音声信号に対応する番組を特定する処理である。
“Evixar ACR（自動コンテンツ認識）、音センシング”、［online］、［平成３０年５月１１日検索］、インターネット＜https://www.evixar.com/evixaracr＞

図３は、人物音声抽出部１４の構成例を示すブロック図である。この人物音声抽出部１４は、番組特定部４０及び減算部４１を備えている。

番組特定部４０は、受信部１１から３６０度音声信号を入力すると共に、記録部１５からメインコンテンツである番組映像音声信号を読み出し、番組映像音声信号から番組音声信号を分離する。そして、番組特定部４０は、前述のＡＣＲ技術により、３６０度音声信号と番組音声信号との間で特徴点のパターンを比較するマッチングを行い、３６０度音声信号に番組音声信号が含まれるか否かを判定する。

番組特定部４０は、３６０度音声信号に番組音声信号が含まれると判定した場合、当該番組音声信号の番組を、３６０度音声信号に含まれる番組音声信号の番組として特定し、３６０度音声信号内の位置を特定する。そして、番組特定部４０は、特定した番組の番組音声信号を減算部４１に出力する。

一方、番組特定部４０は、３６０度音声信号に番組音声信号が含まれていないと判定した場合、すなわち３６０度音声信号に含まれる番組音声信号に対応する番組を特定できない場合、記録部１５から他の番組映像音声信号を読み出す。そして、番組特定部４０は、３６０度音声信号に番組音声信号が含まれるか否かを判定する。

このように、番組特定部４０により、３６０度音声信号に含まれる番組及びその位置が特定され、その番組の番組音声信号が減算部４１に出力される。

減算部４１は、受信部１１から３６０度音声信号を入力すると共に、番組特定部４０から番組音声信号を入力する。そして、減算部４１は、３６０度音声信号における特定された位置を基準として、３６０度音声信号から番組音声信号を減算することで差分信号を求め、これを人物音声信号とする。減算部４１は、人物音声信号をサブコンテンツとして記録部１５に記録する。

図１及び図２に戻って、ステップＳ２０１〜Ｓ２０７により、記録部１５には、メインコンテンツとして複数の番組映像音声信号が記録される。また、サブコンテンツとして、複数の番組映像音声のそれぞれに対応する、第一者の周囲にいる人物に関する人物映像信号、人物音声信号及びテレビ位置データが記録される。

ここで、ユーザである第一者は、ＡＲグラス（再生機器３）を着用し、記録部１５に記録されたメインコンテンツ等を視聴するものとする。この場合、第一者は、メインコンテンツ等が記録部１５に記録されたときと同じ部屋の同じ位置で視聴を行う必要がある。再生機器３は、第一者の操作に従って所定のアプリを起動し、第一者の選択操作に従い、複数のメインコンテンツから再生対象のメインコンテンツを選択する。

そうすると、送信部１６は、記録部１５から、選択されたメインコンテンツである番組映像音声信号を読み出すと共に、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを読み出す。

送信部１６は、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを、メインコンテンツ及びサブコンテンツを再生するためのデータとして再生機器３へ送信する（ステップＳ２０８）。

再生機器３は、例えばＡＲ用の再生機器である。再生機器３は、録画再生装置１−１から、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを受信し、番組映像音声信号を番組映像信号及び番組音声信号に分離する。

再生機器３は、テレビ位置データの示す位置に、メインコンテンツの番組映像信号を再生する。また、再生機器３は、第一者の周囲の所定位置（テレビ位置データの示す位置を基準とした人物毎の所定位置）に、サブコンテンツの人物毎の人物映像信号をそれぞれ再生し、さらに、番組音声信号及び人物音声信号を再生する。

この場合、人物映像信号が再生される所定位置は、人物毎の位置データとして、第一者により予め設定されるようにしてもよい。再生機器３は、予め設定された人物毎の位置データに従い、それぞれの位置に、人物毎の人物映像信号を再生する。

また、人物映像信号が再生される所定位置は、再生機器３が録画再生装置１−１から受信するようにしてもよい。具体的には、録画再生装置１−１の人物抽出部１２は、３６０度映像信号の映像から人物映像を抽出する際に、テレビ位置検出部１３により検出されたテレビ位置データを基準として、その人物映像の位置を特定する。そして、人物抽出部１２は、人物映像信号に位置データを付加して記録部１５に記録する。送信部１６は、人物映像信号及び位置データを再生機器３へ送信する。

再生機器３は、録画再生装置１−１から、人物毎の人物映像信号と共に位置データも受信し、人物毎の位置データに従い、テレビの位置を基準としたそれぞれの位置に、人物毎の人物映像信号をそれぞれ再生する。

以上のように、実施例１の録画再生装置１−１によれば、受信部１０は、番組映像信号をメインコンテンツとして記録部１５に記録し、受信部１１は、３６０度映像音声信号を３６０度映像信号及び３６０度音声信号に分離する。

人物抽出部１２は、３６０度映像信号の映像から人物映像を抽出し、人物毎の人物映像信号をサブコンテンツとして記録部１５に記録する。また、テレビ位置検出部１３は、３６０度映像信号からテレビ位置を検出し、テレビ位置データをサブコンテンツとして記録部１５に記録する。

人物音声抽出部１４は、記録部１５から読み出した番組映像音声信号から番組音声信号を分離し、３６０度音声信号に番組音声信号が含まれるか否かを判定し、番組を特定する。そして、人物音声抽出部１４は、３６０度音声信号と特定した番組の番組音声信号との間の差分を求めることで、３６０度音声信号から人物音声信号を抽出する。人物音声抽出部１４は、人物音声信号をサブコンテンツとして記録部１５に記録する。

送信部１６は、第一者であるユーザの操作に従い、記録部１５からメインコンテンツである番組映像音声信号、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物映像信号、人物音声信号及びテレビ位置データを読み出す。そして、送信部１６は、これらのデータを再生機器３へ送信する。

これにより、例えば第一者が再生機器３であるＡＲグラスを着用している場合、ＡＲグラスには、メインコンテンツがテレビ画面上にオーバーレイ表示されると共にその音声が再生され、同時に、サブコンテンツである周囲の人物の映像及び音声が再生される。第一者は、ＡＲグラスにて、人物以外の周囲について再生時の周囲環境を見ることとなる。

このように、ＡＲグラスを用いることにより、メインコンテンツが再生されると共に、第一者の周囲にいる人物の反応等が再現されるから、過去に視聴した番組について、そのときと同じ視聴体験を得ることができる。また、従来のメインコンテンツだけの再生に比べ、より再現性の高い視聴体験を得ることができる。

〔実施例２〕
次に、実施例２について説明する。前述のとおり、実施例２は、番組映像音声に加え、第一者から見た周囲の人物の３Ｄ映像及び音声等を記録する例である。実施例２では、例えばＡＲグラスを用いることにより、番組映像音声及び周囲の人物の映像音声を重ね合わせて再生することができる。また、例えばＶＲのＨＭＤを用いることにより、周囲の人物等を３次元ＣＧにて重ね合わせて再生することができる。

図４は、実施例２の録画再生装置の構成例を示すブロック図であり、図５は、実施例２の録画再生装置の処理例を示すフローチャートである。この録画再生装置１−２は、受信部１０，１１、人物３Ｄ生成部２０、周囲３Ｄ生成部２１、テレビ位置検出部１３、人物音声抽出部１４、記録部１５及び送信部１６を備えている。

受信部１０は、図１に示した実施例１と同様に、番組映像音声信号を受信し（ステップＳ５０１）、番組映像音声信号をメインコンテンツとして記録部１５に記録する（ステップＳ５０２）。

受信部１１は、図１に示した実施例１と同様に、ウェアラブル３６０度カメラ２から３６０度映像音声信号を受信し（ステップＳ５０３）、３６０度映像音声信号を３６０度映像信号及び３６０度音声信号に分離する（ステップＳ５０４）。そして、受信部１１は、３６０度映像信号を人物３Ｄ生成部２０、周囲３Ｄ生成部２１及びテレビ位置検出部１３に出力し、３６０度音声信号を人物音声抽出部１４に出力する。

人物３Ｄ生成部２０は、受信部１１から３６０度映像信号を入力し、３６０度映像信号の映像から人物映像を抽出すると共に、人物の姿勢を示すボーンデータを推定する。そして、人物３Ｄ生成部２０は、人物映像信号及びボーンデータに基づいて人物３Ｄデータを生成し、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する（ステップＳ５０５）。人物３Ｄデータは、人物の３次元ＣＧアニメーションのデータである。

人物３Ｄ生成部２０は、人物抽出部１２、姿勢推定部２２及び生成部２３を備えている。人物抽出部１２は、図１に示した実施例１と同様に、受信部１１から３６０度映像信号を入力し、３６０度映像信号を所定の人物抽出処理にて解析し、３６０度映像信号から人物映像信号のテクスチャ情報を抽出する。そして、人物抽出部１２は、人物毎の人物映像信号のテクスチャ情報を生成部２３に出力する。

姿勢推定部２２は、受信部１１から３６０度映像信号を入力し、３６０度映像信号を所定の姿勢推定処理にて解析し、３６０度映像信号に含まれる人物映像の体、手、顔等の部位を検出し、人物毎の姿勢を推定する。姿勢推定部２２は、人物毎の姿勢を示すボーンデータを生成し、人物毎のボーンデータを生成部２３に出力する。

姿勢推定部２２による姿勢推定処理は既知であり、例えば以下の技術が用いられる。この姿勢推定処理は、スケルトン検出アルゴリズムによるものであり、３６０度映像信号に含まれる人物映像の体、手、顔等の部位を検出し、関節等のキーポイントを基準として、所定のキーポイントを接続した直線で表すことで、人物毎の姿勢を推定する処理である。
“SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)”、［online］、［平成３０年５月１１日検索］、インターネット＜https://www.youtube.com/watch?v=eUnZ2rjxGaE＞

生成部２３は、人物抽出部１２から人物毎の人物映像信号を入力すると共に、姿勢推定部２２から人物毎のボーンデータを入力する。そして、生成部２３は、対応する人物映像信号及びボーンデータを所定の人物３Ｄデータ生成処理にて解析する。生成部２３は、ボーンデータ（ボーンデータから得られる人物の３次元モデル）に人物映像信号を投影して上書きし、人物３Ｄデータ（人物の３次元ＣＧアニメーション）を生成する。生成部２３は、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

生成部２３による人物３Ｄデータ生成処理は既知であり、例えば以下の技術が用いられる。この人物３Ｄデータ生成処理は、人物映像信号及びボーンデータの合成技術によるものであり、ボーンデータに対して人物映像信号を貼り付ける処理である。
“SMPLify: 3D Human Pose and Shape from a Single Image (ECCV 2016)”、［online］、［平成３０年５月１１日検索］、インターネット＜https://www.youtube.com/watch?v=eUnZ2rjxGaE＞
“単眼カメラで撮影した映像を入力に、人の姿勢推定から着用する衣服まで再構築するマーカレスパフォーマンスキャプチャ技術を発表” 、［online］、［平成３０年６月１５日検索］、インターネット＜https://shiropen.com/seamless/vr-monoperfcap＞

周囲３Ｄ生成部２１は、受信部１１から３６０度映像信号を入力し、３６０度映像信号を所定の周囲３Ｄデータ生成処理にて解析し、３６０度映像信号に基づいて、第一者の周囲にあるオブジェクト（第一者の周囲にいる人物及び周囲に存在する物）の３Ｄデータを含む周囲３Ｄデータを生成する。周囲３Ｄ生成部２１は、周囲３Ｄデータをサブコンテンツとして記録部１５に記録する（ステップＳ５０６）。周囲３Ｄデータは、オブジェクトの３次元ＣＧを含む周囲の映像に関するデータである。

周囲３Ｄ生成部２１による周囲３Ｄデータ生成処理は既知であり、例えば以下の技術が用いられる。この周囲３Ｄデータ生成処理は、フォトグラメトリー（写真測量法）によるものであり、３６０度映像信号に含まれるオブジェクトを検出し、オブジェクトの複数の映像信号に基づいて、オブジェクトの３Ｄデータを生成する処理である。フォトグラメトリーは、３Ｄの物体を複数の観測点から撮影して得た２次元画像から、視差情報を解析して寸法及び形状を求める写真測量法である。
““フォトグラメトリー”を駆使して現実を３Ｄで再現「長崎の教会群」ＶＲコンテンツ公開”、［online］、［平成３０年５月１１日検索］、インターネット＜http://www.moguravr.com/hacosco-nagasaki-vr/＞
“3DF Zephyr”、［online］、［平成３０年５月１１日検索］、インターネット＜https://www.3dflow.net/3df-zephyr-pro-3d-models-from-photos/＞

テレビ位置検出部１３は、図１に示した実施例１と同様に、受信部１１から３６０度映像信号を入力し、３６０度映像信号の映像からテレビの映像を抽出する。そして、テレビ位置検出部１３は、映像全体の中でテレビの位置を特定し、テレビの位置を示すテレビ位置データを生成し、テレビ位置データをサブコンテンツとして記録部１５に記録する（ステップＳ５０７）。

人物音声抽出部１４は、図１に示した実施例１と同様に、受信部１１から３６０度音声信号を入力すると共に、記録部１５からメインコンテンツである番組映像音声信号を読み出す。そして、人物音声抽出部１４は、番組映像音声信号から番組音声信号を分離し、番組を特定する。人物音声抽出部１４は、３６０度音声信号と特定した番組の番組音声信号との間の差分を求め、人物音声信号を生成することで、３６０度音声信号から人物音声信号を抽出する。人物音声抽出部１４は、人物音声信号をサブコンテンツとして記録部１５に記録する（ステップＳ５０８）。

これにより、記録部１５には、メインコンテンツとして複数の番組映像音声が記録される。また、記録部１５には、サブコンテンツとして、複数の番組映像音声のそれぞれに対応する、第一者の周囲にいる人物に関する人物毎の人物３Ｄデータ、第一者の周囲の周囲３Ｄデータ、人物音声信号及びテレビ位置データが記録される。

ここで、ユーザである第一者は、再生機器３であるＡＲグラスまたはＶＲのＨＭＤを着用し、記録部１５に記録されたメインコンテンツ等を視聴するものとする。再生機器３は、第一者の操作に従って所定のアプリを起動し、第一者の選択操作に従い、複数のメインコンテンツから再生対象のメインコンテンツを選択する。

そうすると、送信部１６は、記録部１５から、選択されたメインコンテンツである番組映像音声信号を読み出すと共に、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物３Ｄデータ、周囲３Ｄデータ、人物音声信号及びテレビ位置データを読み出す。

送信部１６は、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物３Ｄデータ、周囲３Ｄデータ、人物音声信号及びテレビ位置データを、メインコンテンツ及びサブコンテンツを再生するためのデータとして再生機器３へ送信する（ステップＳ５０９）。

再生機器３は、例えばＡＲ用の再生機器またはＶＲ用の再生機器である。再生機器３は、録画再生装置１−２から、メインコンテンツである番組映像音声信号、並びにサブコンテンツである人物毎の人物３Ｄデータ、周囲３Ｄデータ、人物音声信号及びテレビ位置データを受信し、番組映像音声信号を番組映像信号及び番組音声信号に分離する。

再生機器３がＡＲ用の再生機器である場合、再生機器３は、実施例１と同様に、テレビ位置データの示す位置に、メインコンテンツの番組映像信号を再生する。また、再生機器３は、第一者の周囲の所定位置に、サブコンテンツの人物３Ｄデータを再生すると共に、番組音声信号及び人物音声信号を再生する。人物３Ｄデータが再生される所定位置の位置データは、実施例１と同様に、第一者により予め設定されるようにしてもよいし、再生機器３が録画再生装置１−２から受信するようにしてもよい。

再生機器３がＶＲ用の再生機器である場合、再生機器３は、サブコンテンツの周囲３Ｄデータを再生すると共に、周囲３Ｄデータからテレビを検出し、その位置にメインコンテンツの番組映像信号を再生する。また、再生機器３は、周囲３Ｄデータから人物を検出し、その位置にサブコンテンツの人物３Ｄデータを再生し、番組音声信号及び人物音声信号を再生する。

以上のように、実施例２の録画再生装置１−２によれば、受信部１０は、番組映像信号をメインコンテンツとして記録部１５に記録し、受信部１１は、３６０度映像音声信号を３６０度映像信号及び３６０度音声信号に分離する。

人物３Ｄ生成部２０は、人物抽出部１２にて３６０度映像信号の映像から人物映像を抽出し、姿勢推定部２２にて３６０度映像信号から人物のボーンデータを推定し、生成部２３にて人物映像信号及びボーンデータに基づいて人物３Ｄデータを生成する。そして、人物３Ｄ生成部２０は、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

周囲３Ｄ生成部２１は、３６０度映像信号から周囲のオブジェクトの３Ｄデータを含む周囲３Ｄデータを生成し、周囲３Ｄデータをサブコンテンツとして記録部１５に記録する。テレビ位置検出部１３は、３６０度映像信号からテレビ位置を検出し、テレビ位置データをサブコンテンツとして記録部１５に記録する。

送信部１６は、第一者であるユーザの操作に従い、記録部１５からメインコンテンツである番組映像音声信号、当該番組映像音声信号に対応するサブコンテンツである人物毎の人物３Ｄデータ、周囲３Ｄデータ、人物音声信号及びテレビ位置データを読み出す。そして、送信部１６は、これらのデータを再生機器３へ送信する。

これにより、例えば第一者が再生機器３であるＡＲグラスを着用している場合、ＡＲグラスには、メインコンテンツがテレビ画面上にオーバーレイ表示されると共にその音声が再生される。また、ＡＲグラスには、同時にサブコンテンツである人物３Ｄデータによる映像が周囲の人物の３次元アニメーションとして再生され、人物の音声が再生される。第一者は、ＡＲグラスにて、人物以外の周囲について再生時の周囲環境を見ることとなる。

また、例えば第一者がＶＲのＨＭＤである再生機器３を着用している場合、ＶＲのＨＭＤには、サブコンテンツである周囲３Ｄデータによる周囲の人物以外のオブジェクトが３次元ＣＧとして再生される。また、ＶＲのＨＭＤには、メインコンテンツがテレビ画面上にオーバーレイ表示されると共にその音声が再生される。さらに、ＶＲのＨＭＤには、人物以外の３次元ＣＧと共に、サブコンテンツである人物３Ｄデータによる映像が周囲の人物の３次元アニメーションとして再生され、人物の音声が再生される。

つまり、ＶＲのＨＭＤには、サブコンテンツである周囲３Ｄデータによる人物以外の３次元ＣＧを背景として、サブコンテンツである人物３Ｄデータによる人物の３次元ＣＧアニメーション及びメインコンテンツがオーバーレイ表示される。

このように、ＡＲグラスまたはＶＲのＨＭＤを用いることにより、メインコンテンツが再生されると共に、第一者の周囲にいる人物の反応等が再現されるから、過去に視聴した番組について、そのときと同じ視聴体験及び新たな視聴体験を得ることができる。

ＡＲグラスを用いた場合には、任意の視点に移動することができ、新たな視聴体験を得ることができる。さらに、再生時には、第一者の周囲の映像のうち人物以外の映像は再生時（現在）の周囲状況であるから、記録時の過去の状況と再生時の現在の状況との差を強調した視聴体験を得ることができる。

また、ＶＲのＨＭＤを用いた場合も、任意の視点に移動することができ、新たな視聴体験を得ることができる。また、視聴環境全体の再生が可能であるから、任意の場所で再生することができる。

〔実施例２の第１変形例〕
次に、実施例２の第１変形例について説明する。実施例２の第１変形例は、実施例２において人物３Ｄデータを生成する際に、事前の撮影により得られた人物の３Ｄデータ（事前人物３Ｄデータ）を用いる例である。

実施例２の録画再生装置１−２と実施例２の第１変形例の録画再生装置１−２とを比較すると、実施例２の第１変形例の録画再生装置１−２は、実施例２の人物３Ｄ生成部２０とは異なる人物３Ｄ生成部２０’を備えている点で相違する。

図６は、実施例２の第１変形例における人物３Ｄ生成部の構成例を示すブロック図である。この人物３Ｄ生成部２０’は、姿勢推定部２２、事前人物３Ｄ生成部２４及び生成部２５を備えている。

人物３Ｄ生成部２０’は、受信部１１から３６０度映像信号を入力し、３６０度映像信号から、人物の姿勢を示すボーンデータを推定し、予め設定された事前人物３Ｄデータ及び推定したボーンデータに基づいて、人物毎の事前人物３Ｄデータを生成する。そして、人物３Ｄ生成部２０’は、事前人物３Ｄデータに、３６０度映像信号に含まれる人物映像の信号を投影して上書きすることで、人物３Ｄデータを生成し、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

人物３Ｄ生成部２０’の姿勢推定部２２は、図４に示した実施例２と同様に、受信部１１から３６０度映像信号を入力し、人物毎の姿勢を推定する。そして、姿勢推定部２２は、人物毎の姿勢を示すボーンデータを事前人物３Ｄ生成部２４に出力する。

事前人物３Ｄ生成部２４は、姿勢推定部２２から人物毎のボーンデータを入力すると共に、予め設定された人物毎の事前人物３Ｄデータを入力する。そして、事前人物３Ｄ生成部２４は、事前人物３Ｄデータ及びボーンデータを所定の人物３Ｄデータ生成処理にて解析し、基本となる人物の３次元モデルを示す人物毎の事前人物３Ｄデータを生成する。

事前人物３Ｄ生成部２４による人物３Ｄデータ生成処理は既知であり、例えば以下の技術が用いられる。この人物３Ｄデータ生成処理は、事前人物３Ｄデータにボーンデータをセットアップした後に、人物の動きを付けるための仕組み（リグ）を生成するリギング処理である。
“クイックリグ（Quick Rig）ツール”、［online］、［平成３０年６月１５日検索］、インターネット＜https://knowledge.autodesk.com/ja/support/maya/learn-explore/caas/CloudHelp/cloudhelp/2018/JPN/Maya-CharacterAnimation/files/GUID-DC29C982-D04F-4C20-9DBA-4BBB33E027EF-htm.html＞

予め設定された事前人物３Ｄデータは、第一者の周囲にいる人物について、３Ｄ全身スキャン処理または単眼カメラによる３Ｄモデリング処理により構築された３Ｄデータであり、人物の３次元ＣＧアニメーションのデータである。

３Ｄ全身スキャン処理は既知であり、例えば以下の技術が用いられる。
“ＳＨＵＮ’Ｘ全身高速３Ｄスキャナーシステム”、［online］、［平成３０年５月１１日検索］、インターネット＜https:// http://www.vrcjp.com/home.jsf＞

また、単眼カメラによる３Ｄモデリング処理は既知であり、例えば以下の技術が用いられる。
“ブラウンシュヴァイク工科大学ら、１台の単眼カメラから人体３Ｄアバターを４．５ｍｍ精度で生成する機械学習を用いた手法を発表”、［online］、［平成３０年５月１１日検索］、インターネット＜https://shiropen.com/seamless/ai-3d-people-models＞

生成部２５は、受信部１１から３６０度映像信号を入力すると共に、事前人物３Ｄ生成部２４から人物毎の事前人物３Ｄデータを入力し、図４に示した人物抽出部１２と同様に、３６０度映像信号の映像から人物映像を抽出する。そして、生成部２５は、人物映像信号と事前人物３Ｄデータとをマッチング処理にて対応付ける。

生成部２５は、所定の投影処理により、事前人物３Ｄデータに、対応する人物映像信号を投影して上書きすることで、人物３Ｄデータを生成し、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

これにより、事前の撮影により事前人物３Ｄデータが得られたときの過去の人物映像ではなく、第一者が番組を視聴しているときの現在の人物映像が反映された人物３Ｄデータが得られる。

生成部２５による投影処理は既知であり、例えば以下の技術が用いられる。この投影処理は、一般的な投影マッピングによるものであり、オブジェクトである事前人物３Ｄデータに、マテリアルである人物映像信号を投影する処理である。
“プロジェクター”、［online］、［平成３０年５月１１日検索］、インターネット＜https://docs.unity3d.com/ja/current/Manual/class-Projector.html＞
“Easy Decal 大きな凹凸がある表面でもデカールが貼れる!Terrainでも大丈夫！動的に変化可能なデカールシステム”、［online］、［平成３０年５月１１日検索］、インターネット＜http://www.asset-sale.net/entry/Easy_Decal＞

以上のように、実施例２の第１変形例の録画再生装置１−２によれば、人物３Ｄ生成部２０’は、３６０度映像から、人物の姿勢を示すボーンデータを推定し、予め設定された事前人物３Ｄデータ及び推定したボーンデータに基づいて、事前人物３Ｄデータを生成する。そして、人物３Ｄ生成部２０’は、事前人物３Ｄデータに、３６０度映像信号に含まれる人物映像信号を投影して上書きすることで人物３Ｄデータを生成し、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

これにより、実施例２よりも精度の高い人物３Ｄデータが記録部１５に記録されるから、再生時には、人物３Ｄデータによる周囲の人物が３次元アニメーションとして、より現実に近い状態で再生することができる。

〔実施例２の第２変形例〕
次に、実施例２の第２変形例について説明する。実施例２の第２変形例は、実施例２において周囲３Ｄデータを生成する際に、事前の撮影により得られた第一者の周囲の３Ｄデータ（事前周囲３Ｄデータ）を用いる例である。

実施例２の録画再生装置１−２と実施例２の第２変形例の録画再生装置１−２とを比較すると、実施例２の第２変形例の録画再生装置１−２は、実施例２の周囲３Ｄ生成部２１とは異なる周囲３Ｄ生成部２１’を備えている点で相違する。

図７は、実施例２の第２変形例における周囲３Ｄ生成部の構成例を示すブロック図である。この周囲３Ｄ生成部２１’は生成部２６を備えている。

生成部２６は、受信部１１から３６０度映像信号を入力すると共に、予め設定された事前周囲３Ｄデータを入力する。そして、生成部２６は、３６０度映像信号からオブジェクトを抽出し、オブジェクト映像信号を生成する。

生成部２６は、事前周囲３Ｄデータからオブジェクトを抽出し、３６０度映像信号から抽出したオブジェクトと、事前周囲３Ｄデータから抽出したオブジェクトとをマッチング処理にて対応付ける。そして、生成部２６は、事前周囲３Ｄデータのオブジェクトに、対応するオブジェクト映像信号を投影して上書きすることで、周囲３Ｄデータを生成し、周囲３Ｄデータをサブコンテンツとして記録部１５に記録する。

これにより、事前の撮影により事前周囲３Ｄデータが得られたときの過去のオブジェクト映像ではなく、第一者が番組を視聴しているときの現在のオブジェクト映像が反映された周囲３Ｄデータが得られる。

予め設定された事前周囲３Ｄデータは、ウェアラブル３６０度カメラ２等を用いて事前に視聴が行われる部屋内を移動しながら撮影し、撮影した複数の映像を用いて、前述の周囲３Ｄデータ生成処理のフォトグラメトリーにより構築された３Ｄデータである。この事前周囲３Ｄデータには、撮影されたオブジェクトが３次元ＣＧで表された３Ｄデータが含まれる。

以上のように、実施例２の第２変形例の録画再生装置１−２によれば、周囲３Ｄ生成部２１’は、事前周囲３Ｄデータに、３６０度映像信号に含まれるオブジェクトの映像を投影して上書きすることで、周囲３Ｄデータを生成する。そして、周囲３Ｄ生成部２１’は、周囲３Ｄデータをサブコンテンツとして記録部１５に記録する。

これにより、実施例２よりも精度の高い周囲３Ｄデータが記録部１５に記録されるから、再生時には、周囲３Ｄデータによる周囲の人物以外のオブジェクトを３次元ＣＧとして、より現実に近い状態で再生することができる。

〔実施例３〕
次に、実施例３について説明する。前述のとおり、実施例３は、実施例２において、周囲の人物について精度の高い３Ｄ映像を記録する例である。実施例３では、周囲の人物についてリアリティ感の高い３次元ＣＧにて再生することができる。

図８は、実施例３の録画再生装置の構成例を示すブロック図である。この録画再生装置１−３は、受信部１０，１１，３０、人物３Ｄ生成部３２、周囲３Ｄ生成部２１、テレビ位置検出部１３、人物音声抽出部１４、視線検出部３１、補正部３３、記録部１５及び送信部１６を備えている。

図４に示した実施例２の録画再生装置１−２とこの録画再生装置１−３とを比較すると、両録画再生装置１−２，１−３は、受信部１０，１１、周囲３Ｄ生成部２１、テレビ位置検出部１３、人物音声抽出部１４、記録部１５及び送信部１６を備えている点で同一である。一方、録画再生装置１−３は、録画再生装置１−２の人物３Ｄ生成部２０とは異なる人物３Ｄ生成部３２を備え、さらに、受信部３０、視線検出部３１及び補正部３３を備えている点で相違する。

録画再生装置１−３は、図５に示したステップＳ５０１〜Ｓ５０４，Ｓ５０６〜５０９と同一の処理を行う。録画再生装置１−３は、ステップＳ５０５において、３６０度映像信号、人物の俯瞰映像信号及び視線方向データに基づいて、人物３Ｄデータを生成し、人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

受信部１０は、図４に示した実施例２と同様に、番組映像音声信号を受信し、番組映像音声信号をメインコンテンツとして記録部１５に記録する。

受信部１１は、図４に示した実施例２と同様に、ウェアラブル３６０度カメラ２から３６０度映像音声信号を受信し、３６０度映像音声信号を３６０度映像信号及び３６０度音声信号に分離する。そして、受信部１１は、３６０度映像信号を人物３Ｄ生成部３２、周囲３Ｄ生成部２１及びテレビ位置検出部１３に出力し、３６０度音声信号を人物音声抽出部１４に出力する。

受信部３０は、俯瞰カメラ４から人物の俯瞰映像信号を受信し、俯瞰映像信号を人物３Ｄ生成部３２に出力する。俯瞰カメラ４は、視聴が行われる部屋に設置され、第一者の周囲の人物を俯瞰した状態で撮影し、人物の俯瞰映像信号を録画再生装置１−３へ送信する。

この俯瞰カメラ４は、人物３Ｄ生成部３２にて高精度のボーンデータを生成するために用いられ、結果として高精度の人物３Ｄデータを生成するために用いられる。俯瞰映像信号は、受信部１１から出力される３６０度映像信号とは異なる信号であり、３６０度映像信号とは異なる角度から人物が撮影された信号である。

人物３Ｄ生成部３２は、受信部１１から３６０度映像信号を入力すると共に、受信部３０から人物の俯瞰映像信号を入力し、３６０度映像信号の映像から人物の映像を抽出し、人物映像信号を生成する。人物３Ｄ生成部３２は、人物映像信号及び人物の俯瞰映像信号から、人物の姿勢を示す人物毎のボーンデータを推定する。そして、人物３Ｄ生成部３２は、人物映像信号及びボーンデータに基づいて人物３Ｄデータを生成し、人物毎の人物３Ｄデータを補正部３３に出力する。

人物３Ｄ生成部３２は、人物抽出部１２、姿勢推定部２７及び生成部２３を備えている。人物抽出部１２は、図４に示した実施例２と同様に、受信部１１から３６０度映像信号を入力し、３６０度映像信号から人物映像信号のテクスチャ情報を抽出する。そして、人物抽出部１２は、人物毎の人物映像信号のテクスチャ情報を生成部２３に出力する。

姿勢推定部２７は、受信部１１から３６０度映像信号を入力すると共に、受信部３０から人物の俯瞰映像信号を入力する。そして、姿勢推定部２７は、図４に示した姿勢推定部２２と同様に、３６０度映像信号を所定の姿勢推定処理にて解析し、３６０度映像信号に含まれる人物映像の体、手、顔等の部位を検出し、人物毎の姿勢を推定する。姿勢推定部２７は、３６０度映像信号と同様に、俯瞰映像信号を所定の姿勢推定処理にて解析し、俯瞰映像信号に含まれる人物映像の体、手、顔等の部位を検出し、人物毎の姿勢を推定する。

姿勢推定部２７は、３６０度映像信号から推定した姿勢及び俯瞰映像信号から推定した姿勢を用いて、関節が外れたり不自然な角度になったりしないで姿勢の自然さを最適化するように、三角測量の要領で３次元位置を特定し、人物毎の姿勢を示すボーンデータを生成する。そして、姿勢推定部２７は、人物毎のボーンデータを生成部２３に出力する。これにより、ボーンデータは、人物の姿勢が高精度に反映されたデータとなり、後段の生成部２３にて、高精度な人物３Ｄデータを生成することができる。

姿勢推定部２７による姿勢推定処理は既知であり、前述の姿勢推定部２２と同様の「SMPLify」の技術、または以下の「OpenPose」の技術が用いられる。
“OpenPose：Real-time multi-person keypoint detection library for body, face, and hands estimation”、［online］、［平成３０年５月１１日検索］、インターネット＜https://github.com/CMU-Perceptual-Computing-Lab/openpose＞

生成部２３は、人物抽出部１２から人物毎の人物映像信号のテクスチャ情報を入力すると共に、姿勢推定部２７から人物毎のボーンデータを入力する。そして、生成部２３は、図４に示した実施例２と同様に、ボーンデータに人物映像信号を投影して上書きし、人物３Ｄデータを生成する。生成部２３は、人物毎の人物３Ｄデータを補正部３３に出力する。

視線検出部３１は、第一者の周囲にいる各人物がウェアラブルな視線検出グラス（図示せず）を着用している状態で、視線検出グラスのカメラにより検出された眼球画像に基づいて、各人物の視線を検出し、人物毎の視線方向データを生成する。そして、視線検出部３１は、人物毎の視線方向データを補正部３３に出力する。

視線方向の検出処理は既知であるから、ここでは詳細な説明を省略する。視線検出グラスとしては、例えば以下のサイトで紹介されているグラスが用いられる。
“Tobii Pro グラス２”、［online］、［平成３０年５月１１日検索］、インターネット＜https://www.tobiipro.com/ja/product-listing/tobii-pro-glasses-2/＞

補正部３３は、人物３Ｄ生成部３２から人物毎の人物３Ｄデータを入力すると共に、視線検出部３１から人物毎の視線方向データを入力する。そして、補正部３３は、人物毎に、視線方向データに基づいて人物がどこを見ていたかを示す視線方向を求める。補正部３３は、人物３Ｄデータの視線方向が視線方向データから求めた視線方向と一致するように、人物３Ｄデータにおける黒目の位置を補正することで、人物３Ｄデータを補正する。補正部３３は、黒目の位置を補正した人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

これにより、補正後の人物３Ｄデータによる人物の視線方向は正確な方向となり、高精度の人物３Ｄデータを生成することができる。

テレビ位置検出部１３、人物音声抽出部１４、記録部１５及び送信部１６は、図４に示した構成部と同様であるから、ここでは説明を省略する。

これにより、記録部１５には、メインコンテンツとして複数の番組映像音声が記録される。また、記録部１５には、サブコンテンツとして、複数の番組映像音声のそれぞれに対応する、第一者の周囲にいる人物に関する人物毎の人物３Ｄデータ、第一者の周囲にあるオブジェクトに関する周囲３Ｄデータ、人物音声信号及びテレビ位置データが記録される。人物３Ｄデータは、実施例２よりも高精度のデータである。

以上のように、実施例３の録画再生装置１−３によれば、人物３Ｄ生成部３２は、人物抽出部１２にて３６０度映像信号の映像から人物映像を抽出し、姿勢推定部２７にて、３６０度映像信号及び人物の俯瞰映像から人物毎のボーンデータを推定する。そして、人物３Ｄ生成部３２は、生成部２３にて、人物映像信号及びボーンデータに基づいて人物毎の人物３Ｄデータを生成する。

視線検出部３１は、人物毎の視線を検出して視線方向データを生成し、補正部３３は、視線方向データに基づいて人物３Ｄデータの黒目の位置を補正し、補正後の人物毎の人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

これにより、実施例２よりも高精度の人物３Ｄデータが記録部１５に記録されるから、再生時には、周囲の人物が人物３Ｄデータによる３次元アニメーションとして、より現実に近い状態で再生することができる。

尚、録画再生装置１−３は、人物抽出部１２、姿勢推定部２７及び生成部２３を備えた人物３Ｄ生成部３２にて、３６０度映像信号及び俯瞰映像信号に基づいて、人物毎の人物３Ｄデータを生成するようにした。この場合、録画再生装置１−３は、人物３Ｄ生成部３２の代わりに、図６に示した事前人物３Ｄデータを用いる人物３Ｄ生成部２０’を備えるようにしてもよい。

録画再生装置１−３の人物３Ｄ生成部２０’は、図６に示した実施例２の第１変形例と同様に、姿勢推定部２２、事前人物３Ｄ生成部２４及び生成部２５を備えている。この場合の姿勢推定部２２は、図８に示した姿勢推定部２７と同様に、３６０度映像信号に加え、受信部３０から俯瞰映像信号を入力し、ボーンデータを生成して事前人物３Ｄ生成部２４に出力する。

また、録画再生装置１−３は、周囲３Ｄ生成部２１にて、３６０度映像信号に基づいて周囲３Ｄデータを生成するようにした。この場合、録画再生装置１−３は、周囲３Ｄ生成部２１の代わりに、図７に示した実施例２の第２変形例と同様に、事前周囲３Ｄデータを用いる周囲３Ｄ生成部２１’を備えるようにしてもよい。周囲３Ｄ生成部２１’は、前述のとおり、３６０度映像信号及び事前周囲３Ｄデータに基づいて、周囲３Ｄデータを生成する。

以上、実施例１，２，３を挙げて本発明を説明したが、本発明は前記実施例１，２，３に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば実施例３の録画再生装置１−３は、俯瞰カメラ４により撮影された人物毎の映像の俯瞰映像信号を用いる人物３Ｄ生成部３２、人物毎の視線を検出する視線検出部３１を備えるようにした。これに対し、録画再生装置１−３は、さらに、人物の顔の表情を検出する表情検出部を備えるようにしてもよい。

この場合、表情検出部は、表情検出デバイスにより検出された人物の表情について、表情データを生成し、これを補正部３３に出力する。補正部３３は、表情検出部から人物毎の表情データを入力し、人物毎に、人物３Ｄデータの顔に表情データを反映する。そして、補正部３３は、人物毎の新たな人物３Ｄデータをサブコンテンツとして記録部１５に記録する。

表情検出部による表情検出処理は既知であり、例えば以下の技術が用いられる。
“人間の視線や表情をVR空間のアバターへ瞬時に反映--360Channelが「FACE」を開発”、［online］、［平成３０年５月１１日検索］、インターネット＜https://japan.cnet.com/article/35101852/＞

表情検出グラスとしては、例えば以下のサイトで紹介されているグラスが用いられる。
“AffectiveWear：装着者の日常的な表情を認識する眼鏡型装置”、［online］、［平成３０年５月１１日検索］、インターネット＜https://www.jstage.jst.go.jp/article/tvrsj/21/2/21_385/_pdf＞

尚、本発明の実施例１，２，３の録画再生装置１−１，１−２，１−３によるハードウェア構成としては、通常のコンピュータを使用することができる。録画再生装置１−１，１−２，１−３は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

録画再生装置１−１に備えた受信部１０，１１、人物抽出部１２、テレビ位置検出部１３、人物音声抽出部１４、記録部１５及び送信部１６の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、録画再生装置１−２に備えた受信部１０，１１、人物３Ｄ生成部２０、周囲３Ｄ生成部２１、テレビ位置検出部１３、人物音声抽出部１４、記録部１５及び送信部１６の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、録画再生装置１−３に備えた受信部１０，１１，３０、人物３Ｄ生成部３２、周囲３Ｄ生成部２１、テレビ位置検出部１３、人物音声抽出部１４、視線検出部３１、補正部３３、記録部１５及び送信部１６の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１録画再生装置
２ウェアラブル３６０度カメラ
３再生機器
４俯瞰カメラ
１０，１１，３０受信部
１２人物抽出部
１３テレビ位置検出部
１４人物音声抽出部
１５記録部
１６送信部
２０，２０’，３２人物３Ｄ生成部
２１，２１’ 周囲３Ｄ生成部
２２，２７姿勢推定部
２３生成部
２４事前人物３Ｄ生成部
２５，２６生成部
３１視線検出部
３３補正部
４０番組特定部
４１減算部

Claims

テレビに再生した番組の映像及び音声を含む番組映像音声信号を記録部に記録し、前記番組を再生機器にて視聴するユーザの操作に従い、前記記録部から前記番組映像音声信号を読み出して前記再生機器へ送信する録画再生装置において、
前記番組映像音声信号を受信し、当該番組映像音声信号をメインコンテンツとして前記記録部に記録する第１の受信部と、
前記ユーザの周囲に存在する人物の映像、及び前記番組が再生されている前記テレビの映像を含む周囲映像信号を受信すると共に、前記ユーザの周囲から収音した周囲音声信号を受信する第２の受信部と、
前記第２の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像信号を生成し、人物毎の前記人物映像信号をサブコンテンツとして前記記録部に記録する人物抽出部と、
前記第２の受信部により受信された前記周囲映像信号から前記テレビの位置を検出し、前記番組映像音声信号における番組映像信号が前記再生機器により再生される位置を示すテレビ位置データを生成し、当該テレビ位置データを前記サブコンテンツとして前記記録部に記録するテレビ位置検出部と、
前記記録部に記録された前記番組映像音声信号、及び前記第２の受信部により受信された前記周囲音声信号に基づいて、前記周囲音声信号に含まれる番組音声信号に対応する前記番組を特定し、前記周囲音声信号と、前記番組の前記番組映像音声信号における番組音声信号との間の差分を求め、前記ユーザの周囲に存在する前記人物の人物音声信号を生成し、当該人物音声信号を前記サブコンテンツとして前記記録部に記録する人物音声抽出部と、
前記記録部から前記メインコンテンツ及び前記サブコンテンツを読み出し、当該メインコンテンツ及び当該サブコンテンツを前記再生機器へ送信する送信部と、
を備えたことを特徴とする録画再生装置。
請求項１に記載の録画再生装置において、
前記人物抽出部の代わりに人物３Ｄ（３次元）生成部を備え、さらに、周囲３Ｄ生成部を備え、
前記人物３Ｄ生成部は、
前記第２の受信部により受信された前記周囲映像信号から前記人物を抽出し、人物毎の人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎のボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物の３次元ＣＧアニメーションのデータとして人物３Ｄデータを生成し、人物毎の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録し、
前記周囲３Ｄ生成部は、
前記第２の受信部により受信された前記周囲映像信号からオブジェクトを抽出し、当該オブジェクトの３次元ＣＧのデータを含む周囲３Ｄデータを生成し、当該周囲３Ｄデータを前記サブコンテンツとして前記記録部に記録し、
前記記録部には、
前記番組映像音声信号が前記メインコンテンツとして記録され、人物毎の前記人物３Ｄデータ、前記周囲３Ｄデータ、前記テレビ位置データ及び前記人物音声信号が前記サブコンテンツとして記録される、ことを特徴とする録画再生装置。
請求項２に記載の録画再生装置において、
さらに、第３の受信部、視線検出部及び補正部を備え、
前記第３の受信部は、
前記第２の受信部により受信された前記周囲映像信号とは異なる映像信号であって、前記ユーザの周囲に存在する前記人物を含む俯瞰映像信号を受信し、
前記人物３Ｄ生成部は、
前記周囲映像信号から前記人物を抽出し、人物毎の前記人物映像を生成し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記第３の受信部により受信された前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記人物映像信号及び前記ボーンデータに基づいて、前記人物３Ｄデータを生成し、
前記視線検出部は、
前記人物の視線を検出し、人物毎の視線方向データを生成し、
前記補正部は、
前記人物３Ｄ生成部により生成された前記人物３Ｄデータの視線方向が、前記視線検出部により生成された前記視線方向データの示す視線方向と一致するように、前記人物３Ｄデータを補正し、人物毎の補正後の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
請求項２に記載の録画再生装置において、
前記人物３Ｄ生成部は、
予め設定された人物毎の前記人物の３Ｄデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定し、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記３Ｄデータ及び前記ボーンデータに基づいて、前記人物の３次元ＣＧアニメーションのデータとして事前人物３Ｄデータを生成し、当該事前人物３Ｄデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物３Ｄデータを生成し、人物毎の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
請求項３に記載の録画再生装置において、
前記人物３Ｄ生成部は、
予め設定された人物毎の前記人物の３Ｄデータを入力し、前記周囲映像信号に含まれる前記人物の姿勢を推定すると共に、前記俯瞰映像信号に含まれる前記人物の姿勢を推定し、前記周囲映像信号及び前記俯瞰映像信号からそれぞれ推定した前記人物の姿勢に基づいて、前記人物の姿勢を示す人物毎の前記ボーンデータを生成し、前記３Ｄデータ及び前記ボーンデータに基づいて、前記人物の３次元ＣＧアニメーションのデータとして事前人物３Ｄデータを生成し、当該事前人物３Ｄデータに、前記周囲映像信号に含まれる前記人物の映像を投影して上書きし、前記人物３Ｄデータを生成し、人物毎の前記人物３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
請求項２から５までのいずれか一項に記載の録画再生装置において、
前記周囲３Ｄ生成部は、
予め設定された、前記ユーザの周囲の３Ｄデータを事前周囲３Ｄデータとして入力し、前記周囲映像信号から前記オブジェクトを抽出してオブジェクト映像を生成し、前記事前周囲３Ｄデータに含まれるオブジェクトに、対応する前記オブジェクト映像を投影して上書きし、前記周囲３Ｄデータを生成し、当該周囲３Ｄデータを前記サブコンテンツとして前記記録部に記録する、ことを特徴とする録画再生装置。
コンピュータを、請求項１から６までのいずれか一項に記載の録画再生装置として機能させるためのプログラム。