JP7320400B2 - VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF - Google Patents
VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF Download PDFInfo
- Publication number
- JP7320400B2 JP7320400B2 JP2019144745A JP2019144745A JP7320400B2 JP 7320400 B2 JP7320400 B2 JP 7320400B2 JP 2019144745 A JP2019144745 A JP 2019144745A JP 2019144745 A JP2019144745 A JP 2019144745A JP 7320400 B2 JP7320400 B2 JP 7320400B2
- Authority
- JP
- Japan
- Prior art keywords
- subject
- camera
- importance
- processing device
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、VRコンテンツに視線誘導効果を付加する映像演出処理装置及びそのプログラムに関する。 The present invention relates to a video presentation processing device and program for adding visual guidance effects to VR content.
従来、映像コンテンツを視聴する表示デバイスとしては、2次元ディスプレイが主流であった。近年、仮想現実(VR:Virtual Reality)や拡張現実(AR:Augmented Reality)のコンテンツを視聴できるヘッドマウントディスプレイやスマートグラスといった表示デバイスの利用も拡大しつつある(例えば、非特許文献1及び2)。以後、VR及びARのコンテンツをVRコンテンツと記載する。
Conventionally, two-dimensional displays have been the mainstream display devices for viewing video content. In recent years, the use of display devices such as head-mounted displays and smart glasses capable of viewing virtual reality (VR) and augmented reality (AR) content is also expanding (for example, Non-Patent
しかしながら、コンテンツの内容が同一であるにも関わらず、表示デバイスの種類に合わせて、2次元映像コンテンツとVRコンテンツを別々に制作することが多い。このため、VRコンテンツを制作する際、2次元映像コンテンツの制作者(例えば、放送局やプロダクション)のノウハウを十分に活かすことができていない。例えば、2次元映像コンテンツの制作で用いられる映像演出手法である撮影時のカメラワークによる視線・視野の拘束やテロップ、ナレーション又はセリフ無しで「視線を誘導」することによる映像的ストーリーテリングが困難である。 However, in many cases, two-dimensional video content and VR content are produced separately according to the type of display device, even though the contents are the same. For this reason, when creating VR content, the know-how of the creators of two-dimensional video content (for example, broadcasting stations and production companies) cannot be fully utilized. For example, it is difficult to perform visual storytelling by restricting the line of sight and field of view by camera work during shooting, which is a video production method used in the production of 2D video content, and by “guiding the line of sight” without telops, narration, or dialogue. be.
そこで、本発明は、肉眼の動きの特性により被写体のVRコンテンツに誘導をかける視線誘導効果を有するVRコンテンツを効率的に制作できる映像演出処理装置及びそのプログラムを提供することを課題とする。 Accordingly, an object of the present invention is to provide a video presentation processing apparatus and a program thereof that can efficiently produce VR content having a visual guidance effect that guides the subject to the VR content based on the movement characteristics of the naked eye.
前記した課題に鑑みて、本発明に係る映像演出処理装置は、被写体の3次元形状及び表面模様からなるボリューメトリックキャプチャ情報を、被写体の動きから3次元データにデジタル化するボリューメトリックキャプチャにより生成し、ボリューメトリックキャプチャ情報と被写体を撮影する撮影カメラのカメラパラメータとを用いて、肉眼の動き特性により被写体のVRコンテンツに誘導をかける視線誘導効果を付加するようにした映像演出処理装置であって、ボリューメトリックキャプチャ手段と、視体積算出手段と、3次元顕著性マップ生成手段と、被写体認識手段と、重要度設定手段と、重要度乗算手段と、視線誘導手段と、を備える構成とした。 In view of the above-described problems, a video effect processing apparatus according to the present invention generates volumetric capture information consisting of the three-dimensional shape and surface pattern of a subject by volumetric capture that digitizes the movement of the subject into three-dimensional data. , a video production processing device that uses volumetric capture information and camera parameters of a camera that shoots a subject to add a visual guidance effect that guides the VR content of the subject according to the movement characteristics of the naked eye, The configuration includes volumetric capture means, visual volume calculation means, three-dimensional saliency map generation means, object recognition means, importance setting means, importance multiplication means, and visual guidance means.
かかる構成によれば、ボリューメトリックキャプチャ手段は、ボリューメトリックキャプチャにより、VRコンテンツ及び前記ボリューメトリックキャプチャ情報を生成する。
視体積算出手段は、カメラパラメータに含まれる撮影カメラのレンズの中心座標であるレンズ主点と撮影カメラの撮影画角とで表される四角錐状の領域を、撮影カメラの撮影範囲である視体積として算出する。このカメラパラメータには、2次元映像コンテンツの制作者のノウハウの一つである、カメラマンによるカメラワークが反映されている。従って、カメラパラメータから算出した視体積には、2次元映像コンテンツの制作者が視線を誘導したい被写体が含まれることになる。
According to such a configuration, the volumetric capture means generates VR content and the volumetric capture information by volumetric capture.
The visual volume calculation means calculates a quadrangular pyramid-shaped area represented by the lens principal point, which is the center coordinate of the lens of the imaging camera, and the imaging angle of view of the imaging camera, which is included in the camera parameters, as the imaging range of the imaging camera. Calculate as volume. The camera parameters reflect the camera work of the cameraman, which is one of the know-how of the creator of the two-dimensional video content. Therefore, the visual volume calculated from the camera parameters includes the subject that the creator of the two-dimensional video content wishes to guide the line of sight.
3次元顕著性マップ生成手段は、ボリューメトリックキャプチャ情報に基づいて、視体積に含まれる被写体の3次元形状及び表面模様についての3次元顕著性マップを生成する。この3次元顕著性マップは、被写体の3次元形状を平面上の奥行き画像に変換した情報と、表面模様の勾配や色彩を数値化した情報とが含まれている。 The 3D saliency map generating means generates a 3D saliency map of the 3D shape and surface pattern of the subject contained in the visual volume based on the volumetric capture information. This three-dimensional saliency map contains information obtained by converting the three-dimensional shape of the object into a depth image on a plane, and information obtained by quantifying the gradient and color of the surface pattern.
被写体認識手段は、機械学習により、視体積に含まれる被写体の種類を認識する。重要度設定手段は、被写体認識手段が認識した被写体の種類と重要度とを対応付けて設定する。重要度乗算手段は、視体積を複数の分割領域に分割し、被写体の種類毎に設定された重要度を被写体が分割されている分割領域に割り当て、割り当てた分割領域の重要度に、撮影カメラのフォーカス位置から分割領域までの距離が離れる程に小さくなるように予め設定された第1係数と、分割領域がカメラパラメータの焦点深度に基づきフォーカス位置から外れる程に小さくなるように予め設定された第2係数とを乗算する。つまり、重要度乗算手段は、2次元映像コンテンツの制作者が視線を誘導したい被写体の重要度が高くなるように、第1係数及び第2係数を乗算する。 The subject recognition means recognizes the type of subject included in the visual volume by machine learning. The importance setting means associates and sets the type of the subject recognized by the subject recognition means and the importance. The importance multiplication means divides the visual volume into a plurality of divided areas, assigns the importance set for each type of subject to the divided areas in which the subject is divided, and assigns the importance of the divided areas to the photographing camera. A first coefficient that is preset to decrease as the distance from the focus position to the divided area increases, and a first coefficient that is preset to decrease as the divided area deviates from the focus position based on the depth of focus of the camera parameters. Multiply by the second coefficient. That is, the importance multiplication means multiplies the first coefficient and the second coefficient so that the importance of the subject to which the producer of the two-dimensional video content wants to guide the line of sight becomes higher.
視線誘導手段は、重要度乗算手段が乗算した重要度をボリューメトリックキャプチャ情報に反映させたレンダリングパラメータを生成し、レンダリングパラメータをVRコンテンツに付加する。つまり、このVRコンテンツは、重要度が高い被写体を注視させるようにレンダリングパラメータが付加されているので、視線誘導効果が高くなる。 The visual guidance means generates rendering parameters in which the importance multiplied by the importance multiplication means is reflected in the volumetric capture information, and adds the rendering parameters to the VR content. In other words, this VR content has a rendering parameter added so that a subject with a high degree of importance is gazed at, so the visual guidance effect is enhanced.
ここで、視線誘導効果とは、肉眼の動きの特性により、映像コンテンツの制作者が意図した被写体のVRコンテンツに視聴者の視線を誘導(誘目)する映像演出効果のことである。例えば、視線誘導効果は、所望の被写体を強調する、色鮮やかにする、明るくする、又は、視聴者の視線を誘導したくない被写体をぼかす(デフォーカス)ことである。 Here, the line-of-sight guidance effect is a video production effect that guides (attracts) the viewer's line of sight to the VR content of the subject intended by the creator of the video content due to the characteristics of the movement of the naked eye. For example, the visual guidance effect is to emphasize, brighten, or brighten a desired subject, or blur (defocus) a subject that is not desired to guide the viewer's gaze.
なお、本発明は、コンピュータが備えるCPU、メモリ、ハードディスクなどのハードウェア資源を、前記した映像演出処理装置として動作させるプログラムで実現することもできる。 The present invention can also be implemented by a program that causes hardware resources such as a CPU, memory, and hard disk provided in a computer to operate as the above-described image presentation processing device.
本発明によれば、2次元映像コンテンツの制作者が視線を誘導したい被写体を注視させるように、視線誘導効果が高いVRコンテンツを効率的に制作することができる。 According to the present invention, it is possible to efficiently create VR content with a high visual-guiding effect so that a producer of 2D video content can gaze at a subject to which the visual-sight is to be guided.
(実施形態)
[VRコンテンツ制作システムの構成]
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。
図1を参照し、実施形態に係るVRコンテンツ制作システム1の構成について説明する。
図1に示すように、VRコンテンツ制作システム1は、視線誘導効果が高いVRコンテンツを制作するものであり、固定カメラ2と、撮影カメラ3と、映像演出処理装置4とを備える。
(embodiment)
[Configuration of VR content production system]
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings as appropriate.
A configuration of a VR
As shown in FIG. 1 , a VR
固定カメラ2は、後記する撮影カメラ3で撮影した被写体9の動きを正確にトラッキングして、3次元データとしてデジタル化するボリューメトリックキャプチャを行うためのカメラである。この固定カメラ2は、被写体9を撮影した映像を映像演出処理装置4に出力する。この固定カメラ2が撮影した映像には、映像演出処理装置4によりボリューメトリックキャプチャが施される。例えば、固定カメラ2は、図示を省略した撮影スタジオの所定位置に固定されている。なお、図1では、図面を見やすくするために、固定カメラ2を5台図示したが、固定カメラ2の台数は特に限定されない。
The
撮影カメラ3は、被写体9を撮影する一般的な実写カメラであり、被写体9の撮影映像を映像演出処理装置4に出力する。この撮影カメラ3が撮影した映像は、2次元映像コンテンツの制作に用いられる。例えば、図示を省略したカメラマンが撮影カメラ3を操作して、被写体9の撮影を行う。このとき、固定カメラ2と撮影カメラ3とによる撮影を同時に行ってもよい。
なお、撮影カメラ3を仮想カメラとしてもよい。この場合、カメラマンは、カメラパラメータを入力可能なマニピュレータを用いて、仮想カメラを操作して被写体9を撮影する。
The photographing
Note that the photographing
映像演出処理装置4は、ボリューメトリックキャプチャ情報と、撮影カメラ3のカメラパラメータとを用いて、ボリューメトリックキャプチャで予め生成した被写体9のVRコンテンツに視線誘導効果を付加するものである。
The image
[映像演出処理装置の構成]
図2を参照し、映像演出処理装置4の構成について説明する。
図2に示すように、映像演出処理装置4は、ボリューメトリックキャプチャ手段40と、カメラパラメータ推定手段41と、視体積算出手段42と、3次元顕著性マップ生成手段43と、被写体認識手段44と、重要度ラベリング手段(重要度設定手段)45と、注視パラメータ推定手段(重要度乗算手段)46と、視線誘導手段47とを備える。
[Configuration of image production processing device]
The configuration of the image
As shown in FIG. 2, the image
ボリューメトリックキャプチャ手段40は、ボリューメトリックキャプチャにより、VRコンテンツ及びボリューメトリックキャプチャ情報を生成するものである。本実施形態では、ボリューメトリックキャプチャ手段40は、各固定カメラ2からの映像に後記するボリューメトリックキャプチャを施すことで、被写体9のVRコンテンツ及びボリューメトリックキャプチャ情報を生成する。そして、ボリューメトリックキャプチャ手段40は、生成したボリューメトリックキャプチャ情報及びVRコンテンツをカメラパラメータ推定手段41及び視線誘導手段47に出力する。
The volumetric capture means 40 generates VR content and volumetric capture information by volumetric capture. In this embodiment, the volumetric capture means 40 generates VR content and volumetric capture information of the
なお、ボリューメトリックキャプチャとは、被写体9の3次元形状及び表面模様(例えば、テクスチャ等の表面特性)を時系列で取得する手法である。また、ボリューメトリックキャプチャ情報とは、ボリューメトリックキャプチャにより取得した被写体9の3次元形状及び表面模様を表す情報のことである。例えば、ボリューメトリックキャプチャとしては、参考文献1に記載の手法があげられる。
参考文献1:”4D Views”、[online]、株式会社クレッセント、[令和1年5月17日検索]、インターネット〈URL:https://www.crescentinc.co.jp/company/〉
Note that volumetric capture is a method of acquiring the three-dimensional shape and surface pattern (for example, surface characteristics such as texture) of the
Reference 1: “4D Views”, [online], Crescent Inc., [searched on May 17, 2019], Internet <URL: https://www.crescentinc.co.jp/company/>
カメラパラメータ推定手段41は、カメラキャリブレーションにより、撮影カメラ3のカメラパラメータを推定するものである。本実施形態では、カメラパラメータ推定手段41は、撮影カメラ3からの撮影映像に一般的なカメラキャリブレーションを施すことで、撮影カメラ3のカメラパラメータを推定する。例えば、カメラキャリブレーションの手法としては、特開2011-118724号公報、及び、特開2014-127068号公報に記載の手法があげられるため、詳細な説明を省略する。そして、カメラパラメータ推定手段41は、推定したカメラパラメータ及び撮影映像を視体積算出手段42に出力する。
The camera parameter estimation means 41 estimates the camera parameters of the photographing
なお、カメラパラメータは、カメラマンにより操作されている撮影カメラ3の位置及び姿勢、撮影画角を表しており、例えば、パン、チルト、ズーム、フォーカス位置、アイリス、レンズ主点の位置が含まれている。つまり、カメラパラメータには、2次元映像コンテンツの制作者のノウハウの一つである、カメラマンによるカメラワークが反映されていると考えられる。
Note that the camera parameters represent the position and orientation of the photographing
ここで、カメラパラメータ推定手段41は、撮影カメラ3が仮想カメラの場合、仮想カメラを操作するマニピュレータの操作結果に基づいてカメラパラメータを推定してもよい。この場合、カメラパラメータ推定手段41は、カメラパラメータ及びボリューメトリックキャプチャ情報を用いて、仮想カメラで撮影した映像をレンダリングし、仮想カメラのビューファインダ映像として、カメラマンに提示してもよい。
Here, when the photographing
視体積算出手段42は、カメラパラメータ推定手段41が推定したカメラパラメータのレンズ主点及び撮影画角で表される四角錐状の領域を、撮影カメラ3の撮影範囲である視体積として算出するものである。この視体積は、3次元空間でどのエリアが撮影対象となっているかを表すボリューム情報である。図3に示すように、視体積Vは、レンズ主点VTが頂点となり、水平撮影画角θH及び垂直撮影画角θVに応じたサイズとなる。また、底面VBは、奥行き方向で被写体9の背面まで視体積Vに収まるように、撮影カメラ3のフォーカス位置の近傍に設定される。従って、視体積Vには、2次元映像コンテンツの制作者が視線を誘導したい被写体9(例えば、人物の顔)が含まれている。
その後、視体積算出手段42は、算出した視体積Vを3次元顕著性マップ生成手段43及び被写体認識手段44に出力する。
The visual volume calculating means 42 calculates a quadrangular pyramid-shaped area represented by the lens principal point and the imaging angle of view of the camera parameters estimated by the camera parameter estimating means 41 as the visual volume, which is the photographing range of the photographing
After that, the visual volume calculating means 42 outputs the calculated visual volume V to the three-dimensional saliency map generating means 43 and the
3次元顕著性マップ生成手段43は、ボリューメトリックキャプチャ手段40からのボリューメトリックキャプチャ情報を参照し、3次元顕著性マップを生成するものである。図3に示すように、3次元顕著性マップ生成手段43は、視体積算出手段42が算出した視体積Vに含まれる被写体9について、3次元顕著性マップを生成する。そして、3次元顕著性マップ生成手段43は、生成した3次元顕著性マップを注視パラメータ推定手段46に出力する。
なお、図3では、被写体9の全体のうち、視体積Vに含まれる被写体9の領域を実線で図示し、視体積Vに含まれない被写体9の領域を破線で図示した。
The 3D saliency map generation means 43 refers to the volumetric capture information from the volumetric capture means 40 and generates a 3D saliency map. As shown in FIG. 3 , the three-dimensional saliency map generating means 43 generates a three-dimensional saliency map for the subject 9 included in the visual volume V calculated by the visual volume calculating means 42 . The three-dimensional saliency map generating means 43 then outputs the generated three-dimensional saliency map to the gaze parameter estimating means 46 .
In FIG. 3, of the
3次元顕著性マップは、被写体9の3次元形状を平面の奥行き画像に変換した情報と、被写体9の表面模様を対象として、その勾配や色彩の目立ちやすさを数値化した情報とを表している。すなわち、3次元顕著性マップは、輝度値、色空間及び勾配方向という3つの特徴マップを生成し、各特徴マップから算出した注目度を表している。ここで、3次元顕著性マップは、視体積Vに含まれる被写体9毎に生成される。
The three-dimensional saliency map represents information obtained by converting the three-dimensional shape of the subject 9 into a planar depth image, and information obtained by quantifying the conspicuity of the gradient and color of the surface pattern of the
なお、2次元顕著性マップの一例は、参考文献2及び、参考文献3に詳細に記載されており、3次元顕著性マップも同様の手順で生成できるため、これ以上の説明を省略する。
参考文献2:Itti ,Koch, “A saliency-based search mechanism for overt and covert shifts of visual attention”, Vision Research, 40(2000), 1489-1506
参考文献3:ディジタル画像処理[改定新版]、公益社団法人画像情報教育振興協会、2015年3月9日、244頁-246頁
An example of the 2D saliency map is described in detail in
Reference 2: Itti, Koch, "A saliency-based search mechanism for overt and covert shifts of visual attention", Vision Research, 40(2000), 1489-1506
Reference 3: Digital Image Processing [Revised New Edition], Association for the Promotion of Image Information Education, March 9, 2015, pp.244-246
被写体認識手段44は、機械学習により、視体積算出手段42からの視体積Vに含まれる被写体9の種類を認識するものである。この被写体の種類は、2次元映像コンテンツの台本に含まれる被写体9の種類を表しており、例えば、主役、主役の顔、脇役、エキストラ等である。例えば、被写体認識手段44は、ボリューメトリックキャプチャ情報を参照し、被写体9の3次元形状及び表面模様を対象として、各被写体9を上下左右前後の6方向から2次元映像にレンダリングする。そして、被写体認識手段44は、2次元映像としてレンダリングされた被写体9の種類を機械学習により認識する。なお、機械学習の手法としては、参考文献3に記載された手法があげられる。
参考文献3:Joseph Redmon, Ali Farhadi ,”YOLOv3: An Incremental Improvement“,2018.4.8
The subject recognition means 44 recognizes the type of the subject 9 included in the visual volume V from the visual volume calculation means 42 by machine learning. The type of subject indicates the type of
Reference 3: Joseph Redmon, Ali Farhadi,”YOLOv3: An Incremental Improvement“,2018.4.8
ここで、被写体認識手段44は、被写体9の種類が顔である場合、機械学習により、「前方」又は「後方」のように顔の方向も認識してもよい。例えば、被写体認識手段44は、主役が正面を向いている場合、顔の方向を「前方」と認識する。
その後、被写体認識手段44は、認識した被写体9の種類を重要度ラベリング手段45に出力する。
Here, when the type of the subject 9 is a face, the subject recognition means 44 may also recognize the direction of the face such as "forward" or "backward" by machine learning. For example, when the main character faces the front, the subject recognition means 44 recognizes the direction of the face as "forward".
After that, the
重要度ラベリング手段45は、被写体認識手段44からの被写体9の種類と、被写体9の種類毎に予め設定された重要度とをラベリング(対応付ける)ものである。さらに、重要度ラベリング手段45は、被写体9の種類が顔である場合、顔に視聴者の視線が集まりやすいので、被写体認識手段44が認識した顔の方向と重要度とをラベリングする。つまり、重要度ラベリング手段45は、図4に示すように、被写体9の種類と、被写体9の方向と、重要度とを対応付けた重要度DBを生成する。そして、重要度ラベリング手段45は、生成した重要度DBを注視パラメータ推定手段46に出力する。
The importance labeling means 45 labels (corresponds to) the type of the subject 9 from the subject recognition means 44 and the degree of importance set in advance for each type of the
「被写体の種類」は、被写体認識手段44が認識した被写体9の種類を表す。
「被写体の方向」は、被写体9の種類が顔である場合、その顔の方向(例えば、「前方」又は「後方」)を表している。図4の例では、主役の顔の向きが「前方」になっている。
「重要度」は、2次元映像コンテンツにおける被写体9の重要度を表している。この重要度は、被写体9が重要であれば大きな値、被写体9が重要でなければ小さな値になる。ここで、重要度は、2次元映像コンテンツを制作する台本に含まれるワード(例えば、セリフ)に基づいて、手動で設定する。例えば、重要度は、台本に含まれるワードの出現頻度(例えば、TF-IDF)に基づいて設定する。
“Subject type” represents the type of the subject 9 recognized by the subject recognition means 44 .
"Direction of subject" indicates the direction of the face (for example, "forward" or "backward") when the type of
"Importance" represents the importance of the subject 9 in the two-dimensional video content. This degree of importance takes a large value if the
注視パラメータ推定手段46は、3次元顕著性マップ生成手段43からの3次元顕著性マップ、及び、重要度ラベリング手段45からの重要度DBに基づいて、以下で説明するように、各ボクセルの注視パラメータ(重要度)を推定するものである。そして、注視パラメータ推定手段46は、推定した注視パラメータを視線誘導手段47に出力する。 Based on the 3D saliency map from the 3D saliency map generation means 43 and the importance DB from the importance labeling means 45, the gaze parameter estimation means 46 calculates the gaze parameter of each voxel as described below. It estimates parameters (importance). Then, the gaze parameter estimation means 46 outputs the estimated gaze parameters to the gaze guidance means 47 .
<注視パラメータの推定>
図5を参照し、注視パラメータの推定について説明する。
図5に示すように、注視パラメータ推定手段46は、視体積Vを複数のボクセル(分割領域)Bに分割する。その結果、視体積Vに含まれる被写体9もボクセルBに分割される。このボクセルBは、直方体であり、その個数及びサイズが撮影カメラ3の画角(アスペクト比)を基準として任意である。図5の例では、撮影カメラ3の画角を4対3とし、水平方向に4個、垂直方向に3個、奥行き方向に4個、合計48個のボクセルBに視体積Vを分割している。また、図5の例では、奥行き方向の分割数を水平方向又は垂直方向の分割数の大きい方に合わせている。また、視体積Vの底面VBは、ボクセルBに分割した際、撮影カメラ3のフォーカス位置が奥行方向でボクセル空間の中心となるように設定されている。なお、ボクセル空間とは、各ボクセルBの集合で構成される空間のことである。
<Estimation of gaze parameters>
Estimation of gaze parameters will be described with reference to FIG.
As shown in FIG. 5, the
次に、注視パラメータ推定手段46は、重要度DBに格納されている重要度を、被写体9が分割されているボクセルBに割り当てる。これにより、ボクセルB毎に重要度が推定されることになり、重要度が各ボクセルBの注視パラメータとなる。
Next, the gaze parameter estimating means 46 assigns the importance stored in the importance DB to the voxel B into which the
次に、注視パラメータ推定手段46は、ボクセルB毎に重要度に、後記する第1係数及び第2係数を乗算する。つまり、注視パラメータ推定手段46は、2次元映像コンテンツの制作者が視線を誘導したい被写体9の重要度が高くなるように、第1係数及び第2係数を各ボクセルBの重要度に乗算する。この第1係数は、撮影カメラ3のフォーカス位置(ボクセル空間の中心)から各ボクセルBまでの距離が離れる程に小さくなるように予め設定された係数である。具体的には、第1係数は、下記の式(1)に示すように、距離Lの二乗に反比例し、この距離LはボクセルBの一辺を1としている。なお、Wは、1以上の任意の値で予め設定した重みを表す。
W/(L2+1) …式(1)
Next, the gaze parameter estimating means 46 multiplies the importance of each voxel B by a first coefficient and a second coefficient, which will be described later. That is, the gaze parameter estimating means 46 multiplies the importance of each voxel B by the first coefficient and the second coefficient so that the importance of the subject 9 to which the producer of the two-dimensional video content wants to guide the line of sight is high. This first coefficient is a coefficient set in advance so as to decrease as the distance from the focus position (the center of the voxel space) of the photographing
W/(L 2 +1) Expression (1)
ここで、ボクセルBに対応する被写体9の種類が顔である場合、下記の式(1-2)及び式(1-3)に示すように、顔の方向に応じて第1係数を設定してもよい。これにより、後記する視線誘導手段47において、2次元映像コンテンツの映像演出効果である「前空き」を実現できる。なお、W1及びW2は、1以上の任意の値で予め設定した重みを表し、例えば、「前空き」を実現する場合、W1>W2となるように設定する。
前方向:W1/(L2+1) …式(1-2)
後方向:W2/(L2+1) …式(1-3)
Here, when the type of the subject 9 corresponding to the voxel B is a face, the first coefficient is set according to the direction of the face as shown in Equations (1-2) and (1-3) below. may As a result, in the visual guidance means 47 described later, it is possible to realize the "front space", which is the visual presentation effect of the two-dimensional video content. Note that W1 and W2 represent weights set in advance with arbitrary values of 1 or more.
Forward: W1/(L 2 +1) Equation (1-2)
Backward: W2/(L 2 +1) Equation (1-3)
また、第2係数は、撮影カメラ3の焦点深度に応じた係数である。具体的には、第2係数は、カメラパラメータの焦点深度に基づいて、ボクセルBがフォーカス位置から外れる程に小さくなるように予め設定された係数である。すなわち、第2係数は、カメラ光軸上の合焦位置を基準として、撮影カメラ3に近づく方向及び遠ざかる方向の両方で、合焦位置から離れるにつれて小さくなる。
Also, the second coefficient is a coefficient corresponding to the depth of focus of the
例えば、第1係数の重みW,W1,W2については、経験則より「2.0」に設定した。また、例えば、第2係数については、合焦時の解像度に対して、解像度が1/4となる限界位置で「0」とし、合焦位置で「2.0」とし、限界位置から合焦位置までの間を線形補間した値とした。 For example, the weights W, W1, and W2 of the first coefficients are set to "2.0" based on empirical rules. Further, for example, the second coefficient is set to "0" at the limit position where the resolution is 1/4 of the resolution at the time of focusing, and is set to "2.0" at the in-focus position. A value obtained by linearly interpolating between positions.
図2に戻り、映像演出処理装置4の構成ついて説明を続ける。
視線誘導手段47は、注視パラメータ推定手段46が推定した重要度(注視パラメータ)を、ボリューメトリックキャプチャ手段40からのボリューメトリックキャプチャ情報に反映させたレンダリングパラメータを生成するものである。
Returning to FIG. 2, the description of the configuration of the image
The gaze guidance means 47 generates rendering parameters in which the importance (gazing parameters) estimated by the gaze parameter estimating means 46 is reflected in the volumetric capture information from the volumetric capture means 40 .
まず、視線誘導手段47は、各ボクセルBの重要度を正規化する。例えば、視線誘導手段47は、ボクセルBの重要度を「0」~「1」の値で正規化する。次に、視線誘導手段47は、ボリューメトリックキャプチャ情報の表面模様(色彩度)と正規化した重要度とを乗算する。これにより、各ボクセルの重要度が高いほど、色が鮮やかになる。さらに、視線誘導手段47は、3次元空間におけるフォーカス位置と、撮影カメラ3の撮像素子サイズ及びレンズの口径とから、レンダリングに反映させるボケフィルタのカーネルサイズと焦点距離との関係を示す係数を一般的なレンズモデルに基づいて算出し、算出した係数をレンダリングパラメータに反映させる。これにより、各ボクセルBでデフォーカスが表現される。
First, the line-of-sight guidance means 47 normalizes the importance of each voxel B. As shown in FIG. For example, the line-of-sight guidance means 47 normalizes the importance of voxel B with a value from "0" to "1". Next, the visual guidance means 47 multiplies the surface pattern (color saturation) of the volumetric capture information by the normalized importance. As a result, the higher the importance of each voxel, the brighter the color. Further, the line-of-sight guidance means 47 generally obtains a coefficient indicating the relationship between the kernel size and the focal length of the bokeh filter to be reflected in the rendering from the focus position in the three-dimensional space, the size of the imaging device of the photographing
そして、視線誘導手段47は、重要度や焦点深度が反映されたレンダリングパラメータをボリューメトリックキャプチャ手段40からのVRコンテンツに付加し、そのVRコンテンツを出力する。このように、VRコンテンツにおいて、視線を誘導したい被写体9の色が鮮やかになり、デフォーカスが表現される。 Then, the visual guidance means 47 adds rendering parameters reflecting the degree of importance and depth of focus to the VR content from the volumetric capture means 40, and outputs the VR content. In this way, in the VR content, the color of the subject 9 whose line of sight is to be guided becomes vivid, and defocus is expressed.
[映像演出処理装置の処理]
図6を参照し、映像演出処理装置4の処理について説明する。
図6に示すように、ステップS1において、ボリューメトリックキャプチャ手段40は、ボリューメトリックキャプチャにより、VRコンテンツ及びボリューメトリックキャプチャ情報を生成する。
[Processing of image production processing device]
Processing of the image
As shown in FIG. 6, in step S1, the volumetric capture means 40 generates VR content and volumetric capture information by volumetric capture.
ステップS2において、カメラパラメータ推定手段41は、カメラキャリブレーションにより、撮影カメラ3のカメラパラメータを推定する。
ステップS3において、視体積算出手段42は、ステップS2で推定したカメラパラメータのレンズ主点及び撮影画角で表される四角錐状の領域を、撮影カメラ3の撮影範囲である視体積Vとして算出する。
In step S2, the camera parameter estimation means 41 estimates camera parameters of the photographing
In step S3, the visual volume calculation means 42 calculates a quadrangular pyramid-shaped area represented by the lens principal point and the imaging angle of view of the camera parameters estimated in step S2 as the visual volume V, which is the imaging range of the
ステップS4において、3次元顕著性マップ生成手段43は、ステップS1で生成したボリューメトリックキャプチャ情報を参照し、3次元顕著性マップを生成する。
ステップS5において、被写体認識手段44は、機械学習により、ステップS3で算出した視体積Vに含まれる被写体9の種類を認識する。
ステップS6において、重要度ラベリング手段45は、ステップS5で認識した被写体9の種類と、被写体9の種類毎に予め設定された重要度とをラベリングする。
In step S4, the three-dimensional saliency map generating means 43 refers to the volumetric capture information generated in step S1 and generates a three-dimensional saliency map.
In step S5, the subject recognition means 44 recognizes the type of
In step S6, the
ステップS7において、注視パラメータ推定手段46は、3次元顕著性マップ及び重要度DBに基づいて、各ボクセルBの注視パラメータを推定する。
ステップS8において、視線誘導手段47は、注視パラメータをボリューメトリックキャプチャ情報に反映させたレンダリングパラメータを生成し、生成したレンダリングパラメータをVRコンテンツに付加する。
In step S7, the gaze parameter estimation means 46 estimates the gaze parameter of each voxel B based on the 3D saliency map and the importance DB.
In step S8, the visual guidance means 47 generates rendering parameters in which the gaze parameters are reflected in the volumetric capture information, and adds the generated rendering parameters to the VR content.
[作用・効果]
以上のように、映像演出処理装置4は、視線を誘導したい被写体9の色が鮮やかになり、デフォーカスが表現されたVRコンテンツを生成する。このようにして、映像演出処理装置4は、2次元映像コンテンツの制作者が視線を誘導したい被写体9を注視させて、視線誘導効果が高いVRコンテンツを効率的に制作することができる。すなわち、映像演出処理装置4は、VRコンテンツの制作を効率化するだけでなく、VRコンテンツにおいて、制作者の意図を2次元映像と同レベルで伝えることが可能となる。
[Action/effect]
As described above, the image
さらに、映像演出処理装置4は、視聴者の視線が集まりやすい顔については、その方向も重要度に反映させる。これにより、映像演出処理装置4は、2次元映像コンテンツの制作で用いられる映像演出手法である「前空き」をVRコンテンツにも適用することができる。
Furthermore, the image
(変形例)
以上、本発明の実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
(Modification)
Although the embodiments of the present invention have been described in detail above, the present invention is not limited to the above-described embodiments, and includes design changes and the like without departing from the gist of the present invention.
前記した実施形態において、カメラパラメータに含まれていないレンズ歪を考慮してもよい。つまり、レンズ歪については、レンズ歪モデルを予め選択しておき、レンズ歪に関連するカメラパラメータを用いて、レンズ歪モデルからレンズ歪み係数を設定する。そして、視体積算出手段が、設定されたレンズ歪係数が反映された撮影画角、及び、レンズ主点で表される四角錐状の領域を、視体積として算出する。これにより、レンズ歪の影響を受けやすい超広角レンズで撮影する場合でも、視体積を正確に求められるので、視線を誘導したい被写体を正確に注視させることができる。 In the embodiments described above, lens distortions not included in the camera parameters may be taken into account. That is, for lens distortion, a lens distortion model is selected in advance, and a lens distortion coefficient is set from the lens distortion model using camera parameters related to lens distortion. Then, the visual volume calculation means calculates, as the visual volume, a quadrangular pyramid-shaped area represented by the photographing angle of view reflecting the set lens distortion coefficient and the lens principal point. As a result, even when shooting with an ultra-wide-angle lens that is susceptible to lens distortion, the visual volume can be obtained accurately, so the subject to which the line of sight is to be guided can be accurately gazed at.
前記した実施形態において、ボリュームダイアルやGUI(Graphical User Interface)を介して、ユーザが手動で第1係数の重みを調整してもよい。また、被写体の種類及び第1係数をニューラルネットワークで学習し、学習した識別器を用いて、認識した被写体の種類に応じた第1係数を推定してもよい。 In the embodiment described above, the user may manually adjust the weight of the first coefficient via a volume dial or GUI (Graphical User Interface). Alternatively, the subject type and the first coefficient may be learned by a neural network, and the first coefficient corresponding to the recognized subject type may be estimated using the learned discriminator.
視線誘導効果は、前記した実施形態に限定されない。例えば、重要度に基づいて所定の基準値を超えるボクセルを内包するバウンディングボックスを設定し、そのバウンディングボックスをVRコンテンツに含めてもよい。この場合、視聴者の視点に対応させて、バウンディングボックスを矩形実線で描画することで、注視させたい領域を明示(強調)してもよい。 The visual guidance effect is not limited to the embodiment described above. For example, a bounding box that includes voxels exceeding a predetermined reference value may be set based on the degree of importance, and the bounding box may be included in the VR content. In this case, by drawing a bounding box with a rectangular solid line corresponding to the viewer's viewpoint, the area desired to be focused on may be specified (emphasized).
前記した各実施形態では、映像演出処理装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した映像演出処理装置として動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 In each of the above-described embodiments, the image effect processing device has been described as independent hardware, but the present invention is not limited to this. For example, the present invention can also be realized by a program that causes hardware resources such as a CPU, memory, and hard disk provided in a computer to operate as the above-described image presentation processing device. These programs may be distributed via a communication line, or may be distributed after being written in a recording medium such as a CD-ROM or flash memory.
1 VRコンテンツ制作システム
2 固定カメラ
3 撮影カメラ
4 映像演出処理装置
40 ボリューメトリックキャプチャ手段
41 カメラパラメータ推定手段
42 視体積算出手段
43 3次元顕著性マップ生成手段
44 被写体認識手段
45 重要度ラベリング手段(重要度設定手段)
46 注視パラメータ推定手段(重要度乗算手段)
47 視線誘導手段
1 VR
46 gaze parameter estimation means (importance multiplication means)
47 Line-of-sight guidance means
Claims (5)
前記ボリューメトリックキャプチャにより、前記VRコンテンツ及び前記ボリューメトリックキャプチャ情報を生成するボリューメトリックキャプチャ手段と、
前記カメラパラメータに含まれる前記撮影カメラのレンズの中心座標であるレンズ主点と前記撮影カメラの撮影画角とで表される四角錐状の領域を、前記撮影カメラの撮影範囲である視体積として算出する視体積算出手段と、
前記ボリューメトリックキャプチャ情報に基づいて、前記視体積に含まれる被写体の3次元形状及び表面模様についての3次元顕著性マップを生成する3次元顕著性マップ生成手段と、
機械学習により、前記視体積に含まれる被写体の種類を認識する被写体認識手段と、
前記被写体認識手段が認識した被写体の種類と重要度とを対応付けて設定する重要度設定手段と、
前記視体積を複数の分割領域に分割し、前記被写体の種類毎に設定された重要度を前記被写体が分割されている分割領域に割り当て、割り当てた前記分割領域の重要度に、前記撮影カメラのフォーカス位置から前記分割領域までの距離が離れる程に小さくなるように予め設定された第1係数と、前記分割領域が前記カメラパラメータの焦点深度に基づき前記フォーカス位置から外れる程に小さくなるように予め設定された第2係数とを乗算する重要度乗算手段と、
前記重要度乗算手段が乗算した重要度を前記ボリューメトリックキャプチャ情報に反映させたレンダリングパラメータを生成し、当該レンダリングパラメータを前記VRコンテンツに付加する視線誘導手段と、
を備えることを特徴とする映像演出処理装置。 A camera of a photography camera that generates volumetric capture information consisting of a three-dimensional shape and surface pattern of a subject by volumetric capture that digitizes the movement of the subject into three-dimensional data, and photographs the volumetric capture information and the subject. A video effect processing device that uses a parameter to add a visual guidance effect that guides the VR content of the subject according to the movement characteristics of the naked eye,
volumetric capture means for generating the VR content and the volumetric capture information from the volumetric capture;
A quadrangular pyramid-shaped area represented by the lens principal point, which is the center coordinate of the lens of the imaging camera, and the imaging angle of view of the imaging camera, which is included in the camera parameters, is defined as a visual volume, which is the imaging range of the imaging camera. a visual volume calculating means for calculating;
3D saliency map generating means for generating a 3D saliency map of a 3D shape and surface texture of an object contained in the visual volume based on the volumetric capture information;
subject recognition means for recognizing the type of subject included in the visual volume by machine learning;
importance level setting means for setting the type of the subject recognized by the subject recognition means and the level of importance in association with each other;
dividing the visual volume into a plurality of divided areas, assigning the importance set for each type of the subject to the divided areas in which the subject is divided, and assigning the assigned importance to the divided areas of the photographing camera; a first coefficient set in advance so that the distance from the focus position to the divided area becomes smaller as the distance increases; importance multiplication means for multiplying the set second coefficient;
visual guidance means for generating rendering parameters in which the importance multiplied by the importance multiplication means is reflected in the volumetric capture information, and adding the rendering parameters to the VR content;
A video presentation processing device comprising:
をさらに備えることを特徴とする請求項1に記載の映像演出処理装置。 camera parameter estimation means for estimating the camera parameters by camera calibration ;
2. The video presentation processing device according to claim 1, further comprising:
前記重要度設定手段は、前記被写体認識手段が認識した顔の方向と前記重要度とを対応付けて設定することを特徴とする請求項2に記載の映像演出処理装置。 The subject recognition means recognizes a face as the subject and also recognizes the direction of the face by the machine learning,
3. The image effect processing apparatus according to claim 2, wherein said importance level setting means sets the direction of the face recognized by said subject recognition means in association with said importance level.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019144745A JP7320400B2 (en) | 2019-08-06 | 2019-08-06 | VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019144745A JP7320400B2 (en) | 2019-08-06 | 2019-08-06 | VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021027487A JP2021027487A (en) | 2021-02-22 |
JP7320400B2 true JP7320400B2 (en) | 2023-08-03 |
Family
ID=74664151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019144745A Active JP7320400B2 (en) | 2019-08-06 | 2019-08-06 | VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7320400B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017022457A (en) | 2015-07-07 | 2017-01-26 | 日本電信電話株式会社 | Video editing device, video editing method, and video editing program |
JP2017507557A (en) | 2014-01-14 | 2017-03-16 | アルカテル−ルーセント | Process for improving the quality of experience for users who view high-definition video streams on their devices |
WO2017183346A1 (en) | 2016-04-18 | 2017-10-26 | ソニー株式会社 | Information processing device, information processing method, and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5306940B2 (en) * | 2009-08-11 | 2013-10-02 | 日本放送協会 | Moving image content evaluation apparatus and computer program |
-
2019
- 2019-08-06 JP JP2019144745A patent/JP7320400B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017507557A (en) | 2014-01-14 | 2017-03-16 | アルカテル−ルーセント | Process for improving the quality of experience for users who view high-definition video streams on their devices |
JP2017022457A (en) | 2015-07-07 | 2017-01-26 | 日本電信電話株式会社 | Video editing device, video editing method, and video editing program |
WO2017183346A1 (en) | 2016-04-18 | 2017-10-26 | ソニー株式会社 | Information processing device, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021027487A (en) | 2021-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11756223B2 (en) | Depth-aware photo editing | |
US9900510B1 (en) | Motion blur for light-field images | |
US11663733B2 (en) | Depth determination for images captured with a moving camera and representing moving features | |
KR101602394B1 (en) | Image Blur Based on 3D Depth Information | |
US7961970B1 (en) | Method and apparatus for using a virtual camera to dynamically refocus a digital image | |
EP3469788A1 (en) | Multi-view scene segmentation and propagation | |
US20130129193A1 (en) | Forming a steroscopic image using range map | |
US20140035918A1 (en) | Techniques for producing baseline stereo parameters for stereoscopic computer animation | |
CN107093204A (en) | It is a kind of that the method for virtual objects effect of shadow is influenceed based on panorama | |
US20140313362A1 (en) | Method and device relating to image content | |
US10354399B2 (en) | Multi-view back-projection to a light-field | |
Abdullah et al. | Advanced composition in virtual camera control | |
Liu et al. | Stereo-based bokeh effects for photography | |
JP7320400B2 (en) | VIDEO PRODUCTION PROCESSING DEVICE AND PROGRAM THEREOF | |
EP4150560B1 (en) | Single image 3d photography with soft-layering and depth-aware inpainting | |
US11245833B1 (en) | Smoothly changing a focus of a camera between multiple target objects | |
US11627297B1 (en) | Method for image processing of image data for a two-dimensional display wall with three-dimensional objects | |
CN117528236A (en) | Adjustment method and device for virtual camera | |
WO2023285871A1 (en) | Smoothly changing a focus of a camera between multiple target objects | |
WO2023285873A1 (en) | Smoothly changing a focus of a camera between multiple target objects | |
WO2023285872A1 (en) | Smoothly changing a focus of a camera between multiple target objects | |
CN117528237A (en) | Adjustment method and device for virtual camera | |
EP4018645A2 (en) | Camera system utilizing auxiliary image sensors | |
Scher et al. | Eye tracking based saliency for automatic content aware image processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230627 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230724 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7320400 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |