JP2022102461A - 動画生成装置、動画生成方法、プログラム、記憶媒体 - Google Patents

動画生成装置、動画生成方法、プログラム、記憶媒体 Download PDF

Info

Publication number
JP2022102461A
JP2022102461A JP2020217197A JP2020217197A JP2022102461A JP 2022102461 A JP2022102461 A JP 2022102461A JP 2020217197 A JP2020217197 A JP 2020217197A JP 2020217197 A JP2020217197 A JP 2020217197A JP 2022102461 A JP2022102461 A JP 2022102461A
Authority
JP
Japan
Prior art keywords
camera work
camera
goodness
moving image
fit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020217197A
Other languages
English (en)
Inventor
崇之 原
Takayuki Hara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2020217197A priority Critical patent/JP2022102461A/ja
Priority to PCT/JP2021/047061 priority patent/WO2022138574A1/en
Priority to EP21840707.0A priority patent/EP4268443A1/en
Priority to US18/267,801 priority patent/US20240048850A1/en
Publication of JP2022102461A publication Critical patent/JP2022102461A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture

Abstract

【課題】パノラマ画像から品質が高い通常画角の動画を生成すること。【解決手段】本発明は、複数のパノラマ画像から通常画角の動画を生成する動画生成装置であって、複数のパノラマ画像に対して仮想カメラのカメラワークタイプの適合度を算出する適合度算出部103と、前記適合度及び各カメラワークタイプの出現頻度に基づいて前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定するタイプ割り当て部104と、割り当てられたカメラワークタイプで前記複数のパノラマ画像から通常画角の動画を作成する動画符号化部105と、を備えることを特徴とする。【選択図】図3

Description

本発明は、動画生成装置、動画生成方法、プログラム、及び、記憶媒体に関する。
全天球画像等のパノラマ画像に対して仮想的なカメラ(以下、仮想カメラという)のカメラワークを作成し通常画角の動画を生成する技術が従来から知られている。カメラワークとは、時系列に変化する仮想カメラのカメラパラメータ(位置、姿勢、焦点距離等)である。カメラワークにより様々な視点からパノラマ画像を見た場合の動画を情報処理装置などが表示することができる。
特許文献1には、マルチカメラで撮影した動画から一つの動画を作成する技術が開示されている。
特許文献2には、パノラマ画像から被写体をトラッキングした動画を生成する技術が開示されている。
特許文献3には、全方位動画からの動画切り出しによって、所定経路に沿って移動する視点から見た視界を動画として提示する技術が開示されている。
特許文献4には、1枚の全天球画像から重要領域を抽出し、重要領域を遷移する形で動画を生成する技術が開示されている。
これらの技術は、複数のパノラマ画像に対して通常動画を生成するために、パノラマ動画を複数のパノラマ静止画の集合と捉えて、パノラマ動画に対する動画を生成する手法である。
しかしながら、従来のパノラマ画像から作成された通常画角の動画においては、カメラワークについて、各パノラマ画像に対する適合度やパノラマ画像間の相互関係という観点による品質という観点で改善の余地があった。
本発明は、上記課題に鑑み、パノラマ画像から品質が高い通常画角の動画を生成することができる動画生成装置を提供することを目的とする。
上記課題に鑑み、本発明は、複数のパノラマ画像から通常画角の動画を生成する動画生成装置であって、複数のパノラマ画像に対して仮想カメラのカメラワークタイプの適合度を算出する適合度算出部と、前記適合度及び各カメラワークタイプの出現頻度に基づいて前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定するタイプ割り当て部と、割り当てられたカメラワークタイプで前記複数のパノラマ画像から通常画角の動画を作成する動画符号化部と、を備えることを特徴とする。
パノラマ画像から品質が高い通常画角の動画を生成することができる動画生成装置を提供することができる。
カメラパラメータとカメラワークを説明する図である。 動画生成装置のハードウェア構成図の一例である。 動画生成装置が有する機能をブロック状に示す機能ブロック図の一例である。 動画生成装置がカメラワークを生成する手順を示すフローチャート図の一例である(第一の実施形態)。 カメラワークタイプの一例を示す図である。 混合von Mises-Fisher分布の一例を可視化した図である。 第二の実施形態における動画生成装置が有する機能をブロック状に示す機能ブロック図の一例である。 動画生成装置がカメラワークを生成する手順を示すフローチャート図の一例である(第二の実施形態)。 第二の実施形態におけるカメラワークタイプの一例を示す図である。 第三の実施形態における動画生成装置が有する機能をブロック状に示す機能ブロック図の一例である。 動画生成装置がカメラワークを生成する手順を示すフローチャート図の一例である(第三の実施形態)。 第四の実施形態における動画生成装置が有する機能をブロック状に示す機能ブロック図の一例である。 動画生成装置がカメラワークを生成する手順を示すフローチャート図の一例である(第四の実施形態)。 CAGNにおいてカメラワークタイプとパノラマ画像から出力される適合度を模式的に示す図である。
以下、本発明を実施するための形態の一例として、動画生成装置と動画生成装置が行う動画生成方法について説明する。
<用語について>
始めに本実施形態で使用される用語について説明する。
カメラパラメータとは、三次元空間において仮想カメラの視点を決定する情報であり、例えば、仮想カメラの位置、姿勢、焦点距離、アスペクト比、又は、レンズ歪み等の1つ以上をいう。
カメラワークとはカメラパラメータを時系列に並べたものである。
仮想カメラとは、実際に存在するカメラでなく、規定されたカメラパラメータで撮影画像を生成する仮想的に存在するカメラである。
適合度はその画像の審美性や対象物体の認識性などを反映したもので、人間によって主観的に設定されたものであり、人間が好ましいと感じるほど高い値を示すことが好ましい。
<本実施形態の概略>
従来の技術は、複数のパノラマ画像に対して通常動画を生成するために、パノラマ動画を複数のパノラマ静止画の集合と捉えて、パノラマ動画に対する動画を生成する手法である。
しかし、一般的な複数のパノラマ画像はシーンが連続していないため、動画生成装置が、フレーム間の画像の滑らかな変化を仮定する従来のパノラマ動画に対する動画生成手法を採用することは困難である。
また、従来の単一のパノラマ静止画像に対して動画を生成する手法を各画像に適用して、生成された動画をつなぎ合わせる手法もある。しかしこの手法では、各パノラマ画像に対して独立に処理が施されるため、同じようなカメラワークが連続し、単調な動画が生成されるおそれがある。
そこで、本実施形態では、パノラマ画像に対して仮想的なカメラワークを作成し通常画角の動画を生成する際に、各パノラマ画像に対する適合度とパノラマ画像間の相互関係を考慮することで、同じようなカメラワークタイプが連続しないようにする。これにより、パノラマ画像から品質の高い通常画角の動画を生成することができる。
[第1の実施形態]
第一の実施形態として、動画生成装置が、複数の固定のカメラワークを各パノラマ画像に適応的に割り当てて1つの動画を生成する例を説明する。まず、動画生成装置の処理を説明するに際し、前提条件を説明する。
パノラマ画像とは広角撮影された画像を指し、広角撮影とは出力される動画の画角よりも広く撮影されていることを意味する。たとえば、画角が60度の場合でも出力される動画の画角が60度未満であれば、本実施形態においては元の画像はパノラマ画像と捉える。また、水平360度、垂直180度の全方位を撮影した全天球画像もパノラマ画像である。
パノラマ画像を撮影したカメラの内部パラメータやレンズ歪みは別手段により校正済みであり、パノラマ画像の各画素の三次元空間中の相対的な投影方向は既知であるものとする。この時、パノラマ画像は二次元単位球面に再投影することが可能である。形式的に書けば、画素iの投影方向を(xi,yi,zi)∈R3(ただしxi2+yi2+zi2=1)として、画素iの画素値を二次元単位球面の位置(xi,yi,zi)に割り当てれば良い。画素の位置は離散的であるが、動画生成装置は、最近傍法、バイリニア法、バイキュービック法などを使用して補間することで、二次元単位球面上に連続的に画素値を割り当てることができる。この二次元単位球面を以下では「画像球面」と呼ぶ。
次にカメラワークを定義する。カメラワークとはパノラマ画像を部分的な透視投影画像に変換する仮想カメラのパラメータの時系列データを指す。
図1は、カメラパラメータとカメラワークを説明する図である。動画生成装置は、パノラマ画像を画像球面に投影し、この画像球面を仮想カメラで撮影平面に投影する形で部分的な透視投影画像を得る。図1(a)に示すように、仮想カメラのパラメータには投影中心、光軸方向、光軸回転、及び、焦点距離などがある。他にもアスペクト比やレンズ歪み係数などが仮想カメラのパラメータに含まれていてもよい。典型的には、投影中心を画像球中心と一致させることで、歪みのない自然な透視投影画像を得ることができる。投影中心が画像球面上に存在し、かつ、画像球中心が光軸上に存在する場合はステレオ投影法となり、180度以上の視野を一つの平面画像に効果的に収めることができる。
また、図1(b)に示すように、カメラワークタイプとは、画像に対してカメラワークを生成する際のパラメータのことである。形式的には、画像集合をX、パラメータ集合をZ、カメラワーク集合をY、カメラワーク生成の写像をG:X×Z→Yとした時、パラメータ集合Zの元をカメラワークタイプと呼ぶ。第一の実施形態では、パラメータ集合Zは有限個の元からなり、Gがパラメータ集合Zの元をカメラワーク集合Yの1つ元に対応させる場合を扱う(したがって、カメラワークタイプは画像には依存しない。)。
<構成例>
図2は、動画生成装置100のハードウェア構成図の一例を示す。図2に示すように、動画生成装置100は、CPU11、ROM12、RAM13、入力部14、表示部15、及び、接続I/F16を有する。
CPU11は、動画生成装置100の動作を統括的に制御する。CPU11は、RAM13の所定の領域を作業領域として、ROM12に記憶されている各種制御プログラムを実行して、動画生成装置100が有する各種の機能を実現させる。動画生成装置100が有する機能の具体的な内容については後述する。
ROM12は、動画生成装置100に関わるプログラムや各種設定情報などを記憶する不揮発性のメモリ(書き換え不可能なメモリ)である。RAM13は、例えばSDRAMなどの記憶手段であって、CPU11の作業エリアとして機能し、プログラムや各種のデータを一時的に記憶する。
入力部14は、ユーザからの入力(キーボード、マウス、音声などの操作)を受け付けるための周辺機器である。表示部15は、動画生成装置100に関する各種の情報を表示する部品又は外付けの周辺機器であり、例えば液晶ディスプレイなどで構成される。なお、表示部15と入力部14とが一体的に構成されるタッチパネル等の形態であってもよい。接続I/F16は、外部機器と接続するためのインタフェースである。例えば、接続I/F16は、USBなどの汎用的なインタフェースでもよいし、有線又は無線で外部の機器と通信する通信インタフェースでもよい。
<動画生成装置の機能>
次に、図3を用いて本実施形態における動画生成装置100が有する機能について説明する。図3は、動画生成装置100が有する機能をブロック状に示す機能ブロック図の一例である。動画生成装置100は、画像取得部101、重要度算出部102、適合度算出部103、タイプ割り当て部104、及び、動画符号化部105を有する。動画生成装置100が有するこれらの各機能は、図2に示したROM12からRAM13に展開されたプログラムをCPU11が実行することにより実現されている機能又は手段である。なお、このプログラムは、プログラム配信用のサーバから配信されてもよいし、USBメモリや光記憶媒体などのコンピュータ読み取りが可能な記憶媒体に記憶された状態で配布されてもよい。
また、図3に示す記憶装置20は、パノラマ画像を記憶する装置である。記憶装置20は、例えば、USBメモリ、外付けのHDD、NAS(Network Attached Storage)、又は、サーバなどであるが、パノラマ画像を記憶していればよい。また、記憶装置20は動画生成装置100の内部に存在してもよい。
動画生成装置100の各機能は図4に示すフローチャート図の各ステップと対応しているため、動画生成装置100の各機能についてはフローチャート図を参照して説明する。
図4は本実施形態において動画生成装置100がカメラワークを生成する手順を示すフローチャート図の一例である。以下、図4のフローチャート図に従って説明する。
(処理ステップS101)
処理ステップS101では、画像取得部101が記憶装置20から複数の処理対象のパノラマ画像を取得する。
(処理ステップS102)
処理ステップS102では、取得したパノラマ画像中の各領域の重要度を重要度算出部102が算出する。重要度算出部102は好ましくは各画素について重要度を算出するが、サブピクセル精度で算出してもよいし、特定の領域ごとに算出してもよい。
また、重要度とは、視聴者がその領域を視聴する重要性を示す指標であり、次の手法で近似的に算出される。一つは視覚的顕著性検出を用いる方法である。視覚的顕著性検出には、エッジや孤立点などに高い顕著性を設定するといった個々のルールをボトムアップ的に積み上げる手法や、ニューラルネットワークやサポートベクターマシン等の機械学習手法を用いて入力された画像からトップダウンで推定する手法などがある。本実施形態においてはいずれの手法も用いることができる。また、視覚的顕著性とは別の方法として、担当者が予め重要度の高い物体カテゴリを定めておき(たとえば、人物、顔、動物、自動車、など)、物体検出アルゴリズムによりその物体が検出された領域の重要度が高いとすることもできる。あるいは、重要度算出部102がパノラマ画像中のシーンのレイアウト推定を行い、シーンの放射構図、三分割構図、又は、水平構図などが得られる方向の重要度を高いと推定してもよい。あるいは、重要度算出部102は、ニューラルネットワークのアテンション機構で得られるアテンションを重要度として用いてもよい。アテンション機構とは、主に機械翻訳や画像処理等を目的としたEncoder-Decoderモデルに導入される要素ごとの関係性、又は、注意箇所を学習する機構である。
なお、上記の視覚的顕著性検出、物体検出、レイアウト推定、及び、アテンションの各手法を組み合わせて用いることもできる。本ステップにより、方向v∈S2(S2は二次元単位球面)の重要度I(v)∈Rが得られる。以下ではI:S2→Rを重要度分布Iと呼ぶ。
1.重要度分布は複数の確率分布の組み合わせで構成される。
2.重要度分布を構成する個々の確率分布を要素分布と表現する。
(処理ステップS103)
処理ステップS103では、適合度算出部103がパノラマ画像の重要度分布Iから事前に用意されたカメラワークタイプの適合度を算出する。
図5はカメラワークタイプの一例を示す。たとえば図5に示すように、カメラワークには、
(a) 投影中心を画像球中心に一致させた上で光軸方向を水平方向にパノラマ画像の端から端まで移動させるもの(全周画像の場合は一回転)、
(b) 光軸方向を重力方向に固定してステレオ投影法で光軸回転するもの、
(c) 光軸方向を重力と逆方向に固定してステレオ投影法で光軸回転するもの、
などがある。
これらのカメラワークタイプはそれぞれ特長が異なっており、(a)は水平方向に広く視聴する動画生成に、(b)(c)は垂直方向の広い視野を俯瞰する動画生成に、向いている。
適合度算出部103は、各パノラマ画像に対して、重要度分布Iに応じて各カメラワークタイプの適合度を算出する。具体的な手法の一つとして、重要度分布Iを混合von Mises-Fisher分布でモデル化し、そのモデルのパラメータからカメラワークタイプの適合度を算出することができる。混合von Mises-Fisher分布とは、確率変数v∈S2に対して式(1)の確率密度関数を持つ確率分布である。
Figure 2022102461000002

各係数は以下のとおりである。
Kは要素分布の個数
αK∈[0,1]はk番目の要素分布の混合率(ΣK K=1αK=1)
μK∈S2はk番目の要素分布の平均方向
κK∈R(≧0)はk番目の要素分布の集中度(κはカッパ)
<・,・>は内積(R3の標準内積)
C(κk)∈Rは式(2)を満たす正規化定数
Figure 2022102461000003

図6は、混合von Mises-Fisher分布の一例を可視化した図を示す。図6では、極座標に対して濃淡で確率密度を表現した。
混合von Mises-Fisher分布では{αk, μk, κk}K k=1がパラメータとなる。適合度算出部103はこのパラメータを、重要度分布Iに対して最尤推定で求める。具体的には適合度算出部103は、式(3)の対数尤度を最大化する{αk, μk, κk}K k=1を求める。
Figure 2022102461000004

式(3)の対数尤度の最大化はEMアルゴリズム(Expectation Maximization Algorithm)により効率的な計算が可能である。適合度算出部103は、このようにして求めた{αk, μk, κk}K k=1から各カメラワークタイプの適合度を算出する。たとえば、水平移動のカメラワークタイプ(a)の適合度としては、平均方向μk,と重力方向g∈S2の内積の平均を1から引いたもの(水平方向に重要度の分布が広がっているほど値が大きくなる)が適合度である。重力方向ステレオ投影回転(b)では、平均方向μk,と重力方向g∈S2の内積の平均(要素分布が重力方向に広がっているほど値が大きくなる)が適合度である。重力逆方向ステレオ投影回転(c)では、平均方向μk,と重力逆方向-g∈S2の内積の平均(要素分布が重力逆方向に広がっているほど値が大きく成る)が適合度である。
適合度の算出方法はこれらに限るものではなく、重要度の分布に沿った形でカメラワークタイプを評価できるものであればよい。以上のようにして求めたn番目のパノラマ画像に対するm番目のカメラワークタイプの適合度をDnmと表記する。
(処理ステップS104)
処理ステップS104では、タイプ割り当て部104が算出されたカメラワークタイプの適合度{Dnm}N,M n=1,m=1を用いて各パノラマ画像に対してカメラワークタイプを割り当てる。ここで、Nはパノラマ画像の数、Mはカメラワークタイプの個数である。同じタイプのカメラワークが多く出現すると、全体の動画として変化に乏しいものとなるため、担当者が各タイプのカメラワークの最低出現回数B(各タイプのカメラワークの出現頻度)を予め決めておく。
カメラワークタイプの出現頻度を考慮した上で各画像への適合度の最適化を図ることで、特定のカメラワークタイプに偏ることなく、各画像に対して適したカメラワークタイプを割り当てることができます。たとえば本実施形態によって、画像1は単体で見るとカメラワークタイプAが適しているものの、画像2は画像1よりもよりカメラワークタイプAの適合度が高いので、同じカメラワークタイプが連続しないように、カメラワークタイプAの割り当てはより適合度が高い画像2に譲って、画像1にはカメラワークタイプBを割り当てる、といった相互作用が働く。各パノラマ画像に対する適合度とパノラマ画像間の相互関係を考慮するができる。
その上で、タイプ割り当て部104は適合度の和が最大となるようなパノラマ画像に対するカメラワークタイプの割り当てを求める。割り当ては、n番目のパノラマ画像にm番目のカメラワークタイプを割り当てる時に1、そうでない場合に0を取る変数τnmを導入して、次の整数計画問題として定式化することができる(式(4))。
Figure 2022102461000005

この整数計画問題の解法として、分枝限定法やメタヒューリスティクス(シミュレーティッドアニーリング、遺伝的アルゴリズム、タブーサーチなど)を用いることができる。特殊なケースとして、N=M,B=1の時にはハンガリー法により厳密解を求めることができる。
(処理ステップS105)
処理ステップS105では、動画符号化部105が設定されたカメラワークタイプで指定されるカメラワークに従って、各パノラマ画像から部分的な透視投影の動画を作成し1つの動画としてエンコーディングして出力する。以上で、パノラマ画像から品質の高い通常画角の動画を生成することができた。
<処理のバリエーション>
以下では、第一の実施形態において好適な処理のバリエーションを説明する。
(処理ステップS103)
処理ステップS103における混合von Mises-Fisher分布のパラメータ推定において、ベイズ推定を用いることで推定結果を安定化させることもできる。すなわち、適合度算出部103は、パラメータ{αk, μk, κk}K k=1に対して事前分布を設定して、パラメータの事後分布を求める。これは変分ベイズ法を用いることで、近似計算が可能である。また、分布のパラメータ推定を経由せず、重要度分布からカメラワークタイプの適合度を直接算出することもできる。たとえば、水平移動のカメラワークタイプ(a)の場合、適合度算出部103は、方向v∈S2の重要度I(v)を式(5)のように重力方向g∈S2との内積に関する重みを使って積算して適合度を算出してもよい。
Figure 2022102461000006

同様の考え方は、重力(逆)方向ステレオ投影回転のカメラワークタイプ(b)(c)でも用いることができ、重力(逆)方向の内積で重み付けして重要度を積算すればよい。
処理ステップS103では評価関数に重み{wnm∈R}N,M n=1,m=1を導入して、選択されるカメラワークタイプを調整することも可能である。具体的には式(4)の評価関数を式(6)のように置き換える。
Figure 2022102461000007

式(6)の評価関数によれば、重み{wnm∈R}N,M n=1,m=1を調整することで、特定のカメラワークタイプの出現頻度を高めたり、画像の出現順序に対してカメラワークタイプの出現頻度を変えたりすることができる。また制約条件についても、同じカメラワークタイプが連続しないように、式(7)の制約を加えることも有用である。
Figure 2022102461000008

また、適合度の算出について、上の例では適合度算出部103はヒューリスティックに設計を行なっていた。しかし人手で設計するのは手間がかかり、かつ精度にも限界があるため、適合度算出関数を機械学習によって求めても良い。そのためには、担当者が、事前に作成した画像とカメラワークタイプのセットで生成した動画を被験者に提示し、被験者に適合度の値を付けてもらい、複数の{画像、カメラワークタイプ、適合度}の組を持つデータセットを構築する。そして、{画像、カメラワークタイプ}から適合度を推定する回帰モデルDを学習するという方法を取ることができる。回帰には線形回帰、ロジスティック回帰、サポートベクトル回帰、勾配ブースティング、又は、ニューラルネットワークなどを用いることができる。
以上説明した第一の実施形態によれば、カメラワークタイプの適合度と出現頻度を元に各パノラマ画像にカメラワークタイプの割り当てを行うことで、複数のパノラマ画像に対して、多様なタイプのカメラワークによる動画を生成することができる。
また、動画生成装置は、カメラワークタイプの出現頻度を制約条件又は評価関数に組み込み、カメラワークタイプの適合度の和が最大となるように、各パノラマ画像へのカメラワークタイプの割り当てを決定する。これにより、特定のカメラワークタイプの偏りを抑えた上で適切なカメラワークを各パノラマ画像に対して生成することができる。
また、画像中の重要度の分布に応じてカメラワークのタイプの適合度を算出することで、画像の内容に適応的なカメラワークを生成することができる。
[第2の実施形態]
第二の実施形態として、カメラワーク生成のモジュール(後述するカメラワーク生成部205)に与えるパラメータのセットの分類でカメラワークタイプを規定し、複数のパノラマ画像から1つの動画を生成する動画生成装置について説明する。
第一の実施形態ではカメラワークタイプに対してカメラワークは一つに固定されていたが、本実施形態ではカメラワークタイプが同じでも、パノラマ画像の内容に応じて異なるカメラワークが生成される。
図7は、第二の実施形態における動画生成装置100が有する機能をブロック状に示す機能ブロック図の一例である。本実施形態の動画生成装置100は、図3の動画生成装置100に対してカメラワーク生成部205を有している。これらの機能について図8に基づいて説明する。
図8は、動画生成装置100がカメラワークを生成する手順を示すフローチャート図の一例である。図4と比較すると、ステップS203が異なり、ステップS205が追加されている。以下では、図4との相違を主に説明する。ステップS201、S202は図4のステップS101、S102と同様でよい。
(処理ステップS203)
処理ステップS203では、適合度算出部203がパノラマ画像の重要度分布Iから事前に用意されたカメラワークのタイプの適合度を算出する。第二の実施形態におけるカメラワークのタイプとは、重要度分布からカメラワークを生成するカメラワーク生成部205におけるパラメータ(以降、生成パラメータという)を定めるものである。
同一の重要度分布に対して生成パラメータの違いによって異なるカメラワークが生成され、生成パラメータには中間構図数、経路補間方法、及び、加減速規則などが含まれる。
図9は、第二の実施形態におけるカメラワークタイプの一例を示す。以下の3つのカメラワークタイプを例にして説明する。
(d) 適合度算出部203が、1つの中間構図に対して微小変動を与えた経路を生成しその経路上を等速でカメラを動かす。
(e) 適合度算出部203が、2つの中間構図に対して線形補間で移動経路を生成し、仮想カメラをその経路上で加減速を伴い動かす。
(f) 適合度算出部203が、3つの中間構図に対してスプライン補間で移動経路を生成し、仮想カメラをその経路上で等速に動かす。
Figure 2022102461000009
表1はカメラワークタイプ(d)~(e)の特徴を比較して示す。
適合度算出部203はこれらのカメラワークタイプに対して重要度分布から適合度を算出する。まず、適合度算出部203は、処理ステップS103と同様に混合von Mises-Fisher分布で重要度分布をモデリングし、そのパラメータ{αk, μk, κk}K k=1を最尤推定によって得る。
ここで要素分布数Kは想定するカメラワークタイプの中間構図数の最大値の3に合わせる。
カメラワークタイプ(d)に対しては、混合率{αk}K k=1の最大値とそれ以外の平均の差分を適合度とする。すなわち、1つの要素分布に重要度が集中しているほど適合度が高いものとする。
カメラワークタイプ(e)に対しては、混合率{αk}K k=1の平均と最小値の差分を適合度とする。すなわち、2つの要素分布に重要度が集中しているほど適合度が高いものとする。
カメラワークタイプ(f)に対しては、混合率{αk}K k=1の分散をσ2としてexp(-σ2)を適合度とする。すなわち、混合率のバラツキが少ないほど適合度が高いものとする。
以上のようにして求めたn番目のパノラマ画像に対するm番目のカメラワークの適合度をAnmとする。
(処理ステップS204)
処理ステップS204では、タイプ割り当て部204が算出されたカメラワークの適合度{Dnm}N,M n=1,m=1を用いて各パノラマ画像に対してカメラワークを割り当てる。この処理は第一の実施形態における処理ステップS104と同様である。
(処理ステップS205)
処理ステップS205では、カメラワーク生成部205が割り当てられたカメラワークタイプに基づいて、各パノラマ画像に対してカメラワークを生成する。ここでは、処理ステップS202で求めた混合von Mises-Fisher分布のパラメータ{αk, μk, κk}K k=1を用いてカメラワーク生成部205がカメラワークを生成する例を述べる。
すなわち、カメラワーク生成部205はパノラマ画像の各領域の重要度分布に関するパラメータ及びパノラマ画像を入力としてカメラワークを生成する。カメラワーク生成部は、タイプ割り当て部が割り当てたカメラワークタイプに応じてパラメータを設定する。
カメラワークタイプ(d)に関しては、カメラワーク生成部205が、まず混合率{αk}K k=1が最大となる要素分布kを選択する。要素分布の平均方向μkを仮想カメラの光軸方向cとし、カメラワーク生成部205は集中度κkから仮想カメラの画角γを決定する。集中度κから仮想カメラの画角γの算出式として、たとえば式(8)を用いることができる。
Figure 2022102461000010

η∈(0,1)はハイパーパラメータである。ηが大きいほどγが大きくなり、γ→0(η→0),γ→2π(η→1)である。なお、この定式化はvon Mises-Fisher分布の中心角に対する累積密度関数の関係式から導出したものである。
カメラワーク生成部205は、光軸方向cと画角γに微小変動を与えて(c1),(c22)を得る。そして、カメラワーク生成部205はこの二点を線形補間してカメラワークの経路c(s),γ(s)を生成する。すなわち、カメラワーク生成部205は光軸方向と画角をペアとして異なるペアの光軸方向と画角の間を仮想カメラのパラメータが遷移するカメラワークを生成する。
Figure 2022102461000011

ここでs∈[0,1]である。カメラワークタイプ(d)では仮想カメラが等速運動を行うので、時刻t=0,1,…,Tに対してsを式(10)のように設定する。
Figure 2022102461000012

次にカメラワークタイプ(e)に関しては、カメラワーク生成部205が、まず、混合率{αk}K k=1の大きい方から2つの要素分布k1,k2を選択する。カメラワーク生成部205は、それぞれの要素分布の平均方向μk1k2を仮想カメラの光軸方向c1,c2とし、集中度κk1k2から仮想カメラの画角γ12を式(8)で算出する。
中間構図1を(c1)、中間構図2を(c22)とする。カメラワーク生成部205は式(9)を用いて、2つの中間構図間を線形補間によって遷移する経路を生成する。次に、カメラワーク生成部205は時刻tに対するsを決定する。ここでは加減速のモデルとして躍度最小モデルを用いて、式(11)のように設定する。
Figure 2022102461000013

躍度最小モデルとは、二点間の軌道を加速度の微分である躍度の二乗の積分値が最小となるように生成するモデルである。躍度最小モデルは人間の手の運動を良好に再現することが知られている。なお、加減速のモデルは躍度最小モデルに限らず任意のモデルを用いることができる。
最後にカメラワークタイプ(f)に関して、カメラワーク生成部205は、まず、それぞれの要素分布の平均方向{μk}K k=1を仮想カメラの光軸方向{ck}K k=1とし、集中度{κk}K k=1から仮想カメラの画角{γk}K k=1を式(8)で算出する。これらを中間構図として、カメラワーク生成部205は中間構図を通るカメラパラメータの経路をスプライン補間で生成し、その経路上を仮想カメラが等速運動で動くものとする。
(処理ステップS206)
処理ステップS206では動画符号化部206が設定されたカメラワークに従って、各パノラマ画像から部分的な透視投影の動画を作成し1つの動画としてエンコーディングして出力する。
<処理のバリエーション>
以下では、第二の実施形態において好適な処理のバリエーションを説明する。
まず、第一の実施形態と同様に、混合von Mises-Fisher分布のパラメータ推定への変分ベイズ法の適用、重要度分布からの適合度の直接計算、及び、評価関数の重み付けが可能である。
更に、第一の実施形態の固定カメラワークを第二の実施形態のカメラワークに混在させても良い。カメラワークタイプは、中間構図の数、中間構図数、経路補間方法、及び、加減速規則の組み合わせで様々なものを想定することができる。これ以外にも任意のカメラワークタイプを取ることができる(ただしカメラワークタイプの数が多い場合は不都合が生じ、不都合の解決には次の第三の実施形態を適用することが好ましい)。
本実施形態によれば、複数のパノラマ画像に対して、その画像の内容に応じて多様なカメラワークを生成することができる。
カメラワーク生成部が、パノラマ画像の各領域の重要度分布に関するパラメータ及びパノラマ画像を入力としてカメラワークを生成することで、カメラワークタイプの偏りを抑えた上で画像の内容に適応的なカメラワークを生成することができる。
パノラマ画像における重要度分布を、複数の分布を要素とする確率分布の混合分布(要素分布)とみなして、要素分布のパラメータに応じてカメラワークを生成することで、ロバストに画像の内容に適応的なカメラワークを生成することができる。
[第3の実施形態]
第三の実施形態として、カメラワークタイプの数が入力画像数に対して非常に大きい場合、極端なケースではカメラワークタイプが無限個ある場合に、各パノラマ画像にカメラワークタイプを割り当て、カメラワークを生成し動画を出力する動画生成装置について説明する。
このようなケースでは、異なるパノラマ画像に対して類似するカメラワークタイプが割り当てられて同じようなカメラワークが続く動画が生成されるという不都合が生じる可能性がある。
第三の実施形態では、動画生成装置が、カメラワークタイプ間の距離を規定し、その距離を制約条件、又は、評価関数に組み込むことで、多様なタイプのカメラワークを生成する。
図10は、第三の実施形態における動画生成装置100が有する機能をブロック状に示す機能ブロック図の一例である。本実施形態の動画生成装置100は、図7の動画生成装置100と同様である。ただし、適合度算出部303、及び、タイプ割り当て部304の処理の内容が異なっている。これらの機能について図11に基づいて説明する。
図11は、動画生成装置100がカメラワークを生成する手順を示すフローチャート図の一例である。図11は図8と同様であるが、ステップS303、S304の内容が異なる。以下では、図8との相違を主に説明する。
(処理ステップS303)
処理ステップS303では、適合度算出部303がパノラマ画像の重要度分布Iからカメラワークタイプの適合度を算出する。ここでは例として、第二の実施形態の(f)のカメラワークタイプを用い、式(10)における動画長Tを変数としてカメラワークタイプを分ける(たとえばT=300とT=500は異なるカメラワークタイプである)。
カメラワークタイプを分ける際、重要度分布の広がり具合を用いることを考える。たとえば、処理ステップS103と同様に、適合度算出部103が重要度分布Iに対して混合von Mises-Fisher分布のパラメータ{αk, μk, κk}K k=1を最尤推定によって得る。{μk}K k=1の分散をカメラワークタイプの適合度とする。以下では、n番目のパノラマ画像に対するカメラワークタイプmの適合度をDnmと表記する(上記の例ではm=Tと考える)。
(処理ステップS304)
処理ステップS304では、タイプ割り当て部304が算出されたカメラワークの適合度Dnmを用いて各パノラマ画像に対してカメラワークを割り当てる。ここでは、タイプ割り当て部304は、カメラワークタイプm,m'間の距離d(m,m')を用いる。この距離が制約条件であり、典型的にはL2,L1などを用いることができる。
n番目のパノラマ画像に割り当てるカメラワークタイプをmnとして、式(12)の最適化問題を構成する。
Figure 2022102461000014

タイプ割り当て部304はこの最適化問題を求解し、割り当て{mn}N n=1を求める。最適化問題の解法としては、上記の例でm=Tとした場合は整数計画問題となり、分枝限定法やメタヒューリスティクスで解く(線形緩和して次の方法で解いて良い)。mnが実数である場合は、ペナルティ関数法、ラグランジュの未定乗数法、及び、一般化簡約勾配法など制約付き非線形計画法によって求解する。
(処理ステップS305)
処理ステップS305では、カメラワーク生成部305が割り当てられたカメラワークタイプに基づいて、各パノラマ画像に対してカメラワークを生成する。この処理は第二の実施形態における処理ステップS205と同様である。
(処理ステップS306)
処理ステップS306では動画符号化部306が設定されたカメラワークに従って、各パノラマ画像から部分的な透視投影の動画を作成し1つの動画としてエンコーディングして出力する。
<処理のバリエーション>
処理ステップS304の制約条件として、カメラワークタイプ間の距離を制約条件とするのでなく、式(13)に示すように、評価関数に距離を組み込むこともできる。
Figure 2022102461000015

式(13)において、λは適合度とカメラワークタイプ間の距離のバランスを調整するハイパーパラメータである。この最適化問題を制約なしの非線形計画法(最急降下法、ニュートン法、共役勾配法、滑降シンプレックス法、等)で求解してカメラワークタイプの割り当てを求めても良い。
また、第三の実施形態ではカメラワークタイプとして動画長Tを用いたがこれに限るものではなく、カメラワークタイプの適合度とカメラワークタイプ間の距離を定義できれば何を用いても良い。たとえば、中間構図数、又は、式(8)の画角変換を決めるハイパーパラメータη、などをカメラワークタイプとして用いることができ、また、それらを組み合わせて用いてもよい。
本実施形態によれば、カメラワークタイプが多い場合でも、複数のパノラマ画像に対して多様かつ高品位のカメラワークを生成することを実現する。なお、高品位とは、各パノラマ画像に対する適合度が高く、また、パノラマ画像間の相互関係に関連性があるという観点による品質が高いことをいう。
動画生成装置は、カメラワークタイプ間の距離を制約条件又は評価関数に組み込み、カメラワークタイプの適合度の和が最大となるように、各パノラマ画像へのカメラワークタイプの割り当てを決定する。これにより、類似するカメラワークタイプの偏りを抑えた上で適切なカメラワークを各パノラマ画像に対して生成することができる。
[第4の実施形態]
第四の実施形態として、カメラワーク生成に条件付き敵対的生成ネットワーク(Conditional Generative Adversary Network, 以下CGANと略記)を用いる例を示す。CGANの枠組みでは、生成関数Gにパノラマ画像xと潜在変数zを入力して、カメラワークy=G(x,z)を得ることができる。潜在変数zによってカメラワークのバリエーションを得ることができるので、潜在変数zは第四の実施形態におけるカメラワークタイプとみなすことができる。
また、CGANでは学習の過程でカメラワークの識別関数Dが獲得されており、生成されたカメラワークyが訓練データに含まれるカメラワークに近いほどD(x,y)の値が大きくなる。そこで、このD(x,y)を第四の実施形態における適合度とみなす。
また、カメラワークタイプ間の距離としては潜在変数zの空間における距離を用いる。このようにして、CGANをカメラワーク生成法として使う場合でも、各パノラマ画像に対する適合度とパノラマ画像間の相互関係を考慮してカメラワークを生成することができる。
図12は、第四の実施形態における動画生成装置100が有する機能をブロック状に示す機能ブロック図の一例である。本実施形態の動画生成装置100は、図10の動画生成装置100と同様であるが適合度算出部403の配置が異なっている。これらの機能について図13に基づいて説明する。
図13は、動画生成装置100がカメラワークを生成する手順を示すフローチャート図の一例である。図13は図11と比較すると、適合度の算出ステップがない。以下では、図11との相違を主に説明する。
(処理ステップS403)
処理ステップS403では、タイプ割り当て部404が各パノラマ画像に対してカメラワークを割り当てる。第三の実施形態と同様に適合度とカメラワークタイプ間の距離に関する最適化問題を求解することでカメラワークタイプの割り当てを行うのだが、第四の実施形態ではこの最適化問題を式(14)のように構成する。
Figure 2022102461000016

式(14)では、画像の集合をΧ、カメラワークタイプの集合をZ⊂RDz、カメラワークの集合をYとして、xn∈X,zn∈Z(n=1,2,…,N)であり、生成関数G:X×Z→Yと識別関数D:X×Y→[0,1]が事前にCAGNにおける敵対的学習により得られているものとする。
識別関数Dは入力された画像とカメラワークの組が訓練データに近ければ1に、遠ければ0に近い値を出力するものである。これを、カメラワークタイプの適合度と見なす。
図14はCAGNにおいてカメラワークタイプとパノラマ画像から出力される適合度を模式的に示す図である。生成関数G(符号23)にパノラマ画像x(符号21)とカメラワークタイプz(符号22)が入力され、カメラワークy(符号24)が出力される。また、識別関数D(符号25)にパノラマ画像xとカメラワークyが入力され、適合度(符号26)を出力する。
また、潜在変数(カメラワークタイプ)の空間における距離dを制約に設ける。タイプ割り当て部404は距離dを制約条件として、適合度の和が最大となるようなパノラマ画像に対するカメラワークタイプの割り当てを求める。
この最適化問題を解くにはランダム探索、山登り法、又は、メタヒューリスティクスを用いることができる。第一、第二、第三の実施形態のように予めパノラマ画像とカメラワークタイプの組みに対して適合度を算出しておくことは計算コストが高いため(Zの濃度が無限だとそもそも計算不可能)、最適化のプロセスで識別関数Dの値が必要となる場合に、その都度、適合度算出部403がD(xn,G(xn,zn)の計算を行う。
(処理ステップS404)
処理ステップS404では、カメラワーク生成部405が割り当てられたカメラワークタイプに基づいて、各パノラマ画像に対してカメラワークを生成する。すなわち最適化で得られたznに対してG(xn,zn)を計算する(n=1,2,…,N)。
(処理ステップS405)
処理ステップS405では動画符号化部406が定されたカメラワークに従って、各パノラマ画像から部分的な透視投影の動画を作成し1つの動画としてエンコーディングして出力する。
<処理のバリエーション>
生成関数G、識別関数Dには任意の構成を用いることができる。生成関数Gの構成例としては、カメラワークタイプを入力画像のチャンネル方向に結合した上で畳み込みネットワーク(Convolutional Neural Network; CNN)で処理して特徴量を算出し、Recurrent Neural Network (RNN), Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM),又は、Transformerにより時系列データであるカメラワークを出力する構成を取ることができる。
識別関数Dは画像データと時系列データを入力とする、画像データについてはCNNを、時系列データについてはRNN,GRU,LSTM,Transformerを使ってそれぞれ特徴量を抽出し、その特徴量を結合してから全結合層によって処理を行うことが好ましい。
上記の例ではカメラパラメータタイプの集合Zにユークリッド空間を仮定したがこの限りではない。集合Zを少数の可算個の元で構成する場合は第一、第二、第三の実施形態のように最適化計算の前に予め適合度を算出する構成を取ることもできる。
第四の実施形態によれば、複数のパノラマ画像に対する動画生成にCGANを用いることで、CGANではデータドリブンにカメラワーク生成関数と適合度算出関数(識別関数)を構成することができるので、十分な量の訓練データが存在すれば、多様かつ高品位のカメラワークを生成することができる。
<その他の適用例>
以上、本発明を実施するための最良の形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、本実施形態は、3DCGの動画の生成、バーチャルリアリティシステム等に利用できる。本実施形態で生成された動画は広告にも適用できる。また、各種のECサイトにおいて動画を配信することで、商品やサービスを視聴者に効果的に閲覧させることができる。
また、本実施形態では一部の処理を機械学習に実現した。機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり,コンピュータが,データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、更に、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
また、以上の実施形態で示した図3などの構成例は、動画生成装置100の処理の理解を容易にするために、主な機能に応じて分割したものである。しかし、各処理単位の分割の仕方や名称によって本願発明が制限されることはない。動画生成装置100は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
100 動画生成装置
101、201、301、401 画像取得部
102、202、302、402 重要度算出部
103、203、303、403 適合度算出部
104、204、304、404 タイプ割り当て部
105、206、306、406 動画符号化部
205、305、405 カメラワーク生成部
特許第6432029号公報 特開2004-241834号公報 特許第5861499号公報 特開2018-151887号公報

Claims (12)

  1. 複数のパノラマ画像から通常画角の動画を生成する動画生成装置であって、
    複数のパノラマ画像に対して仮想カメラのカメラワークタイプの適合度を算出する適合度算出部と、
    前記適合度及び各カメラワークタイプの出現頻度に基づいて前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定するタイプ割り当て部と、
    割り当てられたカメラワークタイプで前記複数のパノラマ画像から通常画角の動画を作成する動画符号化部と、
    を備えることを特徴とする動画生成装置。
  2. 前記タイプ割り当て部は、カメラワークタイプの出現頻度を制約条件又は評価関数に組み込み、カメラワークタイプの適合度の和が最大となるように、前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定することを特徴とする請求項1に記載の動画生成装置。
  3. 前記タイプ割り当て部は、カメラワークタイプ間の距離を制約条件又は評価関数に組み込み、カメラワークタイプの適合度の和が最大となるように、前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定することを特徴とする請求項1に記載の動画生成装置。
  4. 前記パノラマ画像の各領域の重要度を算出する重要度算出部を更に備え、
    前記適合度算出部は、前記パノラマ画像における重要度の分布に応じてカメラワークタイプの適合度を算出することを特徴とする請求項1~3のいずれか1項に記載の動画生成装置。
  5. 前記パノラマ画像の各領域の重要度分布に関するパラメータ及び前記パノラマ画像を入力としてカメラワークを生成するカメラワーク生成部を更に備え、
    前記カメラワーク生成部は、前記タイプ割り当て部が割り当てた前記カメラワークタイプに応じて前記パラメータを設定することを特徴とする請求項1~3のいずれか1項に記載の動画生成装置。
  6. 前記パノラマ画像の各領域の重要度を算出する重要度算出部を更に備え、
    前記カメラワーク生成部が、前記パノラマ画像における重要度分布を、複数の分布を要素とする確率分布の混合分布とみなして、前記混合分布のパラメータに応じてカメラワークを生成することを特徴とする請求項5に記載の動画生成装置。
  7. 前記確率分布はvon Mises-Fisher分布であり、
    前記カメラワーク生成部は、要素分布の平均方向を仮想カメラの光軸方向とし、要素分布の集中度に応じて仮想カメラの画角を決定し、
    光軸方向と画角をペアとして異なるペアの光軸方向と画角の間を仮想カメラのパラメータが遷移するカメラワークを生成することを特徴とする請求項6に記載の動画生成装置。
  8. 前記カメラワーク生成部は、条件付き敵対的生成ネットワークによって実現されており、
    前記条件付き敵対的生成ネットワークにおける潜在変数をカメラワークタイプとして、
    前記パノラマ画像、及び、カメラワークタイプを前記条件付き敵対的生成ネットワークの入力として、カメラワークを生成することを特徴とする請求項5に記載の動画生成装置。
  9. 前記タイプ割り当て部は、前記潜在変数の空間における距離を制約条件又は評価関数に組み込み、
    生成されたカメラワークに対し識別関数が出力する適合度の和が最大となるように、前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定することを特徴とする請求項8に記載の動画生成装置。
  10. 複数のパノラマ画像から動画生成装置が通常画角の動画を生成する動画生成方法であって、
    適合度算出部が、複数のパノラマ画像に対して仮想カメラのカメラワークタイプの適合度を算出するステップと、
    タイプ割り当て部が、前記適合度及び各カメラワークタイプの出現頻度に基づいて前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定するステップと、
    動画符号化部が、割り当てられたカメラワークタイプで前記複数のパノラマ画像から通常画角の動画を作成するステップと、
    を備えることを特徴とする動画生成方法。
  11. 複数のパノラマ画像から通常画角の動画を生成する動画生成装置を、
    複数のパノラマ画像に対して仮想カメラのカメラワークタイプの適合度を算出する適合度算出部と、
    前記適合度及び各カメラワークタイプの出現頻度に基づいて前記複数のパノラマ画像へのカメラワークタイプの割り当てを決定するタイプ割り当て部と、
    割り当てられたカメラワークタイプで前記複数のパノラマ画像から通常画角の動画を作成する動画符号化部、
    として機能させるためのプログラム。
  12. 請求項11に記載したプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
JP2020217197A 2020-12-25 2020-12-25 動画生成装置、動画生成方法、プログラム、記憶媒体 Pending JP2022102461A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020217197A JP2022102461A (ja) 2020-12-25 2020-12-25 動画生成装置、動画生成方法、プログラム、記憶媒体
PCT/JP2021/047061 WO2022138574A1 (en) 2020-12-25 2021-12-20 Moving image generation apparatus, moving image generation method, program, and recording medium
EP21840707.0A EP4268443A1 (en) 2020-12-25 2021-12-20 Moving image generation apparatus, moving image generation method, program, and recording medium
US18/267,801 US20240048850A1 (en) 2020-12-25 2021-12-20 Moving image generation apparatus, moving image generation method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020217197A JP2022102461A (ja) 2020-12-25 2020-12-25 動画生成装置、動画生成方法、プログラム、記憶媒体

Publications (1)

Publication Number Publication Date
JP2022102461A true JP2022102461A (ja) 2022-07-07

Family

ID=79316826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020217197A Pending JP2022102461A (ja) 2020-12-25 2020-12-25 動画生成装置、動画生成方法、プログラム、記憶媒体

Country Status (4)

Country Link
US (1) US20240048850A1 (ja)
EP (1) EP4268443A1 (ja)
JP (1) JP2022102461A (ja)
WO (1) WO2022138574A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7350510B2 (ja) * 2019-05-14 2023-09-26 キヤノン株式会社 電子機器、電子機器の制御方法、プログラム、及び、記憶媒体
CN116246085B (zh) * 2023-03-07 2024-01-30 北京甲板智慧科技有限公司 用于ar望远镜的方位角生成方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57149141A (en) 1981-03-12 1982-09-14 Toyoda Mach Works Ltd Equipment for generating paraboloid of revolution
JP2004241834A (ja) 2003-02-03 2004-08-26 Sony Corp 動画像生成装置及び方法、動画像送信システム、プログラム並びに記録媒体
KR100892022B1 (ko) * 2005-08-12 2009-04-07 소니 컴퓨터 엔터테인먼트 인코포레이티드 얼굴 화상표시장치, 얼굴 화상표시방법 및 얼굴 화상표시프로그램
JP4667411B2 (ja) * 2007-03-12 2011-04-13 パナソニック株式会社 コンテンツ撮影装置
JP5861499B2 (ja) 2012-03-01 2016-02-16 大日本印刷株式会社 動画提示装置
JP5942932B2 (ja) * 2013-07-04 2016-06-29 ブラザー工業株式会社 端末装置、及びプログラム
JP6859765B2 (ja) * 2017-03-13 2021-04-14 株式会社リコー 画像処理装置、画像処理方法およびプログラム
CN109151295B (zh) * 2017-06-16 2020-04-03 杭州海康威视数字技术股份有限公司 一种目标对象抓拍方法、装置及视频监控设备
KR102464944B1 (ko) * 2018-10-19 2022-11-09 한국과학기술원 카메라 워크를 재현하는 방법 및 장치
JP7310252B2 (ja) * 2019-04-19 2023-07-19 株式会社リコー 動画生成装置、動画生成方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
EP4268443A1 (en) 2023-11-01
WO2022138574A1 (en) 2022-06-30
US20240048850A1 (en) 2024-02-08

Similar Documents

Publication Publication Date Title
Zhou et al. Stereo magnification: Learning view synthesis using multiplane images
Liu et al. Video frame synthesis using deep voxel flow
US11763510B2 (en) Avatar animation using markov decision process policies
JP4679033B2 (ja) 深度マップのメジアン値融合のためのシステムおよび方法
US10812825B2 (en) Video frame synthesis with deep learning
WO2022138574A1 (en) Moving image generation apparatus, moving image generation method, program, and recording medium
US20210049371A1 (en) Localisation, mapping and network training
US11888909B2 (en) Avatar information protection
CN109314753A (zh) 使用光流生成中间视图
CN106797456A (zh) 投影图像校正方法、校正装置及机器人
CN113610172B (zh) 神经网络模型训练方法和装置、传感数据融合方法和装置
JP7310252B2 (ja) 動画生成装置、動画生成方法、プログラム、記憶媒体
TWI813098B (zh) 用於新穎視圖合成之神經混合
US20220207646A1 (en) Image generators with conditionally-independent pixel synthesis
CN109146786A (zh) 场景图生成方法及装置、电子设备和存储介质
JP5893166B2 (ja) 3dモデル・モーフィングのための方法および装置
Aykut et al. Delay compensation for a telepresence system with 3d 360 degree vision based on deep head motion prediction and dynamic fov adaptation
JP6558365B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN112541972A (zh) 一种视点图像处理方法及相关设备
US20230104702A1 (en) Transformer-based shape models
JP7251003B2 (ja) 細かいしわを有する顔メッシュ変形
CN115512014A (zh) 训练表情驱动生成模型的方法、表情驱动方法及装置
CN115460372A (zh) 虚拟图像构建方法、装置、设备及存储介质
DE102021109501A1 (de) Durch erzeugendes gegnerisches neuronales netzwerk unterstützte videorekonstruktion
Zell et al. Volumetric video-acquisition, compression, interaction and perception

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231011