JP2010514318A - 2次元ビデオの3次元ビデオへの変換方法及びシステム - Google Patents

2次元ビデオの3次元ビデオへの変換方法及びシステム Download PDF

Info

Publication number
JP2010514318A
JP2010514318A JP2009542322A JP2009542322A JP2010514318A JP 2010514318 A JP2010514318 A JP 2010514318A JP 2009542322 A JP2009542322 A JP 2009542322A JP 2009542322 A JP2009542322 A JP 2009542322A JP 2010514318 A JP2010514318 A JP 2010514318A
Authority
JP
Japan
Prior art keywords
depth
audio
scene
classification
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009542322A
Other languages
English (en)
Other versions
JP5366824B2 (ja
Inventor
ブラゼロフィク,ゼフデト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2010514318A publication Critical patent/JP2010514318A/ja
Application granted granted Critical
Publication of JP5366824B2 publication Critical patent/JP5366824B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

ビデオシーケンスの奥行き推定方法を用いる2次元−3次元変換方法であって、前記方法は、シーンのオーディオ情報(32)の分析に基づき、前記シーンの奥行き(37)の奥行きカテゴリー化インデックスを求めるオーディオシーン分類段階(34)を有し、前記奥行きカテゴリー化インデックス(37)は、同じシーンのビデオ情報(33)に基づく奥行き推定(38)で用いられる方法であり、これにより計算負荷を低減し処理を高速化する。

Description

本発明は、ビデオシーケンスの奥行き推定方法に関する。
本発明は、奥行きの推定を含む、2次元画像の3次元画像への変換方法にも関する。
本発明は、さらにビデオシーケンスの奥行き推定システムに関する。
奥行き、すなわち視点と画像中のオブジェクトとの間の距離は、オリジナルな2次元画像を3次元画像に変換するための重要なパラメータである。2次元画像を3次元画像に変換するには、各画素に奥行き(通常、z値と呼ぶ)を与える奥行きマップを作成しなければならない。z値は絶対的な値であっても、相対的な値であってもよい。画素のデータと奥行きマップを用いて2つの画像(左画像と右画像)を生成できる。この左右の画像を組み合わせて3次元データストリームにする。3次元画像表示装置は少し違う2つの画像を生成できるように構成され、ユーザ(viewer)がこの画像を左画像及び右画像として見ると、3次元画像のように見える(give appearance and sensation)。
この左右の画像を正確に生成するには奥行きに関する知識が有用であり、必要にもなる。
画像キュー(image cues)から画像内の画素の奥行きを推定することが知られている。この画像キューは、例えばオクルージョン(occlusion)(画像の要素が他の要素の後にあること)、オブジェクト間のフォーカスの違い、オブジェクトの相対的なサイズ、前の画像との比較である。
これらの方法である程度の結果は得られるが、通常、奥行き推定に要する計算パワーは非常に大きく、データ量も膨大である。リアルタイムでの2次元から3次元への変換は、不可能ではないにしても困難である。
計算負荷を低減し奥行き推定を効率化する方法が必要とされている。
このため、本発明による方法は、シーンのオーディオ情報の分析に基づき、前記シーンの奥行きの奥行きカテゴリー化インデックスを求めるオーディオシーン分類段階を有し、前記奥行きカテゴリー化インデックスは、同じシーンのビデオ情報に基づく奥行き推定で用いられることを特徴とする。
本発明によるシステムは、シーンオーディオ情報を分析して、前記分析に基づいて前記シーンを奥行きカテゴリーに分類するオーディオ分類部を有し、前記オーディオ分類部は前記シーンの重みカテゴリー化インデックスを出力し、前記奥行きカテゴリー化インデックスは、同じシーンのビデオ情報のビデオ奥行き分析部に供給されることを特徴とする。
本発明は、オーディオシーンとカメラ(視聴)距離間に相関があるとの洞察に基づく。
オーディオ情報を用いてシーンを、エクストリーム・クローズアップ、クローズアップ、ミディアムビュー等の奥行きカテゴリーに分類できる。すなわち、シーンに奥行きカテゴリー化インデックスを与えることができる。
この奥行きカテゴリー化インデックスを、情報として、同じシーンのビデオ情報に基づく奥行き決定をするさらに別のステップで用いる。
オーディオのデータスループットは非常に低いので、ビデオではなくオーディオを分析することにより、計算による遅延が低減される。ビデオフレームより数倍短い時間フレームに基づき、リアルタイムより数十倍速く動作するオーディオ分類部は文献に記載されている。オーディオ分析により集めた情報は感知できるほどの計算負荷を課さず、リアルタイムで(ビデオのオーディオトラック全体がすでにメモリに入っていれば、さらに速く)実行できる。しかし、オーディオ分析から収集した情報は、その後のビデオ分析の計算負荷を大幅に低減する。オーディオ分類部からの情報がよいスターティングポイントとなるからである。
好ましくは、前記奥行きカテゴリー化インデックスは、シーンが1つ以上の奥行きカテゴリーに入る確率を示す、オーディオ分析したシーンの確率を含む。
なお、本発明のフレームワークにおいて、「インデックス」は、例えば、「このシーンはエクストリーム・クローズアップである」等の奥行きカテゴリーの単一の表示でもよく、より複雑なデータでもよい。好ましい実施形態では、インデックスは、シーンがある奥行きカテゴリーに属する確率を提供する。かかる表示を、ビデオ情報に基づく後続の奥行き分析に用い、確率が最も高い奥行きカテゴリーが正しいスターティングポイントであるかどうか、または次に確率が高いものを素早く、すなわち比較的高速かつ簡単なアルゴリズムで試すことができる。
確率情報により、奥行き決定に際し、より適切なスターティングポイントの機会が得られる。確率情報は、後続の奥行き分析が、オーディオ分析部からの情報により支援されずに、この情報により誤った方向に導かれる可能性を低減する。
実施形態では、前記オーディオシーン分類はディシジョンツリーに基づき、オーディオキューを前記ディシジョンツリーの形で分析する。
実施形態では、オーディオシーン分類は、各オーディオキューを用いて別々の分類を提供し、各分類に対して前記オーディオキューの重みに対応する重みを割り当てる。
最初の実施形態では、オーディオキューはセリフコンテンツに基づく。セリフとカメラ距離との間の対応が比較的高いことを見いだした。
さらに別の実施形態では、オーディオキューは音楽コンテンツに基づく。音楽のムード及び/または強さがカメラ距離に関係することを見いだした。
さらに別の実施形態では、オーディオキューは雑音に基づく。
こうした本発明の有利な態様などを以下の図面を参照して詳しく説明する。
画像の部分と2つの方向のジオメトリを示す図である。 画像の部分の画像を示す図である。 本発明による方法とシステムを示す図である。 典型的なカメラ位置を示す図である。 実験結果を示す図である。 典型的な奥行きキューの依存性を示す図である。 本方法の実施例の全体像を示す図である。 オーディオ分類(左側)と、オーディオデータ及びビデオフレームデータの時間的整合性(右側)とを示す図である。 ディシジョンツリーの例を示す図である。 カメラの向きと動きに関する例を示す図である。 図面は実際のスケール通りには描かれていない。一般的に、図面中の同一の構成要素は同じ参照数字で示されている。
3次元テレビのコンセプトは今まさに復活しようとしている。その現れとして3次元パラダイムやテクノロジーには既存のものや新規なものへの投資が増加している。従来とは異なり、現在費やされている努力は生産から消費までのチェーン(すなわち、コンテンツとディスプレイの両方)のすべての面にわたっている。映画産業はステレオ画像記録と視聴に基づく3次元シネマ体験を唱道し、企業はステレオビデオすなわち通常の2次元ビデオを自動ステレオ(コンシューマ)ディスプレイに写すのに適したフォーマットに変換するソリューションを勧めている。同時に、MPEG等のフォーラムにおいてかかるフォーマットの標準化が議論されている。こうしたことから、3次元テレビはメディアにおける次の大きな衝撃の触媒であると多くの人から見られている。
3次元テレビが市場で受け入れられるためには、2次元から3次元への(自動)変換ができることが重要な要素である。利用できるステレオ素材(stereo material)の量は限られているので、多くの視聴者にとって(DVDなどの)既存の素材を3次元で表示できなければ、3次元テレビは魅力的ではなくなる。この変換の中心的なアイデアは奥行きの推定である。奥行きとは、すなわちシーン中のどのオブジェクト(画像中の画素)が他のオブジェクトよりも視聴者(viewer)に近いかを数量化したものである。かかる変換が放送事業者により行われ、その結果の画素深度マップ(pixel depth-map)が通常のテレビ信号に載せて送信される。しかし、この変換をコンシューマ側で行えれば、3次元テレビの導入を漸進的に進めることができる。こうすれば放送事業者のインフラを変更(adaptations)する必要はない。
図1は、画像10の部分と2つの方向12a、bのジオメトリを示す図である。画像の部分とは、人物などの画像中の任意のオブジェクトである。本発明は画像の奥行きマップ(depth map)の生成方法に関する。奥行きマップはオブジェクトの点にz値、すなわち奥行き値を付与するものと見ることができる。異なる方向12a、12bからの点射影(point projection)を用いて画像部分10を含むシーンの画像を得た場合、画像中でその画像部分上の点14、15が見える位置は点14、15の射影点16a、16b、17a、17bである。射影点(projections)は、点14、15から方向点(orientations)12a、12bを通って画像平面18に直線19a−19dを引くことにより図示できる。基本原理を定立するために、方向点12a,12bは画像平面18に平行な平面内で選択したが、本発明は方向点12a,12bをこのように選択することには限定されない。これらの直線19a−19dと画像平面18とが交差する点が、画像において画像部分10の点14,15が見える位置である。
視点(12a,12b)を変更すると、画像部分上の点14,15が画像平面18内で見える位置16a,16b,17a,17bが動く。この動き(translation)は、視点と点14,15との間の奥行き「z」に反比例し、視点位置の動きの大きさに比例する。結果として、方向点(orientations)12a,12bからの奥行き「z」が異なる画像部分10の点14,15では、動き(translation)が異なる。2次元画像から奥行きマップ(z-depth map)を生成する場合、通常、オクルージョン、オブジェクトのサイズ、同様のオブジェクトの相対的なサイズ、オブジェクトのエッジのシャープネスなどのビジュアルキュー(visual cues)を利用する。しかし、その結果はあいまいなことが多い。画素サイズとしては小さい樹木でも、近くにある小さい樹木のこともあれば、遠くにある大きな樹木のこともあり、サイズはキューとはなるが誤解を生じることもある。オブジェクトに焦点が合っていれば、そのオブジェクトは遠くのものと比較して前景にあるオブジェクトである。しかし、カメラとオブジェクトの間の距離が近いか比較的遠いかどうかは区別できない。焦点が合っているかどうかは、ビジュアルキューにはなるが誤解を生じやすい。誤解を生じやすいキューの他の例は以下で挙げる。
発明者は、エクストリーム・クローズアップ、クローズアップ、ミディアムビュー、フルビュー、ロングビューなどの比較的一定のセッティング(a number of relatively fixed settings)が多く利用されることに気づいた。これらのセッティングは、程度の差はあるが、カメラとオブジェクトの間の距離が特徴的な範囲にある。
発明者は、さらに、オーディオシーン(audio scene)(すなわち、シーンに付随するサウンドトラック)とカメラ距離との間に相関があることを見いだした。
これが本発明のコアである。すなわち、オーディオシーンを用いて、カメラ距離を示すインデックスをシーンに付与する。オーディオ情報は、必要とするデータと計算パワーがビデオデータよりも非常に少なく、数桁速く分析できる。
図3は、本発明による方法とシステムの基本的セットアップを示す図である。これにより2次元から3次元への変換ができる。
入力信号I(2D)、すなわち2次元のビデオシーンは、入力部31において、オーディオシーン部32とビデオシーン部33に分岐される。オーディオシーンはオーディオ分類部34に送られる。分類部は分析部35を有する。分析部35は、オーディオシーンを分析して、セリフ(speech)があるかどうか、音楽があるかどうか、セリフや音楽の音量、雑音があるかどうかなどの特徴を求める。以下、例を説明する。この情報は内部分類部36で使われる。内部分類部36は、分析結果を用いて、オーディオシーンを分類して、インデックス37を付与する。インデックスとは、エクストリーム・クローズアップなどのシーンを示す数字や、シーンがエクストリーム・クローズアップ、クローズアップ、ミディアムビューなどである確率を示すテーブルなどである。
インデックス37は奥行き推定部38で使われる。奥行き推定部38は、一方でインデックスデータを用い、もう一方で同じビデオシーンのビジュアルキューを用いて奥行きマップを生成する。奥行きマップは画像データに付加される。奥行きマップを用いて、画像を3次元画像装置に表示できる。
本発明の有利な点は、オーディオキューとビジュアルキューを組み合わせて用いることにより、2次元から3次元への変換を高速化でき、リアルタイムで実行できることも多い。
図4は、典型的なカメラ位置であるエクストリーム・クローズアップ(エクストリームCU)、クローズアップ(CU)、ミディアムビュー、フルビュー、及びロングビューを示す図である。最重要オブジェクトとカメラとの間の典型的な距離やその範囲が各カメラセッティングに付随している。人間の目、より正確には人間の脳はほぼ瞬間的に様々なカメラセットアップを識別できるが、ビデオファイル中のビジュアルキューにより同じことをやろうとすると、膨大な計算パワーを要することが多く、その割にはあいまいな結果しか得られないことがある。2次元ビデオからの奥行きの自動推定は、本来的に発見的奥行きキューに依存するが、発見的奥行きキューは、不完全であることは避けられず、シーナリー(scenery)のタイプ(例えば、クローズアップ対ミディアムビューや室内対室外)によってうまく行くこともあれば行かないこともある。画像からビジュアルシーンを分類することは別の問題として研究されており、(多変数)パターン分析や監視下ラーニング(supervised learning)などの方法を含む多くのソリューションが提案されている。しかし、(毎秒多数の画像がある)高スループットのビデオデータが入力されるとき、これらの方法では計算による大きな遅延があり、そのため実際には2次元から3次元へのビデオ変換システムには使えない。
とすれば、異なるタイプのシーンを検出するメカニズムを設け、キューを適当に(動的に)ミックス、またはスイッチできるようにすることが非常に望ましい。
発明者はオーディオシーンとカメラセッティングとの間に相関があることを発見した。オーディオシーンはデータ量が数桁小さいので、分析と分類を数桁速くできる。オーディオでの検出により、カメラセットアップにおけるシーンの、おおざっぱかも知れないが非常に高速の分類ができる。この分類により、奥行き分析部38で用いるアルゴリズムのパラメータのスターティングポイントとして、ビジュアル分析で利用する非常に重要なキューが得られる。本発明は、ビデオ、特に映画では、(セリフ、映画音楽、環境音などの)様々な音源の同時発生や詳細からそのシーンに関して多くのことが分かる。オーディオシーンとカメラ距離(見える距離)との間には相関がある。
なお、オーディオシーンを例えばモノローグとダイアローグ、室内と屋外のシーンとして分類することが知られているが、カメラセッティングの分類や画像の2次元から3次元への変換におけるかかる分類の利用とはリンクしていない。
図5は、実験結果を示す図である。図5は、オーディオシーン構成とカメラ距離との間の相関を示し、1は「エクストリーム・クローズアップ」、2は「クローズアップ」、3は「ミディアムビュー」、4は「フルビュー」、5は「ロングビュー」である。図5は、映画「パイレーツ・オブ・カリビアン」からの任意に選択した(約7分間の)抜粋を用いた実験である。上部には、このビデオシーケンスのオーディオトラックで実行した、オーディオ分類部の結果を示した。否が応でも不完全ではあるが、これらの結果は正しい状況に近いことが分かった。図の下部には、このビデオのフレームごとにマニュアルでカメラ距離についての注釈(frame-accurate manual annotation of this video in terms of the camera distance)を示した。これらの図を比較すると、重要な点として以下のことが分かる:
1. セリフが多い区間ではほとんど常にカメラ距離は短い(クローズアップまたはエクストリーム・クローズアップ);
2. はっきりしたバックグラウンドミュージックが流れていてセリフがない(が、他の音源はある)区間では、カメラ距離は長い(ミディアムビュー、フルビュー、及びロングビュー)ことが多い。
このように、オーディオ分類部(audio classifier)により、多くの場合、カメラ距離を予測できる。
2次元から3次元への変換に伴う問題をここでもう少し詳しく説明する。
2次元ビデオから奥行きを推定するシステムの多くが、スターティングポイントとして、または唯一の手がかり(full cue)として静的な奥行きプロファイルを利用する。図6は、かかる奥行きプロファイルのビジュアルシーンのタイプへの依存性を示す図である。奥行きマップでは、暗い方が(視聴者からの)距離が遠いことを意味している。
このキューが、地面と水平線とがはっきり分かれているミディアムビューショット(屋外など)に適しているが、1つのオブジェクトが画像の高さ方向の大部分または全体に及ぶクローズアップとエクストリーム・クローズアップには確かに適していないことを、図6は明らかに示している。
シーンのタイプによりコンピュータベースの奥行き推定の方向と性能が決まる他の例としては次のものがある:
− 動きのあるシーン オブジェクトの動きやそのシーンを録画するカメラの動きを、場合によっては同時に含む。動きがあるか無いか、及び動きの複雑さのレベルが重要なパラメータとなる。動きの流れを正確に推定すれば、シーンのオクルージョン(occlusion)(及び奥行き)を推測できるからである。
− 複雑なシーン 複数のオブジェクトと(テクスチャー化された)背景とを含む。視覚的な不均一性レベルにより、適切にオブジェクト・境界のセグメンテーションを実行できるかが決まり得る。このオブジェクト・境界セグメンテーションを用いて奥行きの(不)連続性を推測できる。
コンピュータが生成する奥行きキュー(visual depth cues)性能に対するビジュアルシーナリー(visual scenery)の多様性の抑制効果を回避するため、特徴的タイプのシーナリーを区別して、奥行きキューの計算、ミックス、及び場合によっては後処理を適宜調整することを提案する。
本発明の特徴と実施形態は次の通りである:
1. ビデオ中の多くのシーナリーは生来的にオーディオにより動かされて(driven)おり、これはテレビや映画の制作の物語のコンテンツ(narrative content coming from professional TV and movie production)に最も当てはまる。
2. 本発明の中心的なアイデアは、2次元−3次元ビデオ変換装置(2D-to-3D video conversion scheme)がオーディオ分類部の出力にアクセスさせ、変換するビデオのオーディオトラックを入力とすることである。オーディオ分類部は、奥行きカテゴリー化インデックス(visual depth categorization index)を出力する。この奥行きカテゴリー化インデックスは、各オーディオフレームに、セリフ、音楽、静寂、雑音、環境音などのオーディオクラスの1つまたは1セットを割り当てる確率を含む。ビデオの一区間においてこの確率を分析することにより、シーンタイプに関する手がかりが得られる。例えば:
− セリフが多いということは、会話をしている確率が高く、よってクローズアップショットであることを示す。
− (場合によってはセリフと併せて)バックグラウンドミュージックや環境音が多いということは、動きが多い確率が高く、よって複雑な(動きのある)シーンであることを示す。
より高度な決定ストラテジーも実現可能であり、その一部は後で説明する。
さらに、オーディオセグメントが1つの(支配的な)オーディオクラスに属することが分かれば、さらにそのクラス特有の分析にかけてもよい。例えば、
− 話者(変化)トラッキング セリフのセグメントが異なる話者に属することが分かると、会話であり、よってクローズアップショットである可能性(likelihood)が高まる。
− 音楽テンポ分析 一般的に、激しいアクションに併せてダイナミックな映画音楽が利用されており、よって(複雑な)動きのあるシーンを示している。
− 音楽ムード分析 多くの場合、サスペンスに併せて「ドラマチックな」映画音楽が利用され、通常、クローズアップとミディアムビューが入れ替わるように撮影されている。
− 人混み、拍手、発砲、爆発などの「雑音」や「環境音」などである副分類によっても、動作や環境(室内、屋外など)に関する有用なキューが得られる。
オーディオのデータスループットは非常に低いので、ビデオではなくオーディオを分析することにより、計算による遅延が低減される。
オーディオ情報から得られる決定(シーン分類インデックス)は、このような速さで得られるので、画像分析から得られる決定を捕捉し、信頼性を高める。
図7は、本方法の実施例の全体像を示す図である。処理ステップは以下でより詳しく説明する。なお、少なくとも点線で示した構成要素は基本提案に対して任意的である。
− データバッファ部 これは、シーン分類をビデオの長い区間(例えば、(検出したカメラショットの境界などである)キーフレームのペア間に含まれる複数のフレーム)に適用できる、リアルタイムでない2次元−3次元ビデオ変換で特に有用である。
− オーディオ分類部 各オーディオフレームに対して、そのフレームに、セリフ、音楽、静寂、雑音、環境音などの所定のクラスセット(set of classes)のうちの各クラスを割り当てる確率を割り当てる。文献では、高速かつ高信頼性のオーディオ分類を実行できる様々なアルゴリズムが報告されており、様々なオーディオクラスの確率が非累積的に、すなわち互いに独立に計算されている。図8は、既存の分類器の出力を示す図である。
− 閾値 オーディオフレームが単一の音源(オーディオクラス)からのものであると決定する方法として、支配的(最大)またはその他の非ゼロの確率に適用する。
− 2次オーディオ分析 オーディオクラスに特有な処理を言う。例えば、
− 話者(変化)トラッキング:一般的に話者認識は別の問題であるが、話者が誰であるかは気にせずに話者の変化のみを認識することができる。
− 音楽テンポ分析:これはシステムの拡張によりカバーされ、音楽のムード、ビート、調性等に関するより高度な分析も含む。
− 環境音の人混み、銃声、爆発等への分類。
− オーディオベース・ビジュアルシーン分類 ビデオタイムフレームをそれが表すシーナリータイプに応じて分類するための、オーディオクラス確率の分析と、場合によっては2次オーディオ分析から得られるその他の情報とを言う。この分析は、後で説明するように、簡単なルールベースの論理またはより高度な処理を意味する(connote)。
− 時間的整合 オーディオから求めた分類をビデオのレートと整合させる。これは、各ビデオフレームとオーディオフレームのタイムスタンプを考慮して、オーディオフレームベースのデータを補間して平均することにより行う。これも図8に示した。
− 制御論理 検出したシーンタイプに応じて、奥行きインデックスを切り替える、またはその計算(例えば、初期化やパラメータ設定)や重みを調節するルールを意味する。
− 奥行き推定 任意の奥行きインデックスから画像の奥行きマップを生成することをいう。通常この生成は、すべてのキューから求めた奥行きマップを、それぞれに所定の重みをつけて合計することにより行う。
図8は、オーディオ分類(左側)と、オーディオデータ及びビデオフレームデータの時間的整合(右側)とを示す図である。ここでは、整合は、連続する2つのビデオフレームのそれぞれの間で(レートが高い)オーディオフレームデータを平均することにより行う。特徴ベクトルは、実際にはシーン分類の結果を表すスカラー「シーンラベルインデックス」であってもよいことに留意する。
奥行きカテゴリー化インデックスを提供するオーディオキューの利用方法はいくつかある。オーディオキューの簡単な利用方法は、ディシジョンツリーによりルールベース論理を用いることである。ディシジョンツリーは、一連の質問によりパターンを分類するものであり、次の質問は現在の質問に対する回答に依存する。図9に例を示す。オーディオ分類、話者変化トラッキング、及び音楽テンポ分析の意味と実施はすでに説明した。セリフのレートとムードの数量化は韻律学の標準的な分析の一面であり、ピッチ、長さ、大きさ、音質などの口語の「超分節的(suprasegmental)」側面をいう。このような認知分析は音楽ではもっと困難である。しかし、様々な研究が報告されており、音信号から抽出した強さ、音質、リズムに関係する特徴を用いた信号処理やパターン分類(例えば、ニューラルネットワーク)が探求されている。カメラ距離に関する分類は、5通りの距離が定義されている場合、エクストリーム・クローズアップ(extreme close-up)、クローズアップ(close-up)、ミディアムビュー(medium-view)、フルビュー(full-view)、及びロングビュー(long-view)によることに留意する。また、一部のブランチでは分類があいまいに終わるが、追加的な(画像ベースの)分析により明らかになる。
有用な実施形態では、少なくとも部分的にはキャラクター情報(character information)に基づき決定が為される。キャラクター情報は、例えば監督名や俳優の名前である。監督によっては独特のスタイルがある。一部の監督はクローズアップをその他より多く用いる。同様に、一部の俳優(通常は主役)はクローズアップで撮られることが非常に多いが、他の俳優はクローズアップで撮られることがずっと少ない。この情報は入手可能であり、これを用いてより正確な予測をすることが可能である。
本発明を実施する他の好適な方法として、ベイズ推定がある。ベイズ推定は、自然の状態(例えば、ビジュアルシーンのタイプ)の事後確率と、その状態の事前確率と、自然の特徴の測定(例えば、オーディオ分類)との間を相互結合する基本ルールである。式(1)はこのルールを示し、その下に、表記例によりさらに別の分類を示した。各ベイズ信念ネット(Bayesian belief net)はノードとその状態よりなる。ノード間のリンクは、エビデンスに基づく直接的因果的影響(direct causal influence)を表す。例えば、ノードBは状態{b1,b2,...}を有し、これを集合的にbで示す。P(b)は事前確率{P(b1),P(b2),...}を示し、P(c|b)はbが生起した時のcの条件付き確率(尤度)を示す。式(1)ではすべての事前確率と尤度を用いて、事後確率を求める。この事後確率を用いてディシジョンルールを生成する。
Figure 2010514318
ベイズ分類部では、(クラス条件付き)確率の推定が決定的な役割を果たす。ある場合には、様々な確率に対して標準分布(例えばガウシアン)をとれば十分である。別の場合には、(例えばオフラインで)トレーニングサンプルからこれらの分布を推定すればよい。
制御論理は、検出したシーンクラス情報に応じた、様々な奥行きキューの切り替え(重み付け)、またはその計算の適用(初期化、パラメータ設定など)及び場合によっては後処理のルールを意味する。かかるルールは複数考えられ、経験的エビデンスに応じて、多かれ少なかれ控えめにすることができる。シーンの(例えばカメラ距離に関する)ある特徴は一部の奥行きキューにとって決定的であるかも知れないが、他の奥行きキューにとってはより「中立的」である。様々なオプションの評価は、次のセクションで説明するように、現在進行中の研究の主題である。ここでは、主要なアイデアを例示する、もっともらしい構成を示す。
シーン分類に基づき奥行き推定を制御する論理の擬似コードを示す。この擬似コードは、求めた分類により、いかに一般的な奥行きキューの選択と展開、すなわち奥行き推定ストラテジーを決定するか示している。かかる奥行きキューの実装は可変であり、文献で報告されている複数のアルゴリズムのどのアルゴリズムであってもよい。
Figure 2010514318
なお、「奥行きカテゴリー化インデックス」は、奥行きを示す簡単なインデックスであるが、より詳細に説明する。
視聴距離(viewing distance)とは別に、映画制作者は他の多数の形式的な規定や約束を用いる。図10は、カメラの向きと動きに関する例を示す図である。例えば、オブジェクトの「トラッキング(tracking)」(図10参照)に多くの会話(セリフ)が伴うことはあまりない。同時に、動き(ここでは、オブジェクトが動いているだけではなく、背景が変化していることも含む)や視覚的不均質性(visual heterogeneity)に関する仮定を用いて奥行きを推定するアルゴリズムに大きく影響する。このように、オーディオシーンを用いて、カメラの位置決め(視聴距離、奥行き)及びシーン中の動きに関して、映画のシンタックス要素に関する奥行きカテゴリーを生成する。ビジュアルカテゴリー化インデックスは、奥行きと動き、及び/または視覚的不均質性(movement and/or visual heterogeneity)の少なくとも2つの成分を有する。動きは、速さを含み、音声と動きの速さとの間には相関があることが多い。大きく速い音楽やセリフは速い動き、またはカメラ一の速い変化を示す。一方、イージーリスニングミュージックは、比較的遅い動きに伴う。
好ましい実施形態では、ファジー論理を用いてオーディオキューから奥行きカテゴリー化インデックスを抽出する。
本発明は、コンピュータで実行されると、本発明による方法を実行するプログラムコード手段を有するコンピュータプログラムで実施してもよいし、本発明による方法を実行するコンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するコンピュータプログラムプロダクトで実施してもよい。コンピュータプログラムプロダクトは、例えばゲームコンソールのグラフィックプロセッサを含む。
明らかに、本発明のフレームワーク内で、多くの変形が可能である。当業者には言うまでもなく、本発明は、上で図示して説明したものに限定されない。本発明は、全ての新規な特徴のそれぞれ、及びその組み合わせにある。請求項中の参照数字は保護範囲を限定するものではない。「有する」という動詞を用いたが、請求項に記載された要素以外の要素の存在を排除するものではない。要素に付された「1つの」、「一」という用語を使用したが、その要素が複数あることを排除するものではない。
本発明を特定の実施形態に関して説明した。これらの実施形態は、本発明を例示するものであり、限定するものと解してはならない。本発明は、方法及び装置で、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで実施することができる。他の実施形態も請求項の範囲に入る。

Claims (18)

  1. ビデオシーケンスの奥行きの推定方法であって、
    前記方法は、シーンのオーディオ情報の分析に基づき、前記シーンの奥行きの奥行きカテゴリー化インデックスを求めるオーディオシーン分類段階を有し、
    前記奥行きカテゴリー化インデックスは、同じシーンのビデオ情報に基づく奥行き推定で用いられる方法。
  2. 前記奥行きカテゴリー化インデックスは、シーンが1つ以上の奥行きカテゴリーに入る確率を示す、オーディオ分析したシーンの確率を含む、請求項1に記載の方法。
  3. 前記奥行きインデックスは、カメラ配置(視聴距離)と動き、及び/または視覚的不均質性に関する映画のシンタックスと約束に関するデータを含む、請求項1に記載の方法。
  4. 前記オーディオシーン分類はディシジョンツリーに基づき、オーディオキューを前記ディシジョンツリーの形で分析する、請求項1ないし3いずれか一項に記載の方法。
  5. オーディオシーン分類は、各オーディオキューを用いて別々の分類を提供し、各分類に対して前記オーディオキューの重みに対応する重みを割り当てる、請求項1ないし4いずれか一項に記載の方法。
  6. ファジー論理(クラスタリング)を用いてオーディオ及びビデオシーン分類間の相関を求める、請求項1ないし5いずれか一項に記載の方法。
  7. セリフコンテンツがキューである、請求項1ないし6いずれか一項に記載の方法。
  8. 音楽コンテンツがキューである、請求項1ないし7いずれか一項に記載の方法。
  9. 前記ビジュアルシーンから記録された、または映画の制作後に生成された非セリフまたは非音楽の音声の結合はキューである、請求項1ないし8いずれか一項に記載の方法。
  10. 2次元ビデオの3次元ビデオへの変換方法であって、
    請求項1ないし9いずれか一項記載の奥行き推定方法を用いる方法。
  11. コンピュータで実行された時、請求項1ないし10いずれか一項に記載の方法を実行するプログラムコード手段を有するコンピュータプログラム。
  12. コンピュータで実行された時、請求項1ないし10いずれか一項に記載の方法を実行する、コンピュータ読み取り可能媒体に記憶されたプログラムコード手段を有するコンピュータプログラム。
  13. ビデオシーケンスの奥行きの推定システムであって、
    前記システムは、シーンオーディオ情報を分析して、前記分析に基づいて前記シーンを奥行きカテゴリーに分類するオーディオ分類部を有し、前記オーディオ分類部は前記シーンの重みカテゴリー化インデックスを出力し、
    前記奥行きカテゴリー化インデックスは、同じシーンのビデオ情報のビデオ奥行き分析部に供給されるシステム。
  14. 前記奥行きカテゴリー化インデックスは、シーンが1つ以上の奥行きカテゴリーに入る確率を含む、請求項13に記載のシステム。
  15. 前記分類部はディシジョンツリーに基づき分類するように構成された、請求項13または14に記載のシステム。
  16. 前記分類部は、各オーディオキューを用いて別々の分類を提供し、各分類に対して前記オーディオキューの重みに対応する重みを割り当てる方法に基づき分類するように構成された、請求項13ないし15いずれか一項に記載のシステム。
  17. 前記分類部は、ファジー論理(クラスタリング)に基づき分類するように構成された、請求項13に記載のシステム。
  18. 前記システムは2次元画像データを3次元画像データに変換する、請求項13に記載のシステム。

JP2009542322A 2006-12-19 2007-12-14 2次元ビデオの3次元ビデオへの変換方法及びシステム Expired - Fee Related JP5366824B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06126515 2006-12-19
EP06126515.3 2006-12-19
PCT/IB2007/055123 WO2008075276A1 (en) 2006-12-19 2007-12-14 Method and system to convert 2d video into 3d video

Publications (2)

Publication Number Publication Date
JP2010514318A true JP2010514318A (ja) 2010-04-30
JP5366824B2 JP5366824B2 (ja) 2013-12-11

Family

ID=39125216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009542322A Expired - Fee Related JP5366824B2 (ja) 2006-12-19 2007-12-14 2次元ビデオの3次元ビデオへの変換方法及びシステム

Country Status (7)

Country Link
US (1) US8493448B2 (ja)
EP (1) EP2092760A1 (ja)
JP (1) JP5366824B2 (ja)
KR (1) KR20090092839A (ja)
CN (1) CN101563935B (ja)
RU (1) RU2454025C2 (ja)
WO (1) WO2008075276A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012157887A2 (en) * 2011-05-19 2012-11-22 Samsung Electronics Co., Ltd. Apparatus and method for providing 3d content

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US8897596B1 (en) 2001-05-04 2014-11-25 Legend3D, Inc. System and method for rapid image sequence depth enhancement with translucent elements
BRPI0721462A2 (pt) * 2007-03-23 2013-01-08 Thomson Licensing sistema e mÉtodo para classificaÇço de regiço de imagens em 2d para conversço de 2d para 3d
US8923602B2 (en) * 2008-07-22 2014-12-30 Comau, Inc. Automated guidance and recognition system and method of the same
KR101310213B1 (ko) 2009-01-28 2013-09-24 한국전자통신연구원 깊이 영상의 품질 개선 방법 및 장치
US20120128589A1 (en) * 2009-07-31 2012-05-24 Koninklijke Philips Electronics N.V. Perfluoro Compounds For Use In Imaging
US20110025830A1 (en) 2009-07-31 2011-02-03 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating stereoscopic content via depth map creation
WO2011014419A1 (en) 2009-07-31 2011-02-03 3Dmedia Corporation Methods, systems, and computer-readable storage media for creating three-dimensional (3d) images of a scene
US9380292B2 (en) 2009-07-31 2016-06-28 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating three-dimensional (3D) images of a scene
EP2520096A4 (en) * 2009-12-29 2013-10-09 Shenzhen Tcl New Technology PERSONALIZING A 3D TV VIEW
US8520935B2 (en) 2010-02-04 2013-08-27 Sony Corporation 2D to 3D image conversion based on image content
US20110222757A1 (en) 2010-03-10 2011-09-15 Gbo 3D Technology Pte. Ltd. Systems and methods for 2D image and spatial data capture for 3D stereo imaging
US8421847B2 (en) * 2010-05-21 2013-04-16 Mediatek Inc. Apparatus and method for converting two-dimensional video frames to stereoscopic video frames
US9344701B2 (en) 2010-07-23 2016-05-17 3Dmedia Corporation Methods, systems, and computer-readable storage media for identifying a rough depth map in a scene and for determining a stereo-base distance for three-dimensional (3D) content creation
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
CN102385894A (zh) * 2010-08-30 2012-03-21 承景科技股份有限公司 音视频处理装置、音视频处理方法及其可读取记录介质
CN101938669B (zh) * 2010-09-13 2012-01-11 福州瑞芯微电子有限公司 一种2d转3d的自适应视频转换系统
WO2012061549A2 (en) * 2010-11-03 2012-05-10 3Dmedia Corporation Methods, systems, and computer program products for creating three-dimensional video sequences
US9230315B2 (en) 2010-12-08 2016-01-05 Thomson Licensing Complexity estimation of a 2D/3D conversion
EP2656315B1 (en) * 2010-12-22 2016-10-05 Legend3D, Inc. System and method for minimal iteration workflow for image sequence depth enhancement
US8274552B2 (en) 2010-12-27 2012-09-25 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
US10200671B2 (en) 2010-12-27 2019-02-05 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
TWI469088B (zh) 2010-12-31 2015-01-11 Ind Tech Res Inst 前景深度地圖產生模組及其方法
US8861836B2 (en) 2011-01-14 2014-10-14 Sony Corporation Methods and systems for 2D to 3D conversion from a portrait image
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
WO2012145176A1 (en) 2011-04-18 2012-10-26 Dolby Laboratories Licensing Corporation Method and system for upmixing audio to generate 3d audio
CN102427539B (zh) * 2011-08-26 2014-08-27 庞志勇 视频图像2d转3d的方法
CN102982804B (zh) 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
CA2855190C (en) 2011-10-05 2017-02-07 Bitanimate, Inc. Resolution enhanced 3d video rendering systems and methods
KR101861590B1 (ko) * 2011-10-26 2018-05-29 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
US9414048B2 (en) 2011-12-09 2016-08-09 Microsoft Technology Licensing, Llc Automatic 2D-to-stereoscopic video conversion
US8897542B2 (en) * 2011-12-15 2014-11-25 Sony Corporation Depth map generation based on soft classification
RU2517727C2 (ru) * 2012-07-11 2014-05-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ расчета движения с коррекцией окклюзий
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
CN105531997B (zh) * 2013-04-09 2018-07-13 贝塔尼美特股份有限公司 二维视频到三维视频的转化方法和系统
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
CN103686139B (zh) 2013-12-20 2016-04-06 华为技术有限公司 帧图像转换方法、帧视频转换方法及装置
US9591290B2 (en) * 2014-06-10 2017-03-07 Bitanimate, Inc. Stereoscopic video generation
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
US11030779B2 (en) * 2016-05-24 2021-06-08 Koninklijke Philips N.V. Depth-enhanced tomosynthesis reconstruction
CN107563257B (zh) * 2016-07-01 2021-06-15 北京旷视科技有限公司 视频理解方法及装置
GB2569979B (en) * 2018-01-05 2021-05-19 Sony Interactive Entertainment Inc Rendering a mixed reality scene using a combination of multiple reference viewing points
CN108615532B (zh) * 2018-05-03 2021-12-07 张晓雷 一种应用于声场景的分类方法及装置
CN113497953A (zh) * 2020-04-07 2021-10-12 北京达佳互联信息技术有限公司 音乐的场景识别方法、装置、服务器及存储介质
US11475668B2 (en) 2020-10-09 2022-10-18 Bank Of America Corporation System and method for automatic video categorization

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08149513A (ja) * 1994-09-22 1996-06-07 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する方法
JPH11239364A (ja) * 1996-08-07 1999-08-31 Sanyo Electric Co Ltd 立体感調整方法及び立体感調整装置
JPH11289555A (ja) * 1998-04-02 1999-10-19 Toshiba Corp 立体映像表示装置
JP2000261828A (ja) * 1999-03-04 2000-09-22 Toshiba Corp 立体映像生成方法
JP2003044880A (ja) * 2001-07-31 2003-02-14 Canon Inc 立体画像形成装置、立体画像形成方法、プログラム、及び記憶媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
KR100414629B1 (ko) * 1995-03-29 2004-05-03 산요덴키가부시키가이샤 3차원표시화상생성방법,깊이정보를이용한화상처리방법,깊이정보생성방법
BR9502258A (pt) * 1995-06-21 1997-08-05 De Sousa Mauricio Araujo Método para captação e edição de imagens para obtenção de efeito de profundidade virtual
US5828809A (en) 1996-10-01 1998-10-27 Matsushita Electric Industrial Co., Ltd. Method and apparatus for extracting indexing information from digital video data
JP2000507071A (ja) * 1996-12-19 2000-06-06 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オートステレオグラムを表示する方法及び装置
US5840032A (en) 1997-05-07 1998-11-24 General Electric Company Method and apparatus for three-dimensional ultrasound imaging using transducer array having uniform elevation beamwidth
WO1999030280A1 (en) * 1997-12-05 1999-06-17 Dynamic Digital Depth Research Pty. Ltd. Improved image conversion and encoding techniques
US6266053B1 (en) * 1998-04-03 2001-07-24 Synapix, Inc. Time inheritance scene graph for representation of media content
AUPP603798A0 (en) * 1998-09-18 1998-10-15 Canon Kabushiki Kaisha Automated image interpretation and retrieval system
EP1128679A1 (en) * 2000-02-21 2001-08-29 Soft4D Co., Ltd. Method and apparatus for generating stereoscopic image using MPEG data
RU2237284C2 (ru) * 2001-11-27 2004-09-27 Самсунг Электроникс Ко., Лтд. Способ генерирования структуры узлов, предназначенных для представления трехмерных объектов с использованием изображений с глубиной
US20030103136A1 (en) * 2001-12-05 2003-06-05 Koninklijke Philips Electronics N.V. Method and system for 2D/3D illusion generation
KR100977193B1 (ko) * 2002-04-25 2010-08-20 샤프 가부시키가이샤 화상 데이터 생성 장치, 화상 데이터 재생 장치, 및 화상데이터 기록 매체
AU2003257611A1 (en) * 2002-08-20 2004-03-11 Kazunari Era Method and device for creating 3-dimensional view image
US20040246199A1 (en) * 2003-02-21 2004-12-09 Artoun Ramian Three-dimensional viewing apparatus and method
US20080193016A1 (en) 2004-02-06 2008-08-14 Agency For Science, Technology And Research Automatic Video Event Detection and Indexing
US7262767B2 (en) * 2004-09-21 2007-08-28 Victor Company Of Japan, Limited Pseudo 3D image creation device, pseudo 3D image creation method, and pseudo 3D image display system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08149513A (ja) * 1994-09-22 1996-06-07 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する方法
JPH11239364A (ja) * 1996-08-07 1999-08-31 Sanyo Electric Co Ltd 立体感調整方法及び立体感調整装置
JPH11289555A (ja) * 1998-04-02 1999-10-19 Toshiba Corp 立体映像表示装置
JP2000261828A (ja) * 1999-03-04 2000-09-22 Toshiba Corp 立体映像生成方法
JP2003044880A (ja) * 2001-07-31 2003-02-14 Canon Inc 立体画像形成装置、立体画像形成方法、プログラム、及び記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012157887A2 (en) * 2011-05-19 2012-11-22 Samsung Electronics Co., Ltd. Apparatus and method for providing 3d content
WO2012157887A3 (en) * 2011-05-19 2013-03-21 Samsung Electronics Co., Ltd. Apparatus and method for providing 3d content

Also Published As

Publication number Publication date
RU2009127757A (ru) 2011-01-27
KR20090092839A (ko) 2009-09-01
JP5366824B2 (ja) 2013-12-11
CN101563935A (zh) 2009-10-21
EP2092760A1 (en) 2009-08-26
CN101563935B (zh) 2011-12-28
RU2454025C2 (ru) 2012-06-20
US8493448B2 (en) 2013-07-23
WO2008075276A1 (en) 2008-06-26
US20100026784A1 (en) 2010-02-04

Similar Documents

Publication Publication Date Title
JP5366824B2 (ja) 2次元ビデオの3次元ビデオへの変換方法及びシステム
Matern et al. Exploiting visual artifacts to expose deepfakes and face manipulations
Chen et al. What comprises a good talking-head video generation?: A survey and benchmark
EP2246807A1 (en) Information processing apparatus and method, and program
CN105959723B (zh) 一种基于机器视觉和语音信号处理相结合的假唱检测方法
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
KR102573933B1 (ko) 기계 학습 기반의 실감 미디어 저작 방법 및 장치
Lei et al. A novel key-frame extraction approach for both video summary and video index
Mademlis et al. Multimodal stereoscopic movie summarization conforming to narrative characteristics
Rachavarapu et al. Localize to binauralize: Audio spatialization from visual sound source localization
KR101820456B1 (ko) 깊이 맵 생성 방법 및 장치
US20180082716A1 (en) Auto-directing media construction
Xian et al. A content-oriented no-reference perceptual video quality assessment method for computer graphics animation videos
CN116261009A (zh) 智能转化影视受众的视频检测方法、装置、设备及介质
KR102429379B1 (ko) 배경 분류 방법, 배경 분류 장치, 및 이를 포함하는 몰입형 오디오-비디오 데이터 생성 방법 및 장치
CN115512104A (zh) 一种数据处理方法及相关设备
EP1443453B1 (en) Method for picture improvement
Lin et al. Enhanced multi-view dancing videos synchronisation
Fearghail et al. Use of saliency estimation in cinematic vr post-production to assist viewer guidance
Wu et al. Image Aesthetics Assessment for Virtual Cinematography of Cloud-based Performing Arts Scenes
Stoll et al. Modeling of an Automatic Vision Mixer With Human Characteristics for Multi-Camera Theater Recordings
JP4634842B2 (ja) 風景推定装置
CN116527956B (zh) 基于目标事件触发的虚拟对象直播方法、装置及系统
LAUFER Video Retargeting using Vision Transformers
Costa et al. Deep Learning Approach for Seamless Navigation in Multi-View Streaming Applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101213

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121011

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130910

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees