JP2018506198A

JP2018506198A - オブジェクト検出に基づき外挿画像を生成する方法及び装置

Info

Publication number: JP2018506198A
Application number: JP2017531507A
Authority: JP
Inventors: アーバン，ファブリス; ギヨテル，フィリップ; ターバン，ロラ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2014-12-22
Filing date: 2015-12-18
Publication date: 2018-03-01
Anticipated expiration: 2035-12-18
Also published as: EP3238213B1; CN107111866A; JP6672305B2; US20180012333A1; WO2016102365A1; JP2020115351A; KR20170098232A; US10672104B2; EP3238213A1; CN107111866B

Abstract

既存のフィルム又はビデオコンテンツから、見る者の没入感を高めるようその既存のフィルム又はビデオコンテンツの境界を越えて表示され得る外挿画像を生成する方法及び装置が、提供される。本原理は、顕著なオブジェクト、すなわち、メインの画像から見る者の注意をそらし得るオブジェクトを含まないように外挿画像を生成することを提供する。そのような外挿画像は、顕著なエリアを特定し、その場所に含まれる顕著なオブジェクトがより少ないように外挿画像を生成することによって、生成される。代替的に、顕著なオブジェクトは、外挿画像において検出され、除去され得る。加えて、選択された顕著なオブジェクトは、外挿画像に加えられ得る。

Description

本発明は、画像を処理する装置及び方法に関係があり、特に、既存のフィルム又はビデオの境界を越えて延在する、その既存のフィルム又はビデオにおけるオブジェクトの検出に基づく外挿画像を生成する装置及び方法に関係がある。

本項目は、以下で記載及び／又は請求される本発明の様々な態様に関連し得る様々な側面を読者に紹介することを目的とする。この説明は、本発明の様々な態様のより良い理解を助けるよう読者に背景情報を提供するのに有用であると信じられる。然るに、それらの記述は、この観点から読まれるべきであり、先行技術の承認としてではない。

画像外挿技術は、フィルム又はビデオコンテンツを見ているときに見る者の没入感（immersiveness）を高めるよう、既存のフィルム又はビデオ画像の境界を越えて画像を生成するために使用され得る。画像外挿は、拡張されるべき画像内のコンテンツに基づき実施され得る。そのような拡張は、フィルム又はビデオのメイン画像とともに拡張画像により観客を囲むようスクリーンの周りにコンテンツを投影することによって視界を広げようとする。そのような外挿画像を表示する配置の一例は、図１に示される。フィルム又はビデオコンテンツからのメイン画像は、メインスクリーン１１０に表示され、一方、外挿画像は、没入感の印象を提供するよう表示エリア１２０、１３０及び／又は１４０でメインスクリーン１１０を越えて表示される。

画像は、図２及び３に示されるものを含め、種々の配置を用いて、様々な表示エリア上に投影され得る。図２では、単一の投影２５０がメインスクリーン１１０に表示され、投影２５０の部分が、スクリーン２２０、２３０及び／又は２４０に表示される。図３では、配置３１０は、中央の表示スクリーン上にフィルム又はビデオコンテンツを投影する中央投影を含み、一方、３２０は、左の表示スクリーン上に外挿画像を投影する左投影を含み、そして、３３０は、右の表示スクリーン上に外挿画像を投影する右投影を含む。図示されていないが、投影は、上の表示スクリーンのためにも設けられ得る。

境界又はフィルム若しくはビデオの周りに特定の表示若しくは画像を投影する様々なシステムが提案されている。

フィリップス・コーポレイションによって開発されたAmbilightシステム（特許文献１）では、画像内の色の分布が調べられ（特許文献２）、選択された主色が、ＴＶの端に取り付けられたＲＧＢＬＥＤを用いてスクリーンの周りに投影される。スマート・ライト・バルブが装備に加えられてよく、スクリーン上で表示される画像に応じて色を変化させることができる。光投影は、限られた領域内でＴＶの周囲で行われ、背景の詳細も、形状も、モーション・インプレッションも提供しない。

Mills et al.によって提案されるシステム（非特許文献１）は、２つのカメラにより捕捉されるコンテンツのための投影システムを有する。しかし、このシステムは、コンテンツ生成に焦点を当てておらず、画像外挿を既存のコンテンツに適用しない。

MIT Media Labによって開発されたInfinity-by-nine（非特許文献２）は、ＴＶのための没入型表示を生成することを狙う。システムは、ＴＶ画面に表示されるプログラムを強化するために３つのプロジェクタ及び３つのスクリーン（天井及び部屋の両側にある。）を使用する。追加のスクリーン上のコンテンツは、ＴＶコンテンツからリアルタイムで計算される。コンテンツは、場面変化時に生成され、推定されるカメラの動きから更新される。この技術は動き推定に依存するので、高速に変化する場面、フラッシュを伴う場面、又は大きい動きを伴う画面にはそれほどうまく働くことができない。

マイクロソフトによって提案されるIllumiRoom（非特許文献３）は、テレビジョン・ディスプレイの周りに画像を投影することによってＴＶコンテンツを強化するためにKinectセンサ及びプロジェクタを使用する。それは、ゲーム内で起こることがプレイヤーの部屋でも起こるという錯覚を与えるよう没入型ゲームのために主に開発された。システムは、テレビジョン・ディスプレイを囲む家具及び壁の上に直接に画像を投影して、スクリーン上でメイン画像を越えて起こるイベントを伝える。しかし、このシステムは、画像外挿によるコンテンツ生成、すなわち、画像のコンテンツに基づく外挿、に対処しない。コンテンツは、主に、ゲーム・レンダラによってコンピュータ処理される。

Ultrawide Foveated Video Extrapolation（非特許文献４）技術は、中央の画像の周りにビデオコンテンツを外挿する。このアルゴリズムの重要な考えは、その境界の外にビデオを外挿するために空間及び時間の次元において（画像ブロックの代わりに、ビデオキューブを用いる。）パッチマッチ（Patch-Match）アルゴリズムを使用することである。右パッチを選択するとき、それらはまた、注意をそらさせる可能性が高いパッチ（すなわち、ビデオの外に多くのエッジを加えるパッチ）をペナライズ（penalize）する。使用されるパッチはまた、同じパッチの不自然な繰り返しを回避するよう、同様のコストを有する少数のパッチの中からランダムに選択される。計算を制限するよう、適合するパッチの検索は、満たされているピクセルに近い、当初の入力ビデオにおける特定のエリアに制限され、そして、検索エリアは、必要に応じて広げられる。このアルゴリズムは、１つのフレームを外挿するのに数分を要し、そのようなものとして、リアルタイムで実施するのが困難であり得る。アルゴリズムは、粗解像度（coarse resolution）で外挿を開始し、更なるステップで解像度を精緻化するマルチスケールアプローチを使用する。この技術は、滑らかな外挿を確かにするが、極めて計算集約的である。その上、エッジエリアのペナライゼーション（penalization）は、エッジが注意をそらさせるか否かを判定するために人間の視覚体系を考慮しない。外挿されたビデオは、いくらかの関連する構造がないことがある。

国際公開第２００４／００６５７０（Ａ１）号国際公開第２００６／００３６００（Ａ１）号

P. Mills, A. Sheikh, G. Thomas, and P. Debenham. BBC research & development, white paper WHP 208 − surround video. page 34. 2011. D. E. Novy. Computational immersive display. 2013. Jones, Brett R; Benko, Hrvoje; Ofek, Eyal; Wilson, Andrew D (2013). "IllumiRoom: Peripheral Projected Illusions for Interactive Experiences". 2013. A. Aides, T. Avraham, and Y. Schechner. Multiscale ultrawide foveated video extrapolation. In 2011 IEEE International Conference on Computational Photography (ICCP), pages 1-8. 2011. Sam Roweis & Lawrence Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, v.290 no.5500, Dec.22, 2000. pp.2323-2326. Jun Yu, MD Srinath, An efficient method for scene cut detection, Pattern Recognition Letters, 2001, pp1379-1391. Paul L. Rosin, A simple method for detecting salient regions, Pattern Recognition 42(2009), pp2363−2371. S. Hare, A. Saffari, and P. H. S. Torr. Struck: Structured Output Tracking with Kernels. In ICCV, 2011. W. Zhong, H. Lu, and M.-H. Yang. Robust Object Tracking via Sparsity-based Collaborative Model. In CVPR, 2012. Patrick Perez, Michel Gangnet, Andrew Blake, "Poisson image editing", ACM Transactions on Graphics (SIGGRAPH), 2003. Michael Kalloniatis and Charles Luu, 2007, Visual Acuity

本原理は、原のフィルム及びビデオコンテンツから画像を外挿する装置及び方法での改善を対象とする。

１つの観点において、本原理は、画像の境界を越えて延在する外挿画像を生成する方法であって、前記画像にアクセスすることと、前記画像の部分から外挿画像を生成することとを有し、前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクトを識別することと、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することと変更することと含む、方法を提供する。

他の観点において、本原理は、画像の境界を越えて延在する外挿画像を生成する方法であって、前記画像にアクセスすることと、前記画像の部分から外挿画像を生成することと、視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクトを識別することと、前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにすることとを有する方法を提供する。

他の観点において、本原理は、画像の境界を越えて延在する外挿画像を生成する装置であって、前記画像にアクセスするよう構成される入力部と、前記入力部へ結合され、前記画像の部分から外挿画像を生成するよう構成される少なくとも１つのプロセッサであり、前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクトを識別することと、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することを変更することとを含む、前記少なくとも１つのプロセッサと、前記外挿画像を出力するよう構成される出力部とを有する装置を提供する。

他の観点において、本原理は、画像の境界を越えて延在する外挿画像を生成する装置であって、前記画像にアクセスするよう構成される入力部と、前記画像の部分から外挿画像を生成し、視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクトを識別し、前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにするよう構成される少なくとも１つのプロセッサと、前記変更された外挿画像を出力するよう構成される出力部とを有する装置を提供する。

加えて、本原理は、非一時的なコンピュータ可読記憶媒体において記憶されているコンピュータプログラム製品であって、上記の方法を実施するコンピュータ実行可能命令を有するコンピュータプログラム製品を提供する。

加えて、上記の実施形態は、空間フィルタリング及び時間フィルタリングの適用並びに外挿画像への選択されたオブジェクトの付加の特徴を含み得る。

添付の図面とともに本発明の実施形態の以下の説明を参照して、本発明の上記及び他の特徴及び利点、並びにそれらを実現する様態は、より明らかになり、本発明は、より良く理解されるだろう。
フィルム及び／又はビデオ表示の境界を越えて外挿画像を表示する配置の例を示す。画像を様々な表示スクリーン上に投影する配置の例を示す。画像を様々な表示スクリーン上に投影する配置の例を示す。原画像と、該原画像の左右の境界を越えて生成及び表示される外挿画像とを含む画像の例を表す。原画像と、該原画像の左右の境界を越えて生成及び表示される外挿画像とを含む画像の例を表し、原ビデオからの複数のフレームが使用される。本原理に従って外挿画像を生成する態様を表す。本原理に従って画像におけるオブジェクト検出の態様を表す。本原理に従って外挿画像を生成するプロセスの例を表す。本原理に従って外挿画像を生成及び／又は処理する装置の例を表す。本明細書で示される記載は、本原理の様々な態様を実装する実施形態の例を説明する。そのような例は、如何なる方法でも特許請求の範囲の適用範囲を制限するものと解釈されるべきではない。

記載される実施形態は：
− 視覚的注意モデルを使用することによって外挿プロセスにおいてビデオの注意をそらさせる部分を回避し、具体的には、原フィルム又はビデオにおける注意をそらさせる可能性があるオブジェクトが検出され、それらの注意をそらさせる可能性があるオブジェクトが外挿画像に含まれないようにし、外挿画像は、注意をそらさせるオブジェクトなしで生成され得るか、あるいは、外挿画像は、注意をそらさせるオブジェクトを取り除くよう変更され得；
− 外挿のための入力コンテンツとして複数のリファレンス及びロングターム・リファレンスを使用し；
− より粗い外挿プロセスを許しながら滑らかな外挿を確かにするために空間時間フィルタリングを使用し；
− トラッキング及び軌跡推定を用いて、後処理ステップにおいて、動いているオブジェクトを加え；
− 見る者の注意をそらさない、ＨＶＳに従う画像を作成するために、人間の視覚体系を考慮し、特に、周辺視野における動いているオブジェクトへの感度が利用される
改善された画像外挿装置及び方法を提供しようとする。

図４は、原画像４１０に基づき生成された外挿画像４２０及び４３０を有する画像の例を表す。夫々の外挿画像は異なっており、原画像４１０の左右両方の境界を越えて原画像を広げるように生成されていることが分かる。

［顕著性を意識した（saliency-aware）外挿］
本原理に従って、原画像の顕著な部分、すなわち、それらの部分が外挿又は周囲画像において含まれる場合に見る者の注意をそらさせ得る部分は、外挿画像において一貫しない動きを伴った注意をそらさせるエリアの出現を回避するようそれらの部分が外挿画像において隠されるか又は含まれないという意味で、ペナライズされる。顕著（salient）とは、オブジェクトが見る者の目を引きうる特徴を指し示し得る。そのように目を引くことは、無意識に起こり、見る者の注意をそらし得る。本原理の他の態様では、識別された顕著なオブジェクトは、以下で更に記載されるように、適切な軌跡を有して外挿画像に後に加えられ得る。

Ａ（ｘ，ｔ）は、フレームｔのピクセルｘが顕著である程度を表す、０から１の間に正規化された顕著性マップ（saliency map）である。顕著性（saliency）は、視覚的注意モデル、例えば、Le Meur, et al.によって２００４年１２月１４日付けで出願された欧州特許第１６９５２８８（Ｂ１）号で提案されているもの、を用いて計算され得る。なお、この特許文献の開示は、その全文を参照により本願に援用される。

本原理に従って、実施形態は、顕著なオブジェクトが現れ得る外挿画像のエリアを特定し、顕著なオブジェクトを含めずに外挿画像を生成する。欠けたエリアが再構成されている外挿画像は、例えば、Urban, et al.によって“Apparatus and Method for Generating an Extrapolated Image using a Recursive Hierarchical Process”と題された特許出願（代理人整理番号ＰＦ１４０３４７）において記載された技術を用いて、生成され得る。なお、この特許文献の開示は、その全文を参照により本願に援用される。

実施形態において、Urban, et al.によって記載された外挿技術は、ブロックマッチングプロセスの間に原画像において顕著なエリアをペナライズするよう変更され、それにより、外挿画像は、顕著なオブジェクトを含めずに生成される。よって、顕著なエリアが画像を外挿するために使用されない場合には、注意をそらさせる部分は外挿画像に存在しない。

ブロックマッチング又はパッチマッチ検索で使用されるマッチング指標（又はスコア）は、以下で説明されるように顕著性を含む。そのようなものとして、画像の顕著な部分は、ブロックマッチングのためのリファレンスとしてペナライズされ、外挿画像には、それほど注意をそらさないエリアが現れる。

パッチマッチ技術は、欠けたエリアを再構成するために使用され得る。Ｓからの既存のピクセル及び新しいピクセルの両方を含むブロックＭを構築するために、コストｒは最小限にされる：

ｒ（Ｓ）＝ＳＳＤ（Ｓａ，Ｍａ）＋λ×Ａ（Ｓ）

上記の式で、ＳＳＤは、例えば、Ｌａｂ色空間又はＲＧＢ色空間における、絶対差の和であり、Ｍａは、ブロックの既に計算された部分であり、Ｓａは、Ｍａの形状に対応する既存のブロックＳの部分であり、λは、顕著性（λ＝１００）の影響を制御する重みである。

選択されたブロックＳは、前述の式を最小限にする１つである：
上記の式で、Ωは、既存の画像における検索窓である。

アルゴリズムの拡張として、ブロックＭは、渾然一体とされたｎ個のマッチングブロックＳｉから構築され得る。ベストマッチＳｉのソートされたリストは、前述の式（すなわち、ｒ（Ｓ）の最小化。Ｓｉ≠Ｓｊ∀ｉ≠ｊ，Ｓｉ∈Ω）を用いて構成される。ブロックＭは、ブロックＳｉの結合によって得られる：
ブロックＳｉの結合も、重み付けされ得る：
上記の式で、重みｂｉは、ＬＬＥ最適化（非特許文献５）を通じて学習される。

改善として、整合性のあるブロックのみが使用されることを確かにするために、高すぎるスコア（ｒ（Ｓｉ）≧ｑ）を有するブロックＳは、拒否され得る：
［複数のリファレンスフレーム］
前の又は次のフレームにおいて完全に現れる画像の境界においてオブジェクトの部分を再構成するために、検索空間Ωは、前述の技術を用いて、いくつかの隣接フレームへ広げられ得る。

遅い動きの場合において、多数の隣接フレームは、オブジェクトが完全に現れるために必要であり得る。検索時間を削減するために、Ωは、以下のアルゴリズムを用いて適切に選択され得る。そのアルゴリズムでは、リファレンスフレームは、完全な検索を回避するよう選択され、選択されたフレームは、パッチマッチ・スキームにおいて使用される：
− アルゴリズムは、フレームがシーンによってグループ化されるショット検出のステップを有する。シーンは、２つのシーンカットの間の連続したフレームによって定義される（非特許文献６）。
− 多くてもｎ個の画像が、等しく間隔をあけられた画像を選択することによって、シーンにおいて選択される。
− 改善は、十分に異なる画像のみを保持することにある。ＳＳＤは、２つの候補画像の間で計算される。ＳＳＤが閾値を下回る場合には、画像が互いに近すぎることを意味し、一方のみが保持される。これは、必要とされない場合に計算を加速させるよう検索画像を減らすことを可能にする。

［空間時間平滑化］
視野の周囲において、人間の視覚体系は、動き及びブリンキング（blinking）効果に敏感である。しかし、それは、色及び解像度には非常に低い感度を有している。

注意をそらさせる、好ましくない、動いているオブジェクトは、前述の、顕著性を意識したフィルタリングのおかげで、既に回避される。その上、ブリンキング・アーチファクトは、時間フィルタを用いて低減される。時間フィルタは、例えば、時間次元において適用されるガウシアン平滑化（Gaussian smoothing）である。結果として現れるピクセルは、前のフレーム及び次のフレームにおけるコロケートされたピクセルの線形結合から計算され、重みは、中央のピクセルの周りのガウス分布によって定義される。

その上、外挿画像が過度に注意をそらさせることを回避するよう、空間平滑化フィルタも空間次元で適用され得る。観察者が正面スクリーンに自身の注意を保っている間は、平滑化は知覚できない。なぜなら、観察者は視野の周囲にある詳細を見ず、それはサイド投影がユーザの注意を引くことを妨げるからである。

２０°の偏心での視力は、中心視のそれの１０分の１であるとする（非特許文献１１）。これは、３メートル幅スクリーンの正面から４メートルに位置する観察者にとってスクリーンの端に対応する。これは、周囲スクリーンにおける解像度が中央の解像度の１０分の１であるはずであることを意味する。従って、空間フィルタリングで使用されるガウシアンフィルタは、拡張の結果として現れる解像度及びその投影が中央表示と同じであることを考えれば、σ＝（１０／π）ピクセルの標準偏差を有するはずである。このとき、最大周波数はピクセルごとに１／２周期である。それらのパラメータは、結果として現れる拡張及び投影が中心表示から変化する場合には、適応されるべきである。

代替の実施形態では、Urban, et al.の外挿技術は、外挿画像を最初に生成するために使用される。外挿画像は、次いで、顕著なオブジェクトが外挿画像に含まれるかどうかを、例えば、顕著性マップを用いて、特定するよう解析される。外挿画像が顕著なオブジェクトを含むと認められる場合には、顕著なオブジェクトは取り除かれ得、外挿画像の欠けたエリアは、インペインティング（inpainting）又はUrban, et al.の改良された技術を用いて満たされ得る。これは、既に計算された外挿画像の後処理と見なされ得る。

［オブジェクト挿入及び軌跡外挿］
外挿画像又はサイドコンテンツが自動的に又は何らかのエディタによって手動でスムース・バックグランド（smooth background）により生成されると、正面スクリーンに入る又はそれから出る適切な軌跡を持った動いているオブジェクトを加えることが望ましいことがある。本項目は、これが完全に自動で又はユーザ入力を用いて如何にして行われ得るかを説明する。

関心のあるオブジェクトは、オブジェクトの周りの長方形又は閉じられた輪郭を定義することによって手動で選択され得る。関心のあるオブジェクトの検出は、例えば、図７における顕著性マップを使用することによって、行われる。図７におけるオブジェクト７１０は、外挿された画像部分６１７に隣接する画像部分６１５におけるオブジェクト６５０に対応する。画像部分６０６及び外挿された画像部分６０７を有する画像６００は、参照符号６２０によって示される、外挿画像に含まれているオブジェクト６５０を示す。オブジェクト６５０は、手動で又は、例えば、非特許文献７で記載される１つのような、ブロブ（blob）検出器を用いて、選択され得る。

オブジェクトの軌跡を推定するよう、トラッカ（tracker）が次いで使用され、選択ステップで定義されたエリア上で初期化される。如何なるトラッカも使用され得、例えば、非特許文献８及び９で記載されたものが考えられる。トラッカは、フレームｔにおけるオブジェクト中心位置：ｐ（ｔ）を推定するために使用される。トラッキングは、正面スクリーンから出る又はそれに入るオブジェクト軌跡を外挿することができるように、順方向及び逆方向において実施される。逆方向については、フレーム順序は逆にされ、次の式が変数変化を伴って依然として適用される。従って、正面スクリーンから出るオブジェクトの例のみが、以下では示される。

最初のステップは、トラッキングされるオブジェクトの中心位置のパラメータ軌跡ｐ（ｔ）＝（ｘ（ｔ），ｙ（ｔ））をモデル化することである。使用されるパラメータモデルは、直線（一定速度）、放物線（一定加速度）、又はより複雑な軌跡であることができる。例えば、放物線軌跡が使用されるならば、ｔがフレーム番号を、ａ、ｂ、ｃ、ｄ、ｅ、ｆが、推定される位置を用いて回帰（regression）を通じて推定されるパラメータを表すとして、ｐ（ｔ）＝（ａｔ^２＋ｂｔ＋ｃ，ｄｔ^２＋ｅｔ＋ｆ）である。推定される位置の数は、パラメータを推定するために３よりも大きくなければならないが、より大きい数は、ノイズの影響を小さくすることを可能にする。しかし、観測フレームの数は、動きモデルが保持すべき一定数を下回ったままでなければならない（実際に、推定される位置の数は、最も古い推定を落とすことによって、３０に抑えられるべきである。）。軌跡はフレームごとに推定される。

次のステップは、オブジェクトがスクリーンから出ていくか否かを検出することである。これは、次のオブジェクト中心位置ｐ（ｔ_０＋１）を観察することによって行われ得る。ｘ（ｔ_０＋１）が画像境界の外にあるならば、オブジェクトはスクリーンから出ていくと推定される。オブジェクト位置は、次いで、推定されるパラメトリック方程式を用いて、その後のフレームごとに推定され得る。

更なるロバスト性のために、推定される軌跡は一貫していることが確かにされるべきである。オブジェクト挿入は、次の場合に中止される：
− 水平速度が遅すぎる：ａｂｓ（２ａｔ＋ｂ）＜ｖ_０。このとき、最低初期速度はｖ_０＝５ピクセル毎フレーム。静止したオブジェクトが拡張部分において表示されないようにする；
− ｙ（ｔ）が垂直画像境界の外にある；
− 水平の動きがヌル（null）になる：それ以外に、ａ≠０，ｂ≠０の場合に、ｔ＝−ｂ／２ａ；
− 水平位置ｘ（ｔ）が画像境界の外にある。

オブジェクトは、外挿位置で、最終的に、その後のフレームに挿入される。外観は、単に、オブジェクトが現れた最後のフレームにカットインされたオブジェクト、又は最後の外観の組み合わせ（何らかの混合技術を使用する。）であることができる。シームレスに挿入されるよう、クローニング技術（例えば、ポアソン編集（Poisson editing）を使用する非特許文献１０で記載されるもの）が使用され得る。挿入後にアルファマスクブレンド（alpha mask blending）又はぼかし（blurring）を使用するような、それほど計算集約的でない技術も使用され得る。

図８は、本原理に従うプロセスの例を表す。プロセス８００は、ステップ８２０で、拡張されるべき画像を受け取ることによって、開始する。ステップ８３０で、複数のリファレンスフレームは、外挿画像を生成することにおいて解析のために選択され得る。なお、単一のリファレンスフレームが、望まれる場合には使用され得る。ステップ８４０で、顕著性を意識した外挿は、例えば、注意をそらさせる部分が存在しない外挿画像を生成するために原画像において顕著なエリアをペナライズするようUrban, et al.のブロックマッチング技術を改良することによって、外挿画像を生成するために使用される。空間時間平滑化は、ステップ８５０で実施され得る。最後に、望まれる場合には、検出された顕著なオブジェクトは、手動で又は自動で選択され、ステップ８６０で、軌跡外挿に基づき挿入され得る。

図９は、本原理の例となる実施形態の様々な態様が実装され得るシステムの例のブロック図を表す。システム９００は、以下で記載される様々なコンポーネントを含むデバイスとして具現化されてよく、前述のプロセスを実施するよう構成される。そのようなデバイスは、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビジョン受信機、パーソナルビデオ記録システム、接続されるホーム機器、及びサーバを含むが、それらに限られない。システム９００は、フィルム及びビデオデータを双方ともに受信し、上述されたようにフィルム及びビデオデータを処理し、そして、受信されたフィルム及びビデオデータを用いて外挿画像を投影又は表示して、没入型視聴体験を提供するよう、他のコンポーネント、例えば、信号受信装置、プロジェクションシステム、ディスプレイシステム、又は同様のものへ通信上結合され得る。

システム９００は、前述の様々なプロセスを実装するために、ロードされた命令を実行するよう構成される少なくとも１つのプロセッサ９４０を含み得る。プロセッサ９４０は、当該技術で知られている埋込メモリ、入出力インターフェイス及び様々な他の回路構成を含み得る。システム９００は、少なくとも１つのメモリ９５０（例えば、揮発性メモリデバイス、不揮発性メモリデバイス）を更に含み得る。システム９００は、記憶デバイス９６０を更に含み得る。記憶デバイス９６０は、ＥＥＰＲＯＭ、ＲＯＭ、ＰＲＯＭ、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ、フラッシュ、磁気ディスクドライブ、及び／又は光ディスクドライブを含むがそれらに限られない不揮発性メモリを含み得る。記憶デバイス９６０は、非制限的な例として、内部記憶デバイス、付属記憶デバイス、及び／又はネットワークアクセス記憶デバイスを有し得る。前述の様々なプロセスを実施するようプロセッサ９４０にロードされるプログラムコードは、記憶デバイス９６０に記憶され、その後に、プロセッサ９４０による実行のためにメモリ９５０にロードされ得る。システム９００は、暗号化されたフィルム及び／又はビデオデータを受信し解読するよう構成される暗号解読モジュール９２０を更に含み得る。プロセッサ９４０によって生成された画像データは、出力ポートを介してディスプレイデバイスへ出力され得るか、あるいは、代替的に、システム９００は、ディスプレイと一体化され得、このとき、出力信号は、システム９００のディスプレイ上で画像を表示するよう直接に適用される。

システム９００は、必要に応じて、受信された出力信号を復号する復号器９３０を含み得る。出力信号は、既知の圧縮フォーマット、例えば、ＭＰＥＧ２又はＨ．２６４に従う圧縮された形をとり得る。復号器９３０は、システム９００内で別個のコンポーネントとして実装され得るか、あるいは、当該技術で知られるように、プロセッサ９４０の部分として組み込まれ得る。

暗号解読モジュール９２０は、暗号解読機能を実施するようデバイスに含まれ得るモジュールに相当する。知られているように、デバイスは、暗号化モジュール及び暗号解読モジュールの一方又は両方を含んでよく、例えば、暗号化は、ＰＣが入力パラメータ（すなわち、公共システムパラメータ及びユーザのアイデンティティ）を記憶するセキュアメモリを含む必要がないように、暗号化は秘密鍵を必要としないので、通常のＰＣで行われ得る。しかし、暗号解読は秘密鍵（すなわち、解読鍵）を必要とし、セキュアデバイス、例えば、スマートカードにおいて行われる。その上、暗号解読モジュール９２０は、システム９００の別個の要素として実装され得るか、あるいは、当業者に知られるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ９４０内に組み込まれ得る。

システム９００は、有線又は無線のいずれであろうと通信チャネルを介して他のデバイスとの通信を可能にする通信インターフェイス９１０を更に含み得る。通信インターフェイス９１０は、通信チャネルからデータを送信及び受信するよう構成されるトランシーバを含み得るが、それに限られない。通信インターフェイス９１０は、モデム又はネットワークカードを含み得るが、それらに限られず、通信チャネルは、有線及び／又は無線媒体内で実装され得る。システム９００の様々なコンポーネントは、内部バス、ワイヤ、及び印刷回路基板を含むがそれらに限られない様々な適切な接続を用いて接続又は通信上結合され得る。

本発明の例となる実施形態は、プロセッサ９４０によって若しくはハードウェアによって実装されるコンピュータソフトウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実施され得る。非制限的な例として、本発明の例となる実施形態は、１つ以上の集積回路によって実装され得る。メモリ９５０は、技術環境に適した如何なるタイプであってもよく、非制限的な例として、例えば、光メモリデバイス、磁気メモリデバイス、半導体に基づくメモリデバイス、固定メモリ、及びリムーバブルメモリのような、如何なる適切なデータ記憶テクノロジによっても実装され得る。プロセッサ９４０は、技術環境に適した如何なるタイプであってもよく、非制限的な例として、マイクロプロセッサ、汎用コンピュータ、特別目的のコンピュータ、及びマルチコアアーキテクチャに基づくプロセッサ、のうちの１つ以上を包含し得る。

上記は、例となる実施形態及び非制限的な例を用いて、本発明者によって考えられている方法及びシステムの説明を提供してきた。様々な変更及び適応が、本明細書を考慮して当業者に明らかになり得ることは、明らかである。なお、そのような変更及び適応は、前述の様々な実施形態の教示の適用範囲内にある。

本明細書で記載される実施形態は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえただ１つの実施形態に関してしか論じられていない（例えば、方法としてしか論じられていない）としても、前述の特徴の実装は、他の形態（例えば、装置又はプログラム）でも実施され得る。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて実装され得る。方法は、例えば、プロセッサのような装置において実装され得る。プロセッサは、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラム可能論理デバイスを含むプロセッシングデバイス全般を指す。プロセッサは、例えば、コンピュータ、携帯電話機、ポータブル／パーソナルデジタルアシスタント（“ＰＤＡ”）、及びエンドユーザ間の情報のやり取りを助ける他のデバイスのような、通信デバイスも含む。

本原理の“一実施形態”若しくは“実施形態”又は“１つの実施”若しくは“実施”への言及、並びにそれらの他の変形は、実施形態に関連して記載される特定の特徴、構造、特性などが本原理の少なくとも１つの実施形態に含まれることを意味する。よって、本明細書の全体にわたって様々な箇所で見られる“一実施形態において”若しくは“実施形態において”又は“１つの実施において”若しくは“実施において”との言い回し、並びに何らかの他の変形の出現は、必ずしも全てが同じ実施形態に言及しているわけではない。

その上、本願又はその特許請求の範囲は、様々な情報片を“決定する（determining）”ことに言及し得る。情報を決定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又はメモリから情報を取り出すこと、のうちの１つ以上を含み得る。

更には、本願又はその特許請求の範囲は、様々な情報片に“アクセスする（accessing）”ことに言及し得る。情報にアクセスすることは、例えば、情報を受信すること、情報を（例えば、メモリから）取り出すこと、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、又は情報を推定すること、のうちの１つ以上を含み得る。

その上、本願又はその特許請求の範囲は、様々な情報片を“受信する（receiving）”ことに言及し得る。受信することは、“アクセスする”ことと同様に、広義な語であるよう意図される。情報を受信することは、例えば、情報にアクセスすること、又は情報を（例えば、メモリから）取り出すこと、のうちの１つ以上を含み得る。更には、“受信する”ことは、通常は、例えば、情報を記憶すること、情報を処理すること、情報を送信すること、情報を移動すること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を決定すること、情報を予測すること、又は情報を推定することといった動作中にいろいろな点で関連する。

当業者に明らかなように、実施は、例えば、記憶又は送信され得る情報を運ぶようフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実施するための命令、又は記載される実施形態のうちの１つによって生成されたデータを含み得る。例えば、信号は、記載される実施形態のビットストリームを運ぶようフォーマットされ得る。そのような信号は、例えば、電磁波として（例えば、スペクトルの無線周波数部分を使用する。）、又はベースバンド信号として、フォーマットされ得る。フォーマッティングは、例えば、データストリームを符号化し、符号化されたデータストリームによりキャリアを変調することを含み得る。信号が運ぶ情報は、例えば、アナログ又はデジタルの情報であってよい。信号は、知られているように、多種多様な有線及び／又は無線リンクにわたって送信され得る。信号は、プロセッサ可読媒体に記憶され得る。

いくつかの実施形態が本明細書において記載及び例示されてきたが、当業者は、本明細書で記載される利点のうちの１つ以上及び／又は結果を得るための且つ／あるいは機能を実施するための様々な他の手段及び／又は構造に容易に想到可能である。そして、そのような変形及び／又は変更は、本実施形態の適用範囲内にあると見なされる。

いくつかの実施形態が本明細書において記載及び例示されてきたが、当業者は、本明細書で記載される利点のうちの１つ以上及び／又は結果を得るための且つ／あるいは機能を実施するための様々な他の手段及び／又は構造に容易に想到可能である。そして、そのような変形及び／又は変更は、本実施形態の適用範囲内にあると見なされる。
上記の実施形態に加えて、以下の付記を開示する。
（付記１）
画像の境界を越えて延在する外挿画像を生成する方法（８００）であって、
前記画像（６１５）にアクセスすること（８２０）と、
前記画像の部分から外挿画像（６１７）を生成すること（８３０〜８６０）と
を有し、
前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクト（６５０）を識別すること（８２０〜８５０）と、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することと変更すること（８６０）と含む、
方法。
（付記２）
前記生成することは、より高い解像度の外挿画像を漸進的に生成するよう再帰的階層プロセスを使用することを含む、
付記１に記載の方法。
（付記３）
前記再帰的階層プロセスは、次の解像度のブロックを生成するよう前の解像度における重なり合ったブロックの予測及び重み付けを使用することに基づく、
付記２に記載の方法。
（付記４）
画像の境界を越えて延在する外挿画像を生成する方法（８００）であって、
前記画像にアクセスすること（８２０）と、
前記画像の部分から外挿画像を生成すること（８３０〜８６０）と、
視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクトを識別すること（８３０〜８５０）と、
前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにすること（８６０）と
を有する方法。
（付記５）
空間フィルタリングを前記外挿画像に適用すること
を更に有する付記１乃至４のうちいずれか一つに記載の方法。
（付記６）
関心のあるオブジェクトを選択し、該関心のあるオブジェクトを前記外挿画像に挿入すること
を更に有する付記１乃至５のうちいずれか一つに記載の方法。
（付記７）
前記関心のあるオブジェクトの軌跡は、複数の画像から推定され、該推定された軌跡に基づき前記関心のあるオブジェクトを前記外挿画像に挿入する、
付記６に記載の方法。
（付記８）
画像の境界を越えて延在する外挿画像を生成する装置（９００）であって、
前記画像（６１５）にアクセスするよう構成される入力部（９１０）と、
前記入力部へ結合され、前記画像の部分から外挿画像（６１７）を生成するよう構成される少なくとも１つのプロセッサ（９４０）であり、前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクト（６５０）を識別すること（８３０〜８６０）と、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することを変更すること（８６０）とを含む、前記少なくとも１つのプロセッサと、
前記外挿画像を出力するよう構成される出力部（９１０）と
を有する装置。
（付記９）
前記プロセッサ（９４０）は、再帰的階層プロセスを用いて前記外挿画像を生成して、より高い解像度の外挿画像を漸進的に生成するよう構成される、
付記８に記載の装置。
（付記１０）
前記再帰的階層プロセスは、次の解像度のブロックを生成するよう前の解像度における重なり合ったブロックの予測及び重み付けを使用することに基づく、
付記９に記載の装置。
（付記１１）
画像の境界を越えて延在する外挿画像を生成する装置（９００）であって、
前記画像（６１５）にアクセスするよう構成される入力部（９１０）と、
前記画像の部分から外挿画像（６１７）を生成し、視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し（８３０〜８５０）、該顕著性マップから顕著なオブジェクト（６５０）を識別し、前記外挿画像を変更して（８６０）、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにするよう構成される少なくとも１つのプロセッサ（９４０）と、
前記変更された外挿画像を出力するよう構成される出力部と
を有する装置。
（付記１２）
前記プロセッサ（９４０）は、空間フィルタリングを前記外挿画像に適用するよう更に構成される、
付記８乃至１１のうちいずれか一つに記載の装置。
（付記１３）
前記プロセッサ（９４０）は、関心のあるオブジェクトを選択し、該関心のあるオブジェクトを前記外挿画像に挿入するよう更に構成される、
付記８乃至１２のうちいずれか一つに記載の装置。
（付記１４）
前記プロセッサ（９４０）は、前記関心のあるオブジェクトの軌跡を複数の画像から推定し、該推定された軌跡に基づき前記関心のあるオブジェクトを前記外挿画像に挿入するよう更に構成される、
付記１４に記載の装置。
（付記１５）
非一時的なコンピュータ可読記憶媒体（９６０）に記憶されているコンピュータプログラム製品であって、
画像（６１５）の部分にアクセスし（８２０）、
前記画像の部分から外挿画像（６１７）を生成する（８３０〜８６０）
コンピュータ実行可能命令を有し、
前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクト（６５０）を識別すること（８３０〜８５０）と、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することと変更すること（８６０）と含む、
コンピュータプログラム製品。
（付記１６）
非一時的なコンピュータ可読記憶媒体（９６０）に記憶されているコンピュータプログラム製品であって、
画像（６１５）にアクセスし（８２０）、
前記画像の部分から外挿画像（６１７）を生成し（８３０〜８６０）、
視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクト（６５０）を識別し（８３０〜８５０）、
前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにする（８６０）
コンピュータ実行可能命令を有するコンピュータプログラム製品。

Claims

画像の境界を越えて延在する外挿画像を生成する方法であって、
前記画像にアクセスすることと、
前記画像の部分から外挿画像を生成することと
を有し、
前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクトを識別することと、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することと変更することと含む、
方法。
前記生成することは、より高い解像度の外挿画像を漸進的に生成するよう再帰的階層プロセスを使用することを含む、
請求項１に記載の方法。
前記再帰的階層プロセスは、次の解像度のブロックを生成するよう前の解像度における重なり合ったブロックの予測及び重み付けを使用することに基づく、
請求項２に記載の方法。
画像の境界を越えて延在する外挿画像を生成する方法であって、
前記画像にアクセスすることと、
前記画像の部分から外挿画像を生成することと、
視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクトを識別することと、
前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにすることと
を有する方法。
空間フィルタリングを前記外挿画像に適用すること
を更に有する請求項１乃至４のうちいずれか一項に記載の方法。
関心のあるオブジェクトを選択し、該関心のあるオブジェクトを前記外挿画像に挿入すること
を更に有する請求項１乃至５のうちいずれか一項に記載の方法。
前記関心のあるオブジェクトの軌跡は、複数の画像から推定され、該推定された軌跡に基づき前記関心のあるオブジェクトを前記外挿画像に挿入する、
請求項６に記載の方法。
画像の境界を越えて延在する外挿画像を生成する装置であって、
前記画像にアクセスするよう構成される入力部と、
前記入力部へ結合され、前記画像の部分から外挿画像を生成するよう構成される少なくとも１つのプロセッサであり、前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクトを識別することと、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することを変更することとを含む、前記少なくとも１つのプロセッサと、
前記外挿画像を出力するよう構成される出力部と
を有する装置。
前記プロセッサは、再帰的階層プロセスを用いて前記外挿画像を生成して、より高い解像度の外挿画像を漸進的に生成するよう構成される、
請求項８に記載の装置。
前記再帰的階層プロセスは、次の解像度のブロックを生成するよう前の解像度における重なり合ったブロックの予測及び重み付けを使用することに基づく、
請求項９に記載の装置。
画像の境界を越えて延在する外挿画像を生成する装置であって、
前記画像にアクセスするよう構成される入力部と、
前記画像の部分から外挿画像を生成し、視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクトを識別し、前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにするよう構成される少なくとも１つのプロセッサと、
前記変更された外挿画像を出力するよう構成される出力部と
を有する装置。
前記プロセッサは、空間フィルタリングを前記外挿画像に適用するよう更に構成される、
請求項８乃至１１のうちいずれか一項に記載の装置。
前記プロセッサは、関心のあるオブジェクトを選択し、該関心のあるオブジェクトを前記外挿画像に挿入するよう更に構成される、
請求項８乃至１２のうちいずれか一項に記載の装置。
前記プロセッサは、前記関心のあるオブジェクトの軌跡を複数の画像から推定し、該推定された軌跡に基づき前記関心のあるオブジェクトを前記外挿画像に挿入するよう更に構成される、
請求項１４に記載の装置。
非一時的なコンピュータ可読記憶媒体に記憶されているコンピュータプログラム製品であって、
画像の部分にアクセスし、
前記画像の部分から外挿画像を生成する
コンピュータ実行可能命令を有し、
前記生成することは、視覚的注意モデルに基づき前記画像の前記部分において顕著なオブジェクトを識別することと、該識別に応答して、前記顕著なオブジェクトが前記外挿画像に含まれないように、前記生成することと変更することと含む、
コンピュータプログラム製品。
非一時的なコンピュータ可読記憶媒体に記憶されているコンピュータプログラム製品であって、
画像にアクセスし、
前記画像の部分から外挿画像を生成し、
視覚的注意モデルに基づき前記外挿画像の顕著性マップを生成し、該顕著性マップから顕著なオブジェクトを識別し、
前記外挿画像を変更して、該変更された外挿画像において前記顕著なオブジェクトが含まれないようにする
コンピュータ実行可能命令を有するコンピュータプログラム製品。