JP2021511729A - 画像、又はビデオデータにおいて検出された領域の拡張 - Google Patents
画像、又はビデオデータにおいて検出された領域の拡張 Download PDFInfo
- Publication number
- JP2021511729A JP2021511729A JP2020539263A JP2020539263A JP2021511729A JP 2021511729 A JP2021511729 A JP 2021511729A JP 2020539263 A JP2020539263 A JP 2020539263A JP 2020539263 A JP2020539263 A JP 2020539263A JP 2021511729 A JP2021511729 A JP 2021511729A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- content
- video
- real
- visual enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0252—Targeted advertisements based on events or environment, e.g. weather or festivals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2668—Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Environmental & Geological Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Controls And Circuits For Display Device (AREA)
- Transforming Electric Information Into Light Information (AREA)
Abstract
広告又は他の視覚的コンテンツの拡張されたオーバーレイのために適切な画像又はビデオフレームの1つ以上の部分を特定し、そのような追加のコンテンツを含むように画像又はビデオデータを拡張するシステム及び方法が提供される。オーバーレイ又は拡張に適切な部分を特定することは、視覚拡張のための基準を満たす画像又はビデオフレームのオブジェクト又は領域を特定するよう構成された1つ以上の機械学習モデルを採用することを含み得る。画像又はビデオフレーム内で提示された提示された拡張されたコンテンツの姿勢は、オリジナル画像又はビデオ内でキャプチャされた現実世界のシーンの中の1つ以上の現実世界のオブジェクトの姿勢に対応し得る。【選択図】図5F
Description
[任意の優先権出願への参照による援用]
外国、又は国内の優先権主張が本願で提出されたアプリケーションデータシートで特定されている任意の及び全ての出願は、37 CFR 1.57によって、ここで参照により援用される。
外国、又は国内の優先権主張が本願で提出されたアプリケーションデータシートで特定されている任意の及び全ての出願は、37 CFR 1.57によって、ここで参照により援用される。
本願は、2018年1月18日に出願された「AUGMENTING DETECTED REGIONS IN IMAGE OR VIDEO DATA」と題された米国仮出願第62/619,025号の利益を主張し、それは、ここでその全体が参照により援用される。
企業がスポーツイベントのスポンサーになる、あるいはスポーツアリーナに広告を設置することは一般的である。例えば、企業は、試合開催日中にスタジアム内にバナーを設置する、チームのジャージにロゴを取り付ける、チームのジャージにロゴを掲載する、スタジアム内で広告を物理的な看板に設置する、又はデジタルサイネージに表示させる等のために、アリーナ、チーム、又はリーグの権利を有する関係者と契約し得る。いくつかのシステムは、テレビ放送に先立って記録されたビデオのポストプロセッシング(クロマキー合成を介してのような)においてその後、置換され得る、特定の色、又は既知のコンテンツの物理的な看板をアリーナ内に配置することにより、スポーツイベントのテレビ放送にデジタル広告を動的に挿入し得る。他の既存のシステムは、テレビ放送、又は撮影された映像のインターネット配信の前に、デジタル的に配置されるべきサイネージの位置を検出するために、既存のアリーナ内の物理的看板から反射される、又はそれによって発生され、かつイベントを撮影するカメラの位置で検出される赤外線、又は他の放射を使用する。
前述の局面及び多くの付随する利点は、添付の図面と併せて、以下の詳細な説明を参照してよりよく理解されるだろう。
図1Aは、イベントビデオのフレームにおける検出された観衆領域を描写する。
図1Bは、ビデオデータの分析から生成された図1Aに対応するヒートマップの図式的な表現を描写する。
図1Cは、イベントビデオが、ビデオの、検出されたネガティブスペース内の、広告のビデオコンテンツを含むように拡張された、拡張されたビデオのサンプルフレームである。
図2Aは、個々のフレームの1つ以上の検出された領域内で、広告コンテンツ又は他の拡張コンテンツを含むようにビデオデータを拡張するための例示的方法のフロー図である。
図2Bは、それぞれのターゲット範囲の表面及び姿勢の情報を求めるだけでなく、ビデオフレームの1つ以上のターゲット拡張範囲を特定するための例示的方法のフロー図である。
図3は、本開示のさまざまな実施形態において使用に適した、コンピューティング環境のシステムのフローチャートである。
図4Aは、レースカーの検出された位置を特定するバウンディングボックスを含むイベントビデオのフレームを描写する。
図4Bは、図4Aに対応するヒートマップデータの図式的な表現を描写する。
図4Cは、検出されたレースカーに関連付けられた、拡張されたグラフィック情報だけではなく、レーストラック上でスーパーインポーズされた会社のロゴを含む、拡張されたビデオのサンプルフレームである。
図5Aは、バスケットボールの試合の、テレビ放送ビデオのサンプルフレームを描写する。
図5Bは、図5Aのフレーム内で検出された観衆領域を描写する。
図5Cは、図5Aのフレーム内の広告を掲載しても安全だと検出された領域に対して、バウンディングボックス及びヒートマップデータを描写する。
図5Dは、図5Aのフレーム内で検出された広告掲載が安全な領域のために求められた3次元追尾及び姿勢データを描写する。
図5Eは、ビデオデータのフレームを拡張するために使用するための、図5Aのフレーム内で検出された観衆領域に関連付けられたマスクデータを描写する。
図5Fは、検出された観衆領域内の広告データを含む図5Aのフレームの拡張されたバージョンを描写する。
図6Aは、広告コンテンツが観衆領域内にスーパーインポーズされているバスケットボールの試合からのビデオデータの拡張されたフレームを描写する。
図6Bは、関連する観衆領域の新しい位置を追尾するために、スーパーインポーズされた広告コンテンツが、フレームの違った位置に現れる図6Aのバスケットボールの試合からのビデオデータの追加の拡張されたフレームを描写する。
本開示の局面は、広告又は他の視覚的コンテンツの拡張されたオーバーレイを拡張するのに適切な画像又はビデオの部分を特定し、そのような追加の視覚的コンテンツを含むように画像又はビデオデータを拡張するためのコンピューティングシステム及び関連する方法に関する。画像又はビデオフレームのうちの1つ又は複数の拡張に安全な、又は拡張に適切な部分は、コンピュータビジョン技術を用いた画像又はビデオデータの個々のフレームの自動分析に基づいて決定され得る。そのような技術は、ここで記載される様々な手段で実現され得る、視覚拡張のための基準を満たす、画像又はビデオフレームのオブジェクト又は領域を特定するように構成された機械学習モデルを採用することを含み得る。
1つの実施形態による一例として、広告コンテンツは、ネガティブスペース(ベースとなるコンテンツの権利保有者の観点からのような)とみなされると判断される、又は予測される個々のビデオフレームの領域又は部分にわたって表示され得る。ネガティブスペースは、一例においては、ビデオショット(オンコートのアクションに焦点を当てたゲームのテレビ放送映像のような)の背景で見ることができるバスケットボールアリーナの聴衆又は観衆の部分であり得る。観衆の部分は、ある場合には、そのような部分が人間の視聴者の主要な対象にはふつうはならないので、少なくとも一部はネガティブスペースとみなされ得る(例えば、彼らは、バスケットボールコートでの試合中のアクションの一部ではない)。更に、このような部分内に、補足的なコンテンツをオーバーレイしても、権利保有者がショット内に表示されたままにしておきたい他の会場内の看板、又は他のコンテンツの視聴を妨げることにはおそらくならない。
いくつかの実施形態において、観衆、背景風景、空、地面の一部、及び/又はビデオに現れる他のタイプのオブジェクト又は領域のような、広告に適した領域の候補が、ユーザ(試合映像、会場、チーム、スポンサー等に関連付けられた権利保有者のような)に提示され得る。例えば、コンピューティングシステムは、ビデオフレームの十分に利用されていないエリアを特定するために、テレビで放送された、又はソーシャルメディアに投稿された試合放送映像(ビデオに現れ、アクションの焦点、又はビデオの前景ではない、観衆のような会場内のスペースのような)を分析し得る。それからコンピューティングシステムは、権利者に、サンプル画像又はビデオ部分においてそのような領域のラベル付けされた例(例えば、バウンディングボックス、又は他の視覚的インジケータを使用するのような)を提供する、表示のためのユーザーインターフェイスを提示し得る。例えば、ユーザーインターフェイスは、「あなたのチームのソーシャルメディアの投稿において、弊社のシステムは、現在十分に活用されておらず、又は拡張にふさわしいかもしれない30%のネガティブスペースを検出しました。」のようなメッセージを含み得る。もし、あるタイプの候補領域が、ユーザによって、広告に適していると承認された場合、それからコンピューティングシステムは、以下に記載されるような、そのようなオブジェクト又は領域の追加のインスタンスを特定する自動化されたコンピュータビジョン技術を用いて、その後、処理されるビデオフッテージ内のいくつかのそのような領域に、広告の拡張、又はその他の視覚的拡張を適用し得る。
ここで論じられる拡張コンテンツは、広告つまりスポンサー付きコンテンツに限定されず、その代わりに娯楽的価値(例えば、メインのオリジナルビデオコンテンツに関して、ユーモア又は説明を加えること)、又は情報目的(例えば、プレイヤー又は乗り物のような画面上のオブジェクトにラベル付けをするために、又は、ゲームの統計、又はその他の補足情報を提供するために)のために挿入されるコンテンツであり得る。同様に、そのような拡張を承認するユーザは、いくつかの実施形態では、権利保有者(権利保有者は、会場、チーム、リーグ、スポンサー等であり得る)以外のユーザ、例えば、ユーザがソーシャルネットワーキングサービス、又はビデオ共有サービスに投稿するビデオクリップに娯楽的な拡張コンテンツを挿入する個人のファンのようなユーザを含み得る。さらに、他の実施形態では、画像又はビデオに現れる領域は、明示的なユーザの承認又は他の人間のインプットなしにコンテンツに適用される自動化されたルール及びモデルに基づいて、広告に適していると判断され得る。例えば、ルール及び機械学習モデルが、トレーニングプロセスの間に確立され得て、それから後で、初期トレーニングフェーズの後において、人間の関与なしで、多種多様な入力をされるビデオに対して自動的に適用され得る。
本開示の局面は、従来のビデオ拡張方法に対し、著しい技術的利点をもたらす。ネガティブスペース又は他のユニークなタイプの拡張の候補領域の特定に関してここで記載された新規な技術に追加して、ここで記載された特徴は、他の会場内装置、又は会場内でのカメラの実際の現実世界でのポジショニングに関する記録されたデータなしで、任意のカメラによってキャプチャされたビデオに適用され得る。例えば、本開示の局面は、1つの実施形態において、撮影者が望む場所どこにでも配置され得る、任意のタイプの単一のカメラ以外には撮影場所での特定の機器の使用を必要とすることなしに、ビデオフッテージ又は画像コンテンツの特定の領域内で、拡張コンテンツの自動化されたオーバーレイを可能にする。
ここで記載された、特定のシステム及び方法とは対照的に、従来のスポーツイベントのビデオを拡張する方法は、本開示の少なくともいくつかの実施形態では存在しないビデオキャプチャの制限にしばしば依存する。いくつかの既存システムの、そのようなビデオキャプチャの制限は、複数のカメラを必要とすることを含む(深度の情報を決定する、又はそうでなければ、ビデオ内のオブジェクトの現実世界での位置を追尾するためのような)。いくつかの既存システムの、他のビデオキャプチャの制限は、カメラが会場内の特定の固定された場所に設置されることを必要とする(コンテンツを拡張するコンピューティングシステムが、会場内のシーン及びレイアウト、フレーム内の拡張領域の位置の予備知識を有すること等を必要とする)。いくつかの既存システムの、他のビデオキャプチャの制限は、非常に明確な外観を有する(例えば、クロマキー合成のための「グリーンスクリーン」と同様に扱われ得る特定の色である)ことを要求する。さらに、他の既存システムのビデオキャプチャの制限には、カメラ以外のハードウェア又は他の機器が、実世界のオブジェクトの物理的なレイアウト又は位置に関する情報を提供するか、又は、拡張されるべき現実世界の物体から反射又はそれによって生成された放射又は信号を検出するかのいずれかを行うことがある(例えば、看板のフレーム内位置を位置決定することに役立てる目的で、会場内の看板から反射された放射を検出する、カメラの位置における、又はカメラ内に含まれる装置)。いくつかの実施形態において、本開示の局面は、上記すべての制限を克服し、いかなる特定の会場内の準備にも、又はいかなる非従来型カメラ機器にも依存することなく、ここで記載の拡張を可能にする。
図1Aは、イベントビデオのフレーム102における、検出された観衆領域106a〜106dを示し、図1Bは、ビデオデータの分析から生成された対応するヒートマップ112を示す。ビデオフレーム102は、他の図に関連して以下に記載されるその他の例示的ビデオフレームと同様に白黒の線画形式で図示されているが、そのような図は、実現世界のシーンを撮影するビデオカメラによってキャプチャされた、カラーのビデオフレームを表現するよう意図されている。フレーム102の例において、例えば、キャプチャされたシーンは、プロのフットボールの試合であり得て、及びフレーム102はその試合のテレビ放送の一部であり得る。観衆領域106a〜106dの周りのバウンディングボックスは、ここで記載されているように、コンピューティングシステムによって決定され得る。注釈付きフレーム102及びヒートマップ112は、拡張プロセス中にコンピューティングシステムによって決定される中間段階の結果を図示するために生成されたものであり、及び、通常は、エンドユーザ又は視聴者への、放送又は配信のための最終のビデオアウトプットには含まれないであろう。ヒートマップ112は、システムが、例えば人間のような(この例では、フットボールフィールドの選手及び観衆における観客を含み得る)、特定の実施形態において、特定するように構成されている、物体の識別におけるシステムの自信(confidence)を表し得るシェーディングが付された長方形の領域を含む。いくつかの実施形態では、フレーム間で検出された物体の移動量及び/又はサイズは、どの物体が前景の一部であり(そのショットの中のアクションの一部であることのような)、及びどの物体が背景つまりネガティブスペースであるか(聴衆又は観衆の中に座っている観客等)を決定するために、部分的に使用され得る。フレーム102における、検出された観衆候補領域106a〜106dは、図2A及び図2Bのフローチャートに関連して以下に記載される方法に基づいて決定されたものでもよい。
図1Cは、イベントビデオが、ビデオの、検出されたネガティブスペース内の、広告のビデオコンテンツを含むように拡張されたサンプルビデオフレーム120である。図示されているように、コンピューティングシステムは、126a及び126bに、観衆及び他の背景コンテンツの2つの部分をカバーする、広告コンテンツ(この場合、カーグラフィック及び関連付けられたテキスト)の部分的に透明なオーバーレイを加えている。拡張されたコンテンツ126a及び126bは、ビデオの複数の連続したフレームにわたり、それらのフレーム内の位置が観衆の同じ現実世界の領域を追尾している状態で、動画化され又は変化し得る。例えば、フットボールの試合番組を記録するカメラが、フレームからフレームへと、パンする、チルトする、ズームする、又は他のやり方で現実世界のシーンのその視野を調節する時、動画化されたオーバーレイ領域126a及び126bは、現実世界のシーンと対応した位置の中に重ねられて、またオプションとしては、現実世界のオブジェクトに一致する3Dの姿勢、現実世界のオブジェクト群の集合体、又はシーン内の現実世界の領域と共に、表示され得る。よって、スーパーインポーズされた動画化されたコンテンツ126a及び126bが、フィールド、ゴールポスト、観衆等に対して首尾一貫した3次元位置(及びオプションとして姿勢)を維持する平面又は3次元領域内にあるように拡張されたビデオの視聴者には見えることもある。
図2Aは、個々のフレームの1つ又はそれ以上の検出された領域内に、広告コンテンツ又はその他の拡張コンテンツを含むようにビデオデータを拡張する例示的な方法200のフローチャートである。方法200は、ビデオのいくつかのフレームのうちのそれぞれについて繰り返されるプロセスに関して記載されるが、同様のプロセスは、ビデオとは対照的に静止画像に対しても実行され得ることが理解されよう。例示的な方法200は、コンピューティングシステム302のようなコンピューティングシステムによって実行され得て、それは図3を参照して以下に記載される。例示的な方法200は、ブロック202から始まり、ここでコンピューティングシステムは、放送又はネットワークソース(インターネット又は無線信号経由のような)からの、又はローカルの電子データ記憶からのストリーミングビデオの最初のフレームのような、ビデオの1フレームをロードする。いくつかの実施形態においては、プロのスポーツイベントのようなライブのイベントにおいてカメラがビデオを記録する時に、このビデオは、リアルタイムで拡張のために分析され得る。
いくつかのそのような実施形態では、コンピューティングシステムは、広告コンテンツがビデオ内で拡張されるために、ライブストリーミングビデオフィードを受信してから、短い遅延(2〜10秒の遅延のような)で「ライブの」テレビ又は他の放送ストリームを送出し得る。他の実施形態では、拡張されるべきビデオデータは、コンピューティングシステムによる拡張のためにそのビデオを選択したコンテンツの保有者又はユーザのリクエストに応じてのような、以前に記録された上で、データ記憶からコンピューティングシステムによって取得されたものでもよい。システムはオプションとして、下に記載される機械学習モデル及び他の技術によって期待されるフォーマットになるように、ビデオに前処理を適用し得る。例えば、色空間又はカラーモデルが変更され、解像度が変更され、サンプルフレームが選択され、及び/又は他の前処理が行われ得る。
次に、ブロック204で、コンピューティングシステムは、現在のフレームが、コンピューティングシステムがビデオストリーム内で分析した前のフレーム(もしあれば)に対して新しいカメラショットかどうかを判断し得て、又はそうでなければ、追尾が前のフレームに対して失敗したと判断し得る。例えば、以下に記載されるように、例示的な方法は、ビデオの様々なフレームについて、図2Aのブロックを反復し得て、ブロック204は、ビデオストリーム内で新たなカメラショットへのカットがあった時を確定するために実行され得る。もし、新しいショットが現在のフレームで検出されたなら、コンピューティングシステムは、以前のフレーム群に適用されていたあらゆる前の拡張をリセットし得て、前のフレームと現在のフレームとの間のオブジェクト追尾を停止し、及び/又はそうでなければ、ショット変化の結果として連続するフレーム群の間に発生し得るカメラ位置及び姿勢における突然の変化の可能性のために、前のフレーム群からの、様々な追尾されたパラメータ、仮想カメラ設定、及び/又は表示された拡張をリセットし得る。連続するフレーム群にわたって領域又はオブジェクトを追尾することは、SIFT、SURF又はKAZEのようないくつかの既知の追尾方法のうちの任意のものを使用するコンピューティングシステムによって実行され得る。いくつかの実施形態では、ショットにおいてパンすること、ズームすること又は他の漸次的な変化は、ショットの変化とはみなされ得ず、及び拡張又は追尾データのリセットを生じないかもしれない。コンピューティングシステムは、いくつかの実施形態では、ショットの変化が発生したと判断するように構成し得るが、他の実施形態では、コンピューティングシステムは、代わりに、追尾が失敗するまで1つ以上の以前のフレームからの1つ以上のオブジェクトを追尾し続けてもよく、これは実際のショットの変化に対応してもよいし、しなくてもよい(例えば、追尾されたオブジェクトは突然に移動したり、ぼやけたり、又はフレーム外に出たりし得る)。
現在のフレームが、前のフレームに対して新しいショットを表すかどうかを判断することは、2つのフレーム間の対応するピクセル値における違いを求めること、及び/又は特徴を抽出すること、及び2つのフレーム間の抽出された特徴における差を特定することのような、画像差分技術を適用することを含み得る。閾値は、コンピューティングシステムによって取得され得て、拡張をリセットする目的で、現在のフレームを新しいショットであるとみなすのに十分な差があるかどうかを求めるために、2つのフレーム間において求められた差分値と比較され得る(例えば、もし、求められた差分値が閾値より大きいなら、現在のフレームは新しいショットと見なされ得る)。ヒストグラム差分、フレームについてのキーポイントマッチング、及び/又は差分絶対値和(SAD)のような、画像処理及び/又はコンピュータビジョンの技術分野で知られる1つ以上の様々な技術が用いられることによって、連続するフレーム間の差が求められ得る。
ブロック206で、コンピューティングシステムは、フレームの1つ以上のターゲット拡張領域を特定し、及びフレームを合成又は拡張する際に使用されるべき、それぞれのそのような領域の表面及び姿勢の情報を求める。上述したように、ターゲット領域(群)は、いくつかの実施形態では、実施形態によるが、背景の一部であり、ネガティブスペースとみなされ、1つ以上のターゲットオブジェクトを描写し、ショット間で実質的に移動又は変化しない、及び/又はショットのアクションの一部ではない領域であり得る。ターゲット拡張領域及びそれらの対応する姿勢情報を特定することは、図2Bに関連して以下に詳細に記載される。
もし、ブロック206で拡張領域が特定されるなら(例えば、コンピューティングシステムが、フレームの1つ又はそれ以上の部分は、広告又は他のコンテンツオーバーレイで拡張されるべきであると判断する)、コンピューティングシステムは、フレームのターゲット領域(群)内にオーバーレイ又はスーパーインポーズするための拡張コンテンツの最初のフレーム(又は、もし前のフレームもまた拡張されたなら次のフレーム)を取得する。拡張コンテンツは、ユーザによって以前に選択されたものであり得て、広告又はスポンサーを広告する機会とマッチングさせるための広告入札システム又は他の既知の技術に基づいて選択されたものでもよく、ビデオストリームにおいて特定されたコンテンツ又はオブジェクトに基づいてプログラムによって選択されたものでもよく、及び/又は他の方法であってもよい。いくつかの実施形態において、拡張コンテンツは、以前に保存されたビデオ又は画像であり得る。他の実施形態では、コンピューティングシステムは、表示のための視覚的なテキストをレンダリングすること、より小さなコンポーネント画像又はテキストを使用して拡張コンテンツを組み立てること、図形を描画すること、又はビデオフレームの一部に視覚効果(ハイライトすること、色又はコントラストの変化のような)を適用することのように、動的に、拡張コンテンツの全て又は一部を生成し得る。例えば、コンピューティングシステムは、ビデオにおいてキャプチャされたスポーツイベントに関連付けられたリアルタイムの統計情報を、テキスト又は数字として受け取り得て、及び視覚的に訴求する方法(例えば、フォント、拡張のフレームからフレームへ変化する動画の視覚的効果の使用)で、拡張コンテンツとして当該情報をレンダリングし得る。
次に、ブロック210で、コンピューティングシステムは、ターゲット範囲又は領域の中の個々のピクセル又はオブジェクトの深度を求め得る。いくつかの実施形態において、これは、仮想カメラを設定すること、畳み込みニューラルネットワーク又は他の機械学習モデルを適用すること、又は自己位置推定と環境地図作成を同時に行う技術(SLAM)を使用することを含み得る。仮想カメラが用いられる1つの実施形態において、コンピューティングシステムは、上記ブロック206(図2Bに関して以下でより詳細に記載される)で求められたように、拡張範囲に関連付けられたカメラ解決情報(camera-solving information)(例えば、ビデオをキャプチャした実際のカメラの推定された姿勢及び位置)及び姿勢情報に基づいて、リアルタイム合成のために仮想カメラを設定し得る。1つの実施形態において、コンピューティングシステムは、拡張コンテンツをレンダリングするための三次元仮想環境(少なくとも、仮想カメラ及びオブジェクト又は表面を含み得る)を配置することに使用するために、検出されたオブジェクト又は範囲の重心の表面極値及び/又は三次元姿勢を求め得る。ある例において、仮想カメラは、図2Bに関連して以下でより詳細に記載されるような、コンピューティングシステムによって求められた位置、回転及び視野データを使用して、仮想環境内に生成又は配置され得る。
ブロック212で、コンピューティングシステムは、拡張領域(例えば、拡張コンテンツが重ねられるべき、元のビデオフレームの部分)に対応するマスクを生成し得る。1つの実施形態では、このマスクデータは、コンピューティングシステムによって以前求められたセグメンテーションデータに基づいてもよく、ここでセグメンテーションデータは、ネガティブスペース(観衆のような)又は対象となる他の拡張領域を表す現在のフレームのピクセルを特定する。結果として生じるマスクは、例えば、元のフレームの寸法を有する白黒画像データであり得て、ここで、与えられた位置のピクセル値は、拡張コンテンツが規定のピクセル位置でオーバーレイされるべきかどうかを表す。
ブロック214(ブロック212の前に、後に、又は同時に実行され得る)で、コンピューティングシステムは、上述した仮想シーン又は環境内などのような三次元空間内で、拡張コンテンツを提示し得る。拡張コンテンツの配置及び姿勢に関連付けられた、回転、位置、サイジング及び/又は他のデータは、ビデオをキャプチャした推定されるカメラ位置だけではなく、ターゲット範囲の位置及び姿勢の分析に基づいて、フレーム単位で変化し得る(上述のように、及び更に以下で記載されるように)。例えば、三次元空間において拡張コンテンツをレンダリングするために使用されるデータは、コンピューティングシステムによって生成され、及び、求められた位置、姿勢、及び/又は、候補又はターゲットの拡張領域、オブジェクト又は平面の表面データを特定するデータファイル(図2を参照して以下に記載される)に基づき得る。
次に、ブロック216で、コンピューティングシステムは、レンダリングされた拡張コンテンツ(ターゲット領域に対応するフレーム内の位置(in-frame location)で、3D空間にレンダリングされる)にマスクを適用することによって、実施形態に応じて、拡張コンテンツは、権利保有者又は観衆の観点から、ビデオの前景コンテンツ、試合内のアクション、又は他の重要な領域の位置においてではなく、候補領域(背景又はネガティブスペースのような)に対応するピクセル位置においてだけ現れるようにし得る。いくつかの実施形態において、コンテンツは、ビデオフレームの元のコンテンツに対して部分的な透明度で、オーバーレイされ、合成され、ブレンドされ、又はスーパーインポーズされることによって、元のビデオコンテンツは、拡張されたオーバーレイの下に見えるようにされ得る。他の実施形態において、オーバーレイピクセル値は、拡張されたピクセル位置で、元のビデオフレーム内の対応するピクセル値を完全に置換し得る。
いったん合成フレームがオーバーレイ又は拡張コンテンツを含むように生成されると、その合成フレームは、方法200の連続的な段階を通して、フレームごとに徐々に生成されるビデオファイルのようなファイルに出力され得る。他の実施形態においては、結果として生じる合成フレームは、インターネットのライブストリーミングプレゼンテーション、テレビネットワークの放送、及び/又はイベントの他のライブ又はわずかに遅延したプレゼンテーションの一部として、放送又はストリーミングされ得る。図2Aには図示されていないが、コンピューティングシステムは、後続のフレームを分析する際にコンピューティングシステムによって使用されるようにするために(フレーム間のオブジェクトの位置を追尾する又はショットチェンジがあるか否かを求めたりするような)、現在のフレームに関連して、上記で求められたいくつかのデータ(オブジェクトの位置情報、回転情報、ショットシグネチャ又は他のデータのような)を、RAM又は他のメモリに記憶し得る。
ブロック218で、コンピューティングシステムは、それから、潜在的な拡張について分析するために、ビデオストリーム又は他の基本的なビデオコンテンツの追加のフレームがあるかどうかを判断し得る。方法200が、単一の広告でビデオコンテンツを拡張するためにトリガされた場合などいくつかの実施形態では、イベントの基礎となるビデオの次のフレームが、表示するための広告のさらなるコンテンツがある限り、ブロック218でロードされ得る。例えば、もし、広告がまだ全ては示されていないある一定の長さのビデオであるなら、又はさもなければ広告がまだ経過していない一定の時間(広告主によって要求された一定の秒数のような)のために表示されるべきであるなら、イベントビデオの追加フレームが潜在的な拡張のためにロードされ得る。いくつかの実施形態では、新しいフレームは、ビデオの次のフレームになり得る。他の実施形態では、もし現在の広告コンテンツが終了する、又はもし現在のフレームが拡張に適切ではなかったと判断されたようであれば、拡張のために分析する新しいフレームが、サンプリングレート(例えば、現在のフレームの後の、一定のプリセットされたフレーム数であり得る)に基づいて選択され得る。もし、新しいフレームが、ブロック218で、潜在的な拡張のためにロードされるなら、その方法は、新しいフレームの前処理及び分析のために、ブロック202に戻る。いくつかの実施形態では、対象の領域又はその中のオブジェクトの追尾は、フレーム間で採用され得て(ここの他で述べられたように)、その結果、ブロック206のような図2Aのあるブロックは、追尾が成功している間は、連続するフレームに完全には繰り返される必要がない。もし、新しいフレームが分析のためにロードされないなら、図示の方法は終了する。
図2Aは、複数のフレームにわたるコンテンツの連続する拡張に関連して提示及び記載されてきたが、拡張のために、コンピューティングシステムによって分析はされるが、拡張には至らないフレームが存在し得ることが理解されよう。例えば、ショット変更後のようなある種のフレームは、コンピューティングシステムによって、十分な拡張範囲を有しない又はそうでなければ、与えられた例においては拡張には不適切であると判断され得る。
図2Bは、それぞれのターゲット範囲の表面及び姿勢の情報を求めることと共に、ビデオフレーム又は画像の、1つ以上のターゲット拡張範囲を特定するための例示的な方法230のフローチャートである。いくつかの実施形態においては、方法230は、図2Aに関連して上述の方法200のブロック206で、コンピューティングシステムによって実行され得る。他の実施形態では、上述のブロック206は、他の方法で実行され得て、図2Bに図示されている具体的な方法には限定されない。方法230は、ブロック232で始まり、ここで、コンピューティングシステムは、潜在的な拡張されたオーバーレイのためのビデオの画像又は現在のフレーム内に、1つ以上の候補領域、範囲又はオブジェクトを特定するために、畳み込みニューラルネットワーク(CNN)又は他の機械学習モデルを使用し得る。例えば、コンピューティングシステムが、ビデオに描写されるアリーナ又はスタジアムで特定される観衆の上に広告又は他の拡張コンテンツをスーパーインポーズするように構成されている実施形態では、CNN又は他のモデルは、人々の集団を特定するように訓練されていてもよい。したがって、いくつかの実施形態では、与えられた候補領域を特定することは、フレーム内で集団又はパターンとして現れる複数の類似するオブジェクト(個々の人物のような)を特定することを含み得て、一方、他の実施形態では、候補領域は単一の特定されたオブジェクト(例えば、会場の一部、テーブル、バスケットボールの支柱のようなスポーツ用具)に基づいてもよい。いくつかの実施形態では、候補領域は、画像又はビデオフレームにおいて1つ以上の対象となるテクスチャー(人の観衆、草、空のような)を特定するセグメンテーションプロセス(CNN又は他のモデルを使用するような)に基づいて特定され得る。
いくつかの実施形態では、コンピューティングシステムは、ある寸法又は寸法の範囲を有する候補領域を特定するように構成され得る。例えば、もし、イベントビデオにスーパーインポーズされる広告画像又はビデオが、データ記憶に保存されているある幅及び高さを有するなら、1つ以上の機械学習モデルは、保存された広告の幅と高さの比と一致する又は近似する幅と高さの比を有する1つ以上の長方形の候補領域を特定するように構成され得る。この例は、長方形の候補領域に関するものであるが、ここで記載される技術は候補領域のどのような特定の形状にも限定されないことが理解されよう。したがって、特定された候補領域は、元のビデオ内の、観衆、ネガティブスペース又は類似のコンテンツの一部(例えば、適切に大きさが設定された広告にフィットするには、小さすぎる又は疎でありすぎるまばらな観衆の部分)を除外し得て、及び/又は個別ではネガティブスペース、観衆又は他の基準に適合しないような部分も含み得る(例えば、観衆の部分は、ビデオフレームの比較的大きな領域における1つ以上の人々の集団を特定する機械学習モデルに基づいて特定し得て、及びその大きな領域は、たとえその領域のサブセット群又は部分が、通路又は空席のように人を含まないとしても、候補領域として指定され得る)。
いくつかの実施形態では、関連する候補領域のペア又は他のセットの間で満たされるべき空間の及び/又はサイズの関係に関する基準が、コンピューティングシステムによって適用され得る。例えば、上述の図1Cで示されている例としての拡張されたフレームにおいて、システムは、2つのペアの領域で提示されることが意図される広告コンテンツを拡張するために、互いに閾値距離内にあり、及び互いに類似した姿勢を持つ2つの同じ大きさの領域を特定するように構成され得る。別の例として、後述する図5Fでは、それらの領域が同じ大きさではなく又は互いに同じ姿勢を有していなくても、8つの類似した大きさの候補領域はオーバーレイされたコンテンツを表示するために選択され得る。
ブロック232でコンピューティングシステムによって使用される1つ以上の機械学習モデルは、実施形態に応じて、いくつかの方法で以前に訓練されいてもよい。例えば、コンピューティングシステムによって提供される拡張サービスに関連付けられたオペレータは、検出する領域の種類のトレーニング画像又はビデオを提供していてもよい(例えば、スポーツイベントでの観衆、空、会場内の看板、フィールド、アイスリンク、ボクシングのリング、会場内のスポーツ設備、ロード又はトラック、人、車両、及び/又は与えられた実施形態又は例において対象となる他のオブジェクト又はオブジェクト群のセット)。いくつかの実施形態では、オペレータは、トレーニングデータの特定のサンプルフレーム又は画像で、対象となる領域と認識されるべきものに印(バウンディングボックス、画像座標、又は別の方法によるような)を付していてもよい。他の実施形態では、コンピューティングシステムは、人間によるネガティブスペース又は他の候補領域のいかなる明確な印がなくても、トレーニングビデオでの候補領域を決定していてもよい。例えば、コンピューティングシステムは、ある基準(それらのフレームの他の部分での動きと比較して、フレーム群のセットにわたって比較的静止したままであること、カメラの焦点が合っていないことのような)を満たす範囲を特定していてもよい。
上述のように、いくつかの実施形態では、コンピューティングシステムによって特定される例示的な候補領域は、システムが画像又はビデオコンテンツにおいて類似の領域を特定する時には、広告主、放送事業者、会場所有者、チーム及び/又は他の権利保有者に関連付けられたユーザに、あるタイプの領域がネガティブスペース、拡張に適した領域及び/又はさもなければ拡張のために考慮されるものであるべきことの承認又は確認のためにユーザーインターフェイス内で表示されていてもよい。したがって、ブロック232で使用される機械学習モデルは、与えられた権利保有者(例えば、ある放送事業者、リーグ又はチーム)に固有のものであってもよく、与えられた広告主に固有のものであってもよく(例えば、広告主は、広告主の広告がクラウド上にのみ表示されるようにシステムに指示していてもよい)、与えられた会場に固有のものであってもよく(例えば、ある会場で録画されたビデオを使用して訓練し、その会場で録画されたビデオのみに使用する)、与えられたスポーツ(複数の会場及び/又はリーグをまたいで)に固有なものであってもよく、ビデオに関連付けられた与えられたコンテンツクリエイターに固有のものであってもよく(例えば、その人のユーザ作成の動画を、ビデオ共有プラットフォーム又はソーシャルネットワーキングサービスにアップロードする特定のコンテンツクリエイターに使用される)、及び/又はいくつかの他の方法で作成され得る。
いったん1つ以上の候補領域が特定されると、方法230は、オプションのブロック234に進む。ここで、コンピューティングシステムは、候補領域(群)の個々のピクセルが、前景又は背景にあるオブジェクトの一部であるかどうか、及び/又は描写されたオブジェクト又は他の現実世界のコンテンツがフレーム間で実質的に移動しているかを判断し得る。そのような判断の目的は、たとえ、当該領域が全体としては、通常、ネガティブスペースを示し得る又はそうでなければ拡張に適しているとしても、与えられた候補領域のいくつかのピクセル又は部分が、オーバーレイ又は拡張に適していないかを判断することであり得る。例えば、領域は通常、アリーナのスタンドに座り、及び15秒又は他の期間にわたって比較的、一貫した位置に留まるさまざまな観客を含み得るが(これは、既定の実施形態では、広告に適している又は拡張の対象となり得る)、観客が比較的、急速に動いている通路又は歩道もまた含み得る(これは、所与の実施形態では、拡張に不適切となり得る)。いくつかの実施形態では、候補領域がオーバーレイ又は拡張に適しているかどうかは、代替として又は追加としては、候補領域について求められたスコアに基づいてもよい。そのスコアは、例えば、領域が連結している程度、、穴が空いていないこと、及びコンパクトであることを表現し得る。
いくつかの実施形態では、コンピューティングシステムは、オブジェクトの動きを特徴付ける及び/又は定量化するために、コンピュータビジョンの分野で既知である1つ以上のオプティカルフロー技術を適用し得て、及びどのオブジェクト又はピクセルがオーバーレイによってカバーされる又は部分的にカバーされるのに適切であるかについて、動きの閾値を適用し得る(及び、逆に言えば、どのオブジェクト又はピクセルが拡張から除外されるべきかについて)。ブロック236で、動いている(例えば、閾値の量を超えて動いている)及び/又は前景にあるオブジェクトに対応するピクセルは、拡張のために印が付されるピクセル又は領域から除かれ得る。いくつかの実施形態では、除外されたピクセルの情報は、図2Aのブロック212について上述したように、拡張領域のマスクを生成することにおいて使用され得る。
ブロック238で、コンピューティングシステムは、1つ以上の候補領域のそれぞれにおける個々のピクセル又はオブジェクトの深度(例えば、ビデオをキャプチャする現実世界のカメラから、ビデオで描写されている現実世界のオブジェクトまでの距離)を推定し得る。いくつかの実施形態では、もし単一のカメラのみがビデオをキャプチャするなら(例えば、より正確な深度を計算するのに十分な記録されたデータが存在しない)、深度の推定は、CNNのような機械学習モデルによって実行され得る。これは、2台のカメラが使用されるシステムとは異なるかもしれないが、それは、そのようなシステムは、異なるカメラによって異なる位置からキャプチャされるビデオフレームの比較に基づいて、より直接的に深度を推定するために、立体視技術を使用し得るからである。いくつかの実施形態では、機械学習モデルは、個々のピクセル位置の照明に少なくとも部分的に基づいて、距離を推定するために訓練され得る。モデルは、対応する実際の深度情報(カメラとMICROSOFT(登録商標)によるKINECTセンサのような赤外線レーザー照射器との組み合わせのような、レンジファインダー又は他の深度を求めるセンサを使用して記録していてもよい)を持つサンプルビデオを使用して、事前に訓練されていてもよい。ブロック238で使用されるCNN又は他のモデルの結果は、カメラまでの推定された距離を表示するそれぞれのピクセルの値であり得る。システムは、イベントでのビデオの録画で、他の深度関連のハードウェアを持たない単一の従来のカメラが使用される実施形態において、単眼の深度推定(教師あり又は教師なしの機械学習技術を用いて)を実行し得るが、他の実施形態は、複数のカメラ又は深度センサを使用して、3次元又は他のアプローチを採用し得る。
次に、コンピューティングシステムは、オプションとして、カメラが既定のフレームをキャプチャした時における、現実世界のカメラの3次元(3D)の位置及び姿勢を推定し得る。コンピューティングシステムは、コンピュータビジョンの分野で既知の1つ以上のさまざまなカメラソルビング(camera solving)手法を採用し得る。結果は、3Dで推定された(x,y,z)座標及びカメラの3D回転を含む「6自由度」(6DoF)の推定となり得る。
ブロック242で、コンピューティングシステムは、それから、1つ以上の候補領域それぞれの3D位置及び姿勢を推定し得て、これらは、ホモグラフィモデルに部分的に基づいて推定されてもよい。例えば、コンピューティングシステムは、そこに描写された候補領域又はオブジェクト(例えば、観衆)の6DoF(例えば、3D位置及び姿勢)を推定し得る。求められた3D位置(x,y,及びz座標)は、既定の領域又はブロブ(例えば、観衆、ネガティブスペース、又は拡張される他のコンテンツ)のセントロイドに対するものであり得る。6DoF情報は、例えば、領域内の異なるピクセル位置で、上で求められたさまざまな深度に基づいて求められ得る。
ブロック244で、コンピューティングシステムは、それぞれの候補領域に、平面の表面をフィットさせ得る。他の実施形態では、コンピューティングシステムは、実施形態、画像又はビデオのコンテンツの種類、及び拡張コンテンツの望ましい外観に応じて、非平面の表面をフィットさせ得る。いくつかの実施形態では、平面の表面は、所定のターゲットサイズであり得るが、他の実施形態では、平面の表面は、コンピューティングシステムが既定の領域にフィットし得る最大の平面の表面であってもよい。表面のフィッティングは、最小二乗平面フィッティング、セマンティックモデリング、プリミティブ補完(primitive completion)、及び/又は他のアプローチの既知の技術を使用して実行され得る。コンピューティングシステムは、候補領域に平面の表面をフィットさせ得るが、その領域に描写された現実世界のオブジェクトは、深度が変化し得て、コンピューティングシステムによって決定された平面の表面と完全には一致しないことが理解されよう。例えば、いくつかの先行技術の拡張システムは、ビデオに描写された実際の平面の表面(壁、床、又は掲示板のような)を特定し得るが、本開示の局面は、実際には平面の表面を描写しない画像又はビデオの拡張部分に適用され得る。
ブロック246で、コンピューティングシステムは、上記で求められたさまざまな位置、姿勢及び/又は表面のデータを記憶し得る(RAMにおいて又は電子データベースにおいてのように)。いくつかの実施形態では、JavaScript Object Notation (JSON)又は他のデータファイルが生成され得て、そしてそれは、既定のビデオフレーム又は画像を拡張する時に、上で述べられた方法200の間に使用されてもよい。例えば、コンピューティングシステムは、広告又は他の拡張コンテンツでフレームを拡張する時、拡張コンテンツが、上記1つ以上の候補領域にフィットする表面の位置及び姿勢と適合する位置及び姿勢を有するよう、このデータを使用してもよい。図示の方法230は、それから終了する。
図3は、本開示のさまざまな実施形態において使用に適した、コンピューティング環境300のシステムのフローチャートである。図3で描写されているように、コンピューティング環境300は、コンピューティングシステム302を含み得る。コンピューティングシステム302の一般的な構造は、本開示の局面を実現するために使用されるコンピュータハードウェア及びソフトウェアの要素の構成を含み得る。コンピューティングシステム302は、図3で示されたものより多くの(又は少ない)要素を含み得る。しかしながら、実施可能な開示を提供するためには、これらの一般には従来からある要素の全てが示されなければならないわけではない。
図示されているように、コンピューティングシステム302は、処理ユニット306、ネットワークインターフェイス308、コンピュータ読み取り可能媒体ドライブ310、入力/出力デバイスインターフェイス312、オプションのディスプレイ326、及びオプションの入力装置328を含み得て、それら全ては通信バス336を経由して、互いに通信し得る。処理ユニット306は、メモリ314に及びメモリ314から通信し得て、入力/出力デバイスインターフェイス312を介してオプションのディスプレイ326に、出力情報を提供し得る。入力/出力デバイスインターフェイス312はまた、キーボード、マウス、デジタルペン、マイク、タッチスクリーン、ジェスチャー認識システム、音声認識システム、又は当該技術分野で既知の他の入力装置のような、オプションの入力装置328からの入力を受け入れ得る。
メモリ314は、ここに記載された1つ以上の実施形態を実行するために処理ユニット306が実行し得るコンピュータプログラム命令(いくつかの実施形態では、モジュール又は要素として分類される)を含み得る。メモリ314は、一般に、RAM、ROM及び/又は他の持続的、補助的、又は非一時的のコンピュータ読み取り可能媒体を含み得る。メモリ314は、処理ユニット306がコンピューティングシステム302の一般的な管理及びオペレーションにおいて使用するための、コンピュータプログラム命令を提供するオペレーティングシステム318を格納し得る。メモリ314は、さらに、本開示の局面を実現するために、コンピュータプログラム命令及び他の情報を含み得る。例えば、ある実施形態では、メモリ314は、コンピューティングシステムによって表示のためにユーザーインターフェイス(及び/又はそのための指示)を生成するユーザインターフェイスモジュール316を含み得る(コンピューティングシステム302によって又はディスプレイのためにコンピューティングシステム302によって生成される、ユーザーインターフェイス又は他のコンテンツを受信する別のコンピューティングデバイスによるような)。
いくつかの実施形態では、メモリ314は広告選択モジュール320を含み得て、それは表示のための広告コンテンツを選択するために、処理ユニット306によって実行され得る。例えば、広告ビデオ又は画像コンテンツは、ベースとなるビデオで検出されたオブジェクト又は他のコンテンツに基づいて選択されてもよい(例えば、ビデオデータの自動分析から求められたスポーツ、チーム、会場及び/又は他の情報に応じて)。スポーツ、チーム、会場及び/又は関連するデータは、2017年9月19に出願された出願人が同一で同時係属中の「MACHINE LEARNING MODELS FOR IDENTIFYING SPORTS TEAMS DEPICTED IN IMAGE OR VIDEO DATA」と題された、米国特許出願第15/709,168に記載されているシステムと方法を使用したビデオデータで検出され得て、それはその全体が参照によりここで援用される。いくつかの実施形態では、広告選択モジュール320は、2017年9月19日に出願された出願人が同一で同時係属中の「AUTOMATED CONTROL OF DISPLAY DEVICES,」と題された米国特許出願第15/709,225号に記載されているリアルタイムの入札技術及び方法を用いるような、様々なファクターに基づいて、イベントビデオの一部内で拡張される広告又は他のスポンサーコンテンツをマッチングさせるためのビッディング技術を採用し得て、それはその全体が参照によりここで援用される。
メモリ314は、さらに、領域検出モジュール322を含み得る。それは、ここに記載されるさまざまな実施形態(図2Bに関連して上で記載された操作のような)に従って、広告又は他の拡張のために、ネガティブスペース領域又は他のターゲット領域を特定及び分析することに関連するある操作を実行するために、処理ユニット306によって実行され得る。メモリ314はまた、ビデオ拡張モジュール324を含み得る。それは、ここに記載されたさまざまな実施形態(図2Aに関連して上で記載された操作のような)に従って、ビデオデータを拡張することに関連付けられた他の操作を実行するために、処理ユニット306によって実行され得る。モジュール320、322及び/又は324は、上で記載されたデータを取得する及び/又はデータを記憶するために、データ記憶330及び/又は322にアクセスし得る。
ビデオデータ記憶332は、さまざまなイベント放送及び/又は他のビデオファイルの、DVRに記録されたもの又はインターネットアクセス可能なビデオソースからアクセスされたもののようなデジタルビデオデータを記憶し得る。代替として、ビデオデータ記憶332内のビデオデータは、コンテンツが分析され及び拡張される時に、リアルタイムで又はほぼリアルタイムでストリーミングソースから受け取られてもよい(例えば、ビデオデータは、ビデオデータ記憶332内に、一時的に記憶され、、キャッシュされ、又はバッファリングされているだけであってもよい)。広告データ記憶330は、関連付けられたスポンサー、入札、キーワード、及び/又は広告コンテンツに関連付けられた他の情報を特定する情報と共に、イメージ又はビデオの形式の広告コンテンツ(又は視覚的形式での表示のために、コンピューティングシステム302によって解釈されるテキストデータ又は他の非画像データ)を含み得る。コンピューティングシステム302が、広告コンテンツ以外の拡張コンテンツでビデオデータを拡張するように構成されている実施形態では、広告データ記憶330は、追加として又は代替として、そのようなコンテンツを記憶し得る。
データ記憶のそれぞれは、コンピューティングシステム302の一部であってもよく、コンピューティングシステム302からリモートであってもよく、及び/又はネットワークベースのサービスであってもよい。追加として、いくつかの実施形態では、コンピューティングシステム302にアクセス可能な1つ以上のデータ記憶は、画像又はビデオフレーム内に現れるオブジェクト又は領域を特定するために、ビデオフレーム又は画像の分類のために使用される、訓練されたモデル及びデータを記憶し得る(図3では不図示)。
いくつかの実施形態では、ネットワークインターフェイス308は、1つ以上のネットワーク又はコンピューティングシステムへの接続性を提供し得て、及び処理ユニット306は、1つ以上のネットワークを経由して、他のコンピューティングシステム又はサービスから、情報及び命令を受信し得る。図3に図示された例では、ネットワークインターフェイス308は、インターネットのような、ネットワーク336を経由して、オプションのサードパーティ広告サービス301、オプションのビデオプロバイダ303及びオプションの放送業者305と接続し得る。特に、コンピューティングシステム302は、ネットワーク336を通してコンピューティングシステム303に通信を送るために、ネットワーク336と通信リンク342(例えば、既知のプロトコルを使用して)を確立し得る。同様に、サードパーティ広告サービス301、ビデオプロバイダ303及び放送事業者305は、有線又は無線通信リンク(リンク340及び341のような)を経由して、ネットワーク336を通して、コンピューティングシステム302へ通信を送り、それから通信を受け取り得る。サードパーティ広告サービス301は、ここに記載されたように、与えられたビデオに追加するために、コンピューティングシステム302のために、広告コンテンツを供給し得る。いくつかの実施形態では、ビデオプロバイダ303は、テレビ放送局、ケーブル又は衛星ベースのテレビサービス、オンラインビデオ共有プラットフォーム、及び/又はコンピューティングシステム302によって拡張されるべきビデオデータのための他のビデオソースであってもよい。放送事業者305は、下流の視聴者に配信するためにコンピューティングシステム302によって生成された拡張されたビデオデータの受信者であり得て、及びビデオプロバイダサービス303と同様の1つ以上のサービス又はエンティティを含んでいてもよい。
当業者は、コンピューティングシステム301、302、303及び305は、それぞれ、ラップトップコンピュータ、パーソナルコンピュータ、パーソナルデジタルアシスタント(PDA)、PDA/携帯電話の一体型機器、携帯電話、スマートフォン、ウェアラブルコンピューティングデバイス、電子ブックリーダー、デジタルメディアプレーヤー、タブレットコンピュータ、ゲームコンソール又はコントローラ、キオスク、拡張現実装置、他のワイヤレスデバイス、セットトップボックス又は他のテレビボックス、1つ以上のサーバ、及び/又はその類似物を含むが、これらに限定されない、いくつかのコンピューティングシステムのうちの任意のものであり得ることを認識するであろう。
図4Aは、レースカーの検出された位置を特定するバウンディングボックス404及び406を含むイベントビデオ402のフレームを描写し、図4Bは、コンピューティングシステムによって求められた対応するヒートマップデータ412を図式的に示す。ヒートマップ表現の例がここでは提供されているが、他の実施形態では、コンピューティングシステムは、ヒートマップデータよりむしろマスクを出力するセグメンテーション技術を適用してもよい。図4Cは、検出されたレースカー404及び406に関連付けられた、拡張されたグラフィック情報434及び436だけではなく、レーストラック上でスーパーインポーズされた会社のロゴ又は広告432も含む、拡張されたビデオのサンプルフレーム430(拡張後の402と同じフレームであってもよい)である。拡張コンテンツ434及び436は、ビデオに描写された関連する現実世界のオブジェクト(レースカー)の動きを追尾するために、フレームからフレームへ移動し得る。ロゴ432は、1つの例として、カメラ及び車がフレームからフレームへと移動する時に、車の1つ又はトラックの与えられたレーンに対して、ある位置に固定されているように見えてもよい。例えば、ドライバーが左に曲がる時にヘルメット又はダッシュボードのカメラがシーンをキャプチャする時は、ロゴはフレーム内で右に移動し得て、その結果、レーンマーカーからある位置的なずれを維持するようにそれぞれのフレーム内で見える。
図5Aは、バスケットボールの試合のテレビ放送ビデオのサンプルフレーム502を描写する。図5Bは、図5Aのフレーム内で検出された観衆領域(「観衆1.000」のラベルが付されて現れる)を描写する。図5Bは、コンピューティングシステムによって求められた、ある閾値の信頼度を超える、候補の観衆領域を決定するコンピューティングシステムによって実行される中間ステップの出力の図式的描写であるとみなされ得る。図5Cは、中間ステップの、他の図式的な描写であり、それは、図5Aのフレーム内の1つ以上の広告を掲載しても安全だと検出された領域(この場合、検出された観衆)のヒートマップデータに対してバウンディングボックス512を描写する。
図5Dは、図5Aのフレーム内で検出された広告掲載が安全な領域(平面表面522として描写されており、それは実際には現実世界のシーンの1部ではない)のために求められた3次元追尾及び姿勢データ524の図式的表現を含む、マーク付きフレーム520を描写する。図5Eは、ビデオデータのフレームを拡張するために使用するための、図5Aのフレーム内で検出された観衆領域に関連付けられたマスクデータ530を描写する。上で述べられたように、マスクは、移動するオブジェクト及び/又は前景のオブジェクトに対応するピクセルを除外するために、コンピューティングシステムによって生成されてもよい。図5Fは、図5Eのマスクに基づいて適用された、検出された観衆領域内の広告データ542を含む、図5Aのフレーム502の拡張されたバージョン540を描写する。拡張コンテンツは、不透明として図示されるが、、他の場合では、拡張コンテンツの表示位置内の個々のピクセルが、元のキャプチャされたシーンのピクセルの色値と拡張コンテンツのピクセルの色値との混合に基づく色値を有するように、拡張コンテンツが半透明(例えば、100%未満の不透明度)に見えてもよい。
図6Aは、広告コンテンツ604が、観衆領域の姿勢に一致するように、観衆領域内にスーパーインポーズされているバスケットボールの試合からのビデオデータの拡張フレーム602を描写する。図6Bは、関連する観衆領域の新しい位置を追尾するために、スーパーインポーズされた広告コンテンツ614が、フレームの違った位置に現れる図6Aのバスケットボールの試合からのビデオデータの追加の拡張フレーム612を描写する。フレーム602及び612の間のいくつかのフレーム(例えば、8秒の期間)においては、カメラは、その右にパンし及びオンコートのアクションを追うためにズームインしていてもよく、その場合は、スーパーインポーズされた広告が、それぞれのフレームを通して一貫して同じ現実世界のオブジェクト(人及びスタンド)にあたかも実際に投影されたかのように、広告コンテンツは観衆の特定の部分に「固定された」ように見えるはずである。広告コンテンツは、その出現の間中、動画にし得て又は連続したビデオとして現れ得て、及び拡張されたフィードに含まれる前後(それぞれ)に、視覚的にフェードイン及びフェードアウトしてもよい。この拡張は、ライブの試合が放送されている時にリアルタイムで起こり得てもよく、それによれば、広告は、ライブのテレビフィードに現れ得て、又は後で追加され得る(ゲームのハイライトがソーシャルメディアに投稿される時又は個々のユーザがオンデマンドビデオサービス又はインターネットソースを経由してクリップを見ることを選択した時のような)。
上で記載されてきたように、1つの実施形態は、メモリと、前記メモリと通信するプロセッサを備え、操作を実行するためのプロセッサで実行可能な命令を持つように構成されたコンピューティングシステムを含み得る。この操作は、ビデオカメラによってキャプチャされた実世界のシーンを描写するビデオデータのフレームを少なくとも受け取ること、機械学習モデルを用いて、前記フレーム内に描写された1つ以上のオブジェクトを特定することであって、前記1つ以上のオブジェクトは、ビデオの主要なフォーカスではないバックグラウンドコンテンツを含む、特定すること、視覚拡張のための候補領域の前記フレーム内の位置を決定することであって、前記候補領域は、少なくとも1つの前記1つ以上のオブジェクトを含む、決定することと、前記候補領域における複数の個別画素又はオブジェクトのそれぞれについての深さ情報を推定すること、少なくとも部分的には前記深さ情報に基づいて、平面表面を前記候補領域にあてはめること、視覚拡張コンテンツを取得すること、レンダリングされた視覚拡張コンテンツを生成することであって、前記レンダリングされた視覚拡張コンテンツを生成することは、前記視覚拡張コンテンツを仮想的な3次元空間においてレンダリングすることによって、前記平面表面に対応する位置及び姿勢を有するようにすることを含む、視覚拡張コンテンツ生成すること、及び前記フレームを拡張することによって、前記フレームが前記候補領域内で前記レンダリングされた視覚拡張コンテンツを含み、拡張されたビデオフレームを形成することを含み得る。
いくつかの実施形態において、上記操作は、前記視覚拡張をレンダリングする前に、前記フレームをキャプチャした前記ビデオカメラの3次元位置及び姿勢を推定することをさらに含む。前記操作は、前記フレームの後で、前記ビデオカメラによってキャプチャされたビデオデータの第2フレームを受け取ること、前記第2フレームで、前記少なくとも1つの前記1つ以上のオブジェクトの新しい位置をすること、前記少なくとも1つの前記1つ以上のオブジェクトの、前記新しい位置少なくとも部分的に基づいて、視覚拡張のためのアップデートされた候補領域の前記第2フレーム内のアップデートされた位置を求めることであって、アップデートされた候補領域の前記第2フレーム内の前記アップデートされた位置は、前記候補領域の前記フレーム内の前記位置と異なる、アップデートされた位置を求めること、及び前記第2フレーム内の前記アップデートされた位置において、前記視覚拡張コンテンツのアップデートされたレンダリングを含むように前記第2フレームを拡張することをさらに含み得る。
上記操作は、新しいショットが検出されるか又は位置追尾が失敗するまで、前記拡張コンテンツのアップデートされたレンダリングによって、前記ビデオデータの連続するフレームを拡張することを継続することをさらに含み得る。他の実施形態では、前記操作は、前記ビデオカメラのパンする又はズームするアクションの間に、キャプチャされた複数のフレームのそれぞれの中において、前記視覚拡張コンテンツをレンダリングすることをさらに含み、前記複数のフレームのそれぞれの中でレンダリングされた前記視覚拡張コンテンツは、前記視覚拡張コンテンツの前記レンダリングのフレーム内位置が、前記複数のフレームの個々のフレームの間で変化する時に、前記現実世界のシーンの中で一貫した現実世界の位置を維持するように見える。
別の実施形態によれば、コンピュータは方法を実現し得る。前記方法は、ビデオカメラによってキャプチャされた現実世界のシーンを描写するビデオデータの少なくとも1つのフレームを受け取ること、前記フレーム内で、視覚拡張のための候補領域を特定することであって、前記候補領域は、機械学習モデルの出力及び視覚拡張のための予め設定された基準に少なくとも部分的に基づいて特定される、候補領域を特定すること、前記候補領域内の、複数の個々のピクセル又はオブジェクトのそれぞれについて、深度情報を推定すること、視覚拡張コンテンツを取得すること、レンダリングされた視覚拡張コンテンツを形成するために、仮想3次元空間において前記視覚拡張コンテンツをレンダリングすることであって、前記レンダリングされた視覚拡張コンテンツは、前記深度情報に少なくとも部分的に基づいて、前記フレームでキャプチャされた前記現実世界のシーンの1つ以上の部分に対応する位置と姿勢を有している、前記視覚拡張コンテンツをレンダリングすること、及び拡張されたビデオフレームを形成するために、前記候補領域内に前記レンダリングされた視覚拡張コンテンツを含むように前記フレームを拡張することを含み得る。
いくつかの実施形態において、機械学習モデルは、畳み込みニューラルネットワークである。別の実施形態において、前記候補領域が、現実世界の領域の予め設定されたタイプ又は前記現実世界のオブジェクトの予め設定されたタイプを含むという前記機械学習モデルによる判断に少なくとも部分的に基づいて特定される。1つの実施形態では、前記現実世界のシーンがスポーツのイベントであって、現実世界の領域の前記予め設定されたタイプが人からなる観衆であって、前記機械学習モデルは人からなる観衆を特定するように訓練される。1つの実施形態では、現実世界の領域の前記予め設定されたタイプ又は現実世界のオブジェクトの予め設定されたタイプは、背景の風景、空又は地面ののうちの1つを含む。
ある実施形態では、前記方法は、前記フレームの拡張することに先立って、前記候補領域内で拡張のためのピクセルを特定するマスクデータを生成することであって、前記フレームを拡張することは、前記マスクデータに基づいて、前記フレームのピクセル位置に、レンダリングされた視覚拡張コンテンツのピクセルを配置することを含む、マスクデータを生成することをさらに含み得る。別の実施形態では、前記方法は、前記候補領域を特定することに先立って、前記ビデオデータに関連付けられた権利保有者への提示のためのユーザーインターフェイスを生成することであって、前記ユーザーインターフェイスは、前記権利保有者が、拡張のための、現実世界の領域の前記予め設定されたタイプ又は現実世界のオブジェクトの予め設定されたタイプを承認することを可能にする、ユーザーインターフェイスを生成することをさらに含み得る。別の実施形態では、前記権利保有者に関連付けられた、以前にキャプチャされたビデオコンテンツのオートメーション化された分析に少なくとも部分的に基づいて、前記権利保有者へ提示するための、現実世界の領域の前記予め設定されたタイプ又は現実世界のオブジェクトの予め設定されたタイプを求めることであって、前記オートメーション化された分析は、前記以前にキャプチャされたビデオコンテンツのフレームの、十分に活用されていない領域を特定することを含む、予め設定されたタイプを求めることを含み得る。
1つ以上のコンピュータシステムによって実行される時に、操作を実行するように前記1つ以上のコンピュータシステムを構成するコンピュータが実行可能な命令を記憶する、非一時的なコンピュータ読み取り可能媒体もまた、開示されている。前記操作は、ビデオカメラによってキャプチャされた現実世界のシーンを描写する、ビデオデータの少なくとも1つのフレームを受け取ること、前記フレーム内で、視覚拡張のための候補領域を特定することであって、前記候補領域は機械学習モデルの出力に少なくとも部分的に基づいて特定される、候補領域を特定すること、前記候補領域内の複数の個々のピクセル又はオブジェクトのそれぞれについて、深度情報を推定すること、視覚拡張コンテンツを取得すること、レンダリングされた視覚拡張コンテンツを形成するために、仮想3次元空間において前記視覚拡張コンテンツをレンダリングすることであって、前記レンダリングされた視覚拡張コンテンツは、前記深度情報に少なくとも部分的に基づいて、前記フレーム内でキャプチャされた前記現実世界のシーンの1つ以上の部分に対応する位置及び姿勢を有している、前記視覚拡張コンテンツをレンダリングすること、及び拡張されたビデオフレームを形成するために、前記候補領域内に前記レンダリングされた視覚拡張コンテンツを含むように前記フレームを拡張することを含み得る。
前記操作はさらに、前記拡張コンテンツのアップデートされたレンダリングで前記ビデオデータの連続するフレームを拡張することさらに含み得て、前記アップデートされたレンダリングのそれぞれは、個々のフレームにおいてアップデートされた位置において含まれる、レンダリングであって、前記アップデートされた位置は、前記個々の連続するフレーム内で、少なくとも1つの現実世界のオブジェクトの新しい位置を追尾する。
ここで記載された任意の特定の実施形態に従っても必ずしも全ての目的又は優位性が達成されないことが理解されよう。よって、例えば当業者であれば、ある実施形態は、ここで教示される1つの優位性又は1つのグループの優位性群を達成又は最適化するが、ここで教示又は示唆された他の目的又は優位性を必ずしも達成しないように動作するよう構成され得ることを理解するだろう。
ここで記載された方法の全ては、1つ以上の汎用コンピュータ又はプロセッサを含み得る計算システムによって実行されるソフトウェアコードモジュールにおいて実現され得て、ソフトウェアコードモジュールを介して完全に自動化され得る。コードモジュールは、任意のタイプの非一時的なコンピュータ読み取り可能な媒体又は他のコンピュータ記憶デバイスにおいて記憶され得る。代替としてこれら方法の一部又は全部は、専用のコンピュータハードウェアにおいて実現され得る。加えて、ここで参照される要素は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組合せにおいて実現され得る。
ここで記載されたものとは違う多くの他の変化形がこの開示から明らかであろう。例えば、実施形態に依存して、ここで記載された任意のアルゴリズムのある種の行為、イベント、又は機能は、異なる順序で実行され得て、追加され、統合され、又はそもそも省略され得る(例えば、それらアルゴリズムの実施のためには、記載された行為又はイベントの全てが必要というわけではない)。さらにある実施形態では、行為又はイベントは、順次にではなく、例えば、マルチスレッド処理、割込処理、又はマルチプロセッサ又はプロセッサコア又は他のパラレルアーキテクチャを通して、同時に実行され得る。加えて、異なる行為又はプロセスは、共に機能し得る異なる機械及び/又は計算システムによって実行され得る。
ここで開示された実施形態に関連して記載されたさまざまな例示的論理ブロック、モジュール、及びアルゴリズム要素は、電子的ハードウェア、コンピュータソフトウェア、又はそれら両方の組合せとして実現され得る。ハードウェア及びソフトウェアのこの交換可能性を明らかに示すために、さまざまな例示的要素、ブロック、モジュール、及び要素は、それらの機能によって大まかには上で述べられてきた。そのような機能がハードウェア又はソフトウェアのどちらで実現されるかは、システム全体に課せられた具体的なアプリケーション及び設計の制約条件に依存する。記載された機能は、それぞれの具体的な応用例についてさまざまなやり方で実現され得るが、そのような実現例の判断は本開示の範囲からの逸脱を生じるものとしては解釈されるべきではない。
ここで開示された実施形態に関連して記載されているさまざまな例示的論理ブロック及びモジュールは、ここで記載された機能を実行するよう設計された、処理ユニット又はプロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラム可能なロジックデバイス、ディスクリートなゲート又はトランジスタロジック、ディスクリートなハードウェア要素、又はそれらの任意の組合せのような、機械によって実現又は実行され得る。プロセッサは、マイクロプロセッサであり得るが、代替として、プロセッサは、コントローラ、マイクロコントローラ、又はステートマシン、これらの組合せ等であり得る。プロセッサは、コンピュータで実行可能な命令を処理するよう構成された電気回路を含み得る。他の実施形態において、プロセッサは、コンピュータで実行可能な命令を処理することなく、論理操作を実行するFPGA又は他のプログラム可能なデバイスを含む。プロセッサは、計算デバイスの組合せとしても、例えば、DSP及びマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つ以上のマイクロプロセッサ、又は任意の他のそのような構成としても実現され得る。ここでは基本的にはデジタル技術について記載されているが、プロセッサは、基本的にアナログの要素も含み得る。例えば、ここで記載された信号処理アルゴリズムのうちの一部又は全部は、アナログ回路又は混合されたアナログ及びデジタル回路において実現され得る。計算環境は、以下には限定されないが、いくつかの例を挙げれば、マイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタルシグナルプロセッサ、携帯計算デバイス、又はデバイスコントローラを含む、任意のタイプのコンピュータシステムを含み得る。
ここで開示された実施形態に関連して記載された方法、プロセス、又はアルゴリズムの要素は、ハードウェアにおいて、1つ以上のメモリデバイス中に記憶され1つ以上のプロセッサによって実行されるソフトウェアモジュールにおいて、又はこれら2つの組合せにおいて直接に実現され得る。ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能なディスク、CD−ROM、又はこの分野で知られる任意の他の形態の非一時的コンピュータ読み取り可能な媒体、メディア、又は物理的コンピュータ記憶において常駐し得る。例示的記憶媒体は、プロセッサが記憶媒体から情報を読めるように、かつ記憶媒体に情報を書けるようにプロセッサに結合され得る。代替として、記憶媒体は、プロセッサと一体化され得る。記憶媒体は、揮発性又は不揮発性であり得る。
とりわけ「できる(can)」、「やろうと思えばできる(could)」、「ひょっとすれば〜かもしれない(might)」又は「でもよい(may)」のような条件的文言は、具体的にそうではないと述べられていない限り、ある実施形態はある特徴、要素及び/又はステップを含むが、他の実施形態はそれらを含まないと伝えるのに一般に用いられる文脈の範囲内でそうでなければ理解される。よって、そのような条件的文言は、特徴、要素及び/又はステップが、1つ以上の実施形態についていかなる場合も必要であることを又は1つ以上の実施形態が、ユーザの入力又はプロンプトを使うにしても使わないにしても、これら特徴、要素及び/又はステップが含まれる又は任意の特定の実施形態において実行されるべきであると判断するためのロジックを必然的に含むことを示唆するようには一般には意図されない。
「X、Y、又はZのうちの少なくとも1つ」というフレーズのような選言的な文言は、そうではないと具体的に述べられない限り、アイテム、語等がX、Y、又はZのうちのいずれかであるか、又はそれらの任意の組合せであり得る(例えばX、Y、及び/又はZ)ことを一般には示すように用いられる文脈と共にそうでなければ理解される。よって、そのような選言的な文言は、ある実施形態は、Xのうちの少なくとも1つ、Yのうちの少なくとも1つ、又はZのうちの少なくとも1つがそれぞれ存在することを要求するとは一般には意図されておらず、そういうことを要求すると示唆されてはいるのではない。
ここで記載された及び/又は添付の図に示されたフロー図における任意の方法の記載、要素又はブロックは、そのプロセスの中で特定の論理機能又は要素を実現するための1つ以上の実行可能な命令を含むコードのモジュール、セグメント、又は部分を潜在的には表現すると理解されるべきである。当業者によって理解されるように関連する機能に依存して、要素又は機能が削除されたり、実質的に同時に実行されることを含む、示された又は説明された順序とは異なるように実行されたり、逆の順序で実行されたりする代替の実現例は、ここで記載される実施形態の範囲の中に含まれる。
明示的に述べられない限り、「a」又は「an」のような冠詞は、一般に1つ以上の記載されたアイテムを含むように解釈されるべきである。したがって、「〜するよう構成されたデバイス」のようなフレーズは、1つ以上の記載されたデバイスを含むように意図される。そのような1つ以上の記載されたデバイスは、述べられた記載を実行するよう集合的にも構成され得る。例えば、「記載A、B及びCを実行するよう構成されたプロセッサ」は、記載B及びCを実行するよう構成された第2プロセッサと関連して働く、記載Aを実行するよう構成された第1プロセッサを含み得る。
多くの変化形及び変更が、上で記載された実施形態になされ得ることが強調されるべきであり、それらの要素は、他の許容可能な例に含まれているものとして理解されるべきである。そのような変化形及び変更の全ては、本開示の範囲内でここに含まれることが意図されている。
Claims (15)
- メモリと、
前記メモリと通信するプロセッサであって、プロセッサで実行可能な命令によって、
ビデオカメラによってキャプチャされた実世界のシーンを描写するビデオデータのフレームを少なくとも受け取ること、
機械学習モデルを用いて、前記フレーム内に描写された1つ以上のオブジェクトを特定することであって、前記1つ以上のオブジェクトは、ビデオの主要なフォーカスではないバックグラウンドコンテンツを含む、特定すること、
視覚拡張のための候補領域の前記フレーム内の位置を決定することであって、前記候補領域は、少なくとも1つの前記1つ以上のオブジェクトを含む、決定することと、
前記候補領域における複数の個別画素又はオブジェクトのそれぞれについての深さ情報を推定すること、
少なくとも部分的には前記深さ情報に基づいて、平面表面を前記候補領域にあてはめること、
視覚拡張コンテンツを取得すること、
レンダリングされた視覚拡張コンテンツを生成することであって、前記レンダリングされた視覚拡張コンテンツを生成することは、前記視覚拡張コンテンツを仮想的な3次元空間においてレンダリングすることによって、前記平面表面に対応する位置及び姿勢を有するようにすることを含む、視覚拡張コンテンツ生成すること、及び
前記フレームを拡張することによって、前記フレームが前記候補領域内で前記レンダリングされた視覚拡張コンテンツを含み、拡張されたビデオフレームを形成すること
を含む操作を実行するよう構成されたプロセッサと、
を備えるコンピューティングシステム。 - 前記操作は、
前記視覚拡張をレンダリングする前に、前記フレームをキャプチャした前記ビデオカメラの3次元位置及び姿勢を推定することをさらに含む、
請求項1に記載のコンピューティングシステム。 - 前記操作は、
前記フレームの後で、前記ビデオカメラによってキャプチャされたビデオデータの第2フレームを受け取ること、
前記第2フレームで、前記少なくとも1つの前記1つ以上のオブジェクトの新しい位置を追尾すること、
前記少なくとも1つの前記1つ以上のオブジェクトの、前記新しい位置に少なくとも部分的に基づいて、視覚拡張のためのアップデートされた候補領域の前記第2フレーム内のアップデートされた位置を求めることであって、アップデートされた候補領域の前記第2フレーム内の前記アップデートされた位置は、前記候補領域の前記フレーム内の前記位置と異なる、アップデートされた位置を求めること、及び
前記第2フレーム内の前記アップデートされた位置において、前記視覚拡張コンテンツのアップデートされたレンダリングを含むように前記第2フレームを拡張することをさらに含む
請求項1に記載のコンピューティングシステム。 - 前記操作は、
新しいショットが検出されるか又は位置追尾が失敗するまで、前記視覚拡張コンテンツのアップデートされたレンダリングによって、前記ビデオデータの連続するフレームを拡張することを継続することをさらに含む
請求項3に記載のコンピューティングシステム。 - 前記操作は、前記ビデオカメラのパンする又はズームするアクションの間にキャプチャされた複数のフレームのそれぞれの中において前記視覚拡張コンテンツをレンダリングすることをさらに含み、前記複数のフレームのそれぞれの中でレンダリングされた前記視覚拡張コンテンツは、前記視覚拡張コンテンツの前記レンダリングのフレーム内位置が、前記複数のフレームの個々のフレームの間で変化する時に、現実世界のシーンの中で一貫した現実世界の位置を維持するように見える
請求項1に記載のコンピューティングシステム。 - ビデオカメラによってキャプチャされた現実世界のシーンを描写するビデオデータの少なくとも1つのフレームを受け取ること、
前記フレーム内で、視覚拡張のための候補領域を特定することであって、前記候補領域は、機械学習モデルの出力及び視覚拡張のための予め設定された基準に少なくとも部分的に基づいて特定される、候補領域を特定すること、
前記候補領域内の、複数の個々のピクセル又はオブジェクトのそれぞれについて、深度情報を推定すること、
視覚拡張コンテンツを取得すること、
レンダリングされた視覚拡張コンテンツを形成するために、仮想3次元空間において前記視覚拡張コンテンツをレンダリングすることであって、前記レンダリングされた視覚拡張コンテンツは、前記深度情報に少なくとも部分的に基づいて、前記フレームでキャプチャされた前記現実世界のシーンの1つ以上の部分に対応する位置と姿勢を有している、前記視覚拡張コンテンツをレンダリングすること、及び
拡張されたビデオフレームを形成するために、前記候補領域内に前記レンダリングされた視覚拡張コンテンツを含むように前記フレームを拡張すること
を含む
コンピュータによって実現される方法。 - 前記機械学習モデルは、畳み込みニューラルネットワークである、
請求項6に記載のコンピュータによって実現される方法。 - 前記候補領域が、現実世界の領域の予め設定されたタイプ又は前記現実世界のオブジェクトの予め設定されたタイプを含むという前記機械学習モデルによる判断に少なくとも部分的に基づいて特定される
請求項6に記載のコンピュータによって実現される方法。 - 前記現実世界のシーンがスポーツのイベントであって、現実世界の領域の前記予め設定されたタイプが人からなる観衆であって、前記機械学習モデルは人からなる観衆を特定するように訓練される、
請求項8に記載のコンピュータによって実現される方法。 - 現実世界の領域の前記予め設定されたタイプ又は現実世界のオブジェクトの予め設定されたタイプは、背景の風景、空又は地面のうちの1つを含む、
請求項8に記載のコンピュータによって実現される方法。 - 前記フレームの拡張することに先立って、前記候補領域内で拡張のためのピクセルを特定するマスクデータを生成することであって、前記フレームを拡張することは、前記マスクデータに基づいて、前記フレームのピクセル位置に、レンダリングされた視覚拡張コンテンツのピクセルを配置することを含む、マスクデータを生成すること、
をさらに含む、
請求項6に記載のコンピュータによって実現される方法。 - 前記候補領域を特定することに先立って、前記ビデオデータに関連付けられた権利保有者への提示のためのユーザーインターフェイスを生成することであって、前記ユーザーインターフェイスは、前記権利保有者が、拡張のための、現実世界の領域の前記予め設定されたタイプ又は現実世界のオブジェクトの予め設定されたタイプを承認することを可能にする、ユーザーインターフェイスを生成すること、
をさらに含む、
請求項8に記載のコンピュータによって実現される方法。 - 前記権利保有者に関連付けられた、以前にキャプチャされたビデオコンテンツのオートメーション化された分析に少なくとも部分的に基づいて、前記権利保有者へ提示するための、現実世界の領域の前記予め設定されたタイプ又は現実世界のオブジェクトの予め設定されたタイプを求めることであって、前記オートメーション化された分析は、前記以前にキャプチャされたビデオコンテンツのフレームの、十分に活用されていない領域を特定することを含む、予め設定されたタイプを求めること、
をさらに含む、
請求項12に記載のコンピュータによって実現される方法。 - 1つ以上のコンピュータシステムによって実行される時に、
ビデオカメラによってキャプチャされた現実世界のシーンを描写する、ビデオデータの少なくとも1つのフレームを受け取ること、
前記フレーム内で、視覚拡張のための候補領域を特定することであって、前記候補領域は機械学習モデルの出力に少なくとも部分的に基づいて特定される、候補領域を特定すること、
前記候補領域内の複数の個々のピクセル又はオブジェクトのそれぞれについて、深度情報を推定すること、
視覚拡張コンテンツを取得すること、
レンダリングされた視覚拡張コンテンツを形成するために、仮想3次元空間において前記視覚拡張コンテンツをレンダリングすることであって、前記レンダリングされた視覚拡張コンテンツは、前記深度情報に少なくとも部分的に基づいて、前記フレーム内でキャプチャされた前記現実世界のシーンの1つ以上の部分に対応する位置及び姿勢を有している、前記視覚拡張コンテンツをレンダリングすること、及び
拡張されたビデオフレームを形成するために、前記候補領域内に前記レンダリングされた視覚拡張コンテンツを含むように前記フレームを拡張すること、
を含む操作を実行するように前記1つ以上のコンピュータシステムを構成する、コンピュータが実行可能な命令を記憶する、非一時的なコンピュータ読み取り可能媒体。 - 前記操作はさらに、前記視覚拡張コンテンツのアップデートされたレンダリングで前記ビデオデータの連続するフレームを拡張することをさらに含み、前記アップデートされたレンダリングのそれぞれは、個々のフレームにおいてアップデートされた位置において含まれる、レンダリングであって、前記アップデートされた位置は、前記個々の連続するフレーム内で、少なくとも1つの現実世界のオブジェクトの新しい位置を追尾する、
請求項14に記載の非一時的なコンピュータ読み取り可能媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862619025P | 2018-01-18 | 2018-01-18 | |
US62/619,025 | 2018-01-18 | ||
PCT/US2019/013848 WO2019143722A1 (en) | 2018-01-18 | 2019-01-16 | Augmenting detected regions in image or video data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021511729A true JP2021511729A (ja) | 2021-05-06 |
Family
ID=65324611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020539263A Pending JP2021511729A (ja) | 2018-01-18 | 2019-01-16 | 画像、又はビデオデータにおいて検出された領域の拡張 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11019283B2 (ja) |
JP (1) | JP2021511729A (ja) |
GB (1) | GB2583676B (ja) |
WO (1) | WO2019143722A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023243048A1 (ja) * | 2022-06-16 | 2023-12-21 | 日本電信電話株式会社 | 情報提示装置、情報提示方法、及びプログラム |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9332285B1 (en) * | 2014-05-28 | 2016-05-03 | Lucasfilm Entertainment Company Ltd. | Switching modes of a media content item |
US10222932B2 (en) | 2015-07-15 | 2019-03-05 | Fyusion, Inc. | Virtual reality environment based manipulation of multilayered multi-view interactive digital media representations |
US10242474B2 (en) | 2015-07-15 | 2019-03-26 | Fyusion, Inc. | Artificially rendering images using viewpoint interpolation and extrapolation |
US11095869B2 (en) | 2015-09-22 | 2021-08-17 | Fyusion, Inc. | System and method for generating combined embedded multi-view interactive digital media representations |
US11783864B2 (en) | 2015-09-22 | 2023-10-10 | Fyusion, Inc. | Integration of audio into a multi-view interactive digital media representation |
US10437879B2 (en) | 2017-01-18 | 2019-10-08 | Fyusion, Inc. | Visual search using multi-view interactive digital media representations |
US10313651B2 (en) | 2017-05-22 | 2019-06-04 | Fyusion, Inc. | Snapshots at predefined intervals or angles |
US11069147B2 (en) | 2017-06-26 | 2021-07-20 | Fyusion, Inc. | Modification of multi-view interactive digital media representation |
US11113887B2 (en) * | 2018-01-08 | 2021-09-07 | Verizon Patent And Licensing Inc | Generating three-dimensional content from two-dimensional images |
US10592747B2 (en) * | 2018-04-26 | 2020-03-17 | Fyusion, Inc. | Method and apparatus for 3-D auto tagging |
US10880533B2 (en) * | 2018-06-25 | 2020-12-29 | Canon Kabushiki Kaisha | Image generation apparatus, image generation method, and storage medium, for generating a virtual viewpoint image |
CN109003237A (zh) * | 2018-07-03 | 2018-12-14 | 深圳岚锋创视网络科技有限公司 | 全景图像的天空滤镜方法、装置及便携式终端 |
CN113508604B (zh) | 2019-02-28 | 2023-10-31 | 斯塔特斯公司 | 从广播视频生成可跟踪视频帧的系统及方法 |
WO2020197974A1 (en) * | 2019-03-22 | 2020-10-01 | William Bohannon Mason | System and method for augmenting casted content with augmented reality content |
WO2020219865A1 (en) | 2019-04-24 | 2020-10-29 | Matthew Walker | System and method for real-time camera tracking to form a composite image |
US11373318B1 (en) | 2019-05-14 | 2022-06-28 | Vulcan Inc. | Impact detection |
US11284130B2 (en) | 2019-06-14 | 2022-03-22 | GumGum, Inc. | Dynamic insertion of content within live streaming video |
US11356746B2 (en) * | 2019-06-14 | 2022-06-07 | GumGum, Inc. | Dynamic overlay video advertisement insertion |
JP7162750B2 (ja) * | 2019-09-12 | 2022-10-28 | 株式会社ソニー・インタラクティブエンタテインメント | 画像処理装置、画像処理方法、及び、プログラム |
CN110796085B (zh) * | 2019-10-29 | 2022-04-22 | 新华智云科技有限公司 | 一种基于深度学习物体检测算法的篮球进球片段ab队自动区分的方法 |
US20220398823A1 (en) * | 2019-11-10 | 2022-12-15 | Mirage Dynamics Ltd | Video Advertising Signage Replacement |
US11175730B2 (en) * | 2019-12-06 | 2021-11-16 | Facebook Technologies, Llc | Posture-based virtual space configurations |
US11816757B1 (en) * | 2019-12-11 | 2023-11-14 | Meta Platforms Technologies, Llc | Device-side capture of data representative of an artificial reality environment |
US11157744B2 (en) * | 2020-01-15 | 2021-10-26 | International Business Machines Corporation | Automated detection and approximation of objects in video |
US11599575B2 (en) | 2020-02-17 | 2023-03-07 | Honeywell International Inc. | Systems and methods for identifying events within video content using intelligent search query |
CN111383267B (zh) * | 2020-03-03 | 2024-04-05 | 重庆金山医疗技术研究院有限公司 | 一种目标重定位方法、设备及存储介质 |
CN111311665B (zh) * | 2020-03-12 | 2023-05-16 | 北京字节跳动网络技术有限公司 | 视频处理方法、装置及电子设备 |
US20230199194A1 (en) | 2020-05-27 | 2023-06-22 | Nec Corporaiton | Video processing device, video processing method, and recording medium |
CN112017300A (zh) * | 2020-07-22 | 2020-12-01 | 青岛小鸟看看科技有限公司 | 混合现实图像的处理方法、装置及设备 |
US11301715B2 (en) | 2020-08-03 | 2022-04-12 | Triple Lift, Inc. | System and method for preparing digital composites for incorporating into digital visual media |
US11625874B2 (en) | 2020-08-04 | 2023-04-11 | Triple Lift, Inc. | System and method for intelligently generating digital composites from user-provided graphics |
CN114501097A (zh) * | 2020-11-12 | 2022-05-13 | 微软技术许可有限责任公司 | 在视频中插入数字内容 |
CN114501127A (zh) * | 2020-11-12 | 2022-05-13 | 微软技术许可有限责任公司 | 在多画面视频中插入数字内容 |
US11798210B2 (en) * | 2020-12-09 | 2023-10-24 | Salesforce, Inc. | Neural network based detection of image space suitable for overlaying media content |
US11657511B2 (en) | 2021-01-29 | 2023-05-23 | Salesforce, Inc. | Heuristics-based detection of image space suitable for overlaying media content |
US11823415B2 (en) * | 2021-03-03 | 2023-11-21 | Nvidia Corporation | 3D pose estimation in robotics |
CN113038271B (zh) * | 2021-03-25 | 2023-09-08 | 深圳市人工智能与机器人研究院 | 视频自动剪辑方法、装置及计算机存储介质 |
CN113191293B (zh) * | 2021-05-11 | 2023-04-07 | 创新奇智(重庆)科技有限公司 | 广告检测方法、装置、电子设备、系统及可读存储介质 |
US11270517B1 (en) * | 2021-05-28 | 2022-03-08 | 4D Sight, Inc. | Systems and methods to insert supplemental content into presentations of two-dimensional video content |
CN115460456A (zh) * | 2021-06-08 | 2022-12-09 | 微软技术许可有限责任公司 | 数字内容添加的目标区域提取 |
CN117716398A (zh) * | 2021-08-20 | 2024-03-15 | 斯塔特斯公司 | 将实况嵌入式跟踪数据用于实况体育视频流内的方法和系统 |
CN113516672B (zh) * | 2021-09-07 | 2022-02-25 | 北京美摄网络科技有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN113988906B (zh) * | 2021-10-13 | 2024-05-28 | 咪咕视讯科技有限公司 | 广告投放方法、装置及计算设备 |
US11488348B1 (en) * | 2021-12-09 | 2022-11-01 | Unity Technologies Sf | Computing virtual screen imagery based on a stage environment, camera position, and/or camera settings |
US20240054690A1 (en) * | 2022-08-15 | 2024-02-15 | Disney Enterprises, Inc. | User Responsive Augmented Reality Enhancement of Moving Images |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5892554A (en) * | 1995-11-28 | 1999-04-06 | Princeton Video Image, Inc. | System and method for inserting static and dynamic images into a live video broadcast |
BR9608944A (pt) * | 1995-06-16 | 2000-10-24 | Princeton Video Image Inc | Sistema e processo de inserções em tempo real em vìdeo utilizando oclusão adaptativa com uma imagem de referência sintética |
US20150297949A1 (en) * | 2007-06-12 | 2015-10-22 | Intheplay, Inc. | Automatic sports broadcasting system |
US20080007567A1 (en) * | 2005-12-18 | 2008-01-10 | Paul Clatworthy | System and Method for Generating Advertising in 2D or 3D Frames and Scenes |
US20080077953A1 (en) * | 2006-09-22 | 2008-03-27 | Objectvideo, Inc. | Video background replacement system |
US8752087B2 (en) * | 2008-11-07 | 2014-06-10 | At&T Intellectual Property I, L.P. | System and method for dynamically constructing personalized contextual video programs |
CN102037483A (zh) * | 2008-12-19 | 2011-04-27 | 电子地图有限公司 | 将图像动态地映射在导航系统中的对象上 |
US8649592B2 (en) * | 2010-08-30 | 2014-02-11 | University Of Illinois At Urbana-Champaign | System for background subtraction with 3D camera |
US9711182B2 (en) * | 2011-06-07 | 2017-07-18 | In Situ Media Corporation | System and method for identifying and altering images in a digital video |
US9013553B2 (en) * | 2011-08-31 | 2015-04-21 | Rocks International Group Pte Ltd. | Virtual advertising platform |
EP2965506A1 (en) * | 2013-03-08 | 2016-01-13 | Affaticati, Jean-Luc | Method of replacing objects in a video stream and computer program |
WO2014170886A1 (en) * | 2013-04-17 | 2014-10-23 | Digital Makeup Ltd | System and method for online processing of video images in real time |
CN108647631B (zh) * | 2013-06-28 | 2023-04-07 | 日本电气株式会社 | 人群状态识别设备、方法和计算机可读记录介质 |
WO2017165538A1 (en) * | 2016-03-22 | 2017-09-28 | Uru, Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
CN106412643B (zh) | 2016-09-09 | 2020-03-13 | 上海掌门科技有限公司 | 一种互动视频广告植入方法和系统 |
US9881207B1 (en) * | 2016-10-25 | 2018-01-30 | Personify, Inc. | Methods and systems for real-time user extraction using deep learning networks |
US10937216B2 (en) * | 2017-11-01 | 2021-03-02 | Essential Products, Inc. | Intelligent camera |
US10685235B2 (en) * | 2017-12-28 | 2020-06-16 | Microsoft Technology Licensing, Llc | Querying video data with reduced latency and cost |
-
2019
- 2019-01-16 US US16/249,635 patent/US11019283B2/en active Active
- 2019-01-16 WO PCT/US2019/013848 patent/WO2019143722A1/en active Application Filing
- 2019-01-16 GB GB2011256.1A patent/GB2583676B/en active Active
- 2019-01-16 JP JP2020539263A patent/JP2021511729A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023243048A1 (ja) * | 2022-06-16 | 2023-12-21 | 日本電信電話株式会社 | 情報提示装置、情報提示方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20190222776A1 (en) | 2019-07-18 |
GB202011256D0 (en) | 2020-09-02 |
US11019283B2 (en) | 2021-05-25 |
GB2583676A (en) | 2020-11-04 |
WO2019143722A1 (en) | 2019-07-25 |
GB2583676B (en) | 2023-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11019283B2 (en) | Augmenting detected regions in image or video data | |
US11217006B2 (en) | Methods and systems for performing 3D simulation based on a 2D video image | |
US10861159B2 (en) | Method, system and computer program product for automatically altering a video stream | |
US20230083609A1 (en) | Virtual reality environment based manipulation of multi-layered multi-view interactive digital media representations | |
CN106664376B (zh) | 增强现实设备和方法 | |
US11625874B2 (en) | System and method for intelligently generating digital composites from user-provided graphics | |
US10937216B2 (en) | Intelligent camera | |
US7827488B2 (en) | Image tracking and substitution system and methodology for audio-visual presentations | |
US10575067B2 (en) | Context based augmented advertisement | |
US20170286993A1 (en) | Methods and Systems for Inserting Promotional Content into an Immersive Virtual Reality World | |
US20200359079A1 (en) | Augmented reality apparatus and method | |
JP6672305B2 (ja) | オブジェクト検出に基づき外挿画像を生成する方法及び装置 | |
US11533438B2 (en) | Method to configure a virtual camera path | |
JP2009505553A (ja) | ビデオストリームへの視覚効果の挿入を管理するためのシステムおよび方法 | |
KR20140082610A (ko) | 휴대용 단말을 이용한 증강현실 전시 콘텐츠 재생 방법 및 장치 | |
CN112927349B (zh) | 三维虚拟特效的生成方法、装置、计算机设备及存储介质 | |
Langlotz et al. | AR record&replay: situated compositing of video content in mobile augmented reality | |
US20110085018A1 (en) | Multi-User Video Conference Using Head Position Information | |
CN112840377A (zh) | 电子装置上用于增强实况观众体验的系统和方法 | |
US10225585B2 (en) | Dynamic content placement in media | |
US10984572B1 (en) | System and method for integrating realistic effects onto digital composites of digital visual media | |
CN112684893A (zh) | 信息展示方法、装置、电子设备及存储介质 | |
Okura et al. | [Poster] Indirect augmented reality considering real-world illumination change | |
Wong et al. | Markerless augmented advertising for sports videos | |
US11301715B2 (en) | System and method for preparing digital composites for incorporating into digital visual media |