JP2024501444A

JP2024501444A - メディアコンテンツのオーバーレイに適した画像スペースの検出

Info

Publication number: JP2024501444A
Application number: JP2023535081A
Authority: JP
Inventors: ルンディン，ジェシカ; レイノルズソラミ，マイケル; マーティンロス，アラン; ジェイ．ロンスドルフ，ブライアン; ジェイムスウッドワード，デービット; ウィンショップ，オーウェン; ローデ，ゼンケ
Original assignee: セールスフォースインコーポレイテッド
Priority date: 2020-12-09
Filing date: 2021-01-29
Publication date: 2024-01-12
Also published as: US20220180581A1; WO2022125127A1; CN116584100A; EP4218246A1; US11798210B2

Abstract

本明細書では、（ｉ）ニューラルネットワークベースのアプローチ、及び（ｉｉ）ヒューリスティックスベースのアプローチを使用して、メディアコンテンツを画像上にオーバーレイするのに適したスペースを検出するためのシステム、方法及びコンピュータ読取可能記憶媒体を開示する。システムは、画像又はビデオフレームであり得る候補画像を受け取る。ニューラルネットワークベースのアプローチでは、次いで、候補画像がニューラルネットワークに入力される。ニューラルネットワークは、メディアコンテンツを候補画像に挿入するための１つ以上の境界ボックスを表す座標と１つ以上の寸法とを出力し得る。ヒューリスティックスベースのアプローチでは、メディアコンテンツを挿入するための境界ボックスによって定義される挿入スペースを選択するためにヒューリスティックルールベースのアプローチを使用して更に分析されるスペースを提案するために、候補画像が画像処理技術を用いて処理される。その後、１つ以上のメディアコンテンツアイテムが、画像内の選択された境界ボックスへの挿入のために選択され得る。次いで、システムは、選択された境界ボックス内の画像上にオーバーレイされた選択されたメディアコンテンツアイテムとともに、画像を表示させる。

Description

関連出願の相互参照
本出願は、２０２０年１２月９日に出願された米国出願第１７／１１６,９４４号及び２０２１年１月２９日に出願された米国出願番号＜不明＞の（代理人整理番号３１３７１－４７９５２）の利益を主張するものであり、これらの各々は、その全体が参照により組み込まれる。

技術分野
本開示は、一般に、コンテンツを挿入することができる画像又はビデオフレーム内のスペースを検出する分野に関し、より具体的には、メディアコンテンツをオーバーレイするのに適したスペースのニューラルネットワークベースの検出及びヒューリスティックスベースの検出に関する。

多くの画像及びビデオフレームは、画像又はビデオフレームの重要な部分を覆い隠すことなくテキスト及び他のコンテンツを挿入することができるエリアを含む。これらのエリアは、コピースペースと呼ばれることがある。例えば画像又はビデオフレームは、船及びその船に乗っている人々に焦点を合わせることがある。しかしながら、その画像又はビデオフレームは、すべてが空及び／又は海であることが示されるエリアを含むことがある。これらのエリアは、テキスト又は他のメディアコンテンツ(例えば画像)を表示するために使用されることがある。一例では、これらのエリアは、視聴者（viewer）に追加のコンテンツアイテムを表示するために使用されることがある。別の例では、コピースペースは、リンク及び他の情報を画像又はビデオフレームに挿入するために使用されることがある。

現在、キュレータが画像にコピースペースをマークできるようにする様々なシステムが利用可能である。このプロセスは通常、何十万ものビデオフレームの画像をマークしなければならないとき、時間がかかり、非効率的である。したがって、画像及びビデオフレーム上のコピースペースを自動的かつ正確に識別することが望ましい。

開示される実施形態は、詳細な説明、添付の特許請求の範囲及び添付の図面（又は図）からより容易に明らかになる他の利点及び特徴を有する。図の簡単な紹介を以下に示す。

いくつかの実施形態による、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのニューラルネットワークベースのシステムを示す図である。

例示的な境界ボックスを有する画像を示す図である。

ニューラルネットワークの出力を表す対応するフィールドを有するデータ構造の例を示す図である。

候補画像の上にオーバーレイされている様々なメディアコンテンツアイテムを示す図である。

いくつかの実施形態による、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを選択するためのプロセス全体を示すフローチャートである。

いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な識別されたスペースを有する候補画像を示す図である。

いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。

いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。

いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な検出されたスペースを有する画像を示す図である。いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な検出されたスペースを有する画像を示す図である。いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な検出されたスペースを有する画像を示す図である。

いくつかの実施形態による、ヒューリスティックスベースのメディアコンテンツ挿入システムのブロック図である。

いくつかの実施形態による、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するための全体的なプロセスを示すフローチャートである。

図１及び図１０に示されるシステムのモジュールによって使用するために、機械読取可能媒体から命令を読み取り、プロセッサ（又はコントローラ）においてそれらを実行することができる例示的な機械の構成要素を示すブロック図である。

図面は、例示のみを目的として様々な実施形態を示す。当業者は、以下の議論から、本明細書に記載される実施形態の原理から逸脱することなく、本明細書に例示される構造及び方法の代替実施形態を採用してもよいことを容易に認識するであろう。

図面は、同様の要素を識別するために同様の参照番号を使用する。「１１５ａ」のような参照番号の後の文字は、本文がその特定の参照番号を有する要素を特に参照することを示す。「１１５」のような後続の文字を伴わない本文中の参照番号は、その参照番号を有する図中の要素のいずれか又はすべてを指す。

画像の上のテキストの配置は、高品質な視覚デザインを作成する重要な部分である。コピースペース検出のアプリケーションエリアは、電子メールバナー、ホームページ、コール・トゥー・アクション等の生成を含む。これらはほとんど手動で実行されるため、グラフィック資産の開発タスクに時間がかかり、設計者は、すべてデザインにおけるスタイル、ブランドの一貫性及びトーンのバランスをとりながら、メディア及びベクトルグラフィックスをキュレートして操作し、レイヤースタックを構築し、最終的にテキストを配置して書式設定を行う必要がある。テキスト要素の適切な位置と向き、及びスタイルを選択することによってこの作業を自動化することは、テキストを配置しなければならない画像のコンテンツを理解することを必要とする。さらに、テキストのようなメディアコンテンツが画像の上にレンダリングされ得るコピースペースのパラメータを確立することは、画像処理における前景－背景分離アプローチとは異なる。なぜなら、結果として得られる分離マップは、画像内の重要な視覚要素を乱すことなく、メディアコンテンツと潜在的にオーバーレイされる可能性がある画像の部分を考慮していない可能性があるからである。

本明細書では、画像の上にメディアコンテンツをオーバーレイするのに適したスペース（コピースペース）を検出するための方法論が開示される。提示される１つの方法論は、メディアコンテンツを画像の上にオーバーレイするのに適したスペース（コピースペース）を検出するためのニューラルネットワークベースのシステム、方法及びコンピュータ読取可能記憶媒体である。提示される別の方法論は、メディアコンテンツを画像の上にオーバーレイするのに適したスペース（コピースペース）を検出するためのヒューリスティックスベースのシステム、方法及びコンピュータ読取可能記憶媒体である。

コピースペース検出のためのニューラルネットワークベースのシステム
構成概要
画像の上にメディアコンテンツをオーバーレイするのに適したスペース（コピースペース）を検出するためのニューラルネットワークベースのシステム、方法及びコンピュータ読取可能記憶媒体を開示する。システムは、画像又はビデオフレームであり得る候補画像を受け取る。一般に、画像又はビデオフレームは、画像の重要な部分を覆うことなくメディアコンテンツを挿入するためのいくらかのスペースを有することがある。次いで、候補画像が、多数の画像と、複数の画像の各画像に対して１つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされたニューラルネットワークに入力される。ニューラルネットワークは、メディアコンテンツを候補画像に挿入するための１つ以上の境界ボックスを表す座標及び１つ以上の寸法（dimension）を出力し得る。１つ以上の境界ボックスは、境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求とともに送信されてもよい。要求は、１つ以上の境界ボックスの１つ以上の寸法を含んでよい。要求に応答して、メディアコンテンツアイテムを受け取ることができ、候補画像及び境界ボックス内の候補画像の上にオーバーレイされたメディアコンテンツアイテムを表示することができる。

メディアコンテンツ挿入プロセス
図１は、画像の上にメディアコンテンツをオーバーレイするのに適したスペースを検出するための例示的なシステムを示す。システムは、メディアコンテンツ記憶システム１００及びメディアコンテンツ挿入システム１６０を含んでよい。メディアコンテンツ挿入システム１６０は、通信モジュール１７０、境界ボックス検出モジュール１８０及びオーバーレイ生成モジュール１９０を含む。

通信モジュール１７０は、通信するためにハードウェア、ソフトウェア又はこれら２つの組合せを含んでよく、メディアコンテンツ挿入システム１６０によって他のシステム（例えばメディアコンテンツ記憶システム）及びデバイスと通信するために使用されてよい。通信モジュール１７０は、メディアコンテンツをオーバーレイするための候補画像を受け取ることがある。通信モジュール１７０は、別のデバイス又はメディアコンテンツ挿入システム内の位置から候補画像を受け取ることがある。候補画像は、任意の適切にフォーマットされた画像であってよい。いくつかの実施形態では、候補画像は、ビデオコンテンツアイテムのフレームであってよい。通信モジュール１７０は、候補画像を境界ボックス検出モジュール１８０に渡し得る。

境界ボックス検出モジュール１８０は、通信モジュール１７０から候補画像を受信し、該候補画像を処理してよい。境界ボックス検出モジュール１８０は、候補画像をニューラルネットワークに入力して、出力として１つ以上の境界ボックスを受け取ることができる。入力操作は、ニューラルネットワークがトレーニングデータでトレーニングされた後に行われる。この例におけるトレーニングデータは、画像と、各画像に対して１つ以上の対応する境界ボックスとを含む。いくつかの実施形態では、ニューラルネットワークは畳み込みニューラルネットワークであってよい。ネットワークは、ベクトルに変換された画像ピクセルを入力として使用してよい。いくつかの実施形態では、ニューラルネットワークは、入力層、隠れ層及び出力層を含む多層パーセプトロンであってもよい。このタイプのネットワークは、他の層を含んでもよい。

本明細書で言及されるとき、境界ボックスは、メディアコンテンツを配置するための画像上のエリアを指す。境界ボックスは長方形として示されているが、境界ボックスは、これらに限定されないが、正方形、円形、五角形及び他の適切な形状を含む任意の形状であってもよい。境界ボックスは、不規則な寸法のものであってもよく、かつ／又は複数の形状を含んでもよい。

例えば境界ボックスは、候補画像上の１つ以上の座標と、１つ以上の座標から延びる１つ以上の寸法とを含む長方形によって表されてよい。いくつかの実施形態では、境界ボックスは、候補画像の左上隅から水平方向及び垂直方向のピクセル数に関してカウントされる座標と２つの寸法によって表されてよい。この座標は、境界ボックスの左上隅を表してよい。２つの寸法は、座標から伸びる垂直オフセットと水平オフセットを含んでよい。座標とオフセットに基づいて、オフセットに基づくエリアと、座標に基づく位置とを有する長方形の境界ボックスが生成され得る。

図２は、例示的な対応する境界ボックスを有する画像を示す。画像２００は、境界ボックス２０２を示す。しかしながら、異なるサイズ／形状の境界ボックスが画像２００に追加されてもよい。画像２２０は、２つの対応する境界ボックス（境界ボックス２２２及び境界ボックス２２４）とともに示される。境界ボックス２２２及び境界ボックス２２４は長方形として図示されているが、これらの境界ボックスは異なる形状及びサイズであってもよい。

いくつかの実施形態では、メディアコンテンツ挿入システム１６０は、ニューラルネットワークから、候補画像の水平軸に沿った第１オフセットを表す第１座標と、候補画像の垂直軸に沿った第２オフセットを表す第２座標とを受け取り得る。２つの座標は、候補画像上の特定のピクセルを表してよい。ピクセルは、境界ボックスに関連付けられる点として機能し得る。例えば上述したように、点は、円の中心、長方形、三角形、正方形の角又は別の適切な点であってよい。メディアコンテンツ挿入システム１６０は、水平軸に沿って第１座標から延びる第１寸法を受け取り得る。例えば第１寸法は、メディアコンテンツ挿入システム１６０が境界ボックスに関連付けられる（例えば水平方向で）次の点を計算するために使用することがある単位（例えばピクセル）の数であってよい。いくつかの実施形態において、第１寸法は、円の直径、円の半径、長方形の辺、正方形の辺又は三角形の辺に対応してもよい。

いくつかの実施形態では、メディアコンテンツ挿入システム１６０は、垂直軸に沿って第２座標から延びる第２寸法を受け取り得る。第２寸法は、メディアコンテンツ挿入システム１６０が、境界ボックスに関連付けられる（例えば垂直方向で）次の点を計算するために使用することがある単位（例えばピクセル）の数であってよい。いくつかの実施形態において、第２寸法は、楕円形の半径又は直径、長方形又は三角形の第２の辺に対応してもよい。いくつかの実施形態では、受け取った境界ボックスは１つの寸法のみを有していることがあり、第２寸法は示されないことがある。

いくつかの実施形態では、メディアコンテンツ挿入システム１６０は、対応する境界ボックスが、メディアコンテンツを候補画像に挿入するのに適した候補画像上のエリア内に位置する確率を受け取ってもよい。例えばニューラルネットワークは、境界ボックスが、メディアコンテンツを候補画像に挿入するための有効な境界ボックスである確率をそれぞれ有する、多数の可能性のある境界ボックスを返してもよい。境界ボックス検出モジュール１８０は、各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断することができる。例えば閾値確率は、パーセンテージ値、０と１の間の値又は別の適切な値であってよい。閾値確率は、例えば．５、.８．.９に又は別の適切な値に設定されてよい。境界ボックス検出モジュール１８０は、例えばメモリから閾値確率を取り出してよい。特定の境界ボックスの確率が閾値確率を満たさないという決定に応答して、境界ボックス検出モジュール１８０は、その特定の境界ボックスを要求から除外する。すなわち、ニューラルネットワークから受け取った境界ボックスは、確率に基づいてフィルタリングされ得る。

図３は、境界ボックスを表すニューラルネットワークの出力を表す、対応するフィールドを有するデータ構造の例を示す。図３のデータ構造３００は、１つ以上のフィールドを含んでよい。フィールド３０２は、境界ボックスに関連付けられる１つ以上の座標を含んでよい。例えばフィールド３０２は、長方形境界ボックスの角の座標、円形境界ボックスの中心又は境界ボックスに関連付けられる別の適切な点を含んでよい。いくつかの実施形態では、フィールド３０２は、境界ボックスを表す点のベクトルを含んでよい。フィールド３０４は、フィールド３０２内の座標によって表される点からオフセットされる単位（例えばピクセル）の数として記憶される第１寸法を含んでよい。フィールド３０６は、フィールド３０２内の座標によって表される点からオフセットされる単位（例えばピクセル）の数として記憶される第２寸法を含んでよい。データ構造３００に記憶される他の寸法が存在してもよい。フィールド３０８は、特定のデータ構造によって表される境界ボックスが有効な境界ボックスである確率を記憶する。いくつかの実施形態において、データ構造３００の各フィールドは、不規則な境界ボックスを表す座標のベクトル内の座標であってよい。

上述したように、いくつかの実施形態では、境界ボックスは異なる形状であってもよい。例えば境界ボックスは、正方形（例えば座標と、１つのオフセットとによって表される）、円（例えば円の中心である座標と、円の半径又は直径を表す１つの寸法とによって表される）、楕円（例えば２つの半径と、中心の座標とによって表される）であってよい。上述したように、境界ボックスは任意の形状であってもよく、かつ／又は不規則な寸法を有してもよい。いくつかの実施形態では、境界ボックスは、候補画像上の座標を表す点のベクトルによって表されてもよい。ベクトル及びそれらのベクトルの接続は、境界ボックスを表してよい。

いくつかの実施形態において、ニューラルネットワークは、既知の境界ボックスを有する画像（トレーニング画像と呼ばれることもある）を使用してトレーニングされてよい。ニューラルネットワークは、メディアコンテンツ挿入システム１６０又は異なるシステムの一部であり得るトレーニングモジュール（図示せず）を使用してトレーニングされ得る。トレーニングモジュールは、多数のトレーニング画像及び対応するベクトルを受け取ってよい。各ベクトルは、特定の境界ボックスを表す座標のセットと寸法のセットを含んでよい。いくつかの実施形態では、いくつかのトレーニング画像が、２つ以上の境界ボックスを含むことがあり、したがって、複数のベクトルに対応することがある。トレーニングモジュールは、トレーニング画像及び対応するベクトルをニューラルネットワークに入力して、ニューラルネットワークをトレーニングし得る。

図１に戻ると、境界ボックス検出モジュール１８０は、ニューラルネットワークから、メディアコンテンツを候補画像に挿入するための１つ以上の境界ボックスを表す座標と１つ以上の寸法とを受け取り得る。境界ボックス検出モジュール１８０は、図３に図示されるようなデータ構造を受け取ってよい。境界ボックス検出モジュール１８０は、１つ以上の境界ボックスをオーバーレイ生成モジュール１９０に渡す。

オーバーレイ生成モジュール１９０は、ハードウェア、ソフトウェア又はその両方の組合せを含んでよい。オーバーレイ生成モジュール１９０は、境界ボックス検出モジュール１８０から受け取った境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を生成し得る。要求は、１つ以上の境界ボックスの１つ以上の寸法を含み得る。オーバーレイ生成モジュール１９０は、要求を通信モジュール１７０に渡してよく、通信モジュール１１０は、その要求をメディアコンテンツ記憶システム１００に（例えば通信モジュールに）送信し得る。

通信モジュール１１０は、要求を受け取り、その要求をメディアコンテンツ選択モジュール１２０に渡してよい。通信モジュール１１０は、ハードウェア、ソフトウェア又はその両方の組合せを含んでよい。メディアコンテンツ選択モジュール１２０は、各境界ボックス（例えば図３の１つ以上のデータ構造３００）に関連付けられるデータを抽出し、１つ以上の境界ボックスの寸法と一致する寸法を有するメディアコンテンツを（例えばデータベース内において）検索し得る。メディアコンテンツ選択モジュール１２０は、１つ以上の境界ボックスの寸法に一致する１つ以上のメディアコンテンツアイテムを（例えばデータベースから）取得し、１つ以上のメディアコンテンツアイテムを含む、要求に対する応答を生成し得る。いくつかの実施形態では、各メディアコンテンツアイテムに加えて、応答は、各メディアコンテンツアイテムに関連付けられるメタデータを含んでよい。メタデータは、対応するメディアコンテンツアイテムの寸法、並びに他の情報（例えば名前、タイプ（画像、ビデオ等））、方向及び／又は他の適切な情報を含み得る。メディアコンテンツ選択モジュール１２０は、応答を通信モジュール１１０に渡してよい。通信モジュール１１０は、応答をメディアコンテンツ挿入システム１６０に送信し得る。

いくつかの実施形態では、応答は、１つ以上のメディアコンテンツアイテムの１つ以上の識別子を含み得る。各識別子は、各メディアコンテンツアイテムの寸法も含む、データ構造の一部であり得る。他の情報がデータ構造に含まれてもよい（例えば名前、タイプ（画像、ビデオ等））。メディアコンテンツアイテムはサイズが大きく、識別子だけを転送することに比べて転送に長い時間を要する可能性があるので、これは有利であり得る。いくつかの実施形態では、応答は、各メディアコンテンツアイテムを取得することができるように各メディアコンテンツアイテムへのリンクを含んでもよい。

メディアコンテンツ挿入システム１６０は、通信モジュール１７０を使用して、１つ以上のメディアコンテンツアイテムを含む要求に対する応答を受け取ることができる。通信モジュール１７０は、応答をオーバーレイ生成モジュール１９０に渡してよい。オーバーレイ生成モジュール１９０は、ハードウェア、ソフトウェア又はその両方の組合せを含んでよい。オーバーレイ生成モジュール１９０は、応答から１つ以上のメディアコンテンツアイテムを抽出し得る。

いくつかの実施形態では、オーバーレイ生成モジュール１９０は、複数のメディアコンテンツアイテムを受け取ることができ、有効な境界ボックスである最も高い確率を有する境界ボックスの寸法と一致するコンテンツアイテムの寸法に基づいて、受け取ったメディアコンテンツアイテムのうち、表示すべき１つを選択することができる。例えば要求に応答して、メディアコンテンツ挿入システム１６０は、複数の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取ることがある。オーバーレイ生成モジュール１９０は、複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別し得る。オーバーレイ生成モジュール１９０は、受け取った各メディアコンテンツアイテムのメタデータにアクセスし、各メディアコンテンツアイテムの寸法を取得し得る。オーバーレイ生成モジュール１９０は、検出された境界ボックスの各々について確率を取得し、どの境界ボックスが最も高い確率を有するかを決定し得る。

オーバーレイ生成モジュール１９０は、最も高い確率を有する境界ボックスの寸法を取得し、それらの寸法をメディアコンテンツアイテムの寸法と比較し得る。オーバーレイ生成モジュール１９０は、寸法に最もよく一致するメディアコンテンツアイテムを選択し得る。例えばいくつかのメディアコンテンツアイテムは大きすぎる可能性があり、したがって、オーバーレイ生成モジュール１９０はそれらをフィルタリングして除外し得る。オーバーレイ生成モジュール１９０は、選択された境界ボックスの寸法に最も近い寸法を有するメディアコンテンツアイテムを選択し得る。いくつかの実施形態では、オーバーレイ生成モジュール１９０は、メディアコンテンツアイテムの向きを考慮してもよい。例えば特定のメディアコンテンツアイテムが縦向きで表示されるべきであり、境界ボックスの向きがメディアコンテンツアイテムを横向きに強制する場合、オーバーレイ生成モジュール１９０は、寸法に基づいて、その特定のメディアコンテンツアイテムをフィルタリングする（例えば考慮から除外する）ことがある。オーバーレイ生成モジュール１９０がメディアコンテンツアイテムを選択すると、オーバーレイ生成モジュール１９０は、候補画像と、境界ボックス内に候補画像の上にオーバーレイされたメディアコンテンツアイテムとを表示させ得る。

図４は、候補画像の上にオーバーレイされた様々なメディアコンテンツアイテムを示す。画像４０２は、１つの境界ボックス内のメディアコンテンツアイテムを示す。この例では、境界ボックスの寸法はオーバーレイからは見えない。画像４０４は、メディアコンテンツアイテムに適合する境界ボックスの例を示す。境界ボックスは、メディアコンテンツアイテムの周りのボックスによって示されてよい。この場合、メディアコンテンツアイテムは、テキスト又は画像であってよい。いくつかの実施形態では、メディアコンテンツアイテムは、選択されると、例えば境界ボックスのコンテンツに関連付けられるウェブページへのリンクを開くようにコンピューティングデバイスに指示する、選択可能なグラフィカルユーザ要素に関連付けられてよい。

画像４０６は、同じ境界ボックスを使用し得る別のメディアコンテンツアイテムを示す。画像４０４及び画像４０６におけるメディアコンテンツアイテムは異なることに留意されたい。画像４０４内のメディアコンテンツアイテムは透明な構成要素を有するが、画像４０６内のメディアコンテンツアイテムは透明な部分を有しない。画像４０８、４１０及び４１２は、同じ画像上の境界ボックスの他の例を示す。

ニューラルネットワークを使用する全体的なプロセス
図５は、一実施形態による、ニューラルネットワークベースのメディアコンテンツ挿入システム１６０によって実行されるような、ニューラルネットワークベースのアプローチを使用して、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するための全体的なプロセスを示すフローチャートである。様々な実施形態は、図６のステップを、本明細書に示したものとは異なる順序で実行することができる。さらに、他の実施形態は、本明細書に記載されたものとは異なる及び／又は追加のステップを含むことができる。

５０２において、メディアコンテンツ挿入システム１６０は、メディアコンテンツオーバーレイの候補画像を受け取る。例えばメディアコンテンツ挿入システム１６０は、ネットワークインタフェースデバイスを使用してネットワークを介して候補画像を受け取ってよい。メディアコンテンツ挿入システム１６０は、候補画像をメモリに記憶し得る。

５０４において、メディアコンテンツ挿入システム１６０は、候補画像を、複数の画像と、該複数の画像の各画像に対する１つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされたニューラルネットワークに入力する。ニューラルネットワークは、メモリに記憶されてよい。ニューラルネットワークは、画像及び対応するメタデータを入力するためのアプリケーションプログラミングインタフェースを含んでよい。メディアコンテンツ挿入システム１６０は、１つ以上のプロセッサを使用して入力を実行してよく、それら同じプロセッサを使用して、ニューラルネットワーク内の候補画像を処理してもよい。

５０６において、メディアコンテンツ挿入システム１６０は、ニューラルネットワークから、メディアコンテンツを候補画像に挿入するための１つ以上の境界ボックスを表す座標及び１つ以上の寸法を受け取る。メディアコンテンツ挿入システム１６０は、座標及び寸法を受け取って、それらをメモリに記憶してよい。

５０８において、メディアコンテンツ挿入システム１６０は、１つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信し、この要求は、１つ以上の境界ボックスの１つ以上の寸法を含む。例えばメディアコンテンツ挿入システム１６０は、ネットワークインタフェースデバイスを使用して、ネットワークを介して要求を送信してよい。

５１０において、メディアコンテンツ挿入システム１６０は、要求に応答してメディアコンテンツアイテムを受け取る。例えばメディアコンテンツ挿入システム１６０は、ネットワークインタフェースデバイスを使用して、ネットワークを介して要求を受け取ってよい。５１２において、メディアコンテンツ挿入システム１６０は、候補画像と、境界ボックス内で候補画像の上にオーバーレイされたメディアコンテンツアイテムとを表示させる。例えばメディアコンテンツ挿入システム１６０は、オーバーレイされた候補画像を表示のためにクライアントデバイスに送信してよい。いくつかの実施形態では、メディアコンテンツ挿入システム１６０は、視覚インタフェースを使用して、オーバーレイされた候補画像を表示させ得る。

ニューラルネットワークを用いたビデオコンテンツへのメディアコンテンツの挿入
いくつかの実施形態では、画像はビデオコンテンツアイテムのフレームであり得る。メディアコンテンツ挿入システム１６０は、これらのフレームを異なる方法で処理し得る。例えばメディアコンテンツ挿入システム１６０は、候補画像がビデオコンテンツアイテムに関連付けられるビデオフレームであると決定し得る。オーバーレイ生成モジュール１９０は、画像メタデータ内のインジケータに基づいて又は候補画像とともに受け取った別の信号に基づいてその決定を行うことができる。

境界ボックス検出モジュール１８０は、ビデオコンテンツアイテムのビデオフレームのセットを取得し得る。例えば境界ボックス検出モジュールは、アプリケーションプログラミングインタフェース（ＡＰＩ）を使用してフレームを要求し得る。ビデオフレームのセットは、候補画像に続いて再生されるビデオフレームを含み得る。例えば候補画像は、ビデオプレーヤによって再生されるべき連続フレームのセット内の第１フレームであってよく、メディアコンテンツアイテム（例えば広告）をこれらのフレームの少なくともいくつかに挿入することが望ましいことがある。

境界ボックス検出モジュール１８０は、ビデオフレームのセットのうちの各ビデオフレームをニューラルネットワークに入力し得る。例えば境界ボックス検出モジュール１８０は、再生順序に基づいて連続的にフレームをニューラルネットワークに入力してよい。境界ボックス検出モジュールは、ニューラルネットワークから、ビデオフレームのセット内のビデオフレームごとに、１つ以上の境界ボックスを表す対応する座標及び対応する寸法を受信し得る。すなわち、境界ボックス検出モジュール１８０は、候補画像と同じ方法で各ビデオフレームを処理して、各フレーム内の１つ以上の境界ボックスを識別し得る。

境界ボックス検出モジュール１８０は、ビデオフレームのセットのうちの各ビデオフレームにおいて、セット内の各々の他のビデオフレームにおける境界ボックスに一致する境界ボックスを識別し得る。例えば境界ボックス検出モジュール１８０は、同じコピースペース（例えば境界ボックス）が、セット内のすべてのフレーム又はセット内のフレームの少なくともサブセットにおいて利用可能であると決定し得る。境界ボックス検出モジュール１８０は、次に、境界ボックスを要求に含めることができる。いくつかの実施形態では、境界ボックス検出モジュールは、セット内のいくつかのフレーム内で１つの境界ボックスを検出し、他のフレーム内で別の境界ボックスを検出することがある。その境界ボックス検出モジュール１８０に基づいて、両方の境界ボックスを要求に含めることができる。要求に対する応答が受信された後、オーバーレイ生成モジュール１９０は、ビデオフレームのセットと、境界ボックス内の複数の後続のビデオフレームの各々の上にオーバーレイされたメディアコンテンツアイテムとを表示させることができる。すなわち、ビデオは、１つ以上の連続するフレームに含まれる１つ以上の境界ボックスを用いて再生され得る。

コピースペース検出のためのヒューリスティックスベースのシステム
本明細書において、メディアコンテンツを画像の上にオーバーレイするのに適したスペース（すなわち、コピースペース、挿入スペース）を検出するためのヒューリスティックスベースのアプローチのためのシステム、方法及びコンピュータ読取可能記憶媒体が開示される。システムは、画像又はビデオフレームであり得る画像を受け取る。一般に、画像又はビデオフレームは、画像の重要な部分を覆うことなくメディアコンテンツを挿入するためのスペースを有することができる。システムの実施形態は、画像を処理して、画像内の占有スペース及び非占有スペースを決定し、続いて、画像上にメディアコンテンツをオーバーレイするために、非占有スペース内の領域を選択する。画像は、候補画像にメディアコンテンツを挿入するためのスペースを自動的に提案するために、複数の画像処理技術を使用して処理される。次いで、提案されたスペースは、メディアコンテンツを挿入するための挿入スペースを選択するために、ヒューリスティックルールベースのアプローチを使用して更に分析され得る。選択された挿入スペースは、システムによって境界ボックスにより定義され得る。その後、１つ以上のメディアコンテンツアイテムが、画像内の選択された境界ボックスへの挿入のために選択され得る。次いで、システムは、選択された境界ボックス内の画像の上にオーバーレイされた、選択されたメディアコンテンツアイテムを有する画像の表示を引き起こすことができる。

図６は、例示的な画像６００を示す。図示されるように、画像６００の１つの部分６１０が複数の視覚要素を有することがあり、一方、画像６００の別の部分６２０は視覚要素がないことがあり、あるいは視覚的に非本質的な要素（例えばテクスチャ背景、空白スペース、雲、樹冠、海浜砂等）を有すると識別されることがある。本明細書に記載される実施形態は、視覚的に非本質的な要素を有する挿入スペース（本明細書では境界ボックスとも呼ばれる）を自動的に識別することを対象とし、ここで、メディアコンテンツアイテムは、画像の視覚的に本質的な要素に視覚的に影響を与えることなく挿入され得る。例えば挿入スペース６３０は、実施形態によって、任意のメディアコンテンツが、識別された挿入スペース６３０内で画像６００の上部にオーバーレイされ得るように識別され得る。

図７Ａ～図７Ｄは、いくつかの実施形態による、画像に対して実行され得る例示的な画像処理を示す。

図７Ａは、図６に示されるグレースケール画像６００を示す。本明細書に記載される実施形態では、挿入スペースがカラー画像のために選択される必要があるとき、カラー画像に対して前処理を実行し、最初に、対応するグレースケール画像６００を取得し、続いて本明細書に記載されるように処理されてもよい。いくつかの実施形態では、グレースケール画像６００は、更なる処理が行われる前に、画像内のノイズを除去するために（例えばローパスフィルタを使用することによって）不鮮明にされてもよい。

図７Ｂは、画像６００に対してエッジ検出を行った結果７１０を示す。勾配画像６００において識別された画像不連続は、エッジ検出フィルタによって一組のラインセグメント、すなわちエッジに編成される。図示されるエッジ検出画像７１０は、勾配画像６００に対してＳｈｅｎＣａｓｔｅｎエッジ検出フィルタを使用して取得される。Ｓｏｂｅｌフィルタを使用しても同様の結果が取得され得る。

図７Ｃは、エッジ検出画像７１０に対して顕著性フィルタリング（saliency filtering）を実行した結果７２０を示す。顕著性フィルタリングは、物体と境界の位置決めを支援する画像セグメンテーションプロセスである。図示される顕著性フィルタリングされた画像７２０は、エッジ検出画像７１０に対して顕著性フィルタを使用して取得される。

図７Ｄは、グレースケール画像６００を更に処理して、単発テキスト検出器（single shot text detector）（ｓｓｄ）ネットワーク及び標準分類器及び物体検出を使用して、テキスト、顔及び人をブロックアウトした結果７３０を示す。この処理は、人検出及び顔検出分類器によって占有スペースとして後にブロックアウトされる領域７３２及び７３４を決定する。ここでは図示されていないが、グレースケール画像６００内のいずれかのテキスト要素も、ｓｓｄネットワークを使用して画像６００を処理することによってブロックアウトされることがある。本明細書における実施形態では、テキスト、顔及び人をブロックアウトするためのこの処理は、本明細書に記載された画像処理に加えて、グレースケール画像６００上の独立した処理として実行されてよく、占有スペース及び非占有スペースの更なる指示を提供し得る。

図８Ａ～図８Ｅは、一実施形態によるバイナリ行列を生成するために画像に対して実行され得る例示的な画像処理を示す。

図８Ａは、顕著性フィルタリングされた画像７３０に対して局所適応二値化を実行した結果８１０を示す。

図８Ｂは、元のグレースケール画像６００及び適応二値化が実行された顕著性フィルタリングされた画像７３０、すなわち画像８１０から生成された前景／背景分離画像８２０を示す。

図８Ｃは、前景／背景分離画像８２０に対して視覚エントロピーフィルタを使用して視覚エントロピーフィルタリングされた画像８３０を生成した結果を示す。

図８Ｄは、ダウンサンプリングを用いた、視覚エントロピーフィルタリングされた画像８３０からのバイナリ行列画像８４０の生成を示す。バイナリ行列画像８４０は、ピクセルごとに０及び１の値（それぞれ黒及び白の値を表す）を有する。したがって、バイナリ行列画像又はダウンサンプリングされたバイナリ行列画像内の非占有スペースは、限定ではなく、「０」の画素値を有するスペースから成るものとして見ることができる。

図８Ｅは、バイナリ行列画像８４０において候補境界ボックスが提案されている画像８５０を示す。「バイナリ行列における最大長方形（max rectangle in binary matrix）」技術を使用して、所定の閾値パラメータ（例えば最小幅、最小高さ等）を満たす一組の長方形候補を確立してよい。画像８５０は、２つの例示的な境界ボックス候補８５２及び８５４を示す。

図９Ａは、ヒューリスティックルールの例を適用して最適境界ボックスを選択することを示す。最適境界ボックス候補は、最初に、信頼閾値と組み合わせたＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）アプローチに基づく非最大抑制技術を使用して選択されてよい。画像６００では、この結果、最適境界ボックス候補として境界ボックス８５２が選択される。後続のヒューリスティックルールは、最適境界ボックス候補に適用されてよく、仮想グリッド（imaginary grid）を画像に重ね合わせ、重ね合わされたグリッドに最適境界ボックス候補をスナップすることによって最適境界ボックスが選択される、グリッドスナップアプローチを伴う。したがって、グリッド９１０が画像６００上に課されてよく、最適境界ボックス９００は、グリッド９１０にスナップされるときに境界ボックス９００が境界ボックス８５２から最も近い境界ボックスであり得るので、グリッドスナッププロセスによってメディアコンテンツアイテムの挿入スペースとして選択され得る。

図９Ｂは、ヒューリスティックルールの別の例を適用して、最適境界ボックスを選択することを示す。最適境界ボックス候補が（例えばＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）アプローチに基づく非最大抑制技術等を使用して）選択されると、いくつかの実施形態において適用される別のヒューリスティックルールは、ピラミッド列グループ化アプローチを伴う。このアプローチでは、画像を複数の列に分割してよく、列自体はピラミッド形式でグループ化される。例えば画像は１２列に分割されてよく、それぞれ３列からなる４つのグループと、４列からなる３つのグループと、それぞれ６列からなる２つのグループと、すべて１２列からなる最終グループがある。最適境界ボックス候補との最良の（すなわち、所定の最小閾値内の）重なりを示す列のグループが、最適境界ボックスとして選択される。したがって、図９Ｂでは、画像６００は列９２０に分割される。続いて、６つの列のグループ化９５０が、最適な候補境界ボックス８５２に最も近い重複グループとして選択される。メディアコンテンツアイテムの挿入スペースは、スペース９５０となるように選択される。

図９Ｃは、２つの例示的な対応する境界ボックス（境界ボックス９７０及び境界ボックス９８０）を有する別の画像９６０を示す。図９Ｃは、最適境界ボックスを選択するための好ましい形状を定義するヒューリスティックルールが適用され得ること、そしてメディアコンテンツアイテムを挿入するためにいくつかの実施形態に従って２つ以上の最適境界ボックスが選択され得ることを示す。したがって、境界ボックス９７０は長方形であり、境界ボックス９８０は楕円である。

図１０は、いくつかの実施形態による、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００の構成要素を示すブロック図である。ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、画像受信モジュール１０１０と、画像処理モジュール１０２０と、挿入スペース提案モジュール１０３０と、境界ボックス選択モジュール１０４０と、メディアコンテンツ選択モジュール１０５０と、メディアコンテンツオーバーレイモジュール１０６０と、データストア１０７０とを含む。他の実施形態は、図１０に示されるモジュールよりも多くの又は少ないモジュールを含んでよい。特定のモジュールによって実行されるものとして示される機能は、ここに示されるもの以外の他のモジュールによって実行されてもよい。さらに、本明細書に記載される任意のプロセスのステップは、本明細書に示されるものとは異なる順序で実行されてもよい。

画像受信モジュール１０１０は、メディアコンテンツアイテムをオーバーレイするための画像を受け取る。画像受信モジュール１０１０は、ネットワークを介して画像を受け取ってもよく、あるいは画像ストアから画像を取得するための命令を受け取ってもよい。画像は、任意の適切にフォーマットされた画像であってよい。いくつかの実施形態において、画像は、画像受信モジュール１０１０によっても受信されるビデオコンテンツアイテムのフレームであってもよい。いくつかの実施形態において、画像受信モジュール１０１０は、ビデオコンテンツアイテムを受け取り、更なる処理のために、受け取ったビデオコンテンツアイテムから画像フレームを抽出し得る。いくつかの実施形態において、画像受信モジュール１０１０は、特定の開始画像フレームの識別子（例えば特定のフレームに関連付けられる時間値）を受け取り、そのフレーム以降のビデオコンテンツの表示がメディアコンテンツの挿入を必要とするようにすることがある。これらの実施形態では、特定の開始画像フレーム並びに特定の画像フレームに続くビデオコンテンツ内の画像フレームは、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００によって処理されてもよい。いくつかの実施形態では、画像受信モジュール１０１０は、特定の終了画像フレーム（例えば終了時間値、開始時間値及び時間間隔等）の識別子を受け取ることがある。これらの実施形態では、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００による処理のために抽出されて記憶される画像フレームは、開始画像フレームから終了画像フレームまで（終了画像フレームを含む）に生じるフレームを含み得る。例えば開始画像フレームは、ビデオプレーヤによって再生される一組の連続フレーム内の最初のフレームであってよく、メディアコンテンツアイテム（例えば広告）をこれらのフレームの少なくともいくつかに挿入することが望ましいことがある。画像受信モジュール１０１０は、１つ以上の画像を画像処理モジュール１０２０に渡してよく、あるいはヒューリスティックスに基づくメディアコンテンツ挿入システム１０００の他のモジュールによる取得のために、受け取った画像をデータストア１０７０に記憶してもよい。

画像処理モジュール１０２０は、１つ以上の画像処理技術を使用して画像を処理する。画像処理モジュール１０２０は、画像受信モジュール１０１０から画像を受け取る。いくつかの実施形態において、画像処理モジュール１０２０は、データストア１０７０から画像を取得し得る。一実施形態では、画像はカラー画像であってよい。この場合、画像処理モジュール１０２０は、最初に、対応するグレースケール画像を得ることができる。いくつかの実施形態において、グレースケール画像１００は、更なる処理が行われる前に、画像内のノイズを除去するために（例えばローパスフィルタを使用することによって）不鮮明にされ得る。グレースケール画像は、その後、勾配フィルタを使用してフィルタリングされ得る。勾配フィルタリングは、画像内のエッジ検出を実行するために、すなわち、画像輝度が少なくともある所定の閾値だけ変化する画素位置を識別するために実行される。勾配フィルタの一例は、Ｓｏｂｅｌ勾配フィルタである。いくつかの実施形態において、グレースケール画像は、勾配フィルタを使用する代わりにエッジ検出フィルタを使用して、画像処理モジュール１０２０によってフィルタリングされてもよい。ＳｈｅｎＣａｓｔｅｎフィルタ、Ｓｏｂｅｌフィルタ又はＣａｎｎｙエッジ検出器等のような任意の適切なエッジ検出フィルタが画像処理モジュール１０２０によって使用されてよい。次いで、エッジ検出された画像は、局所画像セグメンテーションを実行する画像顕著性フィルタを使用して画像処理モジュール１０２０によって処理される。

画像処理モジュール１０２０のいくつかの実施形態は、補足機械学習技術を使用して、グレースケール画像又はＲＧＢ画像内のテキスト、人及び顔を識別し得る。例えば画像内のテキストは、単語の位置を識別する単発テキスト検出器（ｓｓｄ）ネットワークを使用して位置決めされてよく、一方、画像内の人及び顔は、物体分類器を使用して位置決めされ得る。次いで、画像内の識別されたテキスト、人及び顔の領域は、画像内の占有スペースとしてブロックアウトされ得る。

画像処理モジュール１０２０は、顕著性フィルタリングされた画像に対して適応二値化を行い、適応二値化された画像を元のグレースケール画像とともに使用して前景／背景推定を行い、前景／背景推定された画像を生成する。視覚エントロピーフィルタリングが、画像処理モジュール１０２０によって実行され、バイナリ行列画像を生成し得る。このバイナリ行列画像は、続いてダウンサンプリングされ得る。画像処理モジュール１０２０は、本明細書に記載された様々な画像処理技術を実行するための所定のパラメータ値をデータストア１０７０から取得し得る。いくつかの実施形態では、画像処理モジュール１０２０は、ダウンサンプリングされたバイナリ行列画像をデータストアに記憶してよい。いくつかの実施形態において、画像処理モジュール１０２０は、ダウンサンプリングされたバイナリ行列を挿入スペース提案モジュール１０３０に送信してよい。

挿入スペース提案モジュール１０３０は、メディアコンテンツアイテムオーバーレイのための画像内に１つ以上の提案スペースを生成する。挿入スペース提案モジュール１０３０は、画像処理モジュール１０２０によって生成されたダウンサンプリングされたバイナリ行列画像を受け取る。挿入スペース提案モジュール１０３０は、ダウンサンプリングされたバイナリ行列画像をデータストアから取得してもよく、あるいはダウンサンプリングされたバイナリ行列画像を画像処理モジュール１０２０から受け取ってもよい。モジュール１０３０はまた、所定の最小閾値パラメータ（例えば長方形の幅、長方形の高さ及び長方形の面積（area）等）をデータストア１０７０から取得してもよい。

バイナリ行列画像は、ピクセルごとに０及び１の値（それぞれ黒及び白の値を表す）を有する。したがって、バイナリ行列画像又はダウンサンプリングされたバイナリ行列画像内の非占有スペースは、限定ではないが、「０」の画素値を有するスペースから成るものとして見ることができる。挿入スペース提案モジュール１０３０は、所定の最小閾値パラメータを満たし、かつ画像処理モジュール１０２０から受け取ったダウンサンプリングされたバイナリ行列画像内の非占有スペースに適合する、長方形スペースを決定する。長方形スペースを決定する際に、挿入スペース提案モジュール１０３０は、「バイナリ行列における最大長方形」技術の適切な変形を使用してもよい。「バイナリ行列における最大長方形」技術は、非占有スペースに存在し、かつ所定の最小閾値パラメータを満たす、ダウンサンプリングされたバイナリ行列での可能な長方形を決定する。いくつかの実施形態では、すべての決定された長方形スペース（すなわち、長方形）は、面積によってソートされたリストに配置され得る。いくつかの実施形態において、挿入スペース提案モジュール１０３０は、提案された長方形のソートされたリストをデータストア１０７０に記憶してよい。いくつかの実施形態では、挿入スペース提案モジュール１０３０は、長方形スペースのソートされたリストを、受け取った画像内のメディアコンテンツアイテムオーバーレイのための１つ以上の提案スペースとして、境界ボックス選択モジュール１０４０に提供してよい。いくつかの実施形態では、長方形のソートされたリスト内の長方形は各々、信頼尺度（confidence measure）に関連付けられてもよい。ソートされたリスト内の長方形に関連付けられる例示的な信頼尺度は、ダウンサンプリングされる前に生成されるバイナリ行列画像に重ね合わされるときに長方形内に存在する占有スペースに基づいてよい。

境界ボックス選択モジュール１０４０は、１つ以上のヒューリスティックルールを適用して、提案された１つ以上のスペースからメディアコンテンツアイテムオーバーレイのための画像内の境界ボックスを自動的に選択する。境界ボックス選択モジュール１０４０は、挿入スペース提案モジュール１０３０から提案された長方形のセット及び関連する信頼尺度を受け取る。提案された長方形のセットは、挿入スペース提案モジュール１０３０によって生成された長方形のソートされたリストの形態であってよい。境界ボックスは、メディアコンテンツアイテムを配置するための挿入スペースとして選択される画像上のエリアを指す。一実施形態では、画像に挿入する必要があり得るメディアコンテンツアイテムの数に基づいて、複数の境界ボックスが生成されてよい。挿入する必要があり得るメディアコンテンツアイテムの数に関する情報は、境界ボックス選択モジュール１０４０によってデータストアから取得され得る。本明細書に記載される実施形態において、境界ボックスは、これらに限定されないが、長方形、正方形、円、多角形及び任意の他の適切な形状を含む任意の形状であってよい。境界ボックスは、不規則な寸法であってもよく、かつ／又は複数の形状を組み合わせてもよい。例えば境界ボックスは、正方形（例えば座標と１つのオフセットとによって表される）、円（例えば円の中心である座標と、円の半径又は直径を表す１つの寸法とによって表される）、楕円（例えば２つの半径と中心の座標とによって表される）であってよい。いくつかの実施形態では、境界ボックスは、画像上の座標を表す点のベクトルによって記述されてよい。ベクトル及びそれらのベクトルの接続は、境界ボックスを表してよい。

境界ボックス選択モジュール１０４０は、長方形のソートされたリストにヒューリスティックルールを適用して、ソートされたリスト内の提案された長方形から、メディアコンテンツアイテムオーバーレイのための目標数の境界ボックスを選択する。境界ボックスの目標数は、画像上にオーバーレイされる必要があるメディアコンテンツアイテムの目標数に基づいてよい。画像内にメディアコンテンツアイテムを挿入するための目標数の境界ボックスを選択するために適用されるヒューリスティックルールは、コア設計原理に基づくヒューリスティックルールを含んでよい。このようなヒューリスティックルールには、長方形間の類似性を強制するルール、長方形間の近接性を強制するルール、組合せ不規則多角形スペースを生成するための長方形の組合せのための閉鎖（closure）を強制するルール等が含まれ得る。境界ボックス選択モジュール１０４０によって適用されるヒューリスティックルールは、これらに関連付けられる所定の優先順位を有し、該所定の優先順位は、ヒューリスティックルールが適用され得る順序を定義する。境界ボックス選択モジュール１０４０は、データストア１０７０から、ヒューリスティックルールを適用するための関連する所定の閾値パラメータとともにヒューリスティックルールを取得し得る。

いくつかの実施形態では、境界ボックス選択モジュール１０４０は、挿入スペース提案モジュール１０３０によって生成されたソート済みリストを、類似性についての所定の閾値基準を満たす（すなわち、類似していない長方形のみを保持する）リスト内の長方形の各サブセットから単一の長方形を選択することによってプルーニングしてよい。所定の類似性閾値パラメータは、提案された長方形に対する位置、面積、幅、高さのようなパラメータの組合せであってよい（例えば類似性についてのヒューリスティックルールは、「２つの提案された長方形の重心が、互いに所定の閾値よりも小さい距離で画像上に位置し、それらのアスペクト比が所定の閾値よりも小さい差を有する場合、２つの提案された長方形は類似している」というものであってよく、プルーニングについてのヒューリスティックルールは、「長方形のサブセットが類似しているとラベル付けされている場合、それらのすべてを、サブセット内の個々の長方形の重み付けされた組合せである単一の長方形に置き換える」等であってよい）。いくつかの実施形態では、境界ボックス選択モジュール１０４０は、１つ以上の長方形を選択するために、提案された長方形の対に対する信頼尺度に関連して、ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ（ＩｏＵ）比を使用する反復アプローチに基づく「非最大抑制技術（non-max suppression technique）」の変形を使用してよい。

いくつかの実施形態では、ヒューリスティックルールを適用して、選択された長方形を必要最小限に修正し、境界ボックスが、画像に重ね合わされたグリッド上に固定される（すなわち、スナップされる）、結果として得られる長方形であることを保証し得る。いくつかの実施形態において、別のヒューリスティックルールは、ピラミッド列グループ化アプローチを伴ってよい。このアプローチでは、画像は、複数の隣接する列に分割されてよく、隣接する列自体はピラミッド形式でグループ化される。例えば画像は１２個の列に分割されてよく、それぞれ３つの隣接する列からなる４つのグループ化、４つの隣接する列からなる３つのグループ化、それぞれ６つの隣接する列からなる２つのグループ化、そしてすべて１２個の列の最終グループ化であってよい。ヒューリスティックルールを適用して、選択された長方形の各々について、選択された長方形と最も良く重なる列のグループ化の中から隣接する列のグループ化を決定してよい。したがって、生成された境界ボックスは、決定された列のグループ化が選択された長方形との重なりの所定の最小閾値を満たすように、画像上に重ね合わされる列の複数のグループ化から隣接する列のグループ化を決定することに基づいて、画像内のメディアコンテンツオーバーレイのために選択されてよい。

いくつかの実施形態では、ヒューリスティックルールは、境界ボックスの所定の数、境界ボックスの目標面積、目標形状、目標アスペクト比及び目標位置を選択すること等、生成された境界ボックスについての所定の目標プロパティを指定してよい。例えばヒューリスティックルールは、「画像の上部の中央にオーバーレイされる単一バナー」の形態をとるメディアコンテンツオーバーレイの優先順位を指定してよい。いくつかの実施形態では、画像内のピクセル位置に推定深度値を提供する追加情報がある場合、これらの深度推定値も用いて境界ボックスを選択してもよい。

いくつかの実施形態では、境界ボックス選択モジュール１０４０は、選択された１つ以上の長方形の重み付けされた組合せとして境界ボックスを生成してよく、重みは、選択された長方形の各々に関連付けられる信頼尺度に基づく。境界ボックスは、受け取った画像における境界ボックスの位置を記述するパラメータと、受け取った画像における境界ボックスのレイアウトを記述するパラメータとによって記述され得る。例えば境界ボックスは、画像上の１つ以上の座標と、該１つ以上の座標から延びる１つ以上の寸法とを含む長方形によって記述されてよい。座標は、画像上の特定のピクセルを表してよい。いくつかの実施形態では、境界ボックスは、画像の左上隅から水平方向及び垂直方向にあるピクセル数に関してカウントされる座標と、２つの寸法によって表されてよい。この座標は、境界ボックスの左上隅を表してよい。２つの寸法は、座標から伸びる垂直オフセットと水平オフセットを含んでよい。座標とオフセットに基づいて、オフセットに基づくエリアと座標に基づく位置とを有する長方形の境界ボックスが生成され得る。本明細書に記載される実施形態では、境界ボックスの他の記述、例えば選択された長方形の重み付けされた組合せに最も近い外接楕円（circumscribing ellipse）である楕円も可能である。いくつかの実施形態では、挿入スペース選択モジュール１０４０は、境界ボックスの記述をデータストア１０７０に記憶してよい。いくつかの実施形態において、境界ボックス選択モジュール１０４０は、境界ボックスの記述をメディアコンテンツオーバーレイモジュール１０６０に送信してもよい。

メディアコンテンツ選択モジュール１０５０は、１つ以上の境界ボックスの記述を受け取ってよい。いくつかの実施形態において、メディアコンテンツ選択モジュール１０５０は、データストア１０７０から１つ以上の境界ボックスの記述を取得してもよい。メディアコンテンツ選択モジュール１０５０は、各境界ボックスに関連付けられる記述から寸法を抽出し、抽出された寸法に最も一致する寸法を有する、データストア１０７０内のメディアコンテンツアイテムを検索し得る。メディアコンテンツ選択モジュール１０５０は、境界ボックスの寸法と一致するコンテンツアイテムの寸法に基づいて、複数のメディアコンテンツアイテムからメディアコンテンツアイテムを選択してよい。メディアコンテンツ選択モジュール１０５０は、選択された１つ以上のメディアコンテンツアイテムをデータストア１０７０から取得してよい。いくつかの実施形態では、選択された各メディアコンテンツアイテムに加えて、メディアコンテンツ選択モジュール１０５０は、各メディアコンテンツアイテムに関連付けられたメタデータを抽出してよい。メタデータは、対応するメディアコンテンツアイテムの寸法、並びに他の情報（例えば名前、タイプ（画像、ビデオ等））、向き及び／又は他の適切な情報を含み得る。メディアコンテンツ選択モジュール１０５０は、選択されたメディアコンテンツアイテム及び関連するメタデータをメディアコンテンツオーバーレイモジュール１０６０に送信してよい。いくつかの実施形態では、メディアコンテンツ選択モジュール１０５０は代替的に、選択されたメディアコンテンツアイテムの１つ以上の識別子をメディアコンテンツオーバーレイモジュール１０６０に送信してもよい。各識別子は、各メディアコンテンツアイテムについての寸法も含むデータ構造の部分であってよい。他の情報（例えば名前、タイプ（画像、ビデオ等））がデータ構造に含まれてもよい。メディアコンテンツアイテムはサイズが大きく、単に識別子を転送するのに比べて転送に長い時間を要するので、これは有利であり得る。

メディアコンテンツオーバーレイモジュール１０６０は、１つ以上の境界ボックスの記述を受け取る。いくつかの実施形態において、記述は、境界ボックス選択モジュール１０４０から受け取られてよい。いくつかの実施形態において、メディアコンテンツオーバーレイモジュール１０６０は、データストア１０７０から記述を取得してもよい。メディアコンテンツオーバーレイモジュール１０６０は、境界ボックス内に表示されるべきメディアコンテンツアイテムをメディアコンテンツアイテム選択モジュール１０５０から受け取ってもよい。いくつかの実施形態では、メディアコンテンツオーバーレイモジュール１０６０は、データストア１０７０からメディアコンテンツアイテムを取得してもよい。

前述したように、いくつかの実施形態では、画像はビデオコンテンツアイテムの画像フレームであってもよい。メディアコンテンツオーバーレイモジュール１０６０は、先行フレームのうちの１つ以上について、決定された境界ボックスに関する位置及びレイアウト情報を記憶し、ヒューリスティックルールを適用して、境界ボックス選択モジュール１０４０から受け取った決定された境界ボックスの寸法、レイアウト又は位置のうちのいずれかを修正し、ビデオコンテンツアイテムを表示するときに受け取った画像の表示後に表示されるビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証することができる。

データストア１０７０は、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００のモジュールによる使用及び容易なアクセスのためのデータを受信し、記憶する。データストア１０７０は、画像受信モジュール１０１０から受け取った１つ以上の画像を記憶してよい。データストア１０７０は、バイナリ行列、並びに画像処理モジュール１０２０によって生成されたダウンサンプリングされたバイナリ行列を記憶してよい。データストア１０７０は、メディアコンテンツ挿入システム１０００のモジュールによって実行されるプロセスによって使用されるヒューリスティックルール及び閾値パラメータ値、例えば目標境界ボックス記述パラメータ、目標境界ボックスの数、目標面積、位置及び形状パラメータ等を記憶する。データストア１０７０は、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００の様々なモジュールによって使用される中間データ、例えば実際の挿入スペースを選択するために使用され得る長方形の提案リスト等を記憶してよい。いくつかの実施形態では、データストア１０７０はまた、メディアコンテンツアイテム及び関連するメタデータパラメータ値を記憶するためにも使用されてよい。データストア１０７０は、読取専用メモリ（ＲＯＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、又はこれらの何らかの組合せのようなメモリである。

全体的なプロセス
図１１は、一実施形態による、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００によって実行される、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するための全体的なプロセスを示すフローチャートである。様々な実施形態は、図１１のステップを、本明細書に示したものとは異なる順序で実行することができる。さらに、他の実施形態は、本明細書に記載されたものとは異なる及び／又は追加のステップを含むことができる。

ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、メディアコンテンツアイテムオーバーレイのための画像を受信１１１０する。例えばヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、ネットワークを介して画像を受信１１１０してよく、あるいは画像ストアから画像を取得するための命令を受け取ってもよい。ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、ビデオコンテンツアイテムを受信１１１０してよく、ビデオコンテンツアイテムから１つ以上の画像フレームを抽出し得る。

ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、１つ以上の画像処理技術を使用して、受け取った画像を処理１１２０し、メディアコンテンツアイテムオーバーレイのための画像内に１つ以上の提案スペースを自動的に生成する。ヒューリスティックスベースのメディアコンテンツ挿入システム１０００によって実行される画像処理技術は、グレースケール画像の生成、画像の不鮮明化、勾配フィルタリング又はエッジ検出フィルタリングの実行、顕著性フィルタリング、テキスト、人及び顔検出のためのｓｓｄネットワーク及び分類器のような補足的な機械学習方法の使用、前景／背景推定、視覚エントロピーフィルタリング、バイナリ行列の生成及びダウンサンプリング等の任意の組合せを含む。ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、画像のバイナリ行列内で所定の最小閾値パラメータを満たす長方形スペースを決定し、生成されたバイナリ行列の長方形スペース内のテキスト及び顔をブロックアウトする。その後、ヒューリスティックスベースのシステム１０００は、長方形スペースのソート済みリストを生成し、ここで、ソートは、所定のパラメータ（例えば面積）に基づいて実行され、生成されたソート済みリスト内の長方形スペースを、画像内のメディアコンテンツアイテムオーバーレイのための１つ以上の提案スペースとして提供する。

ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、ヒューリスティックルールを適用１１３０して、メディアコンテンツアイテムオーバーレイのための画像内の１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択する。ヒューリスティックルールは、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００による適用のために優先され得る。ヒューリスティックルールは、例えば（ｉ）画像に重ね合わされたグリッド上に位置するように１つ以上の提案スペースを修正することに基づいて、境界ボックスを生成すること、（ｉｉ）画像を複数の隣接する列に分割し、それらの列をピラミッド状にグループ化し、少なくとも所定の閾値だけ提案スペースと重なる（例えば選択された長方形の少なくとも８０％が、隣接する列の選択されたグループと重なる）隣接する列のグループを選択することによって生成される境界ボックスを生成すること、（ｉｉｉ）１つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成すること、（ｉｖ）１つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成することを含み、所定の目標プロパティは、他のヒューリスティックルールの中でも特に、例えば境界ボックスの数、境界ボックスの面積、形状、アスペクト比及び位置等を含む。

ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、画像内の選択された対応する１つ以上の境界ボックス内のオーバーレイのためにメディアコンテンツアイテムを選択１１４０する。いくつかの実施形態では、ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、１つ以上の境界ボックスの記述を受け取り、境界ボックスの受け取った記述の寸法と一致するメディアコンテンツアイテムの寸法に基づいて、複数のメディアコンテンツアイテムからメディアコンテンツアイテムを選択してよい。

ヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、画像と、該画像内の対応する１つ以上の境界ボックス内にオーバーレイさせた、選択された１つ以上のメディアコンテンツアイテムとを表示させる１１５０。例えばヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、オーバーレイされた候補画像を表示のためにクライアントデバイスに送信することができる。いくつかの実施形態において、メディアコンテンツ挿入システム１０００は、視覚インタフェースを使用して、オーバーレイされた候補画像を表示させてよい。

コンピューティングマシンアーキテクチャ
図１に示されるメディアコンテンツ記憶システム１００及びニューラルネットワークベースのメディアコンテンツ挿入システム１６０の各々と、図１０に示されるヒューリスティックスベースのメディアコンテンツ挿入システム１０００は、図１２に示される１つ以上の構成要素を含んでよい。図１２は、機械読取可能媒体から命令を読み取り、それらをプロセッサ（又はコントローラ）において実行することができる例示的なマシンの構成要素を示すブロック図である。具体的には、図１２は、本明細書に記載される方法のいずれか１つ以上をマシンに実行させるためのプログラムコード（例えばソフトウェア）が実行され得る、コンピュータシステム１２００の例示的形態におけるマシンの図形表現を示す。プログラムコードは、１つ以上のプロセッサ１２０２によって実行可能な命令１２２４から構成されてよい。代替的な実施形態では、マシンは、スタンドアロンデバイスとして動作するか、あるいは他のマシンに接続（例えばネットワーク接続）されてよい。ネットワーク配置では、マシンは、サーバ－クライアントネットワーク環境ではサーバマシン又はクライアントマシンの能力で動作し、あるいはピアツーピア（又は分散）ネットワーク環境ではピアマシンとして動作してもよい。

マシンは、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、携帯情報端末（ＰＤＡ）、携帯電話、スマートフォン、ウェブ機器、ネットワークルータ、スイッチ又はブリッジ、あるいはそのマシンによってとられるべきアクションを指定する命令１２２４を（逐次的又は他の方法で）実行することができる任意のマシンであってよい。さらに、単一のマシンのみが図示されているが、「マシン」という用語は、本明細書に記載された方法のいずれか１つ以上を実行するために命令１２２４を個別に又は共同で実行するマシンの任意の集合も含むものとして解釈されるべきである。

例示的なコンピュータシステム１２００は、プロセッサ１２０２（例えば中央演算処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、１つ以上の無線高周波集積回路（ＲＦＩＣ）又はこれらの任意の組合せ）、メインメモリ１２０４及びスタティックメモリ１２０６を含み、これらは、バス１２０８を介して互いに通信するように構成される。コンピュータシステム１２００は、視覚ディスプレイ・インタフェース１２１０を更に含んでよい。視覚インタフェースは、スクリーン（又はディスプレイ）上にユーザインタフェースを表示することを可能にするソフトウェアドライバを含んでよい。視覚インタフェースは、ユーザインタフェースを直接的に（例えばスクリーン上に）表示し、あるいは表面、ウィンドウ等の上に間接的に（例えばビジュアル投影ユニットを介して）表示し得る。説明を容易にするために、視覚インタフェースはスクリーンとして説明されてもよい。視覚インタフェース１２１０は、タッチ対応スクリーンを含んでもよく、あるいはタッチ対応スクリーンとインタフェースしてもよい。コンピュータシステム１２００はまた、英数字入力デバイス１２１２（例えばキーボード又はタッチスクリーンキーボード）、カーソル制御デバイス１２１４（例えばマウス、トラックボール、ジョイスティック、モーションセンサ又は他のポインティング機器）、記憶ユニット１２１６、信号生成デバイス１２１８（例えばスピーカ）及びネットワークインタフェースデバイス１２２０も含んでよく、これらもバス１２０８を介して通信するように構成される。

記憶ユニット１２１６は、本明細書に記載される方法論又は機能のいずれか１つ以上を具体化する命令１２２４（例えばソフトウェア）が記憶される機械読取可能媒体１２２２を含む。命令１２２４（例えばソフトウェア）はまた、コンピュータシステム１２００による命令の実行中に、完全に又は少なくとも部分的に、メインメモリ１２０４内に又はプロセッサ１２０２内に（例えばプロセッサのキャッシュメモリ内に）存在してもよく、メインメモリ１２０４及びプロセッサ１２０２も機械読取可能媒体を構成している。命令１２２４（例えばソフトウェア）は、ネットワークインタフェースデバイス１２２０を介してネットワーク１２２６上で送信又は受信され得る。

機械読取可能媒体１２２２は、例示的な実施形態では、単一媒体であるように示されているが、用語「機械読取可能媒体」は、命令（例えば命令１２２４）を記憶することができる単一媒体又は複数媒体（例えば集中型又は分散型データベース、又は関連するキャッシュ及びサーバ）を含むように解釈されるべきである。「機械読取可能媒体」という用語はまた、マシンによる実行のための命令（例えば命令１２２４）を記憶することができ、マシンに本明細書に開示された方法のいずれか１つ以上を実行させる任意の媒体を含むと解釈されるべきである。「機械読取可能媒体」という用語は、これらに限定されないが、ソリッドステートメモリ、光媒体及び磁気媒体の形態のデータリポジトリを含む。

図１２の構成要素は、他の中でも特に、ニューラルネットワークベースのアプローチ及びヒューリスティックスベースのアプローチを使用して、画像の上にメディアコンテンツをオーバーレイするのに適したスペースを検出するためのシステム又はプロセスにおいて使用され得る。

追加の構成の考慮事項
本明細書全体を通して、複数のインスタンスが、単一のインスタンスとして説明される構成要素、動作又は構造を実装してよい。１つ以上の方法の個々の動作は、別個の動作として図示及び説明されているが、個々の動作のうちの１つ以上が同時に実行されてもよく、動作が図示される順序で実行されることを要求するものはない。例示的な構成において別個の構成要素として提示される構造及び機能性は、組み合わされた構造又は構成要素として実装されてもよい。同様に、単一の構成要素として提示される構造及び機能性が、別個の構成要素として実装されてもよい。これら及び他の変形、修正、追加及び改良は、本明細書の主題の範囲内にある。

特定の実施形態は、本明細書において、ロジック又は複数の構成要素、モジュール又は機構を含むものとして説明される。モジュールは、ソフトウェアモジュール（例えば機械読取可能媒体に又は伝送信号内に具現化されたコード）又はハードウェアモジュールのいずれかを構成してよい。ハードウェアモジュールは、特定の動作を実行することができる有形のユニットであり、特定の方法で構成又は配置されてよい。例示的な実施形態では、１つ以上のコンピュータシステム（例えばスタンドアロン、クライアント又はサーバコンピュータシステム）又はコンピュータシステムの１つ以上のハードウェアモジュール（例えばプロセッサ又はプロセッサのグループ）は、本明細書に記載される特定の動作を実行するように動作するハードウェアモジュールとして、ソフトウェア（例えばアプリケーション又はアプリケーション部分）によって構成されてもよい。

様々な実施形態において、ハードウェアモジュールは、機械的又は電子的に実装されてもよい。例えばハードウェアモジュールは、特定の動作を実行するために（例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は特定用途向け集積回路（ＡＳＩＣ）のような特殊目的プロセッサとして）永続的に構成される専用回路又はロジックを含んでよい。ハードウェアモジュールはまた、特定の動作を実行するためにソフトウェアによって一時的に構成されるプログラマブルロジック又は回路（例えば汎用プロセッサ又は他のプログラマブルプロセッサ内に包含されるような）を含み得る。ハードウェアモジュールを機械的に、専用の永続的に構成された回路内に、あるいは一時的に構成された（例えばソフトウェアによって構成された）回路内に実装する決定は、コストと時間を考慮して行われてよいことが理解されよう。

したがって、用語「ハードウェアモジュール」は、有形のエンティティを包含するように理解されるべきであり、それは、特定の方法で動作するよう又は本明細書に記載される特定の動作を実行するように、物理的に構築されるか、永続的に構成される（例えばハードワイヤードされる）か又は一時的に構成されるエンティティ（例えばプログラムされた実体）である。本明細書で使用されるとき、「ハードウェア実装モジュール」は、ハードウェアモジュールを指す。ハードウェアモジュールが一時的に構成される（例えばプログラムされる）実施形態を考慮すると、ハードウェアモジュールの各々は、任意の一時点において構成又はインスタンス化される必要はない。例えばハードウェアモジュールがソフトウェアを使用して構成される汎用プロセッサを含む場合、汎用プロセッサは、異なる時間にそれぞれ異なるハードウェアモジュールとして構成されてもよい。したがって、ソフトウェアは、例えばある一時点で特定のハードウェアモジュールを構成し、異なる時点で異なるハードウェアモジュールを構成するようにプロセッサを構成してよい。

ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受け取ることができる。したがって、記載されるハードウェアモジュールは、通信可能に結合されているものとみなされてよい。複数のそのようなハードウェアモジュールが同時に存在する場合、通信は、ハードウェアモジュールを接続する信号伝送（例えば適切な回路及びバスを介して）によって達成され得る。複数のハードウェアモジュールが異なる時間に構成又はインスタンス化される実施形態では、そのようなハードウェアモジュール間の通信は、例えば複数のハードウェアモジュールがアクセスを有するメモリ構造内の情報の記憶及び取得を通して達成され得る。例えば１つのハードウェアモジュールは、動作を実行し、その動作の出力を、通信可能に結合されたメモリデバイスに記憶してよい。更なるハードウェアモジュールは、その後、メモリデバイスにアクセスして、記憶された出力を取得して処理し得る。ハードウェアモジュールはまた、入力デバイス又は出力デバイスとの通信を開始してよく、リソース（例えば情報の集合）に対して動作することができる。

本明細書に記載される例示的な方法の様々な動作は、少なくとも部分的に、関連する動作を実行するように一時的に（例えばソフトウェアによって）構成された又は永続的に構成された１つ以上のプロセッサによって実行されてもよい。一時的に又は永続的に構成されても、そのようなプロセッサは、１つ以上の動作又は機能を実行するように動作するプロセッサ実装モジュールを構成してよい。本明細書で言及されるモジュールは、いくつかの例示的な実施形態において、プロセッサ実装モジュールを含んでよい。

同様に、本明細書に記載される方法は、少なくとも部分的にプロセッサによって実装され得る。例えば方法の動作の少なくとも一部は、１つ以上のプロセッサ又はプロセッサ実装ハードウェアモジュールによって実行されてよい。特定の動作の性能は、単一マシン内に存在するだけでなく、複数のマシンにわたって展開される、１つ以上のプロセッサに分散されてもよい。いくつかの例示的な実施形態では、１つ以上のプロセッサは、単一の場所（例えば家庭環境内、オフィス環境内又はサーバファームとして）に配置されてもよく、他の実施形態では、プロセッサは複数の場所にわたって分散されてもよい。

１つ以上のプロセッサは、「クラウドコンピューティング」環境において又は「ソフトウェアアズアサービズ（ＳａａＳ）」として、関連する動作の実行をサポートするようにも動作し得る。例えば動作の少なくとも一部は、コンピュータのグループ（プロセッサを含むマシンの例として）によって実行されてよく、これらの動作は、ネットワーク（例えばインターネット）を介して、及び１つ以上の適切なインタフェース（例えばアプリケーションプログラムインタフェース（ＡＰＩ））を介してアクセス可能である。

特定の動作の性能は、単一マシン内に存在するだけでなく、複数のマシンにわたって展開される、１つ以上のプロセッサに分散されてもよい。いくつかの例示的な実施形態では、１つ以上のプロセッサ又はプロセッサ実装モジュールは、単一の地理的位置（例えば家庭環境、オフィス環境又はサーバファーム内に）に配置されてよい。他の例示的な実施形態では、１つ以上のプロセッサ又はプロセッサ実装モジュールは、複数の地理的位置にわたって分散されてよい。

本明細書のいくつかの部分は、マシンメモリ（例えばコンピュータメモリ）内にビット又はバイナリデジタル信号として記憶されるデータに対する、動作のアルゴリズム又は記号表現に関して提示される。これらのアルゴリズム又は記号表現は、データ処理技術の当業者によって、その仕事の要旨を他の当業者に伝えるために使用される技術の例である。本明細書で使用されるとき、「アルゴリズム」は、所望の結果を導く動作又は同様の処理の自己矛盾のないシーケンスである。この文脈において、アルゴリズム及び動作は、物理的な量の物理的操作を含む。典型的には、必ずしもそうではないが、そのような量は、マシンによって記憶され、アクセスされ、転送され、結合され、比較され又は他の方法で操作されることができる電気信号、磁気信号又は光信号の形態をとってよい。主に一般的な使用法の理由から、「データ」、「コンテンツ」、「ビット」、「値」、「要素」、「記号」、「文字」、「用語」、「数字」、「数」等の語を使用してそのような信号を言及することは時に便利である。しかしながら、これらの語は単に便利なラベルにすぎず、適切な物理量と関連付けられるべきである。

特に明記しない限り、「処理」、「演算」、「計算」、「決定」、「提示」、「表示」等の用語を使用する本明細書での議論は、１つ以上のメモリ（例えば揮発性メモリ、不揮発性メモリ又はそれらの組合せ）、レジスタ、あるいは情報を受信、記憶、送信又は表示する他のマシン構成要素内の物理的（例えば電子的、磁気的又は光学的）量として表されるデータを操作又は変換するマシン（例えばコンピュータ）の動作又はプロセスを指すことがある。

本明細書で使用されるとき「一実施形態」又は「実施形態」へのいずれかの言及は、その実施形態に関連して記載される特定の要素、特徴、構造又は特徴が少なくとも１つの実施形態に含まれることを意味する。本明細書中の様々な箇所における「一実施形態において」という語句の出現は、必ずしもすべてが同じ実施形態を参照しているわけではない。

いくつかの実施形態は、それらの派生物とともに「結合された」及び「接続された」という表現を使用して説明され得る。これらの用語は互いに同義語として意図されていないことを理解されたい。例えばいくつかの実施形態は、２つ以上の要素が互いに直接物理的又は電気的に接触していることを示すために「接続された」という用語を使用して説明されることがある。別の例において、いくつかの実施形態は、２つ以上の要素が直接的な物理的又は電気的に接触していることを示すために「結合された」という用語を使用して記述されることがある。しかしながら、用語「結合された」は、２つ以上の要素が互いに直接接触していないが、依然として互いに協働又は相互作用することを意味することもある。実施形態は、これに限定されない。

本明細書で使用されるとき、用語「備える（comprises）」、「備えている（comprising）」、「含む（includes）」、「含んでいる（including）」、「有する（has）」、「有している（having）」又はこれらの任意の他の変形は、非排他的な包含をカバーするように意図される。例えば要素のリストを含むプロセス、方法、物品又は装置は、必ずしもそれらの要素のみに限定されるものではなく、明示的に列挙されていない又はそのようなプロセス、方法、物品又は装置に固有でない他の要素を含み得る。さらに、明示的に反対の記載がない限り、「又は」は、包括的な又は、を意味し、排他的な又は、を意味しない。例えば条件Ａ又はＢは、以下のいずれか１つによって満たされる：Ａが真であり（又は存在し）、Ｂが偽である（又は存在しない）、Ａが偽であり（又は存在せず）、Ｂが真である（又は存在する）、ＡとＢの両方が真である（又は存在する）。

加えて、「a」又は「an」の使用は、本明細書の実施形態の要素及び構成要素を説明するために用いられる。これは単に便宜のために、また本発明の一般的な意味を与えるために行われる。この説明は、１つ又は少なくとも１つを含むように読まれるべきであり、単数形はまた、別段の意味を有することが明らかでない限り、複数形も含む。

本開示を読むと、当業者は、画像において利用可能なコピースペースにメディアコンテンツを挿入するためのシステム及びプロセスのための更に追加の替構造及び機能設計を理解するであろう。したがって、特定の実施形態及び適用を図示及び説明してきたが、開示される実施形態は、本明細書に開示された正確な構造及び構成要素に限定されないことを理解すべきである。添付の特許請求の範囲に定義された精神及び範囲から逸脱することなく、本明細書に開示された方法及び装置の配置、動作及び詳細において、当業者には明らかであるような様々な修正、変更及び変形が行われてよい。

Claims

メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのコンピュータ実装方法であって、
メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取るステップと、
前記候補画像をニューラルネットワークに入力するステップであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して１つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされている、ステップと、
前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための１つ以上の境界ボックスを表す座標と１つ以上の寸法とを受け取るステップと、
前記１つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信するステップであって、前記要求は、前記１つ以上の境界ボックスの前記１つ以上の寸法を含む、ステップと、
前記要求に応答して前記メディアコンテンツアイテムを受け取るステップと、
前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップと、
を含む、方法。
前記複数の画像を受け取るステップと、
前記複数の画像の各々に対して１つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記１つ以上のベクトルの各ベクトルは特定の境界ボックスを表す、ステップと、
前記複数の画像の各々と、対応する１つ以上のベクトルとを使用してニューラルネットワークをトレーニングするステップと、
を更に含む、請求項１に記載の方法。
前記メディアコンテンツを前記候補画像に挿入するための前記１つ以上の境界ボックスを表す前記座標と前記１つ以上の寸法とを受け取るステップは、各境界ボックスについて、
前記候補画像の水平軸に沿った第１オフセットを表す第１座標及び前記候補画像の垂直軸に沿った第２オフセットを表す第２座標と、
前記第１座標から前記水平軸に沿って延びる第１寸法と、
前記第２座標から前記垂直軸に沿って延びる第２寸法と、
対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
を受信するステップを含む、請求項１に記載の方法。
各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
を更に含む、請求項３に記載の方法。
前記要求に応答して、前記１つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
を更に含む、請求項１に記載の方法。
前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、１つ以上の境界ボックスを表す対応する座標と、対応する１つ以上の寸法とを受け取るステップと、
前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めるステップと、
を更に含む、請求項１に記載の方法。
前記ビデオフレームのセットと、前記境界ボックス内に複数の後続のビデオフレームの各々の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップを更に含む、
請求項６に記載の方法。
メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのシステムであって、
命令がエンコードされたメモリと、
前記命令を実行すると、
メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取るステップと、
前記候補画像をニューラルネットワークに入力するステップであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して１つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされている、ステップと、
前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための１つ以上の境界ボックスを表す座標と１つ以上の寸法とを受け取るステップと、
前記１つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信するステップであって、前記要求は、前記１つ以上の境界ボックスの前記１つ以上の寸法を含む、ステップと、
前記要求に応答して前記メディアコンテンツアイテムを受け取るステップと、
前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップと、
を含む動作を実行させる１つ以上のプロセッサと、
を備える、システム。
前記命令は、前記１つ以上のプロセッサに、
前記複数の画像を受け取るステップと、
前記複数の画像の各々に対して１つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記１つ以上のベクトルの各ベクトルは特定の境界ボックスを表す、ステップと、
前記複数の画像の各々と、対応する１つ以上のベクトルとを使用してニューラルネットワークをトレーニングするステップと、
を含む動作を実行させる、請求項８に記載のシステム。
前記メディアコンテンツを前記候補画像に挿入するための前記１つ以上の境界ボックスを表す前記座標と前記１つ以上の寸法とを受け取るステップは、各境界ボックスについて、
前記候補画像の水平軸に沿った第１オフセットを表す第１座標及び前記候補画像の垂直軸に沿った第２オフセットを表す第２座標と、
前記第１座標から前記水平軸に沿って延びる第１寸法と、
前記第２座標から前記垂直軸に沿って延びる第２寸法と、
対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
を受信するステップを含む、請求項８に記載のシステム。
前記命令は、前記１つ以上のプロセッサに、
各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
を含む動作を実行させる、請求項１０に記載のシステム。
前記命令は、前記１つ以上のプロセッサに、
前記要求に応答して、前記１つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
を含む動作を実行させる、請求項８に記載のシステム。
前記命令は、前記１つ以上のプロセッサに、
前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、１つ以上の境界ボックスを表す対応する座標と、対応する１つ以上の寸法とを受け取るステップと、
前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めるステップと、
を含む動作を実行させる、請求項８に記載のシステム。
前記命令は、前記１つ以上のプロセッサに、前記ビデオフレームのセットと、前記境界ボックス内に複数の後続のビデオフレームの各々の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップを含む動作を実行させる、
請求項１３に記載のシステム。
命令を記憶する非一時的コンピュータ読取可能媒体であって、前記命令は、１つ以上のプロセッサによって実行されると、前記１つ以上のプロセッサに、
メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取ることと、
前記候補画像をニューラルネットワークに入力することであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して１つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされていることと、
前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための１つ以上の境界ボックスを表す座標と１つ以上の寸法とを受け取ることと、
前記１つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信することであって、前記要求は、前記１つ以上の境界ボックスの前記１つ以上の寸法を含むことと、
前記要求に応答して前記メディアコンテンツアイテムを受け取ることと、
前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させることと、
を実行させる、非一時的コンピュータ読取可能媒体。
前記１つ以上のプロセッサに、
前記複数の画像を受け取ることと、
前記複数の画像の各々に対して１つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記１つ以上のベクトルの各ベクトルは特定の境界ボックスを表すことと、
前記複数の画像の各々と、対応する１つ以上のベクトルとを使用してニューラルネットワークをトレーニングすることと、
を実行させる、記憶された命令を更に備える、請求項１５に記載の非一時的コンピュータ読取可能媒体。
前記メディアコンテンツを前記候補画像に挿入するための前記１つ以上の境界ボックスを表す前記座標と前記１つ以上の寸法とを受け取ることは、各境界ボックスについて、
前記候補画像の水平軸に沿った第１オフセットを表す第１座標及び前記候補画像の垂直軸に沿った第２オフセットを表す第２座標と、
前記第１座標から前記水平軸に沿って延びる第１寸法と、
前記第２座標から前記垂直軸に沿って延びる第２寸法と、
対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
を受信することを含む、請求項１５に記載の非一時的コンピュータ読取可能媒体。
前記１つ以上のプロセッサに、
各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断することと、
特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外することと、
を実行させる、記憶された命令を更に備える、請求項１７に記載の非一時的コンピュータ読取可能媒体。
前記１つ以上のプロセッサに、
前記要求に応答して、前記１つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取ることと、
前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別することと、
前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択することと、
を実行させる、記憶された命令を更に備える、請求項１５に記載の非一時的コンピュータ読取可能媒体。
前記１つ以上のプロセッサに、
前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断することと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得することであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含むことと、
前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力することと、
前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、１つ以上の境界ボックスを表す対応する座標と、対応する１つ以上の寸法とを受け取ることと、
前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別することと、
各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めることと、
を実行させる、記憶された命令を更に備える、請求項１５に記載の非一時的コンピュータ読取可能媒体。
メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのコンピュータ実装方法であって、
メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
１つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
前記画像内の選択された対応する１つ以上の境界ボックスにおいて、オーバーレイのための１つ以上のメディアコンテンツアイテムを選択するステップと、
前記画像と、前記画像内の前記対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を含む、方法。
１つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に１つ以上の提案スペースを自動的に生成するステップは、
前記受け取った画像のバイナリ行列の表現を生成するステップと、
前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす１つ以上の長方形スペースを決定するステップと、
前記生成されたバイナリ行列において前記決定された１つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記１つ以上の提案スペースとして提供するステップと、
を更に含む、請求項２１に記載の方法。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、
前記画像に重ね合わされるグリッド上に位置するように１つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
決定される隣接する列のグループが、前記１つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
前記１つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
前記１つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
のうちの１つ以上を含む、請求項２１に記載の方法。
前記所定の目標プロパティは、
境界ボックスの数と、
境界ボックスの面積と、
境界ボックスの形状と、
境界ボックスのアスペクト比と、
境界ボックスの位置と、
を含む、請求項２３に記載の方法。
前記選択された１つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
請求項２１に記載の方法。
前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
１つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
各ビデオフレーム画像と、各ビデオフレーム内の対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を更に含む、請求項２１に記載の方法。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、前記ビデオコンテンツアイテムを表示するときに、前記受け取った画像を表示した後に表示されているビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証するステップを更に含む、
請求項２６に記載の方法。
コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体であって、前記ステップは、
メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
１つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
前記画像内の選択された対応する１つ以上の境界ボックスにおいて、オーバーレイのための１つ以上のメディアコンテンツアイテムを選択するステップと、
前記画像と、前記画像内の前記対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を含む、非一時的コンピュータ読取可能媒体。
１つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に１つ以上の提案スペースを自動的に生成するステップは、
前記受け取った画像のバイナリ行列の表現を生成するステップと、
前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす１つ以上の長方形スペースを決定するステップと、
前記生成されたバイナリ行列において前記決定された１つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記１つ以上の提案スペースとして提供するステップと、
を更に含む、請求項２８に記載の非一時的コンピュータ読取可能媒体。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、
前記画像に重ね合わされるグリッド上に位置するように１つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
決定される隣接する列のグループが、前記１つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
前記１つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
前記１つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
のうちの１つ以上を含む、請求項２８に記載の非一時的コンピュータ読取可能媒体。
前記所定の目標プロパティは、
境界ボックスの数と、
境界ボックスの面積と、
境界ボックスの形状と、
境界ボックスのアスペクト比と、
境界ボックスの位置と、
を含む、請求項３０に記載の非一時的コンピュータ読取可能媒体。
前記選択された１つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
請求項２８に記載の非一時的コンピュータ読取可能媒体。
前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
１つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
各ビデオフレーム画像と、各ビデオフレーム内の対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を更に含む、請求項２８に記載の非一時的コンピュータ読取可能媒体。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、前記ビデオコンテンツアイテムを表示するときに、前記受け取った画像を表示した後に表示されているビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証するステップを更に含む、
請求項３３に記載の非一時的コンピュータ読取可能媒体。
コンピュータシステムであって、
コンピュータプロセッサと、
コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体と、を備え、前記ステップは、
メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
１つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
前記画像内の選択された対応する１つ以上の境界ボックスにおいて、オーバーレイのための１つ以上のメディアコンテンツアイテムを選択するステップと、
前記画像と、前記画像内の前記対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を含む、コンピュータシステム。
１つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのために１つ以上の提案スペースを自動的に生成するステップは、
前記受け取った画像のバイナリ行列の表現を生成するステップと、
前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす１つ以上の長方形スペースを決定するステップと、
前記生成されたバイナリ行列において前記決定された１つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記１つ以上の提案スペースとして提供するステップと、
を更に含む、請求項３５に記載のシステム。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、
前記画像に重ね合わされるグリッド上に位置するように１つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
決定される隣接する列のグループが、前記１つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
前記１つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
前記１つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
のうちの１つ以上を含む、請求項３５に記載のシステム。
前記所定の目標プロパティは、
境界ボックスの数と、
境界ボックスの面積と、
境界ボックスの形状と、
境界ボックスのアスペクト比と、
境界ボックスの位置と、
を含む、請求項３７に記載のシステム。
前記選択された１つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
請求項３５に記載のシステム。
前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
１つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
各ビデオフレーム画像と、各ビデオフレーム内の対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を更に含む、請求項３５に記載のシステム。
前記メディアコンテンツを前記候補画像に挿入するための前記１つ以上の境界ボックスを表す前記座標と前記１つ以上の寸法とを受け取るステップは、各境界ボックスについて、
前記候補画像の水平軸に沿った第１オフセットを表す第１座標及び前記候補画像の垂直軸に沿った第２オフセットを表す第２座標と、
前記第１座標から前記水平軸に沿って延びる第１寸法と、
前記第２座標から前記垂直軸に沿って延びる第２寸法と、
対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
を受信するステップを含む、請求項１又は２に記載の方法。
各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
を更に含む、請求項１～２、４１のうちのいずれかに記載の方法。
前記要求に応答して、前記１つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
を更に含む、請求項１～２、４１～４２のいずれかに記載の方法。
前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、１つ以上の境界ボックスを表す対応する座標と、対応する１つ以上の寸法とを受け取るステップと、
前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めるステップと、
を更に含む、請求項１～２、４１～４３のいずれかに記載の方法。
前記ビデオフレームのセットと、前記境界ボックス内の複数の後続のビデオフレームの各々の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップを更に含む、
請求項６又は４４に記載の方法。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、
前記画像に重ね合わされるグリッド上に位置するように１つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
決定される隣接する列のグループが、前記１つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
前記１つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
前記１つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
のうちの１つ以上を含む、請求項２１又は２２に記載の方法。
前記所定の目標プロパティは、
境界ボックスの数と、
境界ボックスの面積と、
境界ボックスの形状と、
境界ボックスのアスペクト比と、
境界ボックスの位置と、
を含む、請求項２３又は４６に記載の方法。
前記選択された１つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
請求項２１～２２、４６～４７のいずれかに記載の方法。
前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
１つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に１つ以上の提案スペースを自動的に生成するステップと、
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップと、
各ビデオフレーム画像と、各ビデオフレーム内の対応する１つ以上の境界ボックス内にオーバーレイされた前記選択された１つ以上のメディアコンテンツアイテムとを表示させるステップと、
を更に含む、請求項２１～２２、４６～４８のいずれかに記載の方法。
１つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記１つ以上の提案スペースから１つ以上の境界ボックスを自動的に選択するステップは、前記ビデオコンテンツアイテムを表示するときに、前記受け取った画像を表示した後に表示されているビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証するステップを更に含む、
請求項２６又は４９に記載の方法。
コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、請求項１～７、２１～２７、４１～５０のいずれかに記載の方法を実行させる命令を記憶するための非一時的コンピュータ読取可能媒体。
コンピュータシステムであって、
コンピュータプロセッサと、
前記コンピュータプロセッサによって実行されると、前記コンピュータプロセッサに、請求項１～７、２１～２７、４１～５０のいずれかに記載の方法を実行させる命令を記憶するための非一時的コンピュータ読取可能媒体と、
を備える、コンピュータシステム。