JP2024501444A - メディアコンテンツのオーバーレイに適した画像スペースの検出 - Google Patents

メディアコンテンツのオーバーレイに適した画像スペースの検出 Download PDF

Info

Publication number
JP2024501444A
JP2024501444A JP2023535081A JP2023535081A JP2024501444A JP 2024501444 A JP2024501444 A JP 2024501444A JP 2023535081 A JP2023535081 A JP 2023535081A JP 2023535081 A JP2023535081 A JP 2023535081A JP 2024501444 A JP2024501444 A JP 2024501444A
Authority
JP
Japan
Prior art keywords
media content
image
bounding box
content item
spaces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023535081A
Other languages
English (en)
Other versions
JPWO2022125127A5 (ja
Inventor
ルンディン,ジェシカ
レイノルズ ソラミ,マイケル
マーティン ロス,アラン
ジェイ. ロンスドルフ,ブライアン
ジェイムス ウッドワード,デービット
ウィン ショップ,オーウェン
ローデ,ゼンケ
Original Assignee
セールスフォース インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース インコーポレイテッド filed Critical セールスフォース インコーポレイテッド
Publication of JP2024501444A publication Critical patent/JP2024501444A/ja
Publication of JPWO2022125127A5 publication Critical patent/JPWO2022125127A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本明細書では、(i)ニューラルネットワークベースのアプローチ、及び(ii)ヒューリスティックスベースのアプローチを使用して、メディアコンテンツを画像上にオーバーレイするのに適したスペースを検出するためのシステム、方法及びコンピュータ読取可能記憶媒体を開示する。システムは、画像又はビデオフレームであり得る候補画像を受け取る。ニューラルネットワークベースのアプローチでは、次いで、候補画像がニューラルネットワークに入力される。ニューラルネットワークは、メディアコンテンツを候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを出力し得る。ヒューリスティックスベースのアプローチでは、メディアコンテンツを挿入するための境界ボックスによって定義される挿入スペースを選択するためにヒューリスティックルールベースのアプローチを使用して更に分析されるスペースを提案するために、候補画像が画像処理技術を用いて処理される。その後、1つ以上のメディアコンテンツアイテムが、画像内の選択された境界ボックスへの挿入のために選択され得る。次いで、システムは、選択された境界ボックス内の画像上にオーバーレイされた選択されたメディアコンテンツアイテムとともに、画像を表示させる。

Description

関連出願の相互参照
本出願は、2020年12月9日に出願された米国出願第17/116,944号及び2021年1月29日に出願された米国出願番号<不明>の(代理人整理番号31371-47952)の利益を主張するものであり、これらの各々は、その全体が参照により組み込まれる。
技術分野
本開示は、一般に、コンテンツを挿入することができる画像又はビデオフレーム内のスペースを検出する分野に関し、より具体的には、メディアコンテンツをオーバーレイするのに適したスペースのニューラルネットワークベースの検出及びヒューリスティックスベースの検出に関する。
多くの画像及びビデオフレームは、画像又はビデオフレームの重要な部分を覆い隠すことなくテキスト及び他のコンテンツを挿入することができるエリアを含む。これらのエリアは、コピースペースと呼ばれることがある。例えば画像又はビデオフレームは、船及びその船に乗っている人々に焦点を合わせることがある。しかしながら、その画像又はビデオフレームは、すべてが空及び/又は海であることが示されるエリアを含むことがある。これらのエリアは、テキスト又は他のメディアコンテンツ(例えば画像)を表示するために使用されることがある。一例では、これらのエリアは、視聴者(viewer)に追加のコンテンツアイテムを表示するために使用されることがある。別の例では、コピースペースは、リンク及び他の情報を画像又はビデオフレームに挿入するために使用されることがある。
現在、キュレータが画像にコピースペースをマークできるようにする様々なシステムが利用可能である。このプロセスは通常、何十万ものビデオフレームの画像をマークしなければならないとき、時間がかかり、非効率的である。したがって、画像及びビデオフレーム上のコピースペースを自動的かつ正確に識別することが望ましい。
開示される実施形態は、詳細な説明、添付の特許請求の範囲及び添付の図面(又は図)からより容易に明らかになる他の利点及び特徴を有する。図の簡単な紹介を以下に示す。
いくつかの実施形態による、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのニューラルネットワークベースのシステムを示す図である。
例示的な境界ボックスを有する画像を示す図である。
ニューラルネットワークの出力を表す対応するフィールドを有するデータ構造の例を示す図である。
候補画像の上にオーバーレイされている様々なメディアコンテンツアイテムを示す図である。
いくつかの実施形態による、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを選択するためのプロセス全体を示すフローチャートである。
いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な識別されたスペースを有する候補画像を示す図である。
いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。
いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。 いくつかの実施形態による、候補画像に対する様々な画像処理技術の結果を示す図である。
いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な検出されたスペースを有する画像を示す図である。 いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な検出されたスペースを有する画像を示す図である。 いくつかの実施形態による、メディアコンテンツアイテムをオーバーレイするための例示的な検出されたスペースを有する画像を示す図である。
いくつかの実施形態による、ヒューリスティックスベースのメディアコンテンツ挿入システムのブロック図である。
いくつかの実施形態による、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するための全体的なプロセスを示すフローチャートである。
図1及び図10に示されるシステムのモジュールによって使用するために、機械読取可能媒体から命令を読み取り、プロセッサ(又はコントローラ)においてそれらを実行することができる例示的な機械の構成要素を示すブロック図である。
図面は、例示のみを目的として様々な実施形態を示す。当業者は、以下の議論から、本明細書に記載される実施形態の原理から逸脱することなく、本明細書に例示される構造及び方法の代替実施形態を採用してもよいことを容易に認識するであろう。
図面は、同様の要素を識別するために同様の参照番号を使用する。「115a」のような参照番号の後の文字は、本文がその特定の参照番号を有する要素を特に参照することを示す。「115」のような後続の文字を伴わない本文中の参照番号は、その参照番号を有する図中の要素のいずれか又はすべてを指す。
画像の上のテキストの配置は、高品質な視覚デザインを作成する重要な部分である。コピースペース検出のアプリケーションエリアは、電子メールバナー、ホームページ、コール・トゥー・アクション等の生成を含む。これらはほとんど手動で実行されるため、グラフィック資産の開発タスクに時間がかかり、設計者は、すべてデザインにおけるスタイル、ブランドの一貫性及びトーンのバランスをとりながら、メディア及びベクトルグラフィックスをキュレートして操作し、レイヤースタックを構築し、最終的にテキストを配置して書式設定を行う必要がある。テキスト要素の適切な位置と向き、及びスタイルを選択することによってこの作業を自動化することは、テキストを配置しなければならない画像のコンテンツを理解することを必要とする。さらに、テキストのようなメディアコンテンツが画像の上にレンダリングされ得るコピースペースのパラメータを確立することは、画像処理における前景-背景分離アプローチとは異なる。なぜなら、結果として得られる分離マップは、画像内の重要な視覚要素を乱すことなく、メディアコンテンツと潜在的にオーバーレイされる可能性がある画像の部分を考慮していない可能性があるからである。
本明細書では、画像の上にメディアコンテンツをオーバーレイするのに適したスペース(コピースペース)を検出するための方法論が開示される。提示される1つの方法論は、メディアコンテンツを画像の上にオーバーレイするのに適したスペース(コピースペース)を検出するためのニューラルネットワークベースのシステム、方法及びコンピュータ読取可能記憶媒体である。提示される別の方法論は、メディアコンテンツを画像の上にオーバーレイするのに適したスペース(コピースペース)を検出するためのヒューリスティックスベースのシステム、方法及びコンピュータ読取可能記憶媒体である。
コピースペース検出のためのニューラルネットワークベースのシステム
構成概要
画像の上にメディアコンテンツをオーバーレイするのに適したスペース(コピースペース)を検出するためのニューラルネットワークベースのシステム、方法及びコンピュータ読取可能記憶媒体を開示する。システムは、画像又はビデオフレームであり得る候補画像を受け取る。一般に、画像又はビデオフレームは、画像の重要な部分を覆うことなくメディアコンテンツを挿入するためのいくらかのスペースを有することがある。次いで、候補画像が、多数の画像と、複数の画像の各画像に対して1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされたニューラルネットワークに入力される。ニューラルネットワークは、メディアコンテンツを候補画像に挿入するための1つ以上の境界ボックスを表す座標及び1つ以上の寸法(dimension)を出力し得る。1つ以上の境界ボックスは、境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求とともに送信されてもよい。要求は、1つ以上の境界ボックスの1つ以上の寸法を含んでよい。要求に応答して、メディアコンテンツアイテムを受け取ることができ、候補画像及び境界ボックス内の候補画像の上にオーバーレイされたメディアコンテンツアイテムを表示することができる。
メディアコンテンツ挿入プロセス
図1は、画像の上にメディアコンテンツをオーバーレイするのに適したスペースを検出するための例示的なシステムを示す。システムは、メディアコンテンツ記憶システム100及びメディアコンテンツ挿入システム160を含んでよい。メディアコンテンツ挿入システム160は、通信モジュール170、境界ボックス検出モジュール180及びオーバーレイ生成モジュール190を含む。
通信モジュール170は、通信するためにハードウェア、ソフトウェア又はこれら2つの組合せを含んでよく、メディアコンテンツ挿入システム160によって他のシステム(例えばメディアコンテンツ記憶システム)及びデバイスと通信するために使用されてよい。通信モジュール170は、メディアコンテンツをオーバーレイするための候補画像を受け取ることがある。通信モジュール170は、別のデバイス又はメディアコンテンツ挿入システム内の位置から候補画像を受け取ることがある。候補画像は、任意の適切にフォーマットされた画像であってよい。いくつかの実施形態では、候補画像は、ビデオコンテンツアイテムのフレームであってよい。通信モジュール170は、候補画像を境界ボックス検出モジュール180に渡し得る。
境界ボックス検出モジュール180は、通信モジュール170から候補画像を受信し、該候補画像を処理してよい。境界ボックス検出モジュール180は、候補画像をニューラルネットワークに入力して、出力として1つ以上の境界ボックスを受け取ることができる。入力操作は、ニューラルネットワークがトレーニングデータでトレーニングされた後に行われる。この例におけるトレーニングデータは、画像と、各画像に対して1つ以上の対応する境界ボックスとを含む。いくつかの実施形態では、ニューラルネットワークは畳み込みニューラルネットワークであってよい。ネットワークは、ベクトルに変換された画像ピクセルを入力として使用してよい。いくつかの実施形態では、ニューラルネットワークは、入力層、隠れ層及び出力層を含む多層パーセプトロンであってもよい。このタイプのネットワークは、他の層を含んでもよい。
本明細書で言及されるとき、境界ボックスは、メディアコンテンツを配置するための画像上のエリアを指す。境界ボックスは長方形として示されているが、境界ボックスは、これらに限定されないが、正方形、円形、五角形及び他の適切な形状を含む任意の形状であってもよい。境界ボックスは、不規則な寸法のものであってもよく、かつ/又は複数の形状を含んでもよい。
例えば境界ボックスは、候補画像上の1つ以上の座標と、1つ以上の座標から延びる1つ以上の寸法とを含む長方形によって表されてよい。いくつかの実施形態では、境界ボックスは、候補画像の左上隅から水平方向及び垂直方向のピクセル数に関してカウントされる座標と2つの寸法によって表されてよい。この座標は、境界ボックスの左上隅を表してよい。2つの寸法は、座標から伸びる垂直オフセットと水平オフセットを含んでよい。座標とオフセットに基づいて、オフセットに基づくエリアと、座標に基づく位置とを有する長方形の境界ボックスが生成され得る。
図2は、例示的な対応する境界ボックスを有する画像を示す。画像200は、境界ボックス202を示す。しかしながら、異なるサイズ/形状の境界ボックスが画像200に追加されてもよい。画像220は、2つの対応する境界ボックス(境界ボックス222及び境界ボックス224)とともに示される。境界ボックス222及び境界ボックス224は長方形として図示されているが、これらの境界ボックスは異なる形状及びサイズであってもよい。
いくつかの実施形態では、メディアコンテンツ挿入システム160は、ニューラルネットワークから、候補画像の水平軸に沿った第1オフセットを表す第1座標と、候補画像の垂直軸に沿った第2オフセットを表す第2座標とを受け取り得る。2つの座標は、候補画像上の特定のピクセルを表してよい。ピクセルは、境界ボックスに関連付けられる点として機能し得る。例えば上述したように、点は、円の中心、長方形、三角形、正方形の角又は別の適切な点であってよい。メディアコンテンツ挿入システム160は、水平軸に沿って第1座標から延びる第1寸法を受け取り得る。例えば第1寸法は、メディアコンテンツ挿入システム160が境界ボックスに関連付けられる(例えば水平方向で)次の点を計算するために使用することがある単位(例えばピクセル)の数であってよい。いくつかの実施形態において、第1寸法は、円の直径、円の半径、長方形の辺、正方形の辺又は三角形の辺に対応してもよい。
いくつかの実施形態では、メディアコンテンツ挿入システム160は、垂直軸に沿って第2座標から延びる第2寸法を受け取り得る。第2寸法は、メディアコンテンツ挿入システム160が、境界ボックスに関連付けられる(例えば垂直方向で)次の点を計算するために使用することがある単位(例えばピクセル)の数であってよい。いくつかの実施形態において、第2寸法は、楕円形の半径又は直径、長方形又は三角形の第2の辺に対応してもよい。いくつかの実施形態では、受け取った境界ボックスは1つの寸法のみを有していることがあり、第2寸法は示されないことがある。
いくつかの実施形態では、メディアコンテンツ挿入システム160は、対応する境界ボックスが、メディアコンテンツを候補画像に挿入するのに適した候補画像上のエリア内に位置する確率を受け取ってもよい。例えばニューラルネットワークは、境界ボックスが、メディアコンテンツを候補画像に挿入するための有効な境界ボックスである確率をそれぞれ有する、多数の可能性のある境界ボックスを返してもよい。境界ボックス検出モジュール180は、各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断することができる。例えば閾値確率は、パーセンテージ値、0と1の間の値又は別の適切な値であってよい。閾値確率は、例えば.5、.8..9に又は別の適切な値に設定されてよい。境界ボックス検出モジュール180は、例えばメモリから閾値確率を取り出してよい。特定の境界ボックスの確率が閾値確率を満たさないという決定に応答して、境界ボックス検出モジュール180は、その特定の境界ボックスを要求から除外する。すなわち、ニューラルネットワークから受け取った境界ボックスは、確率に基づいてフィルタリングされ得る。
図3は、境界ボックスを表すニューラルネットワークの出力を表す、対応するフィールドを有するデータ構造の例を示す。図3のデータ構造300は、1つ以上のフィールドを含んでよい。フィールド302は、境界ボックスに関連付けられる1つ以上の座標を含んでよい。例えばフィールド302は、長方形境界ボックスの角の座標、円形境界ボックスの中心又は境界ボックスに関連付けられる別の適切な点を含んでよい。いくつかの実施形態では、フィールド302は、境界ボックスを表す点のベクトルを含んでよい。フィールド304は、フィールド302内の座標によって表される点からオフセットされる単位(例えばピクセル)の数として記憶される第1寸法を含んでよい。フィールド306は、フィールド302内の座標によって表される点からオフセットされる単位(例えばピクセル)の数として記憶される第2寸法を含んでよい。データ構造300に記憶される他の寸法が存在してもよい。フィールド308は、特定のデータ構造によって表される境界ボックスが有効な境界ボックスである確率を記憶する。いくつかの実施形態において、データ構造300の各フィールドは、不規則な境界ボックスを表す座標のベクトル内の座標であってよい。
上述したように、いくつかの実施形態では、境界ボックスは異なる形状であってもよい。例えば境界ボックスは、正方形(例えば座標と、1つのオフセットとによって表される)、円(例えば円の中心である座標と、円の半径又は直径を表す1つの寸法とによって表される)、楕円(例えば2つの半径と、中心の座標とによって表される)であってよい。上述したように、境界ボックスは任意の形状であってもよく、かつ/又は不規則な寸法を有してもよい。いくつかの実施形態では、境界ボックスは、候補画像上の座標を表す点のベクトルによって表されてもよい。ベクトル及びそれらのベクトルの接続は、境界ボックスを表してよい。
いくつかの実施形態において、ニューラルネットワークは、既知の境界ボックスを有する画像(トレーニング画像と呼ばれることもある)を使用してトレーニングされてよい。ニューラルネットワークは、メディアコンテンツ挿入システム160又は異なるシステムの一部であり得るトレーニングモジュール(図示せず)を使用してトレーニングされ得る。トレーニングモジュールは、多数のトレーニング画像及び対応するベクトルを受け取ってよい。各ベクトルは、特定の境界ボックスを表す座標のセットと寸法のセットを含んでよい。いくつかの実施形態では、いくつかのトレーニング画像が、2つ以上の境界ボックスを含むことがあり、したがって、複数のベクトルに対応することがある。トレーニングモジュールは、トレーニング画像及び対応するベクトルをニューラルネットワークに入力して、ニューラルネットワークをトレーニングし得る。
図1に戻ると、境界ボックス検出モジュール180は、ニューラルネットワークから、メディアコンテンツを候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを受け取り得る。境界ボックス検出モジュール180は、図3に図示されるようなデータ構造を受け取ってよい。境界ボックス検出モジュール180は、1つ以上の境界ボックスをオーバーレイ生成モジュール190に渡す。
オーバーレイ生成モジュール190は、ハードウェア、ソフトウェア又はその両方の組合せを含んでよい。オーバーレイ生成モジュール190は、境界ボックス検出モジュール180から受け取った境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を生成し得る。要求は、1つ以上の境界ボックスの1つ以上の寸法を含み得る。オーバーレイ生成モジュール190は、要求を通信モジュール170に渡してよく、通信モジュール110は、その要求をメディアコンテンツ記憶システム100に(例えば通信モジュールに)送信し得る。
通信モジュール110は、要求を受け取り、その要求をメディアコンテンツ選択モジュール120に渡してよい。通信モジュール110は、ハードウェア、ソフトウェア又はその両方の組合せを含んでよい。メディアコンテンツ選択モジュール120は、各境界ボックス(例えば図3の1つ以上のデータ構造300)に関連付けられるデータを抽出し、1つ以上の境界ボックスの寸法と一致する寸法を有するメディアコンテンツを(例えばデータベース内において)検索し得る。メディアコンテンツ選択モジュール120は、1つ以上の境界ボックスの寸法に一致する1つ以上のメディアコンテンツアイテムを(例えばデータベースから)取得し、1つ以上のメディアコンテンツアイテムを含む、要求に対する応答を生成し得る。いくつかの実施形態では、各メディアコンテンツアイテムに加えて、応答は、各メディアコンテンツアイテムに関連付けられるメタデータを含んでよい。メタデータは、対応するメディアコンテンツアイテムの寸法、並びに他の情報(例えば名前、タイプ(画像、ビデオ等))、方向及び/又は他の適切な情報を含み得る。メディアコンテンツ選択モジュール120は、応答を通信モジュール110に渡してよい。通信モジュール110は、応答をメディアコンテンツ挿入システム160に送信し得る。
いくつかの実施形態では、応答は、1つ以上のメディアコンテンツアイテムの1つ以上の識別子を含み得る。各識別子は、各メディアコンテンツアイテムの寸法も含む、データ構造の一部であり得る。他の情報がデータ構造に含まれてもよい(例えば名前、タイプ(画像、ビデオ等))。メディアコンテンツアイテムはサイズが大きく、識別子だけを転送することに比べて転送に長い時間を要する可能性があるので、これは有利であり得る。いくつかの実施形態では、応答は、各メディアコンテンツアイテムを取得することができるように各メディアコンテンツアイテムへのリンクを含んでもよい。
メディアコンテンツ挿入システム160は、通信モジュール170を使用して、1つ以上のメディアコンテンツアイテムを含む要求に対する応答を受け取ることができる。通信モジュール170は、応答をオーバーレイ生成モジュール190に渡してよい。オーバーレイ生成モジュール190は、ハードウェア、ソフトウェア又はその両方の組合せを含んでよい。オーバーレイ生成モジュール190は、応答から1つ以上のメディアコンテンツアイテムを抽出し得る。
いくつかの実施形態では、オーバーレイ生成モジュール190は、複数のメディアコンテンツアイテムを受け取ることができ、有効な境界ボックスである最も高い確率を有する境界ボックスの寸法と一致するコンテンツアイテムの寸法に基づいて、受け取ったメディアコンテンツアイテムのうち、表示すべき1つを選択することができる。例えば要求に応答して、メディアコンテンツ挿入システム160は、複数の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取ることがある。オーバーレイ生成モジュール190は、複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別し得る。オーバーレイ生成モジュール190は、受け取った各メディアコンテンツアイテムのメタデータにアクセスし、各メディアコンテンツアイテムの寸法を取得し得る。オーバーレイ生成モジュール190は、検出された境界ボックスの各々について確率を取得し、どの境界ボックスが最も高い確率を有するかを決定し得る。
オーバーレイ生成モジュール190は、最も高い確率を有する境界ボックスの寸法を取得し、それらの寸法をメディアコンテンツアイテムの寸法と比較し得る。オーバーレイ生成モジュール190は、寸法に最もよく一致するメディアコンテンツアイテムを選択し得る。例えばいくつかのメディアコンテンツアイテムは大きすぎる可能性があり、したがって、オーバーレイ生成モジュール190はそれらをフィルタリングして除外し得る。オーバーレイ生成モジュール190は、選択された境界ボックスの寸法に最も近い寸法を有するメディアコンテンツアイテムを選択し得る。いくつかの実施形態では、オーバーレイ生成モジュール190は、メディアコンテンツアイテムの向きを考慮してもよい。例えば特定のメディアコンテンツアイテムが縦向きで表示されるべきであり、境界ボックスの向きがメディアコンテンツアイテムを横向きに強制する場合、オーバーレイ生成モジュール190は、寸法に基づいて、その特定のメディアコンテンツアイテムをフィルタリングする(例えば考慮から除外する)ことがある。オーバーレイ生成モジュール190がメディアコンテンツアイテムを選択すると、オーバーレイ生成モジュール190は、候補画像と、境界ボックス内に候補画像の上にオーバーレイされたメディアコンテンツアイテムとを表示させ得る。
図4は、候補画像の上にオーバーレイされた様々なメディアコンテンツアイテムを示す。画像402は、1つの境界ボックス内のメディアコンテンツアイテムを示す。この例では、境界ボックスの寸法はオーバーレイからは見えない。画像404は、メディアコンテンツアイテムに適合する境界ボックスの例を示す。境界ボックスは、メディアコンテンツアイテムの周りのボックスによって示されてよい。この場合、メディアコンテンツアイテムは、テキスト又は画像であってよい。いくつかの実施形態では、メディアコンテンツアイテムは、選択されると、例えば境界ボックスのコンテンツに関連付けられるウェブページへのリンクを開くようにコンピューティングデバイスに指示する、選択可能なグラフィカルユーザ要素に関連付けられてよい。
画像406は、同じ境界ボックスを使用し得る別のメディアコンテンツアイテムを示す。画像404及び画像406におけるメディアコンテンツアイテムは異なることに留意されたい。画像404内のメディアコンテンツアイテムは透明な構成要素を有するが、画像406内のメディアコンテンツアイテムは透明な部分を有しない。画像408、410及び412は、同じ画像上の境界ボックスの他の例を示す。
ニューラルネットワークを使用する全体的なプロセス
図5は、一実施形態による、ニューラルネットワークベースのメディアコンテンツ挿入システム160によって実行されるような、ニューラルネットワークベースのアプローチを使用して、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するための全体的なプロセスを示すフローチャートである。様々な実施形態は、図6のステップを、本明細書に示したものとは異なる順序で実行することができる。さらに、他の実施形態は、本明細書に記載されたものとは異なる及び/又は追加のステップを含むことができる。
502において、メディアコンテンツ挿入システム160は、メディアコンテンツオーバーレイの候補画像を受け取る。例えばメディアコンテンツ挿入システム160は、ネットワークインタフェースデバイスを使用してネットワークを介して候補画像を受け取ってよい。メディアコンテンツ挿入システム160は、候補画像をメモリに記憶し得る。
504において、メディアコンテンツ挿入システム160は、候補画像を、複数の画像と、該複数の画像の各画像に対する1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされたニューラルネットワークに入力する。ニューラルネットワークは、メモリに記憶されてよい。ニューラルネットワークは、画像及び対応するメタデータを入力するためのアプリケーションプログラミングインタフェースを含んでよい。メディアコンテンツ挿入システム160は、1つ以上のプロセッサを使用して入力を実行してよく、それら同じプロセッサを使用して、ニューラルネットワーク内の候補画像を処理してもよい。
506において、メディアコンテンツ挿入システム160は、ニューラルネットワークから、メディアコンテンツを候補画像に挿入するための1つ以上の境界ボックスを表す座標及び1つ以上の寸法を受け取る。メディアコンテンツ挿入システム160は、座標及び寸法を受け取って、それらをメモリに記憶してよい。
508において、メディアコンテンツ挿入システム160は、1つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信し、この要求は、1つ以上の境界ボックスの1つ以上の寸法を含む。例えばメディアコンテンツ挿入システム160は、ネットワークインタフェースデバイスを使用して、ネットワークを介して要求を送信してよい。
510において、メディアコンテンツ挿入システム160は、要求に応答してメディアコンテンツアイテムを受け取る。例えばメディアコンテンツ挿入システム160は、ネットワークインタフェースデバイスを使用して、ネットワークを介して要求を受け取ってよい。512において、メディアコンテンツ挿入システム160は、候補画像と、境界ボックス内で候補画像の上にオーバーレイされたメディアコンテンツアイテムとを表示させる。例えばメディアコンテンツ挿入システム160は、オーバーレイされた候補画像を表示のためにクライアントデバイスに送信してよい。いくつかの実施形態では、メディアコンテンツ挿入システム160は、視覚インタフェースを使用して、オーバーレイされた候補画像を表示させ得る。
ニューラルネットワークを用いたビデオコンテンツへのメディアコンテンツの挿入
いくつかの実施形態では、画像はビデオコンテンツアイテムのフレームであり得る。メディアコンテンツ挿入システム160は、これらのフレームを異なる方法で処理し得る。例えばメディアコンテンツ挿入システム160は、候補画像がビデオコンテンツアイテムに関連付けられるビデオフレームであると決定し得る。オーバーレイ生成モジュール190は、画像メタデータ内のインジケータに基づいて又は候補画像とともに受け取った別の信号に基づいてその決定を行うことができる。
境界ボックス検出モジュール180は、ビデオコンテンツアイテムのビデオフレームのセットを取得し得る。例えば境界ボックス検出モジュールは、アプリケーションプログラミングインタフェース(API)を使用してフレームを要求し得る。ビデオフレームのセットは、候補画像に続いて再生されるビデオフレームを含み得る。例えば候補画像は、ビデオプレーヤによって再生されるべき連続フレームのセット内の第1フレームであってよく、メディアコンテンツアイテム(例えば広告)をこれらのフレームの少なくともいくつかに挿入することが望ましいことがある。
境界ボックス検出モジュール180は、ビデオフレームのセットのうちの各ビデオフレームをニューラルネットワークに入力し得る。例えば境界ボックス検出モジュール180は、再生順序に基づいて連続的にフレームをニューラルネットワークに入力してよい。境界ボックス検出モジュールは、ニューラルネットワークから、ビデオフレームのセット内のビデオフレームごとに、1つ以上の境界ボックスを表す対応する座標及び対応する寸法を受信し得る。すなわち、境界ボックス検出モジュール180は、候補画像と同じ方法で各ビデオフレームを処理して、各フレーム内の1つ以上の境界ボックスを識別し得る。
境界ボックス検出モジュール180は、ビデオフレームのセットのうちの各ビデオフレームにおいて、セット内の各々の他のビデオフレームにおける境界ボックスに一致する境界ボックスを識別し得る。例えば境界ボックス検出モジュール180は、同じコピースペース(例えば境界ボックス)が、セット内のすべてのフレーム又はセット内のフレームの少なくともサブセットにおいて利用可能であると決定し得る。境界ボックス検出モジュール180は、次に、境界ボックスを要求に含めることができる。いくつかの実施形態では、境界ボックス検出モジュールは、セット内のいくつかのフレーム内で1つの境界ボックスを検出し、他のフレーム内で別の境界ボックスを検出することがある。その境界ボックス検出モジュール180に基づいて、両方の境界ボックスを要求に含めることができる。要求に対する応答が受信された後、オーバーレイ生成モジュール190は、ビデオフレームのセットと、境界ボックス内の複数の後続のビデオフレームの各々の上にオーバーレイされたメディアコンテンツアイテムとを表示させることができる。すなわち、ビデオは、1つ以上の連続するフレームに含まれる1つ以上の境界ボックスを用いて再生され得る。
コピースペース検出のためのヒューリスティックスベースのシステム
本明細書において、メディアコンテンツを画像の上にオーバーレイするのに適したスペース(すなわち、コピースペース、挿入スペース)を検出するためのヒューリスティックスベースのアプローチのためのシステム、方法及びコンピュータ読取可能記憶媒体が開示される。システムは、画像又はビデオフレームであり得る画像を受け取る。一般に、画像又はビデオフレームは、画像の重要な部分を覆うことなくメディアコンテンツを挿入するためのスペースを有することができる。システムの実施形態は、画像を処理して、画像内の占有スペース及び非占有スペースを決定し、続いて、画像上にメディアコンテンツをオーバーレイするために、非占有スペース内の領域を選択する。画像は、候補画像にメディアコンテンツを挿入するためのスペースを自動的に提案するために、複数の画像処理技術を使用して処理される。次いで、提案されたスペースは、メディアコンテンツを挿入するための挿入スペースを選択するために、ヒューリスティックルールベースのアプローチを使用して更に分析され得る。選択された挿入スペースは、システムによって境界ボックスにより定義され得る。その後、1つ以上のメディアコンテンツアイテムが、画像内の選択された境界ボックスへの挿入のために選択され得る。次いで、システムは、選択された境界ボックス内の画像の上にオーバーレイされた、選択されたメディアコンテンツアイテムを有する画像の表示を引き起こすことができる。
図6は、例示的な画像600を示す。図示されるように、画像600の1つの部分610が複数の視覚要素を有することがあり、一方、画像600の別の部分620は視覚要素がないことがあり、あるいは視覚的に非本質的な要素(例えばテクスチャ背景、空白スペース、雲、樹冠、海浜砂等)を有すると識別されることがある。本明細書に記載される実施形態は、視覚的に非本質的な要素を有する挿入スペース(本明細書では境界ボックスとも呼ばれる)を自動的に識別することを対象とし、ここで、メディアコンテンツアイテムは、画像の視覚的に本質的な要素に視覚的に影響を与えることなく挿入され得る。例えば挿入スペース630は、実施形態によって、任意のメディアコンテンツが、識別された挿入スペース630内で画像600の上部にオーバーレイされ得るように識別され得る。
図7A~図7Dは、いくつかの実施形態による、画像に対して実行され得る例示的な画像処理を示す。
図7Aは、図6に示されるグレースケール画像600を示す。本明細書に記載される実施形態では、挿入スペースがカラー画像のために選択される必要があるとき、カラー画像に対して前処理を実行し、最初に、対応するグレースケール画像600を取得し、続いて本明細書に記載されるように処理されてもよい。いくつかの実施形態では、グレースケール画像600は、更なる処理が行われる前に、画像内のノイズを除去するために(例えばローパスフィルタを使用することによって)不鮮明にされてもよい。
図7Bは、画像600に対してエッジ検出を行った結果710を示す。勾配画像600において識別された画像不連続は、エッジ検出フィルタによって一組のラインセグメント、すなわちエッジに編成される。図示されるエッジ検出画像710は、勾配画像600に対してShenCastenエッジ検出フィルタを使用して取得される。Sobelフィルタを使用しても同様の結果が取得され得る。
図7Cは、エッジ検出画像710に対して顕著性フィルタリング(saliency filtering)を実行した結果720を示す。顕著性フィルタリングは、物体と境界の位置決めを支援する画像セグメンテーションプロセスである。図示される顕著性フィルタリングされた画像720は、エッジ検出画像710に対して顕著性フィルタを使用して取得される。
図7Dは、グレースケール画像600を更に処理して、単発テキスト検出器(single shot text detector)(ssd)ネットワーク及び標準分類器及び物体検出を使用して、テキスト、顔及び人をブロックアウトした結果730を示す。この処理は、人検出及び顔検出分類器によって占有スペースとして後にブロックアウトされる領域732及び734を決定する。ここでは図示されていないが、グレースケール画像600内のいずれかのテキスト要素も、ssdネットワークを使用して画像600を処理することによってブロックアウトされることがある。本明細書における実施形態では、テキスト、顔及び人をブロックアウトするためのこの処理は、本明細書に記載された画像処理に加えて、グレースケール画像600上の独立した処理として実行されてよく、占有スペース及び非占有スペースの更なる指示を提供し得る。
図8A~図8Eは、一実施形態によるバイナリ行列を生成するために画像に対して実行され得る例示的な画像処理を示す。
図8Aは、顕著性フィルタリングされた画像730に対して局所適応二値化を実行した結果810を示す。
図8Bは、元のグレースケール画像600及び適応二値化が実行された顕著性フィルタリングされた画像730、すなわち画像810から生成された前景/背景分離画像820を示す。
図8Cは、前景/背景分離画像820に対して視覚エントロピーフィルタを使用して視覚エントロピーフィルタリングされた画像830を生成した結果を示す。
図8Dは、ダウンサンプリングを用いた、視覚エントロピーフィルタリングされた画像830からのバイナリ行列画像840の生成を示す。バイナリ行列画像840は、ピクセルごとに0及び1の値(それぞれ黒及び白の値を表す)を有する。したがって、バイナリ行列画像又はダウンサンプリングされたバイナリ行列画像内の非占有スペースは、限定ではなく、「0」の画素値を有するスペースから成るものとして見ることができる。
図8Eは、バイナリ行列画像840において候補境界ボックスが提案されている画像850を示す。「バイナリ行列における最大長方形(max rectangle in binary matrix)」技術を使用して、所定の閾値パラメータ(例えば最小幅、最小高さ等)を満たす一組の長方形候補を確立してよい。画像850は、2つの例示的な境界ボックス候補852及び854を示す。
図9Aは、ヒューリスティックルールの例を適用して最適境界ボックスを選択することを示す。最適境界ボックス候補は、最初に、信頼閾値と組み合わせたIntersection over Union(IoU)アプローチに基づく非最大抑制技術を使用して選択されてよい。画像600では、この結果、最適境界ボックス候補として境界ボックス852が選択される。後続のヒューリスティックルールは、最適境界ボックス候補に適用されてよく、仮想グリッド(imaginary grid)を画像に重ね合わせ、重ね合わされたグリッドに最適境界ボックス候補をスナップすることによって最適境界ボックスが選択される、グリッドスナップアプローチを伴う。したがって、グリッド910が画像600上に課されてよく、最適境界ボックス900は、グリッド910にスナップされるときに境界ボックス900が境界ボックス852から最も近い境界ボックスであり得るので、グリッドスナッププロセスによってメディアコンテンツアイテムの挿入スペースとして選択され得る。
図9Bは、ヒューリスティックルールの別の例を適用して、最適境界ボックスを選択することを示す。最適境界ボックス候補が(例えばIntersection over Union(IoU)アプローチに基づく非最大抑制技術等を使用して)選択されると、いくつかの実施形態において適用される別のヒューリスティックルールは、ピラミッド列グループ化アプローチを伴う。このアプローチでは、画像を複数の列に分割してよく、列自体はピラミッド形式でグループ化される。例えば画像は12列に分割されてよく、それぞれ3列からなる4つのグループと、4列からなる3つのグループと、それぞれ6列からなる2つのグループと、すべて12列からなる最終グループがある。最適境界ボックス候補との最良の(すなわち、所定の最小閾値内の)重なりを示す列のグループが、最適境界ボックスとして選択される。したがって、図9Bでは、画像600は列920に分割される。続いて、6つの列のグループ化950が、最適な候補境界ボックス852に最も近い重複グループとして選択される。メディアコンテンツアイテムの挿入スペースは、スペース950となるように選択される。
図9Cは、2つの例示的な対応する境界ボックス(境界ボックス970及び境界ボックス980)を有する別の画像960を示す。図9Cは、最適境界ボックスを選択するための好ましい形状を定義するヒューリスティックルールが適用され得ること、そしてメディアコンテンツアイテムを挿入するためにいくつかの実施形態に従って2つ以上の最適境界ボックスが選択され得ることを示す。したがって、境界ボックス970は長方形であり、境界ボックス980は楕円である。
図10は、いくつかの実施形態による、ヒューリスティックスベースのメディアコンテンツ挿入システム1000の構成要素を示すブロック図である。ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、画像受信モジュール1010と、画像処理モジュール1020と、挿入スペース提案モジュール1030と、境界ボックス選択モジュール1040と、メディアコンテンツ選択モジュール1050と、メディアコンテンツオーバーレイモジュール1060と、データストア1070とを含む。他の実施形態は、図10に示されるモジュールよりも多くの又は少ないモジュールを含んでよい。特定のモジュールによって実行されるものとして示される機能は、ここに示されるもの以外の他のモジュールによって実行されてもよい。さらに、本明細書に記載される任意のプロセスのステップは、本明細書に示されるものとは異なる順序で実行されてもよい。
画像受信モジュール1010は、メディアコンテンツアイテムをオーバーレイするための画像を受け取る。画像受信モジュール1010は、ネットワークを介して画像を受け取ってもよく、あるいは画像ストアから画像を取得するための命令を受け取ってもよい。画像は、任意の適切にフォーマットされた画像であってよい。いくつかの実施形態において、画像は、画像受信モジュール1010によっても受信されるビデオコンテンツアイテムのフレームであってもよい。いくつかの実施形態において、画像受信モジュール1010は、ビデオコンテンツアイテムを受け取り、更なる処理のために、受け取ったビデオコンテンツアイテムから画像フレームを抽出し得る。いくつかの実施形態において、画像受信モジュール1010は、特定の開始画像フレームの識別子(例えば特定のフレームに関連付けられる時間値)を受け取り、そのフレーム以降のビデオコンテンツの表示がメディアコンテンツの挿入を必要とするようにすることがある。これらの実施形態では、特定の開始画像フレーム並びに特定の画像フレームに続くビデオコンテンツ内の画像フレームは、ヒューリスティックスベースのメディアコンテンツ挿入システム1000によって処理されてもよい。いくつかの実施形態では、画像受信モジュール1010は、特定の終了画像フレーム(例えば終了時間値、開始時間値及び時間間隔等)の識別子を受け取ることがある。これらの実施形態では、ヒューリスティックスベースのメディアコンテンツ挿入システム1000による処理のために抽出されて記憶される画像フレームは、開始画像フレームから終了画像フレームまで(終了画像フレームを含む)に生じるフレームを含み得る。例えば開始画像フレームは、ビデオプレーヤによって再生される一組の連続フレーム内の最初のフレームであってよく、メディアコンテンツアイテム(例えば広告)をこれらのフレームの少なくともいくつかに挿入することが望ましいことがある。画像受信モジュール1010は、1つ以上の画像を画像処理モジュール1020に渡してよく、あるいはヒューリスティックスに基づくメディアコンテンツ挿入システム1000の他のモジュールによる取得のために、受け取った画像をデータストア1070に記憶してもよい。
画像処理モジュール1020は、1つ以上の画像処理技術を使用して画像を処理する。画像処理モジュール1020は、画像受信モジュール1010から画像を受け取る。いくつかの実施形態において、画像処理モジュール1020は、データストア1070から画像を取得し得る。一実施形態では、画像はカラー画像であってよい。この場合、画像処理モジュール1020は、最初に、対応するグレースケール画像を得ることができる。いくつかの実施形態において、グレースケール画像100は、更なる処理が行われる前に、画像内のノイズを除去するために(例えばローパスフィルタを使用することによって)不鮮明にされ得る。グレースケール画像は、その後、勾配フィルタを使用してフィルタリングされ得る。勾配フィルタリングは、画像内のエッジ検出を実行するために、すなわち、画像輝度が少なくともある所定の閾値だけ変化する画素位置を識別するために実行される。勾配フィルタの一例は、Sobel勾配フィルタである。いくつかの実施形態において、グレースケール画像は、勾配フィルタを使用する代わりにエッジ検出フィルタを使用して、画像処理モジュール1020によってフィルタリングされてもよい。ShenCastenフィルタ、Sobelフィルタ又はCannyエッジ検出器等のような任意の適切なエッジ検出フィルタが画像処理モジュール1020によって使用されてよい。次いで、エッジ検出された画像は、局所画像セグメンテーションを実行する画像顕著性フィルタを使用して画像処理モジュール1020によって処理される。
画像処理モジュール1020のいくつかの実施形態は、補足機械学習技術を使用して、グレースケール画像又はRGB画像内のテキスト、人及び顔を識別し得る。例えば画像内のテキストは、単語の位置を識別する単発テキスト検出器(ssd)ネットワークを使用して位置決めされてよく、一方、画像内の人及び顔は、物体分類器を使用して位置決めされ得る。次いで、画像内の識別されたテキスト、人及び顔の領域は、画像内の占有スペースとしてブロックアウトされ得る。
画像処理モジュール1020は、顕著性フィルタリングされた画像に対して適応二値化を行い、適応二値化された画像を元のグレースケール画像とともに使用して前景/背景推定を行い、前景/背景推定された画像を生成する。視覚エントロピーフィルタリングが、画像処理モジュール1020によって実行され、バイナリ行列画像を生成し得る。このバイナリ行列画像は、続いてダウンサンプリングされ得る。画像処理モジュール1020は、本明細書に記載された様々な画像処理技術を実行するための所定のパラメータ値をデータストア1070から取得し得る。いくつかの実施形態では、画像処理モジュール1020は、ダウンサンプリングされたバイナリ行列画像をデータストアに記憶してよい。いくつかの実施形態において、画像処理モジュール1020は、ダウンサンプリングされたバイナリ行列を挿入スペース提案モジュール1030に送信してよい。
挿入スペース提案モジュール1030は、メディアコンテンツアイテムオーバーレイのための画像内に1つ以上の提案スペースを生成する。挿入スペース提案モジュール1030は、画像処理モジュール1020によって生成されたダウンサンプリングされたバイナリ行列画像を受け取る。挿入スペース提案モジュール1030は、ダウンサンプリングされたバイナリ行列画像をデータストアから取得してもよく、あるいはダウンサンプリングされたバイナリ行列画像を画像処理モジュール1020から受け取ってもよい。モジュール1030はまた、所定の最小閾値パラメータ(例えば長方形の幅、長方形の高さ及び長方形の面積(area)等)をデータストア1070から取得してもよい。
バイナリ行列画像は、ピクセルごとに0及び1の値(それぞれ黒及び白の値を表す)を有する。したがって、バイナリ行列画像又はダウンサンプリングされたバイナリ行列画像内の非占有スペースは、限定ではないが、「0」の画素値を有するスペースから成るものとして見ることができる。挿入スペース提案モジュール1030は、所定の最小閾値パラメータを満たし、かつ画像処理モジュール1020から受け取ったダウンサンプリングされたバイナリ行列画像内の非占有スペースに適合する、長方形スペースを決定する。長方形スペースを決定する際に、挿入スペース提案モジュール1030は、「バイナリ行列における最大長方形」技術の適切な変形を使用してもよい。「バイナリ行列における最大長方形」技術は、非占有スペースに存在し、かつ所定の最小閾値パラメータを満たす、ダウンサンプリングされたバイナリ行列での可能な長方形を決定する。いくつかの実施形態では、すべての決定された長方形スペース(すなわち、長方形)は、面積によってソートされたリストに配置され得る。いくつかの実施形態において、挿入スペース提案モジュール1030は、提案された長方形のソートされたリストをデータストア1070に記憶してよい。いくつかの実施形態では、挿入スペース提案モジュール1030は、長方形スペースのソートされたリストを、受け取った画像内のメディアコンテンツアイテムオーバーレイのための1つ以上の提案スペースとして、境界ボックス選択モジュール1040に提供してよい。いくつかの実施形態では、長方形のソートされたリスト内の長方形は各々、信頼尺度(confidence measure)に関連付けられてもよい。ソートされたリスト内の長方形に関連付けられる例示的な信頼尺度は、ダウンサンプリングされる前に生成されるバイナリ行列画像に重ね合わされるときに長方形内に存在する占有スペースに基づいてよい。
境界ボックス選択モジュール1040は、1つ以上のヒューリスティックルールを適用して、提案された1つ以上のスペースからメディアコンテンツアイテムオーバーレイのための画像内の境界ボックスを自動的に選択する。境界ボックス選択モジュール1040は、挿入スペース提案モジュール1030から提案された長方形のセット及び関連する信頼尺度を受け取る。提案された長方形のセットは、挿入スペース提案モジュール1030によって生成された長方形のソートされたリストの形態であってよい。境界ボックスは、メディアコンテンツアイテムを配置するための挿入スペースとして選択される画像上のエリアを指す。一実施形態では、画像に挿入する必要があり得るメディアコンテンツアイテムの数に基づいて、複数の境界ボックスが生成されてよい。挿入する必要があり得るメディアコンテンツアイテムの数に関する情報は、境界ボックス選択モジュール1040によってデータストアから取得され得る。本明細書に記載される実施形態において、境界ボックスは、これらに限定されないが、長方形、正方形、円、多角形及び任意の他の適切な形状を含む任意の形状であってよい。境界ボックスは、不規則な寸法であってもよく、かつ/又は複数の形状を組み合わせてもよい。例えば境界ボックスは、正方形(例えば座標と1つのオフセットとによって表される)、円(例えば円の中心である座標と、円の半径又は直径を表す1つの寸法とによって表される)、楕円(例えば2つの半径と中心の座標とによって表される)であってよい。いくつかの実施形態では、境界ボックスは、画像上の座標を表す点のベクトルによって記述されてよい。ベクトル及びそれらのベクトルの接続は、境界ボックスを表してよい。
境界ボックス選択モジュール1040は、長方形のソートされたリストにヒューリスティックルールを適用して、ソートされたリスト内の提案された長方形から、メディアコンテンツアイテムオーバーレイのための目標数の境界ボックスを選択する。境界ボックスの目標数は、画像上にオーバーレイされる必要があるメディアコンテンツアイテムの目標数に基づいてよい。画像内にメディアコンテンツアイテムを挿入するための目標数の境界ボックスを選択するために適用されるヒューリスティックルールは、コア設計原理に基づくヒューリスティックルールを含んでよい。このようなヒューリスティックルールには、長方形間の類似性を強制するルール、長方形間の近接性を強制するルール、組合せ不規則多角形スペースを生成するための長方形の組合せのための閉鎖(closure)を強制するルール等が含まれ得る。境界ボックス選択モジュール1040によって適用されるヒューリスティックルールは、これらに関連付けられる所定の優先順位を有し、該所定の優先順位は、ヒューリスティックルールが適用され得る順序を定義する。境界ボックス選択モジュール1040は、データストア1070から、ヒューリスティックルールを適用するための関連する所定の閾値パラメータとともにヒューリスティックルールを取得し得る。
いくつかの実施形態では、境界ボックス選択モジュール1040は、挿入スペース提案モジュール1030によって生成されたソート済みリストを、類似性についての所定の閾値基準を満たす(すなわち、類似していない長方形のみを保持する)リスト内の長方形の各サブセットから単一の長方形を選択することによってプルーニングしてよい。所定の類似性閾値パラメータは、提案された長方形に対する位置、面積、幅、高さのようなパラメータの組合せであってよい(例えば類似性についてのヒューリスティックルールは、「2つの提案された長方形の重心が、互いに所定の閾値よりも小さい距離で画像上に位置し、それらのアスペクト比が所定の閾値よりも小さい差を有する場合、2つの提案された長方形は類似している」というものであってよく、プルーニングについてのヒューリスティックルールは、「長方形のサブセットが類似しているとラベル付けされている場合、それらのすべてを、サブセット内の個々の長方形の重み付けされた組合せである単一の長方形に置き換える」等であってよい)。いくつかの実施形態では、境界ボックス選択モジュール1040は、1つ以上の長方形を選択するために、提案された長方形の対に対する信頼尺度に関連して、Intersection over Union(IoU)比を使用する反復アプローチに基づく「非最大抑制技術(non-max suppression technique)」の変形を使用してよい。
いくつかの実施形態では、ヒューリスティックルールを適用して、選択された長方形を必要最小限に修正し、境界ボックスが、画像に重ね合わされたグリッド上に固定される(すなわち、スナップされる)、結果として得られる長方形であることを保証し得る。いくつかの実施形態において、別のヒューリスティックルールは、ピラミッド列グループ化アプローチを伴ってよい。このアプローチでは、画像は、複数の隣接する列に分割されてよく、隣接する列自体はピラミッド形式でグループ化される。例えば画像は12個の列に分割されてよく、それぞれ3つの隣接する列からなる4つのグループ化、4つの隣接する列からなる3つのグループ化、それぞれ6つの隣接する列からなる2つのグループ化、そしてすべて12個の列の最終グループ化であってよい。ヒューリスティックルールを適用して、選択された長方形の各々について、選択された長方形と最も良く重なる列のグループ化の中から隣接する列のグループ化を決定してよい。したがって、生成された境界ボックスは、決定された列のグループ化が選択された長方形との重なりの所定の最小閾値を満たすように、画像上に重ね合わされる列の複数のグループ化から隣接する列のグループ化を決定することに基づいて、画像内のメディアコンテンツオーバーレイのために選択されてよい。
いくつかの実施形態では、ヒューリスティックルールは、境界ボックスの所定の数、境界ボックスの目標面積、目標形状、目標アスペクト比及び目標位置を選択すること等、生成された境界ボックスについての所定の目標プロパティを指定してよい。例えばヒューリスティックルールは、「画像の上部の中央にオーバーレイされる単一バナー」の形態をとるメディアコンテンツオーバーレイの優先順位を指定してよい。いくつかの実施形態では、画像内のピクセル位置に推定深度値を提供する追加情報がある場合、これらの深度推定値も用いて境界ボックスを選択してもよい。
いくつかの実施形態では、境界ボックス選択モジュール1040は、選択された1つ以上の長方形の重み付けされた組合せとして境界ボックスを生成してよく、重みは、選択された長方形の各々に関連付けられる信頼尺度に基づく。境界ボックスは、受け取った画像における境界ボックスの位置を記述するパラメータと、受け取った画像における境界ボックスのレイアウトを記述するパラメータとによって記述され得る。例えば境界ボックスは、画像上の1つ以上の座標と、該1つ以上の座標から延びる1つ以上の寸法とを含む長方形によって記述されてよい。座標は、画像上の特定のピクセルを表してよい。いくつかの実施形態では、境界ボックスは、画像の左上隅から水平方向及び垂直方向にあるピクセル数に関してカウントされる座標と、2つの寸法によって表されてよい。この座標は、境界ボックスの左上隅を表してよい。2つの寸法は、座標から伸びる垂直オフセットと水平オフセットを含んでよい。座標とオフセットに基づいて、オフセットに基づくエリアと座標に基づく位置とを有する長方形の境界ボックスが生成され得る。本明細書に記載される実施形態では、境界ボックスの他の記述、例えば選択された長方形の重み付けされた組合せに最も近い外接楕円(circumscribing ellipse)である楕円も可能である。いくつかの実施形態では、挿入スペース選択モジュール1040は、境界ボックスの記述をデータストア1070に記憶してよい。いくつかの実施形態において、境界ボックス選択モジュール1040は、境界ボックスの記述をメディアコンテンツオーバーレイモジュール1060に送信してもよい。
メディアコンテンツ選択モジュール1050は、1つ以上の境界ボックスの記述を受け取ってよい。いくつかの実施形態において、メディアコンテンツ選択モジュール1050は、データストア1070から1つ以上の境界ボックスの記述を取得してもよい。メディアコンテンツ選択モジュール1050は、各境界ボックスに関連付けられる記述から寸法を抽出し、抽出された寸法に最も一致する寸法を有する、データストア1070内のメディアコンテンツアイテムを検索し得る。メディアコンテンツ選択モジュール1050は、境界ボックスの寸法と一致するコンテンツアイテムの寸法に基づいて、複数のメディアコンテンツアイテムからメディアコンテンツアイテムを選択してよい。メディアコンテンツ選択モジュール1050は、選択された1つ以上のメディアコンテンツアイテムをデータストア1070から取得してよい。いくつかの実施形態では、選択された各メディアコンテンツアイテムに加えて、メディアコンテンツ選択モジュール1050は、各メディアコンテンツアイテムに関連付けられたメタデータを抽出してよい。メタデータは、対応するメディアコンテンツアイテムの寸法、並びに他の情報(例えば名前、タイプ(画像、ビデオ等))、向き及び/又は他の適切な情報を含み得る。メディアコンテンツ選択モジュール1050は、選択されたメディアコンテンツアイテム及び関連するメタデータをメディアコンテンツオーバーレイモジュール1060に送信してよい。いくつかの実施形態では、メディアコンテンツ選択モジュール1050は代替的に、選択されたメディアコンテンツアイテムの1つ以上の識別子をメディアコンテンツオーバーレイモジュール1060に送信してもよい。各識別子は、各メディアコンテンツアイテムについての寸法も含むデータ構造の部分であってよい。他の情報(例えば名前、タイプ(画像、ビデオ等))がデータ構造に含まれてもよい。メディアコンテンツアイテムはサイズが大きく、単に識別子を転送するのに比べて転送に長い時間を要するので、これは有利であり得る。
メディアコンテンツオーバーレイモジュール1060は、1つ以上の境界ボックスの記述を受け取る。いくつかの実施形態において、記述は、境界ボックス選択モジュール1040から受け取られてよい。いくつかの実施形態において、メディアコンテンツオーバーレイモジュール1060は、データストア1070から記述を取得してもよい。メディアコンテンツオーバーレイモジュール1060は、境界ボックス内に表示されるべきメディアコンテンツアイテムをメディアコンテンツアイテム選択モジュール1050から受け取ってもよい。いくつかの実施形態では、メディアコンテンツオーバーレイモジュール1060は、データストア1070からメディアコンテンツアイテムを取得してもよい。
前述したように、いくつかの実施形態では、画像はビデオコンテンツアイテムの画像フレームであってもよい。メディアコンテンツオーバーレイモジュール1060は、先行フレームのうちの1つ以上について、決定された境界ボックスに関する位置及びレイアウト情報を記憶し、ヒューリスティックルールを適用して、境界ボックス選択モジュール1040から受け取った決定された境界ボックスの寸法、レイアウト又は位置のうちのいずれかを修正し、ビデオコンテンツアイテムを表示するときに受け取った画像の表示後に表示されるビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証することができる。
データストア1070は、ヒューリスティックスベースのメディアコンテンツ挿入システム1000のモジュールによる使用及び容易なアクセスのためのデータを受信し、記憶する。データストア1070は、画像受信モジュール1010から受け取った1つ以上の画像を記憶してよい。データストア1070は、バイナリ行列、並びに画像処理モジュール1020によって生成されたダウンサンプリングされたバイナリ行列を記憶してよい。データストア1070は、メディアコンテンツ挿入システム1000のモジュールによって実行されるプロセスによって使用されるヒューリスティックルール及び閾値パラメータ値、例えば目標境界ボックス記述パラメータ、目標境界ボックスの数、目標面積、位置及び形状パラメータ等を記憶する。データストア1070は、ヒューリスティックスベースのメディアコンテンツ挿入システム1000の様々なモジュールによって使用される中間データ、例えば実際の挿入スペースを選択するために使用され得る長方形の提案リスト等を記憶してよい。いくつかの実施形態では、データストア1070はまた、メディアコンテンツアイテム及び関連するメタデータパラメータ値を記憶するためにも使用されてよい。データストア1070は、読取専用メモリ(ROM)、動的ランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)、又はこれらの何らかの組合せのようなメモリである。
全体的なプロセス
図11は、一実施形態による、ヒューリスティックスベースのメディアコンテンツ挿入システム1000によって実行される、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するための全体的なプロセスを示すフローチャートである。様々な実施形態は、図11のステップを、本明細書に示したものとは異なる順序で実行することができる。さらに、他の実施形態は、本明細書に記載されたものとは異なる及び/又は追加のステップを含むことができる。
ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、メディアコンテンツアイテムオーバーレイのための画像を受信1110する。例えばヒューリスティックスベースのメディアコンテンツ挿入システム1000は、ネットワークを介して画像を受信1110してよく、あるいは画像ストアから画像を取得するための命令を受け取ってもよい。ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、ビデオコンテンツアイテムを受信1110してよく、ビデオコンテンツアイテムから1つ以上の画像フレームを抽出し得る。
ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、1つ以上の画像処理技術を使用して、受け取った画像を処理1120し、メディアコンテンツアイテムオーバーレイのための画像内に1つ以上の提案スペースを自動的に生成する。ヒューリスティックスベースのメディアコンテンツ挿入システム1000によって実行される画像処理技術は、グレースケール画像の生成、画像の不鮮明化、勾配フィルタリング又はエッジ検出フィルタリングの実行、顕著性フィルタリング、テキスト、人及び顔検出のためのssdネットワーク及び分類器のような補足的な機械学習方法の使用、前景/背景推定、視覚エントロピーフィルタリング、バイナリ行列の生成及びダウンサンプリング等の任意の組合せを含む。ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、画像のバイナリ行列内で所定の最小閾値パラメータを満たす長方形スペースを決定し、生成されたバイナリ行列の長方形スペース内のテキスト及び顔をブロックアウトする。その後、ヒューリスティックスベースのシステム1000は、長方形スペースのソート済みリストを生成し、ここで、ソートは、所定のパラメータ(例えば面積)に基づいて実行され、生成されたソート済みリスト内の長方形スペースを、画像内のメディアコンテンツアイテムオーバーレイのための1つ以上の提案スペースとして提供する。
ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、ヒューリスティックルールを適用1130して、メディアコンテンツアイテムオーバーレイのための画像内の1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択する。ヒューリスティックルールは、ヒューリスティックスベースのメディアコンテンツ挿入システム1000による適用のために優先され得る。ヒューリスティックルールは、例えば(i)画像に重ね合わされたグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成すること、(ii)画像を複数の隣接する列に分割し、それらの列をピラミッド状にグループ化し、少なくとも所定の閾値だけ提案スペースと重なる(例えば選択された長方形の少なくとも80%が、隣接する列の選択されたグループと重なる)隣接する列のグループを選択することによって生成される境界ボックスを生成すること、(iii)1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成すること、(iv)1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成することを含み、所定の目標プロパティは、他のヒューリスティックルールの中でも特に、例えば境界ボックスの数、境界ボックスの面積、形状、アスペクト比及び位置等を含む。
ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、画像内の選択された対応する1つ以上の境界ボックス内のオーバーレイのためにメディアコンテンツアイテムを選択1140する。いくつかの実施形態では、ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、1つ以上の境界ボックスの記述を受け取り、境界ボックスの受け取った記述の寸法と一致するメディアコンテンツアイテムの寸法に基づいて、複数のメディアコンテンツアイテムからメディアコンテンツアイテムを選択してよい。
ヒューリスティックスベースのメディアコンテンツ挿入システム1000は、画像と、該画像内の対応する1つ以上の境界ボックス内にオーバーレイさせた、選択された1つ以上のメディアコンテンツアイテムとを表示させる1150。例えばヒューリスティックスベースのメディアコンテンツ挿入システム1000は、オーバーレイされた候補画像を表示のためにクライアントデバイスに送信することができる。いくつかの実施形態において、メディアコンテンツ挿入システム1000は、視覚インタフェースを使用して、オーバーレイされた候補画像を表示させてよい。
コンピューティングマシンアーキテクチャ
図1に示されるメディアコンテンツ記憶システム100及びニューラルネットワークベースのメディアコンテンツ挿入システム160の各々と、図10に示されるヒューリスティックスベースのメディアコンテンツ挿入システム1000は、図12に示される1つ以上の構成要素を含んでよい。図12は、機械読取可能媒体から命令を読み取り、それらをプロセッサ(又はコントローラ)において実行することができる例示的なマシンの構成要素を示すブロック図である。具体的には、図12は、本明細書に記載される方法のいずれか1つ以上をマシンに実行させるためのプログラムコード(例えばソフトウェア)が実行され得る、コンピュータシステム1200の例示的形態におけるマシンの図形表現を示す。プログラムコードは、1つ以上のプロセッサ1202によって実行可能な命令1224から構成されてよい。代替的な実施形態では、マシンは、スタンドアロンデバイスとして動作するか、あるいは他のマシンに接続(例えばネットワーク接続)されてよい。ネットワーク配置では、マシンは、サーバ-クライアントネットワーク環境ではサーバマシン又はクライアントマシンの能力で動作し、あるいはピアツーピア(又は分散)ネットワーク環境ではピアマシンとして動作してもよい。
マシンは、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、スマートフォン、ウェブ機器、ネットワークルータ、スイッチ又はブリッジ、あるいはそのマシンによってとられるべきアクションを指定する命令1224を(逐次的又は他の方法で)実行することができる任意のマシンであってよい。さらに、単一のマシンのみが図示されているが、「マシン」という用語は、本明細書に記載された方法のいずれか1つ以上を実行するために命令1224を個別に又は共同で実行するマシンの任意の集合も含むものとして解釈されるべきである。
例示的なコンピュータシステム1200は、プロセッサ1202(例えば中央演算処理ユニット(CPU)、グラフィクス処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、1つ以上の特定用途向け集積回路(ASIC)、1つ以上の無線高周波集積回路(RFIC)又はこれらの任意の組合せ)、メインメモリ1204及びスタティックメモリ1206を含み、これらは、バス1208を介して互いに通信するように構成される。コンピュータシステム1200は、視覚ディスプレイ・インタフェース1210を更に含んでよい。視覚インタフェースは、スクリーン(又はディスプレイ)上にユーザインタフェースを表示することを可能にするソフトウェアドライバを含んでよい。視覚インタフェースは、ユーザインタフェースを直接的に(例えばスクリーン上に)表示し、あるいは表面、ウィンドウ等の上に間接的に(例えばビジュアル投影ユニットを介して)表示し得る。説明を容易にするために、視覚インタフェースはスクリーンとして説明されてもよい。視覚インタフェース1210は、タッチ対応スクリーンを含んでもよく、あるいはタッチ対応スクリーンとインタフェースしてもよい。コンピュータシステム1200はまた、英数字入力デバイス1212(例えばキーボード又はタッチスクリーンキーボード)、カーソル制御デバイス1214(例えばマウス、トラックボール、ジョイスティック、モーションセンサ又は他のポインティング機器)、記憶ユニット1216、信号生成デバイス1218(例えばスピーカ)及びネットワークインタフェースデバイス1220も含んでよく、これらもバス1208を介して通信するように構成される。
記憶ユニット1216は、本明細書に記載される方法論又は機能のいずれか1つ以上を具体化する命令1224(例えばソフトウェア)が記憶される機械読取可能媒体1222を含む。命令1224(例えばソフトウェア)はまた、コンピュータシステム1200による命令の実行中に、完全に又は少なくとも部分的に、メインメモリ1204内に又はプロセッサ1202内に(例えばプロセッサのキャッシュメモリ内に)存在してもよく、メインメモリ1204及びプロセッサ1202も機械読取可能媒体を構成している。命令1224(例えばソフトウェア)は、ネットワークインタフェースデバイス1220を介してネットワーク1226上で送信又は受信され得る。
機械読取可能媒体1222は、例示的な実施形態では、単一媒体であるように示されているが、用語「機械読取可能媒体」は、命令(例えば命令1224)を記憶することができる単一媒体又は複数媒体(例えば集中型又は分散型データベース、又は関連するキャッシュ及びサーバ)を含むように解釈されるべきである。「機械読取可能媒体」という用語はまた、マシンによる実行のための命令(例えば命令1224)を記憶することができ、マシンに本明細書に開示された方法のいずれか1つ以上を実行させる任意の媒体を含むと解釈されるべきである。「機械読取可能媒体」という用語は、これらに限定されないが、ソリッドステートメモリ、光媒体及び磁気媒体の形態のデータリポジトリを含む。
図12の構成要素は、他の中でも特に、ニューラルネットワークベースのアプローチ及びヒューリスティックスベースのアプローチを使用して、画像の上にメディアコンテンツをオーバーレイするのに適したスペースを検出するためのシステム又はプロセスにおいて使用され得る。
追加の構成の考慮事項
本明細書全体を通して、複数のインスタンスが、単一のインスタンスとして説明される構成要素、動作又は構造を実装してよい。1つ以上の方法の個々の動作は、別個の動作として図示及び説明されているが、個々の動作のうちの1つ以上が同時に実行されてもよく、動作が図示される順序で実行されることを要求するものはない。例示的な構成において別個の構成要素として提示される構造及び機能性は、組み合わされた構造又は構成要素として実装されてもよい。同様に、単一の構成要素として提示される構造及び機能性が、別個の構成要素として実装されてもよい。これら及び他の変形、修正、追加及び改良は、本明細書の主題の範囲内にある。
特定の実施形態は、本明細書において、ロジック又は複数の構成要素、モジュール又は機構を含むものとして説明される。モジュールは、ソフトウェアモジュール(例えば機械読取可能媒体に又は伝送信号内に具現化されたコード)又はハードウェアモジュールのいずれかを構成してよい。ハードウェアモジュールは、特定の動作を実行することができる有形のユニットであり、特定の方法で構成又は配置されてよい。例示的な実施形態では、1つ以上のコンピュータシステム(例えばスタンドアロン、クライアント又はサーバコンピュータシステム)又はコンピュータシステムの1つ以上のハードウェアモジュール(例えばプロセッサ又はプロセッサのグループ)は、本明細書に記載される特定の動作を実行するように動作するハードウェアモジュールとして、ソフトウェア(例えばアプリケーション又はアプリケーション部分)によって構成されてもよい。
様々な実施形態において、ハードウェアモジュールは、機械的又は電子的に実装されてもよい。例えばハードウェアモジュールは、特定の動作を実行するために(例えばフィールドプログラマブルゲートアレイ(FPGA)又は特定用途向け集積回路(ASIC)のような特殊目的プロセッサとして)永続的に構成される専用回路又はロジックを含んでよい。ハードウェアモジュールはまた、特定の動作を実行するためにソフトウェアによって一時的に構成されるプログラマブルロジック又は回路(例えば汎用プロセッサ又は他のプログラマブルプロセッサ内に包含されるような)を含み得る。ハードウェアモジュールを機械的に、専用の永続的に構成された回路内に、あるいは一時的に構成された(例えばソフトウェアによって構成された)回路内に実装する決定は、コストと時間を考慮して行われてよいことが理解されよう。
したがって、用語「ハードウェアモジュール」は、有形のエンティティを包含するように理解されるべきであり、それは、特定の方法で動作するよう又は本明細書に記載される特定の動作を実行するように、物理的に構築されるか、永続的に構成される(例えばハードワイヤードされる)か又は一時的に構成されるエンティティ(例えばプログラムされた実体)である。本明細書で使用されるとき、「ハードウェア実装モジュール」は、ハードウェアモジュールを指す。ハードウェアモジュールが一時的に構成される(例えばプログラムされる)実施形態を考慮すると、ハードウェアモジュールの各々は、任意の一時点において構成又はインスタンス化される必要はない。例えばハードウェアモジュールがソフトウェアを使用して構成される汎用プロセッサを含む場合、汎用プロセッサは、異なる時間にそれぞれ異なるハードウェアモジュールとして構成されてもよい。したがって、ソフトウェアは、例えばある一時点で特定のハードウェアモジュールを構成し、異なる時点で異なるハードウェアモジュールを構成するようにプロセッサを構成してよい。
ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受け取ることができる。したがって、記載されるハードウェアモジュールは、通信可能に結合されているものとみなされてよい。複数のそのようなハードウェアモジュールが同時に存在する場合、通信は、ハードウェアモジュールを接続する信号伝送(例えば適切な回路及びバスを介して)によって達成され得る。複数のハードウェアモジュールが異なる時間に構成又はインスタンス化される実施形態では、そのようなハードウェアモジュール間の通信は、例えば複数のハードウェアモジュールがアクセスを有するメモリ構造内の情報の記憶及び取得を通して達成され得る。例えば1つのハードウェアモジュールは、動作を実行し、その動作の出力を、通信可能に結合されたメモリデバイスに記憶してよい。更なるハードウェアモジュールは、その後、メモリデバイスにアクセスして、記憶された出力を取得して処理し得る。ハードウェアモジュールはまた、入力デバイス又は出力デバイスとの通信を開始してよく、リソース(例えば情報の集合)に対して動作することができる。
本明細書に記載される例示的な方法の様々な動作は、少なくとも部分的に、関連する動作を実行するように一時的に(例えばソフトウェアによって)構成された又は永続的に構成された1つ以上のプロセッサによって実行されてもよい。一時的に又は永続的に構成されても、そのようなプロセッサは、1つ以上の動作又は機能を実行するように動作するプロセッサ実装モジュールを構成してよい。本明細書で言及されるモジュールは、いくつかの例示的な実施形態において、プロセッサ実装モジュールを含んでよい。
同様に、本明細書に記載される方法は、少なくとも部分的にプロセッサによって実装され得る。例えば方法の動作の少なくとも一部は、1つ以上のプロセッサ又はプロセッサ実装ハードウェアモジュールによって実行されてよい。特定の動作の性能は、単一マシン内に存在するだけでなく、複数のマシンにわたって展開される、1つ以上のプロセッサに分散されてもよい。いくつかの例示的な実施形態では、1つ以上のプロセッサは、単一の場所(例えば家庭環境内、オフィス環境内又はサーバファームとして)に配置されてもよく、他の実施形態では、プロセッサは複数の場所にわたって分散されてもよい。
1つ以上のプロセッサは、「クラウドコンピューティング」環境において又は「ソフトウェアアズアサービズ(SaaS)」として、関連する動作の実行をサポートするようにも動作し得る。例えば動作の少なくとも一部は、コンピュータのグループ(プロセッサを含むマシンの例として)によって実行されてよく、これらの動作は、ネットワーク(例えばインターネット)を介して、及び1つ以上の適切なインタフェース(例えばアプリケーションプログラムインタフェース(API))を介してアクセス可能である。
特定の動作の性能は、単一マシン内に存在するだけでなく、複数のマシンにわたって展開される、1つ以上のプロセッサに分散されてもよい。いくつかの例示的な実施形態では、1つ以上のプロセッサ又はプロセッサ実装モジュールは、単一の地理的位置(例えば家庭環境、オフィス環境又はサーバファーム内に)に配置されてよい。他の例示的な実施形態では、1つ以上のプロセッサ又はプロセッサ実装モジュールは、複数の地理的位置にわたって分散されてよい。
本明細書のいくつかの部分は、マシンメモリ(例えばコンピュータメモリ)内にビット又はバイナリデジタル信号として記憶されるデータに対する、動作のアルゴリズム又は記号表現に関して提示される。これらのアルゴリズム又は記号表現は、データ処理技術の当業者によって、その仕事の要旨を他の当業者に伝えるために使用される技術の例である。本明細書で使用されるとき、「アルゴリズム」は、所望の結果を導く動作又は同様の処理の自己矛盾のないシーケンスである。この文脈において、アルゴリズム及び動作は、物理的な量の物理的操作を含む。典型的には、必ずしもそうではないが、そのような量は、マシンによって記憶され、アクセスされ、転送され、結合され、比較され又は他の方法で操作されることができる電気信号、磁気信号又は光信号の形態をとってよい。主に一般的な使用法の理由から、「データ」、「コンテンツ」、「ビット」、「値」、「要素」、「記号」、「文字」、「用語」、「数字」、「数」等の語を使用してそのような信号を言及することは時に便利である。しかしながら、これらの語は単に便利なラベルにすぎず、適切な物理量と関連付けられるべきである。
特に明記しない限り、「処理」、「演算」、「計算」、「決定」、「提示」、「表示」等の用語を使用する本明細書での議論は、1つ以上のメモリ(例えば揮発性メモリ、不揮発性メモリ又はそれらの組合せ)、レジスタ、あるいは情報を受信、記憶、送信又は表示する他のマシン構成要素内の物理的(例えば電子的、磁気的又は光学的)量として表されるデータを操作又は変換するマシン(例えばコンピュータ)の動作又はプロセスを指すことがある。
本明細書で使用されるとき「一実施形態」又は「実施形態」へのいずれかの言及は、その実施形態に関連して記載される特定の要素、特徴、構造又は特徴が少なくとも1つの実施形態に含まれることを意味する。本明細書中の様々な箇所における「一実施形態において」という語句の出現は、必ずしもすべてが同じ実施形態を参照しているわけではない。
いくつかの実施形態は、それらの派生物とともに「結合された」及び「接続された」という表現を使用して説明され得る。これらの用語は互いに同義語として意図されていないことを理解されたい。例えばいくつかの実施形態は、2つ以上の要素が互いに直接物理的又は電気的に接触していることを示すために「接続された」という用語を使用して説明されることがある。別の例において、いくつかの実施形態は、2つ以上の要素が直接的な物理的又は電気的に接触していることを示すために「結合された」という用語を使用して記述されることがある。しかしながら、用語「結合された」は、2つ以上の要素が互いに直接接触していないが、依然として互いに協働又は相互作用することを意味することもある。実施形態は、これに限定されない。
本明細書で使用されるとき、用語「備える(comprises)」、「備えている(comprising)」、「含む(includes)」、「含んでいる(including)」、「有する(has)」、「有している(having)」又はこれらの任意の他の変形は、非排他的な包含をカバーするように意図される。例えば要素のリストを含むプロセス、方法、物品又は装置は、必ずしもそれらの要素のみに限定されるものではなく、明示的に列挙されていない又はそのようなプロセス、方法、物品又は装置に固有でない他の要素を含み得る。さらに、明示的に反対の記載がない限り、「又は」は、包括的な又は、を意味し、排他的な又は、を意味しない。例えば条件A又はBは、以下のいずれか1つによって満たされる:Aが真であり(又は存在し)、Bが偽である(又は存在しない)、Aが偽であり(又は存在せず)、Bが真である(又は存在する)、AとBの両方が真である(又は存在する)。
加えて、「a」又は「an」の使用は、本明細書の実施形態の要素及び構成要素を説明するために用いられる。これは単に便宜のために、また本発明の一般的な意味を与えるために行われる。この説明は、1つ又は少なくとも1つを含むように読まれるべきであり、単数形はまた、別段の意味を有することが明らかでない限り、複数形も含む。
本開示を読むと、当業者は、画像において利用可能なコピースペースにメディアコンテンツを挿入するためのシステム及びプロセスのための更に追加の替構造及び機能設計を理解するであろう。したがって、特定の実施形態及び適用を図示及び説明してきたが、開示される実施形態は、本明細書に開示された正確な構造及び構成要素に限定されないことを理解すべきである。添付の特許請求の範囲に定義された精神及び範囲から逸脱することなく、本明細書に開示された方法及び装置の配置、動作及び詳細において、当業者には明らかであるような様々な修正、変更及び変形が行われてよい。

Claims (52)

  1. メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのコンピュータ実装方法であって、
    メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取るステップと、
    前記候補画像をニューラルネットワークに入力するステップであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされている、ステップと、
    前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを受け取るステップと、
    前記1つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信するステップであって、前記要求は、前記1つ以上の境界ボックスの前記1つ以上の寸法を含む、ステップと、
    前記要求に応答して前記メディアコンテンツアイテムを受け取るステップと、
    前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップと、
    を含む、方法。
  2. 前記複数の画像を受け取るステップと、
    前記複数の画像の各々に対して1つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記1つ以上のベクトルの各ベクトルは特定の境界ボックスを表す、ステップと、
    前記複数の画像の各々と、対応する1つ以上のベクトルとを使用してニューラルネットワークをトレーニングするステップと、
    を更に含む、請求項1に記載の方法。
  3. 前記メディアコンテンツを前記候補画像に挿入するための前記1つ以上の境界ボックスを表す前記座標と前記1つ以上の寸法とを受け取るステップは、各境界ボックスについて、
    前記候補画像の水平軸に沿った第1オフセットを表す第1座標及び前記候補画像の垂直軸に沿った第2オフセットを表す第2座標と、
    前記第1座標から前記水平軸に沿って延びる第1寸法と、
    前記第2座標から前記垂直軸に沿って延びる第2寸法と、
    対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
    を受信するステップを含む、請求項1に記載の方法。
  4. 各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
    特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
    を更に含む、請求項3に記載の方法。
  5. 前記要求に応答して、前記1つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
    前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
    前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
    を更に含む、請求項1に記載の方法。
  6. 前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
    前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
    前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、1つ以上の境界ボックスを表す対応する座標と、対応する1つ以上の寸法とを受け取るステップと、
    前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
    各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めるステップと、
    を更に含む、請求項1に記載の方法。
  7. 前記ビデオフレームのセットと、前記境界ボックス内に複数の後続のビデオフレームの各々の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップを更に含む、
    請求項6に記載の方法。
  8. メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのシステムであって、
    命令がエンコードされたメモリと、
    前記命令を実行すると、
    メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取るステップと、
    前記候補画像をニューラルネットワークに入力するステップであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされている、ステップと、
    前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを受け取るステップと、
    前記1つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信するステップであって、前記要求は、前記1つ以上の境界ボックスの前記1つ以上の寸法を含む、ステップと、
    前記要求に応答して前記メディアコンテンツアイテムを受け取るステップと、
    前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップと、
    を含む動作を実行させる1つ以上のプロセッサと、
    を備える、システム。
  9. 前記命令は、前記1つ以上のプロセッサに、
    前記複数の画像を受け取るステップと、
    前記複数の画像の各々に対して1つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記1つ以上のベクトルの各ベクトルは特定の境界ボックスを表す、ステップと、
    前記複数の画像の各々と、対応する1つ以上のベクトルとを使用してニューラルネットワークをトレーニングするステップと、
    を含む動作を実行させる、請求項8に記載のシステム。
  10. 前記メディアコンテンツを前記候補画像に挿入するための前記1つ以上の境界ボックスを表す前記座標と前記1つ以上の寸法とを受け取るステップは、各境界ボックスについて、
    前記候補画像の水平軸に沿った第1オフセットを表す第1座標及び前記候補画像の垂直軸に沿った第2オフセットを表す第2座標と、
    前記第1座標から前記水平軸に沿って延びる第1寸法と、
    前記第2座標から前記垂直軸に沿って延びる第2寸法と、
    対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
    を受信するステップを含む、請求項8に記載のシステム。
  11. 前記命令は、前記1つ以上のプロセッサに、
    各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
    特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
    を含む動作を実行させる、請求項10に記載のシステム。
  12. 前記命令は、前記1つ以上のプロセッサに、
    前記要求に応答して、前記1つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
    前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
    前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
    を含む動作を実行させる、請求項8に記載のシステム。
  13. 前記命令は、前記1つ以上のプロセッサに、
    前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
    前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
    前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、1つ以上の境界ボックスを表す対応する座標と、対応する1つ以上の寸法とを受け取るステップと、
    前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
    各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めるステップと、
    を含む動作を実行させる、請求項8に記載のシステム。
  14. 前記命令は、前記1つ以上のプロセッサに、前記ビデオフレームのセットと、前記境界ボックス内に複数の後続のビデオフレームの各々の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップを含む動作を実行させる、
    請求項13に記載のシステム。
  15. 命令を記憶する非一時的コンピュータ読取可能媒体であって、前記命令は、1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、
    メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取ることと、
    前記候補画像をニューラルネットワークに入力することであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされていることと、
    前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを受け取ることと、
    前記1つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信することであって、前記要求は、前記1つ以上の境界ボックスの前記1つ以上の寸法を含むことと、
    前記要求に応答して前記メディアコンテンツアイテムを受け取ることと、
    前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させることと、
    を実行させる、非一時的コンピュータ読取可能媒体。
  16. 前記1つ以上のプロセッサに、
    前記複数の画像を受け取ることと、
    前記複数の画像の各々に対して1つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記1つ以上のベクトルの各ベクトルは特定の境界ボックスを表すことと、
    前記複数の画像の各々と、対応する1つ以上のベクトルとを使用してニューラルネットワークをトレーニングすることと、
    を実行させる、記憶された命令を更に備える、請求項15に記載の非一時的コンピュータ読取可能媒体。
  17. 前記メディアコンテンツを前記候補画像に挿入するための前記1つ以上の境界ボックスを表す前記座標と前記1つ以上の寸法とを受け取ることは、各境界ボックスについて、
    前記候補画像の水平軸に沿った第1オフセットを表す第1座標及び前記候補画像の垂直軸に沿った第2オフセットを表す第2座標と、
    前記第1座標から前記水平軸に沿って延びる第1寸法と、
    前記第2座標から前記垂直軸に沿って延びる第2寸法と、
    対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
    を受信することを含む、請求項15に記載の非一時的コンピュータ読取可能媒体。
  18. 前記1つ以上のプロセッサに、
    各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断することと、
    特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外することと、
    を実行させる、記憶された命令を更に備える、請求項17に記載の非一時的コンピュータ読取可能媒体。
  19. 前記1つ以上のプロセッサに、
    前記要求に応答して、前記1つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取ることと、
    前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別することと、
    前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択することと、
    を実行させる、記憶された命令を更に備える、請求項15に記載の非一時的コンピュータ読取可能媒体。
  20. 前記1つ以上のプロセッサに、
    前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断することと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得することであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含むことと、
    前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力することと、
    前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、1つ以上の境界ボックスを表す対応する座標と、対応する1つ以上の寸法とを受け取ることと、
    前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別することと、
    各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めることと、
    を実行させる、記憶された命令を更に備える、請求項15に記載の非一時的コンピュータ読取可能媒体。
  21. メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのコンピュータ実装方法であって、
    メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
    1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    前記画像内の選択された対応する1つ以上の境界ボックスにおいて、オーバーレイのための1つ以上のメディアコンテンツアイテムを選択するステップと、
    前記画像と、前記画像内の前記対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を含む、方法。
  22. 1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップは、
    前記受け取った画像のバイナリ行列の表現を生成するステップと、
    前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす1つ以上の長方形スペースを決定するステップと、
    前記生成されたバイナリ行列において前記決定された1つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
    前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
    前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記1つ以上の提案スペースとして提供するステップと、
    を更に含む、請求項21に記載の方法。
  23. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、
    前記画像に重ね合わされるグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
    決定される隣接する列のグループが、前記1つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
    前記1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
    前記1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
    のうちの1つ以上を含む、請求項21に記載の方法。
  24. 前記所定の目標プロパティは、
    境界ボックスの数と、
    境界ボックスの面積と、
    境界ボックスの形状と、
    境界ボックスのアスペクト比と、
    境界ボックスの位置と、
    を含む、請求項23に記載の方法。
  25. 前記選択された1つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
    請求項21に記載の方法。
  26. 前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
    1つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    各ビデオフレーム画像と、各ビデオフレーム内の対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を更に含む、請求項21に記載の方法。
  27. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、前記ビデオコンテンツアイテムを表示するときに、前記受け取った画像を表示した後に表示されているビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証するステップを更に含む、
    請求項26に記載の方法。
  28. コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体であって、前記ステップは、
    メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
    1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    前記画像内の選択された対応する1つ以上の境界ボックスにおいて、オーバーレイのための1つ以上のメディアコンテンツアイテムを選択するステップと、
    前記画像と、前記画像内の前記対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を含む、非一時的コンピュータ読取可能媒体。
  29. 1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップは、
    前記受け取った画像のバイナリ行列の表現を生成するステップと、
    前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす1つ以上の長方形スペースを決定するステップと、
    前記生成されたバイナリ行列において前記決定された1つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
    前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
    前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記1つ以上の提案スペースとして提供するステップと、
    を更に含む、請求項28に記載の非一時的コンピュータ読取可能媒体。
  30. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、
    前記画像に重ね合わされるグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
    決定される隣接する列のグループが、前記1つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
    前記1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
    前記1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
    のうちの1つ以上を含む、請求項28に記載の非一時的コンピュータ読取可能媒体。
  31. 前記所定の目標プロパティは、
    境界ボックスの数と、
    境界ボックスの面積と、
    境界ボックスの形状と、
    境界ボックスのアスペクト比と、
    境界ボックスの位置と、
    を含む、請求項30に記載の非一時的コンピュータ読取可能媒体。
  32. 前記選択された1つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
    請求項28に記載の非一時的コンピュータ読取可能媒体。
  33. 前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
    1つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    各ビデオフレーム画像と、各ビデオフレーム内の対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を更に含む、請求項28に記載の非一時的コンピュータ読取可能媒体。
  34. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、前記ビデオコンテンツアイテムを表示するときに、前記受け取った画像を表示した後に表示されているビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証するステップを更に含む、
    請求項33に記載の非一時的コンピュータ読取可能媒体。
  35. コンピュータシステムであって、
    コンピュータプロセッサと、
    コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体と、を備え、前記ステップは、
    メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
    1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    前記画像内の選択された対応する1つ以上の境界ボックスにおいて、オーバーレイのための1つ以上のメディアコンテンツアイテムを選択するステップと、
    前記画像と、前記画像内の前記対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を含む、コンピュータシステム。
  36. 1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのために1つ以上の提案スペースを自動的に生成するステップは、
    前記受け取った画像のバイナリ行列の表現を生成するステップと、
    前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす1つ以上の長方形スペースを決定するステップと、
    前記生成されたバイナリ行列において前記決定された1つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
    前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
    前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記1つ以上の提案スペースとして提供するステップと、
    を更に含む、請求項35に記載のシステム。
  37. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、
    前記画像に重ね合わされるグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
    決定される隣接する列のグループが、前記1つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
    前記1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
    前記1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
    のうちの1つ以上を含む、請求項35に記載のシステム。
  38. 前記所定の目標プロパティは、
    境界ボックスの数と、
    境界ボックスの面積と、
    境界ボックスの形状と、
    境界ボックスのアスペクト比と、
    境界ボックスの位置と、
    を含む、請求項37に記載のシステム。
  39. 前記選択された1つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
    請求項35に記載のシステム。
  40. 前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
    1つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    各ビデオフレーム画像と、各ビデオフレーム内の対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を更に含む、請求項35に記載のシステム。
  41. 前記メディアコンテンツを前記候補画像に挿入するための前記1つ以上の境界ボックスを表す前記座標と前記1つ以上の寸法とを受け取るステップは、各境界ボックスについて、
    前記候補画像の水平軸に沿った第1オフセットを表す第1座標及び前記候補画像の垂直軸に沿った第2オフセットを表す第2座標と、
    前記第1座標から前記水平軸に沿って延びる第1寸法と、
    前記第2座標から前記垂直軸に沿って延びる第2寸法と、
    対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
    を受信するステップを含む、請求項1又は2に記載の方法。
  42. 各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
    特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
    を更に含む、請求項1~2、41のうちのいずれかに記載の方法。
  43. 前記要求に応答して、前記1つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
    前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
    前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
    を更に含む、請求項1~2、41~42のいずれかに記載の方法。
  44. 前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
    前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
    前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、1つ以上の境界ボックスを表す対応する座標と、対応する1つ以上の寸法とを受け取るステップと、
    前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
    各々の他のビデオフレームの境界ボックスと一致する境界ボックスを前記要求に含めるステップと、
    を更に含む、請求項1~2、41~43のいずれかに記載の方法。
  45. 前記ビデオフレームのセットと、前記境界ボックス内の複数の後続のビデオフレームの各々の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップを更に含む、
    請求項6又は44に記載の方法。
  46. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、
    前記画像に重ね合わされるグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
    決定される隣接する列のグループが、前記1つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
    前記1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
    前記1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
    のうちの1つ以上を含む、請求項21又は22に記載の方法。
  47. 前記所定の目標プロパティは、
    境界ボックスの数と、
    境界ボックスの面積と、
    境界ボックスの形状と、
    境界ボックスのアスペクト比と、
    境界ボックスの位置と、
    を含む、請求項23又は46に記載の方法。
  48. 前記選択された1つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
    請求項21~22、46~47のいずれかに記載の方法。
  49. 前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
    前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
    1つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に1つ以上の提案スペースを自動的に生成するステップと、
    1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
    各ビデオフレーム画像と、各ビデオフレーム内の対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
    を更に含む、請求項21~22、46~48のいずれかに記載の方法。
  50. 1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、前記ビデオコンテンツアイテムを表示するときに、前記受け取った画像を表示した後に表示されているビデオフレーム画像の各々において、オーバーレイされたメディアコンテンツの滑らかな遷移があることを保証するステップを更に含む、
    請求項26又は49に記載の方法。
  51. コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、請求項1~7、21~27、41~50のいずれかに記載の方法を実行させる命令を記憶するための非一時的コンピュータ読取可能媒体。
  52. コンピュータシステムであって、
    コンピュータプロセッサと、
    前記コンピュータプロセッサによって実行されると、前記コンピュータプロセッサに、請求項1~7、21~27、41~50のいずれかに記載の方法を実行させる命令を記憶するための非一時的コンピュータ読取可能媒体と、
    を備える、コンピュータシステム。


JP2023535081A 2020-12-09 2021-01-29 メディアコンテンツのオーバーレイに適した画像スペースの検出 Pending JP2024501444A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/116,944 US11798210B2 (en) 2020-12-09 2020-12-09 Neural network based detection of image space suitable for overlaying media content
US17/116,944 2020-12-09
PCT/US2021/015739 WO2022125127A1 (en) 2020-12-09 2021-01-29 Detection of image space suitable for overlaying media content

Publications (2)

Publication Number Publication Date
JP2024501444A true JP2024501444A (ja) 2024-01-12
JPWO2022125127A5 JPWO2022125127A5 (ja) 2024-02-07

Family

ID=74759469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023535081A Pending JP2024501444A (ja) 2020-12-09 2021-01-29 メディアコンテンツのオーバーレイに適した画像スペースの検出

Country Status (5)

Country Link
US (1) US11798210B2 (ja)
EP (1) EP4218246A1 (ja)
JP (1) JP2024501444A (ja)
CN (1) CN116584100A (ja)
WO (1) WO2022125127A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989858B2 (en) 2022-09-30 2024-05-21 Salesforce, Inc. Systems and methods of determining margins of an image for content insertion to form a composite image

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983446B2 (en) 2003-07-18 2011-07-19 Lockheed Martin Corporation Method and apparatus for automatic object identification
SG119229A1 (en) 2004-07-30 2006-02-28 Agency Science Tech & Res Method and apparatus for insertion of additional content into video
US8365072B2 (en) 2009-01-02 2013-01-29 Apple Inc. Identification of compound graphic elements in an unstructured document
US9646389B2 (en) 2014-08-26 2017-05-09 Qualcomm Incorporated Systems and methods for image scanning
US9594984B2 (en) * 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery
US10078794B2 (en) * 2015-11-30 2018-09-18 Pilot Ai Labs, Inc. System and method for improved general object detection using neural networks
US10839573B2 (en) * 2016-03-22 2020-11-17 Adobe Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10726443B2 (en) 2016-07-11 2020-07-28 Samsung Electronics Co., Ltd. Deep product placement
US10657364B2 (en) 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
JP2021511729A (ja) 2018-01-18 2021-05-06 ガムガム インコーポレイテッドGumgum, Inc. 画像、又はビデオデータにおいて検出された領域の拡張
US10691936B2 (en) 2018-06-29 2020-06-23 Konica Minolta Laboratory U.S.A., Inc. Column inferencer based on generated border pieces and column borders
US11087178B2 (en) 2019-04-12 2021-08-10 Facebook, Inc. Automated visual suggestion, generation, and assessment using computer vision detection
WO2021084702A1 (ja) 2019-10-31 2021-05-06 楽天株式会社 文書画像解析装置、文書画像解析方法およびプログラム
US11334771B2 (en) 2019-12-12 2022-05-17 Vade Usa, Incorporated Methods, devices and systems for combining object detection models

Also Published As

Publication number Publication date
US20220180581A1 (en) 2022-06-09
WO2022125127A1 (en) 2022-06-16
CN116584100A (zh) 2023-08-11
EP4218246A1 (en) 2023-08-02
US11798210B2 (en) 2023-10-24

Similar Documents

Publication Publication Date Title
US10984295B2 (en) Font recognition using text localization
CN112348815B (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
AU2018250370B2 (en) Weakly supervised model for object detection
US9875429B2 (en) Font attributes for font recognition and similarity
CN106447721B (zh) 图像阴影检测方法和装置
US9824304B2 (en) Determination of font similarity
JP6188400B2 (ja) 画像処理装置、プログラム及び画像処理方法
CN108121997A (zh) 使用机器学习模型的图像数据中的对象分类
CN109800698B (zh) 基于深度学习的图标检测方法、图标检测系统和存储介质
US20150016668A1 (en) Settlement mapping systems
CN112016546A (zh) 一种文本区域的定位方法及装置
JP2008537198A (ja) 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN110196917B (zh) 个性化logo版式定制方法、系统和存储介质
CN110598703A (zh) 一种基于深度神经网络的ocr识别方法及装置
JP2024501444A (ja) メディアコンテンツのオーバーレイに適した画像スペースの検出
US11657511B2 (en) Heuristics-based detection of image space suitable for overlaying media content
US20220414393A1 (en) Methods and Systems for Generating Composite Image Descriptors
CN118104224A (zh) 用于自适应地显示图像的电子装置及其操作方法
JP6749519B1 (ja) 多角形検出装置、多角形検出方法、及び多角形検出プログラム
CN113706636A (zh) 一种用于篡改图像识别的方法与装置
JP6609181B2 (ja) 文字属性推定装置、及び文字属性推定プログラム
JP2018156544A (ja) 情報処理装置及びプログラム
Xu et al. Uncovering the Metaverse within Everyday Environments: a Coarse-to-Fine Approach
KR20230073875A (ko) 이미지를 적응적으로 디스플레이하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240129