JP2019531548A - 視覚検索プラットフォームのための映像取り込みフレームワーク - Google Patents

視覚検索プラットフォームのための映像取り込みフレームワーク Download PDF

Info

Publication number
JP2019531548A
JP2019531548A JP2019513062A JP2019513062A JP2019531548A JP 2019531548 A JP2019531548 A JP 2019531548A JP 2019513062 A JP2019513062 A JP 2019513062A JP 2019513062 A JP2019513062 A JP 2019513062A JP 2019531548 A JP2019531548 A JP 2019531548A
Authority
JP
Japan
Prior art keywords
video
database
images
query
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019513062A
Other languages
English (en)
Other versions
JP2019531548A5 (ja
Inventor
モーリス ムーア,スティーブン
モーリス ムーア,スティーブン
ダニエル ムーア,ジミー
ダニエル ムーア,ジミー
パトリック ミュレイ,ラリー
パトリック ミュレイ,ラリー
Original Assignee
エイアイキュー ピーティーイー.リミテッド
エイアイキュー ピーティーイー.リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エイアイキュー ピーティーイー.リミテッド, エイアイキュー ピーティーイー.リミテッド filed Critical エイアイキュー ピーティーイー.リミテッド
Publication of JP2019531548A publication Critical patent/JP2019531548A/ja
Publication of JP2019531548A5 publication Critical patent/JP2019531548A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明は、メディアコンテンツの個々の区画(場面セグメントなど)のマッピングと、マッピングに従う識別を可能にするフォーマットへの、映像コンテンツの変換を可能にするフレームワークおよび方法を含む。本発明は、画像および映像フレームをデータベースに取り込む手段を含む。消費者向け製品は、画像および/または画像内のオブジェクトと照合され得る。消費者は、携帯情報端末で撮影したデジタル画像を送信することにより、そのコンテンツにアクセスすることができる。ユーザーが送信した画像内の1または複数のオブジェクトは、製品および/または商用物/販売促進物と照合され得る。

Description

発明の詳細な説明
[技術分野]
映像メディアコンテンツが視覚検索プラットフォームからアクセスされ得るように、該映像メディアコンテンツを取得し、処理し、解析し、取り込むためのネットワークを使用したコンピュータアプリケーションに関する。
[背景技術]
Eコマース(電子商取引、E-Commerce)は、オンラインで売買する取引である。Eコマースは、顧客に販売するだけでなく、顧客の関心を引く、世界中の中小企業および大企業にとって重要なツールとなっている。2012年には、電子商取引の売上高は1兆ドルを上回った。
インターネットマーケティングとは、Eコマースを介した販売を促進するために、ウェブと電子メールを利用する広告活動およびマーケティング活動である。インターネットマーケティングには、電子メールマーケティング、検索エンジンマーケティング(SEM)、ソーシャルメディアマーケティング、多くの種類の表示広告(例えば、バナー広告)および携帯広告が含まれる。メタデータは、インターネットマーケティングの重要な構成要素である。
事業者は、販売動向の解析と、販売計画の展開と予測とを可能にする、検索や取引に関するメタデータを日常的に保管する。この同じメタデータにより、事業者は、購買履歴、多数の配送先の住所録、および商品の推薦といった特徴を備えた、より個人向けの買い物体験を提供することができる。
今日、ほとんどのウェブページには、メタデータが埋め込まれている。ウェブ検索エンジンは、ユーザーに対して適切な検索結果を提供するために、ページテキストとそれに付随するメタデータを使用した膨大なインデックスを構築している。メタデータは、ターゲット広告に使用することができる。広告主は、自身が売り込む商品に基づき、所定の特性を有する、売り込みを最も受け入れやすい閲覧者をターゲットにするための高度な手段を使用することができる。
オンライン購入者は商品を直に見ることができないため、通常、キーワードといった判定基準により検索する。例えば、利用者は、ウェブブラウザを使用してニュージーランドへの航空便を検索することができる。彼または彼女が訪れたウェブサイトの「クッキー」の形式のメタデータはユーザーのウェブブラウザによってコンピュータに記憶される。クッキーは、インターネットサーバとブラウザとの間で送受信され、ユーザーの識別、および/または、彼または彼女の活動の追跡を可能とする。その後、利用者は、ホテル、レンタカー、ツアーおよびフライトインフォメーションと共にニュージーランドでの旅行に関連するバナー広告などの広告を受け取ることができる。
さらに、メタデータは、人口統計に基づいてユーザーをターゲットとするために使用され得る。事業者は、製品が特定の人口にアピールすること、および、マーケティングがその人口に向けられ得ると認識することができる。例えば、投資証券のバナー広告は、ティーンエイジャーに対しては効果がないかもしれない。より年齢層の高い人口、より具体的には、退職を希望する人々を広告のターゲットとすることは、より効果的であろう。メタデータは、彼または彼女の世代、および、彼または彼女が投資証券に関心を持っている可能性を特定するために、ユーザーに対して収集され得る。
視覚検索を使用するケースにおける取り込みの増加を実証するマーケットの出現に伴い、人口統計プロファイリングの発達が、事業者だけでなく消費者にとって高い関心と恩恵とをもたらしている。組織は、個人向けの商品の提供、(例えば季節変動に基づいた)使用パターンの推定、および、将来の商品の方向性を決定する手助けを行うために、このようなモデルを使用することができる。
視覚ベースの検索は、特に、遍在するスマートフォンおよびタブレットコンピュータにおいて一般的である。例えば、上記例のユーザーは、ニュージーランドにおけるハイキングおよびトレッキングに関する画像を探すことができる。彼または彼女は画像をクリックするだけのため、ブラウザは、ブラウザに入力されたキーワードに基づくメタデータを記録することができない。同様に、彼または彼女は、ニュージーランドのアトラクションに関連する映像を見ることができる。従来の技術では、画像も映像も、ターゲットマーケティングのためのメタデータに寄与しない。
種々の構造のインターネットベースの映像配信プラットフォームの普及および人気を考慮すると、映像コンテンツにおける視覚検索は、コンテンツ作成者、消費者、および商業パートナーからなる数百万のユーザー基盤を開拓できる可能性がある。映像の特定のセグメントを識別することができれば、関心のある人々は、これらのセクションを追加コンテンツで補強および/または組み合わせる能力を獲得する。これにより、上記セクションに対して情報が豊富となった形態をとることができる。商業パートナーは、商品を配信する手段として関連性のあるセクションをターゲットとすることを望むかもしれない。
現在、ユーザーにより閲覧される画像に基づくメタデータを効果的に生成し、抽出する方法はない。したがって、閲覧/検索された画像は、ターゲットマーケティングにおける個人のプロファイルに帰属させることはできない。また、キャプチャされた画像に基づく、テキストクエリに記述することなく検索する方法がない。したがって、閲覧者が番組または場面で視聴する物体または製品に対する関心を示す方法がない。例えば、閲覧者はハンドバッグを持つ有名人を見ることができるが、ハンドバッグをどこで購入するかは明らかでないかもしれない。閲覧者にとっての唯一の選択肢は、視覚検索クエリにおいてハンドバッグの属性を記述することである。
映像をウェブサイトにリンクおよび/または貼り付ける試みがこれまでなされてきた。現在の技術を使用して、ベンダーまたは広告主は、印刷物または映像広告上にQRコード(登録商標)(Quick Response Code)を含めることができる。閲覧者は、スマートフォンを使用して、彼または彼女をウェブサイトおよび/またはウェブコンテンツに案内するQRコード(登録商標)をスキャンすることができる。しかし、これには、ブロックのコードを閲覧者の近くに目立つように配置する必要がある。さらに、関心のある物体ごとに個別のQRコード(登録商標)を含めなければならない。映像の場合、QRコード(登録商標)は、その映像の全時間にわたって表示されなければならない。
QRコード(登録商標)の使用には明らかに限界がある。さらに、マーケティングの担当者は、広告スキップおよびオンデマンドメディアを利用するより若い閲覧者を取り込む方法の改善を求めている。商品の配置とブランド化したエンターテイメントにより、若い消費者および/またはテクノロジに精通した消費者をより効果的に取り込める「オムニチャネル」が実現する可能性がある。したがって、閲覧者が画像および/または映像上の物体に関する関心を表現することができる、および/または、該物体に関する追加の情報を取得することができる方法が必要とされている。システムは、キーワード検索またはQRコード(登録商標)のスキャンを行うことなく、ユーザーが主題の詳細とさらなる情報とを獲得することを可能にすべきである。このシステムは、印刷メディア(例えば、雑誌広告)および映像メディア(例えば、テレビ)で使用可能とすべきである。
[発明の概要]
本発明の第1の態様は、印刷されたメディアからデータベースに画像を取り込む手段である。
本発明の第2の態様は、印刷されたメディアからデータベースに画像を取り込み、画像中の物体を識別し、商品と照合する手段である。
本発明の第3の態様は、印刷されたメディアから画像をデータベースに取り込み、テキストや無関係なコンテンツを除去する手段である。
本発明の第4の態様は、映像メディアのセグメントをデータベースに取り込む手段である。
本発明の第5の態様は、映像のセグメントをデータベースに取り込む手段であって、映像のセグメントは、同一または類似の場面を比較することによって識別され、類似のセグメントはグループ化し、重複するセグメントは除去する手段である。
本発明の第6の態様は、映像のセグメントをデータベースに取り込む手段であって、映像の解像度および/またはフレームレートが低減される手段である。
本発明の第7の態様は、ビデオセグメントをデータベースに取り込む手段であって、ビデオセグメント内の物体が識別され、製品と照合される手段である。
[導入]
本発明は、印刷されたメディアからデータベースに画像を収集する方法を含み、該方法は、(a)印刷メディアを取得するステップと、(b)印刷メディアをデジタルメディアに変換するステップと、(c)接続されたエッジの輪郭に基づいてデジタルメディア内のテキストを検出するステップと、(e)デジタルメディアからテキストを有する領域を除去するステップと、(f)デジタルメディア内の1または複数の画像を検出するステップと、(g)1または複数の画像を分類するために十分な特徴が存在するか否かを判定するステップと、(h)1または複数に画像を分類するステップと、(i)1または複数の画像をデータベースに取り込むステップと、を含む。上記方法は、ユーザーがクエリを送信する際にデータベースにアクセスし、特徴を比較することによってデータベース内の1または複数の画像とクエリとを照合するステップをさらに含んでもよい。
また、本発明は、映像からフレームを収集し、フレームのデータベースへの保存とインデックス付けとを行う方法を含む。該方法は、(a)映像を取得するステップと、(b)映像をフレーム内の特徴において解析するステップと、(c)特徴に基づいてビデオをセグメントに分割するステップと、(d)セグメントの特徴を解析し、特徴が共通するセグメントをグループ化するステップと、(e)セグメントの1または複数のフレームにメタデータで注釈を付けるステップと、(f)セグメントの1または複数のフレームをデータベースに保存するステップと、を含む。本方法は、映像のフレームレートおよび/または解像度を低減するステップをさらに含むことができる。また、ユーザーがクエリを送信する際にデータベースにアクセスし、共通する特徴に基づき、データベース内のセグメントの1または複数のフレームとクエリとを照合するステップをさらに含むことができる。重複フレームは、共通するコンテンツに基づき識別され、1または複数の重複フレームが除去される。
また、本発明は、文書を取り込むためのコンピュータシステムを含み、該コンピュータシステムは、(a)文書をサーバにアップロードするためのユーザーインターフェースと、(b)文書を処理し、文書から区画を画像として抽出するための論理モジュールと、(c)画像からテキストを除去するための論理モジュールと、(d)画像の特徴を検出するための論理モジュールと、(e)画像に固有の識別情報を付与するための論理モジュールとを備える。コンピュータシステムは、クエリを受信する手段と、共通する特徴に基づいてデータベース内の1または複数の画像とクエリとを照合するモジュールとを含むこともできる。
さらに、本発明は、映像を取り込むコンピュータシステムを含み、該コンピュータシステムは、(a)映像をサーバにアップロードするためのユーザーインターフェースと、(b)映像を処理し、映像から区画を画像として抽出するためのコンピュータプログラムと、(c)抽出された区画を記憶するためのデータベースを備える。抽出された区画は、画像の特徴および画像の解像度を含む適合性パラメータを満たすか否かを解析される。固有の識別子が、抽出された各ビデオセクションに付与される。コンピュータシステムは、また、クエリを受信する手段と、共通する特徴に基づいて、データベース内の1または複数の映像区画とクエリとを照合するモジュールとを含むことができる。
図1は、画像取り込みフレームワークの例示的な概要を示す図である。
図2は、画像トリミングアルゴリズムによって使用されるステップを示す図である。
図3は、映像取り込みフレームワークの例示的な概要を示す図である。
図4は、映像セグメント処理プログラムの概要を示す図である。
図5は、映像セグメント挿入プログラムを示す図である。
[発明を実施するための形態]
[定義]
本明細書において、「一実施形態/一態様」または「ある実施形態/ある態様」の参照は、実施形態/態様に関連して説明された特定の機能、構成、または特徴が、本発明の少なくとも一つの実施形態/態様に含まれることを意味する。明細書の種々の箇所における「一実施形態/一態様において」または「別の実施形態/別の態様において」という語句の使用は、必ずしもすべてが同じ実施形態/態様を参照しているとは限らず、また他の実施形態/態様と相互に排他的な個々のまたは代替の実施形態/態様を必ずしも参照しているとは限らない。さらに、種々の特徴がいくつかの実施形態/態様によって提示され得るが、他の実施形態によっては提示され得ないことも有り得る。同様に、種々の要件がいくつかの実施形態/態様において要件であると説明されても、他の実施形態/態様においては要件ではないと説明されることもある。実施形態および態様は、場合によっては、相互に交換して使用することもできる。
本明細書において使用される用語は、一般的に、当該技術分野において、開示の文脈において、および個々の用語が使用される具体的な文脈において、通常の意味を有する。本開示を記述するために使用される特定の用語は、本開示の記載に関して当業者に追加の指針を提供するために、以下、または明細書の他の箇所で論じられる。利便性のため、特定の用語については、例えば、イタリック体および/または引用符を使用して、強調表示することができる。強調表示の使用は、用語の範囲および意味に影響を及ぼさず、用語の範囲および意味は、同じ文脈において、それらが強調表示されるか否かにかかわらず、同じである。同じことが複数の方法で言及できることが理解されよう。
その結果、代替言語および同義語を本明細書中で説明される用語のいずれかの1つ以上で用いることができる。また、ある用語が本明細書で詳述または説明されているかどうかについては特に重要な意味はない。特定の用語の複数の同義語が用いられる。1つ以上の同義語の列挙により、他の同義語の使用を排除することにはならない。本明細書で説明される任意の用語の例示を含む本明細書の任意の箇所での例示の使用は、単なる例示に過ぎず、本明細書または任意の例示された用語の範囲および意味をさらに限定することにはならない。同様に、本発明は、本明細書で与えられる様々な実施形態に限定されない。
本開示の範囲をさらに限定する意図はないが、本開示の実施形態による装置、器具、方法、およびそれらの関連する結果物を以下に示す。主題または副題は、読者に分かりやすくするための例えば使用される場合があり、これは決して本発明の範囲を限定するものではないことに留意されたい。別段の定義がない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が関係する当業者によって一般に理解されるものと同じ意味を有する。矛盾する場合は、定義を含む本文書により決定される。
「アプリ」または「アプリケーション」という用語は、とくに携帯端末にダウンロードされるような、特定の用途を実行するように設計された自己完結型プログラムまたはソフトウェアの一部を意味する。
「クッキー」、「インターネットクッキー」、または「HTTPクッキー」という用語は、ウェブサイトから送信され、ユーザーのウェブブラウザによってユーザーのコンピュータに格納された小さなデータを意味する。クッキーは、インターネットサーバとブラウザとの間で送受信され、ユーザーの識別、または、彼あるいは彼女の操作の進展の追跡を可能にする。クッキーは、閲覧者がどのページを訪問するか、それぞれのページを閲覧するのに費やされた時間、クリックされたリンク、行われた検索および双方向通信に関する詳細を提供する。この情報から、クッキー発行者は、ユーザーの閲覧嗜好および関心事を把握するために生成されたプロファイルを収集する。プロファイルを解析することで、広告主は、返された類似の情報に類似するユーザー、すなわちプロファイルに基づいて、定義された閲覧者セグメントを生成することができる。
「クラスタリング」または「クラスタ解析」という用語は、同じグループ(クラスタと呼ばれる)のオブジェクトが、他のグループ(クラスタ)のオブジェクトよりも、互いに(ある意味または別の意味で)より類似するように、1組のオブジェクトをグループ化するタスクを意味する。これは、探索的データマイニングの主要なタスクであり、機械学習、パターン認識、画像解析、情報検索、生物情報学、データ圧縮、およびコンピュータグラフィックを含む多くの分野で使用される統計データ解析のための一般的な技術である。
「深層学習」とは、複数の隠れ層を含む人工ニューラルネットワーク(artificialneural networks;ANNs)の学習作業への適用を意味する。深層学習は、タスク特有のアルゴリズムとは対照的に、学習データ表現に基づく機械学習方法のより幅広い群の一部である。
「特徴ベクトル」という用語は、パターン認識および機械学習における、あるオブジェクトを表現する数値の特徴のn次元ベクトルである特徴ベクトルのことを示す。機械学習における多くのアルゴリズムは、オブジェクトの数値表現が必要となり、そのように表現することにより、処理と統計的解析とを促進することができる。画像を表現する場合、特徴値は、画像の画素に対応し得る。あるいは、テキストを表現する場合、特徴値は、用語の出現頻度に対応し得る。
「反転指数」、「ポスティングファイル」、または「反転ファイル」という用語は、言語または数字などのコンテンツから、データベースファイル内、または、ドキュメントあるいはドキュメントのセット(ドキュメントからのコンテンツにマッピングするフォワード指数とは対照的に命名される)内のその位置へ、写像を保存する指数データ構成である。反転指数の役割は、ドキュメントがデータベースに追加されるときにプロセスが増加するという犠牲を払い、高速な全文検索を可能にすることである。
「k近傍法(k-Nearest Neighbor)」つまり「k−NN」という用語は、最も近い分類のオブジェクトを意味し、距離測定基準(「最も近い」)と近傍の番号との両方は変更可能である。オブジェクトは、予測方法を使用して新しい観測データに分類される。オブジェクトは、訓練のために使用されるデータを含むので、新たな置き換え予測を計算することができる。
[リンク解析]
「モジュール」という用語は、自己完結型のユニットを意味し、例えば、電子部品およびそれに関連する配線の組み立て品、または、それ自身が定義されたタスクを実行し、より大きなシステムを形成するために別の上記ユニットとリンク可能な、コンピュータソフトウェアのセグメントを意味する。
「多層知覚ニューラルネットワーク(Multilayer PerceptionNeural Network)」または「MLP」という用語は、入力層と出力層との間に1または複数の層を有するフィードフォワードニューラルネットワークを意味する。フィードフォワードは、入力層から出力層(フォワード)への一方向のデータの流れを表す。MLPは、パターンの分類、認識、予想および近似のために広く使用されている。多層パーセプトロンは、線形分離可能でない問題を解決することができる。
「メタデータ」という用語は、他のデータを記述するデータを意味する。メタデータは、所定のアイテムのコンテンツに関する情報を提供する。画像は、画像の大きさ、色の深み、画像の解像度、および画像の生成日時を記述するメタデータを含むことができる。テキスト文書のメタデータは、文書の長さ、作成者、作成日時、および文書の要約に関する情報を含むことができる。
用語「メタタグ」は、ウェブページに含まれるメタデータを意味する。Webページのコンテンツを記述するために、記述メタタグおよびキーワードメタタグが通常使用される。ほとんどの検索エンジンは、検索索引にページを追加する場合、このデータを使用する。
「QRコード(登録商標)」または「クイック応答コード」という用語は、付与された商品に関する情報を含むマトリクスバーコード(または二次元バーコード)を意味する。QRコード(登録商標)は、白色の背景上に正方形の格子状に配置された黒色の正方形を含み、カメラなどの撮像装置によって読み取ることができ、さらに、画像が適切に認識されるまでリードソロモン誤差補正を使用して処理することができる。さらに、必要なデータは、画像の横方向成分および縦方向成分の両方に存在するパターンから抽出される。
「合成データ」という用語は、直接測定することからは得られない所定の状態に適用可能な任意の生成データを意味する。
用語「サポートベクトルマシン(Support Vector Machine)」または「SVM」は、分類および回帰解析に使用されるデータを解析する関連学習アルゴリズムを備えた教師あり学習モデルを意味する。各々が2つのカテゴリーのうちの一方または他方に属するようになされたマーク毎に、トレーニング例のセットが与えられる。SVMトレーニングアルゴリズムは、一方のカテゴリーまたは他方のカテゴリーに新しい例を割り当てるモデルを構築し、非確率的二項線形分類器を形成する。
「ターゲット広告」という用語は、オンライン広告主が、自身が売り込む商品または人物に基づいて、ある特性を有する、売り込みを最も受け入れやすい閲覧者をターゲットにするための、高度な方法を使用した広告の形態を示す。これらの特性は、人種、経済的地位、性別、年齢、教育レベル、収入レベル、および雇用に焦点を当てた人口統計学的なものであってもよいし、閲覧者の評価、人格、態度、意見、生活様式、および関心に基づいた心理統計学的なものであってもよい。特性はまた、閲覧履歴、購入履歴、および他の最近の活動などの行動変数とすることもできる。
本明細書で使用される他の技術用語は、様々な技術辞書によって例示されるように、使用される技術分野における通常の意味を有する。
[好ましい実施形態の説明]
これらの非限定的な実施例において議論される特定の値および構成は、変更可能で、そして単に少なくとも一つの実施形態を例示するために引用されるだけで、その範囲を限定することを意図してはいない。
本発明は、個別に区別可能なフレームの各々を、コンピュータセンサシステムからの関連性のあるビデオセグメントのクエリ画像を用いて検索できるようにするために、ビデオコンテンツを視覚検索プラットフォームに同期することに関する。本発明は、画像およびビデオフレームをデータベースに取り込む手段を含む。消費者向けの製品は、画像および/または画像内のオブジェクトと照合され得る。消費者は、携帯端末で撮影されたデジタル画像を送信することによってデータベースにアクセスすることができる。ユーザーが送信した画像における1つ以上のオブジェクトは、製品および/または商用物/販売促進物と照合され得る。
人口統計学的プロファイリングのための視覚検索の利点の1つは、(伝統的なテキストベースの検索とは対照的に)確認可能なクエリについて、内在的により多くの情報があることである。例えば、ユーザーは、検索エンジン(またはE−コマースのウェブサイト)において茶色の靴を検索することができる。ユーザーが視覚検索を行う場合、クエリ画像自体により、ユーザーのクエリの性質についてはるかに多くを明らかにすることができる。ユーザーは、特定の靴の画像を送信またはクリックすることによって、茶色の靴の非常に具体的な性質(形状、様式、素材、ブランド、ローファー、紐付きなど)について問い合わせることができる。テキスト検索のクエリだけを利用した場合、それ以上の情報の無い検索オブジェクトについて、より詳細な情報を抽出することはできない。
ユーザーインタラクションとしての視覚検索は、近年、機械視野の分野における進歩により多大な牽引力を得てきている。今や、数百万の画像を含むデータベースを高精度で照会することができる。これは、人とコンテンツとの相互作用の可能性を開く。そのような実施形態の1つでは、拡張現実のユースケースにおいて、静的メディア資産をタグ付けすることにより、それらの情報量を増やすことができる。より豊富なコンテンツにアクセスするために、ユーザーは、撮影装置を静的コンテンツに向け、視覚照合エンジンを使用して、コンテンツのオーバレイを引き出し、表示することができる。
映像の特定のセグメントは識別可能であり、これにより、関心のある人々がこれらのセクションを、追加コンテンツで補強および/または組み合わせる能力を獲得する。これは、そのようなセクションの情報を増やすための形態とすることができる。商業パートナーは、商品を配信する手段として関連性のあるセクションをターゲットとすることができる。
視覚検索クエリに関するメタデータを抽出するために、高度な分類アルゴリズムを使用することができる。該分類アルゴリズムは、深層学習、管理型学習、および非管理型学習を含むが、これらに限定されない。したがって、入力画像から、記述的メタデータの一覧(例えば、靴、茶色、紐、ブローグ、状況、製造場所、素材、および画像内のコンテンツのステータスに関して明確性を提供する任意の情報)を得ることができる。
本発明の一実施形態では、画像または映像を構成するオブジェクトの一覧が抽出され、意味的に異なる「トピック」に対応するように解析された一連のフレームにリンクされ得る。例えば、印刷画像(雑誌など)からのデータがシステムに入力され得る。ユーザーは、雑誌のページから靴のデジタル画像を送信することができる。システムは、靴のトピックから商品情報を伝送することができる。別の実施形態では、映像(例えば、テレビ)からのデータがシステムに入力される。ユーザーは、靴が画面上のアイテムの1つである、映像のスクリーンショットを送信することができる。システムは、靴のトピックから商品情報をユーザーに伝送することができる。
システム内のコンテンツを構築し、索引付けるために、雑誌、コミック、または主に非テキスト方式で情報を伝達する他の文書(すなわち、画像を含む文書)などの視覚的な情報の多いデジタル文書が、以下に説明するように利用することができる。
[文書の取り込み]
文書取り込みユーザーインターフェースは、マスタ文書をコンテンツデータベースにアップロードするためのゲートウェイを提供する。このインターフェースは、注釈およびメタデータの母集団を利用する手段を提供することができる。アップロードされた文書は、インデックス付けされ、コンテンツデータベース180に記憶され得る。メタデータは、各文書に帰属され得る。
文書取り込みステップ100が、図1に記載される。文書取り込みフレームワークは、雑誌またはジャーナルなどの文書の特定のセグメントの識別を、この識別を進める視覚的クエリ画像を使用することにより、可能にする。
文書(例えば、雑誌からスキャンされたページ)115は、ユーザーインターフェース120を用いてアップロードまたは「取り込み」され得る。例えば、雑誌のページはスキャンされ、PDF(Portable Document Format)または他の形式でアップロードされ得る。文書は、サーバに転送され(130)、区画(例えば、個々の画像)が抽出される(135)。次に、システムは、文書が有効であるか否かを判定する(145)。例えば、識別可能な画像のない文書は有効とはみなされない。アルゴリズムは、所定の許容範囲内で基準を満たすか否かを決定するために使用され得る。有効でない場合、システムはエラー応答を作成し得る(140)。取り込み応答は、警告または通知を送信するためにユーザーインターフェースに送信され得る(125)。
文書が有効である場合、システムは、文書を区画に分割することができる(150)。例えば、類似のセクションを共にグループ化することができる。注釈ツールは、文書のセグメント化を可能にするために使用され得る。雑誌は、記事、広告、およびプロモーションに分けることができる。セグメント化情報が提供されない場合、文書全体を単一の有体として処理することができる。セグメント化後、それぞれのセグメントは、コンテンツデータベースへの取り込みのための処理が実行され得る。
テキスト領域は検出され、除去され得る(155)。画像は、ページ上の空白の領域および/または境界からそれらを分離するためにトリミングされ得る(160)。各セクションは、解析されることで、その適合性を保証され得る(165)。例えば、システムは、特徴を検出し、識別することができる。低解像度、ぼやけているまたは抽象的な画像(または識別可能な特徴がないもの)は、不適合であるとみなされる場合がある。十分な特徴が存在する場合(170)、画像はデータベースに取り込まれ得る(175)。
メタデータを、処理された画像の各々にリンク付けすることができる。メタデータフィールドは、リンク付けされたコンテンツ、文書言語、ならびに文書作成者/発行者情報を含むことができる。
[データベースへの取り込み]
セグメントの各々を画像/コンテンツデータベース180に記憶させるステップは、以下の、
1)セグメント画像からの視覚的特徴を抽出するステップと、
2)取り込み応答を作成するステップであって、以下の、
−視覚的特徴ベクトルと、
−固有のセグメントIDと、
−リンク付けされたコンテンツIDと、を作成するステップと、
3)取り込み応答を適切な転送フォーマット(例えば、JSON)にラッピングするステップと、
4)データベースに取り込み応答を送信するステップと、
5)取り込み状況を受信するステップと、
6)ユーザーインターフェースへ取り込み状況応答を伝送するステップと、を含む。
[文書区画の抽出]
文書がサーバにアップロードされると、コンピュータプログラムは、この文書を処理し、それを一連のセグメントに分割し得る。
例えば、雑誌のデジタルコピーは、PDFとして、最初にアップロードされた文書とすることができる。セグメントは、PDFファイルの各ページとして指定され得る。抽出段階において、文書の各セクションの更なる処理に対する適合性を評価することも可能である。これにより、ファイルが取り込みに適切なフォーマットであるか否か、または、(最低限の解決策として)各セクションが安全なパラメータに該当するか否かを評価する完全な確認を実行できる。
[文書解析]
最初にアップロードされた文書から抽出されたそれぞれのセグメントにおいて、フレームワークは、視覚システムに取り込まれる画像の質を処理および検証することを必要とする。フレームワークは、接続されたエッジの輪郭に基づいて、テキストを除去するステップを含む。
文書から画像を取り込む際の問題の一つとして、画像内に埋め込まれるテキストまたはテキスト様(text-like)の特徴の偏り(propensity)がある。多くの視覚検索システムにおいて、この問題により、テキストの分量が多い画像内の単一性の確保に問題が生じる場合がある。そのため、イメージとテキストを含む合成画像からテキストが多い領域を検出し、分離し、除去することが重要となる。
図2は、テキストを含むセグメント画像の領域を分離するために使用され得るテキスト検出およびトリミングアルゴリズムの機能におけるステップを示す。画像は、最適値以下のテキスト領域を、取り込む前に除去するようにトリミングされ得る。雑誌またはジャーナルからの典型的な画像185は、テキストの区画を含んでいるものとする。コンピュータは、例えば、文字認識と、行および段落内部の文字の順序付けられた配置に基づいて、テキスト190の区画を識別することができる(以下に説明する)。テキストの多い領域は、除去され、画像195のみが残る。その後、余分な領域を除去するために、画像がトリミングされる(205)。
テキストは、接続されたエッジの輪郭に基づいて識別することもできる。印刷のために準備されたテキストは、非常に明確なエッジを有し、通常、典型的な画像よりもはるかに目立つ。高レベルのエッジが保存され、輪郭の処理のための準備が行われる。輪郭が検出されることで、単語、線、および近くのテキストが分離されることとなる。輪郭がより多くの線を含む場合、それらは単線に分離され、その後、フィルタリングされる。単線および単語は、段落または大きな単線に接続され、ラベル付けされる。以下の原理は、テキストを識別する処理に適用することができる。
・エッジは、形態変形操作を用いてグレースケール画像で検出可能である。
・2値化は、Otsu法(クラスタ化に基づく画像閾値法)を用いて検出されたエッジ画像のしきい値を用いて達成することができる。
・小さなオブジェクト(文字または単語)を接続するために、モフォロジー演算を実施できる。
・輪郭は、連結成分解析法を用いて見つけることができる。
・第1のフィルタリングは、輪郭領域における0でない画素の幅、高さとその比率を用いて達成することができる。
・輪郭領域の垂直投影は、見つかった輪郭が複数の線を含むかどうかを検出するために使用することができる。複数の線を含む場合、垂直投射の閾値は、どこで線を分離するかを決定するために利用することができる。
・輪郭領域は、領域面積、サイズ、輪郭領域内の0でない画素の比率、およびいくつかの特別に考案された特徴である相対アスペクト比時間領域(RARA)および相対アスペクト比時間平均領域サイドサイズ(RARAS)を使用して、検証およびフィルタリングすることができる。
段落への単語および線の接続およびラベル付けは、輪郭領域の文字枠を表す矩形上で実行され得る。第1の矩形は、左右にリンク付されることで、線が決定される。そして、利用不可能な矩形が削除される。最後に、上方に向けたリンク付けおよび下方に向けたリンク付けが実施できる。最終結果は、段落テキストを含むとみなされる領域を含んだ大きな矩形が決定される。
[映像の取り込み]
同様に、映像コンテンツは収集され、コンテンツデータベースに取り込まれ得る。この節は、映像をさらに解析し、視覚検索プラットフォームと同期するための適切なフォーマットに映像を前処理するように設計されたコンピュータプログラムに、ユーザーが映像コンテンツをアップロードすることを可能にするシステムの概要を説明する。ユーザーインターフェース(UI)により、ユーザーは、プラットフォームに導入したい映像のソースを選択することができる。当該ソースは、ユーザーのコンピュータデバイスから遠隔的に、またはローカルにアクセス可能なファイルとすることができる。
また、インターフェースにより、カスタマイズ可能なメタデータを有する映像ファイルセグメントに注釈を付けることで、メタデータをセグメントとリンクさせることができる。インターフェースはまた、映像内で識別されたセグメントの各々のステータスの概要と、そのセグメントに対して行われたすべての解析および検査に関する測定基準とを提供することができ、それによって、そのセグメントに関するすべての段階のステータスに関する即時フィードバックを提供できる。図3は、上記インターフェースが、映像および映像セグメントの視覚検索プラットフォームへの転送と、映像および映像セグメントの注釈付けをどのように容易にするかを示す図である。
映像取り込みステップ300を図3に詳細に示す。映像取り込みフレームワークは、視覚的クエリ画像を使用することにより映像の特定のセグメントを識別することを可能にする。
映像コンテンツ(例えば、テレビプログラムなど)215は、ユーザーインターフェース220を使用してアップロードまたは「取り込み」を行うことができる。映像はサーバ230に転送され、セクションが解析される(235)。さらに映像はセグメント化される(245)。例えば、ある場面の異なるオブジェクトは、設定の変更を示し得る。次に、システムは、映像セグメントが有効であるか否かを判定する(250)。例えば、識別可能なオブジェクトがない映像は無効であると見なすことができる。アルゴリズムは、所定許容範囲内で基準を満たすか否かを決定するために使用され得る。有効でない場合、システムはエラー応答を作成し得る(240)。取り込み応答は、ユーザーを警告するために、ユーザーインターフェース225へ送信される。
映像セグメントが有効である場合、システムは、映像をセグメントに分割し得る(245)。例えば、(場面コンテンツに基づいた)同様の区画を共にグループ化することができる。個々のフレームは、抽出され得る(255)。視覚的特徴は、各フレームに対して生成され得る(260)。各フレームは、その適合性を保証するために解析され得る(265)。例えば、システムは、それぞれのフレーム内のオブジェクトおよび特徴の検出と識別とを試み得る。低解像度のフレームまたは不鮮明なフレームは、不適合であるとみなされる場合がある。十分な特徴がある場合(270)、フレームはコンテンツデータベース180に取り込まれ得る(275)。
[セグメントの解析]
映像セグメント解析は、ユーザーが分離することができる映像取り込みフレームワークの構成要素であり、識別されたセグメントにおけるセグメント特有のメタデータを提供する。
図4は、セグメント解析フレームワーク350がどのように機能するかを示す図である。アップロードされた映像110は、セグメントに分割される。セグメント310は、識別され、グループ化され得る。各々の間の単一性を有するセグメントは、組み合わされるか、またはグループ化される(330)。例えば、類似のオブジェクトを有する類似の設定からの映像セグメントは、映像における類似のシチュエーションから生じる可能性がある。さらに、重複セグメントは、識別され得る(180)。重複セグメントが識別されると、重複セグメントは廃棄または削除され得る。
好ましい実施形態では、映像は、以下からなる全体的な方法で処理される。
1)映像内の区別可能なセグメントまたは場面→それぞれが単一の論理イベントに対応するフレームのグループを発見するために、映像を処理する。
2)ビデオ全体に存在する重複セグメント→互いに視覚的に分離できない(すなわち、画像検索中に曖昧性が残り得る)セグメントの任意のペアまたはグループを識別するように、上記の処理で発見されたすべてのセグメントを比較する。
3)視覚検索プラットフォームのコンテンツデータベース内に重複セグメントが存在する→このチェックは、セグメントまたはセグメント内のフレームが視覚検索コンテンツデータベース内に既に存在するか否かを評価する。
映像のセグメント化の成功後、それぞれのセグメントは、コンテンツデータベース180に取り込まれるための最適なフォーマットにさらに変換され得る。
[セグメントの特徴の抽出]
有効な映像セグメントの識別および分離の後、セグメント内のフレームの各々を取り込み記録にまとめる必要がある。
これには、セグメント内のフレームの各々を処理し、大きさと回転量が不変である視覚的特徴を表すデータを(ORB等の)ベクトルに展開するために、システム上で動作するコンピュータプログラムにより具体化されたモジュールを必要とする。さらに、それぞれの特徴ベクトルは、コンテンツデータベースに取り込むための複合データ構造を生成するために様々なメタデータおよび識別子と組み合わせられ得る。
このような複合データ構造の実施例は、以下の、
−固有フレーム識別子と、
−固有セグメント識別子と、
−フレームの視覚特徴と、
−メタデータ(出版社、記述タグなど)と、を含み得る。
[データベースへの取り込み]
フレーム取り込み記録が生成されると、オブジェクトがコンテンツデータベースに取り込まれる準備が整う。フレームの記録がコンテンツデータベースに取り込まれる前に、提供されたコンテンツIDを用いてコンテンツデータベースが照合される。コンテンツが存在しない場合、必要に応じてコンテンツの追加を可能にする処理工程を設けることができる。
さらに、当該取り込み記録は、継続してデータベースに転送され得る。継続が成功することで、データベースは、この更新リクエストの通知を提供し、取り込み記録の転送のための応答可能なコンピュータプログラムに応答を返す。さらに、上記ステータスの更新は、特定のフレームの連続する処理の完了を示すフレームワークを通して伝達され得る。
図5は、フレームがどのように処理され、コンテンツデータベース180に取り込まれるかを示す例示的実施形態を示している。処理された映像セグメント410は、解析され、視覚的特徴を抽出し(415)、セグメント取り込み記録を生成する(435)。
システムは、メタデータを解析し(420)、リンクされたコンテンツが存在するか否かを判定し得る(440)。例えば、類似コンテンツがすでにデータベースに存在する場合がある。その場合、システムは、リンクされたコンテンツID450を識別し、セグメント取り込み記録を作成し(435)、フレームをコンテンツデータベース180に取り込み得る。リンク先のコンテンツが存在しない場合、システムは、コンテンツデータベース180に取り込むためのコンテンツを生成し得る(445)。この手法は、映像コンテンツ(すなわち、処理されたフレーム)および画像コンテンツ(すなわち、スキャンされた画像)に適用することができる。
[ユースケース]
[コンテンツの補強]
本発明は、映像の形態のメディアを豊富にし、かつ/または補強するために使用することができる。さらに、映像内の区別可能なセグメントの解析および分離に伴い、各セグメントを異なる組のコンテンツにリンクさせ得る。
例えば、コンテンツ作成者はフレームワークを用いて映像コンテンツを視覚検索プラットフォームにアップロードすることができる。複数のセグメントが以下の映像解析から識別される。
1)初めのタイトルシーケンス。これは、製作者のホームページURLまたは他の場所にリンクさせ得る。
2)チームメンバーの各々を紹介する複数のセグメント。メンバーの各々の映像セグメントが、各人の人物紹介ページのURLにリンクされ得る。
3)製品を説明するセグメント。このセグメントは、製品と仮想的に相互作用するメカニズムを提供する、拡張現実オーバレイにマッピングされ得る。
4)製品の長所と短所とに関する最終セグメント。このセグメントは、製品を仕入れ得る小売業者のオンラインリストにマッピングされ得る。
このようにして、視覚検索に基づいた追加コンテンツを関連付けるためのプラットフォームの提供により、現存する映像コンテンツが補強され、豊富にされ得る。
[動作環境]
システムは、通常、データネットワークによってユーザーのコンピュータに接続された中央サーバから構成されている。中央サーバは、1または複数の大容量記憶装置に接続された、1または複数のコンピュータから構成されてもよい。中央サーバの正確な構造は、特許請求の範囲を限定するものではない。さらに、ユーザーのコンピュータは、ラップトップ型またはデスクトップ型のパソコンであってもよく、また、携帯電話、スマートフォン、またはタブレットを含む他の携帯端末であってもよい。ユーザーのコンピュータの要素の正確な構成要素は、特許請求の範囲を限定するものではない。使用に最適な周知のコンピュータシステム、環境、および/または構成の例は、パソコン、サーバコンピュータ、ハンドヘルドコンピュータ、ラップトップコンピュータ、あるいは携帯コンピュータ、または携帯電話およびPDAなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、小型コンピュータ、メインフレームコンピュータ等の、システムまたはデバイスを含む分散型コンピュータ環境などを含むが、これらに限定されない。ユーザーのコンピュータの正確な構成要素は、特許請求の範囲を限定するものではない。一実施形態では、ユーザーのコンピュータは省略され、代わりに、中央サーバと協働する個別の計算機能が提供される。その場合、ユーザーは、別のコンピュータからサーバにログインし、ユーザー環境を介してシステムにアクセスすることになる。
ユーザー環境は、中央サーバに設けられてもよいし、中央サーバに動作可能に接続されてもよい。さらに、ユーザーは、インターネットを使用して中央サーバからデータを受信し、かつ中央サーバにデータを送信することができる。それによって、ユーザーは、インターネットウェブブラウザを使用するアカウントにアクセスし、ブラウザは、中央サーバに動作可能に接続された相互作用型ウェブページを表示する。中央サーバは、ブラウザユーザーインターフェースに対する閲覧者の動作に応答してブラウザから送信されたデータおよびコマンドに応答してデータを送受信する。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。
本明細書で説明される方法は、メモリーデバイス、データの入出力(I/O)回路およびコンピュータデータネットワーク通信回路に動作可能に接続されるCPU(Central Processing Unit)を一般的に備えたコンピュータシステム上で実行され得る。CPUによって実行されるコンピュータコードは、データ通信回路によって受信されたデータを取り込み、それをメモリーデバイスに記憶させ得る。さらに、CPUは、I/O回路からデータを取り込み、それをメモリーデバイスに記憶させ得る。また、CPUは、メモリーデバイスからデータを取り込み、I/O回路またはデータ通信回路を介して出力することもできる。メモリーに記憶されたデータは、メモリーデバイスからさらに呼び出され、本明細書に記載された方法でCPUによってさらに処理または変更され、データネットワーク回路を含むCPUに動作可能に接続された同じメモリーデバイスまたは別のメモリーデバイスに復元される。メモリーデバイスは、ハードディスク、光ディスク、またはソリッドステートメモリーを含む、任意の種類のデータ記憶回路、磁気記憶装置、または光デバイスであってよい。I/Oデバイスは、ディスプレイスクリーン、スピーカ、マイクロフォンおよびディスプレイ上のカーソル位置と関連する位置をコンピュータに示す可動マウス、ならびにコマンドを示すように作動させ得る1または複数のボタンを含むことができる。
コンピュータは、I/O回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、ディスプレイスクリーンにおける閲覧者によるブラウザユーザーインターフェースの作動を構成するピクセルを引き起こすデータを生成することで、様々な形状、テキスト、およびその他のグラフィックの形態が、スクリーン上に表示される。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。
本明細書で説明される方法は、メモリーデバイス、データの入出力(I/O)回路およびコンピュータデータネットワーク通信回路に機能を実現するように接続されるCPU(Central Processing Unit)を一般的に備えたコンピュータシステム上で実行され得る。CPUによって実行されるコンピュータコードは、データ通信回路によって受信されたデータを取り込み、それをメモリーデバイスに記憶させ得る。さらに、CPUは、I/O回路からデータを取り込み、それをメモリーデバイスに記憶させ得る。また、CPUは、メモリーデバイスからデータを取り込み、I/O回路またはデータ通信回路を介して出力することもできる。メモリーに記憶されたデータは、メモリーデバイスからさらに呼び出され、本明細書に記載された方法でCPUによってさらに処理または変更され、データネットワーク回路を含むCPUに機能を実現するように接続された同じメモリーデバイスまたは別のメモリーデバイスに復元される。メモリーデバイスは、ハードディスク、光ディスク、またはソリッドステートメモリーを含む、任意の種類のデータ記憶回路、磁気記憶装置、または光デバイスであってよい。I/Oデバイスは、ディスプレイスクリーン、スピーカ、マイクロフォンおよびディスプレイ上のカーソル位置と関連する位置をコンピュータに示す可動マウス、ならびにコマンドを示すように作動させ得る1または複数のボタンを含むことができる。
コンピュータは、I/O回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、表示画面を構成する画素に様々な色および色調を呈させるデータをコンピュータ生成することで、様々な形状、テキストおよびその他のグラフィックの形態が、スクリーン上に表示される。ユーザーインターフェースはまた、当該技術分野においてカーソルと呼ばれるグラフィカルオブジェクトを表示する。ディスプレイ上のこのオブジェクトの位置は、画面上の別のオブジェクトをユーザーが選択することを示している。カーソルは、I/O回路によってコンピュータに接続された別のデバイスによってユーザーが動かしてもよい。このデバイスは、ユーザーの所定の物理的動作、例えば、平面上の手の位置、または平面上の指の位置を検出する。このようなデバイスは、当該技術分野において、マウスまたはトラックパッドと呼ばれ得る。ある実施形態では、ディスプレイスクリーン自体は、ディスプレイスクリーン上の1つ以上の指の存在および位置を感知することによって、トラックパッドとして機能し得る。カーソルが、ボタンまたはスイッチのように見えるグラフィックオブジェクトの上に位置している場合、ユーザーは、マウスまたはトラックパッドまたはコンピュータデバイス上の物理スイッチを押すことでボタンまたはスイッチを作動させることができる。またはトラックパッドもしくはタッチ感応型ディスプレイをタップすることによって、ボタンまたはスイッチを作動させることもできる。コンピュータは、物理スイッチが押されたこと(またはトラックパッドまたはタッチ感応型スクリーンのタップが生じたこと)を検出すると、スクリーン上のカーソルの見かけの位置(またはタッチ感応型スクリーンの場合、指の検出位置)を取得し、その位置に関連する処理を実行する。開示された発明の幅を制限することにはならないが、例えば、スイッチの中に「入力」という単語を有する2次元のボックスのように見えるグラフィカルオブジェクトが、画面上に表示されてもよい。カーソル位置(またはタッチ感応型スクリーンにおける指の位置)がグラフィカルオブジェクト、例えば、表示ボックスの境界内にある間に、コンピュータが、スイッチが押されたことを検出した場合、コンピュータは、「入力」コマンドに関連付けられた処理を実行することになる。このようにして、スクリーン上のグラフィックオブジェクトにより、ユーザーインターフェースが形成され、コンピュータ上で動作する処理をユーザーが制御することが可能になる。
また、本発明は1または複数のサーバ上で包括的に実行されてもよい。サーバは、大容量記憶装置とネットワーク接続とを備えたCPUからなるコンピュータであってもよい。さらに、上記機能をまとめて提供する方法として、サーバが、データネットワーク、あるいは他のデータ転送接続と一体となって接続された複数の上記コンピュータ、またはネットワークアクセス記憶装置を備えたネットワーク上の複数のコンピュータを含んでいてもよい。当業者であれば、1つのサーバ上で達成される機能が、適切な内部処理通信を行うコンピュータネットワークによって動作可能に接続される複数のサーバ上で分割して達成可能であることを理解するであろう。さらに、ウェブサイトへのアクセスは、認証ページあるいは公開ページにアクセスするインターネットブラウザで行うか、または、コンピュータネットワークを介してサーバに接続されたローカルコンピュータ上で動作するクライアントプログラムによって行うこともできる。データの送信およびデータのアップロードまたはダウンロードは、TCP/IP、HTTP、TCP、UDP、SMTP、RPC、FTPを含む通常のプロトコル、または、2つの遠隔コンピュータ上で動作する処理により、デジタルネットワーク通信によって情報を交換することを可能にする、他の種類のデータ通信プロトコルを使用して、インターネット上で実行することができる。その結果、データメッセージは、ネットワークの宛先アドレス、宛先処理またはアプリケーション識別子を含んだコンピュータから送信または該コンピュータにより受信されるデータパケットであり、かつ宛先アプリケーションによりネットワーク宛先アドレスに配置される宛先コンピュータで解析可能なデータ値とすることができる。その結果、宛先アプリケーションによって関連するデータ値が抽出され使用されることになる。中央サーバの正確な構造は、本発明の特許請求の範囲を限定するものではない。さらに、データネットワークは、ユーザーのコンピュータが、開示された方法を実行する別のサーバへの通信をルーティングする1つのサーバへファイアウォールを通して接続されるように、いくつかのレベルで動作してもよい。
ユーザーコンピュータは、データファイル内のデータを解析し、ディスプレイ装置に特定のテキスト、画像、ビデオ、音声、および他のオブジェクトを表示するよう命令するプログラムに転送されるデータファイルを、遠隔サーバから受信するプログラムを動作させ得る。データファイル内のデータを解析し、ディスプレイ装置に特定のテキスト、画像、ビデオ、音声、および他のオブジェクトを表示するよう命令するプログラムは、マウスボタンが操作されたときにカーソルの関連付けられた位置を検出し、ボタンが押されたときのディスプレイ上に示された関連付けられた位置の配置に基づいて実行されるコマンドを解析し得る。データファイルは、HTML文書、プログラム、ウェブブラウザのプログラム、コマンド、およびブラウザを使用して別の遠隔データネットワークアドレス位置から新しいHTML文書を要求するハイパーリンクであってもよい。HTMLはまた、例えば、フラッシュまたは他のネイティブコードを呼び出し、実行する別のコードモジュールを生成するリファレンスを含んでいてもよい。
当業者は、本発明が、ワイヤレスデバイス、インターネット機器、携帯用デバイス(携帯情報端末(PDA)を含む)、ウェアラブルコンピュータ、あらゆる種類のセルラー電話機または携帯電話機、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル家電、セットトップボックス、ネットワークPC、小型コンピュータ、メインフレームコンピュータなどを含んだ別の通信システム、データ処理システム、またはコンピュータシステム構成で実施できることを理解するであろう。実際、用語「コンピュータ」、「サーバ」などは、本明細書では交換可能に使用され、上記のデバイスおよびシステムのいずれを示してもよい。
いくつかの例において、とりわけ、ユーザーのコンピュータが、ネットワークを介してデータにアクセスするために使用される携帯用コンピュータデバイスである場合、ネットワークは、汎ヨーロッパデジタル移動通信システム(GSM(登録商標))、時間分割多重接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分周多重(OFDM)、汎用パケット無線サービス(GPRS)、EDGE(Enhanced Data GSM Environment)、アドバンスト携帯電話機システム(AMPS)、WiMAX(Worldwide Interoperability for Microwave Access)、ユニバーサル移動体通信システム(UMTS)、エボリューションデータ最適化(EVDO)、ロングタームエボリューション(LTE)、UMB(Ultra Mobile Broadband)、音声IP(VoIP)、またはUMA(UnlicensedMobile Access)を含む、任意の種類のIPベースのセルラネットワークまたは垂直統合型電気通信ネットワークであってもよいが、これらに限定されない。
インターネットは、パソコンを操作する利用者が、遠隔に配置されたコンピュータサーバと相互作用し、ネットワークを介したデータファイルとして、サーバからパソコンに配信されるコンテンツを見ることを可能にするコンピュータネットワークである。ある種類のプロトコルでは、サーバは、ブラウザとして知られるローカルプログラムを使用して利用者のパソコン上に、解析されたウェブページを表示する。ブラウザは、サーバから、利用者のパソコンのスクリーン上に表示される1または複数のデータファイルを受信する。ブラウザは、URL(Universal Resource Locator)と呼ばれる英数字列によって表される特有のアドレスからこれらのデータファイルを探す。しかしながら、ウェブページは、種々のURLアドレスまたはIPアドレスからダウンロードされたコンポーネントを含んでいてもよい。ウェブサイトは、関連付けられたURLの集合体であり、通常、全てのURLが同一のルートアドレスを共有しているか、またはいくつかのエンティティの制御下にある。一実施形態では、シミュレートされたスペースの異なる領域は、異なるURLアドレスを有する。すなわち、シミュレートされたスペースは、単一のデータ構造であってもよいが、異なるURLアドレスは、データ構造における異なる位置を参照する。これにより、大規模な領域をシミュレートすることが可能となり、参加者に仮想の近隣内でその使用を開始させることができる。
本明細書でこれまでに記載した機能の全てまたは一部を実行するコンピュータプログラム論理は、ソースコードの形態、コンピュータにより実行可能な形態、および様々な中間形態(例えば、アセンブラ、コンパイラ、リンカ、またはロケータによって生成された形態)を含む様々な形態で、具現化することができるが、これらに限定されない。ソースコードは、様々な動作システムまたは動作環境で使用するための様々なプログラム言語(例えば、オブジェクトコード、アセンブリ言語、またはC、C−HF、C#、アクションスクリプト、PHP、Ecmaスクリプト、Java(登録商標)スクリプト、Java(登録商標)、あるいは5HTMLなどの高水準言語)のいずれかで実行される一連のコンピュータプログラム命令を含むことができるが、これらに限定されない。ソースコードは、様々なデータ構造および通信メッセージを定義し、使用することができる。ソースコードは、コンピュータ実行可能形態(例えば、インタープリタを介して)であってもよく、(例えば、トランスレータ、アセンブラ、またはコンパイラを介して)コンピュータ実行可能形態に変換されてもよい。
本発明はコンピュータによって実行される、プログラムモジュールなどの、一般的なコンピュータで実行可能な命令で記載することもできる。一般に、プログラムモジュールは、特定のタスクまたは特定の種類の抽象データを実行するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。コンピュータプログラムおよびデータは、半導体メモリーデバイス(例えば、RAM、ROM、プログラマブルROM(PROM)、EEPROM(登録商標)(電気的消去可能プログラマブルROM)、またはフラッシュプログラマブルRAM)、磁気メモリーデバイス(例えば、ディスケットまたは固定ハードディスク)、光メモリーデバイス(例えば、CD−ROMまたはDVD)、PCカード(例えば、PCMCIAカード)、または他のメモリーデバイスなどの有形記録媒体に、任意の形態(例えば、ソースコードの形態、コンピュータ実行可能な形態、または中間形態)で、永久的または一時的に記憶させることが可能である。コンピュータプログラムおよびデータは、アナログ技術、デジタル技術、光技術、無線技術、ネットワーク技術、およびインターネットワーク技術を含むが、これらに限定されない様々な通信技術のいずれかを使用し、コンピュータに送信可能な信号を任意の形態で記憶させることができる。コンピュータプログラムおよびデータは、印刷された文書または電子文書に付随する取り外し可能な記録媒体(例えば、収縮包装されたソフトウェアまたは磁気テープ)として供給されてもよく、コンピュータシステム(例えば、システムROMまたは固定ディスク)に事前にロードされてもよく、またはサーバまたは電子掲示板から通信システム(例えば、インターネットまたはワールドワイドウェブ)を介して供給されてもよい。本発明のソフトウェアコンポーネントのいずれかは、必要に応じて、ROM(リードオンリーメモリー)形態で実施されてもよい。本発明のソフトウェアコンポーネントは、一般的には、ハードウェアで実施することができるが、従来の技術を使用して実施されてもよい。
また、本発明は、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境において、プログラムモジュールは、メモリー記憶装置を含むローカルおよび遠隔のコンピュータ記録媒体の両方に記憶させることができる。当業者は、本発明が、例えばインターネットを含むデータネットワークを使用してリンクされた1または複数のコンピュータプロセッサ上で実行可能であることを認識するであろう。別の実施形態では、分離して配置されているものの、処理工程を実行するために一体となって動作するようにデータネットワークにより接続されている1または複数のコンピュータおよび記憶装置によって、処理の様々な工程を実行することができる。一実施形態では、ユーザーのコンピュータは、ユーザーのコンピュータがデータネットワークを介して、本明細書でサーバと呼ばれる第2のコンピュータに、1または複数のデータパケットをストリーム配信させるアプリケーションを実行することができる。さらに、サーバは、データベースが格納される1または複数の大容量データ記憶装置に接続されてもよい。サーバは、データベースのクエリ情報を抽出するために、送信されたパケットを受信し、送信されたデータパケットを解析するプログラムを実行することができる。次に、サーバは、大容量記憶装置にアクセスして、望ましいクエリの結果を得るための残りの工程を実行することができる。あるいは、サーバは、大容量記憶装置に接続された別のコンピュータにクエリ情報を送信することができ、そのコンピュータは、本発明を実行することで望ましい結果を得ることができる。そして、該結果は、ユーザーのコンピュータに適切に宛てられた1または複数のデータパケットを別の配信手段により、ユーザーのコンピュータに送信可能である。一実施形態では、関連付けられたデータベースは、コンピュータメモリー(例えばディスクドライブ)と動作可能に接続された、1または複数のサーバに収容されてもよい。さらに別の実施形態では、関連付けられたデータベースの初期化が、サーバのセットで準備され、ユーザーのコンピュータとの相互作用が、全体の処理において異なる場所で行われてもよい。
フローチャートは、本明細書で、様々な態様を示すために使用され、本発明を特定の論理の順序または論理の実施に限定すると解釈されるべきではないことに留意されたい。説明された論理は、総合的な結果を変更すること、または本願の真の範囲から逸脱することがなければ、異なる論理ブロック(例えば、プログラム、モジュール、機能、またはサブルーチン)に分割することができる。通常、論理要素は、全結果を変更すること、または本発明の真の範囲から逸脱することがなければ、異なる論理構成(例えば、論理ゲート、ループプリミティブ、条件付き論理、および他の論理構成)を使用して、追加、修正、省略、異なる順序で実施、または実行することができる。
本発明の記載された実施形態は、例示することを目的とし、多数の変形例および変更があることは当業者にとって明らかである。このような変形例および変更のすべては、添付の特許請求の範囲によって定義される本発明の範囲内であるものと見なす。本発明を詳細に説明し、図示してきたが、これは図示と例示とを目的としているだけで、限定することと解釈されるべきではないことを明確に理解されたい。分かりやすくするために、個々の実施形態の文脈で説明された、本発明の様々な特徴は、単一の実施形態を組合せて提供されてもよいことを理解されたい。
画像取り込みフレームワークの例示的な概要を示す図である。 画像トリミングアルゴリズムによって使用されるステップを示す図である。 映像取り込みフレームワークの例示的な概要を示す図である。 映像セグメント処理プログラムの概要を示す図である。 映像セグメント挿入プログラムを示す図である。

Claims (11)

  1. 印刷されたメディアからデータベースに画像を収集する方法であって、
    a)印刷されたメディアを取得するステップと、
    b)前記印刷されたメディアをデジタルメディアに変換するステップと、
    c)接続されたエッジの輪郭に基づいて前記デジタルメディア内のテキストを検出するステップと、
    d)前記デジタルメディアからテキストを有する領域を除去するステップと、
    e)前記デジタルメディア内の1または複数の画像を検出するステップと、
    f)前記1つ以上の画像を分類するために十分な特徴が存在するか否かを判定するステップと、
    g)前記1または複数の画像を分類するステップと、
    h)前記1または複数の画像をデータベースに取り込むステップと、を含むことを特徴とする方法。
  2. ユーザーがクエリを送信する際に前記データベースにアクセスし、特徴を比較することによって前記データベース内の1または複数の画像とクエリとを照合するステップをさらに含むことを特徴とする、請求項1に記載の方法。
  3. 前記1または複数の画像にメタデータで注釈を付けるステップをさらに含むことを特徴とする、請求項1に記載の方法。
  4. 映像からフレームを収集し、前記フレームのデータベースへの保存とインデックス付けとを行う方法であって、
    a)映像を取得するステップと、
    b)前記映像の特徴を解析するステップと、
    c)特徴に基づいて前記映像を複数のセグメントに分割するステップと、
    d)セグメントの特徴を解析し、特徴が共通するセグメントをグループ化するステップと、
    e)セグメントの1または複数のフレームにメタデータで注釈付けするステップと、
    f)セグメントの前記1または複数のフレームをデータベースに保存するステップと、を含むことを特徴とする方法。
  5. 前記映像の前記フレームレートおよび解像度の少なくともいずれかを低減するステップをさらに含むことを特徴とする、請求項4に記載の方法。
  6. ユーザーがクエリを送信する際に前記データベースにアクセスし、共通する特徴に基づき、前記データベース内の前記セグメントの1または複数のフレームと前記クエリとを照合するステップをさらに含むことを特徴とする、請求項4に記載の方法。
  7. 共通するコンテンツに基づいて重複フレームを識別し、1または複数の重複フレームを除去する工程をさらに含むことを特徴とする、請求項4に記載の方法。
  8. 文書をサーバにアップロードするためのユーザーインターフェースと、
    前記文書を処理し、前記文書から区画を画像として抽出する論理モジュールと、
    前記画像からテキストを除去する論理モジュールと、
    前記画像の特徴を検出する論理モジュールと、
    前記画像に固有の識別子を付与する論理モジュールと、を含むことを特徴とする文書を取り込むためのコンピュータシステム。
  9. クエリを受信する手段と、共通する特徴に基づいて前記データベース内の1または複数の画像と前記クエリとを照合するモジュールと、を含むことを特徴とする、請求項8に記載の文書を取り込むためのコンピュータシステム。
  10. 映像をサーバにアップロードするためのユーザーインターフェースと、
    前記映像を処理し、前記映像から区画を画像として抽出するコンピュータプログラムと、
    前記抽出された区画を記憶するデータベースと、を備え、
    前記抽出された区画は、画像の特徴および画像の解像度を含む適合性パラメータを満たすか否かを解析され、
    固有の識別子が、抽出された映像の区画ごとに付与されることを特徴とする、映像を取り込むためのコンピュータシステム。
  11. クエリを受信するための手段と、共通する特徴に基づいて前記データベース内の1または複数の映像区画と前記クエリとを照合するためのモジュールと、を含むことを特徴とする、請求項10に記載の映像を取り込むためのコンピュータシステム。
JP2019513062A 2016-09-08 2017-09-07 視覚検索プラットフォームのための映像取り込みフレームワーク Pending JP2019531548A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662384872P 2016-09-08 2016-09-08
US201662384860P 2016-09-08 2016-09-08
US62/384,872 2016-09-08
US62/384,860 2016-09-08
PCT/SG2017/050450 WO2018048356A1 (en) 2016-09-08 2017-09-07 Video ingestion framework for visual search platform

Publications (2)

Publication Number Publication Date
JP2019531548A true JP2019531548A (ja) 2019-10-31
JP2019531548A5 JP2019531548A5 (ja) 2020-02-27

Family

ID=61561988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019513062A Pending JP2019531548A (ja) 2016-09-08 2017-09-07 視覚検索プラットフォームのための映像取り込みフレームワーク

Country Status (9)

Country Link
US (1) US11042753B2 (ja)
EP (2) EP3479259A4 (ja)
JP (1) JP2019531548A (ja)
KR (1) KR102533972B1 (ja)
CN (1) CN109716327B (ja)
MY (1) MY190933A (ja)
RU (1) RU2720536C1 (ja)
SG (1) SG11201809637WA (ja)
WO (1) WO2018048356A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180131856A (ko) * 2017-06-01 2018-12-11 에스케이플래닛 주식회사 배송 물품 정보 제공 방법 및 이를 위한 장치
CN108460335B (zh) * 2018-01-26 2022-05-27 百度在线网络技术(北京)有限公司 视频细粒度识别方法、装置、计算机设备及存储介质
US20220244818A1 (en) * 2019-04-24 2022-08-04 Kumanu, Inc. Electronic Devices and Methods for Self-Affirmation and Development of Purposeful Behavior
US11093755B2 (en) * 2019-11-19 2021-08-17 International Business Machines Corporation Video segmentation based on weighted knowledge graph
US11798282B1 (en) * 2019-12-18 2023-10-24 Snap Inc. Video highlights with user trimming
US11610607B1 (en) 2019-12-23 2023-03-21 Snap Inc. Video highlights with user viewing, posting, sending and exporting
US11538499B1 (en) 2019-12-30 2022-12-27 Snap Inc. Video highlights with auto trimming
IT202000007132A1 (it) * 2020-04-03 2021-10-03 Pablo Chepalich Diego Sistema digitale, metodi e apparati per associare un video e imagine a un codice QR
CN112001248B (zh) * 2020-07-20 2024-03-01 北京百度网讯科技有限公司 主动交互的方法、装置、电子设备和可读存储介质
US11417097B2 (en) * 2020-09-02 2022-08-16 Hewlett Packard Enterprise Development Lp Video annotation system for deep learning based video analytics
US11514949B2 (en) 2020-10-26 2022-11-29 Dell Products L.P. Method and system for long term stitching of video data using a data processing unit
US11916908B2 (en) 2020-10-26 2024-02-27 Dell Products L.P. Method and system for performing an authentication and authorization operation on video data using a data processing unit
US11599574B2 (en) * 2020-10-26 2023-03-07 Dell Products L.P. Method and system for performing a compliance operation on video data using a data processing unit
EP4292010A1 (en) * 2021-02-12 2023-12-20 Acco Brands Corporation System and method to facilitate extraction and organization of information from paper, and other physical writing surfaces
KR102561734B1 (ko) * 2021-02-15 2023-07-31 엔에이치엔클라우드 주식회사 이미지 복원 기반 상품검색 방법 및 시스템
US11688035B2 (en) * 2021-04-15 2023-06-27 MetaConsumer, Inc. Systems and methods for capturing user consumption of information
US11836886B2 (en) 2021-04-15 2023-12-05 MetaConsumer, Inc. Systems and methods for capturing and processing user consumption of information
CN113852767B (zh) * 2021-09-23 2024-02-13 北京字跳网络技术有限公司 视频编辑方法、装置、设备及介质
WO2023081684A1 (en) * 2021-11-02 2023-05-11 MetaConsumer, Inc. Systems and methods for capturing and processing user consumption of information

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311180A (ja) * 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2004280669A (ja) * 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> 映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム
US20070092140A1 (en) * 2005-10-20 2007-04-26 Xerox Corporation Document analysis systems and methods
JP2012123460A (ja) * 2010-12-06 2012-06-28 Toshiba Corp 映像検索装置、及び映像検索方法
JP2012133516A (ja) * 2010-12-21 2012-07-12 Yahoo Japan Corp 画像検索装置、画像検索方法及びプログラム
JP2012227702A (ja) * 2011-04-19 2012-11-15 Konica Minolta Business Technologies Inc 画像形成装置、画像形成装置における処理方法および画像形成装置に向けられたプログラム
US20130067333A1 (en) * 2008-10-03 2013-03-14 Finitiv Corporation System and method for indexing and annotation of video content
JP2014197412A (ja) * 2014-06-12 2014-10-16 トムソン ライセンシングThomson Licensing 画像の類似検索システム及び方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5568571A (en) 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US7100187B2 (en) * 2001-09-06 2006-08-29 Airia Ltd. Method and system for providing an audio/video in-route entertainment system
CN101395626A (zh) * 2004-04-16 2009-03-25 Mobot公司 基于视觉提示的移动查询系统和方法
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
JPWO2007072678A1 (ja) * 2005-12-21 2009-05-28 株式会社ニコン 画像合成方法、画像合成プログラム、画像合成装置、テンプレート抽出方法、およびテンプレート抽出プログラム
KR100792261B1 (ko) * 2006-07-19 2008-01-07 삼성전자주식회사 토픽 기반의 비디오 관리 시스템 및 방법과 비디오 검색방법
CN101334780A (zh) * 2007-06-25 2008-12-31 英特维数位科技股份有限公司 人物影像的搜寻方法、系统及存储影像元数据的记录媒体
KR101622360B1 (ko) * 2008-06-06 2016-05-19 톰슨 라이센싱 이미지들의 유사성 검색을 위한 시스템 및 방법
EP2224357A1 (en) 2009-02-27 2010-09-01 BRITISH TELECOMMUNICATIONS public limited company Video segmentation
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
US8649600B2 (en) 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110082735A1 (en) * 2009-10-06 2011-04-07 Qualcomm Incorporated Systems and methods for merchandising transactions via image matching in a content delivery system
JP5092000B2 (ja) 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
CN102207966B (zh) * 2011-06-01 2013-07-10 华南理工大学 基于对象标签的视频内容快速检索方法
US20130129142A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Automatic tag generation based on image content
CN103186538A (zh) * 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种图像分类方法和装置、图像检索方法和装置
CN103927387B (zh) * 2014-04-30 2017-06-16 成都理想境界科技有限公司 图像检索系统及其相关方法和装置
JP6157435B2 (ja) * 2014-10-15 2017-07-05 京セラドキュメントソリューションズ株式会社 画像形成装置及び画像形成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000311180A (ja) * 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2004280669A (ja) * 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> 映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム
US20070092140A1 (en) * 2005-10-20 2007-04-26 Xerox Corporation Document analysis systems and methods
US20130067333A1 (en) * 2008-10-03 2013-03-14 Finitiv Corporation System and method for indexing and annotation of video content
JP2012123460A (ja) * 2010-12-06 2012-06-28 Toshiba Corp 映像検索装置、及び映像検索方法
JP2012133516A (ja) * 2010-12-21 2012-07-12 Yahoo Japan Corp 画像検索装置、画像検索方法及びプログラム
JP2012227702A (ja) * 2011-04-19 2012-11-15 Konica Minolta Business Technologies Inc 画像形成装置、画像形成装置における処理方法および画像形成装置に向けられたプログラム
JP2014197412A (ja) * 2014-06-12 2014-10-16 トムソン ライセンシングThomson Licensing 画像の類似検索システム及び方法

Also Published As

Publication number Publication date
US11042753B2 (en) 2021-06-22
EP3479259A4 (en) 2020-06-24
CN109716327B (zh) 2023-08-11
CN109716327A (zh) 2019-05-03
US20190354766A1 (en) 2019-11-21
SG11201809637WA (en) 2018-11-29
EP4105822A1 (en) 2022-12-21
KR102533972B1 (ko) 2023-05-17
KR20190051006A (ko) 2019-05-14
EP3479259A1 (en) 2019-05-08
WO2018048356A1 (en) 2018-03-15
MY190933A (en) 2022-05-20
RU2720536C1 (ru) 2020-04-30

Similar Documents

Publication Publication Date Title
KR102533972B1 (ko) 시각적 검색 플랫폼용 영상 인제스트 프레임워크
RU2729956C2 (ru) Обнаружение объектов из запросов визуального поиска
US11290775B2 (en) Computerized system and method for automatically detecting and rendering highlights from streaming videos
US10223616B1 (en) System and method identification and classification of internet advertising
US9607010B1 (en) Techniques for shape-based search of content
US10360623B2 (en) Visually generated consumer product presentation
US10334328B1 (en) Automatic video generation using auto-adaptive video story models
WO2019171128A1 (en) In-media and with controls advertisement, ephemeral, actionable and multi page photo filters on photo, automated integration of external contents, automated feed scrolling, template based advertisement post and actions and reaction controls on recognized objects in photo or video
US9449231B2 (en) Computerized systems and methods for generating models for identifying thumbnail images to promote videos
JP2019527395A (ja) コンテンツを効果的に配信するための動的クリエイティブの最適化
CN108959323B (zh) 视频分类方法和装置
KR102498812B1 (ko) 기계 학습을 사용하여 애니메이션 미디어 컨텐츠 아이템에서 시간 정보를 추출하기 위한 시스템 및 방법
JP5767413B1 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
US20230298073A1 (en) Media processing techniques for enhancing content
Wang et al. Interactive ads recommendation with contextual search on product topic space
US11302048B2 (en) Computerized system and method for automatically generating original memes for insertion into modified messages

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20191220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20191220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211109