JP2014524058A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2014524058A5 JP2014524058A5 JP2014505107A JP2014505107A JP2014524058A5 JP 2014524058 A5 JP2014524058 A5 JP 2014524058A5 JP 2014505107 A JP2014505107 A JP 2014505107A JP 2014505107 A JP2014505107 A JP 2014505107A JP 2014524058 A5 JP2014524058 A5 JP 2014524058A5
- Authority
- JP
- Japan
- Prior art keywords
- product
- visual
- instructions
- image
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims 10
- 230000001131 transforming Effects 0.000 claims 1
- 230000000875 corresponding Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
Description
各専門製品画像について、シグネチャ生成モジュール230は、以下の式(1)で定義される類似性測度に基づいて、専門製品画像と関連付けられる拡張製品画像の中から、所定数の最も近い近隣画像を選択する:
式中、xおよびyは2つのBoVWヒストグラムであり、Dはヒストグラムの長さである。このようにして、シグネチャ生成モジュール230は、所与の製品についてのkn枚の確実な訓練画像を獲得し、kは専門製品画像の数であり、nは専門製品画像の所定の最も近い近隣画像(すなわち拡張製品画像)数である。
式中、xおよびyは2つのBoVWヒストグラムであり、Dはヒストグラムの長さである。このようにして、シグネチャ生成モジュール230は、所与の製品についてのkn枚の確実な訓練画像を獲得し、kは専門製品画像の数であり、nは専門製品画像の所定の最も近い近隣画像(すなわち拡張製品画像)数である。
ビデオ内製品アノテーション訓練画像の収集をさらに例示するために、図3に、ディジタルカメラ、Canon 40Dのための訓練データ収集プロセスの例を示す。製品視覚シグネチャ生成モジュール200は、オンライン販売業者のAMAZON(商標)から、このカメラの5枚の専門製品画像302を収集する。各専門製品画像について、製品視覚シグネチャ生成モジュール200は、GOOGLE(商標)サーチエンジンを使用してインターネットをサーチして、いくつかの関連する製品画像304を収集する。インターネットサーチから得られる製品画像はノイズの多い(例えば、製品と無関係なテキストを含む)ものである可能性があるため、製品視覚シグネチャ生成モジュール200は、専門製品画像に基づいて関連する製品画像をフィルタリングする。例えば、各専門製品画像について、製品視覚シグネチャ生成モジュール200は、後述する相関疎化を適用して、インターネットサーチの中から製品画像の所定数の最も近い近隣画像を選択することによってノイズを低減させる。関連する製品画像の選択は、関連する製品画像とその対応する専門製品画像の間の類似性測度に基づくものである。フィルタリングの結果として、製品視覚シグネチャ生成モジュール200は、ディジタルカメラ、Canon 40Dについての1組の訓練例306を獲得し、ここで製品視覚シグネチャ生成モジュール200は、ディジタルカメラ、Canon 40Dのための視覚シグネチャを生成する。
2組の製品画像の間の類似性は、式(6)によって以下のように定義される:
式中、|pi|および|pj|は画像集合PiおよびPjについての画像の数であり、Pi (k)は、集合Pi内の第kの製品を指示し、sim(.,.)は、異なる集合からの画像対の類似性である。式(6)で定義される類似性測度は以下の特性を有する。
(1)wij=wji:類似性は対称である。
(2)Pi=Pjの場合、wij=1:2つの製品の画像集合が同一である場合、2つの製品の類似性は1である。
(3)あらゆるp'∈Piおよびp"∈Pjについてsim(p',p")=0の場合に限り、w(pi,pj)=0:2つの画像集合によって形成されるあらゆる対がゼロの類似性を有する場合に限り、類似性は0である。
式中、|pi|および|pj|は画像集合PiおよびPjについての画像の数であり、Pi (k)は、集合Pi内の第kの製品を指示し、sim(.,.)は、異なる集合からの画像対の類似性である。式(6)で定義される類似性測度は以下の特性を有する。
(1)wij=wji:類似性は対称である。
(2)Pi=Pjの場合、wij=1:2つの製品の画像集合が同一である場合、2つの製品の類似性は1である。
(3)あらゆるp'∈Piおよびp"∈Pjについてsim(p',p")=0の場合に限り、w(pi,pj)=0:2つの画像集合によって形成されるあらゆる対がゼロの類似性を有する場合に限り、類似性は0である。
Claims (20)
- 以下の工程を含む、1人または複数のユーザにビデオ内の製品アノテーションを提供するためのコンピュータ方法:
製品アノテーションのためのビデオを受け取る工程であって、該ビデオが複数のビデオフレームを含む、工程;
該ビデオフレームから複数のキーフレームを抽出する工程;ならびに
各キーフレームについて、
該キーフレームの視覚表現を生成する工程;
該視覚表現を複数の製品視覚シグネチャと比較する工程;および
該比較に基づき、該キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定する工程。 - 前記ビデオから複数のキーフレームを抽出する工程が、
該複数のキーフレームの各々を該ビデオの固定点で抽出する工程
を含む、請求項1記載の方法。 - キーフレームの視覚シグネチャを生成する工程が、
該キーフレームから複数の視覚特徴を抽出する工程;
該複数の視覚特徴を複数のクラスタへとグループ化する工程;および
該キーフレームの該視覚シグネチャとして多次元のバッグ・オブ・ビジュアルワード(bag visual words)ヒストグラムを生成する工程
を含む、請求項1記載の方法。 - キーフレームの前記複数の視覚特徴が、該キーフレームのスケール不変特徴変換(Scale Invariant Feature Transform;SIFT)記述子である、請求項3記載の方法。
- 複数の製品のうちの各製品について、
該製品の複数の訓練画像を収集する工程;および
該製品の該収集した訓練画像から該製品の視覚シグネチャを生成する工程
をさらに含む、請求項1記載の方法。 - 製品の前記複数の訓練画像を収集する工程が、
専門製品リポジトリから該製品の複数の専門製品画像を収集する工程;
該製品の各専門製品画像について、
複数のウェブリソースから複数の関連する製品画像をサーチする工程;および
各関連する製品画像と該専門製品画像の間の類似性測度に基づいて、所定数の関連する製品画像を選択する工程
を含み、
該専門製品画像および該選択された関連する製品画像が、該製品の該訓練画像を構成する、
請求項5記載の方法。 - 前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成する工程が、
該製品の該訓練画像に一括疎化方式を適用する工程であって、関連する製品画像に含まれる該製品と無関係な情報が、該製品の該視覚シグネチャの生成の際に低減される、工程
を含む、請求項5記載の方法。 - 前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成する工程が、
該製品の該視覚シグネチャを所定回数の反復によって繰り返し更新する工程
をさらに含む、請求項5記載の方法。 - 製品の前記複数の専門製品画像が、該製品の様々な視点(view)における専門製品画像を含む、請求項5記載の方法。
- キーフレームが前記製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定する工程が、
該キーフレームの前記視覚表現と複数の該製品視覚シグネチャのうちの該製品視覚シグネチャの各々との間の製品関連性を推定する工程;および
該推定した製品関連性に基づいて、キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定する工程
を含む、請求項1記載の方法。 - 1人または複数のユーザにオンデマンドのディジタル資産ホスティングサービスを提供するための実行可能コンピュータプログラム命令を記憶した非一時的なコンピュータ可読記憶媒体であって、該コンピュータプログラム命令が、
製品アノテーションのためのビデオをユーザから受け取るための命令であって、該ビデオが複数のビデオフレームを含む、命令;
該ビデオから複数のキーフレームを抽出するための命令;ならびに
各キーフレームについて、
該キーフレームの視覚表現を生成するための命令;
該視覚表現を複数の製品視覚シグネチャと比較するための命令;
該比較に基づき、該キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定するための命令
を含む、コンピュータ可読記憶媒体。 - 前記ビデオから複数のキーフレームを抽出するための前記コンピュータプログラム命令が、
該複数のキーフレームの各々を該ビデオの固定点で抽出するための命令
を含む、請求項11記載のコンピュータ可読記憶媒体。 - キーフレームの前記視覚シグネチャを生成するための前記コンピュータプログラム命令が、
該キーフレームから複数の視覚特徴を抽出するための命令;
該複数の視覚特徴を複数のクラスタへとグループ化するための命令;および
該キーフレームの該視覚シグネチャとして多次元のバッグ・オブ・ビジュアルワード・ヒストグラムを生成するための命令
を含む、請求項11記載のコンピュータ可読記憶媒体。 - キーフレームの前記複数の視覚特徴が、該キーフレームのスケール不変特徴変換(SIFT)記述子である、請求項13記載のコンピュータ可読記憶媒体。
- 複数の製品のうちの各製品について、
該製品の複数の訓練画像を収集するためのコンピュータプログラム命令;および
該製品の該収集した訓練画像から該製品の視覚シグネチャを生成するためのコンピュータプログラム命令
をさらに含む、請求項11記載のコンピュータ可読記憶媒体。 - 製品の前記複数の訓練画像を収集するための前記コンピュータプログラム命令が、
専門製品リポジトリから該製品の複数の専門製品画像を収集するための命令;
該製品の各専門製品画像について、
複数のウェブリソースから複数の関連する製品画像をサーチするための命令;および
関連する製品画像の各々と該専門製品画像の間の類似性測度に基づいて所定数の関連する製品画像を選択するための命令
を含み、
該専門製品画像および該選択された関連する製品画像が該製品の該訓練画像を構成する、
請求項15記載のコンピュータ可読記憶媒体。 - 前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成するための前記コンピュータプログラム命令が、
該製品の該訓練画像に一括疎化方式を適用するための命令であって、関連する製品画像に含まれる該製品と無関係な情報が、該製品の該視覚シグネチャの生成の際に低減される、命令
を含む、請求項15記載のコンピュータ可読記憶媒体。 - 前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成するための前記コンピュータプログラム命令が、
該製品の該視覚シグネチャを所定回数の反復によって繰り返し更新するための命令
をさらに含む、請求項15記載のコンピュータ可読記憶媒体。 - 製品の前記複数の専門製品画像が、該製品の様々な視点における専門製品画像を含む、請求項15記載のコンピュータ可読記憶媒体。
- キーフレームが前記製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定するためのコンピュータプログラム命令が、
該キーフレームの前記視覚表現と複数の該製品視覚シグネチャのうちの各製品視覚シグネチャとの間の製品関連性を推定するための命令;および
該推定した製品関連性に基づいて、キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定するための命令
を含む、
請求項11記載のコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161474328P | 2011-04-12 | 2011-04-12 | |
US61/474,328 | 2011-04-12 | ||
PCT/SG2012/000127 WO2012141655A1 (en) | 2011-04-12 | 2012-04-11 | In-video product annotation with web information mining |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014524058A JP2014524058A (ja) | 2014-09-18 |
JP2014524058A5 true JP2014524058A5 (ja) | 2016-09-29 |
JP6049693B2 JP6049693B2 (ja) | 2016-12-21 |
Family
ID=47009585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014505107A Active JP6049693B2 (ja) | 2011-04-12 | 2012-04-11 | ウェブ情報マイニングを用いたビデオ内製品アノテーション |
Country Status (6)
Country | Link |
---|---|
US (1) | US9355330B2 (ja) |
JP (1) | JP6049693B2 (ja) |
CN (1) | CN103608826B (ja) |
GB (1) | GB2506028B (ja) |
SG (1) | SG194442A1 (ja) |
WO (1) | WO2012141655A1 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103608826B (zh) * | 2011-04-12 | 2017-04-05 | 新加坡国立大学 | 利用网络信息挖掘的视频内产品注释 |
US20130297454A1 (en) * | 2012-05-03 | 2013-11-07 | Nokia Corporation | Method and apparatus for verifying association of users with products and information |
US8917908B2 (en) * | 2012-07-12 | 2014-12-23 | Palo Alto Research Center Incorporated | Distributed object tracking for augmented reality application |
US9118886B2 (en) * | 2012-07-18 | 2015-08-25 | Hulu, LLC | Annotating general objects in video |
CN103473279A (zh) * | 2013-08-28 | 2013-12-25 | 上海合合信息科技发展有限公司 | 产品说明的查询方法、装置、系统及客户端 |
US9888207B2 (en) | 2014-03-17 | 2018-02-06 | Microsoft Technology Licensing, Llc | Automatic camera selection |
US9749585B2 (en) | 2014-03-17 | 2017-08-29 | Microsoft Technology Licensing, Llc | Highlighting unread messages |
US10178346B2 (en) | 2014-03-17 | 2019-01-08 | Microsoft Technology Licensing, Llc | Highlighting unread messages |
US10284813B2 (en) | 2014-03-17 | 2019-05-07 | Microsoft Technology Licensing, Llc | Automatic camera selection |
CN105373938A (zh) | 2014-08-27 | 2016-03-02 | 阿里巴巴集团控股有限公司 | 识别视频图像中的商品和展示其信息的方法、装置及系统 |
TWI590173B (zh) * | 2015-01-30 | 2017-07-01 | Bravo Ideas Digital Co Ltd | Interactive Advertising Approach and Its Interactive System |
TWI582710B (zh) * | 2015-11-18 | 2017-05-11 | Bravo Ideas Digital Co Ltd | The method of recognizing the object of moving image and the interactive film establishment method of automatically intercepting target image |
CN106778449B (zh) * | 2015-11-23 | 2020-09-22 | 创意点子数位股份有限公司 | 动态影像的物件辨识方法及自动截取目标图像的互动式影片建立方法 |
CN106845323B (zh) * | 2015-12-03 | 2020-04-28 | 阿里巴巴集团控股有限公司 | 一种打标数据的收集方法、装置以及证件识别系统 |
US10643264B2 (en) * | 2016-07-25 | 2020-05-05 | Facebook, Inc. | Method and computer readable medium for presentation of content items synchronized with media display |
WO2018048355A1 (en) * | 2016-09-08 | 2018-03-15 | Aiq Pte. Ltd. | Object detection from visual search queries |
CN107909088B (zh) * | 2017-09-27 | 2022-06-28 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
US11120070B2 (en) * | 2018-05-21 | 2021-09-14 | Microsoft Technology Licensing, Llc | System and method for attribute-based visual search over a computer communication network |
WO2020227845A1 (en) * | 2019-05-10 | 2020-11-19 | Shenzhen Malong Technologies Co., Ltd. | Compressed network for product recognition |
TW202232437A (zh) | 2021-02-09 | 2022-08-16 | 阿物科技股份有限公司 | 圖像分類與標示方法及系統 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6560281B1 (en) | 1998-02-24 | 2003-05-06 | Xerox Corporation | Method and apparatus for generating a condensed version of a video sequence including desired affordances |
US7130466B2 (en) * | 2000-12-21 | 2006-10-31 | Cobion Ag | System and method for compiling images from a database and comparing the compiled images with known images |
JP2003023595A (ja) * | 2001-07-06 | 2003-01-24 | Canon Inc | 画像処理装置、方法、プログラム、及びコンピュータ読み取り可能な記憶媒体 |
JP2003044717A (ja) * | 2001-07-27 | 2003-02-14 | Goji Toyokawa | 人気タレントイメージ商品・サービス紹介システム、人気タレントイメージ商品・サービス紹介方法及びその方法を実行するためのプログラムを記録したコンピュータ読取可能な記録媒体 |
JP4413633B2 (ja) * | 2004-01-29 | 2010-02-10 | 株式会社ゼータ・ブリッジ | 情報検索システム、情報検索方法、情報検索装置、情報検索プログラム、画像認識装置、画像認識方法および画像認識プログラム、ならびに、販売システム |
US20060218578A1 (en) * | 2005-03-24 | 2006-09-28 | Amy Kyle | Integrated offline product branding method |
US7783135B2 (en) * | 2005-05-09 | 2010-08-24 | Like.Com | System and method for providing objectified image renderings using recognition information from images |
US8594429B2 (en) * | 2005-10-11 | 2013-11-26 | Hewlett-Packard Development Company, L.P. | Method and apparatus for processing a video stream |
TWI316690B (en) * | 2006-09-05 | 2009-11-01 | Univ Nat Cheng Kung | Video annotation method by integrating visual features and frequent patterns |
US20110106656A1 (en) * | 2006-11-15 | 2011-05-05 | 24Eight Llc | Image-based searching apparatus and method |
JP5063098B2 (ja) * | 2006-12-12 | 2012-10-31 | ヤフー株式会社 | 情報提供装置、情報提供方法、及びコンピュータプログラム |
US8374413B2 (en) | 2007-12-20 | 2013-02-12 | Wisconsin Alumni Research Foundation | Method for prior image constrained image reconstruction |
CN101981576A (zh) * | 2008-03-31 | 2011-02-23 | 杜比实验室特许公司 | 使用媒体内容中识别出的对象将信息与媒体内容相关联 |
CN103608826B (zh) * | 2011-04-12 | 2017-04-05 | 新加坡国立大学 | 利用网络信息挖掘的视频内产品注释 |
-
2012
- 2012-04-11 CN CN201280027434.XA patent/CN103608826B/zh active Active
- 2012-04-11 GB GB1319882.5A patent/GB2506028B/en active Active
- 2012-04-11 SG SG2013075056A patent/SG194442A1/en unknown
- 2012-04-11 US US14/111,149 patent/US9355330B2/en active Active
- 2012-04-11 WO PCT/SG2012/000127 patent/WO2012141655A1/en active Application Filing
- 2012-04-11 JP JP2014505107A patent/JP6049693B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014524058A5 (ja) | ||
JP6049693B2 (ja) | ウェブ情報マイニングを用いたビデオ内製品アノテーション | |
Yu et al. | Click prediction for web image reranking using multimodal sparse coding | |
JP6526329B2 (ja) | ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
Bergamo et al. | Exploiting weakly-labeled web images to improve object classification: a domain adaptation approach | |
US20190026268A1 (en) | Associating still images and videos | |
Fu et al. | Interestingness prediction by robust learning to rank | |
CN107562742B (zh) | 一种图像数据处理方法及装置 | |
US8868619B2 (en) | System and methods thereof for generation of searchable structures respective of multimedia data content | |
Cai et al. | New graph structured sparsity model for multi-label image annotations | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
Zhu et al. | Videotopic: Content-based video recommendation using a topic model | |
CN105630975B (zh) | 一种信息处理方法和电子设备 | |
JP4937395B2 (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Weng et al. | Collaborative video reindexing via matrix factorization | |
Uricchio et al. | An evaluation of nearest-neighbor methods for tag refinement | |
CN104462489B (zh) | 一种基于深层模型的跨模态检索方法 | |
CN117312681A (zh) | 面向元宇宙的用户偏好产品推荐方法及系统 | |
Zhang et al. | Dataset-driven unsupervised object discovery for region-based instance image retrieval | |
JP6172332B2 (ja) | 情報処理方法及び情報処理装置 | |
CN107729521B (zh) | 一种获取网络话题原型的方法及装置 | |
Kuzovkin et al. | Context in photo albums: Understanding and modeling user behavior in clustering and selection | |
WO2018120575A1 (zh) | 网页主图识别方法和装置 | |
CN108304453B (zh) | 一种视频相关搜索词的确定方法及装置 |