JP2016197375A - 写像学習方法、情報圧縮方法、装置、及びプログラム - Google Patents
写像学習方法、情報圧縮方法、装置、及びプログラム Download PDFInfo
- Publication number
- JP2016197375A JP2016197375A JP2015077868A JP2015077868A JP2016197375A JP 2016197375 A JP2016197375 A JP 2016197375A JP 2015077868 A JP2015077868 A JP 2015077868A JP 2015077868 A JP2015077868 A JP 2015077868A JP 2016197375 A JP2016197375 A JP 2016197375A
- Authority
- JP
- Japan
- Prior art keywords
- content
- feature
- media type
- mapping
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の実施の形態では、相互に異なるメディア種別であっても、グループ指示子によって緩く関連づけられたコンテンツ同士の関係から、その相関が最も強い最大相関ペアだけを頑健に発見して、これに基づいて写像を更新することで、不確かな関係性を持つコンテンツ同士の中からであっても、より確度の高い低次元特徴量を生成可能であり、その結果、高速かつ省メモリでありながらも高精度な情報処理装置に、本発明を適用した場合について説明する。
(全体構成)
まず、本実施形態の情報処理装置10の全体構成の一例について説明する。図1は、本実施形態に係る情報処理装置10の構成の一例を示す機能ブロック図である。図1に示すように、情報処理装置10は、入力部20、出力部22、特徴抽出部30、特徴量記憶部32、写像学習部34、写像記憶部36、低次元特徴量生成部38、及び最大相関ペア抽出部40を備える。
画像1:グループ3
として記述すればよい。また、同様に、文書2がグループ3に属する場合、
文書2:グループ3
として記述することができる。グループ指示子を与える手段は問わず、人手によって与えてもよいし、自動的に与えてもよいが、好ましくは、後者の方が人手を介さずに済むため、効率的である。例えば、同一ウェブページ内に出現する画像と文書は同一のグループに属するとしてグループ指示子を与えてもよい。あるいは、メタデータとして、例えばコンテンツの内容を表現するもの(コンテンツのタイトル、概要文、及びキーワード等)、コンテンツのフォーマットに関するもの(コンテンツのデータ量、及びサムネイル等のサイズ等)等を含んでいるような場合には、共通するメタデータやフォーマットを持つものを同一のグループに属するとみなしてもよい。
[参考文献2] Quoc Le and Tomas Mikolov. Distributed Representations of Sentences and Documents. In Proceedings of International Conference on Machine Learning, 2014.
[参考文献4]H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features”, Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006
[参考文献6] Florent Perronnin, Jorge Sanchez, Thomas Mensink, “Improving the Fisher Kernel for Large-Scale Image Classification”, European Conference on Computer Vision, pp. 143-156, 2010.
[参考文献7] Herve Jegou, Florent Perronnin, Matthijs Douze, Jorge Sanchez, Patrick Perez, Cordelia Schmid, “Aggregating Local Image Descriptors into Compact Codes”, IEEE Trans. Pattern Recognition and Machine Intelligence, Vol. 34, No. 9, pp. 1704-1716, 2012.
上記(2)式に示すように、本実施の形態における写像は、特徴抽出部30によってコンテンツのメディア種別毎に抽出されたコンテンツの特徴量xmと、写像のパラメータwm,kとの内積を算出し、算出された内積に基づいて、コンテンツのメディア種別毎の特徴量に対応する写像を出力する関数である。したがって、写像学習部34で行われる学習処理の目的は、このwm、k(k=1,2,…, d)を求めることである。
(A)元のメディア種別mにおいて、元の空間RDmでの類似度を表す低次元特徴量へと変換する。すなわち、元の特徴量が類似したコンテンツ同士ほど、低次元特徴量の類似度も高く(距離も近く)なること。
に合う写像となるように、wm、kを求めたい。
グループ3:画像2・文書3
等として記憶しておけばよい。この最大相関ペア指示子は、上述した写像学習部34における学習処理において用いる。
次に、本実施の形態の情報処理装置10の作用について説明する。本実施の形態における情報処理装置10は、写像を生成する写像生成処理と、特徴量を低次元特徴量化する情報圧縮を実行する。以下、これら2つの処理について説明する。
まず、写像生成処理について説明する。図5は、写像生成処理の一例の流れを示すフローチャートである。図5に示した写像生成処理は、実際にコンテンツの低次元特徴量を生成する前に、少なくとも1度実施しておく処理である。
次に、情報圧縮処理について説明する。図6は、情報圧縮処理の一例の流れを示すフローチャートである。図6に示す情報圧縮処理は、写像記憶部36に格納された写像を用いてコンテンツの特徴量を低次元特徴量化する処理である。
<全体構成>
次に、本発明の第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
上記(13)式において、bm,kは
<システム構成>
次に、図7を参照して、本発明の第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
次に、本発明の実施形態の一例により生成した写像によって、類似コンテンツを高速かつ省メモリに検索する実施形態の一例について説明する。
12、112 コンテンツDB(データベース)
20、150、180 入力部
22、152、182 出力部
30、160、190 特徴抽出部
32、162 特徴量記憶部
34、164 写像学習部
36、166、196 写像記憶部
38、168、198 低次元特徴量生成部
40、170 最大相関ペア抽出部
120 サーバ装置
130 クライアント装置
100 情報処理システム
Claims (8)
- 特徴抽出部、及び写像学習部を備え、複数のメディア種別のコンテンツの集合と、前記コンテンツの集合に含まれるコンテンツの各々が属するグループを指し示すグループ識別子とを入力として、前記コンテンツの特徴量から低次元特徴量への写像を学習する写像学習装置における写像学習方法であって、
前記特徴抽出部が、コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記コンテンツから前記メディア種別に応じた特徴量を抽出するステップと、
前記写像学習部が、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量との相対的幾何関係を計算するステップと
前記写像学習部が、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された前記相対的幾何関係と、前記コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習するステップと、
を含む写像学習方法。 - 前記写像学習部が前記相対的幾何関係を計算するステップは、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量を、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量の線形結合で表したときの結合重みを前記相対的幾何関係として計算し、
前記写像学習部が写像を学習するステップは、前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された結合重みと、前記コンテンツの各々のグループ識別子とに基づいて、
前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量と前記計算された前記結合重みとに基づいて求められる、前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量と、前記コンテンツから抽出された前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量との距離が小さくなり、かつ、
前記グループ識別子の各々について、前記グループ識別子が指し示すグループに属し、かつ、メディア種別が異なるコンテンツ間で相関があるコンテンツの組み合わせの各々について、前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する請求項1に記載の写像学習方法。 - 前記写像学習装置は、最大相関ペア抽出部をさらに備え、
前記最大相関ペア抽出部が、前記グループ識別子の各々について、前記グループ識別子が指し示すグループに属し、かつ、メディア種別が異なるコンテンツの組み合わせのうち、前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の相関が最大となる前記コンテンツの組み合わせを抽出するステップを更に含み、
前記写像学習部によって学習するステップは、
前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記コンテンツの前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量と前記計算された結合重みとに基づいて求められる、前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量と、前記コンテンツから抽出された前記メディア種別に応じた特徴量を前記写像により変換した低次元特徴量との距離が小さくなり、かつ、
前記グループ識別子の各々について、前記最大相関ペア抽出部によって抽出された前記組み合わせのコンテンツの各々から抽出された前記特徴量を前記写像により変換した低次元特徴量の間の距離が小さくなるように、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する請求項1または請求項2に記載の写像学習方法。 - 前記写像学習装置は低次元特徴量生成部をさらに備え、
前記低次元特徴量生成部によって、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、前記写像学習部によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成するステップを更に含み、
予め定められた反復終了条件を満たすまで、前記低次元特徴量生成部による生成、最大相関ペア抽出部による抽出、前記写像学習部による計算、及び前記写像学習部による学習を繰り返す請求項1〜請求項3の何れか1項に記載の写像学習方法。 - 特徴抽出部及び低次元特徴量生成部を含む情報圧縮装置における情報圧縮方法であって、
前記特徴抽出部が、一つ以上のコンテンツの各々について、前記コンテンツから前記コンテンツのメディア種別に応じた特徴量を抽出するステップと、
前記低次元特徴量生成部が、前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、請求項1〜請求項4の何れか1項に記載の写像学習方法によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成するステップと、
を含む情報圧縮方法。 - 複数のメディア種別のコンテンツの集合と、前記コンテンツの集合に含まれるコンテンツの各々が属するグループを指し示すグループ識別子とを入力として、前記コンテンツの特徴量から低次元特徴量への写像を学習する写像学習装置であって、
コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記コンテンツから前記メディア種別に応じた特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量に基づいて、前記コンテンツのメディア種別毎に、前記メディア種別のコンテンツの各々について、前記メディア種別に応じた特徴量が存在する空間である特徴量空間において、前記メディア種別に応じた特徴量の近傍に存在する他のコンテンツの前記メディア種別に応じた特徴量との相対的幾何関係を計算し、
前記特徴抽出部によって抽出された前記コンテンツの各々についての前記特徴量と、前記コンテンツのメディア種別毎に前記メディア種別のコンテンツの各々について前記計算された前記相対的幾何関係と、前記コンテンツの各々のグループ識別子とに基づいて、コンテンツのメディア種別毎の前記特徴量を低次元特徴量に変換するための写像を学習する写像学習部と、
を備える写像学習装置。 - 一つ以上のコンテンツの各々について、前記コンテンツから前記コンテンツのメディア種別に応じた特徴量を抽出する特徴抽出部と、
前記コンテンツの各々について、前記特徴抽出部によって抽出された前記コンテンツの前記特徴量と、請求項6記載の写像学習装置によって学習された、前記コンテンツのメディア種別の写像とに基づいて、前記コンテンツの前記特徴量を前記写像により変換した低次元特徴量を生成する低次元特徴量生成部と、
を含む情報圧縮装置。 - コンピュータに、請求項1〜請求項4の何れか1項に記載の写像学習方法、又は請求項5記載の情報圧縮方法の各ステップを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015077868A JP6368677B2 (ja) | 2015-04-06 | 2015-04-06 | 写像学習方法、情報圧縮方法、装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015077868A JP6368677B2 (ja) | 2015-04-06 | 2015-04-06 | 写像学習方法、情報圧縮方法、装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016197375A true JP2016197375A (ja) | 2016-11-24 |
JP6368677B2 JP6368677B2 (ja) | 2018-08-01 |
Family
ID=57358251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015077868A Active JP6368677B2 (ja) | 2015-04-06 | 2015-04-06 | 写像学習方法、情報圧縮方法、装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6368677B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101947894B1 (ko) | 2017-03-16 | 2019-02-13 | 문명국 | 머신 러닝과 데이터 분석모델을 이용한 앱 검색시스템 |
WO2020017380A1 (ja) * | 2018-07-17 | 2020-01-23 | 日本電信電話株式会社 | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
JP2022510704A (ja) * | 2019-01-31 | 2022-01-27 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | クロスモーダル情報検索方法、装置及び記憶媒体 |
JP2022089883A (ja) * | 2019-12-20 | 2022-06-16 | 楽天グループ株式会社 | クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010053160A1 (ja) * | 2008-11-07 | 2010-05-14 | 国立大学法人 北海道大学 | コンテンツ検索装置およびコンテンツ検索プログラム |
-
2015
- 2015-04-06 JP JP2015077868A patent/JP6368677B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010053160A1 (ja) * | 2008-11-07 | 2010-05-14 | 国立大学法人 北海道大学 | コンテンツ検索装置およびコンテンツ検索プログラム |
Non-Patent Citations (3)
Title |
---|
XIAOFENG ZHU: "Linear Cross-Modal Hashing for Efficient Multimedia Search", MM2013-PROCEEDINGS OF THE 2013 ACM MULTIMEDIA CONFERENCE, JPN7018002224, 25 October 2013 (2013-10-25), pages 143-152ページ * |
入江 豪: "効率的な類似画像検索のためのハッシング", 映像情報メディア学会誌, vol. 第69巻 第2号, JPN6018024797, 1 February 2015 (2015-02-01), JP, pages 124−130ページ * |
新穂 龍太朗: "画像にマッチする楽曲の自動推薦システムに関する研究", 映像情報メディア学会技術報告, vol. Vol.36 No.8, JPN6018024795, 11 February 2012 (2012-02-11), JP, pages 53−56ページ * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101947894B1 (ko) | 2017-03-16 | 2019-02-13 | 문명국 | 머신 러닝과 데이터 분석모델을 이용한 앱 검색시스템 |
WO2020017380A1 (ja) * | 2018-07-17 | 2020-01-23 | 日本電信電話株式会社 | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
JP2020013272A (ja) * | 2018-07-17 | 2020-01-23 | 日本電信電話株式会社 | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
JP7014072B2 (ja) | 2018-07-17 | 2022-02-01 | 日本電信電話株式会社 | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム |
JP2022510704A (ja) * | 2019-01-31 | 2022-01-27 | シェンチェン センスタイム テクノロジー カンパニー リミテッド | クロスモーダル情報検索方法、装置及び記憶媒体 |
JP2022089883A (ja) * | 2019-12-20 | 2022-06-16 | 楽天グループ株式会社 | クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム |
JP7360497B2 (ja) | 2019-12-20 | 2023-10-12 | 楽天グループ株式会社 | クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6368677B2 (ja) | 2018-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232152B (zh) | 内容推荐方法、装置、服务器以及存储介质 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
US9158842B1 (en) | Sound representation via winner-take-all coding of auditory spectra | |
JP6368677B2 (ja) | 写像学習方法、情報圧縮方法、装置、及びプログラム | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
JP6104209B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム | |
JP6397378B2 (ja) | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム | |
JP5592337B2 (ja) | コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム | |
JP5596648B2 (ja) | ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム | |
JP2016066012A (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム | |
Zhang et al. | OMCBIR: Offline mobile content-based image retrieval with lightweight CNN optimization | |
WO2020017380A1 (ja) | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム | |
JP6152032B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム | |
Guan et al. | On-device mobile visual location recognition by using panoramic images and compressed sensing based visual descriptors | |
JP6373292B2 (ja) | 特徴量生成装置、方法、及びプログラム | |
JP6134246B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム | |
JP6461773B2 (ja) | ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
Hou et al. | Remote sensing image retrieval with deep features encoding of Inception V4 and largevis dimensionality reduction | |
JP2010015441A (ja) | 情報処理装置、コンテンツ情報の検索方法、及び情報処理システム | |
Su et al. | Semantically guided projection for zero-shot 3D model classification and retrieval | |
CN107423294A (zh) | 一种社群图像检索方法及系统 | |
JP2017040972A (ja) | 特徴量生成装置、方法、及びプログラム | |
Lu et al. | Content-oriented multimedia document understanding through cross-media correlation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180709 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6368677 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |