JP5596648B2 - ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム - Google Patents
ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム Download PDFInfo
- Publication number
- JP5596648B2 JP5596648B2 JP2011208791A JP2011208791A JP5596648B2 JP 5596648 B2 JP5596648 B2 JP 5596648B2 JP 2011208791 A JP2011208791 A JP 2011208791A JP 2011208791 A JP2011208791 A JP 2011208791A JP 5596648 B2 JP5596648 B2 JP 5596648B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- hash function
- hash
- feature
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(2)メモリを大量に消費する
通常、コンテンツの特徴量は多次元になることが多く、その類似度の計算には時間を要する。一般に、文書のBag-of-Wordsヒストグラムの次元は、単語の種類(語彙)と同次元になるし、画像の色ヒストグラムは一般に数百〜数千次元の実数値ベクトルとなる。さらに、全てのコンテンツの組に対してその類似度を計算する必要があるため、どのような類似度計算手段を用いようとも、コンテンツがN個あったとするとO(N)の計算量を要する。また、即時検索を実行するためには、特徴量あるいはその類似度をメモリに蓄積しておくことが好ましいが、これを行うためにはO(N2)のメモリが必要となる。
次に、特徴量の抽出について説明する。特徴量を抽出する処理は、コンテンツの種類に依存する。例えば、コンテンツが文書であるか、画像であるか、音であるか、映像であるかによって、抽出する/できる特徴量は変化する。ここでは、各種コンテンツに対する特徴抽出処理の一例を説明するが、これに限るものではなく、一般に知られた公知の特徴抽出処理を用いて構わない。
[参考文献2]H. Bay, T. Tuytelaars, and L.V. Gool, “SURF: Speeded Up Robust Features”, Lecture Notes in Computer Science, vol. 3951, pp.404-417, 2006
これらによって抽出される局所特徴は、例えば128次元の実数値ベクトルとなる。このベクトルを、予め学習して生成しておいた符号長を参照して、符号に変換し、その符号の数を数え上げることでヒストグラムを生成することができる。この場合、ヒストグラムのビンの数は、符号長の符号数と一致する。符号数は任意のものを用いてよいが、例えば512あるいは1024などとしてもよい。
コンテンツが音である場合には、音高特徴、音圧特徴、スペクトル特徴、リズム特徴、発話特徴、音楽特徴、音イベント特徴などを抽出する。
音圧特徴としては、音声波形データの振幅値を用いるものとしてもよいし、短時間パワースペクトルを求め、任意の帯域の平均パワーを計算して用いるものとしてもよい。
発話特徴、音楽特徴は、それぞれ、発話の有無、音楽の有無を表す。発話・音楽の存在する区間を発見するには、例えば下記の参考文献6に記載される方法などを用いればよい。
音イベント特徴としては、例えば、笑い声や大声などの感情的な音声、あるいは、銃声や爆発音などの環境音の生起などを用いるものとすればよい。このような音イベントを検出するには、例えば下記の参考文献7に記載される方法などを用いればよい。
コンテンツが映像である場合、映像は、一般に画像と音のストリームであるから、上記説明した画像特徴と音特徴を用いることができる。映像中のどの画像、音情報を分析するかについては、例えば、予め映像をいくつかの区間に分割し、その区間ごとに1つの画像、音から特徴抽出を実施する。
望ましくは、後者の方法を採用する。映像区間分割処理の結果として、区間の開始点(開始時刻)と終了点(終了時刻)が得られるが、この時刻毎に別々の特徴量として扱えばよい。
次に、ハッシュ関数の生成について説明する。コンテンツiの抽出された特徴量をxi∈Rdと表す。このとき、ステップS103では、h:Rd→{0,1}となるハッシュ関数の集合を求める。各hによって、特徴量xi∈Rdは0または1を取るバイナリ値に写像されるから、特徴量xiは、ハッシュ関数集合H={h1,h2,・・・,hB}によってB個のバイナリ値、すなわち、B bitのハッシュ値に変換されることになる。
(2){xi,xj}が関連付けられるべきでないときyij=−1
(3) そのいずれでもないときyij=0
この関連情報ラベルyijを利用して、ハッシュ関数hのパラメータw,bを決定する。
(1)yij=1であり、h’(xi),h’(xj)のハッシュ値が正しく一致するような場合に大きくなり、
(2)yij=1であり、h’(xi),h’(xj)のハッシュ値が誤って一致しないような場合に小さくなり、
(3)yij=−1であり、h’(xi),h’(xj)のハッシュ値が正しく一致しないような場合に大きくなり、
(4)yij=−1であり、h’(xi),h’(xj)のハッシュ値が誤って一致するような場合に小さくなる。
ここでは、画像データベースを対象に、本発明で実施したハッシュ値に基づいて類似画像を推薦する一実施例について説明する。
11…入力部
12…特徴抽出部
13…ハッシュ関数生成部
14…ハッシュ関数記憶部
15…ハッシュ化部
16…出力部
2…コンテンツデータベース
Claims (5)
- 複数のコンテンツ、当該複数のコンテンツ中の2つのコンテンツ同士が関連付けられるべきであるか否かを示す関連情報を登録したコンテンツデータベースを接続し、高い類似度を持つコンテンツほどハッシュ値の距離が近くなり、コンテンツから抽出される特徴量を引数としてパラメータw,bを含む三角関数によって規定されるハッシュ関数の集合を生成するコンピュータにより実行されるハッシュ関数生成方法であって、
前記コンテンツデータベースから2つのコンテンツi,jを読み出すステップと、
前記2つのコンテンツi,jそれぞれの特徴量x i ,x j を抽出するステップと、
前記2つのコンテンツi,j間の関連付けを示す前記関連情報y ij を前記コンテンツデータベースから取得し、式
を有することを特徴とするハッシュ関数生成方法。 - 複数のコンテンツ、当該複数のコンテンツ中の2つのコンテンツ同士が関連付けられるべきであるか否かを示す関連情報を登録したコンテンツデータベースを接続し、高い類似度を持つコンテンツほどハッシュ値の距離が近くなり、コンテンツから抽出される特徴量を引数としてパラメータw,bを含む三角関数によって規定されるハッシュ関数の集合を生成するハッシュ関数生成装置であって、
前記コンテンツデータベースから2つのコンテンツi,jを読み出して当該2つのコンテンツi,jそれぞれの特徴量x i ,x j を抽出する特徴抽出手段と、
前記2つのコンテンツi,j間の関連付けを示す前記関連情報y ij を前記コンテンツデータベースから取得し、式
を有することを特徴とするハッシュ関数生成装置。 - 請求項1又は2に記載のハッシュ関数生成方法をコンピュータに実行させることを特徴とするハッシュ関数生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011208791A JP5596648B2 (ja) | 2011-09-26 | 2011-09-26 | ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011208791A JP5596648B2 (ja) | 2011-09-26 | 2011-09-26 | ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013068884A JP2013068884A (ja) | 2013-04-18 |
JP5596648B2 true JP5596648B2 (ja) | 2014-09-24 |
Family
ID=48474609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011208791A Expired - Fee Related JP5596648B2 (ja) | 2011-09-26 | 2011-09-26 | ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5596648B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6152032B2 (ja) * | 2013-10-16 | 2017-06-21 | 日本電信電話株式会社 | ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム |
JP6393058B2 (ja) | 2014-03-31 | 2018-09-19 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
JP6461773B2 (ja) * | 2015-11-30 | 2019-01-30 | 日本電信電話株式会社 | ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム |
KR102183305B1 (ko) * | 2018-08-03 | 2020-11-26 | 국민대학교산학협력단 | 신경망 피처 벡터 결정 장치 및 방법 |
JP7118920B2 (ja) * | 2019-04-11 | 2022-08-16 | 株式会社日立ソリューションズ | 画像検索装置および画像検索方法 |
KR102073833B1 (ko) * | 2019-11-05 | 2020-02-05 | (주)키온비트 | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6671407B1 (en) * | 1999-10-19 | 2003-12-30 | Microsoft Corporation | System and method for hashing digital images |
-
2011
- 2011-09-26 JP JP2011208791A patent/JP5596648B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013068884A (ja) | 2013-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Deep cross-modal correlation learning for audio and lyrics in music retrieval | |
JP5596648B2 (ja) | ハッシュ関数生成方法、ハッシュ関数生成装置、ハッシュ関数生成プログラム | |
US20060282465A1 (en) | System and method for searching media content | |
JP5592337B2 (ja) | コンテンツ変換方法、コンテンツ変換装置及びコンテンツ変換プログラム | |
JP6104209B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム | |
WO2022154818A1 (en) | Densification in music search and recommendation | |
US11615132B2 (en) | Feature amount generation method, feature amount generation device, and feature amount generation program | |
JP2017027526A (ja) | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム | |
JP6368677B2 (ja) | 写像学習方法、情報圧縮方法、装置、及びプログラム | |
US20190311746A1 (en) | Indexing media content library using audio track fingerprinting | |
Kuzminykh et al. | Audio interval retrieval using convolutional neural networks | |
JP2016066012A (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、装置、及びプログラム | |
JP6152032B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム | |
JP6134246B2 (ja) | ハッシュ関数生成方法、ハッシュ値生成方法、ハッシュ関数生成装置、ハッシュ値生成装置、ハッシュ関数生成プログラム及びハッシュ値生成プログラム | |
EP3477505B1 (en) | Fingerprint clustering for content-based audio recogntion | |
Vötter et al. | HSP datasets: Insights on song popularity prediction | |
CN107480273B (zh) | 图片哈希码生成方法、装置、图片检索方法及装置 | |
JP6461773B2 (ja) | ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム | |
Uriza et al. | Efficient large-scale image search with a vocabulary tree | |
JP2017040972A (ja) | 特徴量生成装置、方法、及びプログラム | |
Shrivastav et al. | Towards an ontology based framework for searching multimedia contents on the web | |
WO2021191392A1 (fr) | Méthode mise en oeuvre par ordinateur pour la recherche analogique de documents | |
JP5599363B2 (ja) | ハミング空間検索装置、ハミング空間検索方法、ハミング空間検索プログラムおよび記録媒体 | |
Korzeniowski et al. | Artist Similarity for Everyone: A Graph Neural Network Approach. | |
Al-Tamimi et al. | On the use of feature selection for music genre classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5596648 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |