JP6041789B2 - 入力信号を符号化する方法 - Google Patents

入力信号を符号化する方法 Download PDF

Info

Publication number
JP6041789B2
JP6041789B2 JP2013241500A JP2013241500A JP6041789B2 JP 6041789 B2 JP6041789 B2 JP 6041789B2 JP 2013241500 A JP2013241500 A JP 2013241500A JP 2013241500 A JP2013241500 A JP 2013241500A JP 6041789 B2 JP6041789 B2 JP 6041789B2
Authority
JP
Japan
Prior art keywords
signal
distance
embedding
signals
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013241500A
Other languages
English (en)
Other versions
JP2014132439A (ja
Inventor
ペトロス・ティー・ボウフォウノス
シャンタヌ・ラーネ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/733,517 external-priority patent/US8768075B2/en
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2014132439A publication Critical patent/JP2014132439A/ja
Application granted granted Critical
Publication of JP6041789B2 publication Critical patent/JP6041789B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、包括的にはデータを符号化することに関し、より詳細には、データ間のペアワイズ距離を保持するように、汎用量子化埋込みを用いてデータを符号化することに関する。
信号比較及び最近傍方法
信号比較は、信号処理における最も重要で普及したタスクのうちの1つである。多数の用途は基本的に以下の2つの質問、すなわち、(1)信号をどのように比較するべきか?(2)1組の信号及びクエリ信号を所与として、いずれの信号がクエリ信号の最近傍であるか、すなわち、データベース内のいずれの他の信号がクエリ信号に最も類似しているか?に対する回答を求めることに依拠する。
信号比較は、最近傍(NN)探索問題の基本構成要素であり、以下のように定義される。信号及びクエリ信号を含む集合(多くの場合にデータベースと呼ばれる)を所与として、データベース内でクエリ信号に最も近い点を見つける。この問題は、K−NN、すなわち、クエリ信号のK個の最近傍を求めることに拡張することができる。この文脈において、当の信号は、画像、ビデオ、画像若しくはビデオから抽出された特徴、又は他の波形とすることができる。「最も近い」という修飾語は、信号の対間のユークリッド距離又はマンハッタン距離等の距離メトリックを指す。この距離メトリックは、比較されている信号間の類似度の何らかの概念をとらえる。2つの信号がこの信号メトリックに従って近接している場合、これは、これらの信号が類似してもいることを意味する。
画像の取出し
通常の画像取出し用途では、クエリ画像(データ又は信号の形態)がクライアントによって未知のオブジェクト又はシーンから取得される。クエリ画像は、サーバーにあるデータベース内に記憶された既知のオブジェクト又はシーンのデータベース内の画像と比較され、類似した画像が判定される。上記で説明したように、類似度は未知のデータにおける特徴と既知のデータにおける特徴との間の距離として表すことができる。そのような用途の性能は、距離を効率的に符号化することによって大幅に改善することができる。探索は迅速で計算効率を良くするべきである一方、送信は帯域幅効率を良くするべきである。
スケール普遍の特徴変換(SIFT:scale−invariant feature transform)、高速化ロバスト特徴(SURF:speeded up robust feature)、及び(画像の)GIST、及び関連技術を用いる画像記述子は、ビットレートが問題とならないとき、大域的な画像特徴又は局所的な画像の詳細を用いた高速な探索を可能にする。通信複雑度に対処するのに、いくつかのトレーニングベースの方法が既知である。しかしながら、これらの全ての方法は、新たなデータベースエントリが追加される度に再トレーニングすることを必要とし、信号統計に変化を引き起こす。
拡張現実(AR:augmented reality)用途では、再トレーニングは望ましくない。サーバーにおけるトレーニングの複雑性に加えて、繰り返し再トレーニングすることは、再トレーニングされたパラメーターを用いてクライアントを更新することを必要とする。このため、トレーニングを必要としない方法が好ましい。これらは、圧縮勾配ヒストグラム(CHoG:compressed histogram of gradients)を含む。ここでは、記述子はベクトル量子化及びコンパクト射影(compact projection)を用いて圧縮されるように明示的に設計される。これは確立された記述子に対する局所性鋭敏型ハッシュ(LSH:locality sensitive hashing)を用いる。
レート歪み
コーディング理論が関与する1つの態様は、データの符号化に関するレート歪み(R−D)を最適化すること、すなわち、データにおいて被る歪みを最小にしながら、データを符号化するのに最小数のビットを用いることに取り組む。本明細書において用いられるとき、データ及び信号は交換可能に用いることができる。
例えば、画像又はビデオの符号化の間、符号化器は復号化後の所与の視覚品質のためにレートを低減するよう試みる。通常、R−Dはデータのエンドユーザー、例えば視聴者によって確定される。
ランダム化された埋込み
埋込みは高次元データ(又は信号)をより低次元に変換し、データの相対的ジオメトリの或る態様、例えばデータの類似度の観点では距離が保持されるようにする。ジオメトリが保持されるので、距離計算は元の高次元データではなく低次元データ、多くの場合、低レートのデータ埋込みに対し直接実行することができる。
図3は、例示的な高次元Lのデータ点u,v及び低次元対数Lにおいて距離dを保持する距離保持埋込み関数g(d(u,v))を示している。ここで、「^」は近似を示す。利点として、埋込みはより低い送信レートを用いることができる。
よく知られたジョンソン−リンデンシュトラウスの補題によれば、点間の距離が近似的に保持されるように、高次元データ点の小さな集合を低次元ユークリッド空間に埋め込むことができる。例えば、Johnson他「Extensions of Lipschitz mappings into a Hilbert space」(Conference in Modern Analysis and Probability,Contemporary Mathematics,American Mathematical Society,pp.189−206,1982)を参照されたい。
図4に示すように、ジョンソン−リンデンシュトラウス(J−L)埋込みの場合、関数は線形増加である(increasingly linear)。汎用量子化埋込みの場合、関数は最初、比較的小さい距離について概ね線形であり、その後、しきい値距離Dを超える距離について急速に平坦化する。
よく知られた埋込みはJ−L埋込みを含み、すなわち、信号の有限集合
Figure 0006041789
からK次元ベクトル空間まで
Figure 0006041789
であり、S内の2つの信号x及びyを所与とすると、それらの画像は以下を満たすようになっている。
Figure 0006041789
換言すれば、埋込みは小さな誤差許容範囲ε内で点クラウドのユークリッド距離lを保持する。
ジョンソン及びリンデンシュトラウスは、上記で説明した距離が次元
Figure 0006041789
の空間内に存在することを実証した。ここで、LはS内の信号数、すなわちその濃度であり、εは埋込み内の所望の許容範囲である。顕著なことに、Kは信号の集合の次元Nと独立している。
線形マッピングを用いてそのような埋込みを求めることは簡単である。特に、関数f(x)=Ax(ここでAは、そのエントリが特定の分布からランダムに引き出されるK×Nの行列である)は、圧倒的な確率を有するJ−L埋込みである。一般的に用いられる分布には、独立同一分布(i.i.d.)、ガウス、i.i.d.ラーデマッヘル、又は一様i.i.d.が含まれる。
通常、J−L埋込みの結果として、次元が大幅に低減する。しかしながら、次元の低減によってすぐにレート低減が生じるわけではない。まず、送信に向けて埋込みが量子化されなくてはならず、量子化が良好に設計されていない場合、埋込みの精度が下がる。
特に、量子化されたJ−L埋込みは以下を満たす。
Figure 0006041789
ここで、τ∝2−Bは量子化器ステップサイズであり、次元Bごとに用いられるビット数とともに指数関数的に減少する一方、εは射影の次元であるKの関数であり、近似的に
Figure 0006041789
としてスケーリングする。1ビット量子化の極端な場合には、埋め込みは信号の振幅、したがってl距離を保持しないが、それらの角度、すなわちそれらの相関係数は保持する。
量子化された埋込みを設計するとき、総レートは射影の次元、及び次元ごとに用いられるビット数によって求められ、すなわちR=KBである。固定レートRにおいて、次元Kが増大すると、εにおいて反映されるような量子化前の埋め込み精度は増大する。レートを固定したままにしておくには、次元ごとのビット数も減少させるべきであり、これによって量子化に起因して精度が減少し、τに反映される。一定のレートでは、マルチビット量子化器は1ビット量子化器よりも性能が優れている。
汎用量子化及び埋込み
汎用スカラー量子化は、スカラー量子化を変更し、量子化器が不連続の量子化領域を有するように設計する。この手法もジョンソン−リンデンシュトラウス型の射影、それに続くスケーリング、ディザリング、及びスカラー量子化
Figure 0006041789
に依拠する。ここで、AはN(oのσ分散のi.i.d.要素を有するランダム行列であり、Δ−1は要素ごとの(逆)スケーリング係数であり、wは[0,Δ]において一様分布したi.i.d.要素を有するディザーベクトルであり、Q(・)はその入力に対し要素ごとに作用するスカラー量子化器である。その方法における画期的特徴は変更されたスカラー量子化器である。
図5に示すように、本方法は変更されたスカラー量子化器を用いる。このスカラー量子化器は、不連続の量子化間隔を有するように設計された1ビット量子化器である。量子化器は、信号のマルチビット表現を求め、表現の最下位ビット(LSB)のみを保持する通常の一様量子化器とみなすことができる。このため、任意の整数lについて、[2l,2l+1)におけるスカラー値は1に量子化され、[2l+1,2(l+1))におけるスカラー値は0に量子化される。Q(・)は1ビット量子化器であるので、その方法は行と同じ数のビット、すなわちK個のビットを用いて符号化を行う。
図6に示すように、変更された量子化器は信号の効率的で汎用性のある符号化を可能にする。さらに、その量子化法は、以下を満たす埋込みでもある。
Figure 0006041789
ここで、d(・,・)は埋込み信号のハミング距離であり、g(d)はマップ
Figure 0006041789
であり、以下の界を用いて有界にすることができる。
Figure 0006041789
マップは小さなdについて近似的に線形であり、距離しきい値Dを上回る大きなdについて指数関数的に高速に定数1/2になる。線形部分の傾き及び距離しきい値Dは埋込みパラメーターΔ及びAによって求められる。換言すれば、埋込みによって、l距離がDよりも小さい限り、埋め込み信号のハミング距離が信号のl距離に概ね比例することが確実となる。
d=Dまで傾き
Figure 0006041789
を有し、その後ゼロに等しい傾きを有する区分線形関数は、上界であることに加えて、(3)の非常に良好な近似である。
(2)における加法曖昧性τは、J−L埋込みにおける乗法(1±ε)因子における定数εと同様に
Figure 0006041789
としてスケーリングする。しかしながら、汎用埋込みは、R=Kの総レートについて、次元ごとに1ビットを用いることに留意すべきである。量子化されたJ−L埋込みが呈する一定のレートRの下でのBとKとの間のトレードオフは、1ビットの汎用埋込みの下では存在しない。それでも、(1)におけるΔの選択によって制御される性能トレードオフが存在する。
図7及び図8は、より小さなスケーリング係数Δの場合(501)及びより大きなスケーリング係数Δの場合(502)について、かつより高いビットレートの場合(図7)及びより低いビットレートの場合(図8)について埋込みがどのように機能するかを実験的に示し、それに対する洞察を提供している。図面は、埋込みハミング距離をランダムに生成された信号対の信号距離の関数としてプロットしている。曲線の厚みはτによって量子化されるのに対し、右上がり部分の傾きはΔによって量子化される。
関連米国特許出願第12/861,923号「Method for Hierarchical Signal Quantization and Hashing」では、本発明者らは、信号、特に画像を階層的に符号化する方法を記載した。信号とハッシングベクトルとの内積を形成し、その内積にディザースカラーを加算した。結果は、階層的に変化する感度パラメーターに従う非単調量子化関数を用いて量子化された。
関連米国特許出願第13/291,384号「Method for Privacy Preserving Hashing of Signals with Binary Embeddings」では、本発明者らはまた、信号のランダム射影をディザリング及びスケーリングし、非単調スカラー量子化器を用いてハッシュを形成することによって信号を符号化した。その特許出願では、基礎をなす信号のプライバシーは、スケーリングパラメーター、ディザリングパラメーター、及び射影パラメーターを秘密にしておくことによって保護された。
関連米国特許出願第13/525,222号「Method for Representing Images Using Quantized Embeddings of Scale−Invariant Image Features」では、画像からスケール不変の特徴を抽出することによって、信号、特に画像を符号化した。特徴は、それらの特徴にランダムエントリの行列を乗算することによって、より低次元のランダム射影行列に射影された。ランダム射影の行列は量子化され、量子化インデックスの行列が生成される。この行列は画像のデータベースを探索して画像に関連するメタデータを取り出すようにクエリベクトルを形成する。
従来の符号化では、歪みを可能な限り最も低くするように、最も少ないビット数を用いてデータ(又は信号)をどのように最良に符号化するかに焦点を当てている。一方、信号のエンドユーザーは、サーバー又は何らかの他のデバイスであり得る。その場合、目標は異なる。符号化は、データを符号化後に完全に復元することができない場合であっても、サーバーがデータから抽出することを望む情報を破壊しないように実行しなくてはならない。これらの場合には、符号化データから特定の情報を抽出することのみが所望される。このため、歪みは符号化データから抽出される任意の情報に対して測定されるべきである。
したがって、本発明の実施の形態は、データ間のペアワイズ距離を保持するように、汎用量子化埋込みを用いてデータを符号化する方法を提供する。詳細には、本方法は、データが画像を表す画像取出し用途において用いることができる。本方法はランダム化された埋込みを用いる。
画像取出し用途では、汎用埋込みは従来技術と比較して最大25%のレート低減を達成することができる。
より詳細には、本発明は、ランダム射影を実行し、その後全ての値について固定のスケーリングを用いてディザリング及びスケーリングを行うことによって、データ間の距離を符号化する。結果として得られるディザリングされた射影及びスケーリングされた射影は、非単調1ビット量子化器を用いて量子化され、信号を表すビットのベクトルが形成される。信号間の距離は、ビットの2つのベクトルのハミング距離を計算することによって、ビットの対応するベクトルから近似的に計算することができる。計算は、スケーリングによって決まる特定の距離までは概ね正しいが、それを超えると正しくない。
本発明の実施の形態による符号化方法によって用いられる量子化された埋め込みはペアワイズ距離を保持し、それによってデータ又は信号は比較することができる。1つの用途ではデータは画像を表す。最近傍を特定することに対する特定の用途の問題では、符号化によって小さな距離しか保持する必要がない。この場合、汎用量子化埋込みは、量子化されたジョンソン−リンデンシュトラウス(J−L)埋込みよりも性能が優れている。これは、J−L埋込みでは距離の保持が不均一であることに起因する。
特に、汎用埋込みは或る既知の距離まで距離を正確に保持するが、それを超えると正確に保持しない。量子化されたJ−L埋込みは全ての距離を同等に保持するが、それほど正確ではない。
本発明の実施形態による、信号を符号化する方法の流れ図である。 本発明による、埋込みを用いた画像取出し用途の流れ図である。 低次元空間への高次元データの従来の埋め込みの概略図である。 従来のジョンソン−リンデンシュトラウス埋込みと汎用スカラー埋込みとを比較するグラフである。 従来の非単調量子化関数の概略図である。 図5の量子化関数によって生成される従来の埋込みマップ及び界の概略図である。 従来の埋め込みを、低ビットレートの場合の小さなスケーリング係数及び大きなスケーリング係数について比較する概略図である。 従来の埋め込みを、高ビットレートの場合の小さなスケーリング係数及び大きなスケーリング係数について比較する概略図である。
図1は、本発明の実施形態による、信号を符号化する方法を示している。本方法は、信号空間S702において入力信号x701を受信する。入力信号はランダムに射影され(710)、射影信号711が生成される。射影信号はディザリングされ(720)、ディザー信号721が生成される。ディザリングされた信号はスケーリング及び量子化され(730)、埋込み空間W732内に埋込み信号731が生成される。量子化器はスカラー及び非単調である。多くの場合に、信号空間の次元は埋込み空間の次元よりも大幅に小さい。
ディザリング、射影、スケーリング、及び量子化のプロセスは、入力信号と別の同様に埋め込まれた入力信号との間の距離を、その距離が所定のしきい値距離未満である限り保持する。本方法は、当該技術分野において既知のメモリ及び入出力インターフェースに接続されたプロセッサ700において実行することができる。
本方法及び符号化の誤り特性は、一般的な方法について以下でより詳細にされ、本方法の使用法は、例示的な画像取出し用途において説明される。
距離埋め込みの誤り解析
本発明による埋込みの曖昧性を理解するために、ほとんどの埋込みによって提供される距離保証の一般的な形態を考える。詳細には、埋込みf:S→W、並びに信号空間における距離メトリックd(・,・)及び埋込み空間における距離メトリックd(・,・)を考える。入力信号x及びyの埋め込みは、全てのεについて埋込みが以下を満たす場合、(g,ε,τ)埋込みである。
Figure 0006041789
ここで、
Figure 0006041789
は信号空間S内の距離と、埋込み空間W内の距離とをマッピングする可逆関数であり、εはマッピングの乗法曖昧性を量子化し、τはマッピングの加法曖昧性を量子化する。
距離計算中の埋込みの性能を理解するのに、埋め込みが距離をどれだけ良好に表すかを解析したい。
主な問いは以下のとおりである。埋込み空間W内の2つの埋込み信号間の距離dを所与として、信号空間S内の信号間の対応する距離に関してどれだけ確信があるか。
関数g(・)は距離がどのようにマッピングされるかを表し、信号空間における距離dを近似的に求めるように反転することができる。
定数ε及びτは反対方向における曖昧性、すなわち、信号空間における距離を所与とした埋込み空間における曖昧性を表す。
図7の埋込みを例として用いると、式(5)はプロットの垂直なスライスを取得して曲線の厚みを特徴化する。一方、ここで本発明では、代わりに水平スライスを取得することによって明らかとなる厚みを関心対象とする。
所望の曖昧性を表すために、埋込み保証を以下のように再定式化することができる。
Figure 0006041789
この式は、小さなε及びτの場合に、1/1(±ε)のテイラー展開を用いて近似することができる:
Figure 0006041789

Figure 0006041789
よりも概ね
Figure 0006041789
小さい。
g(・)は微分可能であると仮定すると、d(f(x),f(y))のまわりのg−1(・)のテイラー展開及び(g−1)’(x)=1/g’(g−1(x))であることを用いて上記の不等式を近似することができる。
τ・εを伴う二次項を無視して、信号距離推定値
Figure 0006041789
を定義すると、以下が得られる。
Figure 0006041789

Figure 0006041789
よりも概ね小さい。
換言すれば、埋込み空間内の2つの信号間の距離dを所与とし、
Figure 0006041789
を用いて信号空間内の距離推定値を表すと、曖昧性は
Figure 0006041789
よりも小さい。
このため、曖昧性は、ε又はτを減少させること又はマッピングの傾きを増大させることによって減少する。
量子化されたジョンソン−リンデンシュトラウス(J−L)埋込み
量子化されたJ−L埋込みでは、g(d)=dであり、1までの一定の傾き(constant slope of to 1)を有する。このため、式(9)における分母は一定である。曖昧性を低減するには、分子を可能な限り低減するべきである。これにはεの大きさとτの大きさとの間のトレードオフが必要となる。値εは射影の次元Kによって制御される一方、値τは次元Bごとのレートによって制御される。Kが増大するとεは減少する。同様に、Bが増大するとτは減少する。
上記で説明したように、埋込みの総レートはR=KBである。所与のレートを最も良好に用いるには、次元ごとのより多くのビットにおけるより低い射影次元と、次元ごとのより少ないビットにおけるより高い射影次元との間のトレードオフとなる。
例示的な画像取出し用途の場合、最良の性能はそれぞれ、次元あたりB=3ビット又はB=4ビット、及びK=R/3次元又はK=R/4次元を用いて達成される。2つの値を用いた性能は視覚的に区別不可能であるが、その一方で、B=1、R=Kを用いる従来技術の1ビット手法よりも大幅に優れている。
汎用埋込み
汎用埋込みでは、信号モデルにおけるいかなる情報も量子化器を設計するのに用いられない。これは、J−L埋込み及び圧縮検知(CS)等のランダム化されたサンプリング方法の大きな利点である。量子化されたJ−L埋込みと対照的に、汎用埋込みは埋込み次元あたり1ビットを用いる。このため、レートRによって、式(2)における埋込み保証の定数τのみでなく、射影の次元K=Rも決まる。
さらに、保証において乗算項が存在しない。すなわち、ε=0である。このため、式(9)の曖昧性解析において、分子は完全に決定される。すなわち、システム設計者は分母のみを制御することができる。しかしながら、これは設計選択肢及びトレードオフがないことを意味しない。そうではなく、これらの埋込みにおけるトレードオフは式(1)におけるスケーリングパラメーターΔの選択にある。
上記で説明し、図6に示したように、g(・)は最初に概ね線形に増大し、高速な平坦化が続き、その後概ね平坦な領域が続く。スケーリング係数Δの選択によって線形領域の傾きが制御され、したがって関数がどれだけ早く平坦領域に達するかが制御される。
上記で説明したように、式(4)における線形界は、g(・)の増大する線形領域の非常に良好な近似であり、傾き
Figure 0006041789
を有する。スケーリング係数Δを減少させることによって、そのスロープを任意に高くすることができ、それに応じて曖昧性
Figure 0006041789
が減少する。しかしながら、この線形領域は全てのdについて延在するのではなく、dがしきい値距離d=Dに達し、g(d)の平坦領域が始まるまでしか延在しない。ここで、g(D)≒1/2である。
スケーリング係数Δが小さくなり、線形領域の傾きが増大すると、概ね
Figure 0006041789
であるとき、すなわち
Figure 0006041789
であるとき、はるかに高速に平坦領域に達するようになる。
不都合なことに、その線形領域を超えると、傾きg’(d)は指数関数的に高速に0になる。これは、式(9)における曖昧性が無限大に近づくことを暗に意味する。このため、埋込み距離dが0.5±τ内にある場合、dがしきい値距離Dよりも概ね大きいこと以外に、マッピングを反転することによってdに関して何かを知ることは不可能である。これは、スケーリング係数Δを明確に(clear)設計する際のトレードオフとなる。Δが小さいと、保持される距離の範囲における曖昧性が低減するが、保持される距離の範囲も低減する。したがって、スケーリング係数Δは、意図される用途、例えば画像取出しに十分な埋込みにおける距離を保持するように設計する必要がある。
例示的な画像取出し用途は、クライアントによって提供されるクエリ画像を、サーバーにおけるデータベースに記憶されている最近傍画像と比較する。クエリ画像が処理されると、クエリ画像の埋込みに用いられるのと同じパラメーターを用いて埋め込まれたデータベース内の全ての画像に関して埋込み距離が求められる。
クエリが成功するには、データベース内にクエリ画像からの小さな埋込み距離を有するエントリが少なくとも少数存在するべきである。これらのエントリは選択されクライアントに返される。クエリが有用な結果を生成するには、これらのエントリの埋込み距離はクエリ信号とデータベース内のエントリからの信号との間の信号距離を正確に表すべきである。
さらに、信号が全てクエリから遠くの距離にある場合、埋込み距離はそのことを正確に反映するべきであり、このためエントリは選択されない。この場合、埋め込みはデータベース内の各エントリの距離を表す必要がない。換言すれば、埋め込みは、所定のしきい値距離Dまでの距離を表せばよく、Dよりも大きな距離は特定のみすればよく、これらの距離を表す必要はない。
このため、線形領域において距離を表す曖昧性が小さくなるように、スケーリングΔを可能な限り小さくなるように選択するが、対象となる全ての距離が埋込みの線形領域内にとどまり、曖昧性が比較的大きくなる平坦領域にはとどまらないこと、すなわち距離が所定のしきい値距離未満であることを確実にするように、必要であるよりも小さくしない。
汎用埋込みを用いた画像取出し
図2に示すように、図1に示すような方法811は以下のように画像取出し用途において用いることができる。クライアント810のユーザーは、クエリ画像801内のオブジェクトに関する情報を取り出すことを所望する。画像に関する埋込み情報815は、既知のオブジェクトの画像のデータベース825に接続されたサーバー820に提供される。各画像はオブジェクトのメタデータ826と関連付けられる。サーバーは埋め込み情報をデータベース内の画像に関する類似した情報と比較し(821)、所定の距離判定基準を用いてクエリ画像内のオブジェクトと最も一致する画像を判断し、そのオブジェクトの関連メタデータ830をクライアントに提供する。本明細書において説明されるように、これらのタスクは、クエリ画像及びデータベース画像から抽出された特徴の埋込みを求めることによって効率的に達成することができる。また、画像取出しについて説明しているが、本発明の同様の実施形態は、中でもビデオ、オーディオ又は発話等の他の種類の信号を取り出すのに用いることができる。
データベース準備
汎用埋込みの場合、サーバーは埋込みの仕様に従って埋込みパラメーター、例えばランダム行列A、ディザーベクトルw及びスケーリング係数Δを生成する。データベースを構築するのに、サーバーはS個の既知のオブジェクトの1組の画像I,...,Iを取得する。オブジェクトごとに、サーバーは特定用途向けのメタデータD(s∈{1,...,S})を得るか又は生成する。
次に、サーバーは、例えば各画像Iにスケール普遍特徴変換(SIFT)を適用することによって、各画像から1組の特徴ベクトルを抽出する。各画像から得られる特徴数は、シーンコンテンツ、照明、及び画像を取得したセンサーの解像度等のパラメーターに依拠する。
全てのオブジェクトの全ての画像から抽出される特徴ベクトルの数はLであり、y(ここで、l=1,...,L)は各特徴ベクトルを表し、通常L>>Sである。L個の特徴ベクトルを用いて、サーバーはデータベース{f(y),...,f(y)}を求める。ここで、各f(y)はyのRビット量子化された埋込みである。サーバーはルックアップテーブルΛ、例えばλ(l)⊂{1,...,S}(l=1,...,L)も生成し、ここで各λ(l)は、特徴ベクトルf(y)又は等価にはyが抽出されたオブジェクトをインデックス付けする。
クライアントクエリ
クライアントが、例えば一時的なソフトウェア更新からサーバーによって用いられるか又はクライアントにおいてソフトウェアインストールの一部として含まれる埋込みパラメーターにアクセスを有することが仮定される。
クライアントがクエリ画像を取得した後、クライアントは1組の特徴{x,...,x}を生成し、ここでxは画像内のm番目の特徴に対応する記述子である。これらのM個の特徴及び埋込みパラメーターを用いて、クライアントは対応する埋込み{f(x),...,f(x)}825を求めてサーバーに送信する。
最近傍探索及びメタデータ取出し
サーバーはクライアントから{f(x),...,f(x)}を受信する。特徴ベクトルf(x)ごとに、サーバーは、サーバーデータベースにおける、すなわち特徴{f(y),...,f(y)}の中の最近傍を求める。結果は埋込みf(x)ごとに1対のM個の最近傍対である。M個の対から、サーバーは埋込み距離の観点から最近傍のJ個の対{f(x(j)),f(y(j))}(j=1,2,...,J)を選択する。例えばJ=20である。
J個の対のそれぞれについて、サーバーはルックアップテーブルΛを用いて、特徴ベクトルy(j)が抽出されたオブジェクトのインデックスを求める。インデックスはα∈{1,...,s}に記憶される。αの中で最も一般的なオブジェクトS、すなわちJ個の最も一致する特徴の中の最大数の最近傍一致を有するオブジェクトがクエリへの応答として選択され、関連するメタデータ830がクライアント810に提供される。
発明の効果
本発明の実施の形態による符号化方法によって用いられる量子化された埋め込みはペアワイズ距離を保持し、それによってデータ又は信号は比較することができる。1つの用途ではデータは画像を表す。最近傍を特定することに対する特定の用途の問題では、符号化によって小さな距離しか保持する必要がない。この場合、汎用量子化埋込みは、量子化されたジョンソン−リンデンシュトラウス(J−L)埋込みよりも性能が優れている。これは、J−L埋込みでは距離の保持が不均一であることに起因する。
特に、汎用埋込みは或る既知の距離まで距離を正確に保持するが、それを超えると正確に保持しない。量子化されたJ−L埋込みは全ての距離を同等に保持するが、それほど正確ではない。

Claims (14)

  1. 入力信号を符号化する方法であって、
    前記入力信号をランダムに射影するステップであって、それにより射影信号を生成するステップと、
    前記射影信号をディザリングするステップであって、それによりディザリングされた信号を生成するステップと、
    前記ディザリングされた信号をスケーリングするステップであって、それによりスケーリングされた信号を生成するステップと、
    非単調スカラー量子化器を用いて前記スケーリングされた信号を量子化するステップであって、それにより埋込み信号を生成するステップと、を含み、前記ディザリング、前記射影及び前記量子化のパラメーターは、前記入力信号と別の同様に埋め込まれた入力信号との間の距離を、該距離が所定のしきい値距離未満である限り保持し、前記ステップはプロセッサにおいて実行される、入力信号を符号化する方法。
  2. 前記入力信号は、画像、ビデオ、オーディオ、発話及びそれらの組合せからなる群から選択される、請求項1に記載の方法。
  3. 前記入力信号は、画像、ビデオ、オーディオ信号、発話信号及びそれらの組合せから抽出された特徴からなる群から選択される、請求項1に記載の方法。
  4. 前記埋込み信号は前記入力信号よりも少ないビットを用いる、請求項1に記載の方法。
  5. 2つの入力信号間の前記距離は、対応する埋込み信号間のハミング距離を用いて求められる、請求項1に記載の方法。
  6. 前記スケーリングは前記信号の全ての係数について同一のスケーリング係数を用いる、請求項1に記載の方法。
  7. 前記スケーリングは前記信号の係数ごとに異なるスケーリング係数を用いる、請求項1に記載の方法。
  8. 請求項1に記載の方法であって、前記埋込み信号はクエリベクトルを形成し、該方法は、
    クライアントからサーバーに前記クエリベクトルを送信するステップと、
    クエリ信号を用いて、前記サーバー上のデータベースを類似した信号を求めて探索するステップと、
    関連データを前記サーバーから前記クライアントに返すステップと、
    を更に含む、請求項1に記載の方法。
  9. 前記関連データは前記信号のメタデータである、請求項8に記載の方法。
  10. 前記関連データは前記信号に類似した他の信号である、請求項8に記載の方法。
  11. 前記データベースは1組の埋込み信号を含む、請求項8に記載の方法。
  12. 前記探索するステップは最近傍探索を用いて行われる、請求項8に記載の方法。
  13. 前記類似した信号のクラスを用いるステップであって、それにより前記クエリ信号のクラスを求めるステップをさらに含む、請求項8に記載の方法。
  14. 前記用いるステップは、
    前記類似した信号の前記クラスを検査するステップと、
    前記クエリ信号の前記クラスを、選択された信号の前記クラスにおいて最も多く生じるクラスとして決定するステップと、
    を含む、請求項13に記載の方法。
JP2013241500A 2013-01-03 2013-11-22 入力信号を符号化する方法 Active JP6041789B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/733,517 2013-01-03
US13/733,517 US8768075B2 (en) 2011-11-08 2013-01-03 Method for coding signals with universal quantized embeddings

Publications (2)

Publication Number Publication Date
JP2014132439A JP2014132439A (ja) 2014-07-17
JP6041789B2 true JP6041789B2 (ja) 2016-12-14

Family

ID=51411484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013241500A Active JP6041789B2 (ja) 2013-01-03 2013-11-22 入力信号を符号化する方法

Country Status (1)

Country Link
JP (1) JP6041789B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9337815B1 (en) * 2015-03-10 2016-05-10 Mitsubishi Electric Research Laboratories, Inc. Method for comparing signals using operator invariant embeddings
US9818336B2 (en) * 2016-03-22 2017-11-14 Snaptrack Inc. Vector dithering for displays employing subfields having unevenly spaced gray scale values
CN113168839B (zh) * 2018-12-13 2024-01-23 杜比实验室特许公司 双端媒体智能

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8631053B2 (en) * 2009-08-31 2014-01-14 Mitsubishi Electric Research Laboratories, Inc. Method for securely determining Manhattan distances
US8891878B2 (en) * 2012-06-15 2014-11-18 Mitsubishi Electric Research Laboratories, Inc. Method for representing images using quantized embeddings of scale-invariant image features
US8837727B2 (en) * 2011-11-08 2014-09-16 Mitsubishi Electric Research Laboratories, Inc. Method for privacy preserving hashing of signals with binary embeddings

Also Published As

Publication number Publication date
JP2014132439A (ja) 2014-07-17

Similar Documents

Publication Publication Date Title
JP6599294B2 (ja) 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム
Wang et al. Exploring DCT coefficient quantization effects for local tampering detection
JP5911578B2 (ja) 画像の特徴点位置情報を符号化する方法、コンピュータプログラム、モバイルデバイス
JP5950864B2 (ja) スケール不変の画像特徴の量子化された埋込みを用いて画像を表現する方法
US8768075B2 (en) Method for coding signals with universal quantized embeddings
Boufounos et al. Efficient Coding of Signal Distances Using Universal Quantized Embeddings.
Zhang et al. A joint compression scheme of video feature descriptors and visual content
WO2023051783A1 (zh) 一种编码方法、解码方法、装置、设备及可读存储介质
JP2020191077A (ja) 画像コーディング方法及び装置並びに画像デコーディング方法及び装置
WO2015135493A1 (zh) 一种局部特征描述子压缩方法、装置及存储介质
US20100114871A1 (en) Distance Quantization in Computing Distance in High Dimensional Space
WO2021081913A1 (zh) 向量查询方法、装置、电子设备及存储介质
JP6041789B2 (ja) 入力信号を符号化する方法
Hou et al. Sparse representation for colors of 3D point cloud via virtual adaptive sampling
Vázquez et al. Using normalized compression distance for image similarity measurement: an experimental study
Li et al. Compact video fingerprinting via structural graphical models
JP5634075B2 (ja) 画像のシーケンスを処理する方法および装置、画像データを処理する装置、ならびにコンピュータプログラム製品
Vedaldi et al. Joint data alignment up to (lossy) transformations
Lv et al. Compressed binary image hashes based on semisupervised spectral embedding
Chen et al. Efficient video hashing based on low‐rank frames
Nie et al. Robust video hashing based on representative-dispersive frames
Laimeche et al. A new feature extraction scheme in wavelet transform for stego image classification
Rane et al. Quantized embeddings: An efficient and universal nearest neighbor method for cloud-based image retrieval
CN111601181B (zh) 生成视频指纹数据的方法及装置
CN111611450A (zh) 跨媒介数据融合方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160711

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160711

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161108

R150 Certificate of patent or registration of utility model

Ref document number: 6041789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250