JP6041789B2

JP6041789B2 - 入力信号を符号化する方法

Info

Publication number: JP6041789B2
Application number: JP2013241500A
Authority: JP
Inventors: ペトロス・ティー・ボウフォウノス; シャンタヌ・ラーネ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-01-03
Filing date: 2013-11-22
Publication date: 2016-12-14
Anticipated expiration: 2033-11-22
Also published as: JP2014132439A

Description

本発明は、包括的にはデータを符号化することに関し、より詳細には、データ間のペアワイズ距離を保持するように、汎用量子化埋込みを用いてデータを符号化することに関する。

信号比較及び最近傍方法
信号比較は、信号処理における最も重要で普及したタスクのうちの１つである。多数の用途は基本的に以下の２つの質問、すなわち、（１）信号をどのように比較するべきか？（２）１組の信号及びクエリ信号を所与として、いずれの信号がクエリ信号の最近傍であるか、すなわち、データベース内のいずれの他の信号がクエリ信号に最も類似しているか？に対する回答を求めることに依拠する。

信号比較は、最近傍（ＮＮ）探索問題の基本構成要素であり、以下のように定義される。信号及びクエリ信号を含む集合（多くの場合にデータベースと呼ばれる）を所与として、データベース内でクエリ信号に最も近い点を見つける。この問題は、Ｋ−ＮＮ、すなわち、クエリ信号のＫ個の最近傍を求めることに拡張することができる。この文脈において、当の信号は、画像、ビデオ、画像若しくはビデオから抽出された特徴、又は他の波形とすることができる。「最も近い」という修飾語は、信号の対間のユークリッド距離又はマンハッタン距離等の距離メトリックを指す。この距離メトリックは、比較されている信号間の類似度の何らかの概念をとらえる。２つの信号がこの信号メトリックに従って近接している場合、これは、これらの信号が類似してもいることを意味する。

画像の取出し
通常の画像取出し用途では、クエリ画像（データ又は信号の形態）がクライアントによって未知のオブジェクト又はシーンから取得される。クエリ画像は、サーバーにあるデータベース内に記憶された既知のオブジェクト又はシーンのデータベース内の画像と比較され、類似した画像が判定される。上記で説明したように、類似度は未知のデータにおける特徴と既知のデータにおける特徴との間の距離として表すことができる。そのような用途の性能は、距離を効率的に符号化することによって大幅に改善することができる。探索は迅速で計算効率を良くするべきである一方、送信は帯域幅効率を良くするべきである。

スケール普遍の特徴変換（ＳＩＦＴ：ｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ）、高速化ロバスト特徴（ＳＵＲＦ：ｓｐｅｅｄｅｄｕｐｒｏｂｕｓｔｆｅａｔｕｒｅ）、及び（画像の）ＧＩＳＴ、及び関連技術を用いる画像記述子は、ビットレートが問題とならないとき、大域的な画像特徴又は局所的な画像の詳細を用いた高速な探索を可能にする。通信複雑度に対処するのに、いくつかのトレーニングベースの方法が既知である。しかしながら、これらの全ての方法は、新たなデータベースエントリが追加される度に再トレーニングすることを必要とし、信号統計に変化を引き起こす。

拡張現実（ＡＲ：ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）用途では、再トレーニングは望ましくない。サーバーにおけるトレーニングの複雑性に加えて、繰り返し再トレーニングすることは、再トレーニングされたパラメーターを用いてクライアントを更新することを必要とする。このため、トレーニングを必要としない方法が好ましい。これらは、圧縮勾配ヒストグラム（ＣＨｏＧ：ｃｏｍｐｒｅｓｓｅｄｈｉｓｔｏｇｒａｍｏｆｇｒａｄｉｅｎｔｓ）を含む。ここでは、記述子はベクトル量子化及びコンパクト射影（ｃｏｍｐａｃｔｐｒｏｊｅｃｔｉｏｎ）を用いて圧縮されるように明示的に設計される。これは確立された記述子に対する局所性鋭敏型ハッシュ（ＬＳＨ：ｌｏｃａｌｉｔｙｓｅｎｓｉｔｉｖｅｈａｓｈｉｎｇ）を用いる。

レート歪み
コーディング理論が関与する１つの態様は、データの符号化に関するレート歪み（Ｒ−Ｄ）を最適化すること、すなわち、データにおいて被る歪みを最小にしながら、データを符号化するのに最小数のビットを用いることに取り組む。本明細書において用いられるとき、データ及び信号は交換可能に用いることができる。

例えば、画像又はビデオの符号化の間、符号化器は復号化後の所与の視覚品質のためにレートを低減するよう試みる。通常、Ｒ−Ｄはデータのエンドユーザー、例えば視聴者によって確定される。

ランダム化された埋込み
埋込みは高次元データ（又は信号）をより低次元に変換し、データの相対的ジオメトリの或る態様、例えばデータの類似度の観点では距離が保持されるようにする。ジオメトリが保持されるので、距離計算は元の高次元データではなく低次元データ、多くの場合、低レートのデータ埋込みに対し直接実行することができる。

図３は、例示的な高次元Ｌのデータ点ｕ，ｖ及び低次元対数Ｌにおいて距離ｄを保持する距離保持埋込み関数ｇ（ｄ（ｕ，ｖ））を示している。ここで、「＾」は近似を示す。利点として、埋込みはより低い送信レートを用いることができる。

よく知られたジョンソン−リンデンシュトラウスの補題によれば、点間の距離が近似的に保持されるように、高次元データ点の小さな集合を低次元ユークリッド空間に埋め込むことができる。例えば、Ｊｏｈｎｓｏｎ他「ＥｘｔｅｎｓｉｏｎｓｏｆＬｉｐｓｃｈｉｔｚｍａｐｐｉｎｇｓｉｎｔｏａＨｉｌｂｅｒｔｓｐａｃｅ」（ＣｏｎｆｅｒｅｎｃｅｉｎＭｏｄｅｒｎＡｎａｌｙｓｉｓａｎｄＰｒｏｂａｂｉｌｉｔｙ，ＣｏｎｔｅｍｐｏｒａｒｙＭａｔｈｅｍａｔｉｃｓ，ＡｍｅｒｉｃａｎＭａｔｈｅｍａｔｉｃａｌＳｏｃｉｅｔｙ，ｐｐ．１８９−２０６，１９８２）を参照されたい。

図４に示すように、ジョンソン−リンデンシュトラウス（Ｊ−Ｌ）埋込みの場合、関数は線形増加である（ｉｎｃｒｅａｓｉｎｇｌｙｌｉｎｅａｒ）。汎用量子化埋込みの場合、関数は最初、比較的小さい距離について概ね線形であり、その後、しきい値距離Ｄ_０を超える距離について急速に平坦化する。

よく知られた埋込みはＪ−Ｌ埋込みを含み、すなわち、信号の有限集合

からＫ次元ベクトル空間まで

であり、Ｓ内の２つの信号ｘ及びｙを所与とすると、それらの画像は以下を満たすようになっている。

換言すれば、埋込みは小さな誤差許容範囲ε内で点クラウドのユークリッド距離ｌ_２を保持する。

ジョンソン及びリンデンシュトラウスは、上記で説明した距離が次元

の空間内に存在することを実証した。ここで、ＬはＳ内の信号数、すなわちその濃度であり、εは埋込み内の所望の許容範囲である。顕著なことに、Ｋは信号の集合の次元Ｎと独立している。

線形マッピングを用いてそのような埋込みを求めることは簡単である。特に、関数ｆ（ｘ）＝Ａｘ（ここでＡは、そのエントリが特定の分布からランダムに引き出されるＫ×Ｎの行列である）は、圧倒的な確率を有するＪ−Ｌ埋込みである。一般的に用いられる分布には、独立同一分布（ｉ．ｉ．ｄ．）、ガウス、ｉ．ｉ．ｄ．ラーデマッヘル、又は一様ｉ．ｉ．ｄ．が含まれる。

通常、Ｊ−Ｌ埋込みの結果として、次元が大幅に低減する。しかしながら、次元の低減によってすぐにレート低減が生じるわけではない。まず、送信に向けて埋込みが量子化されなくてはならず、量子化が良好に設計されていない場合、埋込みの精度が下がる。

特に、量子化されたＪ−Ｌ埋込みは以下を満たす。

ここで、τ∝２^−Ｂは量子化器ステップサイズであり、次元Ｂごとに用いられるビット数とともに指数関数的に減少する一方、εは射影の次元であるＫの関数であり、近似的に

としてスケーリングする。１ビット量子化の極端な場合には、埋め込みは信号の振幅、したがってｌ_２距離を保持しないが、それらの角度、すなわちそれらの相関係数は保持する。

量子化された埋込みを設計するとき、総レートは射影の次元、及び次元ごとに用いられるビット数によって求められ、すなわちＲ＝ＫＢである。固定レートＲにおいて、次元Ｋが増大すると、εにおいて反映されるような量子化前の埋め込み精度は増大する。レートを固定したままにしておくには、次元ごとのビット数も減少させるべきであり、これによって量子化に起因して精度が減少し、τに反映される。一定のレートでは、マルチビット量子化器は１ビット量子化器よりも性能が優れている。

汎用量子化及び埋込み
汎用スカラー量子化は、スカラー量子化を変更し、量子化器が不連続の量子化領域を有するように設計する。この手法もジョンソン−リンデンシュトラウス型の射影、それに続くスケーリング、ディザリング、及びスカラー量子化

に依拠する。ここで、ＡはＮ（ｏのσ^２分散のｉ．ｉ．ｄ．要素を有するランダム行列であり、Δ^−１は要素ごとの（逆）スケーリング係数であり、ｗは［０，Δ］において一様分布したｉ．ｉ．ｄ．要素を有するディザーベクトルであり、Ｑ（・）はその入力に対し要素ごとに作用するスカラー量子化器である。その方法における画期的特徴は変更されたスカラー量子化器である。

図５に示すように、本方法は変更されたスカラー量子化器を用いる。このスカラー量子化器は、不連続の量子化間隔を有するように設計された１ビット量子化器である。量子化器は、信号のマルチビット表現を求め、表現の最下位ビット（ＬＳＢ）のみを保持する通常の一様量子化器とみなすことができる。このため、任意の整数ｌについて、［２ｌ，２ｌ＋１）におけるスカラー値は１に量子化され、［２ｌ＋１，２（ｌ＋１））におけるスカラー値は０に量子化される。Ｑ（・）は１ビット量子化器であるので、その方法は行と同じ数のビット、すなわちＫ個のビットを用いて符号化を行う。

図６に示すように、変更された量子化器は信号の効率的で汎用性のある符号化を可能にする。さらに、その量子化法は、以下を満たす埋込みでもある。

ここで、ｄ_Ｈ（・，・）は埋込み信号のハミング距離であり、ｇ（ｄ）はマップ

であり、以下の界を用いて有界にすることができる。

マップは小さなｄについて近似的に線形であり、距離しきい値Ｄ_０を上回る大きなｄについて指数関数的に高速に定数１／２になる。線形部分の傾き及び距離しきい値Ｄ_０は埋込みパラメーターΔ及びＡによって求められる。換言すれば、埋込みによって、ｌ_２距離がＤ_０よりも小さい限り、埋め込み信号のハミング距離が信号のｌ_２距離に概ね比例することが確実となる。

ｄ＝Ｄ_０まで傾き

を有し、その後ゼロに等しい傾きを有する区分線形関数は、上界であることに加えて、（３）の非常に良好な近似である。

（２）における加法曖昧性τは、Ｊ−Ｌ埋込みにおける乗法（１±ε）因子における定数εと同様に

としてスケーリングする。しかしながら、汎用埋込みは、Ｒ＝Ｋの総レートについて、次元ごとに１ビットを用いることに留意すべきである。量子化されたＪ−Ｌ埋込みが呈する一定のレートＲの下でのＢとＫとの間のトレードオフは、１ビットの汎用埋込みの下では存在しない。それでも、（１）におけるΔの選択によって制御される性能トレードオフが存在する。

図７及び図８は、より小さなスケーリング係数Δの場合（５０１）及びより大きなスケーリング係数Δの場合（５０２）について、かつより高いビットレートの場合（図７）及びより低いビットレートの場合（図８）について埋込みがどのように機能するかを実験的に示し、それに対する洞察を提供している。図面は、埋込みハミング距離をランダムに生成された信号対の信号距離の関数としてプロットしている。曲線の厚みはτによって量子化されるのに対し、右上がり部分の傾きはΔによって量子化される。

関連米国特許出願第１２／８６１，９２３号「ＭｅｔｈｏｄｆｏｒＨｉｅｒａｒｃｈｉｃａｌＳｉｇｎａｌＱｕａｎｔｉｚａｔｉｏｎａｎｄＨａｓｈｉｎｇ」では、本発明者らは、信号、特に画像を階層的に符号化する方法を記載した。信号とハッシングベクトルとの内積を形成し、その内積にディザースカラーを加算した。結果は、階層的に変化する感度パラメーターに従う非単調量子化関数を用いて量子化された。

関連米国特許出願第１３／２９１，３８４号「ＭｅｔｈｏｄｆｏｒＰｒｉｖａｃｙＰｒｅｓｅｒｖｉｎｇＨａｓｈｉｎｇｏｆＳｉｇｎａｌｓｗｉｔｈＢｉｎａｒｙＥｍｂｅｄｄｉｎｇｓ」では、本発明者らはまた、信号のランダム射影をディザリング及びスケーリングし、非単調スカラー量子化器を用いてハッシュを形成することによって信号を符号化した。その特許出願では、基礎をなす信号のプライバシーは、スケーリングパラメーター、ディザリングパラメーター、及び射影パラメーターを秘密にしておくことによって保護された。

関連米国特許出願第１３／５２５，２２２号「ＭｅｔｈｏｄｆｏｒＲｅｐｒｅｓｅｎｔｉｎｇＩｍａｇｅｓＵｓｉｎｇＱｕａｎｔｉｚｅｄＥｍｂｅｄｄｉｎｇｓｏｆＳｃａｌｅ−ＩｎｖａｒｉａｎｔＩｍａｇｅＦｅａｔｕｒｅｓ」では、画像からスケール不変の特徴を抽出することによって、信号、特に画像を符号化した。特徴は、それらの特徴にランダムエントリの行列を乗算することによって、より低次元のランダム射影行列に射影された。ランダム射影の行列は量子化され、量子化インデックスの行列が生成される。この行列は画像のデータベースを探索して画像に関連するメタデータを取り出すようにクエリベクトルを形成する。

従来の符号化では、歪みを可能な限り最も低くするように、最も少ないビット数を用いてデータ（又は信号）をどのように最良に符号化するかに焦点を当てている。一方、信号のエンドユーザーは、サーバー又は何らかの他のデバイスであり得る。その場合、目標は異なる。符号化は、データを符号化後に完全に復元することができない場合であっても、サーバーがデータから抽出することを望む情報を破壊しないように実行しなくてはならない。これらの場合には、符号化データから特定の情報を抽出することのみが所望される。このため、歪みは符号化データから抽出される任意の情報に対して測定されるべきである。

したがって、本発明の実施の形態は、データ間のペアワイズ距離を保持するように、汎用量子化埋込みを用いてデータを符号化する方法を提供する。詳細には、本方法は、データが画像を表す画像取出し用途において用いることができる。本方法はランダム化された埋込みを用いる。

画像取出し用途では、汎用埋込みは従来技術と比較して最大２５％のレート低減を達成することができる。

より詳細には、本発明は、ランダム射影を実行し、その後全ての値について固定のスケーリングを用いてディザリング及びスケーリングを行うことによって、データ間の距離を符号化する。結果として得られるディザリングされた射影及びスケーリングされた射影は、非単調１ビット量子化器を用いて量子化され、信号を表すビットのベクトルが形成される。信号間の距離は、ビットの２つのベクトルのハミング距離を計算することによって、ビットの対応するベクトルから近似的に計算することができる。計算は、スケーリングによって決まる特定の距離までは概ね正しいが、それを超えると正しくない。

本発明の実施の形態による符号化方法によって用いられる量子化された埋め込みはペアワイズ距離を保持し、それによってデータ又は信号は比較することができる。１つの用途ではデータは画像を表す。最近傍を特定することに対する特定の用途の問題では、符号化によって小さな距離しか保持する必要がない。この場合、汎用量子化埋込みは、量子化されたジョンソン−リンデンシュトラウス（Ｊ−Ｌ）埋込みよりも性能が優れている。これは、Ｊ−Ｌ埋込みでは距離の保持が不均一であることに起因する。

特に、汎用埋込みは或る既知の距離まで距離を正確に保持するが、それを超えると正確に保持しない。量子化されたＪ−Ｌ埋込みは全ての距離を同等に保持するが、それほど正確ではない。

本発明の実施形態による、信号を符号化する方法の流れ図である。本発明による、埋込みを用いた画像取出し用途の流れ図である。低次元空間への高次元データの従来の埋め込みの概略図である。従来のジョンソン−リンデンシュトラウス埋込みと汎用スカラー埋込みとを比較するグラフである。従来の非単調量子化関数の概略図である。図５の量子化関数によって生成される従来の埋込みマップ及び界の概略図である。従来の埋め込みを、低ビットレートの場合の小さなスケーリング係数及び大きなスケーリング係数について比較する概略図である。従来の埋め込みを、高ビットレートの場合の小さなスケーリング係数及び大きなスケーリング係数について比較する概略図である。

図１は、本発明の実施形態による、信号を符号化する方法を示している。本方法は、信号空間Ｓ７０２において入力信号ｘ７０１を受信する。入力信号はランダムに射影され（７１０）、射影信号７１１が生成される。射影信号はディザリングされ（７２０）、ディザー信号７２１が生成される。ディザリングされた信号はスケーリング及び量子化され（７３０）、埋込み空間Ｗ７３２内に埋込み信号７３１が生成される。量子化器はスカラー及び非単調である。多くの場合に、信号空間の次元は埋込み空間の次元よりも大幅に小さい。

ディザリング、射影、スケーリング、及び量子化のプロセスは、入力信号と別の同様に埋め込まれた入力信号との間の距離を、その距離が所定のしきい値距離未満である限り保持する。本方法は、当該技術分野において既知のメモリ及び入出力インターフェースに接続されたプロセッサ７００において実行することができる。

本方法及び符号化の誤り特性は、一般的な方法について以下でより詳細にされ、本方法の使用法は、例示的な画像取出し用途において説明される。

距離埋め込みの誤り解析
本発明による埋込みの曖昧性を理解するために、ほとんどの埋込みによって提供される距離保証の一般的な形態を考える。詳細には、埋込みｆ：Ｓ→Ｗ、並びに信号空間における距離メトリックｄ_Ｓ（・，・）及び埋込み空間における距離メトリックｄ_Ｗ（・，・）を考える。入力信号ｘ及びｙの埋め込みは、全てのεについて埋込みが以下を満たす場合、（ｇ，ε，τ）埋込みである。

ここで、

は信号空間Ｓ内の距離と、埋込み空間Ｗ内の距離とをマッピングする可逆関数であり、εはマッピングの乗法曖昧性を量子化し、τはマッピングの加法曖昧性を量子化する。

距離計算中の埋込みの性能を理解するのに、埋め込みが距離をどれだけ良好に表すかを解析したい。

主な問いは以下のとおりである。埋込み空間Ｗ内の２つの埋込み信号間の距離ｄ_Ｗを所与として、信号空間Ｓ内の信号間の対応する距離に関してどれだけ確信があるか。

関数ｇ（・）は距離がどのようにマッピングされるかを表し、信号空間における距離ｄ_Ｓを近似的に求めるように反転することができる。

定数ε及びτは反対方向における曖昧性、すなわち、信号空間における距離を所与とした埋込み空間における曖昧性を表す。

図７の埋込みを例として用いると、式（５）はプロットの垂直なスライスを取得して曲線の厚みを特徴化する。一方、ここで本発明では、代わりに水平スライスを取得することによって明らかとなる厚みを関心対象とする。

所望の曖昧性を表すために、埋込み保証を以下のように再定式化することができる。

この式は、小さなε及びτの場合に、１／１（±ε）のテイラー展開を用いて近似することができる：

は

よりも概ね

小さい。

ｇ（・）は微分可能であると仮定すると、ｄ_Ｗ（ｆ（ｘ），ｆ（ｙ））のまわりのｇ^−１（・）のテイラー展開及び（ｇ^−１）’（ｘ）＝１／ｇ’（ｇ^−１（ｘ））であることを用いて上記の不等式を近似することができる。

τ・εを伴う二次項を無視して、信号距離推定値

を定義すると、以下が得られる。

は

よりも概ね小さい。

換言すれば、埋込み空間内の２つの信号間の距離ｄ_Ｓを所与とし、

を用いて信号空間内の距離推定値を表すと、曖昧性は

よりも小さい。

このため、曖昧性は、ε又はτを減少させること又はマッピングの傾きを増大させることによって減少する。

量子化されたジョンソン−リンデンシュトラウス（Ｊ−Ｌ）埋込み
量子化されたＪ−Ｌ埋込みでは、ｇ（ｄ）＝ｄであり、１までの一定の傾き（ｃｏｎｓｔａｎｔｓｌｏｐｅｏｆｔｏ１）を有する。このため、式（９）における分母は一定である。曖昧性を低減するには、分子を可能な限り低減するべきである。これにはεの大きさとτの大きさとの間のトレードオフが必要となる。値εは射影の次元Ｋによって制御される一方、値τは次元Ｂごとのレートによって制御される。Ｋが増大するとεは減少する。同様に、Ｂが増大するとτは減少する。

上記で説明したように、埋込みの総レートはＲ＝ＫＢである。所与のレートを最も良好に用いるには、次元ごとのより多くのビットにおけるより低い射影次元と、次元ごとのより少ないビットにおけるより高い射影次元との間のトレードオフとなる。

例示的な画像取出し用途の場合、最良の性能はそれぞれ、次元あたりＢ＝３ビット又はＢ＝４ビット、及びＫ＝Ｒ／３次元又はＫ＝Ｒ／４次元を用いて達成される。２つの値を用いた性能は視覚的に区別不可能であるが、その一方で、Ｂ＝１、Ｒ＝Ｋを用いる従来技術の１ビット手法よりも大幅に優れている。

汎用埋込み
汎用埋込みでは、信号モデルにおけるいかなる情報も量子化器を設計するのに用いられない。これは、Ｊ−Ｌ埋込み及び圧縮検知（ＣＳ）等のランダム化されたサンプリング方法の大きな利点である。量子化されたＪ−Ｌ埋込みと対照的に、汎用埋込みは埋込み次元あたり１ビットを用いる。このため、レートＲによって、式（２）における埋込み保証の定数τのみでなく、射影の次元Ｋ＝Ｒも決まる。

さらに、保証において乗算項が存在しない。すなわち、ε＝０である。このため、式（９）の曖昧性解析において、分子は完全に決定される。すなわち、システム設計者は分母のみを制御することができる。しかしながら、これは設計選択肢及びトレードオフがないことを意味しない。そうではなく、これらの埋込みにおけるトレードオフは式（１）におけるスケーリングパラメーターΔの選択にある。

上記で説明し、図６に示したように、ｇ（・）は最初に概ね線形に増大し、高速な平坦化が続き、その後概ね平坦な領域が続く。スケーリング係数Δの選択によって線形領域の傾きが制御され、したがって関数がどれだけ早く平坦領域に達するかが制御される。

上記で説明したように、式（４）における線形界は、ｇ（・）の増大する線形領域の非常に良好な近似であり、傾き

を有する。スケーリング係数Δを減少させることによって、そのスロープを任意に高くすることができ、それに応じて曖昧性

が減少する。しかしながら、この線形領域は全てのｄについて延在するのではなく、ｄがしきい値距離ｄ＝Ｄ_０に達し、ｇ（ｄ）の平坦領域が始まるまでしか延在しない。ここで、ｇ（Ｄ_０）≒１／２である。

スケーリング係数Δが小さくなり、線形領域の傾きが増大すると、概ね

であるとき、すなわち

であるとき、はるかに高速に平坦領域に達するようになる。

不都合なことに、その線形領域を超えると、傾きｇ’（ｄ）は指数関数的に高速に０になる。これは、式（９）における曖昧性が無限大に近づくことを暗に意味する。このため、埋込み距離ｄ_Ｗが０．５±τ内にある場合、ｄ_Ｓがしきい値距離Ｄ_０よりも概ね大きいこと以外に、マッピングを反転することによってｄ_Ｓに関して何かを知ることは不可能である。これは、スケーリング係数Δを明確に（ｃｌｅａｒ）設計する際のトレードオフとなる。Δが小さいと、保持される距離の範囲における曖昧性が低減するが、保持される距離の範囲も低減する。したがって、スケーリング係数Δは、意図される用途、例えば画像取出しに十分な埋込みにおける距離を保持するように設計する必要がある。

例示的な画像取出し用途は、クライアントによって提供されるクエリ画像を、サーバーにおけるデータベースに記憶されている最近傍画像と比較する。クエリ画像が処理されると、クエリ画像の埋込みに用いられるのと同じパラメーターを用いて埋め込まれたデータベース内の全ての画像に関して埋込み距離が求められる。

クエリが成功するには、データベース内にクエリ画像からの小さな埋込み距離を有するエントリが少なくとも少数存在するべきである。これらのエントリは選択されクライアントに返される。クエリが有用な結果を生成するには、これらのエントリの埋込み距離はクエリ信号とデータベース内のエントリからの信号との間の信号距離を正確に表すべきである。

さらに、信号が全てクエリから遠くの距離にある場合、埋込み距離はそのことを正確に反映するべきであり、このためエントリは選択されない。この場合、埋め込みはデータベース内の各エントリの距離を表す必要がない。換言すれば、埋め込みは、所定のしきい値距離Ｄまでの距離を表せばよく、Ｄよりも大きな距離は特定のみすればよく、これらの距離を表す必要はない。

このため、線形領域において距離を表す曖昧性が小さくなるように、スケーリングΔを可能な限り小さくなるように選択するが、対象となる全ての距離が埋込みの線形領域内にとどまり、曖昧性が比較的大きくなる平坦領域にはとどまらないこと、すなわち距離が所定のしきい値距離未満であることを確実にするように、必要であるよりも小さくしない。

汎用埋込みを用いた画像取出し
図２に示すように、図１に示すような方法８１１は以下のように画像取出し用途において用いることができる。クライアント８１０のユーザーは、クエリ画像８０１内のオブジェクトに関する情報を取り出すことを所望する。画像に関する埋込み情報８１５は、既知のオブジェクトの画像のデータベース８２５に接続されたサーバー８２０に提供される。各画像はオブジェクトのメタデータ８２６と関連付けられる。サーバーは埋め込み情報をデータベース内の画像に関する類似した情報と比較し（８２１）、所定の距離判定基準を用いてクエリ画像内のオブジェクトと最も一致する画像を判断し、そのオブジェクトの関連メタデータ８３０をクライアントに提供する。本明細書において説明されるように、これらのタスクは、クエリ画像及びデータベース画像から抽出された特徴の埋込みを求めることによって効率的に達成することができる。また、画像取出しについて説明しているが、本発明の同様の実施形態は、中でもビデオ、オーディオ又は発話等の他の種類の信号を取り出すのに用いることができる。

データベース準備
汎用埋込みの場合、サーバーは埋込みの仕様に従って埋込みパラメーター、例えばランダム行列Ａ、ディザーベクトルｗ及びスケーリング係数Δを生成する。データベースを構築するのに、サーバーはＳ個の既知のオブジェクトの１組の画像Ｉ_１，．．．，Ｉ_Ｔを取得する。オブジェクトごとに、サーバーは特定用途向けのメタデータＤ_Ｓ（ｓ∈｛１，．．．，Ｓ｝）を得るか又は生成する。

次に、サーバーは、例えば各画像Ｉ_ｔにスケール普遍特徴変換（ＳＩＦＴ）を適用することによって、各画像から１組の特徴ベクトルを抽出する。各画像から得られる特徴数は、シーンコンテンツ、照明、及び画像を取得したセンサーの解像度等のパラメーターに依拠する。

全てのオブジェクトの全ての画像から抽出される特徴ベクトルの数はＬであり、ｙ_ｌ（ここで、ｌ＝１，．．．，Ｌ）は各特徴ベクトルを表し、通常Ｌ＞＞Ｓである。Ｌ個の特徴ベクトルを用いて、サーバーはデータベース｛ｆ（ｙ_１），．．．，ｆ（ｙ_Ｌ）｝を求める。ここで、各ｆ（ｙ_ｉ）はｙ_ｉのＲビット量子化された埋込みである。サーバーはルックアップテーブルΛ、例えばλ（ｌ）⊂｛１，．．．，Ｓ｝（ｌ＝１，．．．，Ｌ）も生成し、ここで各λ（ｌ）は、特徴ベクトルｆ（ｙ_ｌ）又は等価にはｙ_ｌが抽出されたオブジェクトをインデックス付けする。

クライアントクエリ
クライアントが、例えば一時的なソフトウェア更新からサーバーによって用いられるか又はクライアントにおいてソフトウェアインストールの一部として含まれる埋込みパラメーターにアクセスを有することが仮定される。

クライアントがクエリ画像を取得した後、クライアントは１組の特徴｛ｘ_１，．．．，ｘ_ｍ｝を生成し、ここでｘ_ｍは画像内のｍ番目の特徴に対応する記述子である。これらのＭ個の特徴及び埋込みパラメーターを用いて、クライアントは対応する埋込み｛ｆ（ｘ_１），．．．，ｆ（ｘ_Ｍ）｝８２５を求めてサーバーに送信する。

最近傍探索及びメタデータ取出し
サーバーはクライアントから｛ｆ（ｘ_１），．．．，ｆ（ｘ_Ｍ）｝を受信する。特徴ベクトルｆ（ｘ_ｍ）ごとに、サーバーは、サーバーデータベースにおける、すなわち特徴｛ｆ（ｙ_１），．．．，ｆ（ｙ_Ｌ）｝の中の最近傍を求める。結果は埋込みｆ（ｘ_ｍ）ごとに１対のＭ個の最近傍対である。Ｍ個の対から、サーバーは埋込み距離の観点から最近傍のＪ個の対｛ｆ（ｘ_（ｊ）），ｆ（ｙ_（ｊ））｝（ｊ＝１，２，．．．，Ｊ）を選択する。例えばＪ＝２０である。

Ｊ個の対のそれぞれについて、サーバーはルックアップテーブルΛを用いて、特徴ベクトルｙ（ｊ）が抽出されたオブジェクトのインデックスを求める。インデックスはα_ｊ∈｛１，．．．，ｓ｝に記憶される。α_ｊの中で最も一般的なオブジェクトＳ_０、すなわちＪ個の最も一致する特徴の中の最大数の最近傍一致を有するオブジェクトがクエリへの応答として選択され、関連するメタデータ８３０がクライアント８１０に提供される。

発明の効果
本発明の実施の形態による符号化方法によって用いられる量子化された埋め込みはペアワイズ距離を保持し、それによってデータ又は信号は比較することができる。１つの用途ではデータは画像を表す。最近傍を特定することに対する特定の用途の問題では、符号化によって小さな距離しか保持する必要がない。この場合、汎用量子化埋込みは、量子化されたジョンソン−リンデンシュトラウス（Ｊ−Ｌ）埋込みよりも性能が優れている。これは、Ｊ−Ｌ埋込みでは距離の保持が不均一であることに起因する。

Claims

入力信号を符号化する方法であって、
前記入力信号をランダムに射影するステップであって、それにより射影信号を生成するステップと、
前記射影信号をディザリングするステップであって、それによりディザリングされた信号を生成するステップと、
前記ディザリングされた信号をスケーリングするステップであって、それによりスケーリングされた信号を生成するステップと、
非単調スカラー量子化器を用いて前記スケーリングされた信号を量子化するステップであって、それにより埋込み信号を生成するステップと、を含み、前記ディザリング、前記射影及び前記量子化のパラメーターは、前記入力信号と別の同様に埋め込まれた入力信号との間の距離を、該距離が所定のしきい値距離未満である限り保持し、前記ステップはプロセッサにおいて実行される、入力信号を符号化する方法。
前記入力信号は、画像、ビデオ、オーディオ、発話及びそれらの組合せからなる群から選択される、請求項１に記載の方法。
前記入力信号は、画像、ビデオ、オーディオ信号、発話信号及びそれらの組合せから抽出された特徴からなる群から選択される、請求項１に記載の方法。
前記埋込み信号は前記入力信号よりも少ないビットを用いる、請求項１に記載の方法。
２つの入力信号間の前記距離は、対応する埋込み信号間のハミング距離を用いて求められる、請求項１に記載の方法。
前記スケーリングは前記信号の全ての係数について同一のスケーリング係数を用いる、請求項１に記載の方法。
前記スケーリングは前記信号の係数ごとに異なるスケーリング係数を用いる、請求項１に記載の方法。
請求項１に記載の方法であって、前記埋込み信号はクエリベクトルを形成し、該方法は、
クライアントからサーバーに前記クエリベクトルを送信するステップと、
クエリ信号を用いて、前記サーバー上のデータベースを類似した信号を求めて探索するステップと、
関連データを前記サーバーから前記クライアントに返すステップと、
を更に含む、請求項１に記載の方法。
前記関連データは前記信号のメタデータである、請求項８に記載の方法。
前記関連データは前記信号に類似した他の信号である、請求項８に記載の方法。
前記データベースは１組の埋込み信号を含む、請求項８に記載の方法。
前記探索するステップは最近傍探索を用いて行われる、請求項８に記載の方法。
前記類似した信号のクラスを用いるステップであって、それにより前記クエリ信号のクラスを求めるステップをさらに含む、請求項８に記載の方法。
前記用いるステップは、
前記類似した信号の前記クラスを検査するステップと、
前記クエリ信号の前記クラスを、選択された信号の前記クラスにおいて最も多く生じるクラスとして決定するステップと、
を含む、請求項１３に記載の方法。