JP6192804B2

JP6192804B2 - データ圧縮装置およびデータ圧縮方法

Info

Publication number: JP6192804B2
Application number: JP2016506007A
Authority: JP
Inventors: 松本　渉; 渉松本; 貴司山崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2017-09-06
Anticipated expiration: 2034-03-05
Also published as: KR101800571B1; EP3116132A4; US9735803B2; EP3116132A1; CN106063133B; KR20160130441A; JPWO2015132914A1; WO2015132914A1; CN106063133A; US20170019125A1

Description

この発明は、データを短く圧縮するデータ圧縮装置およびデータ圧縮方法に関するものである。

画像、音声、およびセンサ等のデータそのもの、またはそのデータから抽出した特徴量を、乱数を要素に持つ行列と掛け算して、圧縮データを生成していた。次元圧縮に係るデータの要素数を次元数と呼ぶ。従来の次元圧縮では、ｍ×ｎの行列の要素を実数値とし、ランダムに選択した値を要素に用いて行列を構成していた。ｎは元のデータの次元数で、ｍが圧縮後のデータの次元数である。また、ｎ≧ｍである。

上記のように画像、音声およびセンサ等のデータそのものまたはその特徴量を圧縮することにより、検索、認識、予知等に係るデータ処理量を削減し、高速化を実現し、一つの作業を短時間で処理可能にしたり、ある一定時間により多くの作業またはより複雑な作業を実行可能にしたりする。

例えば、図４に示す画像マッチングシステムは、端末装置１００で撮影した写真（検索画像１０１）等に近い画像を、サーバ装置２００の画像データベース（以下、ＤＢ）２０１に保持されている多数のサンプル画像の中から検索するものである。このシステムにおいて、端末装置１００の特徴量抽出部１０２は、検索画像１０１から特徴量を抽出する。特徴量抽出にＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）を用いた場合、１つの画像につき複数個（一般に数十から数百個）の１２８バイト／個の特徴量ベクトルが抽出される。

従来の次元圧縮部１０３は、ランダム写像行列を用いて、上記特徴量を次元圧縮する。ここで用いるランダム写像行列は式（１）、ランダム写像行列の要素ａ（ｒ，ｃ）はａ（ｒ，ｃ）〜Ｎ（０，１）で平均０、分散値１の正規分布に従う。

上記のようにＳＩＦＴを用いた場合、特徴量ベクトルｘの要素ｘ_ｉを１バイト＝８ビットで表現し、ｎ＝１２８と表現する。また、ランダム写像行列Ａの各要素ａ（ｒ，ｃ）を８ビットで表現できるようにした場合、圧縮後の特徴量ベクトルｙの要素ｙ_ｋは、式（２）で計算できる。

従って、ランダム写像行列Ａの要素と特徴量ベクトルｘの要素の掛け算で、２バイト＝１６ビットに列数分の１２８＝２^７個が加算されるので、最大１６＋７＝２３ビットが圧縮後の特徴量ベクトルｙの要素ｙ_ｋの量子化サイズとなる。圧縮後の特徴量ベクトルｙの長さは、ｍ次元のベクトルとして表現でき、次元をｍ＝４０とした場合に圧縮前の１２８から４０に圧縮できる。

さらに非特許文献１では、圧縮後の特徴ベクトルｙの要素ｙ_ｋの量子化サイズを縮小する方式に関して検討しており、例えば上記の例で要素ｙ_ｋのサイズを最大２３ビットから１〜５ビット程度まで圧縮する方式を示している。この方法では、特徴量間の距離を維持する条件で次元圧縮を行っている。
量子化サイズ縮小部１０４が上記非特許文献１の方法を用いて特徴量の量子化サイズを圧縮した場合、一つの特徴量が１２８×８＝１０２４ビットであったデータ量を、ｍ＝４０、量子化サイズ４ビットに圧縮すると、圧縮後のデータ量は１２８×４０／１２８×４＝１６０ビットであり、１６０／１０２４＝１５．６％までデータ量が圧縮される。

サーバ装置２００側においても、特徴量抽出部１０２が画像ＤＢ２０１に保存されているサンプル画像から特徴量を抽出し、次元圧縮部１０３および量子化サイズ縮小部１０４が特徴量を圧縮する。

例えば、サーバ装置２００は、画像ＤＢ２０１にサンプル画像が１００００枚あれば、各サンプル画像に対して特徴量抽出とデータ圧縮を行い、検索部２０５が、端末装置１００から送られてくる検索画像１０１の圧縮された特徴量と比較を行い、検索画像１０１に近いサンプル画像を検索する。

Mu Li，Shantanu Rane，Petros Boufounos，"Quantized Embeddings of Scale Invariant Image Features for Mobile Augmented Reality"，Multimedia Signal Processing（MMSP)，2012 IEEE 14th International Workshop on Digital Object Identifier，p.1-6

しかしながら、上記方法の場合、次元圧縮のためにｙ^Ｔを計算する際、ｍ×ｎ個の掛け算が必要となるので、圧縮前のデータ量が大きく、圧縮率が同程度の場合、指数関数的に計算量が増大するという課題があった。

例えばｎ＝１２８、ｍ＝４０の場合、ｍ×ｎ＝５１２０個の掛け算が必要となり、ｎ＝１２８０、ｍ＝４００の場合、ｍ×ｎ＝５１２０００個の掛け算が必要となる。このように、圧縮前のデータ量が１０倍になると計算量が１００倍になる。また、行列の要素をランダムに選ぶことにより、圧縮後の性質にばらつきが生じ、検索時の正解率が劣化するケースが発生する。

この発明は、上記のような課題を解決するためになされたもので、データ圧縮時の計算量を削減することを目的とする。

この発明に係るデータ圧縮装置は、情報通信機器から入手したデータまたはデータの特徴量を圧縮する際、データまたは特徴量と検査行列との演算により検索、認識または予知を行うための圧縮データを生成し、検査行列に、０と１と−１の３つの要素から構成される検査行列を用い、データまたは特徴量において検査行列の要素が１または−１の箇所に対応する値を行単位で足し算または引き算して、圧縮データを生成するものである。

この発明に係るデータ圧縮方法は、情報通信機器から入手したデータまたはデータの特徴量を圧縮する際、データまたは特徴量と検査行列との演算により検索、認識または予知を行うための圧縮データを生成し、検査行列に、０と１と−１の３つの要素から構成される検査行列を用い、データまたは特徴量において検査行列の要素が１または−１の箇所に対応する値を行単位で足し算または引き算して、圧縮データを生成するものである。

この発明によれば、データを圧縮する際、ランダム写像行列に検査行列を用いるようにしたので、計算量を削減することができる。

この発明の実施の形態１に係るデータ圧縮装置を組み込んだ情報通信機器の構成を示すブロック図である。実施の形態１に係るデータ圧縮装置を組み込んだ情報通信機器の動作を示すフローチャートである。実施の形態１の次元圧縮部の圧縮次元を決定する方法を説明するためのグラフである。従来のデータ圧縮方法を用いた画像マッチングシステムの構成を示すブロック図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
実施の形態１では、図１に示すように、この発明に係るデータ圧縮装置を組み込んだ情報通信機器（端末装置１０、サーバ装置２０）を用いて構成した画像マッチングシステムを例にして、データ圧縮方法を説明する。端末装置１０は、タブレットＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、監視カメラ等であり、検索画像取得部１１、特徴量抽出部１２、次元圧縮部１３（データ圧縮装置）、量子化サイズ縮小部１４を備えている。この端末装置１０との間で通信可能なサーバ装置２０は、画像ＤＢ２１、特徴量抽出部１２、次元圧縮部１３（データ圧縮装置）、量子化サイズ縮小部１４、検索部２５を備えている。

端末装置１０、サーバ装置２０のそれぞれは、不図示のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で構成されており、このＣＰＵが内部メモリに格納されたプログラムを実行することによって、特徴量抽出部１２、次元圧縮部１３、量子化サイズ縮小部１４、検索部２５としての機能を実現する。なお、次元圧縮部１３は専用の演算回路で構成してもよい。
画像ＤＢ２１は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等によって構成されている。

次に、図２に示すフローチャートを参照しながら、端末装置１０の詳細を説明する。
端末装置１０において、検索画像取得部１１は、カメラ等から受像した画像を、マッチング対象の検索画像として取り込み、特徴量抽出部１２へ出力する（ステップＳＴ１）。

特徴量抽出部１２は、検出画像の特徴を抽出して、次元圧縮部１３へ出力する（ステップＳＴ２）。特徴量抽出方法としてはＳＩＦＴ等の適用例が多いが、どのような特徴量抽出方法でも構わない。例えばＳＩＦＴでは、画像の中の数十から数百の特徴的なポイント（キーポイントと呼ぶ）が選択され、そのキーポイントごとに１２８バイトの特徴量ベクトルが出力される。ここでは、この１２８バイトの特徴量ベクトルの次元を１２８とし、１２８次元のベクトルと見なすことにする。

次元圧縮部１３は、特徴量抽出部１２が出力した特徴量ベクトルを、誤り訂正符号の検査行列を用いて次元圧縮する（ステップＳＴ３）。ここで用いる誤り訂正符号の検査行列は、２元｛０，１｝を要素に持つ行列であり、式（１１）とする。なお、誤り訂正符号の検査行列が、式（１２）のような非２元を要素に持つ行列で構成されていてもよい。
以下の説明では、誤り訂正符号の検査行列として、式（１１）のように２元｛０，１｝を要素に持つ、ランダム符号の検査行列を用いるものとする。

ここで、ｐは２以外の自然数である。

特徴量抽出部１２がＳＩＦＴを用いた場合、特徴量ベクトルｘの要素ｘ_ｉを１バイト＝８ビットで表現し、ｎ＝１２８として表現できる。また、検査行列Ｈの各要素ｈ（ｒ，ｃ）は１ビットで表現でき、圧縮後の特徴量ベクトルｙの要素ｙ_ｋは、式（１３）で計算できる。

２元の要素で構成される検査行列の場合、要素が０の箇所は計算を削除し、１が立った箇所のみｘ_ｉを加算すればよい。従って、特徴量ベクトルｘの要素８ビットに対して、最大列数分の１２８＝２^７個が加算されるので、最大８＋７＝１５ビットが圧縮後の特徴量ベクトルｙの要素ｙ_ｋの量子化サイズとなる。また、圧縮後の特徴量ベクトルｙの長さはｍ次元のベクトルとして表現でき、次元をｍ＝４０とした場合に圧縮前の１２８から４０に圧縮できる。

この際、誤り訂正符号の検査行列を使用しない従来の次元圧縮（図４の次元圧縮部１０３）との違いは、計算量である。
従来例では、圧縮後の特徴量ベクトルｙの要素ｙ_ｋを一個求めるためにｎ回の掛け算とｎ−１回の加算が必要であり、この計算を特徴量ベクトルｙの長さｍ回分繰り返す必要があるため、最終的に、ｎｍ回の掛け算と（ｎ−１）ｍ回の加算が必要であった。
一方、実施の形態１では、ランダム符号化の場合、検査行列Ｈの各要素が１である確率と０である確率は共に１／２であるため、要素ｙ_ｋを一個求めるために平均ｎ／２−１回の加算でよく、この計算を特徴量ベクトルｙの長さｍ回分繰り返しても、最終的に、平均（ｎ／２−１）ｍ回の加算で十分となる。

今回の例の場合、従来例では、ｎｍ＝１２８×４０＝５１２０回の掛け算と、（ｎ−１）ｍ＝５０８０回の加算が必要となる。一方、実施の形態１では、（ｎ／２−１）ｍ＝２５２０回の加算のみでよくなり、大幅な計算量削減が可能となる。

この後、量子化サイズ縮小部１４が、上記非特許文献１のように、圧縮後の特徴量ベクトルｙの要素ｙ_ｋの量子化サイズを縮小し、最大１５ビットから１〜５ビット程度まで圧縮する（ステップＳＴ４）。この際、特徴量間の相対的な距離の大小関係をほぼ維持できる様に事前に評価を行い、距離の大小関係がほぼ維持可能な圧縮次元を決定しておく。

ここで、決定方法の一例を、図３を用いて説明する。装置の設計者は、２００種類の建物をそれぞれ４つの異なった角度から撮影した写真８００枚（＝２００×４）を用意し、同じ建物の写真には同じＩＤ番号を割り振っておく。また、ターゲットとして、その２００種類の建物のうちの１つを撮影した写真（先の８００枚の写真とは異なる）を用意する。そして、ｋ−近傍法（ターゲットに最も近いｋ個のデータを取り出して多数決を取る）により、ターゲットの建物に最も近い建物がうつった写真を８００枚の中から検出する。図３はその検出結果を示し、縦軸が検出成功率、横軸が圧縮次元である。ｋを１０と設定し、ターゲットの建物の特徴量と、８００枚の写真の建物の特徴量との距離を比較し、同じ建物の特徴量との距離が近いＩＤ番号がｋ＝１０個の中で多数を占めた場合を検出成功とする。目標性能を検出成功率９５％とした場合、圧縮後の次元は４０を選択できる。このような方法等により決定した圧縮次元が、次元圧縮部１３に事前に設定される。

一つの特徴量が１２８×８＝１０２４ビットであった元々のデータ量を、ｍ＝４０および量子化サイズ４ビットに圧縮する場合、圧縮後のデータ量は１２８×４０／１２８×４＝１６０ビットであり、１６０／１０２４＝１５．６％までデータ量を圧縮できる。

以上が、端末装置１０によるデータ圧縮の方法である。
なお、上記説明では検索画像の特徴量を圧縮する例を示したが、検索画像そのものを圧縮してもよい。

一方のサーバ装置２０においても、画像ＤＢ２１が保存しているサンプル画像に対して、特徴量抽出部１２が上記と同様の方法により特徴量を抽出し、次元圧縮部１３が上記と同様の方法により誤り訂正符号の検査行列を用いた次元圧縮を行い、量子化サイズ縮小部１４が上記と同様の方法により量子化サイズの縮小を行う。この際、サーバ装置２０側においても、次元圧縮の計算の際に、端末装置１０側と同様の計算量の削減が可能となる。

例えば、画像ＤＢ２１にサンプル画像が１００００枚あれば、特徴量抽出部１２、次元圧縮部１３および量子化サイズ縮小部１４がそれぞれのサンプル画像に対して特徴量抽出とデータ圧縮を行い、圧縮した特徴量を検索部２５へ出力する。
検索部２５は、端末装置１０から送られてくる検索画像の圧縮された特徴量と、量子化サイズ縮小部１４から入力される各サンプル画像の圧縮された特徴量を比較し、検索画像と近いサンプル画像を検索する。

ここで、次元圧縮部１３による圧縮は、特徴量間の相対的な距離の大小関係をほぼ維持しているため、検索部２５は、ｋ−近傍法（ターゲットに最も近いｋ個のデータを取り出して多数決を取る）等の手法により、端末装置１０の検索画像が画像ＤＢ２１に保存されているサンプル画像のどれに近いかを判別できる。その結果、圧縮による正解率の劣化を抑えられる特徴がある。この場合、ｋ−近傍法の検索対象は圧縮された特徴量となるため、単純な比較による検索では１５．６％まで処理時間を短縮できる。

以上より、実施の形態１によれば、次元圧縮部１３は、データまたは当該データから抽出した特徴量を、誤り訂正符号の検査行列と掛け算して、圧縮データを生成するようにしたので、計算量を削減することができる。
特に、誤り訂正符号の検査行列に、０と１の２元の要素から構成されるランダム符号の検査行列を用いることにより、圧縮のための計算量を、従来のランダム写像行列を用いた場合のｎｍ回の掛け算と（ｎ−１）ｍ回の足し算から、（ｎ／２−１）ｍ回の足し算のみに削減できる。

実施の形態２．
図１に示した画像マッチングシステムを援用して、実施の形態２に係るデータ圧縮装置を説明する。
この実施の形態２では、次元圧縮部１３（データ圧縮装置）が次元圧縮に用いる誤り訂正符号の検査行列として、上式（１１）のように２元｛０，１｝の要素で構成される、ＬＤＰＣ（Ｌｏｗ−ＤｅｎｓｉｔｙＰａｒｉｔｙ−Ｃｈｅｃｋ）符号の検査行列を用いるものとする。
なお、説明は省略するが、上式（１２）のように非２元の要素で構成される、ＬＤＰＣ符号の検査行列を用いてもよい。

ＬＤＰＣ符号は、一般に列の平均重みが４であり、行の平均重みは（列の平均重み）×ｎ／ｍである。ここで、列の重みとは、行列の１列に含まれる１の数である。また、行の重みとは、行列の１行に含まれる１の数である。例えば、ｎ＝１２８、ｍ＝４０の場合、行の重みは４×１２８／４０＝１２．８となる。ＬＤＰＣ符号の場合、ｎまたはｍが大きくなってもこれら列の重み、行の重みは変化しない特徴がある。

上記実施の形態１で説明したランダム符号の検査行列の場合、列内の１の数は平均ｎ／２、行内の１の数は平均ｍ／２であり、ＬＤＰＣ符号の検査行列と比例して列、行ともに１の数が多くなり、かつ行列内の１の総数は２乗されるのでこの総数も多くなる。一方、ＬＤＰＣ符号の検査行列の場合、１の数は常に一定で、かつ疎であることから、ランダム符号の検査行列に比べると圧倒的に１の総数が少なくなる。

例えば、ｎ＝１２８、ｍ＝４０の場合、ランダム符号では１の総数は、（列の平均重み）×（列数）＝４０／２×１２８＝２５６０個である。一方、ＬＤＰＣ符号の場合、１の総数は、（列の平均重み）×（列数）＝４×１２８＝５１６個となり、圧倒的に少ない。
ここで一例として、ｎ＝２８、ｍ＝２１のＬＤＰＣ符号の検査行列Ｈを、式（１４）に示す。

上記実施の形態１と同様に、ＬＤＰＣ符号の検査行列Ｈの各要素ｈ（ｒ，ｃ）は１ビットで表現でき、圧縮後の特徴量ベクトルｙの要素ｙ_ｋは、上式（１３）で計算できる。
ＬＤＰＣ符号の検査行列Ｈの要素が０の箇所は計算を削除し、１が立った箇所のみｘ_ｉを加算すればよいので、圧縮前の特徴量ベクトルｘの要素１バイト＝８ビットに対して、行重み分の（列の平均重み）×ｎ／ｍ＝１２．８個分として必要な２進数表現２^４の４ビットが加算されることになり、最大８＋４＝１２ビットが圧縮後の特徴量ベクトルｙの要素ｙ_ｋの量子化サイズとなる。また、圧縮後の特徴量ベクトルｙの長さはｍ次元のベクトルとして表現でき、次元をｍ＝４０とした場合に圧縮前の１２８から４０に圧縮できる。

また、実施の形態２では、要素ｙ_ｋを一個求めるために、今回の例では平均で行重み＝１２．８回の加算でよく、これを特徴量ベクトルｙの長さｍ回分繰り返しても、平均（１２．８−１）×ｍ＝４７２回の加算で十分となる。よって、従来のランダム写像行列を用いた場合の計算量（ｎｍ＝５１２０回の掛け算と（ｎ−１）ｍ＝５０８０回の足し算）に比べて、大幅な計算量削減が可能となる。また、ＬＤＰＣ符号の検査行列を用いた場合の計算量は、ランダム符号の検査行列を用いるよりも更に少ない。

以上より、実施の形態２によれば、次元圧縮部１３は、データまたは当該データから抽出した特徴量を圧縮する際に、疎なＬＤＰＣ符号の検査行列を用いることにより、計算量を大幅に削減できる。また、ＬＤＰＣ符号の検査行列は、要素が規則的なので、圧縮の性能のばらつきを抑える効果も期待できる。さらに、ＬＤＰＣ符号の検査行列は、圧縮前の特徴量の次元数ｎが大きくなるほど圧縮効率が良くなるため、特に数百以上の長い特徴量を扱う際に有効となる。

なお、上記実施の形態１ではランダム符号、上記実施の形態２ではＬＤＰＣ符号の検査行列を用いる例を示したが、その他に、ＢＣＨ符号、リードソロモン符号、巡回符号等を用いてもよい。これらの符号は短い特徴量を扱う際に成功率の低下を抑制しながら圧縮できる特徴がある。また、上記に列挙した誤り訂正符号以外でもよく、条件に応じて適切な誤り訂正符号を適用できる。

また、上記実施の形態１，２では検査行列として、２元｛０，１｝の要素で構成される行列を例示したが、３つの要素｛−１，０，１｝で構成される行列でもよい。例えば、上式（１４）の行列のうち、０はそのまま０にし、１の部分を−１または１に割り振った下式（１５）の行列でもよい。式（１５）のような検査行列を用いる場合、次元圧縮部１３は、データまたは当該データから抽出した特徴量において検査行列の要素が１または−１の箇所に対応する値を行単位で足し算または引き算して、圧縮データを生成する。
検査行列の要素を２元｛０，１｝にするか３つの要素｛−１，０，１｝にするかは、計算量自体あまり大きな差は無い為、性能評価により良好な性能を示す方を選択すればよい。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

以上のように、この発明に係るデータ圧縮装置は、誤り訂正符号の検査行列を用いて少ない計算量でデータを圧縮するようにしたので、画像、音声、センサ等のデータに基づいて検索、認識、予知等の処理を高速に実行する装置等に用いるのに適している。

１０，１００端末装置、１１検索画像取得部、１２，１０２特徴量抽出部、１３，１０３次元圧縮部（データ圧縮装置）、１４，１０４量子化サイズ縮小部、２０，２００サーバ装置、２１，２０１画像ＤＢ、２５，２０５検索部、１０１検索画像。

Claims

情報通信機器から入手したデータまたは前記データの特徴量を圧縮するデータ圧縮装置であって、
前記データまたは前記特徴量と検査行列との演算により検索、認識または予知を行うための圧縮データを生成し、
前記検査行列に、０と１と−１の３つの要素から構成される検査行列を用い、前記データまたは前記特徴量において前記検査行列の要素が１または−１の箇所に対応する値を行単位で足し算または引き算して、圧縮データを生成することを特徴とするデータ圧縮装置。
前記検査行列に、ランダム符号の検査行列を用いることを特徴とする請求項１記載のデータ圧縮装置。
前記検査行列に、ＬＤＰＣ符号の検査行列を用いることを特徴とする請求項１記載のデータ圧縮装置。
前記検査行列に、ＢＣＨ符号の検査行列を用いることを特徴とする請求項１記載のデータ圧縮装置。
前記検査行列に、リードソロモン符号の検査行列を用いることを特徴とする請求項１記載のデータ圧縮装置。
前記検査行列に、巡回符号の検査行列を用いることを特徴とする請求項１記載のデータ圧縮装置。
情報通信機器から入手したデータまたは前記データの特徴量を圧縮するデータ圧縮方法であって、
前記データまたは前記特徴量と検査行列との演算により検索、認識または予知を行うための圧縮データを生成し、
前記検査行列に、０と１と−１の３つの要素から構成される検査行列を用い、前記データまたは前記特徴量において前記検査行列の要素が１または−１の箇所に対応する値を行単位で足し算または引き算して、圧縮データを生成することを特徴とするデータ圧縮方法。