JP2007018174A - Information processing unit and control method therefor, computer program, and storage medium - Google Patents
Information processing unit and control method therefor, computer program, and storage medium Download PDFInfo
- Publication number
- JP2007018174A JP2007018174A JP2005197822A JP2005197822A JP2007018174A JP 2007018174 A JP2007018174 A JP 2007018174A JP 2005197822 A JP2005197822 A JP 2005197822A JP 2005197822 A JP2005197822 A JP 2005197822A JP 2007018174 A JP2007018174 A JP 2007018174A
- Authority
- JP
- Japan
- Prior art keywords
- image
- tile
- image data
- information processing
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は画像データの種類を高速に判別する技術および当該技術を利用した高速な画像検索の技術に関する。 The present invention relates to a technique for quickly identifying the type of image data and a technique for high-speed image retrieval using the technique.
近年のコンピュータの高性能化、ハードディスクドライブ(HDD)等の記憶装置やメモリの大容量化、デジタルカメラ、デジタルビデオ、スキャナ、プリンタ、複合機(MFP)、デジタル複写機といった画像を入出力する装置の普及および高性能化に伴い、デジタル画像を扱う機会が多くなっている。また、高速インターネット回線の普及により、それらの画像を送受信することも稀ではなくなっている。HDDを備えるMFPやデジタル複写機、コンピュータ等は、画像サーバとして使用されていることもある。 Recent high-performance computers, storage devices such as hard disk drives (HDDs) and large-capacity memories, digital cameras, digital videos, scanners, printers, multifunction peripherals (MFPs), digital copiers, etc. With the popularization and high performance of digital cameras, opportunities to handle digital images are increasing. Also, with the widespread use of high-speed Internet lines, it is not uncommon to send and receive these images. An MFP, a digital copying machine, a computer, or the like equipped with an HDD may be used as an image server.
そのような背景により、扱っているデジタル画像は、高精細化かつ大量化の一途をたどっている。高精細化により、1つ1つのデータサイズは大きくなる傾向にあり、JPEGやJPEG2000といった高画質を保ったまま高い圧縮率を備えた画像圧縮伸張アルゴリズムが必須となり、標準化されている。また、大量化に伴う問題を解決するために、画像検索アルゴリズムが提案されている。 With such a background, the digital images that are handled are becoming increasingly high-definition and large-scale. As data definition increases, each data size tends to increase, and an image compression / decompression algorithm such as JPEG or JPEG2000 that has a high compression ratio while maintaining high image quality is essential and standardized. In addition, an image search algorithm has been proposed in order to solve the problems associated with the increase in volume.
また、特許文献1では、あらかじめ画像データを解析して画像特徴量を抽出しておき、画像特徴量の配置に基づいて特徴量同士を比較することにより、高速に類似画像の検索を行う構成が開示されている。 Japanese Patent Laid-Open No. 2004-133867 has a configuration in which image data is extracted in advance by analyzing image data, and similar images are searched at high speed by comparing the feature amounts based on the arrangement of the image feature amounts. It is disclosed.
また、画像検索を行う際に、画像の種類の判別を行う手法が知られている。特許文献2では、画像データのヒストグラムを作成し、その頻度の分布に偏りがある場合には2値画像と判別し、偏りが無い場合には自然画像と判別する手法が開示されている。また、特許文献3では、注目画素とその近傍の周辺画素との相関が強い場合にはコンピュータグラフィックス画像と判別し、注目画素と周辺画素との相関が弱い場合には自然画像と判別する手法が開示されている。また、特許文献4では、画像データの色数が1つの場合には単色画像と判別し、色数が少ない場合にはパレット画像と判別し、色数が多い場合には自然画像と判別する手法が開示されている。
しかしながら、上記特許文献1に開示された構成においては、あらかじめ検索対象の画像データから画像特徴量を抽出しておかなければならないため、事前処理や初回の検索に時間がかかるという問題があった。また、画像データベース管理外において、画像ファイルに対して、移動、削除、追加、編集等の操作を行った場合、その画像データについて再び画像特徴量を抽出し、事前に登録された画像特徴量を更新しなければならなかった。
However, the configuration disclosed in
また、上記特許文献2乃至4に開示された画像判別の手法では、いずれも画像の画素値を読み込み、解析して、画像の種類を判別していた。そのため、画像データを読み込むためのメモリを要し、かつ、画像データを解析するための時間を要していた。
Further, in the image discrimination methods disclosed in
本発明は上記の問題点に鑑みてなされたものであり、画像データの種類を判別する技術、及び、当該技術を利用した高速な画像検索の技術を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a technique for discriminating the type of image data and a technique for high-speed image search using the technique.
本発明によれば、
1以上のタイルから構成された画像データを取得する取得手段であって、該タイルは当該タイルの符号化についての符号化情報を含むヘッダを少なくとも含む、取得手段と、
前記符号化情報に基づいて前記タイル毎の画像種類を判別する判別手段と、
を備え、
前記タイルは複数の周波数成分毎に分割されていることを特徴とする情報処理装置が提供される。
According to the present invention,
Acquisition means for acquiring image data composed of one or more tiles, wherein the tile includes at least a header including encoding information about encoding of the tile;
Discrimination means for discriminating the image type for each tile based on the encoding information;
With
An information processing apparatus is provided in which the tile is divided into a plurality of frequency components.
本発明によれば、画像データの種類を判別する技術、及び、当該技術を利用した高速な画像検索の技術を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the technique which discriminate | determines the kind of image data, and the technique of the high-speed image search using the said technique can be provided.
以下、添付図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまでも例示であり、本発明の範囲をそれらのみに限定する趣旨のものではない。 Embodiments according to the present invention will be described below in detail with reference to the accompanying drawings. However, the constituent elements described in this embodiment are merely examples, and are not intended to limit the scope of the present invention only to them.
〔JPEG2000フォーマットについて〕
本実施の形態は、階層化アルゴリズムにしたがって圧縮符号化された画像ファイルフォーマットの一つとして、JPEG2000アルゴリズムを利用するものである。このため、まず、JPEG2000フォーマットについて説明する。JPEG2000アルゴリズムは各種文献により周知のものであるため、ここでは、本実施形態に関係のある部分の概要についてのみ説明する。
[About JPEG2000 format]
In the present embodiment, the JPEG2000 algorithm is used as one of the image file formats compressed and encoded according to the hierarchization algorithm. Therefore, first, the JPEG2000 format will be described. Since the JPEG2000 algorithm is well known from various documents, only the outline of the portion related to the present embodiment will be described here.
画像をJPEG2000フォーマットで保存する際は、タイルと呼ばれる同サイズの長方形に画像を分割できる。図3は、JPEG2000画像のタイル分割を模式的に示した図である。 When saving an image in the JPEG2000 format, the image can be divided into rectangles of the same size called tiles. FIG. 3 is a diagram schematically showing tile division of a JPEG2000 image.
それぞれのタイルについて、図4に示すように、色変換、離散ウェーブレット変換、量子化、エントロピー符号化、ビットストリーム形成の順で圧縮符号化が行われる。図4は、JPEG2000アルゴリズムに係るエンコード処理手順を示した図である。 For each tile, as shown in FIG. 4, compression coding is performed in the order of color transformation, discrete wavelet transformation, quantization, entropy coding, and bitstream formation. FIG. 4 is a diagram showing an encoding process procedure according to the JPEG2000 algorithm.
図4において、401の色変換は、R(赤)、G(緑)、B(青)からなるRGB等の表色系から、YCbCr等の表色系へコンポーネントの変換を行う処理である。
In FIG. 4, the
402の離散ウェーブレット変換は、401において色変換が行われた画像を、離散ウェーブレット変換を用いて周波数空間に分解する処理である。図5は、JPEG2000方式に係る離散ウェーブレット変換を示した模式図である。(a)のタイル画像(0LL)に対して、離散ウェーブレット変換を施し、サブバンド1LL、1HL、1LH、1HHに分解する(b)。引き続き、低周波成分1LLに対し、離散ウェーブレット変換を施し、サブバンド2LL、2HL、2LH、2HHに分解する(c)。本例では、2レベルの変換を行っているが、離散ウェーブレット変換の回数は特に制限されるものではない。
The
403の量子化は、離散ウェーブレット変換の変換係数を線形量子化する処理である。 The quantization of 403 is a process of linearly quantizing the transform coefficient of the discrete wavelet transform.
404のエントロピー符号化は、図6に示すように、プレシンクト分割、コードブロック分割、ビットプレーン分割、コーディングパスへの分割、二値算術符号化の順で符号化を行う処理である。図6は、JPEG2000方式に係るエントロピー符号化手順を示した図である。
As shown in FIG. 6, the
図6に置いて、601のプレシンクト分割は、2HL、2LHといったサブバンドの係数を、プレシンクトと呼ばれる領域に分割する部分である。図7はJPEG2000方式に係るプレシンクト分割を模式的に表した図である。図7において、701の部分は、元の画像において同領域の部分を周波数変換したものであり、これらの部分は同じプレシンクトに属しているという。
In FIG. 6, the
602のコードブロック分割は、プレシンクトをコードブロックと呼ばれるさらに小さな領域に分割する処理である。図8はJPEG2000方式に係るコードブロック分割を表した模式図である。このコードブロック単位がエントロピー符号化を行う際の基本単位である。
The
603のビットプレーン分割は、各コードブロックについて、線形量子化された離散ウェーブレット変換の変換係数をビットごとに展開する処理である。図9はJPEG2000方式に係るビットプレーン分割を表した模式図である。 The bit plane division of 603 is a process of developing the linearly quantized discrete wavelet transform coefficients for each code block for each bit. FIG. 9 is a schematic diagram showing bit plane division according to the JPEG2000 system.
図9において、901は、あるコードブロックにおける、線形量子化された離散ウェーブレット変換の変換係数を例示したものである。902は、変換係数901の符号を表すビット列であり、値0は正値、値1は負値を意味する。903は、変換係数901の絶対値をMSB(Most Significant Bit)からLSB(Least Significant Bit)に2値展開したビットプレーンである。
In FIG. 9,
例えば、値が+12の変換係数(904)は正値であるため、対応する符号ビットは0(905)である。また、+12の絶対値12の2進数表現は(1100)であるため、ビットプレーンの対応する箇所906a乃至906dの値はそれぞれ「1」「1」「0」「0」となる。同様に、値が−6の変換係数(907)は負値であるため、対応する符号ビットは1(908)である。また、−6の絶対値6の2進数表現は(0110)であるため、ビットプレーンの対応する箇所909a乃至909dの値はそれぞれ「0」「1」「1」「0」となる。
For example, since the transform coefficient (904) having a value of +12 is a positive value, the corresponding sign bit is 0 (905). Since the binary representation of the
MSB側ですべて0であるビットプレーンをゼロビットプレーンといい、データは保存されない一方、コードブロック毎に、後述のゼロビットプレーン枚数がカウントされる。 A bit plane that is all zeros on the MSB side is called a zero bit plane, and no data is stored. On the other hand, the number of zero bit planes described later is counted for each code block.
604のコーディングパスへの分割は、ビットプレーンをさらにsignigicance propagationパスと、magnitude refinementパスと、cleanupパスに分割する処理である。図10はJPEG2000方式に係るコーディングパスへの分割を表した模式図である。
The division into the
図10のように、各ビットプレーン1001a乃至1001d(以下、これらをまとめて1001と称する)は、コーディングパスへの分割により、それぞれsignificance propagationパス1002b乃至1002d(以下、これらをまとめて1002と称する)、magnitude refinementパス1003b乃至1003d(以下、これらをまとめて1003と称する)、cleanupパス(1004b乃至1004d)のコーディングパスに分割される。ただし、最上位ビット(MSB側)のビットプレーン1001aは、cleanupパス(1004a)にのみ対応させる。以下、cleanupパス1004a乃至1004dをまとめて1004と称する。
As shown in FIG. 10, each bit plane 1001a to 1001d (hereinafter collectively referred to as 1001) is divided into
各ビットプレーン1001、及び、各コーディングパス1002乃至1004は、すべて縦横方向の座標長によるサイズが等しい。また、各コーディングパス1002乃至1004にはビット値が定義された位置と定義されていない位置とが存在する。図10においては、例えば、1006、1007のように、ビット値が定義された位置には網掛け(斜線)が施されている。そして、コーディングパス1002乃至1004(例えば、1002b乃至1004b)の網掛けの部分に定義されたビット値は、分割前のビットプレーン1001(例えば1001b)上の対応する位置におけるビット値と等しい。
Each
ビットプレーンをコーディングパスに分割する処理は、以下の(処理1)(処理2)に基づいて実行する。 The process of dividing the bit plane into coding passes is executed based on the following (Process 1) and (Process 2).
(処理1)最上位ビット(MSB側)のビットプレーンについて、対応するcleanupパスを生成する。最上位ビットのビットプレーンに対応するcleanupパスは、全ての位置において最上位ビットのビットプレーンと同じビット値が定義されている。例えば、ビットプレーン1001aについて、全ての位置においてビットプレーン1001aと同じビット値が定義されたcleanupパス1004aを生成する。
(Processing 1) For the most significant bit (MSB side) bit plane, a corresponding cleanup path is generated. The cleanup path corresponding to the most significant bit plane has the same bit value as the most significant bit plane defined at all positions. For example, for the bit plane 1001a, a
(処理2)2番目に上位のビットプレーンから順に、2番目以降の全てのビットプレーンについて以下の(処理a)乃至(処理c)の処理を行う。 (Process 2) The following (Process a) to (Process c) are performed on all the second and subsequent bit planes in order from the second most significant bit plane.
(処理a)significance propagationパスの生成
処理対象のビットプレーンよりも上位のビットプレーンのいずれかにおいて、ビット値1が定義されている位置の、周囲に対応する位置にビット値が定義された、significance propagationパスを生成する。例えば、ビットプレーン1001bについて(処理a)を行う場合、ビットプレーン1001bよりも上位であるビットプレーン1001aにおいて、1005の位置にビット値1が定義されているため、1005の周囲に対応する位置1006にビット値を定義したsignificance propagationパス1002bを生成する。位置1006に定義されるビット値は、ビットプレーン1001bにおける同じ位置のビット値と等しい。
(Processing a) Generation of a signature propagation path A signature in which a bit value is defined at a position corresponding to the surrounding of a position where a
(処理b)magnitude refinementパスの生成
処理対象のビットプレーンよりも上位のビットプレーンのいずれかにおいて、ビット値1が定義されている位置に対応する位置にビット値が定義された、magnitude refinementパスを生成する。例えば、ビットプレーン1001bについて(処理b)を行う場合、ビットプレーン1001bよりも上位であるビットプレーン1001aにおいて、1005の位置にビット値1が定義されているため、1005に対応する位置1007にビット値を定義したmagnitude refinementパス1003bを生成する。位置1007に定義されるビット値は、ビットプレーン1001bにおける同じ位置のビット値と等しい。
(Processing b) Generation of a magnesium refinement path A magnesium refinement path in which a bit value is defined at a position corresponding to a position where a
(処理c)cleanupパスの生成
significance propagationパス、及び、magnitude refinementパスにおいて、ビット値が定義された位置以外の全ての位置にビット値が定義された、cleanupパスを生成する。例えば、ビットプレーン1001bについて(処理c)を行う場合、1002bにおいてビット値が定義された位置1006、及び、1003bにおいてビット値が定義された位置1007以外の全ての位置にビット値が定義された、cleanupパス1004bを生成する。cleanupパス1004bにおいて定義されるビット値は、ビットプレーン1001bにおける同じ位置のビット値と等しい。
(Processing c) Generation of a cleanup path A cleanup path in which bit values are defined at all positions other than the positions where the bit values are defined is generated in the signature propagation path and the magnesium refinement path. For example, when performing (processing c) on the
図10の例において、ビットプレーン1001c、1001dも(処理2)を繰り返すことによってコーディングパスに分割する。
In the example of FIG. 10, the
コーディングパスは1個以上のレイヤに分配される。図11はJPEG2000方式に係るレイヤ分割を表した模式図である。図11で示すように、レイヤは各コードブロックの各コーディングパスの境界で分割分配される。各コーディングパスを伝送した場合の符号量増加と画質改善度から効率を判断してレイヤ分割分配されるのが一般的である。 A coding pass is distributed to one or more layers. FIG. 11 is a schematic diagram showing layer division according to the JPEG2000 system. As shown in FIG. 11, the layers are divided and distributed at the boundary of each coding pass of each code block. In general, the efficiency is determined from the increase in the amount of code and the degree of image quality improvement when each coding path is transmitted, and layer division is performed.
605の二値算術符号化は、コーディングパス分割後のデータを算術符号化する処理である。
The binary
以上のようにして、エントロピー符号化404を行った後、405にてファイルにデータを書き込むためのビットストリームの形成を行う。レイヤ階層、解像度レベル(離散ウェーブレット変換の分解レベル)、コンポーネント、位置(プレシンクト)が同じデータがまとまって、一つのパケットを構成する。更に、パケットには、パケット長がゼロ(空のパケット)か否かを表すゼロ長パケット、現コードブロックがすでにそれ以前のレイヤ内のパケットに包含されているかを表すコードブロックの包含、ゼロビットプレーンの数、コーディングパスの数、コードブロックの圧縮画像データの長さからなるパケットヘッダが含まれる。
After
レイヤ階層数×解像度レベル数×コンポーネント数×プレシンクト数個のパケットが集まることによって、一つのタイルの画像が表現される。それらのパケットを図12(a)のようにすべてまとめて一つのタイルパートとしてもよいし、図12(b)のように複数のタイルパートに分割してもよい。図12のようにタイルパートの先頭にはタイルパートヘッダが付く。 An image of one tile is expressed by collecting the number of layer layers × the number of resolution levels × the number of components × the number of precincts. All of these packets may be combined into one tile part as shown in FIG. 12A or may be divided into a plurality of tile parts as shown in FIG. As shown in FIG. 12, the tile part header is attached to the head of the tile part.
さらに図13で示すように、タイルパートを並べることによって、一つの画像を表現する。図13はJPEG2000方式に係るタイルパートの並びを示した模式図である。タイルパートは、図13(a)のように画像のタイルの順序で並べてもよいし、図13(b)のように優先したいタイルから順に並べてもよい。また、タイルを複数のタイルパートに分割した場合は、タイルパートは図13(c)のように並べられる。 Furthermore, as shown in FIG. 13, one image is expressed by arranging tile parts. FIG. 13 is a schematic diagram showing an arrangement of tile parts according to the JPEG2000 system. The tile parts may be arranged in the order of the tiles of the image as shown in FIG. 13A, or may be arranged in order from the tile to be prioritized as shown in FIG. 13B. When a tile is divided into a plurality of tile parts, the tile parts are arranged as shown in FIG.
〔情報処理装置のハードウェア構成〕
本実施形態に係る情報処理装置は、パーソナルコンピュータ(PC)やワークステーション(WS)、或いは、携帯情報端末(PDA)等の情報処理装置で実現される。次に、情報処理装置のハードウェア構成について、図1を参照して説明する。図1は本実施形態に係る情報処理装置のハードウェア構成を示したブロック図である。
[Hardware configuration of information processing device]
The information processing apparatus according to the present embodiment is realized by an information processing apparatus such as a personal computer (PC), a workstation (WS), or a personal digital assistant (PDA). Next, the hardware configuration of the information processing apparatus will be described with reference to FIG. FIG. 1 is a block diagram showing a hardware configuration of the information processing apparatus according to the present embodiment.
図1において、101はCPUであり、本実施形態に係る情報処理装置の各種制御を実行する。102はROMであり、情報処理装置の立ち上げ時に実行されるブートプログラムや各種データを格納する。103はRAMであり、CPU101が処理するための制御プログラムを格納するとともに、CPU101が各種制御を実行する際の作業領域を提供する。
In FIG. 1,
104はキーボード、105はマウスであり、ユーザによる各種入力操作環境を提供する。106は外部記憶装置であり、ハードディスクやフロッピー(登録商標)ディスク、CD−ROM、DVD−ROM等で構成される。
A
107は表示器であり、処理の内容や処理結果を表示してユーザに伝達する。108はネットワークインターフェースであり、ネットワーク上の各機器(不図示)との通信を可能とする。109はIEEE1394、USBなどのインターフェース(I/F)であり、スキャナ110やデジタルカメラ111などの機器と通信を行う。また、112は上記の各構成を接続するバスである。
尚、上記の構成においてスキャナ110、デジタルカメラ111や外部記憶装置106は、ネットワーク上に配置されたもので代用してもよい。また、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。
In the above configuration, the
本実施形態では、外部記憶装置106から本実施形態に係るプログラム及び関連データを直接RAM103にロードして実行させる例を示すが、これに限られない。例えば、本実施形態に係るプログラムをROM102に記録しておき、これをメモリマップの一部をなすように構成し、直接CPU101で実行することも可能である。
In the present embodiment, an example in which the program and related data according to the present embodiment are directly loaded into the
また、本実施形態では、説明の便宜のため、本実施形態に係る情報処理装置をそれぞれ1つの装置で実現した構成について述べるが、複数の装置にリソースを分散した構成によって実現してもよい。例えば、記憶や演算のリソースを複数の装置に分散した形に構成してもよい。或いは、情報処理装置上で仮想的に実現される構成要素毎にリソースを分散し、並列処理を行うようにしてもよい。 In the present embodiment, for convenience of explanation, a configuration in which the information processing apparatus according to the present embodiment is realized by a single device will be described. However, a configuration in which resources are distributed to a plurality of devices may be realized. For example, storage and calculation resources may be distributed in a plurality of devices. Alternatively, resources may be distributed for each component virtually realized on the information processing apparatus, and parallel processing may be performed.
〔情報処理装置の機能構成〕
図2は本実施形態に係る情報処理装置の機能構成を示したブロック図である。図2に示される各機能ブロックは、図1を参照して上述した情報処理装置のCPU101がRAM103にロードされたプログラムを実行し、図1に示される各ハードウェアと協働することによって実現される。もちろん機能ブロックの一部或いは全てが専用のハードウェアで実現されてもよい。
[Functional configuration of information processing device]
FIG. 2 is a block diagram showing a functional configuration of the information processing apparatus according to the present embodiment. Each functional block shown in FIG. 2 is realized by the
図2において、201は検索元画像であり、ユーザーにより指定される。202は画像蓄積部であり、外部記憶装置106上に存在し、1以上の画像データを格納する。本実施形態に係る情報処理装置は、後述の類似画像検索処理において、画像蓄積部202に格納された画像データのうち、検索元画像201に類似するものを検索する。
In FIG. 2,
203は画像ヘッダ読込部であり、検索元画像201、及び、画像蓄積部202に格納された(階層符号化された)画像データについて、それぞれ画像ヘッダの読み込みを行う。後述するように、画像ヘッダにはコーディングパスの数、コードブロックの圧縮画像データの長さ、ゼロビットプレーンの数等の、符号化情報が記述されている。
An image
204は画像種類判別部であり、画像ヘッダ部を解析し、画像ヘッダに記述された符号化情報に基づいて画像の種類を判別する。205は画像種類ラベル行列化部であり、画像種類判別部204によって判別された画像の種類をラベルとして配列し、画像種類ラベル行列を作成する。画像種類判別部204および画像種類ラベル行列化部205が実行する処理(画像種類ラベル行列作成処理)の詳細は後述する。
An image
206は画像種類ラベル行列比較部である。画像種類ラベル行列比較部206が実行する処理(画像種類ラベル行列比較処理)の詳細は後述する。
207は画像データ読込部であり、検索元画像201、及び、画像蓄積部202から階層符号化された画像データの読み込みを行う。
An image
208は画像特徴量抽出部である。209は特徴量ラベル行列化部であり、画像特徴量抽出部208によって得られた画像特徴量のラベルを配列し、特徴量ラベル行列を作成する。画像特徴量抽出部208および特徴量ラベル行列化部209が実行する処理(特徴量ラベル行列作成処理)の詳細は後述する。
210は特徴量ラベル行列比較部である。特徴量ラベル行列比較部が実行する処理(特徴量ラベル行列比較処理)の詳細は後述する。
以上のような構成を備えた本実施形態に係る情報処理装置の動作例を、以下に説明する。 An operation example of the information processing apparatus according to this embodiment having the above-described configuration will be described below.
〔類似画像検索処理〕
図14のフローチャートに従って類似画像検索の処理を説明する。図14は本実施形態に係る情報処理装置が実行する、類似画像検索処理の手順を示したフローチャートである。
[Similar image search processing]
The similar image search process will be described with reference to the flowchart of FIG. FIG. 14 is a flowchart showing a procedure of similar image search processing executed by the information processing apparatus according to the present embodiment.
まず、ステップS1401において、ユーザから類似検索元画像(検索元画像)201の指定を受け付ける。本実施形態に係る情報処理装置は、例えば、類似検索元画像201の識別情報を選択可能に表示器107に表示し、キーボード104、マウス105等からの入力を受け付ける。
First, in step S1401, designation of a similar search source image (search source image) 201 is received from the user. The information processing apparatus according to the present embodiment displays, for example, the identification information of the similar
次に、ステップS1402において、後述の画像種類ラベル行列作成処理により、指定された類似検索元画像201について画像種類ラベル行列を作成する。
Next, in step S1402, an image type label matrix is created for the designated similar
次にステップS1403において、後述の特徴量ラベル行列作成処理により、当該類似検索元画像201について特徴量ラベル行列を作成する。
In step S1403, a feature amount label matrix is created for the similarity
次に、ステップS1404において、画像蓄積部202に格納された画像データから1つを類似比較先画像として選択し、この選択された類似比較先画像について、後述の画像種類ラベル行列作成処理により画像種類ラベル行列を作成する。
Next, in step S1404, one of the image data stored in the
次に、ステップS1405において、類似検索元画像201の画像種類ラベル行列と、ステップS1404で選択された類似比較先画像の画像種類ラベル行列との比較を行い、画像種類ラベル行列が不一致であるか否かを判定する。タイル形状の違い等で比較できなかった場合、または、比較の結果一致していた場合(ステップS1405でNO)はステップS1406に進む。比較の結果不一致だった場合(ステップS1405でYES)は、ステップS1408へ進む。画像種類ラベル行列の比較は、後述の画像種類ラベル行列比較処理に基づいて実行する。
Next, in step S1405, the image type label matrix of the similar
ステップS1406では、後述の特徴量ラベル行列作成処理により、ステップS1404で選択された類似比較先画像について特徴量ラベル行列を作成する。 In step S1406, a feature amount label matrix is created for the similar comparison target image selected in step S1404 by a feature amount label matrix creation process described later.
次に、ステップS1407において、類似検索元画像201の特徴量ラベル行列と、ステップS1404で選択された類似比較先画像の特徴量ラベル行列との比較を行い、類似度を算出する。特徴量ラベル行列の比較は後述の特徴量ラベル行列比較処理に基づいて実行する。
In step S1407, the feature amount label matrix of the similar
類似画像検索処理においては、ステップS1404からステップS1407の処理を、画像蓄積部202に格納された全登録データ(画像データ)が類似比較先画像となるように繰り返し実行する。
In the similar image search processing, the processing from step S1404 to step S1407 is repeatedly executed so that all registered data (image data) stored in the
ステップS1408では、ステップS1404からステップS1407の処理が画像蓄積部202に格納された全ての画像データについて実行されたか否かを判定する。実行されている場合(ステップS1408でYES)はステップS1409へ進む。実行されていない場合(ステップS1408でNO)は、ステップS1404へ戻り、画像蓄積部202から、まだステップS1404乃至S1407の処理を実行していない画像データを選択して、ステップS1404乃至S1407の処理を実行する。
In step S1408, it is determined whether or not the processing from step S1404 to step S1407 has been executed for all the image data stored in the
ステップS1409では、ステップS1407において得られた類似度の高い順に、類似比較先画像の識別情報をソートし、ステップS1410へ進む。 In step S1409, the identification information of the similar comparison destination images is sorted in descending order of similarity obtained in step S1407, and the process proceeds to step S1410.
ステップS1410では、ソートされた類似比較先画像の識別情報の一覧を検索結果として表示器107に表示し、ユーザに提示する。そして処理を終了する。
In step S1410, the sorted list of identification information of the similar comparison target images is displayed on the
〔画像種類ラベル行列作成処理〕
次に、ステップS1402及びS1404において実行する画像種類ラベル行列作成処理について説明する。画像種類ラベル行列作成処理は、画像種類判別部204が実行する画像種類判別処理と、画像種類ラベル行列化部205が実行する画像種類ラベル行列化処理からなる。
[Image type label matrix creation processing]
Next, the image type label matrix creation process executed in steps S1402 and S1404 will be described. The image type label matrix creating process includes an image type determining process executed by the image
(画像種類判別処理)
画像種類判別処理は、画像が保存されたときに分割されたタイル単位で、画像の種類(本実施形態の例では、写真(自然)画像であるか、文字画像・グラフィック画像であるか)を判別する処理である。画像種類は、パケットヘッダに書かれている、コーディングパスの数、コードブロックの圧縮画像データの長さ、ゼロビットプレーンの数等の符号化情報のうち、少なくともいずれかの情報に基づいて判断する。
(Image type discrimination processing)
The image type determination process is performed by determining the type of image (in the example of this embodiment, whether it is a photograph (natural) image, a character image, or a graphic image) in units of tiles divided when the image is stored. This is a process for determining. The image type is determined based on at least one of coding information such as the number of coding passes, the length of the compressed image data of the code block, and the number of zero bit planes written in the packet header. .
コーディングパスの数により画像種類判別する場合は、低周波成分(図5(c)の2LL)におけるコーディングパスの総数と高周波成分(図5(c)の1HL、1LH、1HH)におけるコーディングパスの総数を比較する。低周波成分におけるコーディングパスの総数に対する、高周波成分におけるコーディングパスの総数の割合が所定の値を超えている場合は文字画像・グラフィック画像であり、低周波成分におけるコーディングパスの総数に対する、高周波成分におけるコーディングパスの総数の割合が所定の値を下回っている場合は自然画像であると判別する。 When discriminating image types based on the number of coding passes, the total number of coding passes in the low frequency component (2LL in FIG. 5C) and the total number of coding passes in the high frequency components (1HL, 1LH, 1HH in FIG. 5C). Compare When the ratio of the total number of coding passes in the high frequency component to the total number of coding passes in the low frequency component exceeds a predetermined value, it is a character image / graphic image, and in the high frequency component with respect to the total number of coding passes in the low frequency component When the ratio of the total number of coding passes is below a predetermined value, it is determined that the image is a natural image.
ビットプレーンのレイヤ枚数が複数枚である場合は、レイヤごとにコーディングパスの数を算出し、判別してもよい。その場合は、最上位レイヤのコーディングパスの数を利用することによって、より精度の高い判別が可能となる。 When the number of bit plane layers is plural, the number of coding passes may be calculated for each layer and determined. In that case, by using the number of coding passes of the highest layer, discrimination with higher accuracy becomes possible.
コードブロックの圧縮画像データの長さ(圧縮画像データ長)により画像種類判別する場合は、低周波成分(図5(c)の2LL)におけるコードブロックの圧縮画像データの長さと高周波成分(図5(c)の1HL、1LH、1HH)におけるコードブロックの圧縮画像データの長さを比較する。低周波成分におけるコードブロックの圧縮画像データの長さに対する、高周波成分におけるコードブロックの圧縮画像データの長さの割合が所定の値を超えている場合は自然画像であり、低周波成分におけるコードブロックの圧縮画像データの長さに対する、高周波成分におけるコードブロックの圧縮画像データの長さの割合が所定の値を下回っている場合は文字画像・グラフィック画像であると判別する。 When the image type is determined based on the length of the compressed image data of the code block (compressed image data length), the length of the compressed image data of the code block and the high frequency component (FIG. 5) in the low frequency component (2LL in FIG. 5C). The lengths of the compressed image data of the code blocks in (c) 1HL, 1LH, 1HH) are compared. When the ratio of the length of the compressed image data of the code block in the high frequency component to the length of the compressed image data of the code block in the low frequency component exceeds a predetermined value, it is a natural image, and the code block in the low frequency component If the ratio of the length of the compressed image data of the code block in the high-frequency component to the length of the compressed image data is less than a predetermined value, it is determined that the image is a character image / graphic image.
ゼロビットプレーンの数により画像種類判別する場合は、高周波成分(図5(c)の1HL、1LH、1HH)におけるゼロビットプレーンの数が所定の値を超えている場合は自然画像であり、高周波成分(図5(c)の1HL、1LH、1HH)におけるゼロビットプレーンの数が所定の値を下回っている場合は文字画像・グラフィック画像であると判別する。 When the image type is determined based on the number of zero bit planes, if the number of zero bit planes in the high frequency components (1HL, 1LH, 1HH in FIG. 5C) exceeds a predetermined value, the image is a natural image. When the number of zero bit planes in the component (1HL, 1LH, 1HH in FIG. 5C) is below a predetermined value, it is determined that the image is a character image / graphic image.
上記の、コーディングパスの数、コードブロックの圧縮画像データの長さ、ゼロビットプレーンの数等の符号化情報のうち、少なくともいずれかの情報に基づく手法は、一定の精度で画像種類を判別することが可能であることが経験的に知られている。 The method based on at least one of the coding information such as the number of coding passes, the length of the compressed image data of the code block, the number of zero bit planes, etc., determines the image type with a certain accuracy. It is empirically known that it is possible.
上記のように、本実施形態に係る構成においては、画像ファイルの画像データ全域を読み取ることなく、ヘッダ部分に書かれている情報のみを読み込み、ヘッダ情報のみを解析することにより、使用メモリ量が少なく高速な画像種類判別を行うことができる。 As described above, in the configuration according to this embodiment, the amount of memory used is reduced by reading only the information written in the header portion and analyzing only the header information without reading the entire image data of the image file. It is possible to perform image type discrimination with little and high speed.
画像種類判別部204は、画像種類判別処理を実行した結果、写真(自然)画像と判別されたのタイルについては0、文字画像・グラフィック画像と判別されたタイルについては1のラベルを付与する。即ち、各タイルについて、タイルを識別する情報と画像の種類を示すラベル情報とを関連づけてRAM103、外部記憶装置106等の記憶装置に記憶する。
The image
(画像種類ラベル行列化処理)
画像種類ラベル行列化処理は、画像種類判別処理によって判別された結果のラベル情報を、対応するタイルの画像データ全体における配置に基づいて配列し、画像種類ラベル行列を作成する処理である。
(Image type label matrix processing)
The image type label matrixing process is a process of creating the image type label matrix by arranging the label information obtained as a result of the discrimination by the image type discrimination process based on the arrangement of the corresponding tiles in the entire image data.
図15は画像種類ラベル行列を作成する際のタイル順序列を説明する図である。図15において、1501は画像データ、1502は画像データ1501を構成するタイルをそれぞれ模式的に示している。また、各タイル1502のます内に記述された数字はタイルの配列順序を示す通し番号である。画像種類ラベル行列化部205は、図5に例示した分割画像タイルの通し番号に基づいて上記の画像種類ラベル情報を配列し、ラベル行列を作る。本実施形態では、ラベル行列は、タイルの配置に対応してラベル情報が2次元的に配列された行列とするが、所定の順序で1次元に並べたものもラベル行列と称する。
FIG. 15 is a diagram for explaining a tile order sequence when an image type label matrix is created. In FIG. 15, 1501 schematically illustrates image data, and 1502 schematically illustrates tiles constituting the
〔画像種類ラベル行列比較処理〕
次に、ステップS1405において画像種類ラベル行列比較部206が実行する画像種類ラベル行列比較処理について説明する。
[Image type label matrix comparison processing]
Next, the image type label matrix comparison process executed by the image type label
検索元画像201と比較先画像とでタイル分割の態様が等しい場合は、検索元画像201の画像種類ラベル行列と、比較先画像の画像種類ラベル行列との単純比較を行い、一致するか、一致しないかの判断をする。即ち、対応するタイル位置におけるラベル情報の値(画像種類ラベル行列の成分値)が全て等しいか否かを判定する。全て等しい場合は一致すると判断し、等しくない場合は一致しない(不一致)と判断する。尚、タイル分割の態様が等しいとは、画像データをタイルに分割した場合に、縦方向のタイル数と、横方向のタイル数とが共に等しい、即ち、画像種類ラベル行列の行数と列数が共に等しいことを意味する。
When the tile division mode is the same between the
検索元画像201と比較先画像とでタイル分割の態様が異なる場合は、以下の処理を行う。即ち、画像種類ラベル行列の行数と列数とが共に等しくなるように、検索元画像201と比較先画像とのそれぞれについて、対応する画像種類ラベル行列の成分を複数のグループに分解(グループ化)し、各グループについてグループに含まれる成分を1つに合成する処理を行う。そして、合成後の画像種類ラベル行列について、検索元画像201と比較先画像との、それぞれ対応する位置の成分値が全て等しい場合に一致すると判断し、等しくない場合に不一致と判断する。
When the tile division mode is different between the
ここで、対応する画像種類ラベル行列の複数の成分を1つに合成する処理は、画像データについて、複数のタイルを結合して1つのタイルにする処理に相当する。また、複数のタイルを結合した後の、画像データにおけるタイル境界の相対位置が、検索元画像201と比較先画像とで近接している場合に、類似度の判定を高精度で行うことができる。
Here, the process of combining the plurality of components of the corresponding image type label matrix into one corresponds to the process of combining a plurality of tiles into one tile for the image data. In addition, when the relative position of the tile boundary in the image data after combining a plurality of tiles is close between the
このため、本実施形態では、画像種類ラベル行列の成分のグループ化を以下の条件を満たすように実行する。
(1)合成後の画像種類ラベル行列の行数が、合成前の、検索元画像201に対応する画像種類ラベル行列の行数と、比較先画像に対応する画像種類ラベル行列の行数との最大公約数となる。
(2)合成後の画像種類ラベル行列の列数が、合成前の、検索元画像201に対応する画像種類ラベル行列の列数と、比較先画像に対応する画像種類ラベル行列の列数との最大公約数となる。
For this reason, in this embodiment, the grouping of the components of the image type label matrix is executed so as to satisfy the following condition.
(1) The number of rows of the image type label matrix after synthesis is the number of rows of the image type label matrix corresponding to the
(2) The number of columns of the image type label matrix after combining is the number of columns of the image type label matrix corresponding to the
これは、以下の条件を満たすようにタイルをグループ化することに相当する。
(1)タイル結合後の縦方向のタイル数が、結合前の検索元画像201の縦方向のタイル数と比較先画像の縦方向のタイル数との最大公約数となる。
(2)タイル結合後の横方向のタイル数が、結合前の検索元画像201の横方向のタイル数と比較先画像の横方向のタイル数との最大公約数となる。
This is equivalent to grouping tiles so as to satisfy the following conditions.
(1) The number of tiles in the vertical direction after tile combination is the greatest common divisor of the number of tiles in the vertical direction of the
(2) The number of tiles in the horizontal direction after combining the tiles is the greatest common divisor of the number of tiles in the horizontal direction of the
このように行列成分(タイル)をグループ化することにより、合成に係るグループに含まれる行列成分(タイル)の個数及び配置が全て等しくなるように、行列成分(タイル)のグループ化を行うことができる。このようにグループ化して行列成分を合成することは、タイル境界の画像データにおける相対位置が検索元画像201と比較先画像とで近接するようにタイルを結合させることに相当するため、類似度の判定を高精度で行うことができる。
By grouping the matrix components (tiles) in this way, the matrix components (tiles) can be grouped so that the number and arrangement of the matrix components (tiles) included in the group related to the synthesis are all equal. it can. Since grouping and synthesizing matrix components in this way corresponds to combining the tiles so that the relative position in the image data of the tile boundary is close to the
なお、行列成分の合成(タイルの結合)は、以下の条件を満たすように実行する。
(条件1)合成後の行列成分(結合後のタイル)の総数が所定の値を下回る場合は、画像種類ラベル行列の比較が不可能として処理を終了する。
(条件2)結合するタイルのラベル、即ち、合成に係るグループに含まれる成分値がすべて1(文字画像・グラフィック画像)の場合は、結合(合成)後のラベル(成分値)を1とする。結合するタイルのラベルの0(写真画像)の割合、即ち、合成に係るグループに含まれる値が0の成分値の割合が所定の値を超えている場合は、結合後のラベル(合成後の成分値)を0とする。それ以外の場合は、画像種類ラベル行列の比較が不可能として処理を終了する。
Note that the synthesis of matrix components (combination of tiles) is executed so as to satisfy the following conditions.
(Condition 1) If the total number of matrix components after combination (combined tiles) is less than a predetermined value, the image type label matrix cannot be compared and the process is terminated.
(Condition 2) When the labels of tiles to be combined, that is, when the component values included in the group related to composition are all 1 (character image / graphic image), the label (component value) after combination (composition) is set to 1. . If the ratio of 0 (photo image) of the labels of the tiles to be combined, that is, the ratio of the component values with the
尚、上記の条件は用途や目的に応じて適切に変更することができる。例えば、(条件1)の代わりに、「タイルの結合数が所定の値を上回る場合は、画像種類ラベル行列比較不可能として処理を終了する」としてもよい。 In addition, said conditions can be changed suitably according to a use and the objective. For example, instead of (Condition 1), “If the number of combined tiles exceeds a predetermined value, the image type label matrix comparison is impossible and the process is terminated”.
上記のように、画像種類判別処理において判別された結果に基づいて画像の類似性を判定することで、画像の類似性を高速に判定することができる。 As described above, by determining the similarity of images based on the result determined in the image type determination process, the similarity of images can be determined at high speed.
〔特徴量ラベル行列作成処理〕
次に、ステップS1403、S1406において実行する特徴量ラベル行列作成処理について説明する。特徴量ラベル行列作成処理は、画像特徴量抽出部208が実行する特徴量抽出処理と、特徴量ラベル行列化部209が実行する特徴量ラベル行列化処理からなる。本実施形態では画像特徴量として後述のカラーラベルを用いる。
[Feature label creation process]
Next, the feature amount label matrix creation process executed in steps S1403 and S1406 will be described. The feature amount label matrix creation process includes a feature amount extraction process executed by the image feature
(特徴量抽出処理)
まず、当該画像を複数のブロックに分割する。本実施形態では、画像を縦横のブロックに分割する。図16は本実施形態におけるブロック分割例を示す図である。図16に示されるように、本実施形態では、3×3の計9個に画像を分割するものとする。なお、本実施形態で用いる3×3への分割はあくまで説明のためのものであり、どのような分割形態も採用することができる。実際には、例えば、自然画であれば10×10以上の分割数とするのが好ましい。また、白の無地背景に商品が写っているような場合であれば、13×13以上の分割数とするのが好ましい。尚、ブロック分割の態様は、タイル等のJPEG2000規格における画像分割単位に関わらず、自由に選択することができる。
(Feature extraction process)
First, the image is divided into a plurality of blocks. In this embodiment, an image is divided into vertical and horizontal blocks. FIG. 16 is a diagram showing an example of block division in this embodiment. As shown in FIG. 16, in this embodiment, it is assumed that the image is divided into a total of 9 × 3 × 3. Note that the 3 × 3 division used in the present embodiment is for illustrative purposes only, and any division form can be adopted. Actually, for example, for natural images, the number of divisions is preferably 10 × 10 or more. In addition, if the product is shown on a white plain background, the number of divisions is preferably 13 × 13 or more. The mode of block division can be freely selected regardless of the image division unit in the JPEG2000 standard such as tile.
図17は本実施形態における多次元特徴量空間を説明する図である。図17に示すように、多次元特徴量空間(RGBカラー空間)は複数のブロック(色ブロック)、即ちセル(色セル)に分割され、それぞれのセル(色セル)に対して通し番号でユニークなラベルが付与される。図17の例では、RGBカラー空間を3×3×3=27のブロック(セル)に分割している。ここで、多次元特徴量空間(RGBカラー空間)をそれぞれ一定の空間を備える複数のブロックに分けたのは、厳密な画像特徴量(色、RGB値)の違いを吸収するようにRGBカラー空間の範囲に一定の幅を持たせることで、特徴量の類似度を高い精度で比較するためである。 FIG. 17 is a diagram for explaining a multidimensional feature amount space in the present embodiment. As shown in FIG. 17, the multidimensional feature space (RGB color space) is divided into a plurality of blocks (color blocks), that is, cells (color cells), and each cell (color cell) is unique by a serial number. Label is given. In the example of FIG. 17, the RGB color space is divided into 3 × 3 × 3 = 27 blocks (cells). Here, the multi-dimensional feature amount space (RGB color space) is divided into a plurality of blocks each having a fixed space in order to absorb strict differences in image feature amounts (color, RGB value). This is because the degree of similarity of feature amounts is compared with high accuracy by giving a certain width to the range.
次に、各分割ブロックについて定められた画像特徴量計算処理を行い、上記多次元特徴量空間上のどのセルに属するかを求め、対応するラベルを求める。この画像特徴量計算処理は、例えば、次のように行う。即ち、まず、処理対象のブロックに含まれる全ての画素についてRGB値を取得し、それぞれの画素について属する色セルを求める。そして、属する画素の数が最も多い色セルのラベルを、その分割画像ブロックのパラメータラベル(カラーラベル)として決定する。このような処理をすべてのブロックに対して行う。 Next, image feature amount calculation processing determined for each divided block is performed to determine which cell in the multidimensional feature amount space belongs to and a corresponding label. This image feature amount calculation processing is performed as follows, for example. That is, first, RGB values are acquired for all pixels included in the processing target block, and color cells belonging to the respective pixels are obtained. Then, the label of the color cell having the largest number of belonging pixels is determined as the parameter label (color label) of the divided image block. Such processing is performed for all blocks.
尚、上記の例では、画像特徴量としてRGB値をそのまま用いた構成を述べたが、本実施形態に係る構成はこれに限られない。例えば、事前に複数のサンプル画像データについて主成分分析等を利用した解析を行っておき、画像の類似度を的確に反映するような、画像特徴量の規格化条件を求めておき、この規格化条件において画像特徴量計算処理を行うように構成してもよい。 In the above example, the configuration in which the RGB value is used as it is as the image feature amount is described, but the configuration according to the present embodiment is not limited to this. For example, analysis using a principal component analysis or the like is performed on a plurality of sample image data in advance, and an image feature amount normalization condition that accurately reflects image similarity is obtained, and this normalization is performed. You may comprise so that an image feature-value calculation process may be performed on condition.
(特徴量ラベル行列化処理)
以上のようにして各ブロックに対してパラメータラベルを付与した後、各ブロックに付与されたパラメータラベルを所定のブロック順序で並べることにより、パラメータラベル行列(以下、ラベル行列とする)を生成する。
(Feature label matrix processing)
After assigning parameter labels to each block as described above, a parameter label matrix (hereinafter referred to as a label matrix) is generated by arranging the parameter labels assigned to each block in a predetermined block order.
ラベル行列を生成する場合も、図15のように各分割画像ブロックに通し番号を付与し、この通し番号に基づいて上記のパラメータラベルを配列し、ラベル行列を作成する。本実施形態では、ラベル行列は、ブロックの配置に対応してラベル情報が2次元的に配列された行列とするが、所定の順序で1次元に並べたものもラベル行列と称する。 Also in the case of generating a label matrix, a serial number is assigned to each divided image block as shown in FIG. 15, and the parameter labels are arranged based on this serial number to create a label matrix. In the present embodiment, the label matrix is a matrix in which the label information is two-dimensionally arranged corresponding to the arrangement of the blocks, but the one arranged in one dimension in a predetermined order is also called a label matrix.
〔特徴量ラベル行列比較処理〕
次に、ステップS1407において特徴量ラベル行列比較部210が実行する、特徴量ラベル(カラーラベル)行列同士の類似比較(類似度の算出)を行う処理(特徴量ラベル行列比較処理)について、図18を参照して説明する。図18は、ラベル行列を比較し類似度を求める際に用いる、ラベル間のペナルティマトリックスの一例を示す図である。
[Feature Label Label Comparison Processing]
Next, the processing (feature amount label matrix comparison processing) performed by the feature amount label
図18において、1801、1802は、それぞれ比較を行う特徴量ラベル行列の成分値(ラベル)を示している。また、表中に示された値は、比較する2つのラベルの類似度を示すペナルティであり、ペナルティの値が小さいほどラベルは類似していることを示す。例えば、1803のように、ラベル2とラベル6のペナルティは「7」である。また、例えば、1804のように、同じラベル同士のペナルティは当然のことながら「0」となっている。
In FIG. 18,
本マトリックスの使用目的はラベルの類似に応じた距離判定を行うことにある。すなわち、本実施形態では、特徴量空間としてRGBカラー空間を用いているので、色の類似に応じた距離判定が行えることになる。ラベル間のパターンマッチングの際に近接するセル同士ではペナルティ(距離)を小さくし、遠いものには大きなペナルティを与えるように、ペナルティマトリックスを定義しておく。 The purpose of this matrix is to perform distance determination according to the similarity of labels. That is, in this embodiment, since the RGB color space is used as the feature amount space, the distance determination according to the similarity of colors can be performed. A penalty matrix is defined so that a penalty (distance) is reduced between adjacent cells when pattern matching between labels is performed, and a large penalty is given to a distant cell.
本実施形態では、検索元画像201の特徴量ラベル行列と、検索対象画像の特徴量ラベル行列との、それぞれ対応する位置のラベルの値について、図18のペナルティマトリックスを参照して距離を求める。そして、特徴量ラベル行列の全ての成分(ラベル)について求めたペナルティの値に基づいて類似度を求める。類似度は、各ペナルティ値に対する増加関数となるように算出する。例えば、類似度は、ラベル列中の全ラベルについての距離(ペナルティ)の和とすることができる。
In the present embodiment, distances are obtained with reference to the penalty matrix in FIG. 18 for the label values at corresponding positions in the feature amount label matrix of the
図19は、マッチングによるラベル列間の距離の算出を説明する図である。例えば、図19の例においては、検索元画像201のラベル列1901が「112313441」であり、検索対象画像のラベル列1902が「113224452」であるので、図18のペナルティマトリックスを用いてマッチングを行うと、ペナルティの列は「002217011」となる。従って、類似度をペナルティの和とすると、
距離(最終解)、即ち、類似度は、
0+0+2+2+1+7+0+1+1=14
となる。
FIG. 19 is a diagram for explaining the calculation of the distance between label strings by matching. For example, in the example of FIG. 19, since the
The distance (final solution), that is, the similarity is
0 + 0 + 2 + 2 ++ 1 + 7 + 0 + 1 + 1 = 14
It becomes.
本実施形態では、特徴量をラベル表現して類似検索を行っているが、特徴量をラベル化せずに類似検索を行うように構成してもよい。 In this embodiment, the similarity search is performed by expressing the feature quantity as a label. However, the similarity search may be performed without labeling the feature quantity.
上記のように、ステップS1405における画像種類判別処理において類似と判定された画像データについてのみ特徴量ラベル行列作成処理、特徴量ラベル行列比較処理を実行するため、画像検索を高速に実行することができる。 As described above, since the feature amount label matrix creation processing and the feature amount label matrix comparison processing are executed only for the image data determined to be similar in the image type determination processing in step S1405, the image search can be executed at high speed. .
〔その他の実施の形態〕
上記の構成によれば、あらかじめ画像特徴量を抽出することなく高速な画像検索が提供可能であるが、あらかじめ画像特徴量を抽出しておき、画像種類判別行列をプリサーチとして使用することも可能である。上記のように、画像特徴量の抽出処理に係る演算量は少ないため、事前処理を行う場合も高速に行うことができる。事前処理を行う場合はさらに高速な画像検索を実現することができる。
[Other Embodiments]
According to the above configuration, high-speed image retrieval can be provided without extracting image feature amounts in advance, but it is also possible to extract image feature amounts in advance and use the image type discrimination matrix as a pre-search. It is. As described above, since the amount of calculation related to the image feature amount extraction processing is small, it can be performed at high speed even when pre-processing is performed. When pre-processing is performed, a higher-speed image search can be realized.
また、上記各実施形態では画像特徴量として色情報を選んだが、本発明に係る実施形態はこれに限られるものではなく、その他の画像パラメータ(例えば、輝度値やエッジヒストグラム)を画像分割ブロックごとに求めることで実施することも可能である。 Further, although color information is selected as the image feature amount in each of the above embodiments, the embodiment according to the present invention is not limited to this, and other image parameters (for example, luminance values and edge histograms) are set for each image division block. It is also possible to implement it by asking for.
また、上記各実施形態では1つの特徴量に基づいた認識の例を挙げたが、その他の特徴量での検索結果との論理演算を行うことにより、複数の特徴量に基づく高速な検索を行うことも可能である。 In each of the above embodiments, an example of recognition based on one feature amount has been described. However, a high-speed search based on a plurality of feature amounts is performed by performing a logical operation on a search result with other feature amounts. It is also possible.
1つの画像に対して複数の画像特徴量を用いた検索を行う場合には、上記の構成において得られる類似度を1つの新たなる画像特徴量とみなし、複数のパラメータを用いた多変量解析を行い統計的な距離尺度を用いた検索を行うことも可能である。また、上記実施形態では、類似度が所定値を越える類似画像を検索結果として得るが、類似度の高い画像から順に前もって指定された個数の画像を検索結果として出力するようにしてもよいことは言うまでもない。 When performing a search using a plurality of image feature amounts for one image, the similarity obtained in the above configuration is regarded as one new image feature amount, and a multivariate analysis using a plurality of parameters is performed. It is also possible to perform a search using a statistical distance measure. In the above-described embodiment, similar images having a degree of similarity exceeding a predetermined value are obtained as search results. However, a predetermined number of images may be output as search results in order from images with high similarity. Needless to say.
なお、本発明は、例えばホストコンピュータ,インタフェイス機器,リーダ,プリンタなどの複数の機器から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機,ファクシミリ装置など)に適用してもよい。 Note that the present invention can be applied to an apparatus (for example, a copier, a facsimile machine, etc.) composed of a single device even if it is applied to a system composed of a plurality of devices such as a host computer, an interface device, a reader, and a printer. You may apply.
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。 Another object of the present invention is to supply a storage medium storing software program codes for implementing the functions of the above-described embodiments to a system or apparatus, and the computer (or CPU or MPU) of the system or apparatus stores the storage medium. Needless to say, this can also be achieved by reading and executing the program code stored in the.
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention.
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。 As a storage medium for supplying the program code, for example, a floppy disk, a hard disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used.
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion is performed based on the instruction of the program code. It goes without saying that the CPU or the like provided in the board or the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
Claims (12)
前記符号化情報に基づいて前記タイル毎の画像種類を判別する判別手段と、
を備え、
前記タイルは複数の周波数成分毎に分割されていることを特徴とする情報処理装置。 Acquisition means for acquiring image data composed of one or more tiles, wherein the tile includes at least a header including encoding information about encoding of the tile;
Discrimination means for discriminating the image type for each tile based on the encoding information;
With
The information processing apparatus according to claim 1, wherein the tile is divided into a plurality of frequency components.
前記判別手段は、前記第1のコーディングパス数と前記第2のコーディングパス数との比率に基づいて前記判別を行うことを特徴とする請求項1に記載の情報処理装置。 The encoded information includes a first coding pass number in a low frequency component and a second coding pass number in a high frequency component among the plurality of frequency components constituting the tile,
The information processing apparatus according to claim 1, wherein the determination unit performs the determination based on a ratio between the first coding pass number and the second coding pass number.
前記判別手段は、前記第1の圧縮画像データ長と前記第2の圧縮画像データ長との比率に基づいて前記判別を行うことを特徴とする請求項1に記載の情報処理装置。 The encoded information includes a first compressed image data length in a low-frequency component and a second compressed image data length in a high-frequency component among the plurality of frequency components constituting the tile,
The information processing apparatus according to claim 1, wherein the determination unit performs the determination based on a ratio between the first compressed image data length and the second compressed image data length.
前記判別手段は、前記ゼロビットプレーン数の大きさに基づいて前記判別を行うことを特徴とする請求項1に記載の情報処理装置。 The encoding information is the number of zero bit planes in a high frequency component among the plurality of frequency components constituting the tile,
The information processing apparatus according to claim 1, wherein the determination unit performs the determination based on a size of the number of zero bit planes.
前記判別手段は、前記第1及び第2タイルの画像種類をタイル毎に判別し、
更に、前記判別手段において判別された、前記第1のタイルの画像種類と、前記第2のタイルの画像種類との比較に基づいて、前記第1及び第2の画像データの類似性を判定する第1の判定手段を備えることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。 The acquisition means further acquires first image data composed of a first tile and second image data composed of a second tile,
The determining means determines the image type of the first and second tiles for each tile,
Further, the similarity between the first and second image data is determined based on the comparison between the image type of the first tile and the image type of the second tile determined by the determining unit. The information processing apparatus according to claim 1, further comprising a first determination unit.
前記第1の判定手段において前記第1及び第2の画像データが類似すると判定された場合に、前記第1のタイルに含まれる前記画素情報と前記第2のタイルに含まれる前記画素情報とに基づいて、該第1及び第2の画像データの類似性を判定する第2の判定手段を更に備えることを特徴とする請求項7に記載の情報処理装置。 The tile further includes one or more pixel information,
When the first determination unit determines that the first and second image data are similar, the pixel information included in the first tile and the pixel information included in the second tile The information processing apparatus according to claim 7, further comprising: a second determination unit that determines the similarity between the first and second image data based on the second image data.
RGBカラー空間において定義された複数の領域を記憶する記憶手段を更に備え、
前記第2の判定手段は、
前記複数の領域のうち前記第1のタイルに含まれる前記画素情報が属する領域と、前記第2のタイルに含まれる前記画素情報が属する領域と、に基づいて前記判定を行うことを特徴とする請求項8に記載の情報処理装置。 The pixel information includes at least RGB color information,
Storage means for storing a plurality of areas defined in the RGB color space;
The second determination means includes
The determination is performed based on an area to which the pixel information included in the first tile belongs and an area to which the pixel information included in the second tile belongs. The information processing apparatus according to claim 8.
前記符号化情報に基づいて前記タイル毎の画像種類を判別する判別工程と、
を備え、
前記タイルは複数の周波数成分毎に分割されていることを特徴とする情報処理装置の制御方法。 An acquisition step of acquiring image data composed of one or more tiles, wherein the tile includes at least a header including encoding information about encoding of the tile;
A determination step of determining an image type for each tile based on the encoding information;
With
The method for controlling an information processing apparatus, wherein the tile is divided into a plurality of frequency components.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005197822A JP2007018174A (en) | 2005-07-06 | 2005-07-06 | Information processing unit and control method therefor, computer program, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005197822A JP2007018174A (en) | 2005-07-06 | 2005-07-06 | Information processing unit and control method therefor, computer program, and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007018174A true JP2007018174A (en) | 2007-01-25 |
Family
ID=37755307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005197822A Withdrawn JP2007018174A (en) | 2005-07-06 | 2005-07-06 | Information processing unit and control method therefor, computer program, and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007018174A (en) |
-
2005
- 2005-07-06 JP JP2005197822A patent/JP2007018174A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7593961B2 (en) | Information processing apparatus for retrieving image data similar to an entered image | |
US7623712B2 (en) | Image processing method and apparatus | |
US8320019B2 (en) | Image processing apparatus, image processing method, and computer program thereof | |
JP5302768B2 (en) | Image processing apparatus and image processing method | |
EP2364011B1 (en) | Fine-grained visual document fingerprinting for accurate document comparison and retrieval | |
US8593478B2 (en) | Extraction of a color palette model from an image of a document | |
JP5063422B2 (en) | Image processing apparatus, image processing method, and computer program | |
US20040213458A1 (en) | Image processing method and system | |
US20060274081A1 (en) | Image retrieving apparatus, image retrieving method, program, and storage medium | |
JP2004363786A (en) | Image processor | |
JP3745069B2 (en) | Image processing apparatus and method | |
JP2007129557A (en) | Image processing system | |
JP2007018174A (en) | Information processing unit and control method therefor, computer program, and storage medium | |
JP2007019744A (en) | Server device and its control method, client device and its control method, computer program, and storage medium | |
AU2011254041A1 (en) | Compression of sift vectors for image matching | |
JP2007228418A (en) | Information processing apparatus and its control method, image processing system, computer program, and storage medium | |
JP2006134042A (en) | Image processing system | |
JP6012700B2 (en) | Information processing apparatus, information processing method, information processing system, and computer program | |
AU2007249098B2 (en) | Method of multi-level decomposition for colour document layout analysis | |
WO2006075781A1 (en) | Image retrieval apparatus, control method therefor, computer program, and computer-readable storage medium | |
JP2004318187A (en) | Image generating device and image generating system | |
JP4587167B2 (en) | Image processing apparatus and image processing method | |
JP2005208872A (en) | Image processing system | |
JP5420032B2 (en) | Information processing apparatus, information processing method, information processing system, and computer program | |
Fan et al. | Separation of text and background regions for high performance document image compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081007 |