JP2023167143A

JP2023167143A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2023167143A
Application number: JP2022078085A
Authority: JP
Inventors: 一郁児島; Kazufumi Kojima; 真宏谷; Masahiro Tani; 圭佑池田; Keisuke Ikeda
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2023-11-24
Also published as: US20230367806A1

Abstract

【課題】パッチ単位で局所特徴量を集約した特徴量同士で照合する技術において、検索精度の低下を軽減する。
【解決手段】本発明は、画像内で物体が占める物体領域を検出する画像処理部１１と、物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定部１２と、物体領域内で上記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出部１３と、パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索部１４と、を有する画像処理装置１０を提供する。
【選択図】図１

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

クエリ画像に写る被写体と同一の被写体（類似度が基準値以上の被写体）が写る画像を参照画像の中から検索する技術が研究されている。関連する技術が非特許文献１及び２に開示されている。

非特許文献１には、画像全体の特徴量を用いてクエリ画像に類似する画像を絞り込んだ後、ピクセル単位の特徴量である局所特徴量を用いてその中からクエリ画像に類似する画像を検索する技術が開示されている。

非特許文献２には、画像内に予め定められた所定サイズのパッチを複数設定し、ピクセル単位の特徴量である局所特徴量をパッチ単位で集約する技術が開示されている。

Bingyi Cao，外２名，"Unifying Deep Local and Global Features for Image Search"，［online］，［２０２２年４月４日検索］，インターネット<URL: https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123650715.pdf> Stephen Hausler，外４名，"Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition"，［online］，［２０２２年４月４日検索］，インターネット<URL: https://openaccess.thecvf.com/content/CVPR2021/papers/Hausler_Patch-NetVLAD_Multi-Scale_Fusion_of_Locally-Global_Descriptors_for_Place_Recognition_CVPR_2021_paper.pdf>

非特許文献１に開示の技術のように、ピクセル単位の特徴量である局所特徴量同士で照合する場合、コンピュータの処理負担が大きくなり、検索速度が遅くなるという問題がある。非特許文献２に開示の技術を利用し、パッチ単位で局所特徴量を集約した特徴量同士で照合することで、上記問題を軽減できる。

しかし、非特許文献２に開示の技術の場合、次のような問題がある。クエリ画像に写る被写体と同一の被写体が参照画像に写る場合であっても、クエリ画像内での被写体のサイズと参照画像内での被写体のサイズとが互いに異なるという状況が発生し得る。それにも関わらず、予め定められた所定サイズのパッチをクエリ画像及び参照画像に一律に設定すると、１つのパッチに包含される被写体の一部の大きさ（被写体内で占める割合）が互いに異なり得る。被写体が比較的小さく写っている画像の場合、例えば被写体の半分以上が１つのパッチに包含され、被写体が比較的大きく写っている画像の場合、例えば被写体の１０分の１程度が１つのパッチに包含されるという状況が発生し得る。この場合、クエリ画像に写る被写体と同一の被写体が写っている参照画像であるにも関わらず、パッチ単位で局所特徴量を集約した特徴量同士の類似度は低くなり、クエリ画像に写る被写体と同一の被写体が写る画像として検索されないという不都合が発生し得る。

本発明の目的の一例は、上述した問題を鑑み、パッチ単位で局所特徴量を集約した特徴量同士で照合する技術において、検索精度の低下を軽減するという課題を解決する画像処理装置、画像処理方法、およびプログラムを提供することにある。

本発明の一態様によれば、
画像内で物体が占める物体領域を検出する画像処理手段と、
前記物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定手段と、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出手段と、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索手段と、
を有する画像処理装置が提供される。

本発明の一態様によれば、
コンピュータが、
画像内で物体が占める物体領域を検出し、
前記物体領域のサイズに基づきパッチサイズを決定し、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出し、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する、
画像処理方法が提供される。

本発明の一態様によれば、
コンピュータを、
画像内で物体が占める物体領域を検出する画像処理手段、
前記物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定手段、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出手段、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索手段、
として機能させるプログラムが提供される。

本発明の一態様によれば、パッチ単位で局所特徴量を集約した特徴量同士で照合する技術において、検索精度の低下を軽減するという課題を解決する画像処理装置、画像処理方法、およびプログラムが実現される。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

画像処理装置の機能ブロック図の一例を示す図である。画像処理装置の処理の一例を説明するための図である。画像処理装置のハードウエア構成の一例を示す図である。画像処理装置が処理する情報の一例を模式的に示す図である。画像処理装置の処理の流れの一例を示すフローチャートである。画像処理装置の処理の他の一例を説明するための図である。画像処理装置の機能ブロック図の一例を示す図である。画像処理装置が処理する情報の一例を模式的に示す図である。画像処理装置の処理の流れの一例を示すフローチャートである。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
図１は、第１の実施形態に係る画像処理装置１０の概要を示す機能ブロック図である。画像処理装置１０は、画像処理部１１と、パッチサイズ決定部１２と、パッチ単位特徴量算出部１３と、検索部１４とを有する。

画像処理部１１は、画像内で物体が占める物体領域を検出する。パッチサイズ決定部１２は、物体領域のサイズに基づきパッチサイズを決定する。パッチ単位特徴量算出部１３は、物体領域内で上記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する。検索部１４は、パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する。

このような構成を備える画像処理装置１０によれば、パッチ単位で局所特徴量を集約した特徴量同士で照合する技術において、検索精度の低下を軽減するという課題が解決される。

＜第２の実施形態＞
「概要」
第２の実施形態の画像処理装置１０は、第１の実施形態の画像処理装置１０をより具体化したものである。本実施形態の画像処理装置１０は、画像内で物体（被写体）が占める物体領域を検出した後、物体領域に複数のパッチを設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する。そして、画像処理装置１０は、算出したパッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する。なお、画像処理装置１０は、画像毎にパッチサイズを調整する。画像処理装置１０は、大きく写っている物体のパッチサイズを大きくし、小さく写っている物体のパッチサイズを小さくする。

図２を用いて当該処理の一例を説明する。図２には、同一の建物（物体）が写っているクエリ画像と参照画像とが示されている。参照画像の方が、その建物が大きく写っている。

画像処理装置１０は、例えばＣＮＮ（Convolutional Neural Network）等の推定モデルでセグメンテーションマップ及び特徴ベクトル群を生成した後、検出した物体領域に複数のパッチＰを設定する。上述の通り、画像処理装置１０は、大きく写っている物体のパッチサイズを大きくし、小さく写っている物体のパッチサイズを小さくする。このため、参照画像から検出された物体領域に設定されたパッチＰのパッチサイズの方が、クエリ画像から検出された物体領域に設定されたパッチＰのパッチサイズよりも大きくなっている。そして、参照画像から検出された物体領域内で１つのパッチＰが占める割合は、クエリ画像から検出された物体領域内で１つのパッチＰが占める割合と同等となっている。上述のようにパッチＰを設定した後、画像処理装置１０は、パッチＰ毎にパッチＰ内の局所特徴量を集約したパッチ単位特徴量を算出する。

このように画像毎にパッチサイズを調整する画像処理装置１０によれば、同一の物体が互いに異なるサイズで複数の画像に写っている場合であっても、その物体が写る物体領域内で１つのパッチＰが占める割合を同等にできる。結果、精度よく、それら複数の画像に同一の物体が写っていることを特定することができる。また、局所特徴量同士の照合でなく、複数の局所特徴量を集約したパッチ単位特徴量同士の照合とすることで、コンピュータの処理負担を軽減し、検索速度が速くなる。

以下、画像処理装置１０の構成をより詳細に説明する。

「ハードウエア構成」
次に、画像処理装置１０のハードウエア構成の一例を説明する。画像処理装置１０の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記録媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図３は、画像処理装置１０のハードウエア構成を例示するブロック図である。図３に示すように、画像処理装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置１０は周辺回路４Ａを有さなくてもよい。なお、画像処理装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
次に、第２の実施形態の画像処理装置１０の機能構成を詳細に説明する。図１に、画像処理装置１０の機能ブロック図の一例を示す。図示するように、画像処理装置１０は、画像処理部１１と、パッチサイズ決定部１２と、パッチ単位特徴量算出部１３と、検索部１４とを有する。画像処理装置１０は、複数の参照画像を記憶する記憶部をさらに有してもよい。なお、画像処理装置１０と物理的及び／又は論理的に分かれた外部装置が上記記憶部を有してもよい。この場合、画像処理装置１０と外部装置は互いに通信可能に接続される。

画像処理部１１は、クエリ画像に対し、特徴量抽出処理及び物体領域検出処理を行う。なお、記憶部に記憶されている参照画像に対しては、予めこれらの処理が実行され、その処理の結果が各参照画像に紐付けて記憶部に記憶されていてもよい。その他、画像処理部１１は、クエリ画像と照合する対象として特定した参照画像に対し、その都度、これらの処理を実行してもよい。

特徴量抽出処理は、画像の特徴量を抽出する処理である。例えば、学習済みの推定モデルに画像を入力すると、画像の特徴量が抽出され、特徴ベクトル群のデータが作成される。特徴ベクトル群のデータは、各ピクセルの特徴量（局所特徴量）を示す。図２に示す例の場合、各ピクセルの特徴量はＣ次元のデータで示される。推定モデルは、例えばＣＮＮであるが、これに限定されない。特徴ベクトル群のデータの生成は、従来のあらゆる技術を利用して実現できる。

物体領域検出処理は、画像内で物体が占める物体領域を検出する処理である。当該処理は特段制限されず、従来のあらゆる技術を利用して実現できる。

一例として、物体領域検出処理では、各ピクセルが属するクラスタを推定することで、物体領域を検出してもよい。当該処理では、画像を複数のクラスタに分割する。各クラスタは、被写体の種類各々に対応する。例えば道路に対応して１つのクラスタが存在し、植物に対応して１つのクラスタが存在するという具合である。画像を複数のクラスタに分割する処理は、画像を複数の物体毎の複数のエリアに分割する処理と同等である。図２に示すように学習済みの推定モデルに画像を入力すると、セグメンテーションマップが作成される。セグメンテーションマップは、上記画像を複数のクラスタに分割した結果、すなわち各ピクセルが属するクラスタを示す。

本実施形態では、周知のセグメンテーション技術を利用して、セグメンテーションマップが作成される。周知のセグメンテーション技術としては、例えばセマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションマップ等が例示される。本実施形態では、例えばあるピクセルに着目したとき、隣接するピクセルほど相関が強く、離れたピクセルほど相関が弱いということを利用した教師なしセグメンテーションの手法を利用して、セグメンテーションマップが作成される。

その他、Ｒ－ＣＮＮ（Regional CNN）、ＹＯＬＯ（You Only Look Once）、ＳＤＤ（Single Shot MultiBox Detector）、ＤＥＴＲ（End-to-End Object Detection with Transformers））等の他の物体検出技術を利用してもよい。

パッチサイズ決定部１２は、画像処理部１１により検出された物体領域のサイズに基づきパッチサイズを決定する。

パッチサイズ決定部１２は、物体領域のサイズが大きいほど大きいパッチサイズを決定する。一例として、パッチサイズ決定部１２は、画像全体のサイズに対する物体領域のサイズの割合に基づき、パッチサイズを決定することができる。例えば、予め、パッチサイズの基準値が設定されてもよい。そして、パッチサイズ決定部１２は、当該基準値と、上記割合の積をパッチサイズとして決定することができる。画像全体のサイズや物体領域のサイズは、例えばピクセル数で示すことができる。

パッチ単位特徴量算出部１３は、パッチサイズ決定部１２により決定されたパッチサイズのパッチを物体領域内で複数設定する。そして、パッチ単位特徴量算出部１３は、パッチ毎にパッチ内の局所特徴量（パッチに含まれるピクセルの特徴量）を集約したパッチ単位特徴量を算出する。

まず、物体領域内でパッチを複数設定する処理について説明する。

パッチ単位特徴量算出部１３は、予め定められたルールに基づき、各物体領域に複数のパッチを設定する。複数のパッチの設定の仕方は様々である。例えば、図２に示す例のように、隣接するパッチが互いに重なり合わず、かつ隙間なく並ぶように複数のパッチが設定されてもよい。その他、図示しないが、隣接するパッチが所定の隙間を挟んで並ぶように複数のパッチが設定されてもよい。その他、図示しないが、隣接するパッチが互いに重なり合うように複数のパッチが設定されてもよい。ここでの例示はあくまで一例であり、複数のパッチの設置の仕方はあらゆる手法を採用することができる。

次に、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する処理について説明する。

各パッチには、複数のピクセルが含まれる。当該処理では、各パッチに含まれる複数のピクセルの特徴量（局所特徴量）を集約して、パッチ単位特徴量を算出する。複数のピクセルの特徴量（局所特徴量）を集約する手段としては、例えば、非特許文献２に開示の技術を利用してもよいし、その他の手段を利用してもよい。算出されたパッチ単位特徴量は、各パッチに含まれる複数のピクセルの中のいずれか（例：中央に位置するピクセル）に紐付けて管理されてもよい。その他、複数のパッチを互いに識別するパッチ識別情報が生成され、当該パッチ識別情報に紐付けてパッチ単位特徴量が管理されてもよい。

検索部１４は、パッチ単位特徴量を用いて、クエリ画像に類似する画像、具体的にはクエリ画像に写る物体と同一の物体が写る画像を、複数の参照画像の中から検索する。

当該処理において、検索部１４は、クエリ画像と、記憶部に記憶された複数の参照画像各々（図４参照）との類似度を算出する。そして、類似度が閾値以上の参照画像を、クエリ画像に類似する画像として特定する。

検索部１４は、類似度の算出に、パッチ単位特徴量を用いる。検索部１４は、クエリ画像から算出された複数のパッチ単位特徴量と、参照画像から算出された複数のパッチ単位特徴量との類似度を算出し、算出した類似度が所定条件（例：基準以上）を満たすペアを互いに紐付ける。そして、検索部１４は、互いに紐付けられたペアの数に基づき、クエリ画像と参照画像の類似度を算出する。なお、パッチ単位特徴量同士の類似度の算出方法や、算出した類似度に基づき互いに対応付けるペアを決定する方法や、互いに紐付けられたペアの数に基づき２つの画像の類似度を算出する方法は、あらゆる従来技術を採用して実現できる。

このように、検索部１４は、クエリ画像のパッチ単位特徴量（クエリ画像から算出されたパッチ単位特徴量）と、参照画像のパッチ単位特徴量（参照画像から算出されたパッチ単位特徴量）との類似度に基づき、クエリ画像に類似する画像を複数の参照画像の中から検索することができる。

なお、クエリ画像のパッチ単位特徴量の算出に用いたパッチサイズは、クエリ画像内の物体領域のサイズに応じて決定されたものである。そして、参照画像のパッチ単位特徴量の算出に用いたパッチサイズは、参照画像内の物体領域のサイズに応じて決定されたものである。すなわち、それらパッチサイズは、互いに独立して決定されたものである。クエリ画像のパッチ単位特徴量の算出に用いたパッチサイズと、参照画像のパッチ単位特徴量の算出に用いたパッチサイズは、同じになる場合もあれば、異なる場合もある。クエリ画像内の物体領域のサイズと参照画像内の物体領域のサイズが同じである場合、クエリ画像のパッチ単位特徴量の算出に用いたパッチサイズと参照画像のパッチ単位特徴量の算出に用いたパッチサイズは同じになる。一方、クエリ画像内の物体領域のサイズと参照画像内の物体領域のサイズが互いに異なる場合、クエリ画像のパッチ単位特徴量の算出に用いたパッチサイズと参照画像のパッチ単位特徴量の算出に用いたパッチサイズは互いに異なる。

なお、複数の参照画像は、図４に示すように、撮影された位置を示す位置情報（緯度経度情報等）と紐付けられていてもよい。この場合、クエリ画像に類似する参照画像の位置情報で示される位置を、クエリ画像の撮影位置として推定することが可能となる。なお、このように、クエリ画像の撮影位置の特定に検索処理を利用する場合、物体は、建築物等、場所が移動せず、ランドマークとなり得るものとすることが好ましい。

次に、図５のフローチャートを用いて、画像処理装置１０の処理の流れの一例を説明する。

まず、画像処理装置１０は、クエリ画像を解析し、画像内で物体が占める物体領域を検出する（Ｓ１０）。なお、画像処理装置１０は、Ｓ１０で、さらに、クエリ画像を解析し、各ピクセルの特徴量（局所特徴量）を示す特徴ベクトル群のデータを生成してもよい。当該特徴ベクトル群のデータの生成は、Ｓ１２の前のその他のタイミングで行われてもよい。

次いで、画像処理装置１０は、Ｓ１０で検出した物体領域のサイズに基づきパッチサイズを決定する（Ｓ１１）。次いで、画像処理装置１０は、Ｓ１１で決定したパッチサイズのパッチを物体領域内で複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する（Ｓ１２）。

次いで、画像処理装置１０は、Ｓ１２で算出したパッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する（Ｓ１３）。

「作用効果」
第２の実施形態の画像処理装置１０によれば、パッチ単位で局所特徴量を集約した特徴量同士で照合する技術において、画像毎にパッチサイズを調整する。画像処理装置１０は、大きく写っている物体のパッチサイズを大きくし、小さく写っている物体のパッチサイズを小さくする。例えば、画像処理装置１０は、画像全体のサイズに対する物体領域のサイズの割合に基づき、パッチサイズを決定することができる。このように構成した場合、参照画像から検出されたある物体の物体領域内で１つのパッチが占める割合を、クエリ画像から検出された同物体の物体領域内で１つのパッチが占める割合と同等にすることができる。結果、同一の物体が互いに異なるサイズで複数の画像に写っている場合であっても、パッチ単位で局所特徴量を集約したパッチ単位特徴量同士の照合により、精度よく、それら複数の画像に同一の物体が写っていることを特定することができる。また、局所特徴量同士の照合でなく、複数の局所特徴量を集約したパッチ単位特徴量同士の照合とすることで、コンピュータの処理負担を軽減し、検索速度が速くなる。

＜第３の実施形態＞
第３の実施形態の画像処理装置１０は、１つの画像から複数の物体領域が検出された場合、物体領域毎に（物体毎に）パッチサイズを調整する。検出された複数の物体領域のサイズが互いに異なる場合、互いに異なるパッチサイズが決定される。このような本実施形態の画像処理装置１０によれば、１つの画像内に複数の物体が写る場合、物体毎に、各物体の画像内でのサイズに応じた適切なパッチサイズを決定することができる。以下、詳細に説明する。

画像処理部１１は、１つの画像内に複数の物体が存在する場合、物体毎に物体領域を検出する。

パッチサイズ決定部１２は、１つの画像から複数の物体領域が検出された場合、物体領域毎に物体領域各々のサイズに応じたパッチサイズを決定する。

パッチ単位特徴量算出部１３は、１つの画像から複数の物体領域が検出された場合、物体領域各々内で、物体領域各々に対応して決定されたパッチサイズのパッチを複数設定する。そして、パッチ単位特徴量算出部１３は、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する。

検索部１４は、クエリ画像に複数の物体が含まれる場合、物体毎に、当該物体が写る参照画像を検索する。例えば、クエリ画像に第１の物体及び第２の物体が含まれる場合、検索部１４は、第１の物体の物体領域内に設定されたパッチに基づき算出されたパッチ単位特徴量に基づき、第１の物体が写る参照画像を検索する。また、検索部１４は、第２物体の物体領域内に設定されたパッチに基づき算出されたパッチ単位特徴量に基づき、第２の物体が写る参照画像を検索する。その他、検索部１４は、第１の物体の物体領域内に設定されたパッチに基づき算出されたパッチ単位特徴量、及び第２の物体の物体領域内に設定されたパッチに基づき算出されたパッチ単位特徴量に基づき、第１の物体及び第２の物体が写る参照画像を検索してもよい。

本実施形態の画像処理装置１０のその他の構成は、第１及び第２の実施形態の画像処理装置１０の構成と同様である。

本実施形態の画像処理装置１０によれば、第１及び第２の実施形態の画像処理装置１０と同様の作用効果が実現される。

また、本実施形態の画像処理装置１０によれば、１つの画像から複数の物体領域が検出された場合、物体領域毎に（物体毎に）、各物体領域のサイズに応じた適切なパッチサイズを決定することができる。結果、より精度よく、複数の画像に同一の物体が写っていることを特定することが可能となる。

＜第４の実施形態＞
第４の実施形態の画像処理装置１０は、クエリ画像に複数の物体が含まれる場合、特徴的な処理で参照画像を検索することができる。以下、詳細に説明する。

検索部１４は、クエリ画像に複数の物体が含まれる場合、以下のような特徴的な処理で参照画像を検索する。

当該処理の前提として、図４に示すように、複数の参照画像各々に、撮影された位置を示す位置情報が紐付けられているものとする。

１つのクエリ画像内で複数の物体が写っているということは、その複数の物体の間の距離は比較的近いと考えられる。検索部１４は、この点を考慮した検索処理を実行することができる。

まず、検索部１４は、複数の参照画像の中から、クエリ画像に写る複数の物体の全て（その他、所定数以上、又は、所定割合以上でもよい）が写る参照画像を検索する。複数の物体の全て（その他、所定数以上、又は、所定割合以上でもよい）が写る参照画像が検索された場合、検索部１４は、検索を終了してもよい。この場合、クエリ画像は、検索された参照画像に紐付く位置情報で示される位置で撮影されたものと推定される。

一方、複数の物体の全て（その他、所定数以上、又は、所定割合以上でもよい）が写る参照画像が見つからなかった場合、検索部１４は、複数の物体のいずれかが写る参照画像を検索する。そして、検索部１４は、当該検索結果に含まれる参照画像を、各参照画像に紐付く位置情報を用いてさらに絞り込む。

まず、複数の物体の中の第１の物体が写ると判定された複数の参照画像の中には、実際に第１の物体が写る参照画像と、第１の物体が写っていないが、第１の物体と似ている物体が写る参照画像とが含まれ得る。

同様に、複数の物体の中の第２の物体が写ると判定された複数の参照画像の中には、実際に第２の物体が写る参照画像と、第２の物体が写っていないが、第２の物体と似ている物体が写る参照画像とが含まれ得る。

第１の物体が写っていないが、第１の物体と似ている物体が写る参照画像、及び、第２の物体が写っていないが、第２の物体と似ている物体が写る参照画像は、検索結果から除外することが好ましい。

そこで、検索部１４は、第１の物体が写ると判定された複数の参照画像の中から、紐付けられた位置情報で示される位置が、第２の物体が写ると判定された複数の参照画像のいずれに紐付く位置情報が示す位置とも、所定の閾値以上離れている参照画像を除去する。当該処理により、第１の物体が写ると判定された複数の参照画像の中から、各参照画像の撮影位置の近くで撮影された第２の物体が写る参照画像が存在しないものを除去することができる。

同様に、検索部１４は、第２の物体が写ると判定された複数の参照画像の中から、紐付けられた位置情報で示される位置が、第１の物体が写ると判定された複数の参照画像のいずれに紐付く位置情報が示す位置とも、所定の閾値以上離れている参照画像を除去する。当該処理により、第２の物体が写ると判定された複数の参照画像の中から、各参照画像の撮影位置の近くで撮影された第１の物体が写る参照画像が存在しないものを除去することができる。

検索部１４は、例えばこのような処理により、第１の物体が写っていないが、第１の物体と似ている物体が写る参照画像、及び、第２の物体が写っていないが、第２の物体と似ている物体が写る参照画像は、検索結果から除去することができる。

なお、ここでは複数の物体が第１の物体及び第２の物体の２つの場合の例を説明したが、複数の物体が３つ以上の場合も同様の処理で、検索結果をより絞り込むことができる。

本実施形態の画像処理装置１０のその他の構成は、第１乃至第３の実施形態の画像処理装置１０の構成と同様である。

本実施形態の画像処理装置１０によれば、第１乃至第３の実施形態の画像処理装置１０と同様の作用効果が実現される。

また、本実施形態の画像処理装置１０によれば、１つのクエリ画像内に複数の物体が含まれる場合、複数の物体の全て（その他、所定数以上、又は、所定割合以上でもよい）が写る参照画像を検索することができる。そして、複数の物体の全て（その他、所定数以上、又は、所定割合以上でもよい）が写る参照画像が検索されなかった場合、複数の物体の各々が写る参照画像を検索し、それらに紐付く位置情報に基づき、検索結果を絞り込むことができる。このような本実施形態の画像処理装置１０によれば、検索結果を高精度に絞り込むことができる。

＜第５の実施形態＞
第５の実施形態の画像処理装置１０は、物体領域毎に複数のパッチサイズを決定し、物体領域毎に、複数のパッチサイズのパッチを設定してパッチ単位特徴量を算出する。

上記実施形態で説明したように、物体領域毎に各物体領域のサイズに応じたパッチサイズを決定することで、参照画像から検出されたある物体の物体領域内で１つのパッチが占める割合と、クエリ画像から検出された同物体の物体領域内で１つのパッチが占める割合とを同等とすることができる。本実施形態では、さらに、複数のパッチサイズを決定し、複数のパッチサイズのパッチを設定してパッチ単位特徴量を算出することで、参照画像から検出されたある物体の物体領域内で１つのパッチが占める割合と、クエリ画像から検出された同物体の物体領域内で１つのパッチが占める割合とが同等となる確率を向上させる。以下、詳細に説明する。

パッチサイズ決定部１２は、画像処理部１１により検出された物体領域のサイズに基づきパッチサイズを決定する。パッチサイズ決定部１２は、１つの物体領域に対応して、複数のパッチサイズを決定する。例えば、パッチサイズ決定部１２は、基準値と、画像全体のサイズに対する物体領域のサイズの割合との積をパッチサイズとして決定することができるが、予め、複数の基準値が設定されている。そして、パッチサイズ決定部１２は、複数の基準値各々と、上記割合との積をパッチサイズとして決定する。

パッチ単位特徴量算出部１３は、物体領域内で複数のパッチサイズの複数のパッチを設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する。なお、互いにパッチサイズが異なる複数のパッチは、互いに重なるように設定されてもよい。例えば、第１のパッチサイズのパッチが第２のパッチサイズのパッチを内包してもよいし、第１のパッチサイズのパッチの少なくとも一部と第２のパッチサイズのパッチの少なくとも一部が互いに重なってもよい。

本実施形態の画像処理装置１０のその他の構成は、第１乃至第４の実施形態の画像処理装置１０の構成と同様である。

本実施形態の画像処理装置１０によれば、第１乃至第４の実施形態の画像処理装置１０と同様の作用効果が実現される。

また、本実施形態の画像処理装置１０によれば、１つの物体領域に対応して複数のパッチサイズを決定し、複数のパッチサイズのパッチを設定してパッチ単位特徴量を算出することで、参照画像から検出されたある物体の物体領域内で１つのパッチが占める割合と、クエリ画像から検出された同物体の物体領域内で１つのパッチが占める割合とが同等となる確率を向上させることができる。結果、より精度よく、複数の画像に同一の物体が写っていることを特定することが可能となる。

＜第６の実施形態＞
第６の実施形態の画像処理装置１０は、図６に示すように、パッチ内の局所特徴量を集約したパッチ単位特徴量に加えて、物体領域内の局所特徴量を集約した物体領域単位特徴量を算出し、これらを用いてクエリ画像に類似する参照画像を検索する。以下、詳細に説明する。

図７に、画像処理装置１０の機能ブロック図の一例を示す。図示するように、画像処理装置１０は、画像処理部１１と、パッチサイズ決定部１２と、パッチ単位特徴量算出部１３と、検索部１４と、物体領域単位特徴量算出部１５とを有する。画像処理装置１０は、複数の参照画像を記憶する記憶部をさらに有してもよい。なお、画像処理装置１０と物理的及び／又は論理的に分かれた外部装置が上記記憶部を有してもよい。この場合、画像処理装置１０と外部装置は互いに通信可能に接続される。

物体領域単位特徴量算出部１５は、物体領域内の局所特徴量（物体領域に含まれるピクセルの特徴量）を集約した物体領域単位特徴量を算出する。画像内で複数の物体領域が検出されている場合、物体領域単位特徴量算出部１５は、物体領域毎に、物体領域単位特徴量を算出する。複数のピクセルの特徴量を集約する手段としては、例えば、非特許文献２に開示の技術を利用してもよいし、その他の手段を利用してもよい。

検索部１４は、パッチ単位特徴量と物体領域単位特徴量を用いて、クエリ画像に類似する画像、具体的にはクエリ画像に写る物体と同一の物体が写る画像を、複数の参照画像の中から検索する。

具体的には、検索部１４は、まず、物体領域単位特徴量に基づき算出される「クエリ画像に含まれる物体との類似度」が第１の基準値以上である物体を含む画像を参照画像の中から検索する。次いで、検索部１４は、検索した参照画像の中から、パッチ単位特徴量に基づき算出される「クエリ画像に含まれる物体との類似度」が第２の基準値以上である物体を含む画像を検索する。

すなわち、検索部１４は、まず、物体領域単位特徴量を用いて参照画像を大まかに絞り込んだ後、パッチ単位特徴量を用いて、大まかに絞り込んだ参照画像の中から所望の参照画像を検索する。第１の基準値と第２の基準値は同じであってもよいし、異なってもよい。

なお、本実施形態では、図８に示すように、記憶部に記憶された複数の参照画像各々には、物体領域単位特徴量と、パッチ単位特徴量とが紐づけられている。

次に、図９のフローチャートを用いて、画像処理装置１０の処理の流れの一例を説明する。

まず、画像処理装置１０は、クエリ画像を解析し、画像内で物体が占める物体領域を検出する（Ｓ２０）。なお、画像処理装置１０は、Ｓ２０で、さらに、クエリ画像を解析し、各ピクセルの特徴量（局所特徴量）を示す特徴ベクトル群のデータを生成してもよい。当該特徴ベクトル群のデータの生成は、Ｓ２２及びS２３の前のその他のタイミングで行われてもよい。

次いで、画像処理装置１０は、Ｓ２０で検出した物体領域のサイズに基づきパッチサイズを決定する（Ｓ２１）。次いで、画像処理装置１０は、Ｓ２１で決定したパッチサイズのパッチを物体領域内で複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出する（Ｓ２２）。

また、画像処理装置１０は、物体領域内の局所特徴量を集約した物体領域単位特徴量を算出する（Ｓ２３）。

なお、Ｓ２１及びＳ２２と、Ｓ２３とは、図示するように並行して行われてもよいし、順次行われてもよい。

次いで、画像処理装置１０は、Ｓ２３で算出された物体領域単位特徴量に基づき算出される「クエリ画像に含まれる物体との類似度」が第１の基準値以上である物体を含む画像を参照画像の中から検索する。

次いで、画像処理装置１０は、Ｓ２４で検索された参照画像の中から、Ｓ２２で算出されたパッチ単位特徴量に基づき算出される「クエリ画像に含まれる物体との類似度」が第２の基準値以上である物体を含む画像を検索する。

本実施形態の画像処理装置１０のその他の構成は、第１乃至第５の実施形態の画像処理装置１０の構成と同様である。

本実施形態の画像処理装置１０によれば、第１乃至第５の実施形態の画像処理装置１０と同様の作用効果が実現される。

また、本実施形態の画像処理装置１０によれば、パッチ内の局所特徴量を集約したパッチ単位特徴量と、物体領域内の局所特徴量を集約した物体領域単位特徴量とを用いて、クエリ画像に類似する参照画像を検索することができる。具体的には、画像処理装置１０は、物体領域単位特徴量を用いて参照画像を大まかに絞り込んだ後、パッチ単位特徴量を用いて、大まかに絞り込んだ参照画像の中から所望の参照画像を検索することができる。

このような画像処理装置１０によれば、パッチ単位特徴量同士の照合処理を行う参照画像の数を絞り込むことができる。結果、コンピュータの処理負担が軽減し、検索速度が速くなる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。

また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。

上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．画像内で物体が占める物体領域を検出する画像処理手段と、
前記物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定手段と、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出手段と、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索手段と、
を有する画像処理装置。
２．前記パッチサイズ決定手段は、画像全体のサイズに対する前記物体領域のサイズの割合に基づき、前記パッチサイズを決定する請求項１に記載の画像処理装置。
３．前記パッチサイズ決定手段は、予め定められた基準値と前記割合の積を、前記パッチサイズとして決定する２に記載の画像処理装置。
４．前記画像処理手段は、画像内に複数の物体が存在する場合、物体毎に前記物体領域を検出し、
前記パッチサイズ決定手段は、画像から複数の前記物体領域が検出された場合、前記物体領域毎に前記物体領域各々のサイズに応じた前記パッチサイズを決定し、
前記パッチ単位特徴量算出手段は、画像から複数の前記物体領域が検出された場合、前記物体領域各々内で、前記物体領域各々に対応して決定された前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約した前記パッチ単位特徴量を算出する１から３のいずれかに記載の画像処理装置。
５．前記物体領域内の局所特徴量を集約した物体領域単位特徴量を算出する物体領域単位特徴量算出手段をさらに有し、
前記検索手段は、前記パッチ単位特徴量と前記物体領域単位特徴量を用いて、前記クエリ画像に類似する画像を検索する１から４のいずれかに記載の画像処理装置。
６．前記検索手段は、
前記物体領域単位特徴量に基づき算出される前記クエリ画像に含まれる物体との類似度が第１の基準値以上である物体を含む画像を前記参照画像の中から検索した後、
検索した前記参照画像の中から、前記パッチ単位特徴量に基づき算出される前記クエリ画像に含まれる物体との類似度が第２の基準値以上である物体を含む画像を検索する５に記載の画像処理装置。
７．前記検索手段は、前記クエリ画像の前記パッチ単位特徴量と、前記参照画像の前記パッチ単位特徴量との類似度に基づき、前記クエリ画像に類似する画像を複数の前記参照画像の中から検索し、
前記クエリ画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズは、前記クエリ画像内の前記物体領域のサイズに応じて決定され、
前記参照画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズは、前記参照画像内の前記物体領域のサイズに応じて決定される１から６のいずれかに記載の画像処理装置。
８．前記クエリ画像内の前記物体領域のサイズと前記参照画像内の前記物体領域のサイズが互いに異なる場合、前記クエリ画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズと前記参照画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズは互いに異なる７に記載の画像処理装置。
９．コンピュータが、
画像内で物体が占める物体領域を検出し、
前記物体領域のサイズに基づきパッチサイズを決定し、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出し、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する、
画像処理方法。
１０．コンピュータを、
画像内で物体が占める物体領域を検出する画像処理手段、
前記物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定手段、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出手段、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索手段、
として機能させるプログラム。

１０画像処理装置
１１画像処理部
１２パッチサイズ決定部
１３パッチ単位特徴量算出部
１４検索部
１５物体領域単位特徴量算出部
１Ａプロセッサ
２Ａメモリ
３Ａ入出力Ｉ／Ｆ
４Ａ周辺回路
５Ａバス

Claims

画像内で物体が占める物体領域を検出する画像処理手段と、
前記物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定手段と、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出手段と、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索手段と、
を有する画像処理装置。
前記パッチサイズ決定手段は、画像全体のサイズに対する前記物体領域のサイズの割合に基づき、前記パッチサイズを決定する請求項１に記載の画像処理装置。
前記パッチサイズ決定手段は、予め定められた基準値と前記割合の積を、前記パッチサイズとして決定する請求項２に記載の画像処理装置。
前記画像処理手段は、画像内に複数の物体が存在する場合、物体毎に前記物体領域を検出し、
前記パッチサイズ決定手段は、画像から複数の前記物体領域が検出された場合、前記物体領域毎に前記物体領域各々のサイズに応じた前記パッチサイズを決定し、
前記パッチ単位特徴量算出手段は、画像から複数の前記物体領域が検出された場合、前記物体領域各々内で、前記物体領域各々に対応して決定された前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約した前記パッチ単位特徴量を算出する請求項１から３のいずれか１項に記載の画像処理装置。
前記物体領域内の局所特徴量を集約した物体領域単位特徴量を算出する物体領域単位特徴量算出手段をさらに有し、
前記検索手段は、前記パッチ単位特徴量と前記物体領域単位特徴量を用いて、前記クエリ画像に類似する画像を検索する請求項１から３のいずれか１項に記載の画像処理装置。
前記検索手段は、
前記物体領域単位特徴量に基づき算出される前記クエリ画像に含まれる物体との類似度が第１の基準値以上である物体を含む画像を前記参照画像の中から検索した後、
検索した前記参照画像の中から、前記パッチ単位特徴量に基づき算出される前記クエリ画像に含まれる物体との類似度が第２の基準値以上である物体を含む画像を検索する請求項５に記載の画像処理装置。
前記検索手段は、前記クエリ画像の前記パッチ単位特徴量と、前記参照画像の前記パッチ単位特徴量との類似度に基づき、前記クエリ画像に類似する画像を複数の前記参照画像の中から検索し、
前記クエリ画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズは、前記クエリ画像内の前記物体領域のサイズに応じて決定され、
前記参照画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズは、前記参照画像内の前記物体領域のサイズに応じて決定される請求項１から３のいずれか１項に記載の画像処理装置。
前記クエリ画像内の前記物体領域のサイズと前記参照画像内の前記物体領域のサイズが互いに異なる場合、前記クエリ画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズと前記参照画像の前記パッチ単位特徴量の算出に用いた前記パッチサイズは互いに異なる請求項７に記載の画像処理装置。
コンピュータが、
画像内で物体が占める物体領域を検出し、
前記物体領域のサイズに基づきパッチサイズを決定し、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出し、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する、
画像処理方法。
コンピュータを、
画像内で物体が占める物体領域を検出する画像処理手段、
前記物体領域のサイズに基づきパッチサイズを決定するパッチサイズ決定手段、
前記物体領域内で前記パッチサイズのパッチを複数設定し、パッチ毎にパッチ内の局所特徴量を集約したパッチ単位特徴量を算出するパッチ単位特徴量算出手段、
前記パッチ単位特徴量を用いて、クエリ画像に類似する画像を複数の参照画像の中から検索する検索手段、
として機能させるプログラム。