JP6752122B2 - Image processing device, image processing method - Google Patents
Image processing device, image processing method Download PDFInfo
- Publication number
- JP6752122B2 JP6752122B2 JP2016222665A JP2016222665A JP6752122B2 JP 6752122 B2 JP6752122 B2 JP 6752122B2 JP 2016222665 A JP2016222665 A JP 2016222665A JP 2016222665 A JP2016222665 A JP 2016222665A JP 6752122 B2 JP6752122 B2 JP 6752122B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- object image
- registered
- image processing
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、画像検索技術に関するものである。 The present invention relates to an image retrieval technique.
監視エリア内に設置された複数の監視カメラによる映像から物体を検出し、該検出した物体の画像をデータベースに登録し、該データベースから特定の物体の画像を検索する検索装置が提案されている。特許文献1では、監視カメラによる映像から顔画像を抽出して顔画像の特徴量を生成し、ユーザが映像の中から指定した顔画像の特徴量を用いて検索処理を実行し、類似する特徴量を持つ顔画像を検索する監視映像検索装置が提案されている。 A search device has been proposed in which an object is detected from images taken by a plurality of surveillance cameras installed in a surveillance area, an image of the detected object is registered in a database, and an image of a specific object is searched from the database. In Patent Document 1, a face image is extracted from an image taken by a surveillance camera to generate a feature amount of the face image, a search process is executed using the feature amount of the face image specified by the user from the image, and similar features are obtained. A surveillance video search device that searches for a large amount of facial images has been proposed.
しかしながら、特許文献1の監視映像検索装置では、検索を実行するためには検索したい対象の顔画像を映像の中から指定する必要がある。そのため、検索したい対象の顔を映像内から探すことがユーザにとって手間になっている。 However, in the surveillance video search device of Patent Document 1, in order to execute the search, it is necessary to specify the face image of the target to be searched from the video. Therefore, it is troublesome for the user to search the video for the face of the target to be searched.
本発明はこのような問題に鑑みてなされたものであり、画像検索に用いるクエリを従来よりも簡便な方法でもって指定可能な技術を提供する。 The present invention has been made in view of such a problem, and provides a technique capable of specifying a query used for an image search by a simpler method than before.
本発明の一様態は、物体画像が複数の基準物体画像と同じクラスに属するか否かを判断する判断手段と、前記判断手段が属すると判断した場合には、前記物体画像をクエリ候補画像として登録し、前記判断手段が属さないと判断した場合には、前記物体画像を非クエリ候補画像として登録する登録手段とを備えることを特徴とする。 The uniformity of the present invention is a determination means for determining whether or not an object image belongs to the same class as a plurality of reference object images, and when it is determined that the determination means belongs, the object image is used as a query candidate image. When the object image is registered and it is determined that the determination means does not belong, the registration means for registering the object image as a non-query candidate image is provided.
本発明の構成によれば、画像検索に用いるクエリを従来よりも簡便な方法でもって指定することができる。 According to the configuration of the present invention, the query used for the image search can be specified by a simpler method than before.
以下、添付図面を参照し、本発明の実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の1つである。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. In addition, the embodiment described below shows an example when the present invention is concretely implemented, and is one of the specific examples of the configuration described in the claims.
[第1の実施形態]
先ず、本実施形態に係る画像処理装置の機能構成例について、図1のブロック図を用いて説明する。なお、本実施形態を含めた以降の各実施形態では、人物の検索のための構成について説明するが、検索対象が人物以外のオブジェクトであった場合には、以下の説明において人物の代わりにこのオブジェクトを採用すればよい。
[First Embodiment]
First, an example of the functional configuration of the image processing apparatus according to the present embodiment will be described with reference to the block diagram of FIG. In each subsequent embodiment including this embodiment, the configuration for searching for a person will be described, but if the search target is an object other than a person, this embodiment will be described instead of the person in the following description. You can adopt the object.
画像取得部101は、入力画像を取得し、該取得した入力画像を後段の抽出部102に対して送出する。画像取得部101による入力画像の取得形態については特定の取得形態に限らない。例えば画像取得部101は、監視カメラが撮像して順次出力する各フレームの画像を入力画像として該監視カメラから取得しても良いし、記憶装置に格納しておいた複数の画像を順次入力画像として該記憶装置から取得しても良い。 The image acquisition unit 101 acquires an input image and sends the acquired input image to the extraction unit 102 in the subsequent stage. The acquisition form of the input image by the image acquisition unit 101 is not limited to a specific acquisition form. For example, the image acquisition unit 101 may acquire an image of each frame captured by the surveillance camera and sequentially output from the surveillance camera as an input image, or sequentially input a plurality of images stored in the storage device. It may be obtained from the storage device.
抽出部102は、画像取得部101から受けた入力画像から人物等の物体が写っている領域を物体領域として抽出し、該抽出した物体領域内の画像を物体画像として後段の評価部103に対して出力する。つまり、物体画像内に写っているものは、車や犬など、人物以外の物体である可能性がある。なお、人物のみを対象とし、入力画像から人物が写っている領域を物体領域として抽出し、該抽出した物体領域内の画像を物体画像として後段の評価部103に対して出力するようにしても良い。 The extraction unit 102 extracts an area in which an object such as a person is reflected from the input image received from the image acquisition unit 101 as an object area, and uses the image in the extracted object area as an object image for the evaluation unit 103 in the subsequent stage. And output. That is, what is shown in the object image may be an object other than a person, such as a car or a dog. It should be noted that even if only a person is targeted, an area in which the person appears is extracted from the input image as an object area, and the image in the extracted object area is output as an object image to the evaluation unit 103 in the subsequent stage. good.
入力画像の一例を図2に示す。図2に示す入力画像201が画像取得部101から抽出部102に入力された場合、抽出部102は、入力画像201中の物体画像202を後段の評価部103に対して出力する。入力画像から物体画像を取得するための方法には様々な方法があり、本実施形態では如何なる方法を採用しても良い。例えば、入力画像中の各画素のうち、あらかじめ用意した背景画像において対応画素位置の画素と画素値が異なる画素を対象画素として特定し、対象画素から成る領域を物体領域とする方法を採用しても良い。またその他の方法として、物体検出方法を用いることもできる。たとえば、以下の文献1に記載の方法を用いて物体検出処理を実行し、検出した領域内の画像を物体画像とすることもできる。 An example of the input image is shown in FIG. When the input image 201 shown in FIG. 2 is input from the image acquisition unit 101 to the extraction unit 102, the extraction unit 102 outputs the object image 202 in the input image 201 to the evaluation unit 103 in the subsequent stage. There are various methods for acquiring an object image from an input image, and any method may be adopted in the present embodiment. For example, among each pixel in the input image, a method is adopted in which a pixel having a pixel value different from that of the corresponding pixel position pixel in the background image prepared in advance is specified as a target pixel, and an area composed of the target pixels is set as an object area. Is also good. As another method, an object detection method can also be used. For example, the object detection process can be executed by using the method described in Document 1 below, and the image in the detected region can be used as an object image.
(文献1) Histograms of oriented gradients for human detetction,N.Dalal,CVPR2005
評価部103は、抽出部102から入力されたそれぞれの物体画像について以下に説明するような処理を行って、該物体画像の評価値を算出する。先ず評価部103は、物体画像から局所特徴量を抽出する。物体画像から抽出する局所特徴量は特定の特徴量に限らず、例えば、上記の文献1に開示されているようなHOG特徴量や、以下の文献2に開示されているようなSIFT特徴量を物体画像から抽出するようにしても良い。
(Reference 1) Histograms of orientationed gradients for human decitation, N. et al. Dalal, CVPR2005
The evaluation unit 103 performs the processing as described below for each object image input from the extraction unit 102, and calculates the evaluation value of the object image. First, the evaluation unit 103 extracts a local feature amount from the object image. The local feature amount extracted from the object image is not limited to a specific feature amount, and for example, a HOG feature amount as disclosed in Document 1 above and a SIFT feature amount as disclosed in Document 2 below are used. It may be extracted from the object image.
(文献2) David G Lowe,“Distinctive Image Features from Sclae−Invariant Keypoints”,International Journal of Computer Vision 60(2):91−110
次に評価部103は、予め作成したモデルを物体画像の局所特徴量に適用して、該物体画像の局所特徴量が、予め用意した様々な人物の人物画像の局所特徴量と同じクラス(分類)に属するのか否かを判断し、その判断結果に応じて該物体画像の評価値を求める。このモデルについて図3を用いて説明する。ここで用いるモデルとは、次のような過程を経て作成されたものである。先ず、予め用意された様々な人物(例えば検索したい人物)の人物画像303の局所特徴量をGMM(Gaussian Mixture Model)でクラスタリングした結果をヒストグラム304として作成する。そして、そのヒストグラム304をSVM(Support Vector Machine)で学習し、クラスの境界306を学習した結果をモデル305とする。図3の場合、クラスの境界306は、様々な人物の人物画像303の局所特徴量のヒストグラム304が属するクラスと、該クラス以外のクラスと、の境界を表している。図3において複数の人物画像303のそれぞれの局所特徴量のヒストグラムを○で示しており、○が属さないクラスに属する局所特徴量のヒストグラムを×で示している。
(Reference 2) David G Lowe, "Distinctive Image Features from Sclae-Invariant Keypoints", International Journal of Computer Vision 60 (2): 91-110.
Next, the evaluation unit 103 applies the model created in advance to the local features of the object image, and the local features of the object image are in the same class (classification) as the local features of the human images of various persons prepared in advance. ), And the evaluation value of the object image is obtained according to the judgment result. This model will be described with reference to FIG. The model used here is created through the following process. First, the result of clustering the local feature amounts of the person image 303 of various people (for example, the person to be searched) prepared in advance by GMM (Gaussian Mixture Model) is created as a histogram 304. Then, the histogram 304 is learned by SVM (Support Vector Machine), and the result of learning the boundary 306 of the class is used as the model 305. In the case of FIG. 3, the boundary 306 of the class represents the boundary between the class to which the histogram 304 of the local feature amount of the person image 303 of various persons belongs and the class other than the class. In FIG. 3, the histograms of the local features of each of the plurality of person images 303 are indicated by ◯, and the histograms of the local features belonging to the class to which ◯ does not belong are indicated by ×.
このようなモデル305を用いて物体画像202の評価値を算出する場合、先ず、物体画像202の局所特徴量をGMMでクラスタリングし、クラスタリング結果からヒストグラム302を作成する。そしてヒストグラム302(図3では△で示している)に対してモデル305を適用し、ヒストグラム302が境界306を基準にして「様々な人物の人物画像303の局所特徴量のヒストグラムが属するクラス」(○が属するクラス)に属するか否かを判断する。そして、ヒストグラム302が境界306を基準にして「様々な人物の人物画像303の局所特徴量のヒストグラムが属するクラス」(○が属するクラス)に属する場合には、物体画像202の評価値に「1」を設定する。一方、ヒストグラム302が境界306を基準にして「様々な人物の人物画像303の局所特徴量のヒストグラムが属するクラス」に属さない(×が属するクラスに属する)場合には、物体画像202の評価値に「−1」を設定する。図3では、ヒストグラム302は「様々な人物の人物画像303の局所特徴量のヒストグラムが属するクラス」(○が属するクラス)に属しているため、物体画像202の評価値には「1」が設定されることになる。 When calculating the evaluation value of the object image 202 using such a model 305, first, the local feature amount of the object image 202 is clustered by GMM, and the histogram 302 is created from the clustering result. Then, the model 305 is applied to the histogram 302 (indicated by Δ in FIG. 3), and the histogram 302 is a “class to which the histogram of the local features of the human image 303 of various people belongs” with reference to the boundary 306 ( Judge whether or not it belongs to the class to which ○ belongs. When the histogram 302 belongs to the "class to which the histogram of the local features of the human image 303 of various people belongs" (the class to which ○ belongs) with reference to the boundary 306, the evaluation value of the object image 202 is "1". "Is set. On the other hand, when the histogram 302 does not belong to the "class to which the histogram of the local features of the human image 303 of various people belongs" with respect to the boundary 306 (belongs to the class to which x belongs), the evaluation value of the object image 202 Is set to "-1". In FIG. 3, since the histogram 302 belongs to the “class to which the histogram of the local feature amount of the human image 303 of various persons belongs” (the class to which ○ belongs), “1” is set as the evaluation value of the object image 202. Will be done.
そして評価部103は、評価値として「1」が設定された物体画像及び該物体画像の局所特徴量を、登録DB(データベース)111(第1の格納部)及び検索DB112(第2の格納部)の両方に登録する。一方、評価部103は、評価値として「−1」が設定された物体画像及び該物体画像の局所特徴量を、登録DB111には登録せずに、検索DB112に登録する。 Then, the evaluation unit 103 registers the object image in which "1" is set as the evaluation value and the local feature amount of the object image in the registration DB (database) 111 (first storage unit) and the search DB 112 (second storage unit). ) And register. On the other hand, the evaluation unit 103 registers the object image in which "-1" is set as the evaluation value and the local feature amount of the object image in the search DB 112 without registering in the registration DB 111.
なお、○が属するクラスの物体画像及び該物体画像の局所特徴量を登録DB111及び検索DB112に登録し、×が属するクラスの物体画像及び該物体画像の局所特徴量を検索DB112に登録するのであれば、評価部103の構成は上記の構成に限らない。 It should be noted that the object image of the class to which ○ belongs and the local feature amount of the object image are registered in the registration DB 111 and the search DB 112, and the object image of the class to which × belongs and the local feature amount of the object image are registered in the search DB 112. For example, the configuration of the evaluation unit 103 is not limited to the above configuration.
このようにして、入力画像ごとに、該入力画像中の物体画像及び該物体画像の局所特徴量を、該物体画像の評価値に応じて、登録DB111及び検索DB112に登録若しくは検索DB112のみに登録する。 In this way, for each input image, the object image in the input image and the local feature amount of the object image are registered in the registration DB 111 and the search DB 112 or registered only in the search DB 112 according to the evaluation value of the object image. To do.
選択部104は、登録DB111に登録されている物体画像の中からクエリとして使用する物体画像をクエリ画像として選択する。登録DB111に登録されている物体画像の中からクエリ画像を選択するための構成には様々な構成が考えられる。例えば、選択部104は、登録DB111に登録されているそれぞれの物体画像を表示部113に一覧表示させて(表示制御)、ユーザからの選択指示を受け付ける。そしてユーザが不図示の操作部を操作して、一覧表示されている物体画像からクエリ画像としての物体画像を選択する選択操作を行うと、選択部104は、ユーザによって選択された物体画像と、該物体画像の局所特徴量と、を登録DB111から取得する。なお、選択する(取得する)クエリ画像の枚数は1枚であっても良いし、複数枚であっても良い。 The selection unit 104 selects an object image to be used as a query from the object images registered in the registration DB 111 as a query image. Various configurations can be considered as the configuration for selecting the query image from the object images registered in the registration DB 111. For example, the selection unit 104 displays a list of each object image registered in the registration DB 111 on the display unit 113 (display control), and receives a selection instruction from the user. Then, when the user operates an operation unit (not shown) to perform a selection operation of selecting an object image as a query image from the displayed object images, the selection unit 104 sets the object image selected by the user and the object image selected by the user. The local feature amount of the object image and the local feature amount are acquired from the registration DB 111. The number of query images to be selected (acquired) may be one or a plurality.
検索部105は、選択部104が登録DB111から取得したクエリ画像ごとに、該クエリ画像の局所特徴量と類似する局所特徴量の物体画像を検索DB112から検索する。クエリ画像ごとに行う検索処理は何れも同じ処理であるため、以下では、クエリ画像Aについての検索処理を例にとり説明する。 The search unit 105 searches the search DB 112 for an object image having a local feature amount similar to the local feature amount of the query image for each query image acquired by the selection unit 104 from the registration DB 111. Since the search processing performed for each query image is the same processing, the search processing for the query image A will be described below as an example.
検索部105は先ず、クエリ画像Aの局所特徴量Aと、検索DB112に登録されているそれぞれの局所特徴量Bと、の類似度を求める。局所特徴量A(q)と局所特徴量B(d)との類似度は、例えば、以下のような式に従ってコサイン類似度として求めることができる(nはq、dの次元数)。 First, the search unit 105 obtains the degree of similarity between the local feature amount A of the query image A and each local feature amount B registered in the search DB 112. The similarity between the local feature amount A (q) and the local feature amount B (d) can be obtained as the cosine similarity according to the following equation (n is the number of dimensions of q and d).
なお、局所特徴量Aと局所特徴量Bとの類似度にはコサイン類似度に限らず、SSD(Sum of Squared Difference)やSAD(Sum of Absolute Difference)等の類似度を採用しても良い。そして検索部105は、局所特徴量Aとの類似度が閾値以上となった局所特徴量Bの物体画像を検索DB112から取得し、該取得した物体画像を表示部113に表示させる。なお、表示させるものは、局所特徴量Aとの類似度が閾値以上となった局所特徴量Bの物体画像だけに限らず、例えば、類似度を更に表示しても良い。更に、物体画像を類似度が高い順に表示しても良い。また、局所特徴量Aとの類似度が閾値以上となった局所特徴量Bの物体画像ではなく、局所特徴量Aとの類似度が最も高い局所特徴量Bの物体画像を表示するようにしても良い。 The similarity between the local feature amount A and the local feature amount B is not limited to the cosine similarity, and a similarity such as SSD (Sum of Squared Difference) or SAD (Sum of Absolute Difference) may be adopted. Then, the search unit 105 acquires an object image of the local feature amount B whose similarity with the local feature amount A is equal to or higher than the threshold value from the search DB 112, and displays the acquired object image on the display unit 113. It should be noted that what is displayed is not limited to the object image of the local feature amount B whose similarity with the local feature amount A is equal to or greater than the threshold value, and for example, the similarity may be further displayed. Further, the object images may be displayed in descending order of similarity. Further, instead of displaying the object image of the local feature amount B whose similarity with the local feature amount A is equal to or higher than the threshold value, the object image of the local feature amount B having the highest similarity with the local feature amount A is displayed. Is also good.
以上説明した画像処理装置の動作について、図4のフローチャートに従って説明する。先ず、物体画像及び該物体画像の局所特徴量の登録処理について、図4(a)のフローチャートに従って説明する。なお、図4(a)のフローチャートに従った処理は、画像取得部101が取得した1フレーム分の入力画像に対してのものであって、図4(a)のフローチャートに従った処理は、画像取得部101が取得した各フレームの入力画像に対して行われることになる。 The operation of the image processing apparatus described above will be described with reference to the flowchart of FIG. First, the object image and the registration process of the local feature amount of the object image will be described with reference to the flowchart of FIG. 4A. The process according to the flowchart of FIG. 4A is for the input image for one frame acquired by the image acquisition unit 101, and the process according to the flowchart of FIG. 4A is This is performed on the input image of each frame acquired by the image acquisition unit 101.
ステップS401では、画像取得部101は、入力画像を取得し、該取得した入力画像を後段の抽出部102に対して送出する。ステップS402では、抽出部102は、画像取得部101から受けた入力画像から人物等の物体が写っている領域を物体領域として抽出し、該抽出した物体領域内の画像を物体画像として後段の評価部103に対して出力する。 In step S401, the image acquisition unit 101 acquires an input image and sends the acquired input image to the extraction unit 102 in the subsequent stage. In step S402, the extraction unit 102 extracts an area in which an object such as a person appears from the input image received from the image acquisition unit 101 as an object area, and evaluates the image in the extracted object area as an object image in the subsequent stage. Output to unit 103.
ステップS403では、評価部103は、抽出部102から入力された物体画像の評価値を算出する。ステップS404では、評価部103は、ステップS403で算出した評価値が「1」であるか否かを判断する。この判断の結果、ステップS403で算出した評価値が「1」であれば、処理はステップS405に進み、ステップS403で算出した評価値が「1」でなければ、処理はステップS406に進む。 In step S403, the evaluation unit 103 calculates the evaluation value of the object image input from the extraction unit 102. In step S404, the evaluation unit 103 determines whether or not the evaluation value calculated in step S403 is “1”. As a result of this determination, if the evaluation value calculated in step S403 is "1", the process proceeds to step S405, and if the evaluation value calculated in step S403 is not "1", the process proceeds to step S406.
ステップS405では、評価部103は、物体画像及び該物体画像の局所特徴量を、登録DB111及び検索DB112の両方に登録する。ステップS406では、評価部103は、物体画像及び該物体画像の局所特徴量を、登録DB111には登録せずに、検索DB112に登録する。 In step S405, the evaluation unit 103 registers the object image and the local feature amount of the object image in both the registration DB 111 and the search DB 112. In step S406, the evaluation unit 103 registers the object image and the local feature amount of the object image in the search DB 112 without registering them in the registration DB 111.
次に、登録DB111に登録されている物体画像から選択された物体画像をクエリとして、検索DB112から物体画像を検索する検索処理について、図4(b)のフローチャートに従って説明する。 Next, a search process for searching for an object image from the search DB 112 by using an object image selected from the object images registered in the registration DB 111 as a query will be described with reference to the flowchart of FIG. 4B.
ステップS411では、選択部104は、登録DB111に登録されている物体画像の中からクエリとして使用する物体画像をクエリ画像として選択する。ステップS412では、検索部105は、選択部104が登録DB111から取得したクエリ画像の局所特徴量と、検索DB112に登録されているそれぞれの局所特徴量と、の類似度を求める。 In step S411, the selection unit 104 selects an object image to be used as a query from the object images registered in the registration DB 111 as a query image. In step S412, the search unit 105 obtains the similarity between the local feature amount of the query image acquired by the selection unit 104 from the registration DB 111 and each local feature amount registered in the search DB 112.
ステップS413では、検索部105は、求めた類似度が閾値以上となった局所特徴量の物体画像を検索DB112から取得し、ステップS414では、検索部105は、該取得した物体画像を表示部113に表示させる。 In step S413, the search unit 105 acquires an object image of the local feature amount whose similarity is equal to or greater than the threshold value from the search DB 112, and in step S414, the search unit 105 displays the acquired object image on the display unit 113. To display.
つまり、以上説明した画像処理装置の構成は、以下のような構成の一例に過ぎない。すなわち、物体画像が複数の基準物体画像と同じクラスに属するか否かを判断し、属すると判断した場合には、物体画像をクエリ候補画像として登録し、属さないと判断した場合には、物体画像を非クエリ候補画像として登録する。例えば、第1の実施形態のように必ずしも登録DB111、検索DB112の2つを設ける必要はなく、共通のメモリにクエリ候補画像及び非クエリ候補画像を登録しても良い。その場合、クエリ候補画像については、例えば(クエリ候補画像を表す)識別子と共にメモリに登録すればよい。これにより、例えば、メモリに登録した物体画像群からクエリをユーザに選択させるために該物体画像群からクエリ候補画像を抽出して一覧表示する際には、クエリ候補画像を表す識別子と共に登録された物体画像をメモリから読み出して一覧表示すればよい。 That is, the configuration of the image processing device described above is only an example of the following configuration. That is, it is determined whether or not the object image belongs to the same class as the plurality of reference object images, and if it is determined that the object image belongs, the object image is registered as a query candidate image, and if it is determined that the object image does not belong to the object. Register the image as a non-query candidate image. For example, it is not always necessary to provide the registration DB 111 and the search DB 112 as in the first embodiment, and the query candidate image and the non-query candidate image may be registered in the common memory. In that case, the query candidate image may be registered in the memory together with the identifier (representing the query candidate image), for example. As a result, for example, when a query candidate image is extracted from the object image group and displayed in a list in order to allow the user to select a query from the object image group registered in the memory, the query candidate image is registered together with an identifier representing the query candidate image. The object image may be read from the memory and displayed as a list.
<変形例>
上記の構成では、評価値は、局所特徴量のヒストグラムが規定のクラスに属しているか否かに応じて設定されていたが、評価値は他の方法によって設定されても良い。例えば、以下の文献3に記載の方法でもって評価値を設定しても良い。
<Modification example>
In the above configuration, the evaluation value is set according to whether or not the histogram of the local feature amount belongs to the specified class, but the evaluation value may be set by another method. For example, the evaluation value may be set by the method described in Document 3 below.
(文献3) Geoffrey E Hinton,“Reducing the Dimensionality of Data with Neural Networks”,Science 313(5786):504−507
画像取得部101が取得した入力画像の一例を図5に示す。入力画像501からは2つの物体画像502,503が抽出されているものとする。以下では、この2つの物体画像502,503のそれぞれの評価値を求めるケースについて説明する。
(Reference 3) Geoffrey E Hinton, "Reducing the Dimensionality of Data with Neural Networks", Science 313 (5786): 504-507
FIG. 5 shows an example of the input image acquired by the image acquisition unit 101. It is assumed that two object images 502 and 503 are extracted from the input image 501. In the following, a case where the evaluation values of the two object images 502 and 503 are obtained will be described.
ここで用いるモデルとして図6に示したモデル611を使用する。モデル611は、入力層、中間層、出力層の3層から成る階層型ニューラルネットワークであり、入力層に人物画像を入力すると、この人物画像は中間層を経て出力層から変換後の人物画像として出力される。この階層型ニューラルネットワークは、入力層に入力した人物画像と、該人物画像を入力に入力した場合に出力層から出力される変換後の人物画像と、が同じになるように、様々な人物の人物画像について学習したものである。 As the model used here, the model 611 shown in FIG. 6 is used. The model 611 is a hierarchical neural network composed of three layers, an input layer, an intermediate layer, and an output layer. When a person image is input to the input layer, the person image is converted from the output layer to the person image after passing through the intermediate layer. It is output. This hierarchical neural network is such that the person image input to the input layer and the converted person image output from the output layer when the person image is input to the input are the same. I learned about portrait images.
入力層はy=f(Wx+b)と表される。W、bはそれぞれ上記の学習によって学習パラメータとして得られる重みベクトル(入力層と中間層との間の重みベクトル)及びバイアスベクトル、xは入力層への入力ベクトルである。図6の上側に示す如く、物体画像502を入力層に入力ベクトルxとして入力することで、物体画像502は、より低次元のベクトルyへと射影される。また、図6の下側に示す如く、物体画像503を入力層に入力ベクトルxとして入力することで、物体画像503は、より低次元のベクトルyへと射影される。 The input layer is represented by y = f (Wx + b). W and b are weight vectors (weight vectors between the input layer and the intermediate layer) and bias vectors obtained as learning parameters by the above learning, respectively, and x is an input vector to the input layer. As shown on the upper side of FIG. 6, by inputting the object image 502 into the input layer as the input vector x, the object image 502 is projected onto a lower dimensional vector y. Further, as shown on the lower side of FIG. 6, by inputting the object image 503 into the input layer as the input vector x, the object image 503 is projected onto a lower-dimensional vector y.
中間層はz=f(W’y+b’)と表される。W’、b’はそれぞれ上記の学習によって学習パラメータとして得られる重みベクトル(中間層と出力層との間の重みベクトル)及びバイアスベクトル、yは中間層からの出力ベクトルである。図6の上側に示す如く、物体画像502を入力層に入力ベクトルxとして入力することで、出力層からはベクトルzとして物体画像602が出力される。また、図6の下側に示す如く、物体画像503を入力層に入力ベクトルxとして入力することで、出力層からはベクトルzとして物体画像603が出力される。 The intermediate layer is represented by z = f (W'y + b'). W'and b'are weight vectors (weight vectors between the intermediate layer and the output layer) and bias vectors obtained as learning parameters by the above learning, respectively, and y is the output vector from the intermediate layer. As shown on the upper side of FIG. 6, by inputting the object image 502 into the input layer as the input vector x, the object image 602 is output as the vector z from the output layer. Further, as shown on the lower side of FIG. 6, by inputting the object image 503 into the input layer as the input vector x, the object image 603 is output from the output layer as the vector z.
そして、物体画像502,503のそれぞれについて、以下の式に従って誤差Errを求める。 Then, for each of the object images 502 and 503, the error Err is obtained according to the following equation.
つまり、物体画像502については、物体画像502(x)と物体画像602(z)との誤差を求め、物体画像503については、物体画像503(x)と物体画像603(z)との誤差を求める。ここで用いる画像間の誤差とは、画像間で対応する画素位置における画素値の差分を二乗したものを全ての画素について合計したものである。画像間の誤差を求める式はこの式に限らない。 That is, for the object image 502, the error between the object image 502 (x) and the object image 602 (z) is obtained, and for the object image 503, the error between the object image 503 (x) and the object image 603 (z) is obtained. Ask. The error between images used here is the sum of squared differences in pixel values at corresponding pixel positions between images for all pixels. The formula for calculating the error between images is not limited to this formula.
そして物体画像502について求めた誤差を該物体画像502の評価値とし、物体画像503について求めた誤差を該物体画像503の評価値とする。そして求めた評価値が閾値未満となる物体画像及び該物体画像の局所特徴量は登録DB111及び検索DB112に登録し、求めた評価値が閾値以上となる物体画像及び該物体画像の局所特徴量は登録DB111には登録せずに検索DB112に登録する。ここでは、物体画像の局所特徴量としては、該物体画像を入力層に入力した際に中間層から出力されるベクトルyを使用する。 Then, the error obtained for the object image 502 is used as the evaluation value of the object image 502, and the error obtained for the object image 503 is used as the evaluation value of the object image 503. Then, the object image whose evaluated value is less than the threshold value and the local feature amount of the object image are registered in the registration DB 111 and the search DB 112, and the object image whose evaluated evaluation value is equal to or more than the threshold value and the local feature amount of the object image are It is registered in the search DB 112 without being registered in the registration DB 111. Here, as the local feature amount of the object image, the vector y output from the intermediate layer when the object image is input to the input layer is used.
図6の例では、物体画像502と物体画像602との誤差は閾値未満であるから、物体画像502及び物体画像502の局所特徴量は登録DB111及び検索DB112に登録する。一方、物体画像603では領域604内で物体画像503の対応領域が復元できていないため、物体画像503と物体画像603との誤差は閾値以上となる。このような場合、物体画像503及び物体画像503の局所特徴量は登録DB111には登録せずに検索DB112に登録する。この方法により、例えば人物が2つ重なった場合には、モデル611によりクエリとしての選択候補には適していないと判断することが可能となる。 In the example of FIG. 6, since the error between the object image 502 and the object image 602 is less than the threshold value, the local feature amounts of the object image 502 and the object image 502 are registered in the registration DB 111 and the search DB 112. On the other hand, in the object image 603, since the corresponding area of the object image 503 cannot be restored in the area 604, the error between the object image 503 and the object image 603 is equal to or larger than the threshold value. In such a case, the local feature amounts of the object image 503 and the object image 503 are registered in the search DB 112 without being registered in the registration DB 111. According to this method, for example, when two people overlap, it is possible to determine that the model 611 is not suitable as a selection candidate as a query.
以上説明した、階層型ニューラルネットワークを用いて物体画像の評価値を求め、該評価値に応じて物体画像及び該物体画像の局所特徴量の登録先を変更する処理は何れも評価部103が行う。階層型ニューラルネットワークは上記の通り学習済みのものであるから、予め作成して画像処理装置に登録しておき、評価部103はこの登録済みの階層型ニューラルネットワークを取得して使用し、物体画像の評価値を求める。 The evaluation unit 103 performs the processing of obtaining the evaluation value of the object image using the hierarchical neural network described above and changing the registration destination of the object image and the local feature amount of the object image according to the evaluation value. .. Since the hierarchical neural network has already been learned as described above, it is created in advance and registered in the image processing device, and the evaluation unit 103 acquires and uses this registered hierarchical neural network to obtain an object image. Find the evaluation value of.
つまり、以上説明した画像処理装置の構成は、以下のような構成の一例に過ぎない。すなわち、階層型ニューラルネットワークに入力する画像と、該画像を該階層型ニューラルネットワークに入力した場合に該階層型ニューラルネットワークから出力される画像と、が同じ画像となるように学習済みの該階層型ニューラルネットワークを取得する。そして、物体画像と、該物体画像を階層型ニューラルネットワークに入力した場合に階層型ニューラルネットワークから出力される画像と、の誤差が閾値未満であるか否かを判断する。そして、誤差が閾値未満であれば、物体画像をクエリ候補画像として登録し、誤差が閾値以上であれば、物体画像を非クエリ候補画像として登録する。 That is, the configuration of the image processing device described above is only an example of the following configuration. That is, the hierarchical type trained so that the image input to the hierarchical neural network and the image output from the hierarchical neural network when the image is input to the hierarchical neural network become the same image. Get a neural network. Then, it is determined whether or not the error between the object image and the image output from the hierarchical neural network when the object image is input to the hierarchical neural network is less than the threshold value. Then, if the error is less than the threshold value, the object image is registered as a query candidate image, and if the error is more than the threshold value, the object image is registered as a non-query candidate image.
[第2の実施形態]
本実施形態では、複数台のカメラのそれぞれによる撮影画像を入力画像として取得し、1つの物体について複数枚の物体画像が得られた場合に、該物体とカメラとの位置関係に応じて、どのカメラによる物体画像を評価値の算出対象とするのかを決定する。本実施形態を含め、以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとする。
[Second Embodiment]
In the present embodiment, when images taken by each of a plurality of cameras are acquired as input images and a plurality of object images are obtained for one object, which one is used according to the positional relationship between the object and the camera. Determine whether the object image taken by the camera is the target for calculating the evaluation value. Including the present embodiment, the differences from the first embodiment will be mainly described below, and the same as the first embodiment will be described unless otherwise specified below.
先ず、本実施形態に係る画像処理装置の機能構成例について、図7のブロック図を用いて説明する。図7において、図1に示した機能部と同様の機能部には同じ参照番号を付しており、該機能部に係る説明は省略する。 First, an example of the functional configuration of the image processing apparatus according to the present embodiment will be described with reference to the block diagram of FIG. In FIG. 7, the same functional unit as the functional unit shown in FIG. 1 is assigned the same reference number, and the description relating to the functional unit will be omitted.
画像取得部101−1〜101−N(Nは2以上の整数)はそれぞれ、第1〜第Nのカメラにより撮像された撮像画像を入力画像として取得する。なお、画像取得部101−1〜101−Nのそれぞれは、第1〜第Nのカメラにより撮像された撮像画像を直接該第1〜第Nのカメラから取得しても良いし、メモリなどを介して間接的に取得するようにしても良い。何れにせよ、画像取得部101−1〜101−Nが取得する入力画像は何れも同時刻の撮影時刻の撮像画像であるものとする。 Each of the image acquisition units 101-1 to 101-N (N is an integer of 2 or more) acquires the captured image captured by the first to Nth cameras as an input image. In addition, each of the image acquisition units 101-1 to 101-N may directly acquire the captured image captured by the first to Nth cameras from the first to Nth cameras, or may acquire a memory or the like. It may be acquired indirectly through. In any case, it is assumed that the input images acquired by the image acquisition unit 101-1-101-N are all captured images at the same shooting time.
抽出部102−1〜102−Nはそれぞれ、画像取得部101−1〜101−Nから取得した入力画像から、抽出部102と同様にして物体画像を取得し、該取得した物体画像を後段の位置推定部721に対して出力する。 Each of the extraction units 102-1-102-N acquires an object image from the input image acquired from the image acquisition unit 101-1-101-N in the same manner as the extraction unit 102, and obtains the acquired object image in the subsequent stage. Output to the position estimation unit 721.
位置推定部721は、物体画像に対応する物体の3次元位置を推定する。位置推定部721は、抽出部102−1〜102−Nから受けたそれぞれの物体画像の局所特徴量を求め、抽出部102−1〜102−Nから受けた物体画像群を局所特徴量が類似する物体画像のグループ(同一物体とおぼしき物体画像のグループ)毎に分割する。そして位置推定部721はグループごとに、次のような処理を行うことで、該グループに対応する物体の3次元位置を求める。即ち位置推定部721は、グループに属する物体画像の抽出元の入力画像における位置と、該グループに属する物体画像の抽出元の入力画像を撮像したカメラの3次元位置(既知)と、を用いた三角測量によって、該グループに対応する物体の3次元位置を求める。そして位置推定部721は、グループごとに、該グループに対応する物体の3次元位置に最も近い位置のカメラにより撮像された入力画像から抽出された物体画像を、該グループに対応する物体の物体画像として採用(特定)する。 The position estimation unit 721 estimates the three-dimensional position of the object corresponding to the object image. The position estimation unit 721 obtains the local feature amount of each object image received from the extraction unit 102-1-102-N, and the local feature amount is similar to the object image group received from the extraction unit 102-1-102-N. It is divided into groups of object images (groups of objects that appear to be the same object). Then, the position estimation unit 721 obtains the three-dimensional position of the object corresponding to the group by performing the following processing for each group. That is, the position estimation unit 721 used the position in the input image of the extraction source of the object image belonging to the group and the three-dimensional position (known) of the camera that captured the input image of the extraction source of the object image belonging to the group. The three-dimensional position of the object corresponding to the group is obtained by triangulation. Then, the position estimation unit 721 uses the object image extracted from the input image captured by the camera at the position closest to the three-dimensional position of the object corresponding to the group as the object image of the object corresponding to the group. Adopt (specific) as.
位置推定部721の動作について、図8を例にとり説明する。図8では、4台のカメラ(カメラ801−1〜801−4)が設けられている(つまり上記のN=4)。物体としての人物812の3次元位置に最も近い位置に設けられているカメラはカメラ801−3であるから、人物812の物体画像としては、カメラ801−3から取得した入力画像から抽出した人物812の物体画像を採用する。また、物体としての人物811の3次元位置に最も近い位置に設けられているカメラはカメラ801−2であるから、人物811の物体画像としては、カメラ801−2から取得した入力画像から抽出した人物811の物体画像を採用する。 The operation of the position estimation unit 721 will be described by taking FIG. 8 as an example. In FIG. 8, four cameras (cameras 801-1 to 801-4) are provided (that is, N = 4 above). Since the camera provided at the position closest to the three-dimensional position of the person 812 as an object is the camera 801-3, the object image of the person 812 is the person 812 extracted from the input image acquired from the camera 801-3. The object image of is adopted. Further, since the camera provided at the position closest to the three-dimensional position of the person 811 as an object is the camera 801-2, the object image of the person 811 is extracted from the input image acquired from the camera 801-2. The object image of the person 811 is adopted.
また、必ずしも物体に最も近いカメラによる物体画像を採用するのではなく、該物体が他の物体に隠蔽されている場合には、他のカメラによる物体画像を採用するようにしても良い。例えば、人物811に最も近いカメラが801−3であったとする。しかしカメラ801−3から見て人物811は人物812に隠蔽されている。このような場合は、カメラ801−3の次に人物811に近いカメラによる物体画像を採用する。 Further, the object image taken by the camera closest to the object is not necessarily adopted, and when the object is concealed by another object, the object image taken by another camera may be adopted. For example, suppose that the camera closest to the person 811 is 801-3. However, as seen from the camera 801-3, the person 811 is hidden by the person 812. In such a case, the object image taken by the camera closest to the person 811 is adopted next to the camera 801-3.
例えば、カメラ801−3の場合、カメラ801−3の位置から人物811の位置へのベクトルa、カメラ801−3の位置から人物812の位置へのベクトルbを求める。そして以下の式を計算して、ベクトルaとベクトルbとが成す角度θを求める。 For example, in the case of the camera 801-3, the vector a from the position of the camera 801-3 to the position of the person 811 and the vector b from the position of the camera 801-3 to the position of the person 812 are obtained. Then, the following equation is calculated to obtain the angle θ formed by the vector a and the vector b.
そして、角度θが閾値(0度に近い小さい値)未満で、且つ以下の式のとおり、ベクトルaの大きさがベクトルbの大きさよりも大きい場合には、カメラ801−3から見て人物811は人物812に隠蔽されていると判断することができる。 When the angle θ is less than the threshold value (a small value close to 0 degrees) and the magnitude of the vector a is larger than the magnitude of the vector b as shown in the following equation, the person 811 as viewed from the camera 801-3. Can be determined to be concealed by the person 812.
このような処理を各カメラについて行うことで、物体画像としてどのカメラによる物体画像を採用しないのかを判断することができる。物体画像及び該物体画像の局所特徴量の登録処理について、図9のフローチャートに従って説明する。なお、図9のフローチャートに従った処理は、画像取得部101−1〜101−Nが取得した1フレーム分の入力画像に対してのものである。図9のフローチャートに従った処理は、画像取得部101−1〜101−Nが取得した各フレームの入力画像に対して行われることになる。また、図9において、図4(a)と同様の処理ステップには同じステップ番号を付しており、該処理ステップについては説明を省略する。 By performing such processing for each camera, it is possible to determine which camera does not use the object image as the object image. The object image and the registration process of the local feature amount of the object image will be described with reference to the flowchart of FIG. The process according to the flowchart of FIG. 9 is for the input image for one frame acquired by the image acquisition unit 101-1-101-N. The process according to the flowchart of FIG. 9 is performed on the input image of each frame acquired by the image acquisition unit 101-1-101-N. Further, in FIG. 9, the same processing steps as in FIG. 4A are assigned the same step numbers, and the description of the processing steps will be omitted.
ステップS401では、画像取得部101−1〜101−Nが入力画像を取得し、ステップS402では、抽出部102−1〜102−Nがそれぞれ、画像取得部101−1〜101−Nが取得した入力画像から物体画像を取得する。 In step S401, the image acquisition unit 101-1-101-N acquired the input image, and in step S402, the extraction unit 102-1-102-N acquired the input image, respectively, and the image acquisition unit 101-1-101-N acquired the input image. Acquire an object image from the input image.
ステップS921では、位置推定部721は、物体画像に対応する物体の3次元位置を推定し、物体の3次元位置に最も近い位置のカメラにより撮像された入力画像から抽出された物体画像を、後段の評価部103に対して出力する。 In step S921, the position estimation unit 721 estimates the three-dimensional position of the object corresponding to the object image, and sets the object image extracted from the input image captured by the camera at the position closest to the three-dimensional position of the object in the subsequent stage. Is output to the evaluation unit 103 of.
なお、登録DB111に登録されている物体画像から選択された物体画像をクエリとして、検索DB112から物体画像を検索する検索処理については第1の実施形態と同様である。 The search process for searching the object image from the search DB 112 by using the object image selected from the object images registered in the registration DB 111 as a query is the same as in the first embodiment.
[第3の実施形態]
本実施形態では、物体画像の登録時に、更に該物体画像の属性を表す属性情報を登録しておき、画像検索時には属性情報を使用する。先ず、本実施形態に係る画像処理装置の機能構成例について、図10のブロック図を用いて説明する。図10の構成は、図7に示した構成に、属性推定部1011を加えると共に、選択部104の代わりに選択部1012を設けた点にある。以下では、第2の実施形態との差分について重点的に説明する。
[Third Embodiment]
In the present embodiment, when the object image is registered, the attribute information representing the attribute of the object image is further registered, and the attribute information is used at the time of image search. First, an example of the functional configuration of the image processing apparatus according to the present embodiment will be described with reference to the block diagram of FIG. The configuration of FIG. 10 is that the attribute estimation unit 1011 is added to the configuration shown in FIG. 7, and the selection unit 1012 is provided instead of the selection unit 104. In the following, the differences from the second embodiment will be mainly described.
属性推定部1011は、物体画像の属性を取得し、物体画像及び該物体画像の局所特徴量と共に、該属性を表す情報を登録する。例えば属性推定部1011は、物体画像の局所特徴量から、年齢、性別、服装、荷物、髪色等の属性毎に対応する局所特徴量を取得し、あらかじめSVMで学習したモデルと比較して各属性のクラスを判定する。そして属性推定部1011は、物体画像及び該物体画像の局所特徴量に加え、各属性について判定したクラスのラベルを登録する。登録先については、該物体画像がクエリ候補画像であれば、登録DB111及び検索DB112であるし、該物体画像が非クエリ候補画像であれば、検索DB112である。なお、物体画像の属性を取得する方法には様々な方法が適用可能である。 The attribute estimation unit 1011 acquires the attribute of the object image, and registers the object image and the information representing the attribute together with the local feature amount of the object image. For example, the attribute estimation unit 1011 acquires local features corresponding to each attribute such as age, gender, clothes, luggage, and hair color from the local features of the object image, and compares them with a model learned in advance by SVM. Determine the class of attributes. Then, the attribute estimation unit 1011 registers the label of the class determined for each attribute in addition to the object image and the local feature amount of the object image. Regarding the registration destination, if the object image is a query candidate image, it is the registration DB 111 and the search DB 112, and if the object image is a non-query candidate image, it is the search DB 112. In addition, various methods can be applied to the method of acquiring the attribute of the object image.
選択部1012は、クエリとして使用する属性のクラスを選択する。例えば選択部1012は、年齢、性別、服装、荷物、髪色等の属性のクラスを表示部113に一覧表示し、ユーザからの選択指示を受け付ける。そしてユーザが不図示の操作部を操作して、一覧表示されている属性からクエリとして使用する属性のクラスを選択する選択操作を行ったとする。このとき選択部1012は、ユーザによって選択された属性のクラスをクエリとし、該クラスのラベルと共に登録DB111に登録されている物体画像を検索して表示部113に一覧表示する。なお、選択する属性のクラスの数は1であっても良いし、複数であっても良い。複数の場合、選択したそれぞれの属性のクラスに対応する物体画像が検索されることになる。そして選択部104は、ユーザからの物体画像の選択指示を受け付ける。そしてユーザが不図示の操作部を操作して、一覧表示されている物体画像からクエリ画像としての物体画像を選択する選択操作を行うと、選択部1012は、ユーザによって選択された物体画像と、該物体画像の局所特徴量と、を登録DB111から取得する。なお、選択する(取得する)クエリ画像の枚数は1枚であっても良いし、複数枚であっても良い。 The selection unit 1012 selects a class of attributes to be used as a query. For example, the selection unit 1012 displays a list of attribute classes such as age, gender, clothes, luggage, and hair color on the display unit 113, and receives a selection instruction from the user. Then, it is assumed that the user operates an operation unit (not shown) to perform a selection operation of selecting a class of attributes to be used as a query from the listed attributes. At this time, the selection unit 1012 uses the class of the attribute selected by the user as a query, searches for the object image registered in the registration DB 111 together with the label of the class, and displays the object image in a list on the display unit 113. The number of attribute classes to be selected may be one or may be plural. In the case of a plurality of objects, the object image corresponding to each selected attribute class will be searched. Then, the selection unit 104 receives an object image selection instruction from the user. Then, when the user operates an operation unit (not shown) to perform a selection operation of selecting an object image as a query image from the displayed object images, the selection unit 1012 displays the object image selected by the user and the object image. The local feature amount of the object image and the local feature amount are acquired from the registration DB 111. The number of query images to be selected (acquired) may be one or a plurality.
物体画像、該物体画像の局所特徴量、該物体画像の属性の登録処理について、図11(a)のフローチャートに従って説明する。なお、図11(a)のフローチャートに従った処理は、画像取得部101−1〜101−Nが取得した1フレーム分の入力画像に対してのものである。図11(a)のフローチャートに従った処理は、画像取得部101−1〜101−Nが取得した各フレームの入力画像に対して行われることになる。また、図11(a)において、図9と同様の処理ステップには同じステップ番号を付しており、該処理ステップについては説明を省略する。 The object image, the local feature amount of the object image, and the registration process of the attributes of the object image will be described with reference to the flowchart of FIG. 11A. The process according to the flowchart of FIG. 11A is for the input image for one frame acquired by the image acquisition unit 101-1-101-N. The process according to the flowchart of FIG. 11A is performed on the input image of each frame acquired by the image acquisition unit 101-1-101-N. Further, in FIG. 11A, the same processing steps as those in FIG. 9 are assigned the same step numbers, and the description of the processing steps will be omitted.
ステップS1121では、属性推定部1011は、物体画像の属性を取得する。ステップS403で算出した評価値が「1」であれば、処理はステップS404を介してステップS1122に進み、ステップS403で算出した評価値が「1」でなければ、処理はステップS404を介してステップS1123に進む。 In step S1121, the attribute estimation unit 1011 acquires the attribute of the object image. If the evaluation value calculated in step S403 is "1", the process proceeds to step S1122 via step S404, and if the evaluation value calculated in step S403 is not "1", the process proceeds through step S404. Proceed to S1123.
ステップS1122では、属性推定部1011は、物体画像、該物体画像の局所特徴量、該物体画像の属性のクラスに対応するラベルを、登録DB111及び検索DB112の両方に登録する。ステップS1123では、属性推定部1011は、物体画像、該物体画像の局所特徴量、該物体画像の属性のクラスに対応するラベルを、登録DB111には登録せずに、検索DB112に登録する。 In step S1122, the attribute estimation unit 1011 registers the object image, the local feature amount of the object image, and the label corresponding to the attribute class of the object image in both the registration DB 111 and the search DB 112. In step S1123, the attribute estimation unit 1011 registers the object image, the local feature amount of the object image, and the label corresponding to the attribute class of the object image in the search DB 112 without registering in the registration DB 111.
次に、検索DB112から物体画像を検索する検索処理について、図11(b)のフローチャートに従って説明する。図11(b)において、図4(b)と同様の処理ステップには同じステップ番号を付しており、該処理ステップについては説明を省略する。 Next, the search process for searching the object image from the search DB 112 will be described with reference to the flowchart of FIG. 11B. In FIG. 11B, the same processing steps as in FIG. 4B are assigned the same step numbers, and the description of the processing steps will be omitted.
ステップS1131では、選択部1012は、クエリとして使用する属性のクラスを選択し、選択された属性のクラスをクエリとし、該属性のクラスのラベルと共に登録DB111に登録されている物体画像を検索して表示部113に一覧表示する。 In step S1131, the selection unit 1012 selects an attribute class to be used as a query, uses the selected attribute class as a query, and searches for an object image registered in the registration DB 111 together with the label of the attribute class. A list is displayed on the display unit 113.
ステップS1132では、選択部104は、ステップS1131で一覧表示した物体画像から選択された物体画像と、該物体画像の局所特徴量と、を登録DB111から取得する。 In step S1132, the selection unit 104 acquires the object image selected from the object images listed in step S1131 and the local feature amount of the object image from the registration DB 111.
このように、本実施形態によれば、属性による絞込みをしながらクエリの選択を行うことができ、より効率的に検索を実施できる。また、以上説明した各実施形態や変形例はその一部若しくは全部を適宜組み合わせて使用しても構わない。 As described above, according to the present embodiment, the query can be selected while narrowing down by the attribute, and the search can be performed more efficiently. In addition, some or all of the embodiments and modifications described above may be used in combination as appropriate.
[第4の実施形態]
図1,7,10に示した画像処理装置の機能部の全てをハードウエアで構成しても良いが、登録DB111、検索DB112、表示部113を除く各部をソフトウェア(コンピュータプログラム)で実現しても良い。このような場合、登録DB111及び検索DB112をメモリとして有し、表示部113を表示装置として有するコンピュータ装置であって、このソフトウェアを実行するプロセッサを有するコンピュータ装置であれば、上記の画像処理装置に適用可能である。このようなコンピュータ装置のハードウェア構成例について、図12のブロック図を用いて説明する。
[Fourth Embodiment]
All the functional parts of the image processing apparatus shown in FIGS. 1, 7 and 10 may be configured by hardware, but each part except the registration DB 111, the search DB 112 and the display unit 113 is realized by software (computer program). Is also good. In such a case, if the computer device has the registration DB 111 and the search DB 112 as memories and the display unit 113 as a display device and has a processor that executes this software, the above image processing device may be used. Applicable. An example of a hardware configuration of such a computer device will be described with reference to the block diagram of FIG.
CPU1201は、RAM1202やROM1203に格納されているコンピュータプログラムやデータを用いて各種の処理を実行する。これによりCPU1201はコンピュータ装置全体の動作制御を行うと共に、上記の画像処理装置が行うものとして上述した各処理を実行若しくは制御する。 The CPU 1201 executes various processes using computer programs and data stored in the RAM 1202 and the ROM 1203. As a result, the CPU 1201 controls the operation of the entire computer device, and also executes or controls each of the above-described processes as performed by the above-mentioned image processing device.
RAM1202は、ROM1203や外部記憶装置1206からロードされたコンピュータプログラムやデータ、I/F(インターフェース)1207を介して外部から受信したデータ、を格納するためのエリアを有する。更にRAM1202は、CPU1201が各種の処理を実行する際に用いるワークエリアを有する。このようにRAM1202は各種のエリアを適宜提供することができる。ROM1203には、書き換え不要の本コンピュータ装置の設定データやブートプログラムなどが格納されている。 The RAM 1202 has an area for storing computer programs and data loaded from the ROM 1203 and the external storage device 1206, and data received from the outside via the I / F (interface) 1207. Further, the RAM 1202 has a work area used by the CPU 1201 to execute various processes. As described above, the RAM 1202 can appropriately provide various areas. The ROM 1203 stores setting data, a boot program, and the like of the computer device that do not need to be rewritten.
操作部1204は、マウスやキーボードなどのユーザインターフェースにより構成されており、ユーザが操作することで各種の指示をCPU1201に対して入力することができる。例えば、上記のユーザによる選択操作は、ユーザが操作部1204を操作することで実現することができる。 The operation unit 1204 is composed of a user interface such as a mouse and a keyboard, and various instructions can be input to the CPU 1201 by the user operating the operation unit 1204. For example, the above selection operation by the user can be realized by the user operating the operation unit 1204.
表示装置1205はCRTや液晶画面、プロジェクタ等により構成されており、CPU1201による処理結果を画像や文字などでもって表示若しくは投影することができる。表示装置1205は、上記の表示部113としても機能する。なお、操作部1204と表示装置1205とを一体化させてタッチパネル画面を構成しても良い。 The display device 1205 is composed of a CRT, a liquid crystal screen, a projector, and the like, and can display or project the processing result by the CPU 1201 with images, characters, and the like. The display device 1205 also functions as the display unit 113. The touch panel screen may be configured by integrating the operation unit 1204 and the display device 1205.
外部記憶装置1206は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。外部記憶装置1206には、OS(オペレーティングシステム)や、上記の画像処理装置が行うものとして上述した各処理をCPU1201に実行させるためのコンピュータプログラムやデータが保存されている。外部記憶装置1206に保存されているコンピュータプログラムには、図1,7,10において登録DB111、検索DB112、表示部113を除く各部の機能をCPU1201に実現させるためのコンピュータプログラムが含まれている。また、外部記憶装置1206に保存されているデータには、上記の説明において既知の情報として取り扱ったもの(閾値や学習パラメータなど)が含まれている。上記の登録DB111及び検索DB112は外部記憶装置1206内に設けても良い。外部記憶装置1206に保存されているコンピュータプログラムやデータは、CPU1201による制御に従って適宜RAM1202にロードされ、CPU1201による処理対象となる。 The external storage device 1206 is a large-capacity information storage device typified by a hard disk drive device. The external storage device 1206 stores an OS (operating system) and computer programs and data for causing the CPU 1201 to execute each of the above-mentioned processes as those performed by the above-mentioned image processing device. The computer program stored in the external storage device 1206 includes a computer program for realizing the functions of each unit except the registration DB 111, the search DB 112, and the display unit 113 in FIGS. 1, 7 and 10 in the CPU 1201. In addition, the data stored in the external storage device 1206 includes data (threshold values, learning parameters, etc.) treated as known information in the above description. The registration DB 111 and the search DB 112 may be provided in the external storage device 1206. The computer programs and data stored in the external storage device 1206 are appropriately loaded into the RAM 1202 according to the control by the CPU 1201, and are processed by the CPU 1201.
I/F1207は、外部の機器とのデータ通信を行うためのインターフェースとして機能するものである。例えば、登録DB111や検索DB112を外部の装置として実現する場合、登録DB111や検索DB112への情報の読み書きはこのI/F1207を介して行われることになる。 The I / F 1207 functions as an interface for performing data communication with an external device. For example, when the registration DB 111 and the search DB 112 are realized as an external device, reading and writing of information to the registration DB 111 and the search DB 112 is performed via the I / F 1207.
CPU1201、RAM1202、ROM1203、操作部1204、表示装置1205、外部記憶装置1206、I/F1207は何れもバス1208に接続されている。なお、上記の画像処理装置に適用可能なコンピュータ装置のハードウェア構成は図12に示した構成に限らない。 The CPU 1201, RAM 1202, ROM 1203, operation unit 1204, display device 1205, external storage device 1206, and I / F 1207 are all connected to the bus 1208. The hardware configuration of the computer device applicable to the above image processing device is not limited to the configuration shown in FIG.
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program. It can also be realized by the processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
101:画像取得部 102:抽出部 103:評価部 104:選択部 105:検索部 111:登録DB 112:検索DB 113:表示部 101: Image acquisition unit 102: Extraction unit 103: Evaluation unit 104: Selection unit 105: Search unit 111: Registration DB 112: Search DB 113: Display unit
Claims (14)
前記判断手段が属すると判断した場合には、前記物体画像をクエリ候補画像として登録し、前記判断手段が属さないと判断した場合には、前記物体画像を非クエリ候補画像として登録する登録手段と
を備えることを特徴とする画像処理装置。 A means of determining whether an object image belongs to the same class as a plurality of reference object images,
When it is determined that the determination means belongs, the object image is registered as a query candidate image, and when it is determined that the determination means does not belong, the object image is registered as a non-query candidate image. An image processing device characterized by comprising.
複数のカメラにより撮像された画像から抽出された物体画像のうち同じ物体の物体画像を用いて該物体の位置を求め、該位置に最も近い位置に設けられているカメラにより撮像された画像から抽出された物体画像を特定する特定手段を備え、
前記判断手段は、前記特定手段が特定した物体画像が複数の基準物体画像と同じクラスに属するか否かを判断することを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。 Furthermore,
Among the object images extracted from the images captured by a plurality of cameras, the position of the object is obtained using the object image of the same object, and the position is extracted from the image captured by the camera provided at the position closest to the position. Equipped with specific means to identify the image of the object
The image processing according to any one of claims 1 to 4, wherein the determination means determines whether or not the object image specified by the specific means belongs to the same class as a plurality of reference object images. apparatus.
物体画像と、該物体画像を前記階層型ニューラルネットワークに入力した場合に前記階層型ニューラルネットワークから出力される画像と、の誤差が閾値未満であるか否かを判断する判断手段と、
前記誤差が閾値未満であれば、前記物体画像をクエリ候補画像として登録し、前記誤差が閾値以上であれば、前記物体画像を非クエリ候補画像として登録する登録手段と
を備えることを特徴とする画像処理装置。 The hierarchical neural network that has been trained so that the image input to the hierarchical neural network and the image output from the hierarchical neural network when the image is input to the hierarchical neural network are the same image. And the means to get
A means for determining whether or not the error between the object image and the image output from the hierarchical neural network when the object image is input to the hierarchical neural network is less than the threshold value, and
If the error is less than the threshold value, the object image is registered as a query candidate image, and if the error is greater than or equal to the threshold value, the object image is registered as a non-query candidate image. Image processing device.
前記クエリ候補画像として登録された物体画像を表示部に一覧表示する表示制御手段を備えることを特徴とする請求項1乃至7の何れか1項に記載の画像処理装置。 Furthermore,
The image processing apparatus according to any one of claims 1 to 7, further comprising a display control means for displaying a list of object images registered as query candidate images on a display unit.
前記表示部に一覧表示された物体画像からユーザによる操作に応じて選択された物体画像をクエリとし、前記クエリ候補画像として登録された画像及び前記非クエリ候補画像として登録された画像に対する検索を行う検索手段を備えることを特徴とする請求項8又は9に記載の画像処理装置。 Furthermore,
The object image selected from the object images listed on the display unit according to the operation by the user is used as a query, and the image registered as the query candidate image and the image registered as the non-query candidate image are searched. The image processing apparatus according to claim 8 or 9, further comprising a search means.
前記検索手段は、前記表示部に一覧表示された物体画像からユーザによる操作に応じて選択された物体画像をクエリとし、前記第2の格納部に登録されている物体画像に対する検索を行うことを特徴とする請求項10に記載の画像処理装置。 When the object image is registered as a query candidate image , the registration means registers the object image as a query candidate image in the first storage unit and the second storage unit, and registers the object image as a non-query candidate image. In the case of registering as , the object image is registered as a non-query candidate image in the second storage unit without being registered in the first storage unit.
The search means queries the object images selected in response to an operation by the user from the object images listed in the display unit, and searches for the object images registered in the second storage unit. The image processing apparatus according to claim 10.
前記画像処理装置の判断手段が、物体画像が複数の基準物体画像と同じクラスに属するか否かを判断する判断工程と、
前記画像処理装置の登録手段が、前記判断工程で属すると判断した場合には、前記物体画像をクエリ候補画像として登録し、前記判断工程で属さないと判断した場合には、前記物体画像を非クエリ候補画像として登録する登録工程と
を備えることを特徴とする画像処理方法。 This is an image processing method performed by an image processing device.
The determination means of the image processing device includes a determination step of determining whether or not the object image belongs to the same class as the plurality of reference object images.
When the registration means of the image processing device determines that it belongs in the determination step, the object image is registered as a query candidate image, and when it is determined that it does not belong in the determination step, the object image is not registered. An image processing method including a registration process for registering as a query candidate image.
前記画像処理装置の取得手段が、階層型ニューラルネットワークに入力する画像と、該画像を該階層型ニューラルネットワークに入力した場合に該階層型ニューラルネットワークから出力される画像と、が同じ画像となるように学習済みの該階層型ニューラルネットワークを取得する工程と、
前記画像処理装置の判断手段が、物体画像と、該物体画像を前記階層型ニューラルネットワークに入力した場合に前記階層型ニューラルネットワークから出力される画像と、の誤差が閾値未満であるか否かを判断する判断工程と、
前記画像処理装置の登録手段が、前記誤差が閾値未満であれば、前記物体画像をクエリ候補画像として登録し、前記誤差が閾値以上であれば、前記物体画像を非クエリ候補画像として登録する登録工程と
を備えることを特徴とする画像処理方法。 This is an image processing method performed by an image processing device.
An image input to the hierarchical neural network by the acquisition means of the image processing device and an image output from the hierarchical neural network when the image is input to the hierarchical neural network are the same image. The process of acquiring the hierarchical neural network that has been learned in
Whether or not the error between the object image and the image output from the hierarchical neural network when the object image is input to the hierarchical neural network is less than the threshold value by the determination means of the image processing device. Judgment process to judge and
If the error is less than the threshold value, the registration means of the image processing device registers the object image as a query candidate image, and if the error is greater than or equal to the threshold value, the object image is registered as a non-query candidate image. An image processing method characterized by including a process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016222665A JP6752122B2 (en) | 2016-11-15 | 2016-11-15 | Image processing device, image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016222665A JP6752122B2 (en) | 2016-11-15 | 2016-11-15 | Image processing device, image processing method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018081452A JP2018081452A (en) | 2018-05-24 |
JP2018081452A5 JP2018081452A5 (en) | 2019-11-07 |
JP6752122B2 true JP6752122B2 (en) | 2020-09-09 |
Family
ID=62197170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016222665A Active JP6752122B2 (en) | 2016-11-15 | 2016-11-15 | Image processing device, image processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6752122B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7199436B2 (en) * | 2018-07-03 | 2023-01-05 | 三菱電機株式会社 | Obstacle detection device and driving support device |
KR102221122B1 (en) * | 2019-01-28 | 2021-02-25 | 네이버 주식회사 | Image search apparatus and method |
JP7372697B1 (en) * | 2022-06-21 | 2023-11-01 | キャディ株式会社 | Similar drawing search device, similar drawing search method, and similar drawing search program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11219365A (en) * | 1998-02-02 | 1999-08-10 | Matsushita Electric Ind Co Ltd | Image retrieving device |
JP5840083B2 (en) * | 2012-07-04 | 2016-01-06 | 三菱電機株式会社 | Image processing device |
JP6395481B2 (en) * | 2014-07-11 | 2018-09-26 | キヤノン株式会社 | Image recognition apparatus, method, and program |
JP2016139176A (en) * | 2015-01-26 | 2016-08-04 | シャープ株式会社 | Image processing device, image processing system, image processing method, and image processing program therefor |
JP6589321B2 (en) * | 2015-03-24 | 2019-10-16 | 富士通株式会社 | System, search method and program |
-
2016
- 2016-11-15 JP JP2016222665A patent/JP6752122B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018081452A (en) | 2018-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860846B2 (en) | Information processing apparatus, information processing method and program | |
JP7282851B2 (en) | Apparatus, method and program | |
US20190303660A1 (en) | Pose-Aligned Networks for Deep Attribute Modeling | |
KR101507662B1 (en) | Semantic parsing of objects in video | |
JP5227888B2 (en) | Person tracking method, person tracking apparatus, and person tracking program | |
JP6046948B2 (en) | Object detection apparatus, control method therefor, program, and storage medium | |
JP5963609B2 (en) | Image processing apparatus and image processing method | |
JP6393424B2 (en) | Image processing system, image processing method, and storage medium | |
JP6752122B2 (en) | Image processing device, image processing method | |
US8718362B2 (en) | Appearance and context based object classification in images | |
JP2014016968A (en) | Person retrieval device and data collection device | |
JP2016099835A (en) | Image processor, image processing method, and program | |
WO2020052513A1 (en) | Image identification and pedestrian re-identification method and apparatus, and electronic and storage device | |
US20230214421A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
Juang et al. | Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations | |
JP7364077B2 (en) | Image processing device, image processing method, and program | |
JP2017175466A (en) | Video image processing device, video image processing system and control method | |
JP2020095757A (en) | Information processing device, information processing method, and program | |
JP6855175B2 (en) | Image processing equipment, image processing methods and programs | |
KR101847587B1 (en) | Apparatus and method for searching images of like cells | |
JP2019204183A (en) | Information processing device, imaging device, and information processing method | |
JP2019103029A (en) | Information processing device, color correction method, and computer program | |
JP7468642B2 (en) | Image processing device, image processing method, and program | |
US12033390B2 (en) | Method and apparatus for people flow analysis with inflow estimation | |
US20230244713A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190920 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200720 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200818 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6752122 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |