JP2018010359A - Information processor, information processing method, and program - Google Patents

Information processor, information processing method, and program Download PDF

Info

Publication number
JP2018010359A
JP2018010359A JP2016136928A JP2016136928A JP2018010359A JP 2018010359 A JP2018010359 A JP 2018010359A JP 2016136928 A JP2016136928 A JP 2016136928A JP 2016136928 A JP2016136928 A JP 2016136928A JP 2018010359 A JP2018010359 A JP 2018010359A
Authority
JP
Japan
Prior art keywords
viewpoint image
image
filter
viewpoint
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016136928A
Other languages
Japanese (ja)
Inventor
檜垣 欣成
Kinsei Higaki
欣成 檜垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016136928A priority Critical patent/JP2018010359A/en
Publication of JP2018010359A publication Critical patent/JP2018010359A/en
Pending legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processor capable of finding corresponding points between images with high precision and high density while suppressing calculation costs.SOLUTION: The present invention relates to an information processor having: acquisition means of acquiring a first single-viewpoint image and a second single-viewpoint image obtained by imaging the same subject from different viewpoints; generation means for generating a plurality of feature quantity maps respectively for the first single-viewpoint image and second single-viewpoint image by performing processing for applying a filter for detecting a specific structure in an image on the first single-viewpoint image and second single-viewpoint image in stages while changing filters; and search means for searching for corresponding points of the first single-viewpoint image and second single-viewpoint image based upon the plurality of generated feature quantity maps, filters that the generation means applies in the respective stages being a plurality of filters which are different from one another.SELECTED DRAWING: Figure 3

Description

本発明は、異視点画像間で対応点を探索するための技術に関する。   The present invention relates to a technique for searching for corresponding points between different viewpoint images.

同一の被写体を異なる視点から見た場合の複数の画像(多視点画像)を用いて、被写体の距離や形状に関する情報を取得する技術がある。また、多視点画像を用いて、カメラの位置および姿勢を推定する技術がある。さらに、パノラマ画像の作成やノイズ低減、超解像などの目的で複数の画像を合成する技術がある。これらの技術において、複数の画像間で対応する点(対応点)を探索することが必須である。   There is a technique for acquiring information about the distance and shape of a subject using a plurality of images (multi-viewpoint images) when the same subject is viewed from different viewpoints. There is also a technique for estimating the position and orientation of a camera using a multi-viewpoint image. Furthermore, there is a technique for synthesizing a plurality of images for the purpose of creating a panoramic image, reducing noise, and super-resolution. In these techniques, it is essential to search for corresponding points (corresponding points) between a plurality of images.

特許文献1は、ニューラルネットワークを用いて2つの入力画像間の対応点を探索する方法を開示している。特許文献1では、2つの入力画像の各々を複数の矩形領域に分割し、該分割した矩形領域の夫々について特徴量ベクトルを算出し、該算出した特徴量ベクトルに基づき、第1の入力画像の矩形領域に対応する第2の入力画像の矩形領域を探索する処理を反復する。   Patent Document 1 discloses a method for searching for corresponding points between two input images using a neural network. In Patent Document 1, each of the two input images is divided into a plurality of rectangular regions, a feature amount vector is calculated for each of the divided rectangular regions, and the first input image is calculated based on the calculated feature amount vector. The process of searching for the rectangular area of the second input image corresponding to the rectangular area is repeated.

特開2009−205553号公報JP 2009-205553 A

特許文献1では、2つの入力画像の各々について、分割された矩形領域ごとの特徴量ベクトルを算出する際、入力画像毎にニューラルネットワークを用いた学習を行うため、計算コストが大きい。また、分割された矩形領域単位で対応点を探索するため、対応点の密度が低い。対応点の密度が低ければ、対応点のマッチング精度も必然的に低下する。対応点の密度を高くするためには、入力画像をより細かく分割した上で、ニューラルネットワークを用いた学習による特徴量生成を反復する必要があり、ただでさえ大きい計算コストがさらに増大する。このように特許文献1には、入力画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが難しいという課題がある。   In Patent Document 1, when a feature vector for each divided rectangular area is calculated for each of two input images, learning using a neural network is performed for each input image, so that the calculation cost is high. In addition, since the corresponding points are searched in units of divided rectangular areas, the density of the corresponding points is low. If the density of corresponding points is low, the matching accuracy of corresponding points is inevitably lowered. In order to increase the density of corresponding points, it is necessary to divide the input image more finely and repeat the generation of feature values by learning using a neural network, which increases the calculation cost even more. As described above, Patent Document 1 has a problem that it is difficult to obtain corresponding points between input images with high accuracy and high density while suppressing calculation cost.

そこで本発明は、画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが可能な情報処理装置を提供することを目的とする。   Therefore, an object of the present invention is to provide an information processing apparatus capable of obtaining corresponding points between images with high accuracy and high density while suppressing calculation cost.

本発明は、同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得する取得手段と、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成する作成手段と、前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索する探索手段とを有し、前記作成手段が各段階で適用するフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理装置である。   The present invention provides acquisition means for acquiring a first single-viewpoint image and a second single-viewpoint image obtained by imaging the same subject from different viewpoints, the first single-viewpoint image, and the second single-viewpoint image. A process of applying a filter for detecting a specific structure in the image to each of the viewpoint images is performed step by step by changing the filter, so that the first single-viewpoint image and the second single-viewpoint image are processed. A creation unit that creates a plurality of feature quantity maps for each of the viewpoint images, and searches for corresponding points between the first single-viewpoint image and the second single-viewpoint image based on the created feature quantity maps The information processing apparatus is characterized in that the filter applied by the creating means at each stage is a plurality of different filters.

本発明によれば、画像間の対応点を、計算コストを抑えつつ、高精度かつ高密度に求めることが可能である。   According to the present invention, it is possible to obtain corresponding points between images with high accuracy and high density while suppressing calculation cost.

実施例1における情報処理装置のハードウェア構成を示すブロック図1 is a block diagram illustrating a hardware configuration of an information processing apparatus according to a first embodiment. 実施例1における情報処理装置の機能構成を示すブロック図1 is a block diagram illustrating a functional configuration of an information processing apparatus according to a first embodiment. 実施例1における情報処理装置による処理の流れを示すフローチャート7 is a flowchart showing the flow of processing by the information processing apparatus according to the first embodiment. 特徴量生成部の機能構成を示すブロック図Block diagram showing the functional configuration of the feature quantity generator 特徴量生成部による処理の流れを示すフローチャートFlow chart showing the flow of processing by the feature quantity generator 特徴量生成部の機能構成を示すブロック図Block diagram showing the functional configuration of the feature quantity generator 特徴量生成部による処理の流れを示すフローチャートFlow chart showing the flow of processing by the feature quantity generator 実施例1で用いる入力画像を示す図The figure which shows the input image used in Example 1 実施例1で用いるフィルタを示す図The figure which shows the filter used in Example 1 視差推定の結果を示す図The figure which shows the result of parallax estimation 実施例2における情報処理装置の機能構成を示すブロック図FIG. 2 is a block diagram illustrating a functional configuration of an information processing apparatus according to a second embodiment. 実施例2における情報処理装置による処理の流れを示すフローチャート7 is a flowchart showing a flow of processing by the information processing apparatus according to the second embodiment.

以下、図面を参照して本発明の好適な実施形態を例示的に説明する。但し、以下に記載されている構成要素の相対配置、装置形状等は、あくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。その趣旨を逸脱しない範囲で、当業者の通常の知識に基づいて、以下に記載する実施形態に対して適宜変更、改良が加えられたものについても本発明の範囲に入ることが理解されるべきである。   Hereinafter, exemplary embodiments of the present invention will be described by way of example with reference to the drawings. However, the relative arrangement of the constituent elements described below, the device shape, and the like are merely examples, and are not intended to limit the scope of the present invention only to them. It should be understood that within the scope of the present invention, the embodiments described below are appropriately modified and improved within the scope of the present invention based on the ordinary knowledge of those skilled in the art. It is.

[実施例1]
本実施例では、多視点画像(複数枚の画像)から視差マップを作成する場合について述べる。多視点画像を取得するためのカメラとして、1台のカメラで被写体を同時に撮像することで多視点画像を取得可能なカメラ(プレノプティックカメラや多眼カメラなど)や、適切に設置された複数台のカメラを用いてよい。また、1台のカメラを移動させながら被写体を撮像することで多視点画像を取得してもよい。なお、以降では、多視点画像に含まれる各視点の画像を単視点画像と呼ぶ。
[Example 1]
In this embodiment, a case where a parallax map is created from a multi-viewpoint image (a plurality of images) will be described. As a camera for acquiring multi-viewpoint images, a camera (such as a plenoptic camera or a multi-lens camera) that can acquire multi-viewpoint images by simultaneously capturing a subject with a single camera, or a properly installed camera Multiple cameras may be used. Alternatively, a multi-viewpoint image may be acquired by capturing a subject while moving one camera. In the following, each viewpoint image included in the multi-viewpoint image is referred to as a single viewpoint image.

<情報処理装置の構成について>
以下、実施例1における情報処理装置の構成について説明する。図1は、実施例1における情報処理装置のハードウェア構成の一例を示すブロック図である。実施例1における情報処理装置100(以下、処理装置100と略記する)は、CPU101、RAM102、ROM103、二次記憶装置104、入力インターフェース(以下、インターフェースをIFと略記する)105、及び出力IF106から構成される。これらの構成要素はシステムバス107によって相互に接続されている。また、処理装置100は、入力IF105を介して外部記憶装置108および操作部110に接続されており、出力IF106を介して外部記憶装置108および表示装置109に接続されている。
<Configuration of information processing device>
Hereinafter, the configuration of the information processing apparatus according to the first embodiment will be described. FIG. 1 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the first embodiment. The information processing apparatus 100 (hereinafter abbreviated as processing apparatus 100) in the first embodiment includes a CPU 101, a RAM 102, a ROM 103, a secondary storage device 104, an input interface (hereinafter abbreviated as IF) 105, and an output IF 106. Composed. These components are connected to each other by a system bus 107. The processing device 100 is connected to the external storage device 108 and the operation unit 110 via the input IF 105, and is connected to the external storage device 108 and the display device 109 via the output IF 106.

CPU101は、RAM102をワークメモリとして、ROM103に格納されたプログラムを実行し、システムバス107を介して処理装置100の各構成要素を統括的に制御する。これにより、後述する様々な処理が実行される。二次記憶装置104は、処理装置100で取り扱われる種々のデータを記憶するための装置であり、本実施例ではHDDが用いられる。CPU101は、システムバス107を介して二次記憶装置104へのデータの書き込みおよび二次記憶装置104に記憶されたデータの読出しを行う。なお、二次記憶装置104としてHDDの他に、光ディスクドライブやフラッシュメモリなど、様々な記憶装置を用いることが可能である。   The CPU 101 executes a program stored in the ROM 103 using the RAM 102 as a work memory, and comprehensively controls each component of the processing apparatus 100 via the system bus 107. Thereby, various processes described later are executed. The secondary storage device 104 is a device for storing various data handled by the processing device 100, and an HDD is used in this embodiment. The CPU 101 writes data to the secondary storage device 104 and reads data stored in the secondary storage device 104 via the system bus 107. As the secondary storage device 104, various storage devices such as an optical disk drive and a flash memory can be used in addition to the HDD.

入力IF105は、例えばUSBやIEEE1394等のシリアルバスIFを含み、外部装置から処理装置100へのデータや命令等の入力は、入力IF105を介して行われる。具体的に処理装置100は、入力IF105を介して、外部記憶装置108からデータを取得する。なお、外部記憶装置108として例えば、ハードディスク、メモリーカード、CFカード、SDカード、USBメモリなどを用いることが可能である。また、処理装置100は、入力IF105を介して、ユーザが操作部110を用いて入力した命令を取得する。操作部110はユーザの指示を処理装置100に入力するための装置であり、例えばマウスやキーボードなどを含む。   The input IF 105 includes, for example, a serial bus IF such as USB or IEEE1394, and input of data, commands, and the like from an external device to the processing device 100 is performed via the input IF 105. Specifically, the processing apparatus 100 acquires data from the external storage device 108 via the input IF 105. As the external storage device 108, for example, a hard disk, a memory card, a CF card, an SD card, a USB memory, or the like can be used. Further, the processing device 100 acquires a command input by the user using the operation unit 110 via the input IF 105. The operation unit 110 is a device for inputting user instructions to the processing device 100, and includes, for example, a mouse and a keyboard.

出力IF106には、入力IF105と同様のUSBやIEEE1394等のシリアルバスインターフェースの他に、例えばDVIやHDMI(登録商標)等の映像出力端子も含まれる。処理装置100から外部装置へのデータ等の出力は、出力IF106を介して行われる。処理装置100は、出力IF106を介して表示装置109(液晶ディスプレイなど)に、処理された画像などを出力することで、画像の表示を行う。なお、処理装置100の構成要素は上述した物の他にも存在するが、本発明の主眼ではないため、説明を省略する。   The output IF 106 includes, for example, a video output terminal such as DVI or HDMI (registered trademark) in addition to a serial bus interface such as USB and IEEE1394 similar to the input IF 105. Output of data and the like from the processing apparatus 100 to the external apparatus is performed via the output IF 106. The processing device 100 displays the image by outputting the processed image or the like to the display device 109 (liquid crystal display or the like) via the output IF 106. In addition, although the component of the processing apparatus 100 exists besides the thing mentioned above, since it is not the main point of this invention, description is abbreviate | omitted.

<情報処理装置によって実行される処理の概要について>
以下、本実施例における処理装置100によって実行される、多視点画像に基づき視差マップを作成する処理(以下、本処理)の概要について説明する。
<Outline of processing executed by information processing apparatus>
Hereinafter, an outline of a process (hereinafter, this process) for creating a parallax map based on a multi-viewpoint image, which is executed by the processing apparatus 100 in the present embodiment, will be described.

まず、CPU101は、外部記憶装置108からフィルタ(データ)を読み出す。このフィルタは本処理に先立ち取得されたものであり、処理対象となる多視点画像とは別の訓練画像を用いて予め学習されたものであってもよい。用いる訓練画像は、処理対象となる多視点画像の被写体と同一または類似の被写体や該多視点画像のシーンと同一または類似のシーンを撮像した画像であることが望ましい。フィルタの学習方法の第1の具体例としては、次の方法が存在する。即ち、訓練画像から多数の部分画像を抽出し、該抽出した部分画像の各々に対する共分散行列を生成した上で、これらの共分散行列の平均(平均共分散行列)を算出する。そして、この平均共分散行列に対し、特異値分解による主成分分析、または、固有値解析を行うことによりフィルタを得る方法である。第2の具体例としては、公知の畳み込みニューラルネットワークの学習アルゴリズムを用いて訓練画像からフィルタを学習する方法が存在する。ただし、フィルタの学習方法は、これらの具体例に限定されない。また、フィルタとして、訓練画像を用いて学習されるものの他に、処理対象の画像や解析的に与えられる関数(例えば、離散コサイン変換基底)を用いてもよい。   First, the CPU 101 reads a filter (data) from the external storage device 108. This filter is acquired prior to this processing, and may be learned in advance using a training image different from the multi-viewpoint image to be processed. The training image to be used is preferably an image obtained by capturing a subject that is the same or similar to the subject of the multi-viewpoint image to be processed or a scene that is the same or similar to the scene of the multi-viewpoint image. The following method exists as a first specific example of the filter learning method. That is, a large number of partial images are extracted from the training image, a covariance matrix is generated for each of the extracted partial images, and an average (average covariance matrix) of these covariance matrices is calculated. Then, this average covariance matrix is a method for obtaining a filter by performing principal component analysis or eigenvalue analysis by singular value decomposition. As a second specific example, there is a method of learning a filter from a training image using a learning algorithm of a known convolutional neural network. However, the filter learning method is not limited to these specific examples. Further, as a filter, an image to be processed or a function given analytically (for example, a discrete cosine transform base) may be used in addition to what is learned using a training image.

次に、式(1)に示すように、多視点画像に含まれる単視点画像の各々に複数の第1のフィルタを畳み込み(適用し)、第1の特徴量マップを得る。なお本明細書では、単視点画像に1次的に畳み込まれるフィルタを第1のフィルタと呼び、第1のフィルタは複数存在する。   Next, as shown in Expression (1), a plurality of first filters are convolved (applied) to each single-viewpoint image included in the multi-viewpoint image to obtain a first feature map. In the present specification, a filter that is primarily folded into a single viewpoint image is referred to as a first filter, and there are a plurality of first filters.

式(1)において、F1i(x,y)は、i番目の第1のフィルタの座標(x,y)における係数を表す。また、Ik(x,y)は、k番目の単視点画像の座標(x,y)における画素値を表す。また、Tik(x,y)は、k番目の単視点画像にi番目の第1のフィルタを畳み込んで得られる第1の特徴量マップの座標(x,y)における画素値を表す。なお、単視点画像の画素値とは、輝度、色差(即ちYUV、Labなどの色空間における輝度以外の成分)、カラーチャンネル(例えばRGB)などの値である。 In Expression (1), F 1i (x, y) represents a coefficient at the coordinates (x, y) of the i-th first filter. I k (x, y) represents a pixel value at the coordinates (x, y) of the k-th single-viewpoint image. T ik (x, y) represents a pixel value at the coordinates (x, y) of the first feature map obtained by convolving the i-th first filter with the k-th single-viewpoint image. The pixel value of the single viewpoint image is a value such as luminance, color difference (that is, a component other than luminance in a color space such as YUV or Lab), a color channel (for example, RGB), and the like.

フィルタを入力画像に畳み込むことで、単視点画像内の特定の構造を検出できる。例えば、水平方向に勾配を有し垂直方向に一様な値の分布を有するソーベルフィルタを入力画像に畳み込むと、入力画像に含まれる垂直なエッジの位置において、出力画像(特徴量マップ)の画素値は大きい値をとる。このように、特徴量マップは、畳み込まれたフィルタに対応する構造の空間的分布を表す。   By convolving the filter with the input image, a specific structure in the single viewpoint image can be detected. For example, when a Sobel filter having a gradient in the horizontal direction and a distribution of uniform values in the vertical direction is convoluted with the input image, the output image (feature map) is output at the position of the vertical edge included in the input image. The pixel value takes a large value. Thus, the feature map represents the spatial distribution of the structure corresponding to the convolved filter.

次に、式(2)に示すように、第1の特徴量マップに第2のフィルタを畳み込み、第2の特徴量マップを得る。なお本明細書では、単視点画像に2次的に(即ち、第1のフィルタに次いで)畳み込まれるフィルタを第2のフィルタと呼び、第2のフィルタは複数存在する。   Next, as shown in Expression (2), the second feature value map is obtained by convolving the second filter with the first feature value map. In this specification, a filter that is secondarily convolved with a single-viewpoint image (that is, after the first filter) is referred to as a second filter, and there are a plurality of second filters.

式(2)において、F2j(x,y)は、j番目の第2のフィルタの座標(x,y)における係数を表す。また、Oijk(x,y)は、第2の特徴量マップの座標(x,y)における画素値を表す。 In Expression (2), F 2j (x, y) represents a coefficient at the coordinates (x, y) of the j-th second filter. O ijk (x, y) represents a pixel value at the coordinates (x, y) of the second feature map.

なお、得られた特徴量マップに対し、非線形変換を施してもよい。非線形変換は、画像に含まれるエッジを強調し画素間の差を増幅することにより、対応点の探索精度を向上する目的で施される。非線形変換としては、統計フィルタ処理、および、閾値処理や非線形関数による画素ごとの値の変換などが挙げられる。以降では、特に断らない限り非線形変換を施さない場合について説明する。   Note that non-linear transformation may be performed on the obtained feature map. Nonlinear transformation is performed for the purpose of improving the search accuracy of corresponding points by enhancing edges included in an image and amplifying differences between pixels. Nonlinear conversion includes statistical filter processing, threshold value processing, and conversion of values for each pixel by a nonlinear function. Hereinafter, a case where non-linear transformation is not performed unless otherwise specified will be described.

また上述の例では、各単視点画像に第1のフィルタおよび第2のフィルタを畳み込むことで、最終的に第2の特徴量マップを取得しているが、最終的に取得する特徴量マップは第2の特徴量マップに限定されない。つまり、第n(nは自然数)の特徴量マップに対し第n+1のフィルタを畳み込み第n+1の特徴量マップを得るという上述と同様の処理を任意の回数実行し、得られた第n+1の特徴量マップを最終的に取得する特徴量マップとしてもよい。フィルタを畳む込む回数は1回でも良いが、該回数を増やすことで、画像が有するより複雑な構造を抽出できるようになる。   In the above example, the second feature map is finally acquired by convolving the first filter and the second filter with each single-viewpoint image. However, the feature map to be finally acquired is It is not limited to the second feature amount map. In other words, the n + 1-th feature quantity is obtained by performing the same process as described above to obtain the (n + 1) -th feature map by convolving the (n + 1) -th filter with the n-th (n is a natural number) feature map. It is good also as a feature-value map which acquires a map finally. Although the filter may be folded once, increasing the number of times makes it possible to extract a more complicated structure of the image.

本技術分野で使用される一般的な特徴量としては、SIFT(Scale―Invariant Feature Transform)をはじめとする様々な局所特徴量が知られている。これらの局所特徴量が算出される位置は、画像内の特定の条件を満たす位置に限定されるため、局所特徴量を用いて対応点を探索する場合、対応点の密度は画像の解像度(画素密度)に比べると非常に低い。一方で本発明では、原理的に全ての画素に対し特徴量を算出できるため、対応点の密度を画像の解像度と同一にすることができる。また、本発明はフィルタ処理だけで特徴量を算出できるため、1点あたりの特徴量の計算コストを非常に低くすることもできる。   As general feature quantities used in this technical field, various local feature quantities such as SIFT (Scale-Invariant Feature Transform) are known. Since the position where these local feature amounts are calculated is limited to a position satisfying a specific condition in the image, when searching for corresponding points using the local feature amounts, the density of the corresponding points is the resolution of the image (pixel Very low compared to (density). On the other hand, in the present invention, since the feature amount can be calculated for all pixels in principle, the density of corresponding points can be made the same as the resolution of the image. In addition, since the present invention can calculate the feature amount only by the filter processing, the calculation cost of the feature amount per point can be extremely reduced.

本実施例では、処理装置100は、第2の特徴量マップを取得した後、該取得した第2の特徴量マップに基づき単視点画像間の対応点を探索する。なお、以降では、ステレオカメラにより取得した2枚の単視点画像、即ち第1単視点画像I1と第2単視点画像I2とに基づき、視差マップを作成する場合を例にとり説明する。ここで、本実施例における視差マップとは、各画素位置に対応する視差値を画素値として有するビットマップ形式の画像データである。ステレオカメラは、被写体を複数の異なる方向から同時に撮像することにより、その奥行き方向の情報も取得できるカメラであり、ステレオカメラで取得した2枚の単視点画像について、各画像の水平方向は同一である。 In this embodiment, after acquiring the second feature value map, the processing device 100 searches for corresponding points between single viewpoint images based on the acquired second feature value map. In the following description, a case where a parallax map is created based on two single-view images acquired by a stereo camera, that is, the first single-view image I 1 and the second single-view image I 2 will be described as an example. Here, the parallax map in the present embodiment is image data in a bitmap format having a parallax value corresponding to each pixel position as a pixel value. A stereo camera is a camera that can acquire information on its depth direction by simultaneously capturing images of a subject from a plurality of different directions. For two single-viewpoint images acquired by a stereo camera, the horizontal direction of each image is the same. is there.

単視点画像I1の座標(x,y)における視差を推定するために、まず単視点画像I1に対する第2の特徴量マップOij1の座標(x,y)における値をiおよびjの順序に従い並べて特徴量ベクトルV1(x,y)を得る。例えば、特徴量ベクトルV1(x,y)を、V1(x,y)=(O111(x,y),O121(x,y),O131(x,y),・・・)としてもよい。第1のフィルタがM個、第2のフィルタがN個である場合には、特徴量ベクトルV1(x,y)の次元はM×Nとなる。 To estimate the parallax in the single viewpoint image I 1 of the coordinates (x, y), first single-view image I second feature map O ij1 of coordinates for 1 (x, y) values in i and j of the order To obtain a feature vector V 1 (x, y). For example, the feature vector V 1 (x, y) is expressed as V 1 (x, y) = (O 111 (x, y), O 121 (x, y), O 131 (x, y),. ). When there are M first filters and N second filters, the dimension of the feature vector V 1 (x, y) is M × N.

次に、単視点画像I2に対する第2の特徴量マップOij2の座標(x’,y’)における値をiおよびjの順序に従い並べて特徴量ベクトルV2(x’,y’)を得る。ここで、第2の特徴量マップOij2の座標(x’,y’)における値を並べる順序は、特徴量ベクトルV1(x,y)を取得する際に、第2の特徴量マップOij1の座標(x,y)における値を並べたiおよびjの順序と同一である。また、特徴量ベクトルV2(x’,y’)の取得は、座標(x’,y’)を変えて繰り返し行われる。ただし本実施例では、多視点画像をステレオカメラで取得しているので、このときの座標(x’,y’)の移動範囲を、単視点画像I2上の座標(x,y)を通る水平線上に限定できる。 Next, the feature vector V 2 (x ′, y ′) is obtained by arranging the values at the coordinates (x ′, y ′) of the second feature map O ij2 for the single viewpoint image I 2 in the order of i and j. . Here, the order in which the values in the coordinates (x ′, y ′) of the second feature map O ij2 are arranged is determined when the feature vector V 1 (x, y) is acquired. This is the same as the order of i and j in which the values at the coordinates (x, y) of ij1 are arranged. The feature vector V 2 (x ′, y ′) is repeatedly acquired by changing the coordinates (x ′, y ′). However, in this embodiment, since the multi-viewpoint image is acquired by the stereo camera, the movement range of the coordinates (x ′, y ′) at this time passes the coordinates (x, y) on the single-viewpoint image I 2. Can be limited to the horizon.

次に、特徴量ベクトルV1(x,y)と特徴量ベクトルV2(x’,y’)との類似度を定量化して導出する。この類似度としては、一般に用いられる様々な距離(ユークリッド距離、マンハッタン距離、ハミング距離など)や、相互相関係数などが挙げられる。 Next, the similarity between the feature vector V 1 (x, y) and the feature vector V 2 (x ′, y ′) is quantified and derived. Examples of the similarity include various commonly used distances (Euclidean distance, Manhattan distance, Hamming distance, etc.), a cross-correlation coefficient, and the like.

次に、類似度が最大になる座標(x’,y’)を導出し、該導出した座標(x’,y’)と座標(x,y)との間の距離を推定視差値として出力する。前述の処理を単視点画像I1の全座標において実行することで、視差マップが得られる。 Next, the coordinate (x ′, y ′) that maximizes the similarity is derived, and the distance between the derived coordinate (x ′, y ′) and the coordinate (x, y) is output as an estimated parallax value. To do. A parallax map is obtained by executing the above-described processing on all coordinates of the single viewpoint image I 1 .

なお、上述の例では多視点画像をステレオカメラで取得する場合について説明したが、多視点画像の取得手段はステレオカメラに限定されない。多視点画像の取得手段がステレオカメラではない場合、座標(x’,y’)を移動しながら特徴量ベクトルV2(x’,y’)を取得するときに座標(x’,y’)の移動範囲を拡大して上述と同様の処理を行う。或いは、各単視点画像を取得した際に被写体を撮像したカメラの位置と姿勢とに関する情報が得られている場合、特徴量ベクトルV2(x’,y’)を取得する際に座標(x’,y’)の移動範囲を、この情報から一意に決定されるエピポーラ線上に限定できる。 In the above example, the case where a multi-viewpoint image is acquired by a stereo camera has been described. However, the means for acquiring a multi-viewpoint image is not limited to a stereo camera. When the multi-viewpoint image acquisition means is not a stereo camera, the coordinates (x ′, y ′) are used when acquiring the feature vector V 2 (x ′, y ′) while moving the coordinates (x ′, y ′). The same processing as described above is performed by expanding the movement range. Alternatively, when information about the position and orientation of the camera that captured the subject is obtained when each single-viewpoint image is obtained, the coordinates (x) are obtained when the feature vector V 2 (x ′, y ′) is obtained. The movement range of ', y') can be limited to epipolar lines that are uniquely determined from this information.

<情報処理装置によって実行される処理について>
以下、本実施例における処理装置100によって実行される具体的な処理について、図2および図3を用いて説明する。図2は、本実施例における処理装置100の機能構成を示すブロック図である。図示するように、処理装置100は、取得部201と、特徴量生成部202と、対応点探索部203と、出力部204とを有する。これらの構成要素は、処理装置100のCPU101がROM103内に格納された制御プログラムをRAM102に展開し、該展開したプログラムを実行することで、実現される。或いは、各構成要素に相当する専用の処理回路を備えるように処理装置100を構成してもよい。
<About processing executed by information processing apparatus>
Hereinafter, specific processing executed by the processing apparatus 100 according to the present embodiment will be described with reference to FIGS. 2 and 3. FIG. 2 is a block diagram illustrating a functional configuration of the processing apparatus 100 according to the present embodiment. As illustrated, the processing apparatus 100 includes an acquisition unit 201, a feature amount generation unit 202, a corresponding point search unit 203, and an output unit 204. These components are realized by the CPU 101 of the processing apparatus 100 expanding a control program stored in the ROM 103 in the RAM 102 and executing the expanded program. Alternatively, the processing apparatus 100 may be configured to include a dedicated processing circuit corresponding to each component.

取得部201は、多視点画像を取得し、該取得した多視点画像を特徴量生成部202に出力する。本実施例では、取得部201は、被写体を第1の視点から見た場合の画像である第1単視点画像と、該被写体を第1の視点とは異なる第2の視点から見た場合の画像である第2単視点画像とを取得するものとする。第1単視点画像は、第1の視点から被写体を撮像することで取得され、第2単視点画像は、第2の視点から該被写体を撮像することで取得される。なお、第1単視点画像および第2単視点画像は、外部装置から入力されるデータであってもよいし、二次記憶装置104に記憶されているデータであってもよい。   The acquisition unit 201 acquires a multi-viewpoint image and outputs the acquired multi-viewpoint image to the feature amount generation unit 202. In the present embodiment, the acquisition unit 201 includes a first single viewpoint image that is an image when the subject is viewed from the first viewpoint, and a second viewpoint that is different from the first viewpoint. It is assumed that a second single-viewpoint image that is an image is acquired. The first single viewpoint image is acquired by imaging the subject from the first viewpoint, and the second single viewpoint image is acquired by imaging the subject from the second viewpoint. The first single-viewpoint image and the second single-viewpoint image may be data input from an external device or data stored in the secondary storage device 104.

特徴量生成部202は、予め取得されたフィルタを用いることで、第1単視点画像に基づき、第1単視点画像に対応する複数の特徴量マップを作成し、対応点探索部203に出力する。また、特徴量生成部202は、当該予め取得されたフィルタを用いることで、第2単視点画像に基づき、第2単視点画像に対応する複数の特徴量マップを作成し、対応点探索部203に出力する。   The feature value generation unit 202 creates a plurality of feature value maps corresponding to the first single-viewpoint image based on the first single-viewpoint image by using a filter acquired in advance, and outputs it to the corresponding point search unit 203. . In addition, the feature quantity generation unit 202 creates a plurality of feature quantity maps corresponding to the second single viewpoint image based on the second single viewpoint image by using the pre-acquired filter, and the corresponding point search section 203. Output to.

対応点探索部203は、第1単視点画像に対応する複数の特徴量マップおよび第2単視点画像に対応する複数の特徴量マップに基づき、第1単視点画像と第2単視点画像との間の対応点を探索する。   The corresponding point search unit 203 determines whether the first single viewpoint image and the second single viewpoint image are based on a plurality of feature amount maps corresponding to the first single viewpoint image and a plurality of feature amount maps corresponding to the second single viewpoint image. Search for corresponding points between.

出力部204は、対応点探索部203による探索結果に基づき、第1単視点画像および第2単視点画像に対応する視差マップを出力する。   The output unit 204 outputs a parallax map corresponding to the first single-viewpoint image and the second single-viewpoint image based on the search result by the corresponding point search unit 203.

図3は、本実施例における処理装置100によって実行される処理のフローチャートである。ステップS301において、取得部201は、入力インターフェース105を介して、または、二次記憶装置104から、処理対象の多視点画像を取得する。そして、取得部201は、該取得した多視点画像を特徴量生成部202に出力する。本実施例では、取得部201によって取得される多視点画像が2枚の単視点画像である場合を例にとり説明している。しかし、多視点画像に含まれる単視点画像の枚数は2枚に限定されず3枚以上であってもよい。多視点画像に含まれる単視点画像が3枚以上の場合には、単視点画像2枚の組を1つまたは複数作り、それぞれの組に対して以降の処理を行うことにより視差マップを作成する。なお、視差マップの形態はビットマップ形式の画像データに限定されず、画素位置と視差値との関係を規定するテーブル形式で出力してもよい。なお、1つの単視点画像に対して複数の視差マップが作成される場合は、それらを合成し、最終的に1つの視差マップを出力する。複数の視差マップを合成する手法として、座標毎に各視差マップの画素値の平均をとる手法や、座標毎に各視差マップの画素値を重み付け加算する手法を用いてよい。   FIG. 3 is a flowchart of processing executed by the processing device 100 in this embodiment. In step S <b> 301, the acquisition unit 201 acquires a multi-viewpoint image to be processed via the input interface 105 or from the secondary storage device 104. Then, the acquisition unit 201 outputs the acquired multi-viewpoint image to the feature amount generation unit 202. In this embodiment, a case where the multi-viewpoint image acquired by the acquisition unit 201 is two single-viewpoint images is described as an example. However, the number of single-viewpoint images included in the multi-viewpoint image is not limited to two and may be three or more. When there are three or more single-viewpoint images included in the multi-viewpoint image, one or a plurality of sets of two single-viewpoint images are created, and a subsequent process is performed on each set to create a parallax map . Note that the form of the parallax map is not limited to image data in the bitmap format, and the parallax map may be output in a table format that defines the relationship between the pixel position and the parallax value. In addition, when a some parallax map is produced with respect to one single viewpoint image, they are synthesize | combined and finally one parallax map is output. As a method of combining a plurality of parallax maps, a method of averaging pixel values of each parallax map for each coordinate or a method of weighting and adding pixel values of each parallax map for each coordinate may be used.

ステップS302において、特徴量生成部202は、取得部201から入力された単視点画像の各々に対し、複数のフィルタを逐次的に畳み込むことで、単視点画像毎の複数の特徴量マップを作成する。以下では、このような処理を逐次的または段階的なフィルタ処理と呼ぶ。本ステップで用いるフィルタは、外部記憶装置108から読み出される。図4に、単視点画像に第1のフィルタと第2のフィルタとを逐次的に畳み込む場合における特徴量生成部202の機能ブロック図を示す。図4に示すように、特徴量生成部202は、各単視点画像に第1のフィルタを畳み込むフィルタ処理部211と、フィルタ処理部211の出力に第2のフィルタを畳み込むフィルタ処理部213とを有する。また図5に、図4に示す特徴量生成部202によって実行される処理のフローチャートを示す。図5に示すように、ステップS311において、フィルタ処理部211は、単視点画像に第1のフィルタを畳み込む(即ち、第1のフィルタ処理を実行する)。次いで、ステップS313において、フィルタ処理部213は、フィルタ処理部211の出力に第2のフィルタを畳み込む(即ち、第2のフィルタ処理を実行する)。なおここでは、第1のフィルタと第2のフィルタとを畳み込む場合について説明しているが、逐次的に畳み込むフィルタの数は2に限定されず3以上であってよい。例えば第3のフィルタをさらに畳み込む場合には、第2のフィルタ処理後に第3のフィルタ処理が追加的に実行される。   In step S <b> 302, the feature amount generation unit 202 creates a plurality of feature amount maps for each single-viewpoint image by sequentially convolving each of the single-viewpoint images input from the acquisition unit 201 with a plurality of filters. . Hereinafter, such processing is referred to as sequential or stepwise filter processing. The filter used in this step is read from the external storage device 108. FIG. 4 is a functional block diagram of the feature quantity generation unit 202 when the first filter and the second filter are sequentially convoluted with the single viewpoint image. As shown in FIG. 4, the feature value generation unit 202 includes a filter processing unit 211 that convolves the first filter with each single-viewpoint image, and a filter processing unit 213 that convolves the second filter with the output of the filter processing unit 211. Have. FIG. 5 shows a flowchart of processing executed by the feature quantity generation unit 202 shown in FIG. As illustrated in FIG. 5, in step S <b> 311, the filter processing unit 211 convolves the first filter with the single viewpoint image (that is, executes the first filter processing). Next, in step S313, the filter processing unit 213 convolves the second filter with the output of the filter processing unit 211 (ie, executes the second filter processing). In addition, although the case where the 1st filter and the 2nd filter are convolved is demonstrated here, the number of the filters which convolve sequentially is not limited to 2, and may be 3 or more. For example, when the third filter is further convoluted, the third filter process is additionally executed after the second filter process.

なお、フィルタ処理後に上述の非線形変換処理を実行してもよい。図6に、2段階のフィルタ処理に加えて非線形変換処理を実行する場合における特徴量生成部202の機能ブロック図を示す。また図7に、図6に示す特徴量生成部202によって実行される処理のフローチャートを示す。図7中のステップS312またはS314における非線形変換処理として、具体的には、ニューラルネットワークにおいて用いられるtanh,sigmoid、ReLUなどの公知の変換処理を用いてもよい。   Note that the nonlinear conversion process described above may be executed after the filter process. FIG. 6 shows a functional block diagram of the feature quantity generation unit 202 when the nonlinear transformation process is executed in addition to the two-stage filter process. FIG. 7 shows a flowchart of processing executed by the feature quantity generation unit 202 shown in FIG. Specifically, as the nonlinear conversion process in step S312 or S314 in FIG. 7, a known conversion process such as tanh, sigmoid, or ReLU used in the neural network may be used.

以下、図3の説明に戻る。ステップS303において、特徴量生成部202は、単視点画像の各々に対する複数の特徴量マップの作成が完了したか、即ち、第1のフィルタと第2のフィルタとの全ての組み合わせに対応する特徴量マップを、単視点画像の各々に対し作成したかを判定する。ステップS303の判定結果が真の場合、ステップS304に進む一方、該判定結果が偽の場合、ステップS302に戻る。   Returning to the description of FIG. In step S303, the feature quantity generation unit 202 has completed creation of a plurality of feature quantity maps for each single viewpoint image, that is, feature quantities corresponding to all combinations of the first filter and the second filter. It is determined whether a map has been created for each single-viewpoint image. If the determination result in step S303 is true, the process proceeds to step S304. If the determination result is false, the process returns to step S302.

ステップS304において、対応点探索部203は、ステップS302で作成された特徴量マップに基づき、第1単視点画像と第2単視点画像との間で対応点を探索する。ここで、対応点探索部203は近傍位置の対応点探索結果に基づき、注目位置(注目画素位置)の対応点探索範囲を適応的に変化させてもよい。例えば、予め粗いサンプリング(低解像度)で視差マップを取得し、次にこのサンプリング位置の間の位置において視差値を算出(対応点を探索)する場合に、近傍位置の既に算出された視差値から候補値を決定し、その候補値の範囲内で視差値を算出する。別の例としては、サンプリング位置を走査し逐次的に視差値を算出する場合に、新しいサンプリング位置と近傍のサンプリング位置との視差値の中から、類似度が最も高いサンプリング位置における視差値を、注目位置の視差値として採用する方法が挙げられる。さらに別の例としては、マルコフ確率場に基づきコスト関数が最小になる視差値を算出する方法が挙げられる。   In step S304, the corresponding point search unit 203 searches for a corresponding point between the first single viewpoint image and the second single viewpoint image based on the feature amount map created in step S302. Here, the corresponding point search unit 203 may adaptively change the corresponding point search range of the target position (target pixel position) based on the corresponding point search result of the neighboring position. For example, when a parallax map is acquired in advance by rough sampling (low resolution), and then a parallax value is calculated at a position between the sampling positions (corresponding points are searched), the parallax value already calculated at a neighboring position is A candidate value is determined, and a parallax value is calculated within the range of the candidate value. As another example, when the parallax value is sequentially calculated by scanning the sampling position, the parallax value at the sampling position with the highest similarity is selected from the parallax values between the new sampling position and the neighboring sampling positions. There is a method of adopting the parallax value of the target position. Yet another example is a method of calculating a disparity value that minimizes a cost function based on a Markov random field.

ステップS305において、出力部204は、対応点探索の結果を視差マップなどの形式に変換して出力する。   In step S305, the output unit 204 converts the corresponding point search result into a format such as a parallax map and outputs the result.

以上が、本実施例における単視点画像間の対応点を求める処理である。本実施例によれば、単視点画像間の視差推定において、各単視点画像が有する複雑な構造を効果的に抽出できるために、視差推定の精度が向上し、視差推定結果が安定化する。   The above is the processing for obtaining corresponding points between single-viewpoint images in the present embodiment. According to the present embodiment, in the parallax estimation between single-viewpoint images, the complicated structure of each single-viewpoint image can be extracted effectively, so that the accuracy of the parallax estimation is improved and the parallax estimation result is stabilized.

<本実施例の効果について>
本実施例の効果を説明するため、以下に上述の処理を実際に行った例を示す。本例では、入力画像として、水平方向にのみ5画素の視差を有しかつ光軸が平行な2枚の画像を用いる。図8(a)および図8(b)は、本例で用いる入力画像を示す。図8に示す2枚の入力画像は、人工的に作成された1対の視差画像であり、これらの画像は、同一の原画像に一様に視差を与え、さらに異なるぼけと輝度変調とを与えることで得られる。
<About the effects of this embodiment>
In order to explain the effects of the present embodiment, an example in which the above processing is actually performed will be shown below. In this example, two images having parallax of 5 pixels only in the horizontal direction and parallel optical axes are used as input images. FIG. 8A and FIG. 8B show input images used in this example. The two input images shown in FIG. 8 are a pair of artificially created parallax images, and these images uniformly give parallax to the same original image, and further have different blur and luminance modulation. It is obtained by giving.

図9(a)は、訓練画像として用意した多数の自然画像から5×5サイズの部分画像を8万枚抽出し、平均共分散行列を算出し、該算出した平均共分散行列に対する主成分分析により得られた8個の第1のフィルタを示す図である。また図9(b)は、前記抽出した8万枚の部分画像に第1のフィルタ(8個)の各々を畳み込むことで部分画像を64万枚取得し、平均共分散行列を算出し、該算出した平均共分散行列に対する主成分分析により得られた8個の第2のフィルタを示す図である。図示するように、いずれのフィルタもサイズは5×5サイズである。   FIG. 9A shows the extraction of 80,000 5 × 5 partial images from a large number of natural images prepared as training images, calculation of an average covariance matrix, and principal component analysis for the calculated average covariance matrix. It is a figure which shows eight 1st filters obtained by (1). Further, FIG. 9B shows that 640,000 partial images are obtained by convolving each of the first filters (eight) with the extracted 80,000 partial images, and an average covariance matrix is calculated. It is a figure which shows eight 2nd filters obtained by the principal component analysis with respect to the calculated average covariance matrix. As shown in the figure, each filter has a size of 5 × 5.

本例では、視差推定の誤差として、畳み込みの誤差が発生する画像端部(上下左右における5画素幅の領域)を除く領域における真値との差の2乗平均を評価する。また、特徴量ベクトルの類似度にはユークリッド距離(差分2乗和)を用い、ブロックサイズは5×5サイズとする。   In this example, as a parallax estimation error, a mean square of a difference from a true value in an area excluding an image end portion (an area having a width of 5 pixels in the upper, lower, left, and right) where a convolution error occurs is evaluated. Also, the Euclidean distance (sum of squared differences) is used for the similarity of the feature vector, and the block size is 5 × 5.

図10の各図は、対応点探索結果の視差マップである。図10に示す視差マップでは、各画素位置における推定視差値を階調表現により表している。図10(a)は、画素値の差分2乗和に基づく従来のブロックマッチングにより導出される視差マップである。この視差マップを導出するために要する処理時間は0.4秒であり、視差推定値の誤差は8.23画素である。図10(b)は、第1のフィルタのみを使用した場合に導出される視差マップである。この視差マップを導出するために要する処理時間は0.2秒であり、視差推定値の誤差は1.56画素である。図10(c)は、第1のフィルタおよび第2のフィルタを使用した場合に導出される視差マップである。この視差マップを導出するために要する処理時間は1.8秒であり、視差推定値の誤差は0.10画素である。このように、本実施例の方法に従って畳み込み回数を増やすことで、視差推定の精度が向上する。   Each diagram of FIG. 10 is a disparity map of the corresponding point search result. In the parallax map shown in FIG. 10, the estimated parallax value at each pixel position is represented by gradation expression. FIG. 10A is a disparity map derived by conventional block matching based on the sum of squared differences of pixel values. The processing time required to derive this parallax map is 0.4 seconds, and the error of the parallax estimation value is 8.23 pixels. FIG. 10B is a disparity map derived when only the first filter is used. The processing time required to derive this parallax map is 0.2 seconds, and the error of the parallax estimation value is 1.56 pixels. FIG. 10C is a disparity map derived when the first filter and the second filter are used. The processing time required for deriving this parallax map is 1.8 seconds, and the error of the parallax estimation value is 0.10 pixels. Thus, the accuracy of parallax estimation is improved by increasing the number of convolutions according to the method of the present embodiment.

入力画像によってはフィルタとブロックとのサイズをより大きくした方が視差推定の精度が向上する。上述の例では、フィルタとブロックとのサイズはともに5×5サイズだが、例えば15×15サイズのフィルタおよびブロックを用いて上述の処理を行ってもよい。この場合の視差マップを導出するために要する処理時間は、ブロックマッチングの場合は3.2秒、第1のフィルタのみを使用した場合は0.2秒、第1のフィルタおよび第2のフィルタを使用した場合は1.9秒である。このように、本実施例により、視差推定の精度向上のみならず処理の高速化も実現できる。この理由は以下のとおりである。つまり、ブロックマッチングの場合はブロックに含まれる画素数の次元(上の例では225(=15×15)次元)のベクトルの比較によって対応点探索を行う。これに対し、本実施例ではフィルタ数の次元(上の例では8または64次元)のベクトルの比較によって対応点探索を行っており、比較対象のベクトルの次元数が小さくて済むためである。このように本実施例では、計算コストはフィルタサイズではなくフィルタの個数に主に依存するため、画像によってフィルタサイズを変えても処理時間は略一定である。   Depending on the input image, the accuracy of the parallax estimation is improved by increasing the size of the filter and the block. In the above example, the size of both the filter and the block is 5 × 5, but the above processing may be performed using, for example, a 15 × 15 size filter and block. The processing time required to derive the disparity map in this case is 3.2 seconds in the case of block matching, 0.2 seconds when only the first filter is used, and the first filter and the second filter are When used, it is 1.9 seconds. Thus, according to the present embodiment, not only the accuracy of the parallax estimation can be improved but also the processing speed can be increased. The reason for this is as follows. That is, in the case of block matching, the corresponding point search is performed by comparing vectors of the number of pixels included in the block (in the above example, 225 (= 15 × 15) dimensions). On the other hand, in this embodiment, the corresponding point search is performed by comparing vectors of the number of filters (8 or 64 in the above example), and the number of dimensions of the comparison target vector can be small. As described above, in this embodiment, the calculation cost mainly depends on the number of filters, not the filter size. Therefore, even if the filter size is changed depending on the image, the processing time is substantially constant.

さらに本実施例は、ロバスト性においても従来技術より優れており、画像の明るさが変更された場合であっても、入力画像間の対応点を精度良く求めることができる。   Furthermore, the present embodiment is also superior to the prior art in terms of robustness, and it is possible to accurately obtain corresponding points between input images even when the brightness of the images is changed.

[実施例2]
実施例2では、処理対象の多視点画像に基づきフィルタを作成する場合について、図11および図12を用いて説明する。なお、実施例1と同一の内容については説明を省略する。
[Example 2]
In the second embodiment, a case where a filter is created based on a multi-viewpoint image to be processed will be described with reference to FIGS. 11 and 12. In addition, description is abbreviate | omitted about the content same as Example 1. FIG.

図11は、本実施例における処理装置100の機能構成を示すブロック図である。図示するように、処理装置100は、取得部201と、特徴量生成部202と、対応点探索部203と、出力部204と、フィルタ作成部205とを有する。フィルタ作成部205は、多視点画像に基づきフィルタを作成する。   FIG. 11 is a block diagram illustrating a functional configuration of the processing apparatus 100 according to the present embodiment. As illustrated, the processing apparatus 100 includes an acquisition unit 201, a feature amount generation unit 202, a corresponding point search unit 203, an output unit 204, and a filter creation unit 205. The filter creation unit 205 creates a filter based on the multi-viewpoint image.

図12は、本実施例における処理装置100によって実行される処理のフローチャートである。ステップS1201において、取得部201は、入力インターフェース105を介して、または、二次記憶装置104から、処理対象の多視点画像を取得する。そして、取得部201は、該取得した多視点画像をフィルタ作成部205に出力する。   FIG. 12 is a flowchart of processing executed by the processing device 100 in the present embodiment. In step S <b> 1201, the acquisition unit 201 acquires a multi-viewpoint image to be processed via the input interface 105 or from the secondary storage device 104. Then, the acquisition unit 201 outputs the acquired multi-viewpoint image to the filter creation unit 205.

ステップS1202において、フィルタ作成部205は、取得部201から入力された多視点画像に基づき複数のフィルタを作成する。フィルタの作成方法は、実施例1で述べた方法と同様である。なお、入力された多視点画像以外の画像を併用してフィルタを作成してもよく、その場合にはフィルタ作成に用いる画像、算出済みの平均共分散行列、作成済みのフィルタなどを外部記憶装置108から読み出す。   In step S <b> 1202, the filter creation unit 205 creates a plurality of filters based on the multi-viewpoint image input from the acquisition unit 201. The method for creating the filter is the same as the method described in the first embodiment. Note that a filter may be created using an image other than the input multi-viewpoint image. In that case, the image used for creating the filter, the calculated mean covariance matrix, the created filter, and the like are stored in an external storage device. Read from 108.

ステップS1203において、特徴量生成部202は、取得部201によって取得された単視点画像の各々に対し、フィルタ作成部205が作成したフィルタを用いて逐次的(段階的)なフィルタ処理を行う。この処理によって、単視点画像の各々に対する特徴量マップが作成される。   In step S <b> 1203, the feature value generation unit 202 performs sequential (stepwise) filter processing on each single-viewpoint image acquired by the acquisition unit 201 using the filter generated by the filter generation unit 205. By this processing, a feature amount map for each single viewpoint image is created.

ステップS1204において、特徴量生成部202は、単視点画像の各々に対する複数の特徴量マップの作成が完了したか、即ち、逐次的に畳み込むフィルタの全ての組み合わせに対応する特徴量マップを、単視点画像の各々に対し作成したかを判定する。ステップS1204の判定結果が真の場合、ステップS1205に進む一方、該判定結果が偽の場合、ステップS1203に戻る。   In step S1204, the feature quantity generation unit 202 completes the creation of a plurality of feature quantity maps for each single viewpoint image, that is, the feature quantity map corresponding to all combinations of filters that are sequentially convoluted is displayed as a single viewpoint. It is determined whether each image has been created. If the determination result in step S1204 is true, the process proceeds to step S1205. If the determination result is false, the process returns to step S1203.

ステップS1205において、対応点探索部203は、ステップS1203で作成した特徴量マップに基づき、単視点画像間の対応点を探索する。   In step S1205, the corresponding point search unit 203 searches for a corresponding point between single viewpoint images based on the feature amount map created in step S1203.

ステップS1206において、出力部204は、対応点探索の結果を視差マップなどの形式に変換して出力する。   In step S1206, the output unit 204 converts the corresponding point search result into a format such as a parallax map and outputs the result.

<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.

100 情報処理装置
201 取得部
202 特徴量生成部
203 対応点探索部
100 Information Processing Device 201 Acquisition Unit 202 Feature Quantity Generation Unit 203 Corresponding Point Search Unit

Claims (9)

同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得する取得手段と、
前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成する作成手段と、
前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索する探索手段と
を有し、
前記作成手段が各段階で適用するフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理装置。
An acquisition means for acquiring a first single-viewpoint image and a second single-viewpoint image obtained by imaging the same subject from different viewpoints;
For each of the first single-view image and the second single-view image, a process of applying a filter for detecting a specific structure in the image is performed step by step by changing the filter. Creating means for creating a plurality of feature amount maps for each of the first single-viewpoint image and the second single-viewpoint image;
Search means for searching for corresponding points between the first single-viewpoint image and the second single-viewpoint image based on the plurality of created feature amount maps;
The information processing apparatus characterized in that the filter applied by the creating means at each stage is a plurality of different filters.
前記探索手段による探索結果に基づく視差マップを出力する出力手段をさらに有することを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, further comprising an output unit that outputs a parallax map based on a search result obtained by the search unit. 前記探索手段は、
前記第1の単視点画像に対する複数の特徴量マップに基づき、前記第1の単視点画像の注目画素位置における第1の特徴量ベクトルを導出し、
前記第2の単視点画像に対する複数の特徴量マップに基づき、前記第2の単視点画像の探索範囲における画素位置ごとに第2の特徴量ベクトルを導出し、
前記第1の特徴量ベクトルと第2の特徴量ベクトルとの類似度を、前記探索範囲における画素位置ごとに導出し、
前記導出した類似度の中で最も高い類似度となる画素位置を、前記注目画素位置に対応する前記第2の単視点画像の画素位置とする
ことを特徴とする請求項1または2に記載の情報処理装置。
The search means includes
Deriving a first feature vector at the target pixel position of the first single-view image based on a plurality of feature maps for the first single-view image,
Based on a plurality of feature amount maps for the second single viewpoint image, a second feature amount vector is derived for each pixel position in the search range of the second single viewpoint image;
Deriving the similarity between the first feature quantity vector and the second feature quantity vector for each pixel position in the search range;
3. The pixel position of the second single viewpoint image corresponding to the target pixel position is a pixel position having the highest similarity among the derived similarities. Information processing device.
前記探索手段は、前記注目画素位置の近傍における対応点探索の結果に基づき、前記探索範囲を変化させることを特徴とする請求項3に記載の情報処理装置。   The information processing apparatus according to claim 3, wherein the search unit changes the search range based on a corresponding point search result in the vicinity of the target pixel position. 前記第1の単視点画像および前記第2の単視点画像は、同一のサイズの画像データであり、
前記特徴量マップは、特徴量を画素値として有するビットマップ形式のデータであり、前記第1の単視点画像と同一のサイズを有する
ことを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。
The first single-view image and the second single-view image are image data of the same size,
The feature quantity map is bitmap format data having a feature quantity as a pixel value, and has the same size as the first single-viewpoint image. The information processing apparatus described.
前記作成手段が前記フィルタを適用する処理を段階的に行う際、フィルタを適用するたびに非線形変換を実行する実行手段をさらに有することを特徴とする請求項1乃至5の何れか1項に記載の情報処理装置。   6. The apparatus according to claim 1, further comprising execution means for executing nonlinear transformation each time a filter is applied when the creation means performs the process of applying the filter stepwise. Information processing device. 前記第1の単視点画像および前記第2の単視点画像に基づき、前記複数のフィルタを作成する作成手段をさらに有することを特徴とする請求項1乃至6の何れか1項に記載の情報処理装置。   The information processing according to any one of claims 1 to 6, further comprising a creation unit that creates the plurality of filters based on the first single-viewpoint image and the second single-viewpoint image. apparatus. 同一の被写体を異なる視点から撮像することで得られる第1の単視点画像および第2の単視点画像を取得するステップと、
前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対し、画像内の特定の構造を検出するためのフィルタを適用する処理を、フィルタを変えて段階的に行うことで、前記第1の単視点画像と前記第2の単視点画像とのそれぞれに対する複数の特徴量マップを作成するステップと、
前記作成した複数の特徴量マップに基づき、前記第1の単視点画像と前記第2の単視点画像との対応点を探索するステップと
を有し、
前記作成するステップにおいて各段階で適用されるフィルタは、互いに異なる複数のフィルタであることを特徴とする情報処理方法。
Acquiring a first single-viewpoint image and a second single-viewpoint image obtained by imaging the same subject from different viewpoints;
For each of the first single-view image and the second single-view image, a process of applying a filter for detecting a specific structure in the image is performed step by step by changing the filter. Creating a plurality of feature amount maps for each of the first single-viewpoint image and the second single-viewpoint image;
Searching for corresponding points between the first single-viewpoint image and the second single-viewpoint image based on the plurality of created feature amount maps;
An information processing method characterized in that the filters applied at each stage in the creating step are a plurality of different filters.
コンピュータに、請求項8に記載の方法を実行させるための、プログラム。   A program for causing a computer to execute the method according to claim 8.
JP2016136928A 2016-07-11 2016-07-11 Information processor, information processing method, and program Pending JP2018010359A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016136928A JP2018010359A (en) 2016-07-11 2016-07-11 Information processor, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016136928A JP2018010359A (en) 2016-07-11 2016-07-11 Information processor, information processing method, and program

Publications (1)

Publication Number Publication Date
JP2018010359A true JP2018010359A (en) 2018-01-18

Family

ID=60994335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016136928A Pending JP2018010359A (en) 2016-07-11 2016-07-11 Information processor, information processing method, and program

Country Status (1)

Country Link
JP (1) JP2018010359A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021085560A1 (en) * 2019-10-31 2021-05-06 ミネベアミツミ株式会社 Image processing device and image processing method
JP2021531582A (en) * 2018-07-25 2021-11-18 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co., Ltd. Image parallax estimation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021531582A (en) * 2018-07-25 2021-11-18 北京市商▲湯▼科技▲開▼▲發▼有限公司Beijing Sensetime Technology Development Co., Ltd. Image parallax estimation
JP7108125B2 (en) 2018-07-25 2022-07-27 北京市商▲湯▼科技▲開▼▲發▼有限公司 Image parallax estimation
WO2021085560A1 (en) * 2019-10-31 2021-05-06 ミネベアミツミ株式会社 Image processing device and image processing method

Similar Documents

Publication Publication Date Title
US11308638B2 (en) Depth estimation method and apparatus, electronic device, program, and medium
US10354129B2 (en) Hand gesture recognition for virtual reality and augmented reality devices
US10254845B2 (en) Hand gesture recognition for cursor control
US9305240B2 (en) Motion aligned distance calculations for image comparisons
US6671399B1 (en) Fast epipolar line adjustment of stereo pairs
US11189020B2 (en) Systems and methods for keypoint detection
US10311595B2 (en) Image processing device and its control method, imaging apparatus, and storage medium
US8831280B2 (en) 3D motion recognition method and apparatus
JP4209938B2 (en) Image processing apparatus and method, image processing program, and image processor
US20150097827A1 (en) Target Region Fill Utilizing Transformations
US10554957B2 (en) Learning-based matching for active stereo systems
US20140035909A1 (en) Systems and methods for generating a three-dimensional shape from stereo color images
KR20120130788A (en) Method and arrangement for multi-camera calibration
WO2018082308A1 (en) Image processing method and terminal
US10839529B2 (en) Image processing apparatus and image processing method, and storage medium
JP7159384B2 (en) Image processing device, image processing method, and program
KR102551713B1 (en) Electronic apparatus and image processing method thereof
CN111383252B (en) Multi-camera target tracking method, system, device and storage medium
CN103440664A (en) Method, system and computing device for generating high-resolution depth map
US11256949B2 (en) Guided sparse feature matching via coarsely defined dense matches
US9171227B2 (en) Apparatus and method extracting feature information of a source image
JP2018010359A (en) Information processor, information processing method, and program
Long et al. Detail preserving residual feature pyramid modules for optical flow
US11232323B2 (en) Method of merging images and data processing device
KR20150094108A (en) Method for generating saliency map based background location and medium for recording the same