JP2008059319A - Object recognition device, and image object positioning device - Google Patents
Object recognition device, and image object positioning device Download PDFInfo
- Publication number
- JP2008059319A JP2008059319A JP2006235944A JP2006235944A JP2008059319A JP 2008059319 A JP2008059319 A JP 2008059319A JP 2006235944 A JP2006235944 A JP 2006235944A JP 2006235944 A JP2006235944 A JP 2006235944A JP 2008059319 A JP2008059319 A JP 2008059319A
- Authority
- JP
- Japan
- Prior art keywords
- image
- camera
- video information
- template
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Navigation (AREA)
- Image Processing (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
- Instructional Devices (AREA)
Abstract
Description
この発明は、例えば移動体に据えたカメラで撮影した映像に写る特定の物体を認識する物体認識装置、および映像に写る特定の物体の測位を行う映像物体測位装置に関するものである。 The present invention relates to an object recognition device for recognizing a specific object appearing in a video taken by a camera placed on a moving body, for example, and a video object positioning device for positioning a specific object appearing in a video.
カーナビゲーション用の地図作成、自治体における道路設備管理、上下水道管理等においては、作業員が現地に赴いて設備などを人手により一つ一つ確認する作業を伴う。そのための作業時間は多大であり、管理にかかる人件費などのコスト負担も大きい。この問題を解決するための、設備管理の効率化を支援する従来技術として、カメラで撮影した映像、地図および管理情報を連動して表示し、また映像から対象物を自動で認識して認識結果をCGなどで表示する方法がある(例えば特許文献1参照)。この技術では、対象物の画像とテンプレートとの相互相関を計算してパターンマッチングを行い、またステレオ立体視に似た計算手法を用いることでカメラから対象物までの相対距離を算出している。また、他の従来技術として、車両走行中の実写映像上に案内情報をCGで合成して、ドライバーなどに提示することにより、適切な案内を行うという方法がある(例えば特許文献2参照)。この技術では、実写映像から案内に寄与する案内寄与情報だけを抽出してCG画像として生成しておき、そのCG画像を現在走行時における実写映像に合成して表示するようにしている。 In car navigation map creation, road facility management, and water and sewage management in local governments, workers are required to visit the site and check the facilities one by one manually. Therefore, the work time is enormous and the cost burden such as labor cost for management is large. As a conventional technology to help improve the efficiency of equipment management to solve this problem, video, maps, and management information captured by the camera are displayed in conjunction with each other, and the object is automatically recognized from the video, resulting in recognition results. Is displayed by CG or the like (for example, see Patent Document 1). In this technique, cross-correlation between an image of a target object and a template is calculated to perform pattern matching, and a relative distance from the camera to the target object is calculated by using a calculation method similar to stereo stereoscopic vision. As another conventional technique, there is a method of performing appropriate guidance by synthesizing guidance information with a CG on a live-action image while the vehicle is running and presenting it to a driver or the like (see, for example, Patent Document 2). In this technique, only guidance contribution information that contributes to guidance is extracted from a live-action video and is generated as a CG image, and the CG image is combined with a real-time video at the time of current travel and displayed.
以上のような従来技術の場合、次のような問題がある。
実際には、夜間も含めた日照変化、撮影時の画像ノイズ、遮蔽物などによる一部欠落等により画像上の対象物の見かけが変化することがあるため、画像認識を困難にしているという問題がある。これは特許文献1に記載された、入力画像とテンプレート画像の相互相関を計算するという方法では解決できない。また、特許文献1による方法は、保持しているテンプレート画像が少ない場合には認識率が低下するという問題がある。一方、特許文献2においては、案内に寄与する道路標識などをどのようにして認識するかについての方法を示唆していない。そのため、日照変化や遮蔽物が影響した画像に対しても正確に認識できる手法が望まれる。特に、例えば道路標識の種類などを効率よく特定できることが望まれる。
また、通常のGPS等の位置測位システムの場合は常に測位誤差を伴う。しかし、対象物の正確な測位が要求される設備管理効率化の支援装置の場合は、GPSの測位結果に伴う外乱やステレオ立体視に伴う測位誤差などを可能な限り除去する必要がある。
The conventional techniques as described above have the following problems.
In reality, the appearance of objects on the image may change due to changes in sunshine, including nighttime, image noise during shooting, and partial omission due to shielding, etc., making it difficult to recognize images There is. This cannot be solved by the method of calculating the cross-correlation between the input image and the template image described in Patent Document 1. Further, the method according to Patent Document 1 has a problem that the recognition rate is lowered when the number of template images held is small. On the other hand, Patent Document 2 does not suggest a method on how to recognize road signs and the like that contribute to guidance. Therefore, a technique that can accurately recognize an image affected by a change in sunlight or an obstruction is desired. In particular, it is desirable to be able to efficiently specify, for example, the type of road sign.
Further, in the case of a normal positioning system such as GPS, a positioning error is always accompanied. However, in the case of a facility management efficiency support device that requires accurate positioning of an object, it is necessary to eliminate as much as possible disturbances associated with GPS positioning results, positioning errors associated with stereo stereoscopic vision, and the like.
この発明は、上記問題点を解決するためになされたもので、同一種類の対象物について撮影した画像に、撮影時の状況や画像ノイズに起因した見かけ上の違いが存在していても、その対象物を正確に認識可能にする物体認識装置を得ることを目的とする。
また、この発明は、物体認識装置に組み込んで使用でき、GPSの測位誤差、画像認識に伴う誤差を低減して精度良く映像上の物体を測位する映像物体測位装置を得ることを目的とする。
The present invention has been made to solve the above problems, and even if there are apparent differences due to the situation at the time of shooting and image noise in the images taken of the same type of object. An object of the present invention is to obtain an object recognition device that can accurately recognize an object.
Another object of the present invention is to obtain a video object positioning device that can be used by being incorporated in an object recognition device, and that accurately measures an object on a video by reducing a GPS positioning error and an error associated with image recognition.
この発明に係る物体認識装置は、映像情報を記憶する映像情報データベースと、映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたものである。 The object recognition apparatus according to the present invention stores in advance a video information database for storing video information, an image acquisition means for acquiring an arbitrary frame image from the video information in the video information database, and a plurality of template images related to the object by type. For each of the template image storage means and the plurality of template images of the template image storage means, respectively, and a correlation coefficient matrix between the extracted image feature quantities is obtained, and then the image acquisition means An input image to be recognized is extracted from the acquired frame image, a plurality of image feature amounts are extracted from the input image in the same manner as the template image, a correlation coefficient matrix between the image feature amounts is obtained, and the obtained input image By comparing the correlation coefficient matrix of multiple templates and the correlation coefficient matrix of multiple template images, the input image and multiple template images The distance between each calculated, the calculated distance is an object of the smallest template image is obtained by an image recognition processing means for recognizing a target object in the input image.
この発明によれば、相関係数や相関係数行列を利用することで輝度変化、画像ノイズ等に影響されず、正確に映像上の物体を認識することが可能になる。 According to the present invention, by using a correlation coefficient or a correlation coefficient matrix, it is possible to accurately recognize an object on a video without being affected by luminance change, image noise, and the like.
実施の形態1.
この発明の説明において、「地理座標」とは、地理座標系における緯度、経度、標高のことを指すものとする。また、「画像座標」とは、2次元の画像上の座標(正規化カメラ座標)のことを指すものとする。また、「対象物」とは、画像上の認識の目的となっている物体のことを指すものとする。例えば、道路設備管理に用いる画像の場合の「対象物」としては、道路標識、道路白線、路面標識、マンホール、照明灯、信号機等がある。
Embodiment 1 FIG.
In the description of the present invention, “geographic coordinates” refer to latitude, longitude, and altitude in a geographic coordinate system. Further, “image coordinates” refers to coordinates on a two-dimensional image (normalized camera coordinates). Further, the “object” refers to an object that is the object of recognition on the image. For example, “objects” in the case of images used for road facility management include road signs, road white lines, road surface signs, manholes, illumination lights, traffic lights, and the like.
図1はこの発明の各実施の形態に共通した物体認識装置の機能構成を示すブロック図である。
図において、映像情報取得装置90は、カメラを用いて路上を撮像した映像情報およびこの映像情報を撮影したカメラの位置情報と姿勢情報を取得収集する手段である。映像情報データベース100は、映像情報取得装置90で取得した、道路上をカメラで撮影した映像情報および当該映像情報に同期した当該映像情報を撮影したカメラの位置情報と姿勢情報を格納する手段である。
この映像情報取得装置90は、例えば図2に示すように、移動体(車両)204に、高精度測位装置201、カメラ202および方位センサ203を搭載した構成からなる。また、一緒に映像情報データベース100も移動体(車両)204に搭載されている。情報収集対象地域の路上に車両204を走行させて、カメラ202により路上の映像情報を取得する。その際、カメラ202の位置情報をGPS等の高精度測位装置201で計測すると共に、カメラ202の姿勢を方位センサ203で計測する。さらに、この計測したカメラの位置情報とカメラの姿勢情報を、そのとき取得した路上映像情報の各フレームに同期させて映像情報データベース100に記録していく。この場合の同期をとる方法としては、例えば
、映像情報データベース100に映像情報を時々刻々と記録する際に、その各時刻におけるコンピュータのシステム時間を映像情報の画像ヘッダに、あるいは映像に対応する音声トラックに記録していく。同様に、GPSの測位結果などの位置情報を時々刻々と記録する際にも、その各時刻におけるコンピュータのシステム時間を位置情報に付与して記録していく。したがって、映像情報データベース100には、コンピュータのシステム時間に同期した映像情報、GPSの測位結果(カメラの地理座標)およびカメラ姿勢情報が記録されることになる。なお、GPSの測位結果と映像情報の同期を取るための基準信号としては、コンピュータのシステム時間以外に、ビデオキャプチャプログラムの内部時間、GPSの時計時間などの信号を使用してもよい。
FIG. 1 is a block diagram showing a functional configuration of an object recognition apparatus common to the embodiments of the present invention.
In the figure, a video
For example, as shown in FIG. 2, the video
この映像情報取得装置90で用いるカメラ202としては、一眼カメラでもよいし、複数のカメラでもよい。また、可視カメラに限らず、ラインスキャンレーザや赤外線カメラなどであってもよい。したがって、取得する映像情報は、一つの映像あるいは対象物を異なる角度で見た複数の映像である。また、ラインスキャンレーザを用いた場合には奥行き映像情報となり、赤外線カメラによる場合には熱映像情報となる。なお、この実施の形態1では一眼カメラで撮影した映像情報を例に説明するが、この発明は上記他の映像情報でも同様に適用できるものである。また、ここで言うカメラの位置情報とは、映像情報の各フレームに同期して計測されたカメラの地理座標の情報である。さらに、カメラの姿勢情報とは、同様に映像情報の各フレームに同期して計測された三軸の角度(ヨー角、ロール角、ピッチ角)、角加速度などの情報のことである。
The
また図1において、画像取得部101は、映像情報データベース100の映像情報から任意のフレーム画像を取得する手段である。テンプレート画像格納部105は、種類別に対象物に関する複数のテンプレート画像を予め格納する手段である。こここで、テンプレート画像としては、例えば対象物が道路標識である場合、各種類の道路標識について、それぞれいろいろな状況下で撮影した画像が複数個用意されているものとする。画像認識処理部102は、テンプレート画像を用いて画像取得部101で取得したフレーム画像から対象物を認識する手段である。測位処理部103は、画像認識処理部102で認識された対象物の地理座標を、その対象物の画像座標およびカメラの位置情報と姿勢情報に基づいて算出する手段である。表示データ格納部120は、ディスプレイ110に表示するための各種地図情報、対象物に関連する管理情報などの表示データを格納する手段である。表示処理部104は、対象物の認識結果および測位結果を表示対象データに対応付けて表示する処理を行う手段である。
In FIG. 1, an
次に、物体認識装置の全体動作について、図3に示す動作手順に従って説明する。
まず、画像取得部101では、映像情報データベース100に格納された映像情報から任意のフレーム画像を取得する(ステップST101)。この入力画像の取得は、映像情報取得装置90からの映像情報の収集中にリアルタイムに行ってもよいし、予め収集しておいた映像情報から行ってもよい。次に、画像認識処理部102では、画像取得部101が取得したフレーム画像から認識対象とする入力画像を抽出し、その入力画像に対してテンプレート画像格納部105に予め用意した対象物の複数のテンプレート画像を用い、後述する処理により、目的の対象物を認識し、認識した対象物の画像座標を求める(ステップST102)。測位処理部103では、後述する方法により、画像認識処理部102で認識した対象物に対する地理座標を求める(ステップST103)。なお、ここで認識が失敗したり、認識対象外の物体を測位したりする場合もあるので、その場合は、手動により映像フレームから物体の画像を選択することもある。次に、表示処理部104では、表示データ格納部120から読み込んだ各種地図情報、映像情報データベース100の実写映像などの表示対象データを、測位処理部103で求めた対象物の地理座標に同期させてディスプレイ110で表示する処理を行う。また、その際に、画像認識処理部107で求めた対象物を表すアイコンなどの表示情報を、同期した表示対象データ上の対象物の位置に重畳し表示する処理を行う(ステップST104)。
Next, the overall operation of the object recognition apparatus will be described according to the operation procedure shown in FIG.
First, the
次に、画像認識処理部102の処理の詳細について説明する。
画像認識処理部102は、画像取得部101が取得したフレーム画像から目的の対象物(例、道路標識)を、画像特徴量の相関係数行列を利用して認識する。この場合の画像認識処理部102の動作は図4に示す手順に従って行われる。
はじめに、画像認識処理部102では、認識するために必要な対象物の画像、すなわち道路標識に関する種類別の複数のテンプレート画像をテンプレート画像格納部105から読み込む(ステップST401)。画像認識処理部102は、次に各テンプレート画像について複数の画像特徴量をそれぞれ抽出する(ステップST402)。ここで求める画像特徴量は、例えば水平方向の画像座標、垂直方向の画像座標、テンプレート画像のYプレーン(輝度成分)における画素値、Cbプレーン(色差成分)における画素値、Crプレーン(色差成分)における画素値、垂直方向のエッジと水平方向のエッジ(エッジ情報)等である。
Next, details of the processing of the image
The image
First, the image
次に、画像認識処理部102は、上記各テンプレート画像に対して、ステップST402で求めた画像特徴量間の相関係数行列をそれぞれ求める(ステップST403)。結果として、各テンプレート画像に対して各々一つの相関係数行列を得る。
例えば、画像座標(x,y)における特徴量ベクトルf(x,y)を、次の(1)式ように定義する。
f(x,y)=[x,y,Y(x,y),Cb(x,y),Cy(x,y),He(x,y),Ve(x,y)] (1)
ここで、xは水平方向の画像座標、yは垂直方向の画像座標、Y(x,y)は画像座標(x,y)におけるYプレーンの値、Cb(x,y)は画像座標(x,y)におけるCbプレーンの値、Cy(x,y)は画像座標(x,y)におけるCrプレーンの値、He(x,y)は画像座標(x,y)における水平方向のエッジの値、Ve(x,y)は画像座標(x,y)における垂直方向のエッジの値である。
For example, the feature vector f (x, y) at the image coordinates (x, y) is defined as the following equation (1).
f (x, y) = [x, y, Y (x, y), Cb (x, y), Cy (x, y), He (x, y), Ve (x, y)] (1)
Here, x is the image coordinate in the horizontal direction, y is the image coordinate in the vertical direction, Y (x, y) is the value of the Y plane in the image coordinate (x, y), and Cb (x, y) is the image coordinate (x , Y), the value of the Cb plane, Cy (x, y) is the value of the Cr plane at the image coordinates (x, y), and He (x, y) is the value of the horizontal edge at the image coordinates (x, y). , Ve (x, y) is the value of the edge in the vertical direction at the image coordinates (x, y).
画像認識処理部102では、画像取得部101が取得したフレーム画像上において探索ウインドウを逐次移動させ、探索ウインドウ内の画像を取得する(ステップST404)。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。以下では、上記ステップST404で取得した探索ウインドウ内の画像を「入力画像」と呼ぶことにする。次に、上記取得した入力画像についてもステップST402、ST403で行ったと同様に、画像特徴量を算出し、その画像特徴量間の相関係数行列を求める(ステップST405)。次に、求めた入力画像の相関係数行列と先の複数のテンプレート画像の相関係数行列とを逐次比較するテンプレートマッチングを行い、入力画像とテンプレート画像間の距離を算出する(ステップST406)。
The image
入力画像とテンプレート画像間の距離の算出は、例えば、次の(4)式を用いて行う。
ここで、上記の一般化固有値について説明する。一般化固有値は、入力矩形画像の相関係数行列をテンプレート画像の相関係数行列にアファイン変換する際の縮尺量(スケール)を意味している。一般化固有値が1に近いほど小さい縮尺量でアファイン変換可能であり、二つの相関係数行列は似通っていると判断できる。一方、一般化固有値が1から離れるほど大きな縮尺量でアファイン変換可能する必要があり、二つの相関係数行列は似通っていないと判断できる。
The distance between the input image and the template image is calculated using, for example, the following equation (4).
Here, the generalized eigenvalue will be described. The generalized eigenvalue means a scale amount (scale) when the correlation coefficient matrix of the input rectangular image is affine transformed into the correlation coefficient matrix of the template image. As the generalized eigenvalue is closer to 1, affine transformation can be performed with a smaller scale amount, and it can be determined that the two correlation coefficient matrices are similar. On the other hand, it is necessary to perform affine transformation with a larger scale amount as the generalized eigenvalue is away from 1, and it can be determined that the two correlation coefficient matrices are not similar.
次に、上述のように画像特徴量間の相関係数行列を用いてテンプレートマッチングを行うことの利点を、例を挙げて説明する。
図5は、同じ道路標識に関する互いに見かけが異なる3つの画像、各々の画像における赤色の平均値、青色の平均値、および赤色と青色の相関係数を示したものである。図5に例示された3つの画像は、撮影時の状況が異なるため、輝度変化やノイズの影響により赤と青の平均値が大きく変化していることを表している。一方、各画像の相関係数は、輝度変化やノイズによる大きな影響を受けないほぼ一定した値になること表している。また、同様に、エッジなどの相関係数に関しても画像のコントラスト変化に影響を受けにくい値を持っている。すなわち、輝度変化等の影響を受けない相関係数を用いることで、見かけが異なる画像から正確に対象物を認識可能であることを意味している。したがって、画像特徴量間の相関係数行列を利用して、テンプレート画像と入力画像のマッチングをとる画像認識処理部102によれば、日照変化等がある状況下で撮影した画像に対しても対象物を正確に認識することが可能である。
Next, an advantage of performing template matching using the correlation coefficient matrix between image feature amounts as described above will be described with an example.
FIG. 5 shows three images having the same appearance with respect to the same road sign, the average value of red, the average value of blue, and the correlation coefficient between red and blue in each image. The three images illustrated in FIG. 5 indicate that the average value of red and blue has changed greatly due to changes in luminance and noise because the situation at the time of shooting is different. On the other hand, the correlation coefficient of each image is represented as a substantially constant value that is not greatly affected by luminance change or noise. Similarly, a correlation coefficient such as an edge has a value that is not easily affected by a change in contrast of the image. That is, by using a correlation coefficient that is not affected by changes in luminance or the like, it means that an object can be accurately recognized from images with different appearances. Therefore, according to the image
次に、測位処理部103の処理の詳細について、図6に示す動作手順に従って説明する。ここでは、映像上の道路標識の地理座標を求めることを例にする。
まず、測位処理部103では、入力として、画像認識処理部102で認識した対象物の画像座標を取得する(ステップST901)。なお、この入力として取得する対象物の画像座標は、画像認識処理部102で認識に失敗した場合には、ユーザが映像を確認してマウスやタッチペンなどの入力デバイスを用いて選択した画像の画像座標でもよい。次に、測位処理部103では、取得した画像認識処理部102で認識した対象物が写るフレーム画像の前後数フレームから、ステップST901で画像座標を取得した対象物と同一の対象物を検出し、それら対象物の画像座標を取得する(ステップST902)。この同一の対象物を検出する方法としては、例えば前述の画像認識処理部102における画像特徴量の相関係数行列によるマッチングを利用するか、あるいは、Tuzel, O.; Porikli, F.; Meer, P., “Region Covariance: A Fast Descriptor for Detection and Classification”, European Conference on Computer Vision (ECCV), May 2006 (ECCV 2006)に記載されている、画像特徴量の分散共分散行列によるマッチングを利用すればよい。
Next, details of the processing of the
First, the
次に、測位処理部103は、対象物が写る上記複数フレーム画像がそれぞれ撮影された時点の、カメラの地理座標と姿勢角ベクトル(ヨー角、ロール角、ピッチ角)を映像情報データベース100から取得する(ステップST903)。次に、求めた同一対象物に対する複数の画像座標、当該対象物を写したカメラの複数の地理座標とカメラの複数の姿勢角を用いてコスト関数を生成し、生成したコスト関数が最小になるような対象物の地理座標を算出する(ステップST904)。生成されたコスト関数は次の(6)式のようになる。
上記(6)式に示すコスト関数Eの第一項は対象物の画像座標誤差を最小にする項であり、第二項はGPSの測位誤差を最小にする項であり、第三項はカメラ姿勢角の計測誤差を最小化するための項である。
Next, the
The first term of the cost function E shown in the above equation (6) is a term that minimizes the image coordinate error of the object, the second term is a term that minimizes the GPS positioning error, and the third term is the camera. This is a term for minimizing the measurement error of the posture angle.
通常、図2に示したような映像情報取得装置で取得したカメラの位置情報およびカメラの姿勢情報には計測誤差が含まれる。しかしながら、上記(6)式の3つの項からなるコスト関数Eを最小化することで、対象物の画像座標誤差、GPSの測位誤差およびカメラの姿勢計測誤差を同時に最小化しつつ、最適な対象物の位置を映像から算出することが可能となる。 Normally, the camera position information and the camera attitude information acquired by the video information acquisition apparatus as shown in FIG. However, by minimizing the cost function E consisting of the three terms of the above equation (6), the optimal object can be obtained while simultaneously minimizing the image coordinate error, GPS positioning error, and camera attitude measurement error of the object. Can be calculated from the video.
また、測位処理部103は、上記コスト関数を用いる方法とは別の方法として、次の(7)式の対数尤度関数を用いて対象物の地理座標を求めてもよい。
以上のように、測位処理部103によれば、画像認識処理部102で認識した対象物が写るフレーム画像の前後複数のフレーム画像を用い、これらのフレーム画像から取得した、対象物の複数の画像座標、対象物を写した時点の複数のカメラ位置と複数のカメラ姿勢角とに基づいてコスト関数または対数尤度関数を生成し、コスト関数を最小化、または対数尤度関数を最大化することにより、対象物の画像座標誤差、カメラ位置の測位誤差、カメラ姿勢角の計測誤差を考慮して、最適な対象物の地理座標を算出することを可能にしている。また、最適な対象物の地理座標を求めるだけではなく、同時にカメラ位置とカメラ姿勢角の最適な値を求めることも可能である。
As described above, the
上記例では、画像認識処理部102で認識した対象物に対して、その画像座標に基づいて認識した対象物の地理座標を算出する測位処理を行うことについて述べてきた。ここで、この測位処理部103は、画像認識処理部102と切り離し、上記認識した対象物以外の映像上の物体の測位を行う映像物体測位装置とした構成とすることも可能である。すなわち、映像情報データベース100に収集してある映像情報並びにこの映像情報に同期したカメラの位置情報およびカメラの姿勢情報を用い、映像上の任意の物体をマウスやタッチペンなどの入力デバイスを用いて選択し、選択した物体の画像座標を取得して上記で行ったと同様な測位処理を行えば、映像上に写っている任意の物体の地理座標を算出できることになる。また、後述する表示処理部104と組み合わせて、実写映像や地図情報などに同期させて測位した物体のアイコンなどを表示することも可能になる。
In the above example, the positioning process for calculating the geographical coordinates of the recognized object based on the image coordinates has been described for the object recognized by the image
次に、表示処理部104の処理の詳細について説明する。
図1の映像情報取得装置90の動作で説明したように、映像情報データベース100には、コンピュータのシステム時間に同期した映像情報、GPSの測位結果(カメラの地理座標)およびカメラ姿勢情報が記録されている。したがって、表示処理部104では、これらのコンピュータのシステム時間を参照することで映像情報に対応付けてカメラの地理座標やカメラ姿勢情報を読み出すことができる。すなわち、実写映像に対するその実写映像(カメラの地理座標)の地理座標を決めることができる。
一方、表示データ格納部120に格納されている地図データ、例えばカーナビゲーション地図、配管地図のような二次元地図も各地点の地理座標を持っている。そこで、表示処理部104は、実写映像を表示する際に、そのフレーム画像の地理座標と一致した地理座標を持つ地図データを読み出し、同じディスプレイの表示画面に一緒に表示する処理を行う。したがって、対応する両画像を同期させて表示することができる。
Next, details of the processing of the
As described in the operation of the video
On the other hand, map data stored in the display
また、道路を三次元表示した鳥瞰図に地理座標が予め与えられている場合には、同様に同期させて表示することも可能である。その際、表示処理部104は、測位処理部103で測位処理した、認識された対象物または映像上で指定した対象物の地理座標に基づいて、これらの対象物の位置を、同期表示している二次元地図や鳥瞰図上に指定したり、対象物のアイコンで表示したりする処理を行うようにしてもよい。
さらに、表示処理部104は、測位処理部103で測位処理した、認識された対象物あるいは映像上で指定した対象物の地理座標および画像座標に基づいて、これらの対象物の位置を、コンピュータグラフィックスで作成した対象物の図形や位置マークを重畳表示する処理を行うようにしてもよい。
In addition, when geographical coordinates are given in advance in a bird's eye view in which a road is three-dimensionally displayed, it is also possible to display them in a similar manner. At that time, the
Further, the
表示処理部104の処理による表示例を図7および図8により説明する。ここでは設備管理の対象物の例をマンホールとする。
図7は、設備管理図として、実写映像(車両映像とマンホール認識結果)、カメラ視点変換映像、二次元地図、配管図(これも二次元地図)、設備情報を全て地理座標に基づいて同期させてディスプレイ110の同一画面で表示している状態を表している。カメラ視点変換映像は、表示処理部104により、実写映像をカメラ視点を変換させることにより生成したものである。設備情報は、マンホールの番号、種類(上水用、下水用、大きさ、形など)、設置番地などを記載しており、地理座標に対応付けられている。したがって、他の表示画像に対応したデータが表示されるようになっている。実写映像上には、画像認識処理部102で認識され、測位処理部103で自動測位した対象物(この例ではマンホール)が、例えば色分けして囲んだ矩形枠で表示されている。同様に、二次元地図や配管図上には、認識して自動測位した対象物が、例えば色分けしたアイコンで表示されている。また、二次元地図には、実写映像を写しているカメラの位置を、その撮影方向(カメラの姿勢角)を表すアイコンで表示されている。さらに、実写映像上には、配管図などから読み取った道路に埋設された下水道管などの配管の位置を、例えば重畳した破線で表示している。
Display examples by the processing of the
FIG. 7 is a facility management chart in which live-action images (vehicle images and manhole recognition results), camera viewpoint conversion images, two-dimensional maps, piping diagrams (also two-dimensional maps), and facility information are all synchronized based on geographic coordinates. This represents a state in which the same screen of the
一方、図8は、積雪地方における状況を表しており、現在の積雪道路の実写映像(現在の映像とCGによるマンホール位置の表示)、夏などに撮影した過去の実写映像(過去の車両映像とマンホール認識結果)、カーナビゲーション画面、設備情報を表示している。積雪地方では、冬季はマンホールなどの道路設備が雪に埋もれてしまうため、設備点検業務に支障をきたすことが多い。そこで、積雪道路の現在の実写映像上には雪の下に埋もれたマンホールの位置を指示するCG合成の矢印を表示し、マンホールを探索しやすくしている。また、ディスプレイの画面上には、映像を撮影した近辺の各種の設備情報などを、地理座標により同期させて表示するようにしている。このように現在の実写映像を過去の実写映像や表示データと同時に表示するためには、表示処理部104において、カメラの現在位置(位置座標)または当該カメラを搭載した車両の現在位置(位置座標)に基づいて、過去の実写映像および/もしくは表示データを同期させればよい。
On the other hand, FIG. 8 shows the situation in the snowy region, which is a live-action video of the current snowy road (present video and CG manhole position display), a past real-time video taken in the summer, etc. Manhole recognition result), car navigation screen, equipment information is displayed. In the snowy region, road equipment such as manholes are buried in snow during the winter, which often hinders equipment inspection work. Therefore, a CG composite arrow indicating the position of the manhole buried under the snow is displayed on the current live-action video of the snowy road to make it easier to search for the manhole. In addition, on the display screen, various pieces of facility information in the vicinity where the video is photographed are displayed in synchronization with geographical coordinates. In this way, in order to display the current live-action video at the same time as the past real-life video and display data, the
以上のように、表示処理部104によれば、映像情報から自動認識した対象物あるいは指定した対象物の地理座標に基づいて、各種地図情報、設備情報を実写映像と同期させて一緒に表示し、対象物の位置を地図および実写映像上にアイコンやCG表示するようにしたので、一目して確認できるように可視化できる。したがって、上下水道管理、電力設備管理、カーナビゲーション用地図管理などの管理作業を効率化でき、管理に係る人件費コストの大幅な削減に寄与することが可能となる。特に、積雪地帯や被災地帯のように実写映像だけでは確認不可能になっている対象物の位置を的確に表示して伝えることができるため、効率よい設備点検業務の遂行を可能にする。
As described above, according to the
以上のように、この実施の形態1の物体認識装置によれば、画像認識処理部102において、予め準備した複数のテンプレート画像のそれぞれについて、画像座標、輝度情報、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、この入力画像について、テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしたものである、したがって、日照変化等がある状況下で撮影した映像情報やノイズを含んだ映像情報から、対象物を正確に認識することを可能にする。
As described above, according to the object recognition apparatus of the first embodiment, the image
また、この実施の形態1の物体認識装置によれば、測位処理部103において、画像認識処理部102で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、映像情報データベース100から、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数または対数尤度関数を生成し、当該コスト関数が最小になる、または対数尤度関数が最大になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出するようにしている。したがって、画像認識処理部102で認識した対象物について最適な地理座標を求めることを可能にする。
さらに、この実施の形態1の物体認識装置によれば、表示処理部104において、映像情報データベース100から取得した実写映像および/もしくは表示データ格納部120から取得した各種地図情報を、前記測位処理部104で算出した対象物の地理座標に同期させてディスプレイ110で表示するようにし、かつ、対象物の位置を地図および実写映像上にアイコンやCG表示するようにしている。したがって、自動的に認識・測位した特定の対象物を視覚的に判りやすく映像表示することができ、設備管理作業などの効率化に寄与する。
Further, according to the object recognition device of the first embodiment, the
Furthermore, according to the object recognition apparatus of the first embodiment, the
実施の形態2.
この実施の形態2では、画像認識処理部102が、実施の形態1と同様にして取得した入力画像とテンプレート画像の共通する部分領域ごとに相関係数行列の比較を行うことで、目的とする対象物を認識する方法を用いることについて説明する。
図9は実施の形態2に係る画像認識処理部102のマッチングの動作例を示す。この場合、画像認識処理部102は、テンプレート画像格納部105の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定する。そして、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ算出する。次に、画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出する。この入力画像について、テンプレート画像と対応させた複数の部分領域を指定し、部分領域ごとに複数の画像特徴量を抽出し、画像特徴量間の相関係数行列をそれぞれ求める。次に、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出する。
In the second embodiment, the image
FIG. 9 shows a matching operation example of the image
以上のように、画像認識処理部102において、部分領域ごとに距離を算出し、それらの和をとることで、道路標識が部分的に遮蔽されていたり、道路標識の中に数字や文字などが存在する場合においても個別に類似度を算出することができ、より正確な画像認識を可能にする。
また、入力画像とk番目のテンプレート画像との間の距離は、次の(10)式を用いて求めてもよい。
The distance between the input image and the kth template image may be obtained using the following equation (10).
通常、目的とする対象物に対して部分的な遮蔽物などが存在している場合、遮蔽物が写っている部分領域では入力画像とテンプレート画像との距離が大きくなることがある。しかし、前述したように、画像認識処理部102では、各部分領域で求めた距離の和から、そのうち最も大きな距離を取り除いたり、各部分領域で求めた距離の中で距離の小さな値の上位数個の和をとるようにして、遮蔽物が関与する部分領域の影響を受けないようにしているので、部分的に遮蔽される場合があっても正確に対象物を認識することが可能である。
Usually, when there is a partial shielding object or the like with respect to the target object, the distance between the input image and the template image may be large in a partial region where the shielding object is reflected. However, as described above, the image
以上のように、この実施の形態2の物体認識装置によれば、画像認識処理部102が、複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について、輝度成分、色情報およびエッジ情報など複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、入力画像について、テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。
As described above, according to the object recognition apparatus of the second embodiment, the image
実施の形態3.
この実施の形態3では、画像認識処理部102が、同一または同一種類の対象物に対する複数のテンプレート画像から特徴的な画像特徴量間の相関関係を相関パターンとして生成し、生成した相関パターンを利用して目的の対象物の画像を認識する方法について説明する。
図10は実施の形態3に係る画像認識処理部102の動作手順を示す。
まず、画像認識処理部102は、テンプレート画像格納部105から、予め準備された同一または同一種類の対象物に対する複数のテンプレート画像を読み込む(ステップST701)。次に、この読み込んだ複数のテンプレート画像に共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ画像特徴量を2つ選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する関数(以下、類似度算出関数と呼ぶ)を作成する(ステップST702)。
In the third embodiment, the image
FIG. 10 shows an operation procedure of the image
First, the image
ここで、ステップST702における類似度算出関数の作成方法について、図11の例を用いて説明する。画像認識処理部102では、まず、同一種類の対象物に対する複数のテンプレート画像に共通な一つの部分領域801を選択し、その部分領域801において有用な相関関係を持つ2つの画像特徴量として、赤プレーンと青プレーンを選択する。そして、選択した赤プレーンと青プレーンの相関係数を複数のテンプレート画像についてそれぞれ求める。次に、求めた各相関係数の値に基づいて類似度を算出する類似度算出関数804を作成する。これら部分領域801、相関係数および類似度算出関数をまとめた情報を、一つの相関パターンとして保持する。同様にして、異なる部分領域802,803,…を
選択し、それぞれの部分領域に対して、相関係数および類似度算出関数を求めて相関パターンを生成して保持しておく。さらに、この複数の相関パターンの生成を、各種類のテンプレート画像に対してもそれぞれ行う)。なお、この相関パターンの生成方法としては、例えば、Jerome Friedman, Trevor Hastie and Robert Tibshirani “Additive Logistic Regression: a Statistical View of Boosting”. Ann. Statist. 28, no. 2 (2000), 337407に記載されているAdaboostあるいはLogitboostと呼ばれる学習アルゴリズムを用いてもよいし、あるいはサポートベクトルマシンやニューラルネット等、その他の方法を用いもよい。
Here, the method of creating the similarity calculation function in step ST702 will be described using the example of FIG. In the image
図10による動作説明に戻り、画像認識処理部102では、画像取得部101で取得した入力画像に対して探索ウインドウを逐次移動させ、探索ウインドウ内の画像を認識対象とする入力画像として取得する(ステップST703)。この場合、探索ウインドウは目的の対象物に応じて大きさを任意に変化させる。また、このときの入力画像の画像座標を算出する。次に、ステップST702で生成し保持しているテンプレート画像の相関パターンに従って、対応する入力画像の部分領域を抽出し、抽出した部分領域における画像特徴量間の相関係数を算出し、算出した相関係数を相関パターンの類似度算出関数に代入することで類似度を算出する(ステップST704)。次に、ステップST702で求めた相関パターンの数だけステップST704とST705の処理を繰り返し、各相関パターンにおいて算出された類似度を加算して、最終的な類似度を算出する(ステップST706)。同様に、他の種類の対象物に関しても、相関パターンから得た類似度を加算して最終的な類似度を算出する。このように算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する(ステップST707)。
Returning to the description of the operation in FIG. 10, the image
一般に、大量のテンプレート画像がある場合、これらを入力画像と一つ一つマッチングしていく方法は処理に時間を要し効率が悪い。しかし、この実施の形態3の画像認識処理部102の場合、同一または同一種類の対象物について、その複数のテンプレート画像から有用な相関係数に関する相関パターンを幾つか生成しておき、生成したこれらの相関パターンを用いて、入力画像の認識を、対象物の種類単位で行うようにしたので、認識処理時間を大幅に改善することができる。
In general, when there are a large number of template images, the method of matching these with input images one by one requires time and is inefficient. However, in the case of the image
以上のように、この実施の形態3の物体認識装置によれば、画像認識処理部102が、同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ2つの画像特徴量を選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、求めた共通部分領域、2つの画像特徴量および類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に画像取得部101で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、上記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対してテンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算してその加算値が一定値以上となった場合のテンプレート画像の同一種類の対象物を、入力画像の対象物として認識するようにしている。したがって、日照変化等がある状況下で撮影した映像情報や部分的に遮蔽や特定表示が含まれる対象物が写った映像情報から、目的の対象物を正確に認識することが可能にする。加えて、この実施の形態3の画像認識処理部102は、認識処理を、対象物の種類単位で形成した相関パターンを用いて行うようにしたため、個々のテンプレート画像に対してパターンマッチングを行う処理に比べて処理時間を大幅に改善することができる。特に、大量のテンプレート画像を用いる場合に有効である。
As described above, according to the object recognition device of the third embodiment, the image
この発明の物体認識装置を、上記実施の形態では道路設備の管理支援について説明してきたが、この発明の装置は、例えば、電車に搭載して、路線状況の情報収集や管理を行うのにも適用できる。また、この発明の装置は、実写映像を用いたカーナビゲーションにも利用できる。例えば、車両にGPSなどの測位デバイスとカメラを搭載し、画像認識処理部102により、カメラで収集した映像から白線認識、道路標識、交通信号認識、歩行者や自転車、対向車、建築物などの認識を行い、これらの情報やこれらの情報に基づいて生成される案内情報をドライバーに提示するようにする。さらに、この発明の装置は、例えば、ビルや学校や街中に監視カメラを設置し、画像認識処理部102により、特定の人物や侵入者の顔などを認識して、認識結果とその映像を保安センタなどに伝達する映像を用いたセキュリティにも応用できる。さらにまた、この発明の装置は、インターネットにおける画像検索および分類などにも利用することが可能である。例えば、インターネットで大量の画像を収集して映像情報データベース100に保存しておき、画像認識処理部102により、映像情報データベース100の画像から特定の人物画像や特定の物体画像を認識し、認識結果を、ユーザの要望に応じてパソコンや携帯電話などに表示することに利用できる。
Although the object recognition apparatus of the present invention has been described with respect to management support for road facilities in the above embodiment, the apparatus of the present invention is also mounted on a train, for example, for collecting and managing route status information. Applicable. The apparatus of the present invention can also be used for car navigation using live-action video. For example, a positioning device such as GPS and a camera are mounted on a vehicle, and white line recognition, road signs, traffic signal recognition, pedestrians, bicycles, oncoming vehicles, buildings, etc. It recognizes and presents such information and the guidance information produced | generated based on these information to a driver. Furthermore, the device according to the present invention, for example, installs a surveillance camera in a building, school, or town, recognizes the face of a specific person or intruder by the image
90 映像情報取得装置、100 映像情報データベース、101 画像取得部、102 画像認識処理部、103 測位処理部、104 表示処理部、105 テンプレート画像格納部、110 ディスプレイ、120 表示データ格納部、201 高精度測位装置、202 カメラ、203 方位センサ、204 移動体。 90 video information acquisition apparatus, 100 video information database, 101 image acquisition unit, 102 image recognition processing unit, 103 positioning processing unit, 104 display processing unit, 105 template image storage unit, 110 display, 120 display data storage unit, 201 high accuracy Positioning device, 202 camera, 203 direction sensor, 204 moving body.
Claims (20)
前記映像情報データベースの映像情報から任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に複数の画像特徴量を抽出して画像特徴量間の相関係数行列を求め、求めた入力画像の相関係数行列と複数のテンプレート画像の相関係数行列を比較して入力画像と複数のテンプレート画像間の距離をそれぞれ算出し、算出した距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。 A video information database for storing video information;
Image acquisition means for acquiring an arbitrary frame image from the video information of the video information database;
Template image storage means for storing in advance a plurality of template images related to the object by type;
For each of the plurality of template images in the template image storage unit, a plurality of image feature amounts are extracted, a correlation coefficient matrix between the extracted image feature amounts is obtained, and then from the frame image acquired by the image acquisition unit Extracting an input image to be recognized, extracting a plurality of image feature amounts for the input image in the same manner as the template image, obtaining a correlation coefficient matrix between the image feature amounts, and calculating the correlation coefficient of the obtained input image Compare the matrix and the correlation coefficient matrix of multiple template images to calculate the distance between the input image and multiple template images, respectively, and recognize the template image object with the smallest calculated distance as the input image object And an image recognition processing means.
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
前記テンプレート画像格納手段の複数のテンプレート画像のそれぞれについて、画像の部分領域を複数指定し、指定した各部分領域について複数の画像特徴量をそれぞれ抽出し、抽出した画像特徴量間の相関係数行列を部分領域ごとにそれぞれ求め、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記テンプレート画像と同様に指定した複数の部分領域ごとに複数の画像特徴量を抽出して画像特徴量間の相関係数行列をそれぞれ求め、テンプレート画像の部分領域の相関係数行列と入力画像の対応する部分領域の相関係数行列を比較して両部分領域間の距離をそれぞれ算出し、算出した各部分領域間の距離に基づいて入力画像と各テンプレート画像間の距離をそれぞれ算出し、算出した画像間の距離が最も小さいテンプレート画像の対象物を、入力画像の対象物として認識する画像認識処理手段を備えたことを特徴とする物体認識装置。 A video information database for storing video information;
Image acquisition means for acquiring an arbitrary frame image from the video information of the video information database;
Template image storage means for storing in advance a plurality of template images related to the object by type;
For each of the plurality of template images of the template image storage means, a plurality of partial areas of the image are designated, a plurality of image feature quantities are extracted for each designated partial area, and a correlation coefficient matrix between the extracted image feature quantities Is obtained for each partial area, and then an input image to be recognized is extracted from the frame image acquired by the image acquisition means, and a plurality of input images are specified for each of the specified partial areas in the same manner as the template image. Image feature quantities are extracted to obtain correlation coefficient matrices between the image feature quantities, and the correlation coefficient matrix of the partial area of the template image is compared with the correlation coefficient matrix of the corresponding partial area of the input image. Calculate the distance between the areas, calculate the distance between the input image and each template image based on the calculated distance between the partial areas, The distance between the out image is the object of the smallest template image, the object recognition apparatus characterized by comprising an image recognition processing means for recognizing a target object in the input image.
前記映像情報データベースの映像情報からから任意のフレーム画像を取得する画像取得手段と、
種類別に対象物に関する複数のテンプレート画像を予め格納するテンプレート画像格納手段と、
テンプレート画像格納手段から読み込んだ同一種類の対象物に対する複数のテンプレート画像について、共通する任意のサイズの部分領域を複数選択し、選択した共通部分領域ごとに、その部分領域における有意な相関関係を持つ2つの画像特徴量を選び、選択した2つの画像特徴量間の相関係数を求め、求めた相関係数の値に基づいて類似度を算出する類似度算出関数を作成し、前記共通部分領域、前記2つの画像特徴量および前記類似度算出関数をセットとする相関パターンを複数生成して保持しておき、次に前記画像取得手段で取得したフレーム画像から認識対象とする入力画像を抽出し、当該入力画像について、前記生成保持する複数の相関パターンのそれぞれに従って、対応する共通部分領域をそれぞれ選択し、当該選択した共通部分領域に対して前記テンプレート画像と同様にして画像特徴量間の相関係数をそれぞれ算出し、算出した相関係数を対応する前記相関パターンの類似度算出関数にそれぞれ代入することでそれぞれの類似度を算出し、算出した各類似度を加算して最終的な類似度を算出し、同様な処理により他の種類の対象物に関しても相関パターンから得た類似度を加算して最終的な類似度を算出し、算出した全ての種類に対する最終的な類似度の中から、最も大きな類似度を持つ種類を求め、この求めた種類の対象物を目的の対象物として認識する画像認識処理手段とを備えたことを特徴とする物体認識装置。 A video information database for storing video information;
Image acquisition means for acquiring an arbitrary frame image from the video information of the video information database;
Template image storage means for storing in advance a plurality of template images related to the object by type;
For a plurality of template images for the same type of object read from the template image storage means, a plurality of common partial areas of any size are selected, and each selected common partial area has a significant correlation in that partial area. Selecting two image feature amounts, obtaining a correlation coefficient between the two selected image feature amounts, creating a similarity calculation function for calculating a similarity based on the calculated correlation coefficient value, and generating the common partial region , Generating and holding a plurality of correlation patterns having the two image feature quantities and the similarity calculation function as a set, and then extracting an input image to be recognized from the frame image acquired by the image acquisition means For the input image, the corresponding common partial area is selected in accordance with each of the plurality of correlation patterns to be generated and held, and the selected common area is selected. Similar to the template image, the correlation coefficient between the image feature amounts is calculated for each segment area, and the calculated correlation coefficient is assigned to the corresponding similarity calculation function of the correlation pattern. The degree of similarity is calculated, the final degree of similarity is calculated by adding the calculated degrees of similarity, and the degree of similarity obtained from the correlation pattern is also added to other types of objects through similar processing. Image recognition processing means for calculating a degree, obtaining a type having the largest similarity from among the final similarities for all types calculated, and recognizing an object of the obtained type as a target object An object recognition apparatus characterized by comprising:
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレームの画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項1から請求項9のうちいずれか1項記載の物体認識装置。 The video information database stores video information taken by the camera on the road and position information and posture information of the camera that shot the video information synchronized with the video information.
Acquire the image coordinates of the object recognized by the image recognition processing means, detect the same object as the object from the images of multiple frames before and after the recognized object, and detect these The image coordinates of the target object is acquired, and the camera position and the camera posture angle at the time of copying the same target object including the recognized target object are acquired from the video information database, and a plurality of these acquired target objects are acquired. And a positioning processing means for generating a cost function based on the image coordinates, the camera position and the camera attitude angle, and calculating the geographic coordinates of the object, the camera geographic coordinates, and the camera attitude angle at which the cost function is minimized. The object recognition device according to claim 1, wherein:
画像認識処理手段で認識された対象物の画像座標を取得し、当該認識された対象物が写っている前後の複数フレーム画像から当該対象物と同一の対象物をそれぞれ検出して、これら検出した対象物の画像座標を取得し、前記映像情報データベースから、認識された対象物を含む同一の対象物を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した対象物の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する対象物の地理座標、カメラの地理座標およびカメラ姿勢角を算出する測位処理手段を備えたことを特徴とする請求項1から請求項9のうちいずれか1項記載の物体認識装置。 The video information database stores video information taken by the camera on the road and position information and posture information of the camera that shot the video information synchronized with the video information.
Obtain the image coordinates of the object recognized by the image recognition processing means, detect the same object as the object from the multiple frame images before and after the recognized object, and detect these The image coordinates of the object are acquired, and the camera position and the camera posture angle at the time when the same object including the recognized object is copied are acquired from the video information database, and a plurality of these acquired objects are acquired. A logarithmic likelihood function is obtained based on the image coordinates, the camera position and the camera attitude angle, and positioning processing means is provided for calculating the geographical coordinates of the object, the camera geographical coordinates, and the camera attitude angle that maximize the log likelihood function. The object recognition apparatus according to claim 1, wherein the object recognition apparatus is any one of claims 1 to 9.
映像情報データベースから読み出した実写映像をディスプレイに表示し、その際、前記表示データ格納手段から選択して読み出した表示データの画像を前記実写映像のフレーム画像の地理座標と同期させて前記ディスプレイの画面上に前記実写映像と一緒に表示する表示処理を行う表示処理手段を備えたことを特徴とする請求項10から請求項12のうちいずれか1項記載の物体認識装置。 A display data storage means for storing display data including a two-dimensional map having geographical coordinates, a bird's eye view having geographical coordinates displaying roads in three dimensions, and management information having geographical coordinates is provided inside or outside the apparatus,
A live-action video read from the video information database is displayed on the display, and the display data image selected and read out from the display data storage means is synchronized with the geographical coordinates of the frame image of the real-action video. 13. The object recognition apparatus according to claim 10, further comprising display processing means for performing a display process for displaying together with the photographed video.
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレームの画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、前記映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいてコスト関数を生成し、当該コスト関数が最小になる物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。 A video information database for storing video information captured by a camera on a road and position information and posture information of a camera that has captured the video information synchronized with the video information;
An input device for selecting any object on the video read from the video information database;
The image coordinates of the selected object are acquired, the same object as the object is detected from images of a plurality of frames before and after the object is captured, the image coordinates of these detected objects are acquired, and the video information A camera function and a camera attitude angle at the time of copying the same object including the selected object are respectively acquired from the database, and a cost function is based on the plurality of image coordinates, the camera position and the camera attitude angle of the acquired object. And calculating the geographic coordinates of the object, the geographic coordinates of the camera, and the camera posture angle that minimize the cost function.
前記映像情報データベースから読み出した映像上の任意の物体を選択する入力デバイスと、
選択された物体の画像座標を取得し、当該物体が写っている前後の複数フレーム画像から当該物体と同一の物体をそれぞれ検出して、これら検出した物体の画像座標を取得し、映像情報データベースから、前記選択された物体を含む同一の物体を写した時点のカメラ位置とカメラ姿勢角をそれぞれ取得し、これら取得した物体の複数の画像座標、カメラ位置とカメラ姿勢角に基づいて対数尤度関数を求め、当該対数尤度関数を最大化する物体の地理座標、カメラの地理座標およびカメラ姿勢角を算出することを特徴とする映像物体測位装置。 A video information database for storing video information captured by a camera on a road and position information and posture information of a camera that has captured the video information synchronized with the video information;
An input device for selecting any object on the video read from the video information database;
The image coordinates of the selected object are acquired, the same object as the object is detected from a plurality of frame images before and after the object is captured, and the image coordinates of these detected objects are acquired from the video information database. , Acquiring a camera position and a camera posture angle at the time of copying the same object including the selected object, and a log likelihood function based on the plurality of image coordinates, camera position and camera posture angle of the acquired object And calculating the geographical coordinates of the object, the geographical coordinates of the camera, and the camera attitude angle that maximize the log likelihood function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006235944A JP4717760B2 (en) | 2006-08-31 | 2006-08-31 | Object recognition device and video object positioning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006235944A JP4717760B2 (en) | 2006-08-31 | 2006-08-31 | Object recognition device and video object positioning device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008059319A true JP2008059319A (en) | 2008-03-13 |
JP4717760B2 JP4717760B2 (en) | 2011-07-06 |
Family
ID=39241967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006235944A Active JP4717760B2 (en) | 2006-08-31 | 2006-08-31 | Object recognition device and video object positioning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4717760B2 (en) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101003362B1 (en) | 2008-09-09 | 2010-12-22 | 전자부품연구원 | Apparatus for determining size template |
JP2011053103A (en) * | 2009-09-02 | 2011-03-17 | Denso Corp | Data server for transmitting map and animation, and linkage display system for animation-map |
JP2011527056A (en) * | 2008-07-03 | 2011-10-20 | エヌイーシー ラボラトリーズ アメリカ インク | Signet ring cell detector and related methods |
JP2011243076A (en) * | 2010-05-20 | 2011-12-01 | Pasco Corp | Object management image generation device and object management image generation program |
JP2012155627A (en) * | 2011-01-27 | 2012-08-16 | Aisin Aw Co Ltd | Guiding apparatus, guiding method and guide program |
US8259998B2 (en) | 2008-09-30 | 2012-09-04 | Mazda Motor Corporation | Image processing device for vehicle |
JP2012195749A (en) * | 2011-03-16 | 2012-10-11 | Hitachi Information & Control Solutions Ltd | Imaging direction display method for portable terminal, portable terminal with imaging direction display function, and imaging direction display system for portable terminal |
JP2012531685A (en) * | 2009-06-29 | 2012-12-10 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング | Image processing method for a driver assistance system of a vehicle for detecting and classifying at least a part of at least one set image element |
JP2013516718A (en) * | 2010-03-08 | 2013-05-13 | エンパイア テクノロジー ディベロップメント エルエルシー | Object alignment in augmented reality |
WO2013117940A3 (en) * | 2012-02-10 | 2013-12-05 | Isis Innovation Limited | Method of locating a sensor and related apparatus |
KR20150018990A (en) * | 2013-08-12 | 2015-02-25 | 현대모비스 주식회사 | Apparatus and method for guiding caution information of driving |
JP2015191573A (en) * | 2014-03-28 | 2015-11-02 | 株式会社パスコ | Manhole cover management device, method and program |
US9945950B2 (en) | 2012-04-02 | 2018-04-17 | Oxford University Innovation Limited | Method for localizing a vehicle equipped with two lidar systems |
CN108389195A (en) * | 2018-02-24 | 2018-08-10 | 北京理工大学 | Image detecting method and device |
CN109668568A (en) * | 2019-01-25 | 2019-04-23 | 天津煋鸟科技有限公司 | A kind of method carrying out location navigation using panoramic imagery is looked around |
CN110546683A (en) * | 2017-03-30 | 2019-12-06 | 株式会社爱考斯研究 | Object determination device and object determination program |
CN112507956A (en) * | 2020-12-21 | 2021-03-16 | 北京百度网讯科技有限公司 | Signal lamp identification method and device, electronic equipment, road side equipment and cloud control platform |
JPWO2021144874A1 (en) * | 2020-01-15 | 2021-07-22 | ||
CN113661515A (en) * | 2019-03-25 | 2021-11-16 | 三菱电机株式会社 | Feature determination device, feature determination method, and feature determination program |
CN114283296A (en) * | 2021-12-20 | 2022-04-05 | 中国人民解放军军事科学院国防科技创新研究院 | Target identification self-evaluation method based on structural similarity |
CN117496483A (en) * | 2023-11-15 | 2024-02-02 | 深圳森云智能科技有限公司 | Night image recognition method and system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006201975A (en) * | 2005-01-19 | 2006-08-03 | Nippon Hoso Kyokai <Nhk> | Color identification device and program |
-
2006
- 2006-08-31 JP JP2006235944A patent/JP4717760B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006201975A (en) * | 2005-01-19 | 2006-08-03 | Nippon Hoso Kyokai <Nhk> | Color identification device and program |
Non-Patent Citations (1)
Title |
---|
JPN6010073642, Tuzel, O.; Porikli, F.; Meer, P., "Region Covariance: A Fast Descriptor for Detection and Classification", European Conference on Computer Vision (ECCV), 200605, ECCV 2006 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011527056A (en) * | 2008-07-03 | 2011-10-20 | エヌイーシー ラボラトリーズ アメリカ インク | Signet ring cell detector and related methods |
US8582860B2 (en) | 2008-07-03 | 2013-11-12 | Nec Laboratories America, Inc. | Signet ring cell detector and related methods |
KR101003362B1 (en) | 2008-09-09 | 2010-12-22 | 전자부품연구원 | Apparatus for determining size template |
US8259998B2 (en) | 2008-09-30 | 2012-09-04 | Mazda Motor Corporation | Image processing device for vehicle |
JP2012531685A (en) * | 2009-06-29 | 2012-12-10 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング | Image processing method for a driver assistance system of a vehicle for detecting and classifying at least a part of at least one set image element |
US9030558B2 (en) | 2009-06-29 | 2015-05-12 | Robert Bosch Gmbh | Image processing method for a driver assistance system of a motor vehicle for detecting and classifying at least one portion of at least one predefined image element |
JP2011053103A (en) * | 2009-09-02 | 2011-03-17 | Denso Corp | Data server for transmitting map and animation, and linkage display system for animation-map |
JP2013516718A (en) * | 2010-03-08 | 2013-05-13 | エンパイア テクノロジー ディベロップメント エルエルシー | Object alignment in augmented reality |
US8797356B2 (en) | 2010-03-08 | 2014-08-05 | Empire Technology Development Llc | Alignment of objects in augmented reality |
JP2011243076A (en) * | 2010-05-20 | 2011-12-01 | Pasco Corp | Object management image generation device and object management image generation program |
JP2012155627A (en) * | 2011-01-27 | 2012-08-16 | Aisin Aw Co Ltd | Guiding apparatus, guiding method and guide program |
JP2012195749A (en) * | 2011-03-16 | 2012-10-11 | Hitachi Information & Control Solutions Ltd | Imaging direction display method for portable terminal, portable terminal with imaging direction display function, and imaging direction display system for portable terminal |
JP2018009999A (en) * | 2012-02-10 | 2018-01-18 | オックスフォード ユニヴァーシティ イノヴェーション リミテッド | Method for estimating position of sensor and related devices |
WO2013117940A3 (en) * | 2012-02-10 | 2013-12-05 | Isis Innovation Limited | Method of locating a sensor and related apparatus |
US9576206B2 (en) | 2012-02-10 | 2017-02-21 | Oxford University Innovation Limited | Method of locating a sensor and related apparatus |
US9945950B2 (en) | 2012-04-02 | 2018-04-17 | Oxford University Innovation Limited | Method for localizing a vehicle equipped with two lidar systems |
KR102074209B1 (en) * | 2013-08-12 | 2020-02-06 | 현대모비스 주식회사 | Apparatus and method for guiding caution information of driving |
KR20150018990A (en) * | 2013-08-12 | 2015-02-25 | 현대모비스 주식회사 | Apparatus and method for guiding caution information of driving |
JP2015191573A (en) * | 2014-03-28 | 2015-11-02 | 株式会社パスコ | Manhole cover management device, method and program |
CN110546683A (en) * | 2017-03-30 | 2019-12-06 | 株式会社爱考斯研究 | Object determination device and object determination program |
CN108389195A (en) * | 2018-02-24 | 2018-08-10 | 北京理工大学 | Image detecting method and device |
CN109668568A (en) * | 2019-01-25 | 2019-04-23 | 天津煋鸟科技有限公司 | A kind of method carrying out location navigation using panoramic imagery is looked around |
CN113661515A (en) * | 2019-03-25 | 2021-11-16 | 三菱电机株式会社 | Feature determination device, feature determination method, and feature determination program |
JPWO2021144874A1 (en) * | 2020-01-15 | 2021-07-22 | ||
WO2021144874A1 (en) * | 2020-01-15 | 2021-07-22 | 日本電信電話株式会社 | Imaging range inferring apparatus, imaging range inferring method, and program |
JP7243867B2 (en) | 2020-01-15 | 2023-03-22 | 日本電信電話株式会社 | Shooting range estimation device, shooting range estimation method and program |
CN112507956A (en) * | 2020-12-21 | 2021-03-16 | 北京百度网讯科技有限公司 | Signal lamp identification method and device, electronic equipment, road side equipment and cloud control platform |
CN114283296A (en) * | 2021-12-20 | 2022-04-05 | 中国人民解放军军事科学院国防科技创新研究院 | Target identification self-evaluation method based on structural similarity |
CN114283296B (en) * | 2021-12-20 | 2024-05-10 | 中国人民解放军军事科学院国防科技创新研究院 | Target identification self-evaluation method based on structural similarity |
CN117496483A (en) * | 2023-11-15 | 2024-02-02 | 深圳森云智能科技有限公司 | Night image recognition method and system |
CN117496483B (en) * | 2023-11-15 | 2024-05-31 | 深圳森云智能科技有限公司 | Night image recognition method and system |
Also Published As
Publication number | Publication date |
---|---|
JP4717760B2 (en) | 2011-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4717760B2 (en) | Object recognition device and video object positioning device | |
Choi et al. | KAIST multi-spectral day/night data set for autonomous and assisted driving | |
US20210183080A1 (en) | Interior photographic documentation of architectural and industrial environments using 360 panoramic videos | |
CN105512646B (en) | A kind of data processing method, device and terminal | |
CN101617197B (en) | Feature identification apparatus, measurement apparatus and measuring method | |
US9465129B1 (en) | Image-based mapping locating system | |
CN109598794B (en) | Construction method of three-dimensional GIS dynamic model | |
JP2020064068A (en) | Visual reinforcement navigation | |
JP4874607B2 (en) | Object positioning device | |
US11430199B2 (en) | Feature recognition assisted super-resolution method | |
KR102200299B1 (en) | A system implementing management solution of road facility based on 3D-VR multi-sensor system and a method thereof | |
CN109446973B (en) | Vehicle positioning method based on deep neural network image recognition | |
CN109596121B (en) | Automatic target detection and space positioning method for mobile station | |
MX2010014049A (en) | Registration of street-level imagery to 3d building models. | |
CN102737236A (en) | Method for automatically acquiring vehicle training sample based on multi-modal sensor data | |
KR101575954B1 (en) | Apparatus for augmented reality using 3d reconstruction and mehhod thereof | |
JP2006119591A (en) | Map information generation method, map information generation program and map information collection apparatus | |
EP2476999B1 (en) | Method for measuring displacement, device for measuring displacement, and program for measuring displacement | |
JP4517003B2 (en) | Automatic road sign recognition system | |
JP5544595B2 (en) | Map image processing apparatus, map image processing method, and computer program | |
JPWO2016031229A1 (en) | Road map creation system, data processing device and in-vehicle device | |
TWI682361B (en) | Method and system for road image reconstruction and vehicle positioning | |
JP2006309450A (en) | Image recognition device and image recognition method | |
Meesuk et al. | Using multidimensional views of photographs for flood modelling | |
Yazawa et al. | Image based view localization system retrieving from a panorama database by SURF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080703 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090507 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110322 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110330 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |