JP2019125116A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2019125116A JP2019125116A JP2018004555A JP2018004555A JP2019125116A JP 2019125116 A JP2019125116 A JP 2019125116A JP 2018004555 A JP2018004555 A JP 2018004555A JP 2018004555 A JP2018004555 A JP 2018004555A JP 2019125116 A JP2019125116 A JP 2019125116A
- Authority
- JP
- Japan
- Prior art keywords
- image
- imaging
- learning model
- imaging device
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像認識を行う技術に関する。 The present invention relates to a technology for performing image recognition.
事前に物体を撮影した画像からパターンや特徴点を学習し、その学習結果を使って画像上の物体の種類や位置、形状などを認識する機械学習の技術が知られている。機械学習による画像認識を精度よく動作させるためには、学習する画像の撮影条件と、上記パターンや特徴点を認識できるように学習された認識器に入力する画像の撮影条件ができるだけ一致していることが望ましい。ここで撮影条件とは、学習用の画像を撮影する際、あるいは認識器に認識させるために入力する画像を撮影する際における、撮像装置の位置や姿勢、あるいはそれら撮影場所に影響を与える光源の明るさや色合い等の条件を指す。 A technique of machine learning is known which learns patterns and feature points from an image obtained by photographing an object in advance, and recognizes the type, position, and shape of the object on the image using the learning result. In order to operate the image recognition by machine learning with high accuracy, the shooting conditions of the image to be learned and the shooting conditions of the image to be input to the recognizer learned so as to be able to recognize the above pattern and feature points match as much as possible. Is desirable. Here, the shooting conditions include the position and orientation of the imaging apparatus or the light source that affects the shooting locations when shooting an image for learning or shooting an image to be input to a recognizer. Indicates conditions such as brightness and tint.
特許文献1では画像認識を行う物体の学習画像を生成する方法が示されている。 Patent Document 1 discloses a method of generating a learning image of an object for image recognition.
また、非特許文献1では、事前に与えられた画像に基づく機械学習により構築した認識処理に関する方法で、撮影された画像から画像中の物体の3次元形状を認識し、その形状をもとに上記撮影をした撮像装置の位置や姿勢を推定する方法が開示されている。 Further, in Non-Patent Document 1, a method related to recognition processing constructed by machine learning based on an image given in advance recognizes a three-dimensional shape of an object in an image from a photographed image, and based on the shape A method is disclosed for estimating the position and orientation of the imaging device that has taken the above image.
非特許文献1では、学習する画像の撮影条件と、パターンや特徴点を認識できるように学習された認識器に入力する画像の撮影条件が一致している前提がある。しかしながら、学習を行う環境と、実際に認識を行う環境の撮影条件を一致させることは現実的に難しいため、認識を精度よく行うことができなかった。 In Non-Patent Document 1, there is a premise that the shooting conditions of an image to be learned and the shooting conditions of an image to be input to a recognizer learned so as to be able to recognize a pattern or a feature point match. However, since it is practically difficult to match the shooting conditions of the environment in which learning is performed and the environment in which recognition is actually performed, recognition could not be performed with high accuracy.
特許文献1では画像認識を実施する撮影条件に対応するように学習時の画像を変換してから学習させる方法が示されている。しかしながら、この方法では実際に画像認識を行う環境の撮像条件を事前に把握できていないと、必要十分な学習するための画像を生成できず、効率的に学習を行えない。特に、事前の学習時に、実際に画像認識を行う環境が未知の場合には、認識の精度が低下してしまう。 Patent Document 1 discloses a method of converting an image at the time of learning so as to correspond to a photographing condition for performing image recognition and then learning. However, with this method, if the imaging conditions of the environment in which image recognition is actually performed can not be grasped in advance, an image for performing necessary and sufficient learning can not be generated, and efficient learning can not be performed. In particular, when the environment in which image recognition is actually performed is unknown at the time of prior learning, the accuracy of recognition is degraded.
本発明は上記課題に鑑みてなされたものであり、事前に学習を行う環境と、実際に認識を行う環境とで撮影条件が一致していない場合であっても、画像認識の精度を向上させる技術を提供することを目的とする。 The present invention has been made in view of the above problems, and improves the accuracy of image recognition even when shooting conditions do not match between an environment in which learning is performed in advance and an environment in which recognition is actually performed. The purpose is to provide technology.
上記の目的を達成する本発明に係る情報処理装置は、学習モデルに基づいて、入力された撮影画像に対応する出力結果を出力する情報処理装置であって、学習モデルを生成する際に用いる画像が撮影された撮影条件を取得する第1取得手段と、処理対象の撮影画像を撮像装置から入力する入力手段と、前記処理対象の撮影画像が撮影された撮影条件を取得する第2取得手段と、前記第1および第2取得手段で取得した撮影条件に基づいて、前記処理対象の撮影画像を変換する変換手段と、前記学習モデルに基づいて、前記変換された画像に対応する出力結果を出力する出力手段とを備えることを特徴とする。 An information processing apparatus according to the present invention for achieving the above object is an information processing apparatus for outputting an output result corresponding to an input photographed image based on a learning model, and an image used when generating the learning model A first acquisition unit for acquiring a photographing condition in which a subject is photographed, an input unit for inputting a photographed image to be processed from an imaging device, and a second acquisition unit for acquiring a photographing condition in which the photographed image to be processed is photographed A conversion means for converting the photographed image to be processed based on the photographing conditions acquired by the first and second acquisition means, and an output result corresponding to the converted image based on the learning model And output means for
本発明により、事前に学習を行う環境と、実際に認識を行う環境とで撮影条件が一致していない場合であっても、画像認識の精度を向上させる技術を提供することができる。 According to the present invention, it is possible to provide a technique for improving the accuracy of image recognition even when shooting conditions do not match between an environment in which learning is performed in advance and an environment in which recognition is actually performed.
(第1の実施形態)
本実施形態では、学習モデルを使って画像認識を行う場合において、学習時と画像認識処理時の2つの条件下で撮影された画像同士の変化(差異)に注目する。認識処理に用いる画像を幾何的に変形させ、学習に用いた画像の撮影条件に近づけることで、画像認識の精度を向上させる方法について説明する。本実施形態における画像認識では、本実施形態では入力画像に映っている物体から撮像装置までの距離を推定する。入力画像と距離の正解値とを学習させた学習モデルを用いることで距離の推定がより正確になる。なお、認識処理は、機械学習に基づく方法で画像から何か情報を認識する方法であればどのような方法でも良い。また、本実施形態において、学習モデルとは、入力画像から入力画像に対応する距離情報を出力するニューラルネットワークに基づくネットワーク構造とそのパラメータとする。
First Embodiment
In this embodiment, when performing image recognition using a learning model, attention is paid to changes (differences) between images captured under two conditions at the time of learning and at the time of image recognition processing. A method of improving the accuracy of image recognition by geometrically deforming an image used for recognition processing and bringing it close to the imaging conditions of the image used for learning will be described. In the image recognition in this embodiment, in this embodiment, the distance from the object shown in the input image to the imaging device is estimated. By using a learning model in which the input image and the correct value of the distance are learned, estimation of the distance becomes more accurate. The recognition process may be any method as long as it is a method of recognizing some information from an image by a method based on machine learning. Further, in the present embodiment, the learning model is a network structure based on a neural network that outputs distance information corresponding to an input image from an input image and parameters thereof.
まず、画像に発生する幾何学的な“ずれ”は、学習時と認識処理時に、撮像装置の位置や姿勢が異なることから発生する。この“ずれ”とは、2つの条件下で撮影された画像同士の変化(差異)を指す。例えば、図2のように車両に撮像装置を搭載する場合を考える。学習時と認識処理時で同じ高さあるいは同じ種類の車両を使うことができた場合でも、撮像装置の位置や姿勢は、すべて同じに合わせることができない可能性がある。また、学習に使った撮像装置と、認識処理を実行するときに使う撮像装置とで、形や種類が異なる可能性がある。そのため、学習に用いる画像の撮影条件と、パターンや特徴点を認識できるように学習された認識器に入力する画像の撮影条件が一致しない場合が考えられる。撮像条件が異なる画像では、学習の効果が反映されにくくなり、画像認識の精度が低下する。 First, geometric “misalignment” that occurs in an image occurs because the position and orientation of the imaging device are different during learning and recognition processing. The "deviation" refers to a change (difference) between images captured under two conditions. For example, consider the case of mounting an imaging device on a vehicle as shown in FIG. Even if the same height or the same type of vehicle can be used in learning and recognition processing, there is a possibility that the positions and orientations of the imaging device can not all be the same. In addition, the shape and type may differ between the imaging device used for learning and the imaging device used when performing recognition processing. Therefore, it may be considered that the shooting conditions of the image used for learning do not match the shooting conditions of the image input to the recognizer learned so as to be able to recognize the pattern and feature points. With images having different imaging conditions, the effect of learning is less likely to be reflected, and the accuracy of image recognition is reduced.
図1を用いて、本実施形態のハードウエアの構成例を示す。 A configuration example of hardware of the present embodiment is shown using FIG.
中央処理ユニット(CPU)101は、RAM103をワークメモリとして、ROM102や記憶装置104に格納されたOSやその他プログラムを読みだして実行し、システムバス106に接続された各構成を制御して、各種処理の演算や論理判断などを行う。CPU101が実行する処理には、実施形態の画像認識処理が含まれる。
The central processing unit (CPU) 101 uses the
記憶装置104は、ハードディスクドライブや外部記憶装置などであり、実施形態の画像認識処理にかかるプログラムや各種データを記憶する。
The
入力部105は、カメラなどの撮像装置、ユーザ指示を入力するためのボタン、キーボード、タッチパネルなどの入力デバイスである。なお、記憶装置104は例えばSATAなどのインタフェイスを介して、入力部105は例えばUSBなどのシリアルバスを介して、それぞれシステムバス109に接続されるが、それらの詳細は省略する。通信部106は無線通信で外部の機器と通信を行う。表示部107はディスプレイである。センサ108は画像センサや距離センサである。
The
尚、CPUはプログラムを実行することで各種の手段として機能することが可能である。なお、CPUと協調して動作するASICなどの制御回路がこれらの手段として機能しても良い。また、CPUと画像処理装置の動作を制御する制御回路との協調によってこれらの手段が実現されても良い。また、CPUは単一のものである必要はなく、複数であっても良い。この場合、複数のCPUは分散して処理を実行することが可能である。また、複数のCPUは単一のコンピュータに配置されていても良いし、物理的に異なる複数のコンピュータに配置されていても良い。なお、CPUがプログラムを実行することで実現する手段が専用の回路によって実現されても良い。 Note that the CPU can function as various means by executing a program. Note that a control circuit such as an ASIC operating in cooperation with the CPU may function as these means. Also, these means may be realized by cooperation between the CPU and a control circuit that controls the operation of the image processing apparatus. Also, the CPU need not be a single CPU, but may be plural. In this case, a plurality of CPUs can execute processing in a distributed manner. Also, the plurality of CPUs may be disposed in a single computer or may be disposed in physically different computers. Note that means realized by the CPU executing a program may be realized by a dedicated circuit.
図2は、画像認識処理に用いる車両100(a)と、学習に用いる車両200(b)の違いを表す図である。また、(c)は認識処理時に、画像111から画像112に画像変換をした一例を表す図である。図2の例では、それぞれの車両に搭載された撮像装置の位置(高さ)が異なる。図2の100と200は異なる車両を表し、110と210はそれぞれに搭載された撮像装置を表す。なお、2つの車両は同じ車種であることが望ましいが、本実施形態では異なる車種である。車種が異なる場合、撮像装置の位置や姿勢をまったく同じように設置することは難しい。図2のように撮像装置の位置が異なると、111と211に示す画像のように、得られる画像に幾何的なずれが発生する。この場合の幾何学的なずれは、具体的には、画像の中にある道路や建物の見た目の位置や角度のずれである。それゆえ、例えば図2の撮像装置210の画像211を用いて学習を行った場合、撮影条件の異なる撮像装置110の画像111を、画像から距離を推定する学習を行った学習モデルに入力しても、十分な画像認識の精度が得られない場合がある。
FIG. 2 is a diagram showing the difference between a vehicle 100 (a) used for image recognition processing and a vehicle 200 (b) used for learning. Further, (c) is a diagram showing an example of image conversion from the
そこで本実施形態では、学習に用いる車両に搭載した撮像装置の位置や姿勢と、学習結果を使った認識処理に用いる車両に搭載した撮像装置の位置や姿勢の違いに基づいて、認識処理に用いる画像を幾何的に変形させ、学習に用いた画像の撮影条件に近づける。これにより、事前に学習を行う環境と、実際に認識を行う環境とで撮影条件が一致していない場合であっても、画像認識の精度を出来るだけ向上する
次に、図3を用いて本実施形態の情報処理装置の機能構成を説明する。図3の300は本実施形態の情報処理装置、110は画像を撮影する撮像装置を示す。情報処理装置300は、画像取得部310、撮影条件取得部320、画像変換部330、学習モデル保持部340、学習モデル取得部350、画像認識部360からなる。
So, in this embodiment, it uses for recognition processing based on the difference between the position and posture of the imaging device carried in the vehicle used for learning, and the position and posture of the imaging device carried in the vehicle used for recognition processing using a learning result The image is deformed geometrically to be close to the imaging condition of the image used for learning. As a result, the accuracy of image recognition is improved as much as possible even when the shooting conditions do not match between the environment in which learning is performed in advance and the environment in which recognition is actually performed. The functional configuration of the information processing apparatus of the embodiment will be described.
撮像装置110は、2次元の処理対象の画像を撮像するカメラである。ただし、カメラはカラーカメラのほかモノクロカメラでも良い。本実施形態では、このカメラは単眼のカラーカメラであり、撮影された画像はカラー画像であるとする。なお、撮像装置110は、図2でも説明したとおり、学習結果を使った認識処理を行う画像を撮影する。
The
画像取得部310は、撮像装置110から処理対象のカラー画像を入力され取得する。
The
撮影条件取得部320は、学習に用いられた画像の撮影条件(第1の撮影条件)と画像認識に用いる画像の撮影条件(第2の撮影条件)とを取得する。すなわち、撮像装置110の撮影条件と、学習に用いた異なる車両に取り付けられた図2の学習時の撮像装置210の撮影条件を取得する。なお、本実施形態において撮影条件とは、車両に搭載する撮像装置の位置と姿勢とする。(本実施形態では位置姿勢で位置と姿勢の両方を含むものとして説明する。)位置姿勢は予め設定した原点の座標系における位置姿勢とする。本実施形態では、車両に撮像装置を搭載した状態で、地面の位置を基準とした高さを位置の情報、水平面を基準とした角度を姿勢と考える。なお、位置姿勢は、位置姿勢を表わす情報であればどのようなものであっても良い。例えば、環境の世界座標系上における位置3自由度(X、Y、Z)と姿勢3自由度(Roll、Pitch、Yaw)との合計6自由度の位置姿勢パラメータであっても良い。
The imaging
撮像装置110と学習時の撮像装置210の内部パラメータ行列を既知とし、それぞれK1、K2とする。ここで、内部パラメータ行列とは、画像中心と焦点に関するパラメータを含む行列であり、事前にキャリブレーションを行うことでその値を取得しておくことができる。また、撮像装置の位置姿勢は、車両と撮像装置の配置に関わる設計情報から既知の情報として取得できるものとする。なお、この設計情報は記憶装置104に記憶してあるようにしても良いし、通信部106から受け取るようにしても良い。また、撮影条件は、記憶装置104といった記憶領域に記憶してあるものとし、そこから読みだすことで取得することができる。
The internal parameter matrix of the
撮影条件はこれ以外にも、撮像装置で撮影する際のズーム倍率を示す画像のズーム値、画角、色合いについての撮影条件に注目し変換を行っても良い。例えば、撮像条件の違いとして画角に注目する場合、撮影した画像のスケールを変換することになる。なお、撮影条件は撮像装置の設置場所や用途によって変えることができる。例えば、撮像装置は車両以外にも、監視カメラや作業用ロボットに搭載できる。その場合、撮像装置の位置姿勢は、同じく地面の位置を基準とした高さを位置の情報、水平面を基準とした角度を姿勢と考えても良いし、別途ユーザが指定する基準の座標系からの位置姿勢を考えても良い。 Besides the above, the imaging conditions may be converted by focusing attention on the imaging conditions for the zoom value of the image indicating the zoom magnification when imaging with the imaging device, the angle of view, and the hue. For example, when focusing on the angle of view as the difference in imaging conditions, the scale of the captured image is converted. The imaging conditions can be changed depending on the installation place and application of the imaging device. For example, the imaging device can be mounted on a surveillance camera or a work robot as well as a vehicle. In that case, the position and orientation of the image pickup apparatus may be considered to be the height based on the position of the ground as the position information, and the angle based on the horizontal surface as the attitude, or from the coordinate system of the reference separately designated by the user. You may consider the position and orientation of
画像変換部330は、画像認識処理時に撮影した画像の撮影条件と、学習時に用いた画像の撮影条件に基づいて画像変換を行う。すなわち、撮影条件取得部320で取得した撮像装置110の撮影条件と、学習時の撮像装置210の撮影条件に基づいて、画像取得部310で取得した画像111を画像112に幾何変換する。
The
学習モデル保持部340は、学習時の撮像装置210で撮影した画像を用いて学習した学習モデルとその学習モデルの撮影条件を保持する。なお、学習モデルの撮影条件とは、学習に用いられた代表的な画像の撮影条件を指す。代表的な画像は、学習に用いられた画像の平均的な画像を指す。本実施形態において学習モデルとは、学習画像から機械学習による認識結果を出力するニューラルネットワークに基づくネットワーク構造とそのパラメータである。なおネットワークの学習は具体的に、学習モデルの入力側の層に画像を設定し、出力画像の層に画像に対する正解値を設定し、ネットワークを経由して算出される出力が設定した正解値に近づくようにネットワークのパラメータを調整する処理を指す。本実施形態では、2次元の画像を学習モデルへの入力とし、学習モデルからは、この2次元の画像の個々の位置に対応させて距離情報が配列されている距離画像が出力されるものとする。この距離情報は、撮像装置からの奥行き情報で、撮像装置を原点としたカメラ座標における周囲の物体までの距離を表す。なお、2次元の画像から距離画像を推定する技術は公知であるので詳細な説明は省略する。非特許文献1では、2次元画像とその正解値としての距離画像とを用意して学習を行う。正解値としての距離画像は、別途LiDER、ToF等の距離センサで周囲を計測した計測情報を用意して取得しておくものとする。なお、学習モデルとは、ニューラルネットワークに基づくモデルのみならず、ランダムフォレストやサポートベクターマシンなど他の機械学習の手法に基づく学習モデルでも良い。また、画像に映っている所定の物体を認識するようにしても良い。その場合は、たとえば、画像から人物、移動体、車両、障害物といった物体のクラス・種類を認識するように、学習用の画像とその正解値(物体の形状、クラス、種類)を与えて学習を行う。
The learning
学習モデル取得部350は、学習モデル保持部340で保持する学習モデルと学習モデルの撮影条件を取得する。または、情報処理装置300の外部から学習モデルと学習モデルの撮影条件を取得する。具体的には、学習モデル保持部340が保持するニューラルネットワークとそのパラメータのデータを読み出す。
The learning
画像認識部360では、画像変換部330で変換した画像を入力として、撮像装置110で撮影された画像の画素または領域に対応する距離情報を出力結果として出力する。本実施形態では、入力画像から距離を推定し、距離情報を出力する。ここで認識処理は、本実施形態で述べたように距離画像の他、3次元点群データを推定しても良い。また、画像に映っている所定の物体を認識するようにしても良い。例えば、シーンに存在する人や物体の位置や種類を認識しても良い。車載の撮像装置を想定する場合、障害物、標識認識、走行領域、車両の位置や姿勢を認識しても良い。距離画像を推定する例と同様に、学習用の画像とその正解値(物体の形状、名前)を与えて学習を行うことで、学習モデルは生成できる。またいずれの方法であっても、画像変換部330の操作により、学習に用いた画像の撮影条件に合わせて画像を変換することで、認識の精度を向上させることができる。
The
次に、本実施形態の処理手順について説明する。図4は、情報処理装置で行われる処理手順を示すフローチャートである。以下、フローチャートは、CPUが制御プログラムを実行することにより実現されるものとする。以下の説明では、各工程(ステップ)について先頭にSを付けて表記することで、工程(ステップ)の表記を省略する。
Next, the processing procedure of this embodiment will be described. FIG. 4 is a flowchart showing a processing procedure performed by the information processing apparatus. Hereinafter, the flowchart is realized by the CPU executing the control program. In the following description, S is added to the beginning of each process (step) and described, and the description of the process (step) is omitted.
まず、S410において、学習モデル取得部350は学習モデル保持部340から学習モデルと学習モデルの撮影条件を取得する。
First, in S410, the learning
S420において、撮像装置110で撮影された画像を、画像取得部310が取得する。
In S420, the
S430において、撮影条件取得部320は、撮像装置110で撮影された画像の撮影条件と、学習モデルにおいて学習に用いられた画像の撮影条件を取得する。すなわち、撮像装置110の位置姿勢と、学習時の撮像装置210の位置姿勢を取得する。ここで、2つの撮像装置の相対的な位置姿勢の差は、撮像装置110を原点として、位置を3次元ベクトルt、姿勢を3行3列の回転行列Rとする。
In S430, the imaging
S440において、画像変換部330は、撮影条件取得部320で取得した撮影条件を撮影条件に近づけるように撮像装置110で撮影された画像を変換する。すなわち、撮像装置撮影条件と、学習時の撮像装置210の撮影条件に基づいて、画像取得部310で取得した画像を幾何変換する。本実施形態で説明する幾何変換とは、具体的にはホモグラフィ変換(射影変換)である。ただし、位置や回転など、一部の成分のみを変形させても良いし、アフィン変換でも良い。例えば、パノラマ撮影した画像の一部を切り取り、その一部を拡大縮小といった変換を加えても良い。
In step S440, the
まず、撮像装置110と学習時の撮像装置210の相対的な位置姿勢からホモグラフィ行列Hを計算する。撮像装置110と学習時の撮像装置210の内部パラメータ行列をそれぞれK1、K2とするとホモグラフィ行列は、次の式(1)で計算できる。
First, the homography matrix H is calculated from the relative position and orientation of the
ここで、dは撮像装置110を基準として仮定する平面の距離を表す数値であり、nは平面の法線ベクトルである。本実施形態では、dを概略的なシーンの距離値、nは撮像装置110に正対する方向として予め設定しておくものとする。なおTは行列の転置行列を表す記号である。
Here, d is a numerical value representing the distance of the plane assumed with reference to the
最後に、画像取得部310で取得した画像にホモグラフィ行列Hを適応し、画像を変形させる。この操作により、画像の幾何的な撮影条件を、学習時の撮影条件に近づけることができる。
Finally, the homography matrix H is applied to the image acquired by the
S450において、画像認識部360は、画像変換部330で変換した画像を入力として、撮像装置110で撮影された画像の画素に対応する距離情報を出力する。ここでは、学習モデル取得部350で取得した学習モデルを利用する。本実施形態における認識処理は、機械学習に基づく方法で画像から何か情報を認識する方法であればどのような方法でも良い。画像からシーンに存在する人や物体の位置や種類を認識しても良いし、車両の位置姿勢や制御値を認識しても良い。
In S450, the
S460では、システム終了の指定があるまで、S420からの処理を繰り返し実行する。システム終了の条件を満たすときはYESに進みシステムを終了する。システム終了の条件を満たさない場合はNOに進みS420に戻る。システム終了の条件は、例えば、自動車の自動運転を考えた場合、ユーザの入力をシステム終了のトリガとしても良い。ここでは、所定の時間でシステム終了する。 In S460, the processing from S420 is repeatedly executed until there is a designation of system termination. If the system termination condition is satisfied, the process proceeds to YES to terminate the system. If the system termination condition is not satisfied, the process proceeds to NO and returns to S420. The condition of the system termination may be, for example, the user's input as a trigger for the system termination when considering automatic driving of a car. Here, the system ends at a predetermined time.
以上述べたように、本実施形態では、学習に用いる画像の撮影条件と、認識処理時の撮影条件の違いによって、両者の撮影画像に発生する幾何学的な“ずれ”に注目し、認識処理に用いる画像を幾何的に変形させ、学習に用いる画像の撮影条件に近づける。これにより、画像の見え方を合わせることができるため、認識の精度を向上させることができる。 As described above, in the present embodiment, recognition processing is performed by focusing on geometric “misalignment” that occurs in both photographed images due to differences between the photographing conditions of the image used for learning and the photographing conditions during recognition processing. Geometrically deform the image used for the image to bring it close to the imaging conditions of the image used for learning. This makes it possible to match the appearance of the image, thereby improving the recognition accuracy.
(第1の実施形態の変形例1)
第1の実施形態では、画像の撮影条件として撮像装置の位置姿勢を考え、撮影条件取得部320では予め用意されている設計情報やキャリブレーション結果に基づいて撮像装置の位置と姿勢を取得する。しかし、撮像装置を車両に配置する場合、移動中の撮像装置の位置と姿勢は、路面の凹凸によって時系列的に連続的に上下に変動することがある。具体的には、撮像装置の位置(地面からの高さ)や、姿勢(水平面を基準とした角度)のパラメータが時間によって動的に変動する。この動的な変動に対応するため、撮影条件取得部320は、位置姿勢推定部510が時間sにおける撮像装置110の位置姿勢を推定した結果から撮影条件を随時更新する。もしくは別途車両に取り付けられたセンサによって車両の周囲を計測した計測情報から、撮影条件を随時更新するようにしても良い。これにより一定の時間間隔で撮影条件を更新し、時間によって変化する撮影条件の変化を画像変換に反映することができるため、認識の精度を向上させることができる。ここでは第1の実施形態との差分である、位置姿勢推定部510と撮影条件取得部320の処理について説明する。
(Modification 1 of the first embodiment)
In the first embodiment, the position and orientation of the imaging device are considered as the imaging condition of the image, and the imaging
位置姿勢推定部510は、所定の時間における画像の撮影条件(例えば撮像装置の位置)を推定する。位置姿勢推定部510が撮像装置110の位置や姿勢を推定する方法として、公知のSLAM(SIMULTANEOUS LOCALIZATION AND MAPPING)技術を用いる。ここで、SLAMとは、カメラで撮影する周辺の環境を認識すると同時に、自分自身の位置姿勢を精度よく推定する技術である。具体的な方法は前述の非特許文献1に開示されている。なお、SLAMでの車両の位置姿勢推定は、画像取得部110から取得した画像に基づいて行われても良いし、距離センサであるセンサ108の計測情報に基づいて行われても良い。距離センサは例えばLiDER、ToF等のアクティブ距離センサ、赤外線センサやステレオカメラでも良い。また、センサ108はGPSやジャイロセンサ等の位置センサや姿勢センサでも良い。上記のように撮像装置110やセンサ108によって計測された距離情報をSLAMに入力する方法が第1の推定方法である。また第2の推定方法として、位置姿勢推定部510は、画像認識部360で出力された距離画像を入力に用いて撮像装置の位置や姿勢を推定しても良い。
The position and
撮影条件取得部320は、位置姿勢推定部510で撮像装置110の位置や姿勢を推定した結果から撮影条件を更新する。また、センサ108が取得した位置姿勢に関する計測情報を撮像条件取得部320が直接取得し、更新するようにしても良い。その他、センサが計測可能な撮影条件(例えば周囲の明るさ)を更新するようにしても良い。
The imaging
この機能構成を有する情報処理装置では、例えば、学習用画像に揺れ等の動的な変化がない撮影条件である場合、画像変換部330は運転中の揺れを画像から除去するような画像変換を行う。このように、撮像装置の動的な変化に対応して、認識時の画像を変換することで、車両の揺れなどに対して安定した精度で画像の認識を行うことができる。
In the information processing apparatus having this functional configuration, for example, the
また、学習用画像の撮影に関しても、同様の操作を行うことで揺れを画像から除去しても良い。この操作により、学習用画像は一定の撮影条件における画像として設定できる。 Also, with regard to photographing of a learning image, the shaking may be removed from the image by performing the same operation. By this operation, the learning image can be set as an image under a constant imaging condition.
(第1の実施形態の変形例2)
第1の実施形態では、学習モデルが1つである場合を説明した。ここでは、複数の学習モデルを保持し、各学習モデルにおいて学習に用いた画像の撮影条件と認識処理に用いる画像の撮影条件が最も一致する学習モデルを選択することで、画像の劣化を抑え認識の性能を向上させる方法について説明する。
(Modification 2 of the first embodiment)
In the first embodiment, the case of one learning model has been described. Here, image degradation is suppressed and recognition is performed by holding a plurality of learning models and selecting a learning model that most closely matches the image shooting conditions used for learning in each learning model and the image shooting conditions used for recognition processing. The method of improving the performance of
学習時の画像と認識時の画像のそれぞれの撮影条件の差が大きいと変換後の画像の劣化が大きくなることがある。例えば、画像を幾何的に変換する場合、画像の不自然な歪みが発生することや、画像の位置をずらすことで認識すべき領域が枠の外にはみ出てしまう可能性がある。また、第2の実施形態説明するような画像の輝度を変換する場合、ノイズを増幅する場合がある。以上の理由から、認識処理に用いる画像の撮影条件と、学習に用いる画像の撮影条件の差はできるだけ小さい方が望ましい。なお、学習モデルは特定の撮影条件が異なるように複数作成しておく。例えば、学習に用いた画像の輝度が一定で、撮像装置の姿勢を変えて撮影した画像によって学習した学習モデルを用意する。 If the difference between the respective shooting conditions of the image at the time of learning and the image at the time of recognition is large, degradation of the image after conversion may be large. For example, when an image is geometrically transformed, unnatural distortion of the image may occur, or an area to be recognized may be out of the frame by shifting the position of the image. When converting the luminance of an image as described in the second embodiment, noise may be amplified. From the above reasons, it is desirable that the difference between the imaging condition of an image used for recognition processing and the imaging condition of an image used for learning be as small as possible. A plurality of learning models are created so that specific imaging conditions are different. For example, a learning model is prepared in which the brightness of the image used for learning is constant, and the posture of the imaging device is changed and learned using the image.
そこで、本実施形態では、学習時に複数の撮影条件において画像を撮影し、それぞれの撮影条件で学習を行った複数の学習モデルを準備する。認識処理の時点では、撮影した画像に、最も近い撮影条件の学習モデルを選択して取得することで、撮影条件の差を小さく抑える。これにより、認識の性能を向上させる。ここでは第1の実施形態との差分である、学習モデル保持部340と学習モデル取得部350の処理について説明する。
So, in this embodiment, an image is image | photographed on several imaging conditions at the time of learning, and the several learning model which learned on each imaging condition is prepared. At the time of recognition processing, the difference between the imaging conditions is reduced by selecting and acquiring the learning model of the imaging conditions closest to the captured image. This improves the recognition performance. Here, processing of the learning
学習モデル保持部340は、複数の撮影条件で撮影した画像に基づく複数の学習モデルとその撮影条件を保持する。第1の実施形態では1つの撮影条件において1つの学習モデルを構築した。これに対し、本変形例では、撮影条件を変えて複数の学習モデルを構築し、保持する。なお、本実施形態では、撮影条件は第1の実施形態と同じく撮像装置の位置姿勢とする。ただし、輝度など他の撮影条件を用いても良い。また、学習モデル保持部340は情報処理装置300の外部にあっても良い。その場合、情報処理装置300は外部と通信して複数の学習モデルを取得する。
The learning
機能構成とハードウエア構成は第1の実施形態同様である。ここでは第1の実施形態と手順が異なる部分について図4のフローチャートに基づいて説明する。 The functional configuration and the hardware configuration are the same as in the first embodiment. Here, parts different from the first embodiment in the procedure will be described based on the flowchart of FIG.
学習モデル取得部350は、図4におけるS410において、撮影条件取得部320で取得した認識に用いる撮像装置110の撮影条件に、最も一致する撮影条件に基づいて構築した学習モデルの撮影条件を選択し、学習モデル保持部340から取得する。学習モデル取得部350では、複数の学習モデルを取得し、画像変換部330で、撮影条件取得部320で取得した認識に用いる撮像装置の撮影条件に、最も一致する撮影条件を選択しても良い。本実施形態において、撮影条件の一致度は撮像装置の位置姿勢の差とする。例えば、学習時と認識時での撮像装置の位置姿勢を示すパラメータの差が最小となるような学習モデルを選択する。具体的には、撮像装置の高さの差や、姿勢の差を見て一致度を計算しても良い。画像の輝度を撮影条件とする場合は、画像全体または特徴部分の輝度が最も近い学習モデルを選択する。或いは屋外や室内といった撮影環境や、朝昼夜といった時間等の外的要因が最もあてはまる学習モデルを選択するようにしても良い。なお、S420以降は第1の実施形態と同様の手順で行う。
The learning
以上述べたように、複数の学習モデルを保持し、認識処理に用いる画像の撮影条件に最も一致する学習モデルを選択することで、画像変換における画像の劣化を抑えることができ、その結果画像認識の性能を向上させることができる。 As described above, by holding a plurality of learning models and selecting a learning model that most closely matches the shooting conditions of the image used for recognition processing, it is possible to suppress image deterioration in image conversion, and as a result, image recognition Performance can be improved.
(第2の実施形態)
本実施形態では、学習に用いる画像の撮影条件と、学習結果を使った認識処理に用いる画像の撮影条件の明るさの違いに注目する。
Second Embodiment
In the present embodiment, attention is paid to the difference between the imaging condition of an image used for learning and the brightness of the imaging condition of an image used for recognition processing using a learning result.
まず、画像の明るさの撮影条件の違いは、撮像装置の周辺の明るさや撮像装置固有のセンサの感度などの違いから発生する。また、屋外で撮像する場合は画像を撮影した時間帯や天候によっても、画像の明るさに違いが発生する。例えば、第1の実施形態のような車両に撮像装置を設置する場合、同じ場所でも日中と夜間で露光が変化することもあり、走行中はトンネルや駐車場で明るさが異なることもある。また、屋内で撮像する場合でも、学習時とまったく同じ照明条件で撮像することは難しい。例えば、工場や倉庫内を移動する作業用ロボット等である移動体は明るさの異なる空間を行き来するため、作業場所によって周辺の明るさが異なる。移動体の大きさによっては棚や机の下を通過ることもあるため、同じ空間内でも照明条件が異なる。このような違いを補正するため、本実施形態では、学習に用いる車両に搭載した撮像装置の画像の明るさと、学習結果を使った認識処理に用いる車両に搭載した撮像装置の画像の明るさの違いに基づいて、認識処理に用いる画像の輝度を変化させる。そして、学習に用いる画像の撮影条件に近づける。これにより、認識の精度を向上させる。 First, the difference in the shooting condition of the brightness of the image arises from the difference in the brightness around the image pickup apparatus, the sensitivity of the sensor unique to the image pickup apparatus, and the like. In the case of imaging outdoors, the brightness of the image also differs depending on the time zone in which the image was taken and the weather. For example, when the imaging device is installed in a vehicle as in the first embodiment, the exposure may change in the daytime and in the night even at the same place, and the brightness may differ in a tunnel or a parking lot while traveling. . Moreover, even when imaging indoors, it is difficult to image under the same illumination conditions as at the time of learning. For example, a mobile object such as a working robot moving in a factory or a warehouse moves in and out of a space with different brightness, so that the brightness of the surroundings varies depending on the work place. Depending on the size of the moving object, it may pass under the shelf or desk, so the lighting conditions are different even in the same space. In order to correct such a difference, in the present embodiment, the brightness of the image of the image pickup device mounted on the vehicle used for learning and the brightness of the image of the image pickup device mounted on the vehicle used for recognition processing using the learning result Based on the difference, the brightness of the image used for the recognition process is changed. Then, it approaches the shooting conditions of the image used for learning. This improves the accuracy of recognition.
まず、本実施形態におけるハードウエア構成は、第1の実施形態と同様である。次に、図3を用いて本実施形態の情報処理装置の機能構成について説明する。本実施形態のモジュール構成は、第1の実施形態のモジュール構成と同じである。ただし、撮影条件取得部320と画像変換部330の処理は、撮影条件を画像の明るさとして、処理の内容は異なる。以下、第1の実施形態との差分を説明する。
First, the hardware configuration in the present embodiment is the same as that in the first embodiment. Next, the functional configuration of the information processing apparatus of the present embodiment will be described using FIG. The module configuration of the present embodiment is the same as the module configuration of the first embodiment. However, the processing of the photographing
撮影条件取得部320は、画像認識に用いる画像の撮影条件と学習に用いられた画像の撮影条件を取得する。すなわち、撮影条件として、撮像装置110の明るさに関する情報と、学習に用いた異なる車両に取り付けられた図1の学習時の撮像装置210の明るさに関する情報とを取得する。なお、本実施形態において撮影条件である明るさに関する情報とは、車両に搭載する撮像装置が撮影した画像の明るさの度合いとする。さらに、明るさの度合いとは、画像の輝度値の平均値とする。また、学習に用いた撮像画像が撮影した画像の輝度値の平均値は予め計算しておくものとする。また、画像から得る輝度情報だけではなく、外部情報を明るさ度合に関わる変数として取り入れても良い。具体例としては、時刻、天候、照明の強さ、照明の数、照明の色といった情報を量的に扱う。また、明るさに関する情報としてに照明センサ等によって周囲の明るさを計測した計測情報を使っても良い。
The imaging
画像変換部330は、画像認識時に撮影した画像の撮影条件と、学習時に用いた画像の撮影条件に基づいて画像変換を行う。すなわち、撮影条件取得部320で取得した撮像装置110の撮影条件と、学習時の撮像装置210の撮影条件に基づいて、画像取得部310で取得した画像に輝度値の変換を加える。本実施形態では、撮影条件を画像の明るさの度合いとし、その比に基づいて画像の輝度値の変換を行う。なお、本実施形態における撮影条件取得部220と画像変換部330は、画像の全体としての明るさの度合いを撮影条件として取得し、その比率に基づいて画像の輝度値を変換する。ここで、撮影条件取得部220で取得する明るさの度合いは、画像の全体に注目しても良いし、画像をいくつかに分割しその各部について明るさを計量しても良い。同じく画像変換部330における輝度値の変換も、画像の各部の明るさの度合いに応じて輝度値を変換しても良い。また、変換は輝度変換だけするのではなく、第1の実施形態で行った幾何変換や他の変換とともに実施しても良い。
The
次に、本実施形態の処理手順について説明する。処理の順序は、第1の実施形態と同じであるが、S430、S440における撮影条件取得部320と画像変換部330の処理内容が異なる。ここでは、S430とS440における処理の内容を説明する。
Next, the processing procedure of this embodiment will be described. Although the order of the processing is the same as that of the first embodiment, the processing contents of the imaging
S430では、撮影条件取得部320が、撮像装置110で撮影された画像の撮影条件と、学習モデルにおいて学習に用いられた画像の撮影条件を取得する。すなわち、学習に用いた画像の撮影を行う異なる車両に取り付けられた図1の学習時の撮像装置210で撮影した画像の明るさの度合いV1と、撮像装置110で撮影した画像の明るさの度合いV2を取得する。まず、撮像装置110で撮影した画像についての明るさの度合いV2は、画像取得部310で取得した画像の輝度値の平均値を得ることで算出する。次に、学習時の明るさの度合いV1は、予め計算しておいた輝度値の平均値を取得する。また、明るさの度合いの比率をS=V1/V2と定義する。
In S430, the imaging
これ以外にも、明るさの計量方法として、例えば季節や時刻に基づいて算出しても良い。環境の明るさは時刻と相関があるため、例えば昼はS=1、夕方はS=2、夜はS=10の様に、想定される環境の明るさに応じて明るさの度合いの比率を設定しても良い。また、センサ108で計測した明るさ情報を用いても良い。
In addition to this, the brightness may be calculated based on, for example, the season or time. Since the brightness of the environment is correlated with the time, for example, S = 1 for day, S = 2 for evening, S = 10 for night, etc., the ratio of the degree of brightness according to the expected brightness of the environment You may set it. Alternatively, brightness information measured by the
S440では、画像変換部330が、撮影条件取得部320で取得した撮像装置110の画像の明るさの度合いと、学習時の撮像装置210の画像の明るさの度合いに基づいて、画像取得部210で取得した画像に輝度変換を加える。
In S440, the
ここでは、2つの撮影条件の明るさの度合いの比率Sに基づいて、画像取得部210で取得した画像の各画素の輝度値を変換する。具体的には、各画素の輝度値にSを掛ける。この操作により、画像の明るさについての撮影条件を、学習時の画像の撮影条件に近づけることができる。なお、複数の撮影条件を補正するように画像を変換しても良い。例えば位置姿勢についての撮影条件の変換を行った後、さらに明るさについての撮影条件の変換を行っても良い。
Here, the luminance value of each pixel of the image acquired by the
以上述べたように、本実施形態では、学習に用いる画像の撮影条件と、学習結果を使った認識処理を行う画像の撮影条件の明るさの違いに注目し、認識処理に用いる画像の輝度値を変化させ、学習に用いる画像の撮影条件に近づける。これにより、画像の見え方を合わせることができるため、認識の精度を向上させることができる。 As described above, in the present embodiment, the brightness value of the image used for the recognition process is focused on the difference between the image shooting condition of the image used for learning and the brightness of the image capturing condition for performing the recognition process using the learning result. To approximate the shooting conditions of the image used for learning. This makes it possible to match the appearance of the image, thereby improving the recognition accuracy.
(第3の実施形態)
本実施形態では、第1及び第2の実施形態における認識結果を、車両の自動運転に利用する例について説明する。なお、ここでいう自動運転とは人による(運転制御)操作を基本的に必要とせず、情報処理装置やシステムが車両や移動体等の移動装置の運動を制御する技術を指す。画像認識の精度が向上すると、自動運転における実測スケールでの距離計測や標識認識等に適用できる。ここでは具体例として、撮影した画像の認識結果に基づいて、現在の車両の位置姿勢を特定することで車両の運転制御を行う。なお、車両以外にも移動装置は、ドローン、作業用ロボット、運搬用ロボットといった移動ロボットの自動運転制御にも本実施形態を適用できる。陸上を歩行・走行する車両やロボットの他、空中を飛行して移動するものや、水上を移動するもの、水中を潜水して移動する移動体に適用しても良い。
Third Embodiment
In the present embodiment, an example in which the recognition results in the first and second embodiments are used for automatic driving of a vehicle will be described. Here, the term “automatic driving” as used herein refers to a technology in which an information processing apparatus or system controls the movement of a moving apparatus such as a vehicle or a moving object without basically requiring a human (driving control) operation. When the accuracy of image recognition is improved, it can be applied to distance measurement and marker recognition on a measured scale in automatic driving. Here, as a specific example, the driving control of the vehicle is performed by specifying the current position and orientation of the vehicle based on the recognition result of the captured image. In addition to the vehicle, the moving apparatus can also apply the present embodiment to automatic operation control of a mobile robot such as a drone, a work robot, or a transport robot. The present invention may be applied to a vehicle or robot walking on or traveling on land, a device moving in the air, a device moving on the water, a moving object diving in the water and moving.
まず、本実施形態のモジュール構成について説明する。本実施形態のモジュール構成は、第1及び第2の実施形態における図3のモジュール構成に加え、図6に示すように位置姿勢推定部610、運転制御部620、アクチュエータ部630を持つ。また、これらのモジュールは、図7に示すように車両100に搭載されており、撮像装置110で撮影した画像に基づいて処理を行う。ここで、本実施形態では第1または第2の実施形態と同様に、画像認識部360は距離画像を出力結果として出力するものとする。なお、必要に応じて画像認識部360は障害物検知、標識認識や走行領域認識を出力結果として出力しても良い。
First, the module configuration of the present embodiment will be described. The module configuration of the present embodiment has a position and
位置姿勢推定部610は、車両100の目的地の座標である地図情報の座標系における車両100(または撮像装置110)の位置や姿勢を推定する。本実施形態では、画像認識部360で認識した距離情報を地図情報における座標に変換した距離情報に基づいて前記移動装置の位置を推定する。画像や距離画像から車両または撮像装置の位置や姿勢を推定する方法としては、公知のSLAMが挙げられる。本実施形態では、画像認識部360が出力する距離画像に基づいて、車両100の位置または姿勢を推定するものとする。ここで、車両100と撮像装置110の相対的な位置と姿勢の関係は既知とすると、撮像装置110の位置姿勢から車両100の位置姿勢を算出できる。すなわち、位置姿勢推定部610は車両100の位置姿勢を推定することができる。なお、別途GPSやジャイロセンサ等の位置センサや姿勢センサを搭載しておき、その計測情報に基づいて世界座標における車両100の位置姿勢を取得しても良い。また、撮像装置110で撮影した画像やセンサ108で計測した距離情報から車両100の位置や姿勢を推定しても良い。なお、位置姿勢推定部610は情報処理装置300に含まれても良いし、移動装置本体や車両の運転制御装置に組み込まれていても良い。なお、車両100には予め地図情報を記憶部に保存しているか、通信部によって周辺の地図情報を取得できるようになっているものとする。
The position and
運転制御部620は、前記移動装置を前記目的地に移動させる制御値を算出する。すなわち、位置姿勢推定部610における車両100の位置姿勢の推定結果と、画像認識部360の学習モデルを使った認識結果の少なくとも一方に基づいて、車両を移動させる方向、加速度といった制御値を算出する。或いは、人がアクセルを踏む操作やハンドルを回転させる操作に相当する制御のパラメータを算出する。ここでは、車両の位置姿勢から制御値を算出する具体的な方法として、地図上に設定した目的地まで車両を自動運転する例について説明する。アクチュエータ部630は、運転制御部620から出力する制御値に基づいて、車両の各機構(車輪のトルクや方向など)を動かし運転を行う。
The
図8は、情報処理システムの処理手順を示すフローチャートである。以下、第1の実施形態との差を中心に説明する。初期設定として、現在の車両の位置の座標と目的地を示す地図情報をGPS等で取得する。あとに述べる位置姿勢推定部610の処理は、この座標を基準とした位置姿勢を推定するものとする。S810では、撮像装置110が車両100の周辺を撮影する。S820では、情報処理装置300の画像取得部310が、S810で撮影された処理対象の画像を入力されて、処理対象の画像を取得する。S830では、学習モデル取得部350が学習モデルと学習時の画像の撮影条件を取得する。学習モデル取得部350では、複数の学習モデルを取得し、画像変換部330で、撮影条件取得部320で取得した認識に用いる撮像装置の撮影条件に、最も一致する撮影条件を選択しても良い。このとき、S840で取得する撮影条件の情報に基づいて学習モデル保持部が保持する複数の学習モデルから適した学習モデルを取得するようにしても良い。S840では、撮像条件取得部320が、撮像装置110で撮影された画像の撮影条件と、学習モデルにおいて学習に用いられた画像の撮影条件を取得する。S850では、画像変換部330が、処理対象の画像の撮影条件を学習に用いた画像の撮影条件に近づけるように、撮像装置110で撮影された画像を変換する。S860では、画像認識部360は、画像変換部330で変換した画像を入力として、撮像装置110で撮影された画像の画素または領域に対応する距離情報を出力結果として出力する。この距離情報は、撮像装置からの奥行き情報で、撮像装置を原点としたカメラ座標における周囲の物体までの距離を表す。
FIG. 8 is a flowchart showing the processing procedure of the information processing system. Hereinafter, differences from the first embodiment will be mainly described. As initial setting, GPS information or the like is obtained by using GPS or the like to indicate coordinates of the current position of the vehicle and a destination. The processing of the position and
S870では、位置姿勢推定部610が、S860で得られた出力結果をもとに車両100の自己位置推定を行う。S850の出力結果である距離情報をカメラ座標から地図座標もしくは世界座標に変換し、地図情報における車両100の位置を推定する。自己位置推定の方法としては、SLAMやそれ以外の方法を使っても良い。
In S870, position and
S880では、移動装置にある運転制御部620が、位置姿勢推定部610で推定された車両100の位置と地図情報に基づいてスタート地点から目的地に向かうルートを計算する。なお、車両100には予め目的地の座標を示す地図情報を記憶部に保存しているか、通信部によって周辺の地図を取得できるようになっているものとする。また、SLAM(SIMULTANEOUS LOCALIZATION AND MAPPING)の技術を用いて随時周辺の地図を作成しながらルート探索するようにしても良い。次に、そのルートをたどるための制御値を算出し、アクチュエータ部630を介して車両の自動運転を行う。なお、自動運転中に変化する車両の位置姿勢を、常に位置姿勢推定部610で推定し、制御値を更新することで精度の高い自動運転を実現できる。また、位置姿勢推定部610は情報処理装置300が出力する距離画像に基づいて、道路上に存在する凸凹や障害物の存在を検知し、運転制御部620は車両のスピードを緩める制御や停止の制御を自動的に選択できる。具体的には加速度や進行方向を制御値として算出する。アクチュエータ部630は、運転制御部620から出力する制御値に基づいて、車両の各機構(車輪のトルクや方向など)を動かし運転を行う。
In S880, the
S890では、運転制御部620が、車両100が目的地に到着したときにシステムを終了する。S870で位置姿勢推定部610が、目的地と車両100の距離が一定の値以下である場合は、運転制御部620が、目的地に到着したと判断する。目的地に到着していない場合はS810に戻る。システム終了の合図はこれ以外にも人間側の操作によって指示したりするようにしても良い。
In S890, the
以上述べたように、本実施形態では、撮影した画像の認識結果に基づいて、現在の車両の位置姿勢を精度よく特定できる。これにより、認識結果に基づく車両の制御においてもその精度を向上させることができる。 As described above, in the present embodiment, the current position and orientation of the vehicle can be identified with high accuracy based on the recognition result of the photographed image. Thereby, the accuracy can be improved also in the control of the vehicle based on the recognition result.
(その他の実施形態)
第1及び第2の実施形態では、撮影条件として撮像装置の位置姿勢や明るさに注目し、画像の変換を行う方法について説明した。撮影条件としては、これ以外にも、画像のズーム値や画角、色合いについての撮影条件に注目し変換を行っても良い。
(Other embodiments)
In the first and second embodiments, a method has been described in which the image conversion is performed by focusing on the position and orientation and the brightness of the imaging device as the imaging conditions. As the shooting conditions, conversion may be performed by paying attention to the zoom value of the image, the angle of view, and the shooting conditions for the color tone other than this.
例えばズーム値に注目する場合、学習に用いた画像のズーム値に合わせて、認識処理に用いる画像を拡大或いは縮小することで、撮影条件を合わせることができる。また、色合いに注目する場合、学習に用いた画像の色合いとしてRGBの値の比率を取得し、認識処理に用いる画像のRGBの値の比率を変化させることで、撮影条件を合わせることができる。また、学習に用いた画像と認識処理に用いる画像のセンサとしてチャンネルの違いがある場合、(カラー画像とモノクロの濃淡画像、赤外画像など)その違いを補正する変換を加えても良い。認識処理に用いるの撮像装置110の画角は、学習に用いる撮像装置210の画角より広く設定しても良い。例えば、撮像条件の違いとして画角に注目する場合、撮影した画像のスケールを変換することになる。画角を広くすることで、画像変換部330において画像の位置や角度を変換するときに発生する画像の位置をずらすことで認識すべき領域が枠の外にはみ出てしまう見切れ部分を抑えることができる。
For example, when focusing on the zoom value, the imaging conditions can be matched by enlarging or reducing the image used for the recognition processing in accordance with the zoom value of the image used for learning. In addition, in the case of focusing on the color, the photographing condition can be matched by acquiring the ratio of RGB values as the color of the image used for learning and changing the ratio of the RGB values of the image used for recognition processing. In addition, when there is a difference between channels as a sensor of an image used for learning and an image used for recognition processing, a conversion for correcting the difference (such as a color image and a monochrome gray-scale image, an infrared image) may be added. The angle of view of the
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供しても良い。 The present invention is also realized by performing the following processing. That is, software (program) for realizing the functions of the above-described embodiments is supplied to a system or apparatus via a network for data communication or various storage media. Then, the computer (or CPU or MPU or the like) of the system or apparatus reads out and executes the program. Alternatively, the program may be provided by being recorded on a computer readable recording medium.
100 認識実行時の車両
110 撮像装置
200 学習時の車両
210 撮像装置
300 情報処理装置
310 画像取得部
320 撮影条件取得部
330 画像変換部
340 学習モデル保持部
350 学習モデル取得部
360 画像認識部
100
Claims (17)
学習モデルを生成する際に用いる画像が撮影された撮影条件を取得する第1取得手段と、
処理対象の撮影画像を撮像装置から入力する入力手段と、
前記処理対象の撮影画像が撮影された撮影条件を取得する第2取得手段と、
前記第1および第2取得手段で取得した撮影条件に基づいて、前記処理対象の撮影画像を変換する変換手段と、
前記学習モデルに基づいて、前記変換された画像に対応する出力結果を出力する出力手段とを備えることを特徴とする情報処理装置。 An information processing apparatus that outputs an output result corresponding to an input captured image based on a learning model,
A first acquisition unit configured to acquire imaging conditions under which an image used when generating a learning model is acquired;
An input unit for inputting a photographed image to be processed from the imaging apparatus;
A second acquisition unit configured to acquire a photographing condition under which the photographed image to be processed is photographed;
Conversion means for converting the photographed image to be processed based on the photographing conditions acquired by the first and second acquisition means;
An information processing apparatus comprising: output means for outputting an output result corresponding to the converted image based on the learning model.
前記第2取得手段は、前記第1推定手段の推定結果に基づいて前記第2取得手段で取得された撮影条件を更新し、
前記変換手段は、更新された前記撮影条件と前記第1取得手段で取得した撮影条件とに基づいて前記処理対象の撮影画像を変換することを特徴とする請求項2に記載の情報処理装置。 The apparatus further comprises a first estimation unit that estimates the position of the imaging device based on the distance information measured by the sensor.
The second acquisition unit updates the imaging condition acquired by the second acquisition unit based on the estimation result of the first estimation unit.
The information processing apparatus according to claim 2, wherein the conversion unit converts the photographed image to be processed based on the updated photographing condition and the photographing condition acquired by the first acquisition unit.
前記第2取得手段は、前記第2推定手段の推定結果を前記第2取得手段で取得された撮影条件として更新することを特徴とする請求項1または2に記載の情報処理装置。 A second estimation unit configured to estimate the position of the imaging device based on distance information among the output results;
The information processing apparatus according to claim 1, wherein the second acquisition unit updates the estimation result of the second estimation unit as the photographing condition acquired by the second acquisition unit.
前記第2取得手段は、前記第1推定手段の推定結果を前記第2取得手段で取得された撮影条件として更新することを特徴とする請求項3に記載の情報処理装置。 The first estimation means estimates the position of the imaging device based on the image captured by the imaging device,
4. The information processing apparatus according to claim 3, wherein the second acquisition unit updates the estimation result of the first estimation unit as the imaging condition acquired by the second acquisition unit.
前記第2取得手段は、前記第1推定手段の推定結果を前記第2取得手段で取得された撮影条件として更新することを特徴とする請求項3に記載の情報処理装置。 The first estimation means estimates the position of the imaging device based on the measurement information;
4. The information processing apparatus according to claim 3, wherein the second acquisition unit updates the estimation result of the first estimation unit as the imaging condition acquired by the second acquisition unit.
前記出力手段は、前記変換された画像と前記学習モデルに基づいて前記変換された画像に含まれる前記物体を認識して出力することを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。 Learning is performed to output an object included in the input captured image from the captured image input when generating the learning model,
The said output means recognizes and outputs the said object contained in the said converted image based on the said converted image and the said learning model, It is characterized by the above-mentioned. Information processing equipment.
前記出力手段は、前記変換された画像と前記学習モデルに基づいて前記変換された画像の画素または領域に対応する距離情報を出力することを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。 The learning is performed to output distance information corresponding to the pixel or the region of the input photographed image from the photographed image input when generating the learning model,
The output means outputs distance information corresponding to a pixel or a region of the converted image based on the converted image and the learning model. Information processor as described.
入力画像から当該入力画像の画素または領域に対応する少なくとも距離情報を出力するよう学習された学習モデルにおける学習に用いられた画像の第1の撮影条件と、前記撮像装置の位置または姿勢と、前記画像を撮影する際の明るさに関する情報との少なくとも1つを撮影条件として含む、前記画像における第2の撮影条件とを取得する撮影条件取得手段と、
前記第1の撮影条件と前記第2の撮影条件とに基づいて前記撮像装置によって撮影された画像を変換する変換手段と、
前記変換手段によって変換された画像と前記学習モデルとに基づいて前記変換された画像の画素または領域に対応する少なくとも距離情報を出力する認識手段とを備えることを特徴とする情報処理装置。 An image acquisition unit that acquires an image captured by an imaging device;
A first imaging condition of an image used for learning in a learning model learned to output at least distance information corresponding to a pixel or a region of the input image from the input image, a position or a posture of the imaging device, A photographing condition acquisition unit that acquires, as a photographing condition, at least one of information regarding brightness when photographing an image, and a second photographing condition in the image;
Conversion means for converting an image captured by the imaging device based on the first imaging condition and the second imaging condition;
An information processing apparatus, comprising: recognition means for outputting at least distance information corresponding to a pixel or a region of the converted image based on the image converted by the conversion means and the learning model.
入力画像に対応する出力結果を出力するよう学習された学習モデルにおける学習に用いられた画像の第1の撮影条件と前記撮像装置によって撮影された画像の第2の撮影条件とを取得する撮影条件取得手段と、
前記第1の撮影条件と前記第2の撮影条件とに基づいて前記撮像装置によって撮影された画像を変換する変換手段と、
前記学習モデルに基づいて、前記変換手段によって変換された画像に対応する出力結果を出力する認識手段とを備えることを特徴とする情報処理装置。 An image acquisition unit that acquires an image captured by an imaging device;
A photographing condition for acquiring a first photographing condition of an image used for learning in a learning model learned to output an output result corresponding to an input image and a second photographing condition of an image photographed by the imaging device Acquisition means,
Conversion means for converting an image captured by the imaging device based on the first imaging condition and the second imaging condition;
An information processing apparatus, comprising: recognition means for outputting an output result corresponding to the image converted by the conversion means based on the learning model.
学習モデルに基づいて、入力された撮影画像に対応する出力結果を出力する情報処理装置は、
学習モデルを生成する際に用いる画像が撮影された撮影条件を取得する第1取得手段と、
処理対象の撮影画像を撮像装置から入力する入力手段と、
前記処理対象の撮影画像が撮影された撮影条件を取得する第2取得手段と、
前記第1および第2取得手段で取得した撮影条件に基づいて、前記処理対象の撮影画像を変換する変換手段と、
前記学習モデルに基づいて、前記変換された画像に対応する出力結果を出力する出力手段とを備え、
前記移動装置は、
前記出力結果のうちの距離情報を前記地図情報における座標に変換した距離情報に基づいて前記移動装置の少なくとも位置を推定する位置推定手段と、
前記移動装置の位置と前記地図情報に基づいて前記移動装置を前記目的地に移動させる制御値で制御する制御手段とを備えることを特徴とする情報処理システム。 An information processing system comprising: a moving device that moves based on map information indicating a destination, an imaging device mounted on the moving device, and an information processing device,
An information processing apparatus that outputs an output result corresponding to an input captured image based on a learning model is:
A first acquisition unit configured to acquire imaging conditions under which an image used when generating a learning model is acquired;
An input unit for inputting a photographed image to be processed from the imaging apparatus;
A second acquisition unit configured to acquire a photographing condition under which the photographed image to be processed is photographed;
Conversion means for converting the photographed image to be processed based on the photographing conditions acquired by the first and second acquisition means;
And output means for outputting an output result corresponding to the converted image based on the learning model.
The moving device is
Position estimation means for estimating at least the position of the mobile device based on distance information obtained by converting distance information in the output result into coordinates in the map information;
An information processing system comprising: control means for controlling the movement device to a destination based on the position of the movement device and the map information.
前記情報処理装置は、
前記撮像装置によって撮影された画像を取得する画像取得手段と、
入力画像から当該入力画像の画素または領域に対応する少なくとも距離情報を出力するよう学習された学習モデルにおける学習に用いられた画像の第1の撮影条件と、前記撮像装置の位置または姿勢と、前記画像を撮影する際の明るさに関する情報との少なくとも1つを撮影条件として含む、前記画像における第2の撮影条件とを取得する撮影条件取得手段と、
前記第1の撮影条件と前記第2の撮影条件とに基づいて前記撮像装置によって撮影された画像を変換する変換手段と、
前記画像変換手段によって変換された画像と前記学習モデルとに基づいて前記変換された画像の画素または領域に対応する前記撮像装置からの奥行き情報である距離情報を出力する認識手段とを備え、
前記移動装置は、
前記距離情報を前記地図情報における座標に変換した距離情報に基づいて前記移動装置の少なくとも位置を推定する位置推定手段と、
前記移動装置の位置と前記地図情報に基づいて前記移動装置を前記目的地に移動させる制御値で制御する制御手段とを備えることを特徴とする情報処理システム。 An information processing system comprising: a moving device that moves based on map information indicating a destination, an imaging device mounted on the moving device, and an information processing device,
The information processing apparatus is
An image acquisition unit that acquires an image captured by the imaging device;
A first imaging condition of an image used for learning in a learning model learned to output at least distance information corresponding to a pixel or a region of the input image from the input image, a position or a posture of the imaging device, A photographing condition acquisition unit that acquires, as a photographing condition, at least one of information regarding brightness when photographing an image, and a second photographing condition in the image;
Conversion means for converting an image captured by the imaging device based on the first imaging condition and the second imaging condition;
Recognition means for outputting distance information which is depth information from the imaging device corresponding to a pixel or a region of the image converted based on the image converted by the image conversion means and the learning model;
The moving device is
Position estimation means for estimating at least the position of the mobile device based on distance information obtained by converting the distance information into coordinates in the map information;
An information processing system comprising: control means for controlling the movement device to a destination based on the position of the movement device and the map information.
学習モデルを生成する際に用いる画像が撮影された撮影条件を取得する第1取得工程と、
処理対象の撮影画像を撮像装置から入力する入力工程と、
前記処理対象の撮影画像が撮影された撮影条件を取得する第2取得工程と、
前記第1および第2取得手段で取得した撮影条件に基づいて、前記処理対象の撮影画像を変換する変換工程と、
前記学習モデルに基づいて、前記変換された画像に対応する出力結果を出力する出力工程とを備えることを特徴とする情報処理方法。 An information processing method for outputting an output result corresponding to an input photographed image based on a learning model,
A first acquisition step of acquiring imaging conditions under which an image used to generate a learning model is captured;
An input step of inputting a photographed image to be processed from the imaging device;
A second acquisition step of acquiring a photographing condition under which the photographed image to be processed is photographed;
A conversion step of converting the photographed image to be processed based on the photographing conditions acquired by the first and second acquisition means;
An output step of outputting an output result corresponding to the converted image based on the learning model.
入力画像に対応する出力結果を出力するよう学習された学習モデルにおける学習に用いられた画像の第1の撮影条件と前記撮像装置によって撮影された画像の第2の撮影条件とを取得する撮影条件取得工程と、
前記第1の撮影条件と前記第2の撮影条件とに基づいて前記撮像装置によって撮影された画像を変換する変換工程と、
前記学習モデルに基づいて、前記変換手段によって変換された画像に対応する出力結果を出力する認識工程とを備える情報処理方法。 An image acquisition step of acquiring an image captured by the imaging device;
A photographing condition for acquiring a first photographing condition of an image used for learning in a learning model learned to output an output result corresponding to an input image and a second photographing condition of an image photographed by the imaging device Acquisition process,
A conversion step of converting an image captured by the imaging device based on the first imaging condition and the second imaging condition;
A recognition step of outputting an output result corresponding to the image converted by the conversion means based on the learning model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018004555A JP2019125116A (en) | 2018-01-15 | 2018-01-15 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018004555A JP2019125116A (en) | 2018-01-15 | 2018-01-15 | Information processing device, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019125116A true JP2019125116A (en) | 2019-07-25 |
Family
ID=67399512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018004555A Pending JP2019125116A (en) | 2018-01-15 | 2018-01-15 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019125116A (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021026302A (en) * | 2019-07-31 | 2021-02-22 | キヤノン株式会社 | Information processing apparatus, information processing method, and program |
WO2021033242A1 (en) * | 2019-08-19 | 2021-02-25 | 株式会社ソニー・インタラクティブエンタテインメント | Image recognition device, image recognition method, and image recognition program |
JP2021089493A (en) * | 2019-12-02 | 2021-06-10 | キヤノン株式会社 | Information processing apparatus and learning method thereof |
JP2021117130A (en) * | 2020-01-28 | 2021-08-10 | アルパイン株式会社 | Device and method for estimating three-dimensional position |
JP2022103149A (en) * | 2020-12-25 | 2022-07-07 | 日本電気株式会社 | Image processing method and computing device |
WO2022209301A1 (en) * | 2021-03-31 | 2022-10-06 | 学校法人明治大学 | Information processing device, information processing method, and program |
WO2022239689A1 (en) * | 2021-05-13 | 2022-11-17 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Training method, training device, and program |
WO2023281647A1 (en) * | 2021-07-07 | 2023-01-12 | 株式会社Subaru | Machine learning device |
US11842466B2 (en) | 2020-09-16 | 2023-12-12 | Canon Kabushiki Kaisha | Information processing device and information processing method |
JP7474137B2 (en) | 2020-06-30 | 2024-04-24 | キヤノン株式会社 | Information processing device and control method thereof |
WO2024095434A1 (en) * | 2022-11-04 | 2024-05-10 | 富士通株式会社 | Image processing program, image processing method, detection program, detection method, and information processing device |
JP7525220B2 (en) | 2020-04-08 | 2024-07-30 | 日本電気通信システム株式会社 | Estimation device, learning device, estimation method, and program |
-
2018
- 2018-01-15 JP JP2018004555A patent/JP2019125116A/en active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021026302A (en) * | 2019-07-31 | 2021-02-22 | キヤノン株式会社 | Information processing apparatus, information processing method, and program |
JP7358108B2 (en) | 2019-07-31 | 2023-10-10 | キヤノン株式会社 | Information processing device, information processing method and program |
JPWO2021033242A1 (en) * | 2019-08-19 | 2021-12-16 | 株式会社ソニー・インタラクティブエンタテインメント | Image recognition device, image recognition method, and image recognition program |
JP7177280B2 (en) | 2019-08-19 | 2022-11-22 | 株式会社ソニー・インタラクティブエンタテインメント | Image recognition device, image recognition method, and image recognition program |
WO2021033242A1 (en) * | 2019-08-19 | 2021-02-25 | 株式会社ソニー・インタラクティブエンタテインメント | Image recognition device, image recognition method, and image recognition program |
JP7398938B2 (en) | 2019-12-02 | 2023-12-15 | キヤノン株式会社 | Information processing device and its learning method |
JP2021089493A (en) * | 2019-12-02 | 2021-06-10 | キヤノン株式会社 | Information processing apparatus and learning method thereof |
JP2021117130A (en) * | 2020-01-28 | 2021-08-10 | アルパイン株式会社 | Device and method for estimating three-dimensional position |
JP7337458B2 (en) | 2020-01-28 | 2023-09-04 | アルパイン株式会社 | 3D position estimation device and 3D position estimation method |
JP7525220B2 (en) | 2020-04-08 | 2024-07-30 | 日本電気通信システム株式会社 | Estimation device, learning device, estimation method, and program |
JP7474137B2 (en) | 2020-06-30 | 2024-04-24 | キヤノン株式会社 | Information processing device and control method thereof |
US11842466B2 (en) | 2020-09-16 | 2023-12-12 | Canon Kabushiki Kaisha | Information processing device and information processing method |
JP2022103149A (en) * | 2020-12-25 | 2022-07-07 | 日本電気株式会社 | Image processing method and computing device |
JP7347492B2 (en) | 2020-12-25 | 2023-09-20 | 日本電気株式会社 | Image processing method and computing device |
WO2022209301A1 (en) * | 2021-03-31 | 2022-10-06 | 学校法人明治大学 | Information processing device, information processing method, and program |
WO2022239689A1 (en) * | 2021-05-13 | 2022-11-17 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Training method, training device, and program |
WO2023281647A1 (en) * | 2021-07-07 | 2023-01-12 | 株式会社Subaru | Machine learning device |
WO2024095434A1 (en) * | 2022-11-04 | 2024-05-10 | 富士通株式会社 | Image processing program, image processing method, detection program, detection method, and information processing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019125116A (en) | Information processing device, information processing method, and program | |
JP6768156B2 (en) | Virtually enhanced visual simultaneous positioning and mapping systems and methods | |
WO2019138678A1 (en) | Information processing device, control method for same, program, and vehicle driving assistance system | |
US11474247B2 (en) | Methods and systems for color point cloud generation | |
JP5926228B2 (en) | Depth detection method and system for autonomous vehicles | |
Varga et al. | Super-sensor for 360-degree environment perception: Point cloud segmentation using image features | |
CN105352509B (en) | Unmanned plane motion target tracking and localization method under geography information space-time restriction | |
US11887336B2 (en) | Method for estimating a relative position of an object in the surroundings of a vehicle and electronic control unit for a vehicle and vehicle | |
JP2017005380A (en) | Control device, imaging device, control method, program and storage medium | |
JP2016516977A (en) | Generating a 3D model of the environment | |
JP2006252473A (en) | Obstacle detector, calibration device, calibration method and calibration program | |
JPWO2018235300A1 (en) | Object detection device, object detection method, and computer-readable recording medium | |
KR101203816B1 (en) | Robot fish localization system using artificial markers and method of the same | |
JP6410231B2 (en) | Alignment apparatus, alignment method, and computer program for alignment | |
JP2019533875A (en) | Method and system for generating a composite top view image of a road | |
JP2018009918A (en) | Self-position detection device, moving body device, and self-position detection method | |
KR101233938B1 (en) | Robot and method of tracing object | |
JP6886136B2 (en) | Alignment device, alignment method and computer program for alignment | |
CN116952229A (en) | Unmanned aerial vehicle positioning method, device, system and storage medium | |
US20230104937A1 (en) | Absolute scale depth calculation device, absolute scale depth calculation method, and computer program product | |
WO2021210492A1 (en) | Information processing device, information processing method, and program | |
US20210318690A1 (en) | Positioning device | |
WO2021049281A1 (en) | Image processing device, head-mounted display, and spatial information acquisition method | |
WO2022186814A1 (en) | Vehicle environment modeling with a camera | |
JP2022148593A (en) | Autonomously running vehicle |