JP6994950B2 - How to learn image recognition system and neural network - Google Patents
How to learn image recognition system and neural network Download PDFInfo
- Publication number
- JP6994950B2 JP6994950B2 JP2018001267A JP2018001267A JP6994950B2 JP 6994950 B2 JP6994950 B2 JP 6994950B2 JP 2018001267 A JP2018001267 A JP 2018001267A JP 2018001267 A JP2018001267 A JP 2018001267A JP 6994950 B2 JP6994950 B2 JP 6994950B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- physical quantity
- observation
- disturbance
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、ニューラルネットワークを用いた画像認識システムおよび画像認識システムにおけるニューラルネットワークの学習方法に関する。 The present invention relates to an image recognition system using a neural network and a method for learning a neural network in an image recognition system.
車載カメラを使って他車両や歩行者などを検知し、それら対象物体の存在をドライバに注意喚起するシステムや、それらの対象物体の存在に応じて自動制御を行うシステムにおいて、対象物体までの距離を正確に求めることは重要な要素技術である。 Distance to the target object in a system that detects other vehicles and pedestrians using an in-vehicle camera and alerts the driver to the existence of those target objects, and a system that automatically controls according to the existence of those target objects. Accurately finding is an important elemental technology.
従来技術として、単眼カメラで得られた静止画に対してニューラルネットワークを利用したパターン認識を行い、対象物体までの距離などの物理量を推定する方法などがある。 As a conventional technique, there is a method of performing pattern recognition using a neural network on a still image obtained by a monocular camera and estimating a physical quantity such as a distance to a target object.
しかしながら、従来技術による方法では、精度よく物理量を求められないことがある。特に、単眼カメラによる上記の方法は既に相当程度成熟しており、大幅な改善が見込めない。 However, the physical quantity may not be obtained accurately by the method by the prior art. In particular, the above method using a monocular camera has already matured to a considerable extent, and no significant improvement can be expected.
従来技術による方法で精度が十分でない理由の1つとして、従来は、1枚の静止画の見えのみを考慮してニューラルネットワークが最適化されていることにある。そのようなニューラルネットワークを用いて得られた物理量は、静止画に対しては適切な結果が得られるものの、得られた物理量を時系列で捉えると物理的知見とは乖離していることも少なくない。例えば、対象物体までの距離が短時間で大きく変化することを示していることもある。 One of the reasons why the accuracy is not sufficient by the method by the conventional technique is that the neural network is optimized in consideration of only the appearance of one still image in the past. Although the physical quantities obtained by using such a neural network give appropriate results for still images, the obtained physical quantities are rarely different from the physical knowledge when grasped in chronological order. do not have. For example, it may indicate that the distance to the target object changes significantly in a short time.
本発明はこのような問題点に鑑みてなされたものであり、本発明の課題は、より精度よく物理量を推定できる画像認識システムおよび画像認識システムにおけるニューラルネットワークの学習方法を提供することである。 The present invention has been made in view of such problems, and an object of the present invention is to provide an image recognition system capable of estimating physical quantities more accurately and a method for learning a neural network in an image recognition system.
本発明の一態様によれば、複数の画像のそれぞれに含まれる対象の見えに関する観測をニューラルネットワークを用いて推定し、推定された前記観測から前記対象の物理量を算出する画像認識システムにおけるニューラルネットワークの学習方法であって、前記観測に対する真値と、前記物理量に関する事前知識とを用いて、前記ニューラルネットワークにおける重みを最適化する、ニューラルネットワークの学習方法が提供される。 According to one aspect of the present invention, a neural network in an image recognition system that estimates observations regarding the appearance of an object contained in each of a plurality of images using a neural network and calculates the physical quantity of the object from the estimated observations. The learning method of the neural network is provided, which optimizes the weight in the neural network by using the true value for the observation and the prior knowledge about the physical quantity.
前記観測の推定精度を示す第1コスト項と、前記物理量の算出精度を示す第2コスト項と、の総和が最小となるよう、前記ニューラルネットワークにおける重みを最適化するのが望ましい。 It is desirable to optimize the weights in the neural network so that the sum of the first cost term indicating the estimation accuracy of the observation and the second cost term indicating the calculation accuracy of the physical quantity is minimized.
この場合、前記第2コスト項は、算出される前記物理量が事前知識に基づく値に近いほど小さい値をとるものであってもよい。
あるいは、前記第2コスト項は、算出される前記物理量の分布が事前知識に基づく分布に近いほど小さい値をとるものであってもよい。
In this case, the second cost term may have a smaller value as the calculated physical quantity is closer to a value based on prior knowledge.
Alternatively, the second cost term may have a smaller value as the calculated distribution of the physical quantity is closer to the distribution based on prior knowledge.
前記物理量は加速度またはジャークであってもよい。 The physical quantity may be jerk or jerk.
前記画像認識システムは、前記複数の画像のそれぞれから外乱を推定し、推定された前記観測および前記外乱から前記対象の物理量を算出し、前記外乱に関する事前知識も用いて、前記ニューラルネットワークにおける重みを最適化してもよい。 The image recognition system estimates a disturbance from each of the plurality of images, calculates the physical quantity of the object from the estimated observation and the disturbance, and uses the prior knowledge about the disturbance to calculate the weight in the neural network. It may be optimized.
そして、前記観測の推定精度を示す第1コスト項と、前記物理量の算出精度を示す第2コスト項と、前記外乱の推定精度を示す第3コスト項と、の総和が最小となるよう、前記ニューラルネットワークにおける重みを最適化するのが望ましい。 Then, the sum of the first cost term indicating the estimation accuracy of the observation, the second cost term indicating the calculation accuracy of the physical quantity, and the third cost term indicating the estimation accuracy of the disturbance is minimized. It is desirable to optimize the weights in the neural network.
この場合、前記第3コスト項は、推定される前記外乱が事前知識に基づく値に近いほど小さい値をとるものであってもよい。
あるいは、前記第3コスト項は、推定される前記外乱の分布が事前知識に基づく分布に近いほど小さい値をとるものであってもよい。
In this case, the third cost term may have a smaller value as the estimated disturbance is closer to a value based on prior knowledge.
Alternatively, the third cost term may have a smaller value as the estimated distribution of the disturbance is closer to the distribution based on prior knowledge.
前記外乱は、路面の傾き、前記複数の画像のそれぞれを撮影するカメラの取り付け高さのずれ、および、前記カメラのピッチ角の少なくとも1つを含んでもよい。 The disturbance may include an inclination of the road surface, a deviation in the mounting height of the camera that captures each of the plurality of images, and at least one of the pitch angles of the camera.
前記対象の見えに関する観測は、前記複数の画像において前記対象を囲う矩形であってもよい。 The observation regarding the appearance of the object may be a rectangle surrounding the object in the plurality of images.
また、本発明の別の態様によれば、複数の画像のそれぞれに含まれる対象の見えに関する観測をニューラルネットワークを用いて推定し、推定された前記観測から前記対象の物理量を算出する画像認識システムであって、前記観測に対する真値と、前記物理量に関する事前知識とを用いて、前記ニューラルネットワークにおける重みを最適化する、画像認識システムが提供される。 Further, according to another aspect of the present invention, an image recognition system that estimates observations regarding the appearance of an object contained in each of a plurality of images using a neural network, and calculates the physical quantity of the object from the estimated observations. Therefore, an image recognition system is provided that optimizes weights in the neural network by using the true value for the observation and the prior knowledge about the physical quantity.
物理量の推定精度が向上する。 The accuracy of estimating physical quantities is improved.
以下、本発明に係る実施形態について、図面を参照しながら具体的に説明する。 Hereinafter, embodiments according to the present invention will be specifically described with reference to the drawings.
(第1の実施形態)
図1は、画像認識システムの一例を模式的に示す図である。本例では、自車両100に搭載されたカメラ1による撮影によって得られた画像から、該画像に含まれる対象車両200に関する物理量を、事前に学習が行われた畳み込みニューラルネットワークを利用して推定するものである。出力される物理量から衝突の危険判定などが行われる。
(First Embodiment)
FIG. 1 is a diagram schematically showing an example of an image recognition system. In this example, the physical quantity of the
物理量とは、例えば対象車両200の大きさ、距離、速度、加速度などである。これらの物理量は、まず画像における対象車両200の位置を推定し、次いで推定結果に対して予め設定したモデルに基づく幾何計算を行って求められる。
The physical quantity is, for example, the size, distance, speed, acceleration, etc. of the
ここで、画像における対象車両200の位置は、予め真値が分かっている画像(例えば、手動で真値を与えた画像)を大量に用いた教師あり学習が可能であり、従来技術によって高い精度で推定可能である。
Here, the position of the
一方、対象車両200の大きさ、距離、速度、加速度といった物理量は、これらの真値を得るのは容易ではなく、事前に教師あり学習を行うのは困難である。そのため、これらの物理量は外乱の影響を受けると、誤差が大きくなることがある。特に、加速度は距離を2階微分して得られるものであるため、わずかな外乱に対しても特に誤差が大きくなる傾向にある。
On the other hand, it is not easy to obtain the true values of physical quantities such as the size, distance, speed, and acceleration of the
そこで、本実施形態では、外乱がある場合でも、大きさ、距離、速度、加速度といったダイナミクスの物理量も精度よく検出できる学習法を提示する。なお、「速度」は、正確には自車両100に対する対象車両200の「相対速度」であるが、本明細書では単に速度という。加速度などについても同様とする。
Therefore, in this embodiment, we present a learning method that can accurately detect physical quantities of dynamics such as magnitude, distance, velocity, and acceleration even when there is a disturbance. The "speed" is, to be exact, the "relative speed" of the
図2は、画像認識システムの概略構成を示す模式図である。画像認識システムは、センサの一例であるカメラ1と、物理量推定部2と、時系列フィルタ3とを備えている。
FIG. 2 is a schematic diagram showing a schematic configuration of an image recognition system. The image recognition system includes a
カメラ1は、図1に示したように自車両100に搭載された単眼カメラであり、前方の特定範囲を撮影する。撮影された画像は動画像ではあるが、連続する複数時刻の静止画像として物理量推定部2に入力される。なお、本実施形態では、「複数時刻」が連続する5時刻(t-2~t+2)であるとする。
As shown in FIG. 1, the
物理量推定部2は、複数時刻の画像から、対象車両200に関する物理量を畳み込みニューラルネットワークを利用して推定する。本実施形態における物理量は、対象車両200の大きさ(より具体的には、車高や車幅)、対象車両200との距離、対象車両200の速度および加速度などであり、詳細は図3を用いて後述する。また、物理量推定部2の具体的な構成例は、図4Aを用いて後述する。
The physical
時系列フィルタ3は、例えばカルマンフィルタであり、物理量推定部2からの出力を補正する。本実施形態では、距離のみならず、速度や加速度も時系列フィルタ3に入力されるため、補正の精度が向上する。
The time-
図3は、第1の実施形態における観測、外乱および物理量のモデルを説明する図である。カメラ1の光軸をZ軸(紙面右向き)とし、鉛直方向をY軸(紙面下向き、鉛直下向きを正)とし、Z軸およびY軸と直交する方向をX軸(紙面と垂直)とする。また、カメラ1の焦点位置(既知)を原点とする。そして、外乱がない場合、路面はZ軸と平行であり、カメラ1は路面から高さH(既知)に取り付けられているとする。なお、路面には凹凸がないものと仮定する。
FIG. 3 is a diagram illustrating a model of observation, disturbance, and physical quantity in the first embodiment. The optical axis of the
本実施形態では、観測ΓT,ΓB,ΓR,ΓL、外乱α,ΔHおよび物理量Dy,Dx,Z,dZ/dt,d2Z/dt2を次のように定義する。 In this embodiment, the observations Γ T , Γ B , Γ R , Γ L , disturbance α, ΔH and physical quantities Dy, Dx, Z, dZ / dt, d 2 Z / dt 2 are defined as follows.
まずは、画像に含まれる対象車両200の見えに関する指標である観測ΓT,ΓB,ΓR,ΓLについて説明する。ΓTは、画像上で対象車両200を矩形で囲んだ場合に、カメラ1および矩形の上端中点を通る直線を示すレイである。同様に、ΓB,ΓR,ΓLは、カメラ1および矩形の下端中点、右端中点および左端中点を通る直線をそれぞれ示すレイである。すなわち、以下の式が成立する。
Y=ΓT*Z ・・・(1)
Y=ΓB*Z ・・・(2)
First, the observations Γ T , Γ B , Γ R , and Γ L , which are indicators related to the appearance of the
Y = Γ T * Z ・ ・ ・ (1)
Y = Γ B * Z ・ ・ ・ (2)
観測ΓT,ΓB,ΓR,ΓLは画像において対象車両200を囲う矩形を示すもの、言い換えると、画像における対象車両200の位置を示すともいえる。以下では、ΓT,ΓB,ΓR,ΓLをまとめてΓと表記する。
Observations Γ T , Γ B , Γ R , and Γ L can be said to indicate a rectangle surrounding the
次に、外乱α,ΔHについて説明する。外乱αは路面の傾きαであり、自車両100のピッキングの影響などによって生じ得る。外乱ΔHはカメラ1の高さずれ、正確には、カメラ1の取り付け高さHからの差分であり、自車両100におけるサスペンションの影響などによって生じ得る。この場合、外乱α,ΔHを考慮した真の路面は次のように表わされる。
Y=(H+ΔH)+α*Z ・・・(3)
Next, the disturbances α and ΔH will be described. The disturbance α is the inclination α of the road surface, and may be caused by the influence of picking of the
Y = (H + ΔH) + α * Z ・ ・ ・ (3)
その他、外乱としてピッチ角を考慮してもよい。ピッチ角はXZ平面におけるカメラ1の回転移動であり、自車両100のピッチングによって生じる。
In addition, the pitch angle may be considered as a disturbance. The pitch angle is the rotational movement of the
次に、最終的に求めたい値である物理量Z,dZ/dt,d2Z/dt2,Dx,Dyについて説明する。 Next, the physical quantities Z, dZ / dt, d 2 Z / dt 2 , Dx, and Dy, which are the values to be finally obtained, will be described.
物理量Zはカメラ1から対象車両200までの距離であり、上記(2),(3)式から算出される。
Z=(H+ΔH)/(ΓB-α) ・・・(4)
なお、実際の距離は、上記(4)式の距離Zにカメラ1の焦点距離f(既知の内部パラメタ)を乗じることで得られる。
The physical quantity Z is the distance from the
Z = (H + ΔH) / (Γ B -α) ・ ・ ・ (4)
The actual distance can be obtained by multiplying the distance Z in the above equation (4) by the focal length f (known internal parameter) of the
物理量dZ/dt,d2Z/dt2はそれぞれ対象車両200の速度および加速度であり、距離Zを離散微分することで算出される。
The physical quantities dZ / dt and d 2 Z / dt 2 are the velocities and accelerations of the
物理量Dyは対象車両200の高さ(車高)であり、上記(1),(2),(4)式から算出される。
Dy=(ΓB-ΓT)*(H+ΔH)/(ΓB-α) ・・・(5)
The physical quantity Dy is the height (vehicle height) of the
Dy = (Γ B -Γ T ) * (H + ΔH) / (Γ B -α) ・ ・ ・ (5)
物理量Dxは対象車両200の幅(車幅)であり、ピッチ角を考慮することで車高Dyと同様に算出される。
The physical quantity Dx is the width (vehicle width) of the
以上説明したように、本実施形態における物理量Dx,Dy,Z,dZ/dt,d2Z/dt2は、いずれも観測Γおよび外乱α,ΔHに基づいて直ちに算出可能である。 As described above, the physical quantities Dx, Dy, Z, dZ / dt, and d 2 Z / dt 2 in the present embodiment can all be calculated immediately based on the observed Γ and the disturbances α and ΔH.
図4Aは、第1の実施形態に係る物理量推定部2の内部構成の一例を示すブロック図である。物理量推定部2は、観測推定部21と、外乱推定部22と、物理量算出部23とを有する。なお、図4Aでは、説明のために観測推定部21および外乱推定部22に分けているが、単一の畳み込みニューラルネットワークで構成することもできる。また、各部の一部または全部は、コンピュータのプロセッサが所定のプログラムを実行することによって実現されてもよい。
FIG. 4A is a block diagram showing an example of the internal configuration of the physical
観測推定部21は、時刻t-2~t+2における各画像から、後述する事前学習が行われた畳み込みニューラルネットワーク(例えば、パターン認識器)を利用して5時刻分の観測Γ(t-2)~Γ(t+2)を推定するものであり、いわゆるブラックボックスとなっている。
The
外乱推定部22は、時刻t-2~t+2における各画像から、後述する事前学習が行われた畳み込みニューラルネットワークを利用して5時刻分の外乱α(t-2)~α(t+2),ΔH(t-2)~ΔH(t+2)を推定する。
The
物理量算出部23は、観測推定部21で推定された観測Γ(t-2)~Γ(t+2)と、外乱推定部22で推定された外乱α(t-2)~α(t+2),ΔH(t-2)~ΔH(t+2)から、上記(4),(5)式などを適用し、5時刻分の物理量Z(t-2)~Z(t+2),Dy(t-2)~Dy(t+2),Dx(t-2)~Dx(t+2)を算出する。さらに、物理量算出部23は距離Zを離散微分して速度dZ(t)/dtおよび加速度d2Z(t)/dt2を算出する。なお、速度dZ(t)/dtおよび加速度d2Z(t)/dt2は離散微分によって得られるため、5時刻分あるわけではない。
The physical
物理量算出部23は、畳み込みニューラルネットワークを利用して推定を行う必要はなく、物理量を幾何計算によって「算出」するホワイトボックスとなっている。
The physical
続いて、観測推定部21および外乱推定部22における畳み込みニューラルネットワークの事前の学習について説明する。畳み込みニューラルネットワークは複数段の畳み込み層および全結合層から構成される。畳み込み層は、前段の畳み込み層からの出力(初段の畳み込み層においては、入力される複数時刻の画像)に対してフィルタを適用して畳み込みを行う。フィルタには重みが設定されており、事前学習とはこの重みを最適化することである。
Next, prior learning of the convolutional neural network in the
図4Bは、学習時の物理量推定部2を説明する図である。本実施形態では、観測推定部21、外乱推定部22および物理量算出部23のそれぞれに、コスト項J1,J2,J3を設定する。そして、これらの総和であるコスト関数Jが最小となるよう重みを最適化する。
FIG. 4B is a diagram illustrating a physical
観測推定部21では、対象車両200を囲う矩形(すなわち、観測Γ)の真値を予め得ることが容易であるため、教師あり学習を行うのが望ましい。よって、観測推定部21には、5時刻分の画像と、そのそれぞれについて、矩形領域(すなわち、観測Γ)の真値が教師データとして入力される。そして、観測の推定精度を示すコスト項J1を定義する。例えば、観測Γの真値と、推定された観測Γとの差分の2乗の総和をコスト項J1とすることができる。
Since it is easy for the
なお、観測推定部21の前段に推定器(不図示)を設け、5時刻分の画像のそれぞれを静止画としてみなして対象車両200の矩形(観測)を推定し、これを初期値Γ0として観測推定部21の全結合層に入力してもよい。この場合、観測推定部21は初期値Γ0を補正して観測Γを推定することとなり、画像に複数の車両が含まれる場合にも適用可能となる。このような推定器を設けない場合、画像に複数の車両がある場合には画像の領域ごとに真値を設定すればよい。
An estimator (not shown) is provided in front of the
外乱推定部22では、外乱α,ΔHの真値を予め得るのが困難であるため、教師なし学習を行うこととなる。よって、外乱推定部22には教師データは入力されない。代わりに、本実施形態では、以下のような外乱α,ΔHに関する事前知識を利用することとする。
Since it is difficult for the
路面の傾きαの分布は、平均値0、標準偏差σαの正規分布に従うものとする。平均値0とするのは、自車両100のピッチングや路面形状の変化が正側にも負側にも現れ得るためである。標準偏差σαは、現実的な路面の傾きを考慮すると1/100オーダ程度が妥当であって、1/10オーダ以上でないことは経験から自明である。
The distribution of the slope α of the road surface shall follow the normal distribution with a mean value of 0 and a standard deviation of σ α . The reason why the average value is set to 0 is that the pitching of the
カメラ1の高さずれΔHの分布は、平均値0、標準偏差σHの正規分布に従うものとする。平均値0とするのは、ΔHが元々カメラ1の取り付け高さからのずれとして定義されているためである。標準偏差σHは、設計者の事前知識を反映して設定されるべき値であり、1cmオーダ程度が妥当であって、1mオーダ以上でないことは経験から自明である。
It is assumed that the distribution of the height deviation ΔH of the
そして、外乱の推定精度を示すコスト項J2を定義する。例えば、推定された5時刻分の外乱α,ΔHのそれぞれの分布が、上記事前知識に基づく正規分布に近いほど小さな値をとるコスト項J2を設定する。より具体的には、外乱α,ΔHの分布と、上記事前知識に基づく正規分布とのカルバックライブラー距離(KL距離)の対数の総和をコスト項J2とすることができる。別の例として、推定された5時刻分の外乱α,ΔHが事前知識に基づく平均値(ここでは0)に近いほど小さな値をとるコスト項J2を設定してもよい。より具体的には、推定された外乱α,ΔHの2乗または絶対値(平均値0であるため)の総和をコスト項J2としてもよい。 Then, the cost term J2 indicating the estimation accuracy of the disturbance is defined. For example, a cost term J2 is set in which the distributions of the estimated disturbances α and ΔH for 5 hours are smaller as they are closer to the normal distribution based on the above prior knowledge. More specifically, the sum of the logarithms of the Kullback-Leibler distance (KL distance) between the distributions of disturbances α and ΔH and the normal distribution based on the above prior knowledge can be set as the cost term J2. As another example, a cost term J2 may be set in which the closer the estimated 5 hours of disturbance α, ΔH is to the mean value (here, 0) based on prior knowledge, the smaller the value. More specifically, the sum of the squares of the estimated disturbances α and ΔH or the absolute value (because the average value is 0) may be the cost term J2.
物理量算出部23では、物理量の真値を事前に得るのが困難であるため、教師なし学習を行うこととなる。よって、物理量算出部23には教師データは入力されない。代わりに、本実施形態では、以下のような物理量d2Z/dt2,Dy,Dxに関する事前知識を利用することとする。
Since it is difficult for the physical
加速度d2Z/dt2の分布は、平均値0、標準偏差σZ2の正規分布に従うものとする。平均値0とするのは、加速と減速とが同頻度と考えられるためである。標準偏差σZ2は、現実的な自車両100および対象車両200の加速度を考慮すると、0.01G(Gは重力加速度)オーダ程度が妥当であって、0.1Gオーダ以上でないことは経験から自明である。
The distribution of acceleration d 2 Z / dt 2 shall follow a normal distribution with
車高Dyおよび車幅Dxの分布は、平均値が時系列平均(その対象車両200の車高および車幅)であり、標準偏差σDy,σDxの正規分布に従うものとする。標準偏差σDy,σDxは、設計者の事前知識を反映して設定されるべき値であり、1cmオーダ程度が妥当であって、1mオーダ以上でないことは経験から自明である。 The distribution of the vehicle height Dy and the vehicle width Dx is assumed that the average value is a time-series average (the vehicle height and the vehicle width of the target vehicle 200) and follows the normal distribution of the standard deviations σ Dy and σ Dx . The standard deviations σ Dy and σ Dx are values that should be set reflecting the prior knowledge of the designer, and it is obvious from experience that about 1 cm order is appropriate and not more than 1 m order.
そして、物理量の算出精度を示すコスト項J3を定義する。例えば、算出された物理量d2Z/dt2および5時刻分の物理量Dy,Dxのそれぞれの分布が、上記事前知識に基づく正規分布に近いほど小さな値となるコスト項J3を設定する。より具体的には、物理量d2Z/dt2,Dy,Dxの分布と、上記事前知識に基づく正規分布とのカルバックライブラー距離(KL距離)の対数の総和をコスト項J3とすることができる。別の例として、標準偏差σz2,σDy,σDxを0と考え、推定された物理量d2Z/dt2,Dy,Dxの推定値が事前知識に基づく平均値に近いほど小さな値をとるコスト項J3を設定してもよい。より具体的には、算出された物理量d2Z/dt2,Dy,Dxと、それぞれの平均値との差分の2乗または絶対値の総和をコスト項J3としてもよい。あるいは、走行用テストコースで、高精度PGSあるいはミリ波レーダを用いた計測で加速度の真値を得られるのであれば、真値がある画像について教師あり学習を、真値がない画像について教師なし学習を行ってもよい。 Then, a cost term J3 indicating the accuracy of calculating the physical quantity is defined. For example, a cost term J3 is set in which the calculated physical quantities d 2 Z / dt 2 and the distributions of the physical quantities Dy and Dx for 5 hours become smaller as they are closer to the normal distribution based on the above prior knowledge. More specifically, the sum of the logarithms of the Kullback-Leibler distance (KL distance) between the distribution of the physical quantities d 2 Z / dt 2 , Dy, and Dx and the normal distribution based on the above prior knowledge can be set as the cost term J3. can. As another example, consider the standard deviations σ z2 , σ Dy , and σ Dx as 0, and the smaller the estimated values of the estimated physical quantities d 2 Z / dt 2 , Dy, and Dx are, the closer they are to the mean value based on prior knowledge. The cost term J3 to be taken may be set. More specifically, the sum of the squares or absolute values of the differences between the calculated physical quantities d 2 Z / dt 2 , Dy, and Dx and their respective average values may be used as the cost term J3. Alternatively, if the true value of acceleration can be obtained by measurement using high-precision PGS or millimeter-wave radar on a driving test course, supervised learning is performed for images with true values, and unsupervised learning is performed for images without true values. You may study.
また、距離Zや速度dZ/dtについても、真値が得られれば教師あり学習を行い、得られないのであれば事前知識に基づく教師なし学習を行うようにしてもよい。 Further, for the distance Z and the velocity dZ / dt, supervised learning may be performed if a true value is obtained, and unsupervised learning based on prior knowledge may be performed if the true value cannot be obtained.
以上のコスト項J1~J3の総和をコスト関数とし、コスト関数が最小となるよう重みを最適化する。具体的には、ニューラルネットワーク学習における標準的手法である、ミニバッチ確率的勾配降下法を適用できる。ミニバッチとは、最適化の各反復において、複数個のランダムサンプリングされた学習標本を指す。本実施形態では、連続する5時刻分の画像が1つの学習標本である。ミニバッチサイズ(1ミニバッチ内の学習標本数)は十分に大きい。 The sum of the above cost terms J1 to J3 is used as the cost function, and the weight is optimized so that the cost function is minimized. Specifically, the mini-batch stochastic gradient descent method, which is a standard method in neural network learning, can be applied. A mini-batch refers to a plurality of randomly sampled learning samples at each iteration of optimization. In the present embodiment, images for five consecutive hours are one learning sample. The mini-batch size (the number of learning samples in one mini-batch) is large enough.
観測推定部21においては、推定される観測Γが真値に近づくだけでなく、物理量算出部23によって算出される物理量の分布が事前知識に従うよう、内部の重みが最適化される。同様に、外乱推定部22においては、推定される外乱α,ΔHが事前知識に従うだけでなく、物理量算出部23によって算出される物理量の分布が事前知識に従うよう、内部の重みが最適化される。
In the
その結果、観測推定部21は真値に近い観測Γを推定できるようになり、かつ、外乱推定部22は事前知識に基づく確率分布に程よく従う外乱α,ΔHを推定できるようになり、かつ、物理量算出部23は事前知識に基づく確率分布に程よく従う物理量d2Z/dt2,Dy,Dxを算出できるようになる。このことは、例えば路面の傾きαが1/10程度になるとか、加速度d2Z/dt2が0.1G程度になるといった、物理的にあり得ない推定結果が得られにくくなり、物理的に意味のある結果が得られるようになることを意味する。
As a result, the
図5は、本手法による加速度の推定結果と従来手法による加速度の推定結果とを比較するグラフである。横軸は対象までの真の距離であり、縦軸は推定された加速度の2乗平方平均値(Root Mean Square、単位は重力加速度G)である。なお、観測Γは推定値ではなく、真値を与えている。 FIG. 5 is a graph comparing the acceleration estimation result by the present method and the acceleration estimation result by the conventional method. The horizontal axis is the true distance to the object, and the vertical axis is the root mean square value (Root Mean Square, unit is gravity acceleration G) of the estimated acceleration. Note that the observed Γ gives the true value, not the estimated value.
従来手法によれば、加速度の絶対値が異常に大きく(通常の加速度はせいぜい0.2G程度のはずである)、明らかに誤った値が頻繁に得られることが分かる。これは、観測Γが理想的であっても、必ずしも正確な物理量が得られるわけではないことを示している。 According to the conventional method, it can be seen that the absolute value of the acceleration is abnormally large (normal acceleration should be about 0.2 G at most), and clearly wrong values are frequently obtained. This indicates that even if the observed Γ is ideal, it does not necessarily give an accurate physical quantity.
一方、本手法によれば、対象までの距離が長い場合であっても、加速度は従来手法より十分に低く、より現実に近い結果が得られている。 On the other hand, according to this method, even when the distance to the target is long, the acceleration is sufficiently lower than that of the conventional method, and the result closer to reality is obtained.
図6は、本手法による距離の推定結果と従来手法による距離の推定結果とを比較するグラフである。横軸は対象までの真の距離であり、縦軸は推定された距離と真の距離との誤差の2乗平方平均値(Root Mean Square Error)である。 FIG. 6 is a graph comparing the distance estimation result by the present method and the distance estimation result by the conventional method. The horizontal axis is the true distance to the object, and the vertical axis is the root mean square error of the error between the estimated distance and the true distance.
従来手法によれば、誤差は大きく、特に対象までの距離が離れるほど誤差が大きいことが分かる。一方、本手法によれば、従来手法より正確に距離が得られていることが分かる。 According to the conventional method, the error is large, and it can be seen that the error is particularly large as the distance to the target increases. On the other hand, according to this method, it can be seen that the distance is obtained more accurately than the conventional method.
このように、第1の実施形態では、連続する複数の画像から推定される加速度を、事前知識を用いて学習する。そのため、事前知識が反映され、得られる物理量が物理的により現実に近い高精度なものとなる。また、事前に真値を用意することが困難な外乱も事前知識を用いて学習することで、推定精度がさらに向上する。 As described above, in the first embodiment, the acceleration estimated from a plurality of continuous images is learned by using prior knowledge. Therefore, prior knowledge is reflected, and the obtained physical quantity becomes physically closer to reality and highly accurate. In addition, by learning using prior knowledge even for disturbances for which it is difficult to prepare true values in advance, the estimation accuracy is further improved.
(第2の実施形態)
次に説明する第2の実施形態は、外乱を考慮しないものである。以下、第1の実施形態との相違点を中心に説明する。
(Second embodiment)
The second embodiment described below does not consider disturbance. Hereinafter, the differences from the first embodiment will be mainly described.
図7は、第2の実施形態における観測および物理量のモデルを説明する図である。座標の定義は図3と共通するが、路面が傾くことは考慮しない。 FIG. 7 is a diagram illustrating a model of observation and physical quantity in the second embodiment. The definition of coordinates is the same as in FIG. 3, but the inclination of the road surface is not taken into consideration.
本実施形態では、第1の実施形態の観測ΓT,ΓB,ΓR,ΓLに加え、観測ΓCを次のように定義する。観測ΓCは、画像上で、カメラ1と、対象車両200を囲う矩形において路面からカメラ1の取り付け高さHだけ鉛直上方向に移動した点とを通る直線を示すカメラ高レイである。すなわち、以下の式が成立する。
Y=ΓC*Z ・・・(6)
In this embodiment, in addition to the observations Γ T , Γ B , Γ R , and Γ L of the first embodiment, the observation Γ C is defined as follows. The observation Γ C is a camera height ray that shows a straight line passing through the
Y = Γ C * Z ・ ・ ・ (6)
この場合でも、物理量である距離Zおよび車高Dyは次のように「算出」される。
Z=H/(ΓB-ΓC) ・・・(7)
Dy=(ΓB-ΓT)*H/(ΓB-ΓC) ・・・(8)
同様にして、車幅Dxや、車速dZ/dt、加速度d2Z/dt2も算出される。
Even in this case, the distance Z and the vehicle height Dy, which are physical quantities, are "calculated" as follows.
Z = H / (Γ B -Γ C ) ・ ・ ・ (7)
Dy = (Γ B -Γ T ) * H / (Γ B -Γ C ) ・ ・ ・ (8)
Similarly, the vehicle width Dx, the vehicle speed dZ / dt, and the acceleration d 2 Z / dt 2 are also calculated.
図8は、第2の実施形態に係る物理量推定部2の内部構成の一例を示すブロック図である。本実施形態では外乱を考慮しないため、図4と比較すると外乱推定部22を設けなくてもよい。観測推定部21および物理量算出部23の動作は第1の実施形態とほぼ同様である。すなわち、観測推定部21では、観測ΓCの真値も用いて教師あり学習が行われる。物理量算出部23では、事前知識を用いた教師なし学習が行われる。
FIG. 8 is a block diagram showing an example of the internal configuration of the physical
このように、第2の実施形態でも、連続する複数の画像から推定される加速度を事前知識を用いて学習する。そのため、外乱を考慮しなくても、事前知識が反映されて、推定精度が向上する。 As described above, also in the second embodiment, the acceleration estimated from a plurality of continuous images is learned by using prior knowledge. Therefore, prior knowledge is reflected and the estimation accuracy is improved without considering the disturbance.
上述した各実施形態において、物理量算出部23は、加速度d2Z/dt2に限らず、他の物理量(車高Dyや車幅Dxといった対象車両200の大きさ、距離Z、速度dZ/dt、ジャークd3Z/dt3(あるいはさらに高次の離散微分))の少なくとも1つを事前知識を用いて学習することにより、物理量の推定精度が向上する。ただし、衝突の危険判断などに有用であり、かつ、推定誤差が大きくなりがちな加速度d2Z/dt2を事前知識を用いて学習し、推定するのが特に望ましい。
In each of the above-described embodiments, the physical
上述した実施形態は、本発明が属する技術分野における通常の知識を有する者が本発明を実施できることを目的として記載されたものである。上記実施形態の種々の変形例は、当業者であれば当然になしうることであり、本発明の技術的思想は他の実施形態にも適用しうることである。したがって、本発明は、記載された実施形態に限定されることはなく、特許請求の範囲によって定義される技術的思想に従った最も広い範囲とすべきである。 The above-described embodiments have been described for the purpose of allowing a person having ordinary knowledge in the technical field to which the present invention belongs to carry out the present invention. Various modifications of the above embodiment can be naturally made by those skilled in the art, and the technical idea of the present invention can be applied to other embodiments. Accordingly, the invention is not limited to the described embodiments and should be the broadest scope according to the technical ideas defined by the claims.
1 カメラ
2 物理量推定部
3 時系列フィルタ
21 観測推定部
22 外乱推定部
23 物理量算出部
100 自車両
200 対象車両
1
Claims (12)
前記観測に対する真値と、前記物理量に関する事前知識とを用いて、前記観測の推定精度を示す第1コスト項と、前記物理量の算出精度を示す第2コスト項と、の総和が最小となるよう、前記ニューラルネットワークにおける重みを最適化する、ニューラルネットワークの学習方法。 It is a learning method of a neural network in an image recognition system that estimates observations about the appearance of an object included in each of a plurality of images using a neural network and calculates the physical quantity of the object from the estimated observations.
Using the true value for the observation and the prior knowledge about the physical quantity, the sum of the first cost term indicating the estimation accuracy of the observation and the second cost term indicating the calculation accuracy of the physical quantity is minimized. , A neural network learning method that optimizes the weights in the neural network.
前記画像認識システムは、前記複数の画像のそれぞれから外乱を推定し、推定された前記観測および前記外乱から前記対象の物理量を算出し、
前記観測に対する真値と、前記物理量に関する事前知識と、前記外乱に関する事前知識と、を用いて、前記ニューラルネットワークにおける重みを最適化する、ニューラルネットワークの学習方法。 It is a learning method of a neural network in an image recognition system that estimates observations about the appearance of an object included in each of a plurality of images using a neural network and calculates the physical quantity of the object from the estimated observations.
The image recognition system estimates a disturbance from each of the plurality of images, calculates the physical quantity of the object from the estimated observation and the disturbance, and calculates the physical quantity of the object.
A method for learning a neural network that optimizes weights in the neural network by using the true value for the observation, the prior knowledge about the physical quantity, and the prior knowledge about the disturbance .
前記観測に対する真値と、前記物理量に関する事前知識とを用いて、前記観測の推定精度を示す第1コスト項と、前記物理量の算出精度を示す第2コスト項と、の総和が最小となるよう、前記ニューラルネットワークにおける重みを最適化する、画像認識システム。 It is an image recognition system that estimates the observation of the appearance of an object contained in each of a plurality of images using a neural network and calculates the physical quantity of the object from the estimated observation.
Using the true value for the observation and the prior knowledge about the physical quantity, the sum of the first cost term indicating the estimation accuracy of the observation and the second cost term indicating the calculation accuracy of the physical quantity is minimized. , An image recognition system that optimizes weights in the neural network.
前記画像認識システムは、前記複数の画像のそれぞれから外乱を推定し、推定された前記観測および前記外乱から前記対象の物理量を算出し、 The image recognition system estimates a disturbance from each of the plurality of images, calculates the physical quantity of the object from the estimated observation and the disturbance, and calculates the physical quantity of the object.
前記観測に対する真値と、前記物理量に関する事前知識と、前記外乱に関する事前知識と、を用いて、前記ニューラルネットワークにおける重みを最適化する、画像認識システム。 An image recognition system that optimizes weights in a neural network using the true value for the observation, the prior knowledge about the physical quantity, and the prior knowledge about the disturbance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018001267A JP6994950B2 (en) | 2018-01-09 | 2018-01-09 | How to learn image recognition system and neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018001267A JP6994950B2 (en) | 2018-01-09 | 2018-01-09 | How to learn image recognition system and neural network |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019121225A JP2019121225A (en) | 2019-07-22 |
JP6994950B2 true JP6994950B2 (en) | 2022-02-04 |
Family
ID=67306419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018001267A Active JP6994950B2 (en) | 2018-01-09 | 2018-01-09 | How to learn image recognition system and neural network |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6994950B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111077335B (en) * | 2020-01-22 | 2021-03-02 | 滴图(北京)科技有限公司 | Vehicle speed detection method, vehicle speed detection device and readable storage medium |
CN113556551B (en) * | 2020-04-23 | 2023-06-23 | 上海高德威智能交通系统有限公司 | Encoding and decoding method, device and equipment |
WO2022091650A1 (en) * | 2020-10-30 | 2022-05-05 | 株式会社スマートドライブ | Moving body behavior information acquisition method, moving body behavior information acquisition device, and program |
US20230051377A1 (en) * | 2020-10-30 | 2023-02-16 | Smartdrive Inc. | Mobility movemennt information acquiring method and mobility movement information acquiring apparatus |
JP7318995B1 (en) | 2022-03-24 | 2023-08-01 | 株式会社スマートドライブ | Mobile body behavior information acquisition method, mobile body behavior information acquisition device and program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016006626A (en) | 2014-05-28 | 2016-01-14 | 株式会社デンソーアイティーラボラトリ | Detector, detection program, detection method, vehicle, parameter calculation device, parameter calculation program, and parameter calculation method |
-
2018
- 2018-01-09 JP JP2018001267A patent/JP6994950B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016006626A (en) | 2014-05-28 | 2016-01-14 | 株式会社デンソーアイティーラボラトリ | Detector, detection program, detection method, vehicle, parameter calculation device, parameter calculation program, and parameter calculation method |
Non-Patent Citations (1)
Title |
---|
橋岡 佳輝,DNNを用いたカメラの6自由度相対運動推定,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2017-CVIM-206 [online] ,日本,情報処理学会,2017年03月14日,第1-8頁 |
Also Published As
Publication number | Publication date |
---|---|
JP2019121225A (en) | 2019-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6994950B2 (en) | How to learn image recognition system and neural network | |
US10983199B2 (en) | Vehicle sensor calibration and localization | |
CN105892471B (en) | Automatic driving method and apparatus | |
JP2021523443A (en) | Association of lidar data and image data | |
CN107179768B (en) | Obstacle identification method and device | |
CN107192409A (en) | The method of automated sensor Attitude estimation | |
CN111183370B (en) | Calibration and positioning of vehicle sensors | |
JP5804185B2 (en) | Moving object position / orientation estimation apparatus and moving object position / orientation estimation method | |
WO2018181974A1 (en) | Determination device, determination method, and program | |
CN108985171A (en) | Estimation method of motion state and state estimation device | |
CN103697855B (en) | A kind of hull horizontal attitude measuring method detected based on sea horizon | |
CN110009037B (en) | Short-term engineering wind speed prediction method and system based on physical information coupling | |
CN109564285A (en) | For detecting the method and system of the surface mark under the traffic environment of mobile unit | |
CN108968811A (en) | A kind of object identification method and system of sweeping robot | |
US10789488B2 (en) | Information processing device, learned model, information processing method, and computer program product | |
CN102788572B (en) | Method, device and system for measuring attitude of lifting hook of engineering machinery | |
CN110914703A (en) | Correction of motion-based inaccuracies in point clouds | |
CN107615201A (en) | Self-position estimation unit and self-position method of estimation | |
CN107014296B (en) | Comprehensive inspection car OCS inspecting system high speed orientation triggering method and device | |
KR20180034213A (en) | Apparatus and method of compensating for relative motion of at least two aircraft mounted cameras | |
CN111201448A (en) | Method and apparatus for generating an inverse sensor model and method for identifying obstacles | |
JP2022022287A (en) | Map making device, method for control, program, and storage medium | |
CN110674674A (en) | Rotary target detection method based on YOLO V3 | |
CN114758504B (en) | Online vehicle overspeed early warning method and system based on filtering correction | |
CN105447881A (en) | Doppler-based segmentation and optical flow in radar images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200624 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20210705 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6994950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |