JP7452094B2 - Moving object extraction device, moving object extraction method and program - Google Patents
Moving object extraction device, moving object extraction method and program Download PDFInfo
- Publication number
- JP7452094B2 JP7452094B2 JP2020032245A JP2020032245A JP7452094B2 JP 7452094 B2 JP7452094 B2 JP 7452094B2 JP 2020032245 A JP2020032245 A JP 2020032245A JP 2020032245 A JP2020032245 A JP 2020032245A JP 7452094 B2 JP7452094 B2 JP 7452094B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- image frame
- moving
- image
- trajectory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 85
- 238000001514 detection method Methods 0.000 claims description 81
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 36
- 238000005259 measurement Methods 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000010365 information processing Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、移動物体抽出装置、移動物体抽出方法およびプログラムに関する。 The present invention relates to a moving object extraction device, a moving object extraction method, and a program.
近年、カメラによって撮像された動画像に基づいて各種の処理を行う技術が知られている。例えば、動画像のボケを低減する技術が開示されている(例えば、特許文献1参照)。また、動画像から移動物体の軌跡を抽出し、移動物体の軌跡に基づいて、動画像中に設定された計測線を跨いだ移動物体の数を計測する技術が開示されている(例えば、特許文献2参照)。 2. Description of the Related Art In recent years, techniques have been known that perform various types of processing based on moving images captured by a camera. For example, a technique for reducing blur in moving images has been disclosed (see, for example, Patent Document 1). Additionally, a technology has been disclosed that extracts the trajectory of a moving object from a moving image and measures the number of moving objects that straddle measurement lines set in the moving image based on the trajectory of the moving object (for example, patented (See Reference 2).
しかし、移動物体の検知精度の低下を抑制しつつ、移動物体の追跡精度の低下を抑制することを可能とする技術が提供されることが望まれる。 However, it is desired to provide a technique that can suppress a decrease in tracking accuracy of a moving object while suppressing a decrease in detection accuracy of a moving object.
上記問題を解決するために、本発明のある観点によれば、第1の演算量によって画像フレームにおける第1の物体の検知および前記第1の物体よりも小さい物体である第2の物体の検知を行う第1のモデルと、前記第1の演算量よりも小さい第2の演算量によって画像フレームにおける前記第1の物体の検知を行う第2のモデルと、複数の画像フレームから構成された動画像を取得し、前記第2のモデルによる物体検知の実行頻度が前記第1のモデルによる物体検知の実行頻度よりも多くなるように画像フレームごとに前記第1のモデルまたは前記第2のモデルに前記動画像を分配する画像フレーム分配部と、前記第1のモデルによる物体検知の結果と前記第2のモデルによる物体検知の結果とに基づいて、前記動画像における前記第1の物体の軌跡を抽出する第1の移動軌跡抽出部と、前記第1のモデルによる物体検知の結果に基づいて、前記動画像における前記第2の物体の軌跡を抽出する第2の移動軌跡抽出部と、を備える、移動物体抽出装置が提供される。
In order to solve the above problem, according to one aspect of the present invention, the detection of a first object in an image frame and the detection of a second object that is a smaller object than the first object are performed using a first amount of calculation. a second model that detects the first object in an image frame with a second amount of calculations smaller than the first amount of calculations, and a video composed of a plurality of image frames. the first model or the second model for each image frame such that the frequency of execution of object detection by the second model is greater than the frequency of execution of object detection by the first model; an image frame distribution unit that distributes the moving image; and a trajectory of the first object in the moving image based on the result of object detection by the first model and the result of object detection by the second model. a first movement trajectory extraction unit that extracts the trajectory of the second object in the video image based on a result of object detection by the first model; and a second movement trajectory extraction unit that extracts the trajectory of the second object in the video image. , a moving object extraction device is provided.
また、本発明の別の観点によれば、複数の画像フレームから構成された動画像を取得することと、第1の演算量によって画像フレームにおける第1の物体の検知および前記第1の物体よりも小さい物体である第2の物体の検知を行う第1のモデルと、前記第1の演算量よりも小さい第2の演算量によって画像フレームにおける前記第1の物体の検知を行う第2のモデルと、のうち、前記第2のモデルによる物体検知の実行頻度が前記第1のモデルによる物体検知の実行頻度以上になるように画像フレームごとに前記第1のモデルまたは前記第2のモデルに前記動画像を分配することと、前記第1のモデルによる物体検知の結果と前記第2のモデルによる物体検知の結果とに基づいて、前記動画像における前記第1の物体の軌跡を抽出することと、前記第1のモデルによる物体検知の結果に基づいて、前記動画像における前記第2の物体の軌跡を抽出することと、を含む、移動物体抽出方法が提供される。
According to another aspect of the present invention, a moving image composed of a plurality of image frames is acquired, and a first object is detected in an image frame by a first amount of calculation, and the first object is detected. a first model that detects a second object that is a smaller object ; and a second model that detects the first object in an image frame using a second amount of calculation that is smaller than the first amount of calculation. The first model or the second model is configured to perform the above-mentioned operation for each image frame so that the frequency of execution of object detection by the second model is greater than or equal to the frequency of execution of object detection by the first model. distributing the moving image; and extracting a trajectory of the first object in the moving image based on a result of object detection by the first model and a result of object detection by the second model. , extracting a trajectory of the second object in the moving image based on a result of object detection by the first model .
また、本発明の別の観点によれば、コンピュータを、第1の演算量によって画像フレームにおける第1の物体の検知および前記第1の物体よりも小さい物体である第2の物体の検知を行う第1のモデルと、前記第1の演算量よりも小さい第2の演算量によって画像フレームにおける前記第1の物体の検知を行う第2のモデルと、複数の画像フレームから構成された動画像を取得し、前記第2のモデルによる物体検知の実行頻度が前記第1のモデルによる物体検知の実行頻度よりも多くなるように画像フレームごとに前記第1のモデルまたは前記第2のモデルに前記動画像を分配する画像フレーム分配部と、前記第1のモデルによる物体検知の結果と前記第2のモデルによる物体検知の結果とに基づいて、前記動画像における前記第1の物体の軌跡を抽出する第1の移動軌跡抽出部と、前記第1のモデルによる物体検知の結果に基づいて、前記動画像における前記第2の物体の軌跡を抽出する第2の移動軌跡抽出部と、を備える移動物体抽出装置として機能させるためのプログラムが提供される。
According to another aspect of the present invention, the computer is configured to detect a first object in an image frame and detect a second object that is smaller than the first object using a first amount of calculation. a first model; a second model that detects the first object in an image frame using a second calculation amount smaller than the first calculation amount; and a moving image composed of a plurality of image frames. the first model or the second model for each image frame such that the frequency of execution of object detection by the second model is greater than the frequency of execution of object detection by the first model. an image frame distribution unit that distributes images; and extracting a trajectory of the first object in the moving image based on a result of object detection by the first model and a result of object detection by the second model. A moving object comprising: a first movement trajectory extraction section; and a second movement trajectory extraction section that extracts a trajectory of the second object in the video image based on the result of object detection by the first model. A program for functioning as an extraction device is provided.
以上説明したように本発明によれば、移動物体の検知精度の低下を抑制しつつ、移動物体の追跡精度の低下を抑制することを可能とする技術が提供される。 As described above, according to the present invention, a technique is provided that makes it possible to suppress a decrease in tracking accuracy of a moving object while suppressing a decrease in detection accuracy of a moving object.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described in detail below with reference to the accompanying drawings. Note that, in this specification and the drawings, components having substantially the same functional configurations are designated by the same reference numerals and redundant explanation will be omitted.
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。 Further, in this specification and the drawings, a plurality of components having substantially the same functional configuration may be distinguished by attaching different numbers after the same reference numeral. However, if there is no particular need to distinguish between a plurality of components having substantially the same functional configuration, only the same reference numerals are given. Furthermore, similar components in different embodiments may be distinguished by using different alphabets after the same reference numerals. However, when it is not necessary to particularly distinguish between similar components of different embodiments, only the same reference numerals are given.
(0.概要)
本発明の実施形態は、カメラによって撮像された動画像に基づいて、動画像に写る移動物体の軌跡を抽出する技術に関する。動画像は、時系列に沿って連続的に撮像された複数の画像フレームによって構成される。以下では、単位時間あたりの画像フレームの数をフレームレートと言う。なお、本発明の実施形態では、軌跡が抽出される移動物体として車両を例に挙げて説明する。しかし、移動物体は車両に限定されない。例えば、移動物体は、車両以外の乗り物であってもよいし、乗り物以外の物体(例えば、人など)であってもよい。
(0. Overview)
Embodiments of the present invention relate to a technique for extracting a trajectory of a moving object in a moving image based on a moving image captured by a camera. A moving image is composed of a plurality of image frames that are sequentially captured in time series. Hereinafter, the number of image frames per unit time will be referred to as frame rate. Note that the embodiment of the present invention will be described using a vehicle as an example of a moving object whose trajectory is extracted. However, moving objects are not limited to vehicles. For example, the moving object may be a vehicle other than a vehicle, or an object other than a vehicle (for example, a person).
図1は、本発明の実施形態に係るカメラによって撮像される画像フレームの例を示す図である。図1を参照すると、本発明の実施形態に係るカメラによって撮像される動画像を構成する画像フレームG0が示されている。本発明の実施形態に係るカメラは、図1に示されるような道路平面を走行する車両を撮像可能な位置に設けられている。カメラは、イメージセンサを含んで構成されており、イメージセンサによって撮像範囲を撮像する。カメラの種類は特に限定されない。例えば、カメラは、可視光カメラであってもよいし、赤外光カメラであってもよい。 FIG. 1 is a diagram showing an example of an image frame captured by a camera according to an embodiment of the present invention. Referring to FIG. 1, an image frame G0 constituting a moving image captured by a camera according to an embodiment of the present invention is shown. The camera according to the embodiment of the present invention is provided at a position where it can image a vehicle traveling on a road plane as shown in FIG. The camera is configured to include an image sensor, and images an imaging range using the image sensor. The type of camera is not particularly limited. For example, the camera may be a visible light camera or an infrared light camera.
画像フレームG0には、車両の例として車両A1~A4およびその他の複数の車両が写っている。画像フレームG0には、あらかじめ車両の通過数を計測するための線(すなわち、計測線L0)が設定されている。本発明の実施形態では、計測線L0を跨いだ車両軌跡の数を計測する例について主に説明する。しかし、車両軌跡の数の計測は、車両軌跡の利用例の一例に過ぎない。すなわち、本発明の実施形態において抽出された車両軌跡の用途は特に限定されない。 In the image frame G0, vehicles A1 to A4 and a plurality of other vehicles are shown as examples of vehicles. A line for measuring the number of passing vehicles (ie, measurement line L0) is set in advance in the image frame G0. In the embodiment of the present invention, an example will be mainly described in which the number of vehicle trajectories that straddle the measurement line L0 is measured. However, measuring the number of vehicle trajectories is only one example of the use of vehicle trajectories. That is, the use of the vehicle trajectory extracted in the embodiment of the present invention is not particularly limited.
また、本発明の実施形態では、計測線L0を跨いだ車両軌跡の数を、車両軌跡が計測線L0を跨いだ方向別に計測する例について主に説明する。すなわち、本発明の実施形態では、計測線L0を方向D1(計測線L0によって分割される二つの領域のうちの一方から他方)に跨いだ車両軌跡の数と計測線L0を方向D2(当該他方から当該一方)に跨いだ車両軌跡の数とを別々に計測する例について主に説明する。しかし、計測線L0を跨いだ車両軌跡の数は、車両軌跡が計測線L0を跨いだ方向の区別なく計測されてもよい。 Furthermore, in the embodiment of the present invention, an example will be mainly described in which the number of vehicle trajectories that straddle the measurement line L0 is measured for each direction in which the vehicle trajectory straddles the measurement line L0. That is, in the embodiment of the present invention, the number of vehicle trajectories that straddle the measurement line L0 in the direction D1 (from one to the other of two regions divided by the measurement line L0) and the measurement line L0 in the direction D2 (the other An example will be mainly explained in which the number of vehicle trajectories that span the vehicle trajectory and the number of vehicle trajectories that straddle the vehicle trajectory and the vehicle trajectory that spans the vehicle trajectory from the vehicle trajectory to the vehicle trajectory that straddles the vehicle trajectory from the vehicle trajectory to the vehicle trajectory that straddles the vehicle trajectory from the vehicle trajectory to the vehicle trajectory that straddles the vehicle trajectory from the vehicle trajectory to the vehicle trajectory that straddles the vehicle trajectory is measured separately. However, the number of vehicle trajectories that straddle the measurement line L0 may be measured regardless of the direction in which the vehicle trajectories straddle the measurement line L0.
以上、本発明の実施形態の概要について説明した。 The outline of the embodiment of the present invention has been described above.
(1.実施形態の詳細)
続いて、本発明の実施形態の詳細について説明する。
(1. Details of embodiment)
Next, details of embodiments of the present invention will be described.
(1-1.システムの機能構成例)
まず、図2を参照しながら、本発明の実施形態に係る移動物体抽出システムの機能構成例について説明する。
(1-1. Example of system functional configuration)
First, an example of the functional configuration of a moving object extraction system according to an embodiment of the present invention will be described with reference to FIG. 2.
図2は、本発明の実施形態に係る移動物体抽出システムの機能構成例を示すブロック図である。図2に示されるように、本発明の実施形態に係る移動物体抽出システム1は、移動物体抽出装置10およびカメラ20を備える。移動物体抽出装置10とカメラ20とは、有線または無線によって接続されており、カメラ20によって撮像された各画像フレームは、時系列に沿って連続的に移動物体抽出装置10に出力される。移動物体抽出装置10は、制御部110および記憶部130を備える。
FIG. 2 is a block diagram showing an example of the functional configuration of a moving object extraction system according to an embodiment of the present invention. As shown in FIG. 2, the moving
制御部110は、プロセッサを含み、記憶部130により記憶されているプログラムがプロセッサによりRAM(Random Access Memory)に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、制御部110は、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。
The
本発明の実施形態では、制御部110が、プロセッサの例として、2つのCPU(Central Processing Unit)およびAI(Artificial Intelligence)チップを含む場合を想定する。しかし、制御部110が含むプロセッサは、これらに限定されない。例えば、制御部110は、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)などのプロセッサを含んでもよい。本発明の実施形態では、このように互いに特性の異なる複数のプロセッサが並列化されており、当該複数のプロセッサによる分散処理が行われる場合を想定する。これによって高いパフォーマンスの演算が行われ得る。
In the embodiment of the present invention, it is assumed that the
制御部110は、車両検出部111と、移動軌跡抽出部115と、計測処理部116とを備える。車両検出部111は、画像フレーム分配部112と、重処理量モデルM1(第1のモデル)と、軽処理量モデルM2(第2のモデル)とを備える。
The
重処理量モデルM1は、画像フレーム分配部112から入力される画像フレームから所定の演算量(第1の演算量)によって車両検知を行う。また、軽処理量モデルM2は、画像フレーム分配部112から入力される画像フレームから重処理量モデルM1の演算量よりも小さい演算量(第2の演算量)によって車両検知を行う。重処理量モデルM1および軽処理量モデルM2それぞれの具体的な演算量は限定されない。例えば、演算量は、モデルへの入力からモデルへの出力までにモデルによって行われる演算の回数であってよい。
The heavy throughput model M1 performs vehicle detection from image frames input from the image
重処理量モデルM1および軽処理量モデルM2それぞれは、画像フレーム分配部112から入力される画像フレームを構成する複数の矩形領域それぞれに車両が存在する確からしさを示す値を車両検出スコアとして出力する。一例として、車両検出スコアが所定のスコアよりも大きい矩形領域が、車両が存在する領域(車両領域)として検出される。
The heavy throughput model M1 and the light throughput model M2 each output a value indicating the probability that a vehicle exists in each of a plurality of rectangular areas that constitute the image frame input from the image
ここで、画像フレームを構成する矩形領域のサイズ、位置、数などは特に限定されない。また、矩形領域の代わりに他の形状の領域が用いられてもよい。また、重処理量モデルM1および軽処理量モデルM2それぞれは、学習済みのニューラルネットワーク(例えば、学習済みのディープラーニングニューラルネットワーク)であってよい。学習済みのニューラルネットワークは、車両が写る画像フレームと当該画像フレームに写る車両位置(すなわち、車両が存在する矩形領域)との組み合わせを教師データとしてニューラルネットワークを学習させることによって生成され得る。 Here, the size, position, number, etc. of the rectangular areas constituting the image frame are not particularly limited. Moreover, other shaped areas may be used instead of the rectangular area. Furthermore, each of the heavy-throughput model M1 and the light-throughput model M2 may be a trained neural network (for example, a trained deep learning neural network). A trained neural network can be generated by training the neural network using a combination of an image frame in which a vehicle is captured and a vehicle position (that is, a rectangular area where the vehicle is present) in the image frame as training data.
具体的な構成の例として、重処理量モデルM1および軽処理量モデルM2それぞれは、畳み込み層とプーリング層との繰り返しおよび多段の全結合を含んだニューラルネットワークであってよい。すなわち、重処理量モデルM1および軽処理量モデルM2それぞれは、CNN(Convolutional Neural Network)によって構成されてよい。しかし、重処理量モデルM1および軽処理量モデルM2それぞれは、畳み込み層およびプーリング層を有していないニューラルネットワークによって構成されてもよい。また、重処理量モデルM1および軽処理量モデルM2それぞれの全結合は多段に構成されていなくてもよい。 As a specific example of a configuration, each of the heavy-throughput model M1 and the light-throughput model M2 may be a neural network including repetition of convolutional layers and pooling layers and multi-stage full connections. That is, each of the heavy throughput model M1 and the light throughput model M2 may be configured by a CNN (Convolutional Neural Network). However, each of the heavy-throughput model M1 and the light-throughput model M2 may be configured by a neural network that does not have a convolution layer or a pooling layer. Further, the full connections of the heavy throughput model M1 and the light throughput model M2 do not need to be configured in multiple stages.
記憶部130は、制御部110を動作させるためのプログラムおよびデータを記憶することが可能な記憶装置である。また、記憶部130は、制御部110の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、記憶装置は、不揮発性の記憶装置であってよい。例えば、記憶部130は、各種データの例として、計測線L0の位置を記憶し得る。
The
以上、本発明の実施形態に係る移動物体抽出システム1の機能構成例について説明した。
The functional configuration example of the moving
(1-2.システムの動作例)
続いて、図3~図9を参照しながら、本発明の実施形態に係る移動物体抽出システム1の動作の例について説明する。
(1-2. System operation example)
Next, an example of the operation of the moving
図3は、本発明の実施形態に係る移動物体抽出システム1の動作の例を示すフローチャートである。図3に示されるように、S11~S16が時系列に沿って連続的に入力される画像フレームごとに実行される。
FIG. 3 is a flowchart showing an example of the operation of the moving
(車両検出部111)
まず、移動物体抽出装置10において、車両検出部111は、カメラ20から時系列に沿って連続的に入力される画像フレームから車両位置(すなわち、車両領域)を検出する(S11)。
(Vehicle detection unit 111)
First, in the moving
図4は、車両検出部111による車両検出の例を示す図である。図4を参照すると、カメラ20から移動物体抽出装置10に入力された直後の画像フレーム(現在の画像フレーム)の例として、現在の画像フレームG1が示されている。例えば、車両検出部111は、現在の画像フレームG1から車両A1が存在する領域として車両領域P11を検出する。同様に、車両検出部111は、現在の画像フレームG1から、車両A2が存在する領域として車両領域P21を検出し、車両A3が存在する領域として車両領域P31を検出し、車両A4が存在する領域として車両領域P41を検出する。
FIG. 4 is a diagram showing an example of vehicle detection by the
(移動軌跡抽出部115)
図3に戻って説明を続ける。続いて、移動軌跡抽出部115は、車両検出部111によって検出された車両(すなわち、車両領域の位置)を追跡する(S12)。ここでは、移動軌跡抽出部115が、同一車両が写る車両領域の中心点を追跡する場合を主に想定する。しかし、追跡される車両領域の位置は、車両領域の中心点以外の点(例えば、車両領域の左上隅など)であってもよい。
(Movement trajectory extraction unit 115)
Returning to FIG. 3, the explanation will be continued. Subsequently, the movement
移動軌跡抽出部115は、現在の画像フレームと現在の画像フレームよりも過去にカメラ20から入力された画像フレーム(過去の画像フレーム)とのそれぞれから車両検出部111によって得られた複数の矩形領域それぞれから抽出された特徴量を算出する。また、移動軌跡抽出部115は、車両の特徴量同士の類似度が閾値よりも大きい場合に、その車両同士が同一車両であるとみなす。そして、移動軌跡抽出部115は、現在の画像フレームおよび過去の画像フレームそれぞれにおいて同一とみなした車両の位置同士を統合する(S13)。例えば、移動軌跡抽出部115は、現在の画像フレームおよび過去の画像フレームそれぞれにおいて同一とみなした車両の位置同士を対応付ける。
The movement
ここで、過去の画像フレームは、現在の画像フレームよりも1フレーム前の画像フレーム(以下、単に「1フレーム前の画像フレーム」とも言う。)であってよい。しかし、過去の画像フレームは、現在の画像フレームよりも2フレームまたは3フレーム以上前の画像フレームであってもよい。 Here, the past image frame may be an image frame that is one frame before the current image frame (hereinafter also simply referred to as "one frame previous image frame"). However, the past image frame may be an image frame that is two or more frames before the current image frame.
図5は、1フレーム前の画像フレームでの車両検出の例を示す図である。図5を参照すると、現在の画像フレームG2が示されている。例えば、車両検出部111は、1フレーム前の画像フレームから車両A1が存在する領域として車両領域P10を検出する。同様に、車両検出部111は、1フレーム前の画像フレームから、車両A2が存在する領域として車両領域P20を検出し、車両A3が存在する領域として車両領域P30を検出し、車両A4が存在する領域として車両領域P40を検出する。
FIG. 5 is a diagram showing an example of vehicle detection in an image frame one frame before. Referring to FIG. 5, a current image frame G2 is shown. For example, the
また、図5には、現在の画像フレームよりも1フレーム前までに抽出された車両の軌跡の例が示されている。例えば、現在の画像フレームよりも1フレーム前までに抽出された車両A1の軌跡の例として車両軌跡T10が示されている。同様に、現在の画像フレームよりも1フレーム前までに抽出された車両A2の軌跡の例として車両軌跡T20が示されており、現在の画像フレームよりも1フレーム前までに抽出された車両A3の軌跡の例として車両軌跡T30が示されており、現在の画像フレームよりも1フレーム前までに抽出された車両A4の軌跡の例として車両軌跡T40が示されている。 Further, FIG. 5 shows an example of a vehicle trajectory extracted up to one frame before the current image frame. For example, a vehicle trajectory T10 is shown as an example of the trajectory of the vehicle A1 extracted up to one frame before the current image frame. Similarly, vehicle trajectory T20 is shown as an example of the trajectory of vehicle A2 extracted up to one frame before the current image frame, and vehicle trajectory T20 is shown as an example of the trajectory of vehicle A2 extracted up to one frame before the current image frame. A vehicle trajectory T30 is shown as an example of the trajectory, and a vehicle trajectory T40 is shown as an example of the trajectory of the vehicle A4 extracted up to one frame before the current image frame.
図6は、移動軌跡抽出部115による車両追跡の例を示す図である。図6には、現在の画像フレームG3が示されており、現在の画像フレームG3から検出された車両領域P11~P41の他、現在の画像フレームよりも1フレーム前の画像フレームから検出された車両領域P10~P40が示されている。また、現在の画像フレームよりも1フレーム前までに抽出された車両軌跡T10~T40が示されている。
FIG. 6 is a diagram showing an example of vehicle tracking by the movement
例えば、移動軌跡抽出部115は、現在の画像フレームから車両検出部111によって得られた車両A1の特徴量と、1フレーム前の画像フレームから車両検出部111によって得られた車両A1の特徴量とを比較する。移動軌跡抽出部115は、特徴量同士の類似度が閾値よりも大きい場合に、現在の画像フレームにおける車両の位置(車両領域P11)と、1フレーム前の画像フレームにおける車両の位置(車両領域P10)とを対応付ける。
For example, the movement
これによって、現在の画像フレームG4に示されるように、車両A1の軌跡が、現在の画像フレームよりも1フレーム前までに抽出された車両軌跡T10から、現在の画像フレームまでに抽出された車両軌跡T11に更新される。 As a result, as shown in the current image frame G4, the trajectory of the vehicle A1 changes from the vehicle trajectory T10 extracted up to one frame before the current image frame to the vehicle trajectory extracted up to the current image frame. It is updated to T11.
なお、ここでは、現在の画像フレームおよび1フレーム前の画像フレームの双方から車両が検出される場合を主に想定する。しかし、現在の画像フレームおよび1フレーム前の画像フレームの少なくとも一方から車両の位置が検出されない場合も想定される。かかる場合であっても、車両の追跡および車両の位置同士の統合は継続されてよい(すなわち、2フレームまたは3フレーム以上離れた画像フレーム同士の対応付けが行われてもよい)。 Note that here, we mainly assume a case where a vehicle is detected from both the current image frame and the image frame one frame before. However, there may be cases where the position of the vehicle is not detected from at least one of the current image frame and the previous image frame. Even in such a case, tracking of the vehicle and integration of vehicle positions may be continued (that is, image frames separated by two or three frames or more may be correlated).
同様にして、車両A2の軌跡は、現在の画像フレームよりも1フレーム前までに抽出された車両軌跡T20から、現在の画像フレームまでに抽出された車両軌跡T21に更新される。車両A3の軌跡は、現在の画像フレームよりも1フレーム前までに抽出された車両軌跡T30から、現在の画像フレームまでに抽出された車両軌跡T31に更新される。車両A4の軌跡は、現在の画像フレームよりも1フレーム前までに抽出された車両軌跡T40から、現在の画像フレームまでに抽出された車両軌跡T41に更新される。 Similarly, the trajectory of the vehicle A2 is updated from the vehicle trajectory T20 extracted up to one frame before the current image frame to the vehicle trajectory T21 extracted up to the current image frame. The trajectory of the vehicle A3 is updated from a vehicle trajectory T30 extracted up to one frame before the current image frame to a vehicle trajectory T31 extracted up to the current image frame. The trajectory of the vehicle A4 is updated from a vehicle trajectory T40 extracted up to one frame before the current image frame to a vehicle trajectory T41 extracted up to the current image frame.
(計測処理部116)
図3に戻って説明を続ける。続いて、計測処理部116は、移動軌跡抽出部115によって同一とみなされた車両の速度を計測する(S14)。車両の速度は、どのようにして計測されてもよい。さらに、計測処理部116は、計測した速度に基づいて停止車両を検知する(S15)。例えば、計測処理部116は、速度がゼロの車両を停止車両として検知する。続いて、計測処理部116は、既に説明したように、カメラ20から入力される動画像に設定された計測線L0(図7)を跨いだ車両台数(すなわち、車両軌跡の数)を計測する(S16)。例えば、計測処理部116は、計測線L0(図7)を跨いだ車両台数(すなわち、車両軌跡の数)を、車両軌跡が跨いだ方向別に計測する。
(Measurement processing unit 116)
Returning to FIG. 3, the explanation will be continued. Subsequently, the
図7は、計測線を跨いだ車両台数の計測の例を示す図である。図7には、現在の画像フレームG5が示されており、現在の画像フレームまでに抽出された車両軌跡T11~T41が示されている。図7を参照すると、車両軌跡T11、T21、T41は、計測線L0を跨いでいない。一方、車両軌跡T31は、計測線L0を方向D1に跨いだところである。したがって、計測処理部116は、計測線L0を方向D1に跨いだ車両台数に1を加算させればよい。
FIG. 7 is a diagram showing an example of measuring the number of vehicles that straddle the measurement line. FIG. 7 shows the current image frame G5, and shows vehicle trajectories T11 to T41 extracted up to the current image frame. Referring to FIG. 7, vehicle trajectories T11, T21, and T41 do not straddle measurement line L0. On the other hand, the vehicle trajectory T31 straddles the measurement line L0 in the direction D1. Therefore, the
(改善可能な点)
以上、本発明の実施形態に係る移動物体抽出システム1の動作の例について説明してきたが、以上に説明した移動物体抽出システム1には改善可能な点がある。そこで、以下では、改善可能な点について説明する。
(Points that can be improved)
Although an example of the operation of the moving
図8は、本発明の実施形態に係る移動物体抽出システム1における改善可能な点について説明するための図である。上記では、各画像フレームから車両を検知する処理について説明した。具体的には、各画像フレームから車両を検知する処理は、重処理量モデルM1または軽処理量モデルM2によって行われ得る。
FIG. 8 is a diagram for explaining possible improvements in the moving
ここで、重処理量モデルM1は、(軽処理量モデルM2の演算量よりも)演算量が大きいため、ある程度よりも小さいサイズで画像フレームに写る物体(以下、「小物体」とも言う。)も高精度に検知可能である。しかし、重処理量モデルM1では、画像フレーム1つに対する処理に多くの時間が掛かるため、単位時間あたりに処理可能な画像フレームの数が比較的少なくなってしまう。したがって、重処理量モデルM1は、物体軌跡のフレームレートがあまり向上しないという特徴を有する。 Here, since the heavy processing amount model M1 has a larger amount of calculation (than the amount of calculation of the light processing amount model M2), an object (hereinafter also referred to as a "small object") that is smaller than a certain size in the image frame. can also be detected with high precision. However, in the heavy processing amount model M1, since it takes a long time to process one image frame, the number of image frames that can be processed per unit time is relatively small. Therefore, the heavy throughput model M1 has the characteristic that the frame rate of the object trajectory does not improve much.
一方、軽処理量モデルM2では、画像フレーム1つに対する処理に少ない時間しか掛からないため、単位時間あたりに処理可能な画像フレームの数は比較的多くなる。したがって、軽処理量モデルM2では、物体軌跡のフレームレートが高く維持され得る。しかし、軽処理量モデルM2は、(重処理量モデルM1の演算量よりも)演算量が小さいため、小物体の検知精度があまり向上しないという特徴を有する。以下では、ある程度よりも大きいサイズで画像フレームに写る物体を、「大物体」とも言う。 On the other hand, in the light processing amount model M2, since it takes only a short time to process one image frame, the number of image frames that can be processed per unit time is relatively large. Therefore, in the light processing amount model M2, the frame rate of the object trajectory can be maintained high. However, since the light processing amount model M2 has a smaller amount of calculations (than the amount of calculations of the heavy processing amount model M1), it has the characteristic that the detection accuracy of small objects does not improve much. In the following, an object that is larger than a certain size and appears in the image frame will also be referred to as a "large object."
以下では、実際に画像フレームから重処理量モデルM1および軽処理量モデルM2それぞれによって物体がどのように検知されるかを説明しながら、重処理量モデルM1および軽処理量モデルM2それぞれの特徴について、より具体的に説明する。 Below, while explaining how objects are actually detected from image frames by the heavy-throughput model M1 and the light-throughput model M2, we will explain the characteristics of the heavy-throughput model M1 and the light-throughput model M2. , will be explained more specifically.
図8は、重処理量モデルM1および軽処理量モデルM2それぞれの特徴について説明するための図である。図8を参照すると、図4に示された画像フレームG1と同様の画像フレームG1が示されている。 FIG. 8 is a diagram for explaining the characteristics of the heavy throughput model M1 and the light throughput model M2. Referring to FIG. 8, an image frame G1 similar to image frame G1 shown in FIG. 4 is shown.
ここで、(画像フレームG1を撮像する)カメラ20との距離がある距離よりも小さい領域(近距離領域R1)に存在する物体(例えば、車両A1~A4)は、同一サイズの物体であっても画像フレームG1にはある程度よりも大きいサイズで写る。したがって、近距離領域R1に存在する物体は、精度が比較的低いモデルによっても検知され得る。さらに、近距離領域R1に写る物体は、カメラ20との距離が比較的小さいため、画像フレームG1における単位時間あたりの移動量が大きくなる。したがって、近距離領域R1に存在する物体の追跡には、比較的高いフレームレートの動画像が必要となる。
Here, objects (for example, vehicles A1 to A4) that exist in an area (near-distance area R1) where the distance to the camera 20 (which captures the image frame G1) is smaller than a certain distance are objects of the same size. is also reflected in the image frame G1 at a size larger than a certain degree. Therefore, an object existing in the short distance region R1 can be detected even by a model with relatively low accuracy. Furthermore, since the distance from the
一方、カメラ20との距離がある距離よりも大きい領域(遠距離領域R2)に存在する物体(例えば、車両A5)は、同一サイズの物体であっても画像フレームG1にはある程度よりも小さいサイズで写る。したがって、遠距離領域R2に存在する物体は、比較的精度が高いモデルによって検知される必要がある。さらに、遠距離領域R2に写る物体は、カメラ20との距離が比較的大きいため、画像フレームG1における単位時間あたりの移動量が小さくなる。したがって、遠距離領域R2に存在する物体は、比較的低いフレームレートの動画像からでも追跡され得る。
On the other hand, an object (for example, a vehicle A5) that exists in an area where the distance from the
(本実施形態による改善案)
以上を考慮すると、近距離領域R1に存在する物体は、精度が比較的低い軽処理量モデルM2によって検知されてよく、比較的多い実行頻度によって検知される(すなわち、比較的高いフレームレートの動画像から検知される)のが望ましいということになる。一方、遠距離領域R2に存在する物体は、精度が比較的高い重処理量モデルM1によって検知されるのが望ましく、比較的少ない実行頻度によって検知されてよい(すなわち、比較的低いフレームレートの動画像から検知されてよい)ということになる。
(Improvement proposal according to this embodiment)
Considering the above, an object existing in the short-distance region R1 may be detected by the light-throughput model M2 with relatively low accuracy, and is detected with a relatively high execution frequency (i.e., a video with a relatively high frame rate). This means that it is desirable to have the sensor detected from the image. On the other hand, objects existing in the long-distance region R2 are preferably detected by the high-accuracy heavy-throughput model M1, and may be detected by a relatively low execution frequency (i.e., a moving image with a relatively low frame rate). (can be detected from the image).
より詳細に、画像フレーム分配部112は、カメラ20から時系列に沿って連続的に入力される複数の画像フレーム(動画像)を取得する。そして、画像フレーム分配部112は、軽処理量モデルM2による物体検知の実行頻度が重処理量モデルM1による物体検知の実行頻度以上になるように画像フレームごとに重処理量モデルM1または軽処理量モデルM2に動画像を分配する。さらに、移動軌跡抽出部115は、重処理量モデルM1による物体検知の結果と軽処理量モデルM2による物体検知の結果とに基づいて、動画像中の物体の軌跡を抽出する。
More specifically, the image
かかる構成によれば、大物体は、精度が比較的高い重処理量モデルM1によって検知されるため、移動物体の検知精度の低下が抑制され得る。さらに、かかる構成によれば、小物体は、比較的多い実行頻度によって軽処理量モデルM2によって検知されるため、移動物体の軌跡の追跡精度の低下が抑制され得る。 According to this configuration, a large object is detected by the heavy throughput model M1 with relatively high accuracy, so that a decrease in the detection accuracy of a moving object can be suppressed. Furthermore, according to this configuration, a small object is detected by the light-throughput model M2 with a relatively high execution frequency, so that a decrease in tracking accuracy of the trajectory of a moving object can be suppressed.
図9は、画像フレーム分配部112および移動軌跡抽出部115の具体的な機能について説明するための図である。図9には、カメラ20から画像フレーム分配部112に入力される動画像(複数の画像フレーム)の例として、時刻の古いほうから順に、画像フレームG11~G16が示されている。
FIG. 9 is a diagram for explaining specific functions of the image
画像フレーム分配部112は、カメラ20から1番目の画像フレームG11が入力されると、1番目の画像フレームG11を軽処理量モデルM2に出力することによって、軽処理量モデルM2に大物体の検出を実行させる。続いて、画像フレーム分配部112は、カメラ20から2番目の画像フレームG12が入力されると、2番目の画像フレームG12を軽処理量モデルM2に出力することによって、軽処理量モデルM2に大物体の検出を実行させる。
When the first image frame G11 is input from the
このとき、移動軌跡抽出部115は、1番目の画像フレームG11から得られた大物体の特徴量と2番目の画像フレームG12から得られた大物体の特徴量との類似度と閾値とを比較する。移動軌跡抽出部115は、特徴量同士の類似度が閾値よりも大きい場合に、1番目の画像フレームG11から得られた大物体の位置(例えば、車両領域の位置)と、2番目の画像フレームG12から得られた大物体の位置(例えば、車両領域の位置)とを対応付ける。
At this time, the movement
続いて、画像フレーム分配部112は、カメラ20から3番目の画像フレームG13が入力されると、3番目の画像フレームG13を重処理量モデルM1に出力することによって、重処理量モデルM1に小物体および大物体の検出を実行させる。
Subsequently, when the third image frame G13 is input from the
このとき、移動軌跡抽出部115は、2番目の画像フレームG12から得られた大物体の特徴量と3番目の画像フレームG13から得られた大物体の特徴量との類似度と閾値とを比較する。移動軌跡抽出部115は、特徴量同士の類似度が閾値よりも大きい場合に、2番目の画像フレームG12から得られた大物体の位置(例えば、車両領域の位置)と、3番目の画像フレームG13から得られた大物体の位置(例えば、車両領域の位置)とを対応付ける。
At this time, the movement
4番目の画像フレームG14、5番目の画像フレームG15、および、6番目の画像フレームG16がカメラ20から入力された場合には、1番目の画像フレームG11、2番目の画像フレームG12、および、3番目の画像フレームG13がカメラ20から入力された場合に実行される処理と同様な処理が再度実行される。
When the fourth image frame G14, the fifth image frame G15, and the sixth image frame G16 are input from the
ただし、移動軌跡抽出部115は、3番目の画像フレームG13から得られた小物体の特徴量と6番目の画像フレームG16から得られた小物体の特徴量との類似度と閾値とを比較する。そして、移動軌跡抽出部115は、特徴量同士の類似度が閾値よりも大きい場合に、図9に示されたように、3番目の画像フレームG13から得られた小物体の位置(例えば、車両領域の位置)と、6番目の画像フレームG16から得られた小物体の位置(例えば、車両領域の位置)とを対応付ける。
However, the movement
このように、画像フレーム分配部112から重処理量モデルM1に入力された現在の画像フレーム(第1の画像フレーム)と過去の画像フレーム(第1の画像フレーム)とのそれぞれから重処理量モデルM1によって小物体(第2の物体)の特徴量が得られる。そして、移動軌跡抽出部115によって類似度同士の類似度が閾値よりも大きい場合に、当該現在の画像フレームおよび当該過去の画像フレームそれぞれにおける小物体(第2の物体)の位置同士を対応付ける処理が実行される。これらが繰り返し実行されることにより、小物体の軌跡が抽出される。
In this way, a heavy throughput model is generated from each of the current image frame (first image frame) and the past image frame (first image frame) input to the heavy throughput model M1 from the image
また、画像フレーム分配部112から軽処理量モデルM2に入力された現在の画像フレーム(第2の画像フレーム)と過去の画像フレーム(第2の画像フレーム)とのそれぞれから軽処理量モデルM2によって大物体(第1の物体)の特徴量が得られる。そして、移動軌跡抽出部115によって類似度同士の類似度が閾値よりも大きい場合に、当該現在の画像フレームおよび当該過去の画像フレームそれぞれにおける大物体(第1の物体)の位置同士を対応付ける処理が実行される。これらが繰り返し実行されることにより、大物体の軌跡が抽出される。
Further, the light processing amount model M2 is used from each of the current image frame (second image frame) and the past image frame (second image frame) inputted to the light processing amount model M2 from the image
図9に示された例では、軽処理量モデルM2による物体検知の頻度が重処理量モデルM1による物体検知の頻度以上になるように構成された1つの繰り返し単位(所定の単位)が構成されている。そして、画像フレーム分配部112は、かかる繰り返し単位が繰り返し実行されるように動画像を分配している。より詳細に、図9に示された例では、1つの実行単位が、連続する二つの画像フレームから軽処理量モデルM2によって物体検知がされた後に、一つの画像フレームから重処理量モデルM1によって物体検知がなされるように構成されている。
In the example shown in FIG. 9, one repeating unit (predetermined unit) is configured such that the frequency of object detection by the light throughput model M2 is greater than or equal to the frequency of object detection by the heavy throughput model M1. ing. Then, the image
ここで、1つの繰り返し単位はどのように構成されてもよい。しかし、例えば、図9に示されたように、1つの繰り返し単位に重処理量モデルM1によって物体検知がなされる画像フレームが一つだけ含まれていれば、この繰り返し単位が繰り返し実行されることによって、重処理量モデルM1による物体検知も一定のフレーム間隔にて行われるようになる。すなわち、重処理量モデルM1による小物体の検知が一定のフレーム間隔にて行われるようになる。なお、大物体の検知は、重処理量モデルM1および軽処理量モデルM2の双方によって行われるため、繰り返し単位の構成によらず、一定のフレーム間隔にて行われ得る。 Here, one repeating unit may be configured in any manner. However, for example, as shown in FIG. 9, if one repeating unit includes only one image frame in which object detection is performed by the heavy-throughput model M1, this repeating unit will be repeatedly executed. Accordingly, object detection by the heavy-throughput model M1 is also performed at constant frame intervals. That is, detection of small objects by the heavy throughput model M1 is performed at regular frame intervals. Note that since detection of a large object is performed by both the heavy-throughput model M1 and the light-throughput model M2, it can be performed at constant frame intervals regardless of the configuration of the repeating unit.
(分散処理)
本発明の実施形態では、互いに特性の異なる複数の演算デバイスが並列化されており、当該複数の演算デバイスによる分散処理が行われる場合を想定する。これによって高いパフォーマンスの演算が行われ得る。
(Distributed processing)
In an embodiment of the present invention, a case is assumed in which a plurality of arithmetic devices having mutually different characteristics are parallelized and distributed processing is performed by the plurality of arithmetic devices. This allows high performance calculations to be performed.
ここで、重処理量モデルM1は、第1の演算デバイスにおいて実行され、軽処理量モデルM2は、第1の演算デバイスとは物理的に異なる第2の演算デバイスにおいて実行されるものとする。重処理量モデルM1が実行される演算デバイス(第1の演算デバイス)は、軽処理量モデルM2が実行される演算デバイス(第2の演算デバイス)よりも演算能力が高いのが望ましい。これによって、必要な演算量に合った演算デバイスによって各モデルが実行されるため、処理可能な動画像のフレームレートの低下が抑制され得る。なお、ここで言う“演算能力が高い”とは、必ずしも演算速度の速さのみで決定されるものではない。例えば、演算速度がデバイスA>デバイスBであっても、デバイスAのメモリ搭載量が重処理モデルM1を動かすことができる量より少ない場合、重処理モデルM1は動作できないため、動作に十分なメモリ搭載量のデバイスBの方を“演算能力が高い”と見做して、デバイスBで動作させることもできる。 Here, it is assumed that the heavy-throughput model M1 is executed on a first computing device, and the light-throughput model M2 is executed on a second computing device that is physically different from the first computing device. It is desirable that the arithmetic device (first arithmetic device) on which the heavy throughput model M1 is executed has a higher arithmetic capacity than the arithmetic device (second arithmetic device) on which the light throughput model M2 is executed. As a result, each model is executed by a calculation device suitable for the required amount of calculation, so that a decrease in the frame rate of processable moving images can be suppressed. Note that "high computing power" as used herein does not necessarily mean that it is determined only by the speed of computing. For example, even if the calculation speed is device A > device B, if the amount of memory installed in device A is less than the amount that can run heavy processing model M1, heavy processing model M1 cannot operate, so there is insufficient memory for operation. It is also possible to operate with device B, considering that the loaded device B has "higher computing power".
以下では、演算デバイスの例としてプロセッサが用いられる場合を主に想定する。しかし、演算デバイスは、演算に用いられるデバイスであればよいため、演算デバイスの種類は特に限定されない。例えば、演算デバイスは、メモリなどであってもよい。以下では、分散処理の例について説明する。 In the following, it is mainly assumed that a processor is used as an example of a calculation device. However, the type of arithmetic device is not particularly limited, as the arithmetic device may be any device used for arithmetic operations. For example, the computing device may be a memory or the like. An example of distributed processing will be described below.
なお、以下では、複数のプロセッサが、1つ目のCPU(以下、「CPU♯1」とも表記する。)、2つ目のCPU(以下、「CPU♯2」とも表記する。)、および、AIチップを含む場合について説明する。AIチップは、CPUよりも演算能力が高い演算デバイスの例として用いられる。しかし、プロセッサの種類はこれらに限定されない。例えば、複数のプロセッサは、GPUまたはFPGAなどを含んでもよい。
Note that in the following description, the plurality of processors includes a first CPU (hereinafter also referred to as "
図10は、分散処理の例について説明するための図である。図10に示されるように、CPU♯1、CPU♯2およびAIチップそれぞれには、重処理量モデルM1を用いた推論要求(すなわち、重処理量モデルM1による物体検知の要求)、または、軽処理量モデルM2を用いた推論要求(すなわち、軽処理量モデルM2による物体検知の要求)が出力される。推論要求は、画像フレーム分配部112から出力され得る。
FIG. 10 is a diagram for explaining an example of distributed processing. As shown in FIG. 10, each of
(軽処理量モデルM2を用いる)1つ目の推論要求r1は、演算能力が比較的低いCPU♯1に出力される。続いて、(軽処理量モデルM2を用いる)2つ目の推論要求r2は、演算能力が比較的低いCPU♯2に出力される。さらに、(重処理量モデルM1を用いる)3つ目の推論要求は、演算能力が比較的高いAIチップに出力される。このようにして推論要求が各プロセッサに分配され、各プロセッサによって推論要求に基づく推論が実行されると、1つの繰り返し単位(デバイス周回1回目)が終了する。
The first inference request r1 (using the light throughput model M2) is output to the
推論要求r4~r6も同様に各プロセッサに分配され、各プロセッサによって推論要求に基づく推論が実行されると、繰り返し単位(デバイス周回2回目)が終了する。推論要求r7~r12も同様に各プロセッサに分配され、推論要求r12に続く推論要求も同様に各プロセッサに分配され、各プロセッサによって推論要求に基づく推論が実行される。これによって、必要な演算量に合ったプロセッサによって重処理量モデルM1および軽処理量モデルM2が実行されるため、処理可能な動画像のフレームレートの低下が抑制され得る。 Inference requests r4 to r6 are similarly distributed to each processor, and when each processor executes inference based on the inference requests, the repetition unit (second device rotation) ends. Inference requests r7 to r12 are similarly distributed to each processor, inference requests following inference request r12 are similarly distributed to each processor, and inference based on the inference request is executed by each processor. As a result, the heavy-throughput model M1 and the light-throughput model M2 are executed by a processor suitable for the required amount of calculations, so that a decrease in the frame rate of processable moving images can be suppressed.
以上、本発明の実施形態に係る移動物体抽出システム1の動作の例について説明した。
An example of the operation of the moving
(2.ハードウェア構成例)
続いて、本発明の実施形態に係る移動物体抽出装置10のハードウェア構成例について説明する。以下では、本発明の実施形態に係る移動物体抽出装置10のハードウェア構成例として、情報処理装置900のハードウェア構成例について説明する。なお、以下に説明する情報処理装置900のハードウェア構成例は、移動物体抽出装置10のハードウェア構成の一例に過ぎない。したがって、移動物体抽出装置10のハードウェア構成は、以下に説明する情報処理装置900のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。
(2. Hardware configuration example)
Next, an example of the hardware configuration of the moving
図11は、本発明の実施形態に係る移動物体抽出装置10の例としての情報処理装置900のハードウェア構成を示す図である。情報処理装置900は、CPU(Central Processing Unit)♯1(901-1)と、CPU♯2(901-2)と、AIチップ901-3と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904と、ブリッジ905と、外部バス906と、インタフェース907と、入力装置908と、出力装置909と、ストレージ装置910と、通信装置911と、を備える。
FIG. 11 is a diagram showing a hardware configuration of an
CPU♯1(901-1)、CPU♯2(901-2)、AIチップ(901-3)は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU♯1(901-1)、CPU♯2(901-2)、AIチップ(901-3)は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバス等から構成されるホストバス904により相互に接続されている。
CPU #1 (901-1), CPU #2 (901-2), and AI chip (901-3) function as an arithmetic processing unit and a control device, and control overall operations within the
ホストバス904は、ブリッジ905を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス906に接続されている。なお、必ずしもホストバス904、ブリッジ905および外部バス906を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
The
入力装置908は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置900を操作するユーザは、この入力装置908を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
The
出力装置909は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。
The
ストレージ装置910は、データ格納用の装置である。ストレージ装置910は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置910は、例えば、HDD(Hard Disk Drive)で構成される。このストレージ装置910は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
The
通信装置911は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置911は、無線通信または有線通信のどちらに対応してもよい。
The
以上、本発明の実施形態に係る移動物体抽出装置10のハードウェア構成例について説明した。
The example hardware configuration of the moving
(3.まとめ)
以上に説明したように、本発明の実施形態によれば、第1の演算量によって画像フレーム中の物体検知を行う重処理量モデルM1と、第1の演算量よりも小さい第2の演算量によって画像フレーム中の物体検知を行う軽処理量モデルM2と、を備える、移動物体抽出装置10が提供される。さらに、移動物体抽出装置10は、画像フレーム分配部112および移動軌跡抽出部115を備える。
(3. Summary)
As described above, according to the embodiment of the present invention, there is a heavy processing amount model M1 that detects an object in an image frame using a first amount of calculation, and a second amount of calculation that is smaller than the first amount of calculation. A moving
画像フレーム分配部112は、複数の画像フレームから構成された動画像を取得し、軽処理量モデルM2による物体検知の実行頻度が重処理量モデルM1による物体検知の実行頻度よりも多くなるように画像フレームごとに重処理量モデルM1または軽処理量モデルM2に動画像を分配する。そして、移動軌跡抽出部115は、重処理量モデルM1による物体検知の結果と軽処理量モデルM2による物体検知の結果とに基づいて、動画像中の物体の軌跡を抽出する。
The image
かかる構成によれば、大物体は、精度が比較的高い重処理量モデルM1によって検知されるため、移動物体の検知精度の低下が抑制され得る。さらに、かかる構成によれば、小物体は、比較的多い実行頻度によって軽処理量モデルM2によって検知されるため、移動物体の軌跡の追跡精度の低下が抑制され得る。 According to this configuration, a large object is detected by the heavy throughput model M1 with relatively high accuracy, so that a decrease in the detection accuracy of a moving object can be suppressed. Furthermore, according to this configuration, a small object is detected by the light-throughput model M2 with a relatively high execution frequency, so that a decrease in tracking accuracy of the trajectory of a moving object can be suppressed.
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 Although preferred embodiments of the present invention have been described above in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is clear that a person with ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea stated in the claims. It is understood that these also naturally fall within the technical scope of the present invention.
例えば、上記では、移動物体抽出装置10とカメラ20とが別体として構成されている場合を主に説明した。しかし、移動物体抽出装置10とカメラ20とは、一体化されて構成されていてもよい。
For example, above, the case where the moving
1 移動物体抽出システム
10 移動物体抽出装置
110 制御部
111 車両検出部
112 画像フレーム分配部
115 移動軌跡抽出部
116 計測処理部
130 記憶部
20 カメラ
L0 計測線
M1 重処理量モデル(第1のモデル)
M2 軽処理量モデル(第2のモデル)
1 Moving
M2 light throughput model (second model)
Claims (9)
前記第1の演算量よりも小さい第2の演算量によって画像フレームにおける前記第1の物体の検知を行う第2のモデルと、
複数の画像フレームから構成された動画像を取得し、前記第2のモデルによる物体検知の実行頻度が前記第1のモデルによる物体検知の実行頻度よりも多くなるように画像フレームごとに前記第1のモデルまたは前記第2のモデルに前記動画像を分配する画像フレーム分配部と、
前記第1のモデルによる物体検知の結果と前記第2のモデルによる物体検知の結果とに基づいて、前記動画像における前記第1の物体の軌跡を抽出する第1の移動軌跡抽出部と、
前記第1のモデルによる物体検知の結果に基づいて、前記動画像における前記第2の物体の軌跡を抽出する第2の移動軌跡抽出部と、
を備える、移動物体抽出装置。 a first model that detects a first object in an image frame and a second object that is smaller than the first object using a first amount of calculation;
a second model that detects the first object in an image frame with a second amount of calculation that is smaller than the first amount of calculation;
A moving image composed of a plurality of image frames is acquired, and the first model is detected for each image frame so that the frequency of execution of object detection by the second model is higher than the frequency of execution of object detection by the first model. an image frame distribution unit that distributes the moving image to the model or the second model;
a first movement trajectory extraction unit that extracts a trajectory of the first object in the video image based on a result of object detection by the first model and a result of object detection by the second model;
a second movement trajectory extraction unit that extracts a trajectory of the second object in the video image based on a result of object detection by the first model ;
A moving object extraction device comprising:
請求項1に記載の移動物体抽出装置。 The image frame distribution unit is configured to distribute the moving image so that a predetermined unit configured such that the frequency of object detection by the second model is equal to or higher than the frequency of object detection by the first model is repeatedly executed. distribute,
The moving object extraction device according to claim 1.
前記第2のモデルは、前記第1の演算デバイスとは物理的に異なる第2の演算デバイスにおいて実行され、
前記第1の演算デバイスは、前記第2の演算デバイスよりも演算能力が高い、
請求項1または2に記載の移動物体抽出装置。 the first model is executed on a first computing device;
the second model is executed on a second computing device that is physically different from the first computing device;
the first computing device has higher computing power than the second computing device;
The moving object extraction device according to claim 1 or 2.
請求項1~3のいずれか一項に記載の移動物体抽出装置。 The movement trajectory extraction unit is configured to extract information obtained by the first model from each of a current first image frame and a past first image frame that are input to the first model from the image frame distribution unit. a process of associating the positions of the second object in each of the current first image frame and the past first image frame when the degree of similarity between the feature amounts of the second object is greater than a threshold; Extracting the trajectory of the second object by repeating
The moving object extraction device according to any one of claims 1 to 3.
前記画像フレーム分配部から前記第2のモデルに入力された第2の画像フレームと当該第2の画像フレームよりも1または2以上前のフレームである過去の画像フレーとのそれぞれから前記第2のモデルによって得られた前記第1の物体の特徴量同士の類似度が閾値よりも大きい場合に、前記第2の画像フレームおよび前記過去の画像フレームそれぞれにおける前記第1の物体の位置同士を対応付ける処理と、
前記画像フレーム分配部から前記第1のモデルに入力された現在の第1の画像フレームから前記第1のモデルによって得られた前記第1の物体の特徴量と前記第2の画像フレームから前記第2のモデルによって得られた前記第1の物体の特徴量との類似度が閾値よりも大きい場合に、前記現在の第1の画像フレームおよび前記第2の画像フレームそれぞれにおける前記第1の物体の位置同士を対応付ける処理と、
を繰り返すことにより、前記第1の物体の軌跡を抽出する、
請求項1~4のいずれか一項に記載の移動物体抽出装置。 The movement trajectory extraction unit includes:
The second image frame is extracted from each of the second image frame input to the second model from the image frame distribution unit and a past image frame that is one or more frames before the second image frame. When the degree of similarity between the feature amounts of the first object obtained by the model is greater than a threshold, the positions of the first object in each of the second image frame and the past image frame are The process of associating
The feature amount of the first object obtained by the first model from the current first image frame input to the first model from the image frame distribution unit and the feature amount of the first object from the second image frame of the first object in each of the current first image frame and the second image frame when the similarity with the feature amount of the first object obtained by the model No. 2 is larger than a threshold value. The process of associating positions with each other,
Extracting the trajectory of the first object by repeating
The moving object extraction device according to any one of claims 1 to 4.
請求項1~5のいずれか一項に記載の移動物体抽出装置。 The moving object extraction device includes a measurement processing unit that measures the number of trajectories of the first object and the second object that straddle a measurement line set in the moving image.
The moving object extraction device according to any one of claims 1 to 5.
請求項6に記載の移動物体抽出装置。 The measurement processing unit measures the number of trajectories that straddle the measurement line in each direction in which the trajectories straddle the measurement line.
The moving object extraction device according to claim 6.
第1の演算量によって画像フレームにおける第1の物体の検知および前記第1の物体よりも小さい物体である第2の物体の検知を行う第1のモデルと、前記第1の演算量よりも小さい第2の演算量によって画像フレームにおける前記第1の物体の検知を行う第2のモデルと、のうち、前記第2のモデルによる物体検知の実行頻度が前記第1のモデルによる物体検知の実行頻度以上になるように画像フレームごとに前記第1のモデルまたは前記第2のモデルに前記動画像を分配することと、
前記第1のモデルによる物体検知の結果と前記第2のモデルによる物体検知の結果とに基づいて、前記動画像における前記第1の物体の軌跡を抽出することと、
前記第1のモデルによる物体検知の結果に基づいて、前記動画像における前記第2の物体の軌跡を抽出することと、
を含む、移動物体抽出方法。 Obtaining a moving image composed of multiple image frames;
a first model that detects a first object in an image frame and a second object that is smaller than the first object using a first amount of calculation; and a first model that is smaller than the first amount of calculation. a second model that detects the first object in an image frame using a second amount of calculation; distributing the moving image to the first model or the second model for each image frame so that
extracting a trajectory of the first object in the moving image based on a result of object detection by the first model and a result of object detection by the second model;
extracting a trajectory of the second object in the video image based on a result of object detection by the first model;
A moving object extraction method, including:
第1の演算量によって画像フレームにおける第1の物体の検知および前記第1の物体よりも小さい物体である第2の物体の検知を行う第1のモデルと、
前記第1の演算量よりも小さい第2の演算量によって画像フレームにおける前記第1の物体の検知を行う第2のモデルと、
複数の画像フレームから構成された動画像を取得し、前記第2のモデルによる物体検知の実行頻度が前記第1のモデルによる物体検知の実行頻度よりも多くなるように画像フレームごとに前記第1のモデルまたは前記第2のモデルに前記動画像を分配する画像フレーム分配部と、
前記第1のモデルによる物体検知の結果と前記第2のモデルによる物体検知の結果とに基づいて、前記動画像における前記第1の物体の軌跡を抽出する第1の移動軌跡抽出部と、
前記第1のモデルによる物体検知の結果に基づいて、前記動画像における前記第2の物体の軌跡を抽出する第2の移動軌跡抽出部と、
を備える移動物体抽出装置として機能させるためのプログラム。
computer,
a first model that detects a first object in an image frame and a second object that is smaller than the first object using a first amount of calculation;
a second model that detects the first object in an image frame with a second amount of calculation that is smaller than the first amount of calculation;
A moving image composed of a plurality of image frames is acquired, and the first model is detected for each image frame so that the frequency of execution of object detection by the second model is higher than the frequency of execution of object detection by the first model. an image frame distribution unit that distributes the moving image to the model or the second model;
a first movement trajectory extraction unit that extracts a trajectory of the first object in the video image based on a result of object detection by the first model and a result of object detection by the second model;
a second movement trajectory extraction unit that extracts a trajectory of the second object in the video image based on a result of object detection by the first model ;
A program for functioning as a moving object extraction device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020032245A JP7452094B2 (en) | 2020-02-27 | 2020-02-27 | Moving object extraction device, moving object extraction method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020032245A JP7452094B2 (en) | 2020-02-27 | 2020-02-27 | Moving object extraction device, moving object extraction method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135815A JP2021135815A (en) | 2021-09-13 |
JP7452094B2 true JP7452094B2 (en) | 2024-03-19 |
Family
ID=77661331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020032245A Active JP7452094B2 (en) | 2020-02-27 | 2020-02-27 | Moving object extraction device, moving object extraction method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7452094B2 (en) |
-
2020
- 2020-02-27 JP JP2020032245A patent/JP7452094B2/en active Active
Non-Patent Citations (1)
Title |
---|
姜明俊 他2名,ディープラーニングを用いた高速対象追跡,ロボティクスメカトロニクス講演会2018講演会論文集,一般社団法人日本機械学会,2018年06月01日,pp.2A1-K17(1) ~ 2A1-K17(4) |
Also Published As
Publication number | Publication date |
---|---|
JP2021135815A (en) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10359770B2 (en) | Estimation of abnormal sensors | |
US20150317284A1 (en) | Sensor output change detection | |
JP2011524049A (en) | System and method for parallelizing and speeding up training and classification of learning machines using massively parallel accelerators | |
JP2014095967A (en) | Information processing apparatus, information processing method and program | |
US20220108180A1 (en) | Method and apparatus for compressing artificial neural network | |
US20230206586A1 (en) | Method and apparatus with object tracking | |
US20210142512A1 (en) | Image processing method and image processing apparatus | |
JP7452095B2 (en) | Data processing device, data processing method and program | |
JP2022521540A (en) | Methods and systems for object tracking using online learning | |
JP6860084B2 (en) | Information processing equipment, information processing methods and programs | |
JP2020201939A (en) | System for reducing adversarial samples for ml models and ai models | |
JPWO2019092868A1 (en) | Information processing equipment, information processing methods and programs | |
JP2020109644A (en) | Fall detection method, fall detection apparatus, and electronic device | |
JP7452094B2 (en) | Moving object extraction device, moving object extraction method and program | |
US9927917B2 (en) | Model-based touch event location adjustment | |
CN113449539A (en) | Training method, device, equipment and storage medium for animal body information extraction model | |
WO2023109086A1 (en) | Character recognition method, apparatus and device, and storage medium | |
WO2022162844A1 (en) | Work estimation device, work estimation method, and work estimation program | |
US9460359B1 (en) | Predicting a target logogram | |
US20210312269A1 (en) | Neural network device for neural network operation, method of operating neural network device, and application processor including neural network device | |
CN113496139B (en) | Method and apparatus for detecting objects from images and training object detection models | |
JP7359206B2 (en) | Learning devices, learning methods, and programs | |
CN113642510A (en) | Target detection method, device, equipment and computer readable medium | |
KR102236802B1 (en) | Device and method for feature extraction of data for diagnostic models | |
CN113869529B (en) | Method for generating challenge samples, model evaluation method, device and computer device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7452094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |