JP7229954B2 - Object tracking device and object tracking method - Google Patents

Object tracking device and object tracking method Download PDF

Info

Publication number
JP7229954B2
JP7229954B2 JP2020009676A JP2020009676A JP7229954B2 JP 7229954 B2 JP7229954 B2 JP 7229954B2 JP 2020009676 A JP2020009676 A JP 2020009676A JP 2020009676 A JP2020009676 A JP 2020009676A JP 7229954 B2 JP7229954 B2 JP 7229954B2
Authority
JP
Japan
Prior art keywords
feature amount
behavior feature
unit
captured
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020009676A
Other languages
Japanese (ja)
Other versions
JP2021117635A (en
Inventor
仁志 西村
和之 田坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020009676A priority Critical patent/JP7229954B2/en
Publication of JP2021117635A publication Critical patent/JP2021117635A/en
Application granted granted Critical
Publication of JP7229954B2 publication Critical patent/JP7229954B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、オブジェクト追跡装置及びオブジェクト追跡方法に関する。 The present invention relates to an object tracking device and an object tracking method.

従来、撮像装置が撮像した撮像画像に映る人物等のオブジェクトを追跡することが行われている。例えば、非特許文献1には、オブジェクトの位置に関する特徴を示す位置特徴量と、オブジェクトの見え方を示す見え特徴量と、オブジェクトの行動の特徴を示す行動特徴量を用いてオブジェクトの追跡を行うことが開示されている。 2. Description of the Related Art Conventionally, an object such as a person appearing in a captured image captured by an imaging device is tracked. For example, in Non-Patent Document 1, an object is tracked using a position feature that indicates the feature of the position of the object, an appearance feature that indicates how the object looks, and an action feature that indicates the behavior of the object. is disclosed.

Gurkirt Singh, Suman Saha, Michael Sapienza, Philip H. S. Torr, and Fabio Cuzzolin, "Online Real-time Multiple Spatiotemporal Action Localisation and Prediction," IEEE International Conference on Computer Vision (ICCV), pp. 3637-3646, 2017年Gurkirt Singh, Suman Saha, Michael Sapienza, Philip H. S. Torr, and Fabio Cuzzolin, "Online Real-time Multiple Spatiotemporal Action Localization and Prediction," IEEE International Conference on Computer Vision (ICCV), pp. 3637-3646, 2017

非特許文献1では、撮像画像から行動特徴量を抽出する場合に、当該撮像画像に映るオブジェクトと、他の撮像画像に映るオブジェクトとの関係を考慮していない。しかしながら、行動は、動きを伴った結果判明するものであり、1つの撮像画像から精度良く行動特徴量を抽出することは困難である。したがって、非特許文献1では、位置や見え方が似ているオブジェクトに対する追跡精度が低下してしまうという問題があった。 In Non-Patent Document 1, when extracting a behavior feature amount from a captured image, the relationship between an object appearing in the captured image and objects appearing in other captured images is not taken into consideration. However, behavior is determined as a result of movement, and it is difficult to accurately extract behavior features from one captured image. Therefore, in Non-Patent Document 1, there is a problem that the tracking accuracy for objects that are similar in position and appearance is lowered.

そこで、本発明はこれらの点に鑑みてなされたものであり、オブジェクトを精度良く追跡することができるオブジェクト追跡装置及びオブジェクト追跡方法を提供することを目的とする。 Therefore, the present invention has been made in view of these points, and it is an object of the present invention to provide an object tracking device and an object tracking method capable of tracking an object with high accuracy.

本発明の第1の態様に係るオブジェクト追跡装置は、所定エリアを撮像する撮像装置が3以上の複数の時刻のそれぞれで撮像した3以上の複数の撮像画像を取得する取得部と、前記取得部が取得した前記複数の撮像画像のそれぞれから、前記撮像画像に映るオブジェクトを検出するオブジェクト検出部と、前記オブジェクト検出部が検出した前記オブジェクトに対応する前記撮像画像の部分画像に基づいて、前記オブジェクトの行動の特徴量を示す行動特徴量を抽出する行動特徴量抽出部と、前記行動特徴量抽出部が抽出した前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行う関連付け部と、を備え、前記行動特徴量抽出部は、前記関連付け部により関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた一以上の他のオブジェクトのそれぞれに対応する前記部分画像とに基づいて前記行動特徴量を再抽出し、前記関連付け部は、前記行動特徴量抽出部により再抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを再度行う。 An object tracking device according to a first aspect of the present invention includes an acquisition unit that acquires three or more captured images captured at each of three or more times by an imaging device that captures an image of a predetermined area, and the acquisition unit. an object detection unit for detecting an object appearing in the captured image from each of the plurality of captured images acquired by the object detection unit, and based on a partial image of the captured image corresponding to the object detected by the object detection unit a behavior feature quantity extracting unit for extracting a behavior feature quantity indicating the behavior feature quantity of each of the plurality of captured images captured at different times based on the behavior feature quantity extracted by the behavior feature quantity extraction unit; and an associating unit that associates the object detected by the object detecting unit from the object detection unit, and the behavior feature amount extracting unit associates each of the plurality of objects associated by the associating unit with the object. and the partial images corresponding to each of one or more other objects associated with the object, and the associating unit re-extracts the behavioral feature amount by the behavioral feature amount extraction unit Based on the re-extracted behavior feature amount, the objects detected by the object detection unit are re-associated from each of the plurality of captured images captured at different times.

前記取得部は、前記撮像装置が4以上の複数の時刻のそれぞれで撮像した4以上の複数の撮像画像を取得し、前記オブジェクト追跡装置は、前記行動特徴量抽出部による前記行動特徴量の再抽出と、前記関連付け部による前記オブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行う実行制御部をさらに備えてもよい。 The acquisition unit acquires a plurality of four or more captured images captured by the imaging device at each of a plurality of times of four or more, and the object tracking device reproduces the behavior feature amount by the behavior feature amount extraction unit. An execution control unit may be further provided for tracking the object by alternately and repeatedly executing the extraction and the re-association of the object by the associating unit until a predetermined condition is satisfied.

前記実行制御部は、前記関連付け部によるオブジェクトの関連付けを行った結果、当該関連付けを行った後において関連付けられているオブジェクトの数に対する、当該関連付けを行う前において関連付けられているオブジェクトの数の割合が所定の割合以上となるまで、前記行動特徴量抽出部による前記行動特徴量の再抽出と、前記関連付け部によるオブジェクトの関連付けとを交互に繰り返し実行させてもよい。 The execution control unit determines that, as a result of associating objects by the associating unit, the ratio of the number of objects associated before the association to the number of objects associated after the association is The re-extraction of the behavioral feature quantity by the behavioral feature quantity extraction unit and the association of the objects by the association unit may be alternately and repeatedly executed until a predetermined ratio or more is achieved.

前記行動特徴量抽出部は、前記関連付け部により関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する前記行動特徴量が示す行動傾向に基づいて、当該オブジェクトの前記行動特徴量の再抽出に用いる他のオブジェクトの数を変化させてもよい。 The behavior feature quantity extraction unit extracts the behavior feature quantity of each of the plurality of objects associated by the association unit based on the behavior tendency indicated by the behavior feature quantity corresponding to the object. The number of other objects used for re-sampling may vary.

前記オブジェクト検出部は、前記撮像画像に映る前記オブジェクトの位置を示すオブジェクト位置を特定することにより前記オブジェクトを検出し、前記行動特徴量抽出部は、前記オブジェクト検出部が特定した前記オブジェクト位置に対応する前記部分画像に基づいて、前記行動特徴量を抽出してもよい。 The object detection unit detects the object by specifying an object position indicating the position of the object in the captured image, and the behavior feature amount extraction unit corresponds to the object position specified by the object detection unit. The action feature amount may be extracted based on the partial image.

前記関連付け部は、前記オブジェクト検出部が特定した前記オブジェクト位置にさらに基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行ってもよい。 The association unit may associate the object detected by the object detection unit from each of the plurality of captured images captured at different times, further based on the object position specified by the object detection unit. .

前記オブジェクト追跡装置は、前記オブジェクト検出部が検出した前記オブジェクトの前記撮像画像における見え方を示す見え特徴量を抽出する見え特徴量抽出部をさらに備え、前記関連付け部は、前記見え特徴量抽出部が抽出した前記見え特徴量にさらに基づいて、撮像された時刻が異なる撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行ってもよい。 The object tracking device further includes an appearance feature quantity extraction unit for extracting appearance feature quantity indicating how the object detected by the object detection unit appears in the captured image, wherein the association unit comprises: the appearance feature quantity extraction unit The object detected by the object detection unit may be associated with each of the captured images captured at different times, further based on the appearance feature amount extracted by.

前記行動特徴量抽出部は、前記オブジェクト検出部が検出した前記オブジェクトに対応する前記撮像画像の前記部分画像と、当該撮像画像が撮像された時刻の前の時刻又は後の時刻に撮像された撮像画像の前記部分画像との差分に基づいて、前記行動特徴量を抽出してもよい。 The behavior feature amount extraction unit extracts the partial image of the captured image corresponding to the object detected by the object detection unit and an image captured at a time before or after the captured image is captured. The action feature amount may be extracted based on the difference between the image and the partial image.

前記行動特徴量抽出部は、前記オブジェクト検出部が検出した前記オブジェクトを含む前記部分画像である第1部分画像と、前記オブジェクトを含み、前記第1部分画像より表示領域が大きい前記部分画像である第2部分画像に基づいて、前記行動特徴量を抽出してもよい。 The behavior feature amount extraction unit is a first partial image that is the partial image including the object detected by the object detection unit, and the partial image that includes the object and has a display area larger than that of the first partial image. The behavior feature amount may be extracted based on the second partial image.

前記行動特徴量抽出部は、前記部分画像の入力に対して前記行動特徴量を出力するニューラルネットワークに、前記オブジェクトに対応する前記部分画像と、当該オブジェクトとの関連付けが行われた一以上の前記他のオブジェクトに対応する前記部分画像とを入力し、前記ニューラルネットワークから出力された複数の行動特徴量に基づいて、当該オブジェクトの前記行動特徴量を再抽出してもよい。 The action feature amount extraction unit supplies a neural network that outputs the action feature amount in response to the input of the partial image to the partial image corresponding to the object and one or more of the one or more associated objects. The partial image corresponding to another object may be input, and the action feature amount of the object may be re-extracted based on a plurality of action feature amounts output from the neural network.

前記行動特徴量抽出部は、前記部分画像の入力に対して前記行動特徴量を出力するニューラルネットワークに、前記オブジェクトに対応する前記部分画像を入力し、前記ニューラルネットワークにおける中間層が示す特徴量を取得し、取得した特徴量に基づいて、当該オブジェクトの前記行動特徴量を抽出してもよい。 The action feature amount extraction unit inputs the partial image corresponding to the object to a neural network that outputs the action feature amount in response to the input of the partial image, and extracts the feature amount indicated by an intermediate layer in the neural network. The action feature amount of the object may be extracted based on the acquired feature amount.

前記行動特徴量抽出部は、前記部分画像の入力に対して前記行動特徴量を出力するニューラルネットワークに、前記オブジェクトに対応する前記部分画像と、当該オブジェクトとの関連付けが行われた一以上の前記他のオブジェクトに対応する前記部分画像とを入力し、前記ニューラルネットワークにおける中間層が示す特徴量を取得し、取得した特徴量に基づいて、当該オブジェクトの前記行動特徴量を再抽出してもよい。 The action feature amount extraction unit supplies a neural network that outputs the action feature amount in response to the input of the partial image to the partial image corresponding to the object and one or more of the one or more associated objects. The partial image corresponding to another object may be input, the feature amount indicated by the intermediate layer in the neural network may be obtained, and the behavior feature amount of the object may be re-extracted based on the obtained feature amount. .

本発明の第2の態様に係るオブジェクト追跡方法は、コンピュータが実行する、所定エリアを撮像する撮像装置が3以上の複数の時刻のそれぞれで撮像した3以上の複数の撮像画像を取得するステップと、取得された前記複数の撮像画像のそれぞれから、前記撮像画像に映るオブジェクトを検出するステップと、検出された前記オブジェクトに対応する前記撮像画像の部分画像に基づいて、前記オブジェクトの行動の特徴量を示す行動特徴量を抽出するステップと、抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから検出された前記オブジェクトの関連付けを行うステップと、関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた一以上の他のオブジェクトのそれぞれに対応する前記部分画像とに基づいて前記行動特徴量を再抽出するステップと、再抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから検出された前記オブジェクトの関連付けを再度行うステップと、を有する。 An object tracking method according to a second aspect of the present invention is a computer-executed step of acquiring three or more captured images captured at three or more times by an imaging device that captures an image of a predetermined area. a step of detecting an object appearing in the captured image from each of the plurality of acquired captured images; and a feature amount of behavior of the object based on a partial image of the captured image corresponding to the detected object. and a step of associating the object detected from each of the plurality of captured images taken at different times based on the extracted behavioral feature quantity, and the association is For each of the plurality of objects performed, the behavior feature amount is reproduced based on a partial image corresponding to the object and the partial images corresponding to one or more other objects associated with the object. and re-associating the object detected from each of the plurality of captured images captured at different times based on the re-extracted behavior feature amount.

本発明によれば、オブジェクトを精度良く追跡することができるという効果を奏する。 ADVANTAGE OF THE INVENTION According to this invention, it is effective in the ability to track an object precisely.

本実施形態に係るオブジェクト追跡装置の概要を示す図である。It is a figure which shows the outline|summary of the object tracking device which concerns on this embodiment. オブジェクトの関連付けの例について示す図である。FIG. 10 is a diagram showing an example of object association; 本実施形態に係るオブジェクト追跡装置の構成を示す図である。It is a figure which shows the structure of the object tracking device which concerns on this embodiment. オブジェクトの関連付けが行われていない場合における行動特徴量情報の抽出例を示す図である。FIG. 10 is a diagram showing an example of extraction of behavioral feature amount information when objects are not associated; オブジェクトの関連付けが行われている場合における行動特徴量情報の抽出例を示す図である。FIG. 10 is a diagram showing an example of extraction of behavior feature amount information when objects are associated; 本実施形態に係るオブジェクト追跡装置における処理の流れを示すフローチャートである。4 is a flow chart showing the flow of processing in the object tracking device according to the embodiment;

[オブジェクト追跡装置1の概要]
図1は、本実施形態に係るオブジェクト追跡装置1の概要を示す図である。オブジェクト追跡装置1は、店舗内等の所定エリアを撮像する撮像装置2が撮像した複数の撮像画像に映る一以上のオブジェクトを関連付けることにより、オブジェクトを追跡する装置である。ここで、オブジェクトは、例えば店舗内を行動する店員や顧客である。
[Overview of object tracking device 1]
FIG. 1 is a diagram showing an outline of an object tracking device 1 according to this embodiment. The object tracking device 1 is a device that tracks an object by associating one or more objects appearing in a plurality of captured images captured by an imaging device 2 that captures a predetermined area such as a store. Here, the object is, for example, a store clerk or a customer who acts in the store.

オブジェクト追跡装置1は、撮像装置2が撮像した時系列の複数の撮像画像を取得する(図1の(1))。オブジェクト追跡装置1は、取得した複数の撮像画像のそれぞれから、撮像画像に映るオブジェクトを検出する(図1の(2))。 The object tracking device 1 acquires a plurality of time-series captured images captured by the imaging device 2 ((1) in FIG. 1). The object tracking device 1 detects objects appearing in the captured images from each of the plurality of acquired captured images ((2) in FIG. 1).

オブジェクト追跡装置1は、複数の撮像画像のそれぞれについて、検出したオブジェクトの行動の特徴量を示す行動特徴量を抽出する(図1の(3))。オブジェクト追跡装置1は、抽出した行動特徴量に基づいて、複数の撮像画像のそれぞれから検出したオブジェクトの関連付けを行う(図1の(4))。 The object tracking device 1 extracts an action feature quantity indicating the action feature quantity of the detected object for each of the plurality of captured images ((3) in FIG. 1). The object tracking device 1 associates the objects detected from each of the plurality of captured images based on the extracted behavior feature amount ((4) in FIG. 1).

オブジェクト追跡装置1は、複数のオブジェクトのそれぞれについて、当該オブジェクトに対応する撮像画像と、関連付けが行われたオブジェクトが映る他の撮像画像とに基づいて行動特徴量を再抽出する。複数の撮像画像において関連付けられたオブジェクトは、複数の撮像画像が示すオブジェクトの行動に基づいて行動特徴量を抽出できることから、関連付けが行われる前に比べて、行動特徴量の精度が高くなる。 The object tracking device 1 re-extracts behavioral feature amounts for each of a plurality of objects based on the captured image corresponding to the object and another captured image showing the associated object. For objects associated in a plurality of captured images, the behavior feature amount can be extracted based on the behavior of the object indicated by the plurality of captured images, so the accuracy of the behavior feature amount is higher than before the association is performed.

オブジェクト追跡装置1は、再抽出した行動特徴量に基づいて、複数の撮像画像のそれぞれから検出したオブジェクトの関連付けを行う。行動特徴量の精度が高くなったことにより、これまでに関連付けられていなかったオブジェクト同士での関連付けが行われることとなる。 The object tracking device 1 associates the objects detected from each of the plurality of captured images based on the re-extracted behavior feature amount. Due to the increased accuracy of behavioral feature amounts, objects that have not been associated with each other before will be associated with each other.

図2は、オブジェクトの関連付けの例について示す図である。図2(a)~(d)において、横軸は撮像時刻を示し、縦軸はオブジェクトの位置を示している。また、図2(a)~(d)において、マークMは、検出されたオブジェクトを示している。図2(a)~(d)において、同じ時刻に示されるマークMは、オブジェクト追跡装置1が検出した同一のオブジェクトを示している。なお、時刻tでは、マークMが存在していないが、これは、同時刻において、例えば遮蔽等の理由により、オブジェクトが検出できなかったことを示している。また、マークMの中に示すアルファベットは、行動特徴量が示す行動クラスを示すクラス情報を示している。 FIG. 2 is a diagram showing an example of object association. In FIGS. 2A to 2D, the horizontal axis indicates the imaging time, and the vertical axis indicates the position of the object. In addition, in FIGS. 2(a) to 2(d), marks M indicate detected objects. In FIGS. 2(a) to 2(d), marks M shown at the same time indicate the same object detected by the object tracking device 1. FIG. Note that the mark M does not exist at the time t3 , which indicates that the object could not be detected at the same time due to, for example, shielding. Also, the alphabet shown in the mark M indicates class information indicating the behavior class indicated by the behavior feature amount.

図2(a)は、オブジェクト追跡装置1が、オブジェクトの関連付けを行う前の状態を示している。図2(b)は、オブジェクト追跡装置1により、初めて関連付けが行われた状態を示している。 FIG. 2(a) shows the state before the object tracking device 1 associates objects. FIG. 2(b) shows a state in which the object tracking device 1 performs association for the first time.

図2(c)は、初めて関連付けが行われた後、オブジェクト追跡装置1が、オブジェクトの行動特徴量の再抽出を行った状態を示している。関連付けが行われたオブジェクトによって行動特徴量の再抽出が行われた結果、図2(c)に示すように、時刻tにおけるオブジェクトのクラス情報が「b」から「a」に変化しているとともに、時刻tにおけるオブジェクトのクラス情報が「c」から「a」に変化していることが確認できる。 FIG. 2(c) shows a state in which the object tracking device 1 re-extracts the behavior feature amount of the object after the association is made for the first time. As a result of the re-extraction of the behavioral feature amount from the associated object, the class information of the object at time t2 changes from "b" to "a" as shown in FIG. 2(c). At the same time, it can be confirmed that the class information of the object at time t4 has changed from "c" to "a".

図2(d)は、図2(c)に示すようにオブジェクトの行動特徴量の再抽出が行われた後に、再度、オブジェクトの関連付けが行われた状態を示している。図2(d)に示すように、時刻tにおけるオブジェクトと時刻tにおけるオブジェクトの行動特徴量が再抽出された結果、時刻tにおけるオブジェクトと時刻tにおけるオブジェクトとが関連付けられたことが確認できる。このように、時刻tにおいてオブジェクトが検出できなかった場合であっても、時刻tの前後の時刻t、tにおける行動特徴量の再抽出により、時刻t、tにおけるオブジェクトのクラス情報が同一のものに修正され、時刻t、tにおけるオブジェクトを関連付けることができる。 FIG. 2(d) shows a state in which the objects are associated again after re-extracting the behavior feature amounts of the objects as shown in FIG. 2(c). As shown in FIG . 2(d), as a result of re-extracting the behavior feature amounts of the object at time t2 and the object at time t4 , the object at time t2 and the object at time t4 are associated. I can confirm. As described above, even if the object cannot be detected at time t3 , the re-extraction of the behavioral feature amount at times t2 and t4 before and after time t3 enables detection of the object at times t2 and t4 . The class information is modified to be the same so that the objects at times t 2 and t 4 can be related.

図1に説明を戻し、オブジェクト追跡装置1は、図1の(3)の処理と、(4)の処理とを繰り返し実行する。オブジェクト追跡装置1は、行動特徴量の再抽出と、オブジェクトの関連付けとが交互に行うことにより、オブジェクトの関連付けの精度を向上させることができるので、結果として、オブジェクトを精度良く追跡することができる。
以下、オブジェクト追跡装置1の構成を詳細に説明する。
Returning to FIG. 1, the object tracking device 1 repeatedly executes the process (3) and the process (4) in FIG. The object tracking device 1 can improve the accuracy of object association by alternately performing re-extraction of the behavior feature amount and object association, so that the object can be tracked with high accuracy as a result. .
The configuration of the object tracking device 1 will be described in detail below.

[オブジェクト追跡装置1の構成]
図3は、本実施形態に係るオブジェクト追跡装置1の構成を示す図である。図3に示すように、オブジェクト追跡装置1は、記憶部11と、制御部12とを備える。
[Configuration of object tracking device 1]
FIG. 3 is a diagram showing the configuration of the object tracking device 1 according to this embodiment. As shown in FIG. 3 , the object tracking device 1 includes a storage section 11 and a control section 12 .

記憶部11は、ROM(Read Only Memory)及びRAM(Random Access Memory)等を含む記憶媒体である。記憶部11は、制御部12が実行するプログラムを記憶している。例えば、記憶部11は、制御部12を、取得部121、オブジェクト検出部122、見え特徴量抽出部123、行動特徴量抽出部124、関連付け部125、及び実行制御部126として機能させるオブジェクト追跡プログラムを記憶している。 The storage unit 11 is a storage medium including ROM (Read Only Memory), RAM (Random Access Memory), and the like. The storage unit 11 stores programs executed by the control unit 12 . For example, the storage unit 11 has an object tracking program that causes the control unit 12 to function as an acquisition unit 121, an object detection unit 122, an appearance feature amount extraction unit 123, a behavior feature amount extraction unit 124, an association unit 125, and an execution control unit 126. Remember.

制御部12は、例えばCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)である。制御部12は、記憶部11に記憶されたオブジェクト追跡プログラムを実行することにより、取得部121、オブジェクト検出部122、見え特徴量抽出部123、行動特徴量抽出部124、関連付け部125、及び実行制御部126として機能する。 The control unit 12 is, for example, a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit). By executing the object tracking program stored in the storage unit 11, the control unit 12 controls the acquisition unit 121, the object detection unit 122, the appearance feature amount extraction unit 123, the behavior feature amount extraction unit 124, the association unit 125, and the execution program. It functions as the control unit 126 .

[撮像画像の取得]
取得部121は、所定エリアを撮像する撮像装置2が4以上の複数の時刻のそれぞれで撮像した4以上の複数の撮像画像を取得する。ここで、撮像装置2は、複数の時刻のそれぞれで、同じ撮像範囲を撮像するものとする。
[Acquisition of captured image]
The acquiring unit 121 acquires four or more captured images captured at each of four or more times by the imaging device 2 that captures an image of a predetermined area. Here, it is assumed that the imaging device 2 images the same imaging range at each of a plurality of times.

[オブジェクトの検出]
オブジェクト検出部122は、取得部121が取得した複数の撮像画像のそれぞれから、撮像画像に映るオブジェクトを検出する。具体的には、オブジェクト検出部122は、撮像画像に映るオブジェクトの位置を示すオブジェクト位置を特定することによりオブジェクトを検出する。
Object Detection
The object detection unit 122 detects objects appearing in the captured images from each of the plurality of captured images acquired by the acquisition unit 121 . Specifically, the object detection unit 122 detects an object by specifying an object position indicating the position of the object appearing in the captured image.

例えば、オブジェクト検出部122は、例えば、オブジェクト検出器である。オブジェクト検出部122は、取得部121が取得した撮像画像が入力されると、当該撮像画像に対してオブジェクトの位置の特徴量を示す位置特徴量情報Xlocと、当該オブジェクトが当該位置に存在する確からしさを示すコストCdetとを出力することにより、オブジェクトを検出する。オブジェクト検出器には、例えば、SSD(Single Shot Multibox Detector)が用いられる。 For example, the object detection unit 122 is, for example, an object detector. When the captured image acquired by the acquisition unit 121 is input, the object detection unit 122 receives the position feature amount information X loc indicating the feature amount of the position of the object with respect to the captured image, and Objects are detected by outputting costs Cdet that indicate likelihood. For example, an SSD (Single Shot Multibox Detector) is used as the object detector.

位置特徴量情報Xlocは、例えば、4つの変数(x,y,w,h)の組み合わせによって示される。xは撮像画像におけるX軸方向(横方向)上の位置、yは撮像画像におけるX軸と直行するY軸方向(縦方向)上の位置、wはオブジェクトのX軸方向上の長さ(幅)、hはオブジェクトのY軸方向上の長さ(高さ)を示している。位置特徴量情報Xlocにより、検出されたオブジェクトを囲む矩形領域であるバウンディングボックスが特定される。オブジェクト検出部122は、複数の撮像画像のそれぞれにおいて検出されたオブジェクトに対してインデックスiを割り振り、各オブジェクトiに対応する位置特徴量情報X loc及びコストCdet(i)を特定する。 The position feature amount information X loc is indicated, for example, by a combination of four variables (x, y, w, h). x is the position on the X-axis direction (horizontal direction) in the captured image, y is the position on the Y-axis direction (vertical direction) perpendicular to the X-axis in the captured image, w is the length (width) of the object on the X-axis direction ), and h indicates the length (height) of the object in the Y-axis direction. A bounding box, which is a rectangular area surrounding the detected object, is specified by the position feature amount information X loc . The object detection unit 122 assigns an index i to each object detected in each of the plurality of captured images, and specifies the position feature amount information X i loc and the cost C det (i) corresponding to each object i.

[見え特徴量の抽出]
見え特徴量抽出部123は、オブジェクト検出部122が検出したオブジェクトの撮像画像における見え方を示す見え特徴量を抽出する。例えば、見え特徴量抽出部123は、オブジェクト検出部122が撮像画像から検出した位置特徴量情報Xlocに基づいて、撮像画像におけるバウンディングボックスの位置及び大きさを特定する。見え特徴量抽出部123は、当該撮像画像から、オブジェクトを示す部分画像として、特定したバウンディングボックスに囲まれる部分画像を抽出する。
[Extraction of appearance feature quantity]
The appearance feature amount extraction unit 123 extracts appearance feature amounts indicating how the object detected by the object detection unit 122 appears in the captured image. For example, the appearance feature amount extraction unit 123 identifies the position and size of the bounding box in the captured image based on the position feature amount information X loc detected by the object detection unit 122 from the captured image. The appearance feature quantity extraction unit 123 extracts a partial image surrounded by the specified bounding box as a partial image representing the object from the captured image.

見え特徴量抽出部123は、画像の入力に対してオブジェクトの見え方の特徴量を示す複数次元のベクトルである見え特徴量情報Xappを出力する見え特徴量出力プログラムに、抽出した部分画像を入力し、当該プログラムから出力される見え特徴量情報Xappを取得することにより、オブジェクトの見え特徴量を抽出する。見え特徴量出力プログラムは、例えば、深層ニューラルネットワークのプログラムであり、例えば、WRNs(Wide Residual Networks)が用いられる。 Appearance feature quantity extraction unit 123 outputs the extracted partial image to a appearance feature quantity output program that outputs appearance feature quantity information Xapp , which is a multi-dimensional vector representing the feature quantity of the appearance of an object in response to an image input. The appearance feature amount of the object is extracted by inputting and acquiring the appearance feature amount information X app output from the program. The appearance feature amount output program is, for example, a deep neural network program, and for example, WRNs (Wide Residual Networks) are used.

見え特徴量抽出部123は、オブジェクト検出部122が検出した各オブジェクトiに対応する部分画像を見え特徴量出力プログラムに入力し、当該プログラムから各オブジェクトiに対応する見え特徴量情報X appを取得する。 The appearance feature amount extraction unit 123 inputs the partial image corresponding to each object i detected by the object detection unit 122 to the appearance feature amount output program, and outputs appearance feature amount information X i app corresponding to each object i from the program. get.

[行動特徴量の抽出]
行動特徴量抽出部124は、オブジェクト検出部122が検出した複数のオブジェクトのそれぞれに対応する撮像画像の部分画像に基づいて、複数のオブジェクトのそれぞれの行動の特徴量を示す行動特徴量を抽出する。行動特徴量抽出部124は、オブジェクト検出部122が検出した複数のオブジェクトiのオブジェクト位置を示す位置特徴量情報X locに対応する部分画像に基づいて、複数のオブジェクトiのそれぞれに対応する行動特徴量を抽出する。行動特徴量は、複数次元のベクトルであり、次元の数は、例えば、行動クラスの数に対応している。
[Extraction of behavioral feature quantity]
The behavior feature quantity extraction unit 124 extracts behavior feature quantities representing behavior feature quantities of each of the plurality of objects based on the partial images of the captured images corresponding to each of the plurality of objects detected by the object detection unit 122 . . The behavior feature amount extraction unit 124 extracts the behavior corresponding to each of the plurality of objects i based on the partial image corresponding to the position feature amount information X i loc indicating the object positions of the plurality of objects i detected by the object detection unit 122. Extract features. A behavior feature amount is a multi-dimensional vector, and the number of dimensions corresponds to, for example, the number of behavior classes.

[関連付けが行われていない場合の行動特徴量の抽出]
行動特徴量抽出部124は、関連付け部125により、オブジェクトの関連付けが行われていない場合、以下に示すように、オブジェクト検出部122が検出したオブジェクトiの行動特徴量を示す複数次元のベクトルである行動特徴量情報X pafを抽出する。図4は、オブジェクトの関連付けが行われていない場合における行動特徴量情報X pafの抽出例を示す図である。
[Extraction of behavioral feature values when association is not performed]
The behavior feature amount extraction unit 124 is a multi-dimensional vector indicating the behavior feature amount of the object i detected by the object detection unit 122 as shown below when the association unit 125 has not performed object association. Behavior feature quantity information X i paf is extracted. FIG. 4 is a diagram showing an example of extraction of behavioral feature amount information X i paf when objects are not associated.

行動特徴量抽出部124は、オブジェクトiの部分画像の色に基づく行動特徴量情報X paf-Cを抽出するとともに、部分画像と、当該部分画像が抽出された撮像画像の前後の撮像画像から抽出した部分画像との差分に基づく行動特徴量情報X paf-Fを抽出する。そして、行動特徴量抽出部124は、部分画像の色に基づく行動特徴量情報X paf-Cと、部分画像の差分に基づく行動特徴量情報X paf-Fとを統合することにより、オブジェクトiの行動特徴量情報X pafを抽出する。 The behavior feature quantity extraction unit 124 extracts behavior feature quantity information X i paf-C based on the color of the partial image of the object i, and extracts the partial image and the captured images before and after the captured image from which the partial image was extracted. Behavior feature amount information X i paf-F is extracted based on the difference from the extracted partial image. Then, the behavior feature amount extraction unit 124 integrates the behavior feature amount information X i paf-C based on the color of the partial image and the behavior feature amount information X i paf-F based on the difference between the partial images, thereby extracting the object Behavior feature quantity information X i paf of i is extracted.

まず、行動特徴量抽出部124は、オブジェクト検出部122が検出したオブジェクトiの位置特徴量情報X locに基づいて、当該オブジェクトが検出された撮像画像から、当該オブジェクトを含む第1部分画像としての局所切出画像Imと、当該オブジェクトを含み、第1部分画像よりも表示領域が大きい部分画像である第2部分画像としての大域切出画像Imとを抽出する。 First, based on the position feature amount information X i loc of the object i detected by the object detection unit 122, the behavior feature amount extraction unit 124 extracts a first partial image including the object from the captured image in which the object is detected. and a global cut-out image Im G as a second partial image, which is a partial image including the object and having a display area larger than that of the first partial image.

局所切出画像Imは、例えば、オブジェクトiの位置特徴量情報X locが示すバウンディングボックスに囲まれる画像であり、大域切出画像Imは、局所切出画像Imを含み、局所切出画像Imよりも数倍の表示領域を有する画像である。そして、行動特徴量抽出部124は、抽出した局所切出画像Im及び大域切出画像Imに基づいて行動特徴量情報X pafを抽出する。このようにすることで、オブジェクト追跡装置1は、オブジェクトの周りに存在する他のオブジェクトや物体の情報を考慮して、より高精度に行動特徴量を抽出することができる。 The local clipped image Im L is, for example, an image surrounded by a bounding box indicated by the positional feature amount information X i loc of the object i, and the global clipped image Im G includes the local clipped image Im L , This image has a display area several times larger than that of the output image ImL . Then, the behavior feature quantity extraction unit 124 extracts behavior feature quantity information X i paf based on the extracted local cut-out image Im L and global cut-out image Im G. By doing so, the object tracking device 1 can extract behavior feature amounts with higher accuracy by considering information on other objects and objects existing around the object.

なお、本実施形態において、オブジェクト追跡装置1は、局所切出画像Imと大域切出画像Imとに基づいて行動特徴量情報X pafを抽出することとしたが、これに限らず、局所切出画像Imと大域切出画像Imとのいずれか一方に基づいて行動特徴量情報X pafを抽出してもよい。 In the present embodiment, the object tracking device 1 extracts the action feature amount information X i paf based on the local cut-out image Im L and the global cut-out image Im G. The action feature amount information X i paf may be extracted based on either one of the local clipped image Im L and the global clipped image Im G.

図4に示す例では、行動特徴量抽出部124は、局所切出画像Imが示す色情報と、大域切出画像Imが示す色情報とを、それぞれ、ResNet(Residual Networks)等の深層ニューラルネットワークのベースモデルプログラムに入力し、各ベースモデルプログラムから出力される行動特徴量情報を結合することにより、色に基づく行動特徴量情報X paf-Cを抽出する。 In the example shown in FIG. 4, the behavior feature amount extraction unit 124 extracts the color information indicated by the local cut-out image Im L and the color information indicated by the global cut-out image Im G , respectively, into a deep layer such as ResNet (Residual Networks). Behavioral feature quantity information X i paf-C based on color is extracted by inputting to the base model program of the neural network and combining the behavioral feature quantity information output from each base model program.

また、行動特徴量抽出部124は、オブジェクトiが検出された撮像画像から抽出したオブジェクトiの部分画像(局所切出画像Im及び大域切出画像Im)と、当該撮像画像が撮像された時刻の前の時刻又は後の時刻に撮像された撮像画像の部分画像との差分に基づいて、行動特徴量情報X paf-Fを抽出する。 In addition, the behavior feature amount extraction unit 124 extracts a partial image of the object i (a local cut-out image Im L and a global cut-out image Im G ) of the object i extracted from the captured image in which the object i is detected, and Behavior feature amount information X i paf-F is extracted based on the difference between the partial image of the captured image captured at the time before or after the time.

例えば、行動特徴量抽出部124は、オブジェクトiが検出された撮像時刻tの撮像画像から、位置特徴量情報X locに基づいて局所切出画像Im及び大域切出画像Imを抽出する。また、行動特徴量抽出部124は、オブジェクトiが検出された撮像時刻tの直前の撮像時刻ti-1の撮像画像から、位置特徴量情報X locに基づいて局所切出画像ImLb及び大域切出画像ImGbを抽出する。そして、行動特徴量抽出部124は、抽出した2つの局所切出画像の差分D、及び2つの大域切出画像の差分Dに基づいて、行動特徴量情報X paf-Fを抽出する。 For example, the behavior feature amount extraction unit 124 extracts a local cut-out image Im L and a global cut-out image Im G based on the position feature amount information X i loc from the captured image at the imaging time t i when the object i was detected. do. In addition, the behavior feature amount extraction unit 124 extracts a local clipped image Im Lb based on the position feature amount information X i loc from the image captured at the image capturing time t i −1 immediately before the image capturing time t i at which the object i was detected. and a global clipped image Im Gb . Then, the behavior feature quantity extraction unit 124 extracts the behavior feature quantity information X i paf-F based on the extracted difference D L between the two local clipped images and the extracted difference D G between the two global clipped images. .

図4に示す例では、行動特徴量抽出部124は、局所切出画像の差分Dと、大域切出画像の差分Dとを、それぞれ、ResNet等の深層ニューラルネットワークのベースモデルプログラムに入力し、各ベースモデルプログラムから出力される行動特徴量情報を結合することにより行動特徴量情報X paf-Fを抽出する。なお、ベースモデルプログラムは予め学習が行われているものとする。 In the example shown in FIG. 4, the behavior feature amount extraction unit 124 inputs the difference D L of the local cut-out image and the difference D G of the global cut-out image into a base model program of a deep neural network such as ResNet. Then, the behavioral feature quantity information X i paf-F is extracted by combining the behavioral feature quantity information output from each base model program. It is assumed that the base model program has been learned in advance.

そして、行動特徴量抽出部124は、抽出した行動特徴量情報X paf-Cと行動特徴量情報X paf-Fとを統合することにより、オブジェクトiの行動特徴量情報X pafを抽出する。例えば、行動特徴量抽出部124は、抽出した行動特徴量情報X paf-Cと行動特徴量情報X paf-Fとの平均値をオブジェクトiの行動特徴量情報X pafとする。 Then, the behavior feature amount extraction unit 124 extracts the behavior feature amount information X i paf of the object i by integrating the extracted behavior feature amount information X i paf-C and the behavior feature amount information X i paf -F. do. For example, the action feature amount extraction unit 124 sets the average value of the extracted action feature amount information X i paf-C and the extracted action feature amount information X i paf-F as the action feature amount information X i paf of the object i.

行動特徴量抽出部124は、行動特徴量情報X paf-Cと行動特徴量情報X paf-Fとを統合する他の方法として、行動特徴量情報X paf-Cと行動特徴量情報X paf-Fとを要素ごとに比較し、大きいほうの値で構成されたベクトルを、オブジェクトiの行動特徴量情報X pafとしてもよい。例えば、X paf-C=(0.1,0.2,0.5,0.6)、X paf-F=(0.9,0.6,0.2,0.9)である場合、X paf=(0.9,0.6,0.5,0.9)となる。以下、この抽出方法を、最大要素抽出法と呼ぶ。 The behavior feature amount extraction unit 124 extracts the behavior feature amount information X i paf-C and the behavior feature amount information as another method for integrating the behavior feature amount information X i paf-C and the behavior feature amount information X i paf-F. X i paf−F may be compared element by element, and a vector composed of the larger value may be used as the behavior feature amount information X i paf of object i. For example, X i paf-C = (0.1, 0.2, 0.5, 0.6), X i paf-F = (0.9, 0.6, 0.2, 0.9) If there is, X i paf =(0.9, 0.6, 0.5, 0.9). This extraction method is hereinafter referred to as the maximum element extraction method.

また、行動特徴量抽出部124は、行動特徴量情報X pafを抽出すると、当該行動特徴量情報X pafが示すベクトル値のうち、最も高いベクトル値に対応する行動クラスを示すクラス情報を抽出する。 Further, when the action feature amount information X i paf is extracted, the action feature amount extraction unit 124 extracts class information indicating the action class corresponding to the highest vector value among the vector values indicated by the action feature amount information X i paf . Extract.

なお、行動特徴量抽出部124は、図4に示すように行動特徴量情報X pafを抽出したが、これに限らない。行動特徴量抽出部124は、TSN(Temporal Segment Networks)のような深層ニューラルネットワークのプログラムを用いて行動特徴量情報X pafを抽出してもよい。 Although the behavior feature amount extraction unit 124 extracts the behavior feature amount information X i paf as shown in FIG. 4, the present invention is not limited to this. The behavioral feature amount extraction unit 124 may extract the behavioral feature amount information X i paf using a deep neural network program such as TSN (Temporal Segment Networks).

また、オブジェクトの関連付けが行われていない場合には、抽出した行動特徴量情報X paf-Cと行動特徴量情報X paf-Fとの平均値が、必ずしもオブジェクトの行動特徴量を反映しているとはいえず、むしろ、行動特徴量にあいまいさを持たせたほうが好ましいとも考えられる。このため、行動特徴量抽出部124は、各ニューラルネットワークにおける中間層が示す特徴量を取得し、取得した複数の特徴量の平均化等を行ったものを、行動特徴量情報X pafとして抽出してもよい。このようにすることで、オブジェクト追跡装置1は、オブジェクトの関連付けが行われていない場合に、行動特徴量情報X pafにあいまいさを持たせることができる。 Further, when the object is not associated, the average value of the extracted behavioral feature amount information X i paf-C and the extracted behavioral feature amount information X i paf-F does not necessarily reflect the behavioral feature amount of the object. Rather, it may be preferable to give ambiguity to behavioral feature quantities. Therefore, the behavior feature amount extraction unit 124 acquires the feature amount indicated by the intermediate layer in each neural network, and extracts the behavior feature amount information X i paf by averaging the acquired plurality of feature amounts. You may By doing so, the object tracking device 1 can make the behavior feature amount information X i paf ambiguous when the objects are not associated.

[関連付けが行われている場合の行動特徴量の抽出]
行動特徴量抽出部124は、関連付け部125によりオブジェクトの関連付けが行われている場合、関連付け部125により関連付けが行われた複数のオブジェクトiのそれぞれについて、当該オブジェクトiに対応する部分画像と、当該オブジェクトiに関連付けられた一以上の他のオブジェクトのそれぞれに対応する部分画像とに基づいて行動特徴量を再抽出する。ここで、行動特徴量抽出部124は、オブジェクトiに関連付けられた一以上の他のオブジェクトのうち、オブジェクトiが映る撮像画像の撮像時刻から所定時間(所定のフレーム数)以内に撮像された撮像画像から検出された他のオブジェクトの部分画像に基づいて行動特徴量を再抽出するものとする。以下の説明において、所定のフレーム数によって定められる、オブジェクトiの行動特徴量の抽出に用いる他のオブジェクトの参照範囲をウィンドウサイズという。
[Extraction of behavioral feature quantity when association is made]
When objects are associated by the associating unit 125, the behavior feature amount extracting unit 124 extracts a partial image corresponding to each of the plurality of objects i associated by the associating unit 125, and re-extracting the behavioral feature quantity based on the partial images corresponding to each of the one or more other objects associated with the object i. Here, the behavior feature amount extraction unit 124 extracts the imaged image captured within a predetermined time (predetermined number of frames) from the imaging time of the captured image in which the object i is captured, among the one or more other objects associated with the object i. It is assumed that the behavioral feature amount is re-extracted based on partial images of other objects detected from the image. In the following description, the reference range of other objects used for extracting the behavior feature amount of object i, which is determined by a predetermined number of frames, is referred to as a window size.

図5は、オブジェクトの関連付けが行われている場合における行動特徴量情報X pafの抽出例を示す図である。例えば、時刻tに検出されたオブジェクトiに対して、時刻ti-1に検出されたオブジェクトと、時刻ti+1に検出されたオブジェクトとが関連付けられたものとする。この場合、行動特徴量抽出部124は、図5に示すように、時刻tに検出されたオブジェクトiの部分画像に基づいて行動特徴量情報を抽出するとともに、時刻ti-1及び時刻ti+1に検出されたオブジェクトの行動特徴量情報を抽出する。そして、行動特徴量抽出部124は、抽出したこれらの行動特徴量情報の平均値を算出し、活性化させることにより、行動特徴量情報X pafを再抽出する。また、行動特徴量抽出部124は、行動特徴量情報X paf-Cと行動特徴量情報X paf-Fとを統合する方法と同様に、抽出したこれらの行動特徴量情報に最大要素抽出法を適用して行動特徴量情報を算出し、算出した結果を活性化させることにより、行動特徴量情報X pafを再抽出してもよい。 FIG. 5 is a diagram showing an example of extraction of behavior feature amount information X i paf when objects are associated. For example, assume that an object i detected at time t i is associated with an object detected at time t i−1 and an object detected at time t i+1 . In this case, as shown in FIG. 5, the behavioral feature quantity extraction unit 124 extracts behavioral feature quantity information based on the partial image of the object i detected at time t i and Behavior feature amount information of the object detected at i+1 is extracted. Then, the behavior feature amount extraction unit 124 calculates the average value of the extracted behavior feature amount information and activates it, thereby re-extracting the behavior feature amount information X i paf . In addition, the behavior feature amount extraction unit 124 extracts the maximum element from the extracted behavior feature amount information in the same manner as the method of integrating the behavior feature amount information X i paf-C and the behavior feature amount information X i paf-F. The behavior feature amount information X i paf may be re-extracted by calculating the behavior feature amount information by applying the method and activating the calculated result.

図5に示す例では、時刻ti-1、時刻t、及び時刻ti+1に検出されたオブジェクトの行動特徴量情報を示すベクトルBt(i-1)、Bti、Bt(i+1)に含まれる行動クラスの値のうち、相対的に値が大きい行動クラスを、他の行動クラスと異なる色で示している。ベクトルBt(i-1)、Bti、Bt(i+1)を統合した結果、行動特徴量情報X pafを示すベクトルが、時刻tのベクトルBti(再抽出前の行動特徴量情報を示すベクトル)から変化していることが確認できる。なお、行動特徴量抽出部124は、時刻tだけでなく、時刻ti-1及び時刻ti+1に検出されたオブジェクトの行動特徴量情報として、再抽出された行動特徴量情報X pafを示すベクトルを用いてもよい。 In the example shown in FIG. 5, vectors B t(i −1 ) , B ti , B t( i+1 ) indicating the behavior feature amount information of objects detected at time t i−1 , time t i , and time t i +1 Among the values of the behavior classes included in , the behavior classes with relatively large values are shown in a different color from other behavior classes. As a result of integrating the vectors B t(i−1) , B ti , and B t(i+1) , the vector indicating the behavioral feature amount information X i paf becomes the vector B ti at time t i (behavioral feature amount information before re-extraction vector). Note that the action feature amount extraction unit 124 extracts the re-extracted action feature amount information X i paf as the action feature amount information of the object detected at time t i -1 and time t i +1 as well as time t i. The vector shown may be used.

なお、行動特徴量抽出部124は、関連付け部125により関連付けが行われた複数のオブジェクトのそれぞれについて、当該オブジェクトに対応する行動特徴量が示す行動傾向に基づいてウィンドウサイズを変化させることにより、当該オブジェクトの行動特徴量の再抽出に用いる他のオブジェクトの数を変化させてもよい。例えば、行動特徴量抽出部124は、行動傾向が静止等の静的な行動傾向を示す場合、ウィンドウサイズを大きくし、歩行等の動的な行動を示す場合、ウィンドウサイズを小さくしてもよい。このようにすることで、ウィンドウサイズを、行動傾向に対して適切なウィンドウサイズとすることができるので、行動特徴量の抽出精度を向上させることができる。 Note that the behavior feature amount extraction unit 124 changes the window size of each of the plurality of objects associated by the association unit 125 based on the behavior tendency indicated by the behavior feature amount corresponding to the object, thereby The number of other objects used for re-extracting the behavior feature amount of the object may be changed. For example, the behavior feature amount extraction unit 124 may increase the window size when the behavior tendency indicates a static behavior tendency such as standing still, and may decrease the window size when the behavior tendency indicates a dynamic behavior such as walking. . By doing so, the window size can be set to an appropriate window size with respect to the behavior tendency, so that the extraction accuracy of the behavior feature amount can be improved.

また、行動特徴量抽出部124は、オブジェクトの関連付けが行われている場合においても、再抽出の回数が所定回数以内であることを条件として、ニューラルネットワークの中間層が示す特徴量に基づいて、オブジェクトの行動特徴量を再抽出してもよい。具体的には、行動特徴量抽出部124は、ニューラルネットワークに、検出したオブジェクトiに対応する部分画像と、当該オブジェクトiとの関連付けが行われた一以上の他のオブジェクトに対応する部分画像とを入力し、ニューラルネットワークにおける中間層が示す特徴量を取得し、取得した特徴量に基づいて、当該オブジェクトiの行動特徴量情報X pafを再抽出してもよい。 In addition, even when objects are associated, the behavior feature amount extraction unit 124, on the condition that the number of times of re-extraction is within a predetermined number of times, based on the feature amount indicated by the intermediate layer of the neural network, You may re-extract the action feature-value of an object. Specifically, the behavior feature amount extraction unit 124 provides the neural network with a partial image corresponding to the detected object i and partial images corresponding to one or more other objects associated with the object i. may be input to acquire the feature quantity indicated by the intermediate layer in the neural network, and based on the acquired feature quantity, the behavior feature quantity information X i paf of the object i may be re-extracted.

例えば、行動特徴量抽出部124は、検出したオブジェクトに対応する部分画像をニューラルネットワークに入力した場合における、当該ニューラルネットワークにおける中間層が示す特徴量と、関連するオブジェクトに対応する部分画像をニューラルネットワークに入力した場合における、当該ニューラルネットワークにおける中間層が示す特徴量との平均値を、検出したオブジェクトの行動特徴量情報X pafを再抽出してもよい。このようにすることで、オブジェクト追跡装置1は、オブジェクトの関連付けが十分に行われていない場合に、行動特徴量情報X pafにあいまいさを持たせることができる。 For example, when a partial image corresponding to a detected object is input to the neural network, the behavior feature amount extraction unit 124 extracts the feature amount indicated by the intermediate layer in the neural network and the partial image corresponding to the related object to the neural network. , the behavior feature amount information X i paf of the detected object may be re-extracted from the average value with the feature amount indicated by the intermediate layer in the neural network. By doing so, the object tracking device 1 can make the behavior feature amount information X i paf ambiguous when the objects are not sufficiently associated.

[オブジェクトの関連付け]
関連付け部125は、オブジェクト検出部122が抽出した位置特徴量、見え特徴量抽出部123が抽出した見え特徴量、及び行動特徴量抽出部124が抽出した行動特徴量に基づいて、撮像された時刻が異なる複数の撮像画像のそれぞれからオブジェクト検出部122が検出したオブジェクトの関連付けを行う。
[Object Association]
The associating unit 125 calculates the time when the image was captured based on the position feature amount extracted by the object detection unit 122, the appearance feature amount extracted by the appearance feature amount extraction unit 123, and the behavior feature amount extracted by the behavior feature amount extraction unit 124. Objects detected by the object detection unit 122 from each of a plurality of captured images having different values are associated with each other.

関連付け部125は、検出されたオブジェクトiをノードとし、各ノード間のコストを設定して、最小費用流問題を解くことにより、オブジェクトの関連付けを行う。具体的にはまず、関連付け部125は、以下の式(1)に示すように、検出されたオブジェクトiを示すノードyを定義する。 The associating unit 125 associates the objects by using the detected object i as a node, setting the cost between each node, and solving the minimum cost flow problem. Specifically, first, the associating unit 125 defines a node y i indicating the detected object i, as shown in the following equation (1).

Figure 0007229954000001
Figure 0007229954000001

続いて、関連付け部125は、各ノードyに対するコストを算出する。コストには、観測コストCobsv(i)、遷移コストCtran(i,j)、開始コストCentr(i)、終了コストCexit(i)が含まれる。遷移コストCtran(i,j)に含まれるjは、他のノードyのインデックスを示している。また、他のノードyは、オブジェクトiが検出された撮像画像の撮像時刻から所定時間内に撮像された撮像画像から検出したオブジェクトに対応しているものとする。 Subsequently, the associating unit 125 calculates the cost for each node yi . The costs include observation cost C obsv (i), transition cost C tran (i,j), entry cost C entr (i), and exit cost C exit (i). j included in the transition cost C tran (i, j) indicates the index of another node y j . Another node yj corresponds to an object detected from a captured image captured within a predetermined time from the capturing time of the captured image in which the object i was detected.

また、開始コストCentr(i)は、予め定数として与えられるものである。開始コストCentr(i)が小さければ小さいほど、ノードyに対して新たに関連付けが行われる頻度が増加する。終了コストCexit(i)は、予め定数として与えられるものである。終了コストCexit(i)が小さければ小さいほど、ノードyに対して関連付けが行われない頻度が増加する。 Also, the starting cost C entr (i) is given as a constant in advance. The smaller the starting cost C entr (i), the more frequently new associations are made to node y i . The exit cost C exit (i) is given as a constant in advance. The smaller the exit cost Cexit(i), the more often no association is made for node yi .

関連付け部125は、観測コストCobsv(i)を以下に示す式(2)、(3)に基づいて算出する。

Figure 0007229954000002
Figure 0007229954000003
The association unit 125 calculates the observation cost C obsv (i) based on Equations (2) and (3) shown below.
Figure 0007229954000002
Figure 0007229954000003

式(2)に示されるbは予め定められる定数である。コストCdet(i)は、オブジェクト検出器の出力(当該オブジェクトが位置特徴量情報X locが示す位置に存在する確からしさ)を示している。α、βは、コストCdet(i)に対して最適となる観測コストCobsv(i)を算出するためのパラメータである。α、βは、位置特徴量情報X locにおけるコストCdet(i)と、当該オブジェクトの位置が正しいか否かを示す正解データとを組み合わせた教師データに基づいて学習を行うことにより設定される。 b shown in the formula (2) is a predetermined constant. The cost C det (i) indicates the output of the object detector (probability that the object exists at the position indicated by the position feature amount information X i loc ). α and β are parameters for calculating the optimum observation cost C obsv (i) with respect to the cost C det (i). α and β are set by performing learning based on teacher data combining the cost C det (i) in the positional feature amount information X i loc and correct data indicating whether the position of the object is correct. be.

関連付け部125は、遷移コストCtran(i,j)を以下に示す式(4)、(5)に基づいて算出する。 The associating unit 125 calculates the transition cost C tran (i, j) based on Equations (4) and (5) shown below.

Figure 0007229954000004
Figure 0007229954000005
Figure 0007229954000004
Figure 0007229954000005

式(4)に示されるCiou(i,j)は、例えば、ノードyに含まれる位置特徴量情報X locによって示されるバウンディングボックスと、ノードyに含まれる位置特徴量情報X locによって示されるバウンディングボックスとの重複率である。式(4)に示されるCapp(i,j)は、ノードyに含まれる見え特徴量情報X appとノードyに含まれる見え特徴量情報X appとのコサイン距離である。式(4)に示されるCpaf(i,j)は、ノードyに含まれる行動特徴量情報X pafとノードyに含まれる行動特徴量情報X pafとのコサイン距離である。 C iou (i, j) shown in equation (4) is, for example, a bounding box indicated by position feature quantity information X i loc included in node y i and position feature quantity information X j It is the overlap ratio with the bounding box indicated by loc . C app (i, j) shown in Equation (4) is the cosine distance between appearance feature amount information X i app included in node y i and appearance feature amount information X j app included in node y j . C paf (i, j) shown in Equation (4) is the cosine distance between the action feature amount information X i paf included in the node y i and the action feature amount information X j paf included in the node y j .

関数gは、式(4)にCiou(i,j)、Capp(i,j)、Cpaf(i,j)を入力した結果、最適となる観測コストCtran(i,j)を算出するための非線形関数である。関数gは、予め関連付けが行われている複数のオブジェクトiと、オブジェクト検出部122によって検出された当該複数のオブジェクトiに対応するノードyとを組み合わせた教師データに基づいて学習を行うことにより設定される。なお、関数gは、例えば決定木で表現してもよい。この場合、関数gは、例えばブースティングアルゴリズムによって予めパラメータを学習させておくものとする。 As a result of inputting C iou (i, j), C app (i, j), and C paf (i, j) into Equation (4), the function g calculates the optimal observation cost C tran (i, j) as It is a non-linear function to calculate. The function g is set by performing learning based on teacher data combining a plurality of pre-associated objects i and nodes y corresponding to the plurality of objects i detected by the object detection unit 122. be done. Note that the function g may be represented by a decision tree, for example. In this case, the parameters of the function g are learned in advance by, for example, a boosting algorithm.

関連付け部125は、以下の式(6)に示すオブジェクトの関連付けの結果Fを求めることにより、オブジェクトの関連付けを行う。

Figure 0007229954000006
The associating unit 125 associates the objects by obtaining an object associating result F represented by the following equation (6).
Figure 0007229954000006

ここで、fは、関連付けをするか否かを示すものであり、fentr(i)、fobsv(i)、ftran(i,j)、fexit(i)のうち、いずれかが1となり、その他が0となる。fが0である場合は関連付けが行われないことを示し、fが1である場合は関連付けが行われることを示す。 Here, f indicates whether or not to associate, and any one of f entr (i), f obsv (i), f tran (i, j), and f exit (i) is 1 and others are 0. An f of 0 indicates no association, and an f of 1 indicates an association.

関連付け部125は、各オブジェクトの最適な関連付けの結果Fを、以下の式(7)に示す目的関数を最適化、すなわち、Fを最小の値にすることによって求める。関連付け部125は、例えばスケーリングプッシュ再ラベルアルゴリズムを用いて式(7)に示す目的関数の最適化を行うことにより、オブジェクトの関連付けを行う。

Figure 0007229954000007
The association unit 125 obtains the optimum association result F * for each object by optimizing the objective function shown in Equation (7) below, that is, by minimizing F * . The associating unit 125 associates objects by optimizing the objective function shown in Equation (7) using, for example, a scaling push relabeling algorithm.
Figure 0007229954000007

関連付け部125は、行動特徴量抽出部124により再抽出された行動特徴量に基づいて、撮像された時刻が異なる複数の撮像画像のそれぞれからオブジェクト検出部122が検出したオブジェクトの関連付けを再度行う。関連付け部125が、オブジェクトの関連付けを再度行うときも、上述したように、各ノードyに対するコストを算出し、式(7)に示す目的関数の最適化を行うことにより、オブジェクトの関連付けを行う。 The associating unit 125 re-associates the objects detected by the object detecting unit 122 from each of the plurality of captured images captured at different times based on the behavioral feature amount re-extracted by the behavioral feature amount extraction unit 124 . When the associating unit 125 associates the objects again, as described above, it calculates the cost for each node y i and optimizes the objective function shown in Equation (7), thereby associating the objects. .

[行動特徴量の再抽出及びオブジェクトの関連付けの繰り返し]
実行制御部126は、行動特徴量抽出部124による行動特徴量の再抽出と、関連付け部125によるオブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行う。例えば、所定の条件は、関連付け部125によるオブジェクトの関連付けが収束したことである。
[Re-extraction of behavior features and repetition of object association]
The execution control unit 126 alternately and repeatedly executes the re-extraction of the behavior feature amount by the behavior feature amount extraction unit 124 and the re-association of the object by the association unit 125 until a predetermined condition is satisfied, thereby tracking the object. I do. For example, the predetermined condition is that the associating of objects by the associating unit 125 has converged.

具体的には、実行制御部126は、関連付け部125によるオブジェクトの関連付けを行った結果、当該関連付けを行った後において関連付けられているオブジェクトの数に対する、当該関連付けを行う前において関連付けられているオブジェクトの数の割合が所定の割合以上(例えば90%以上)となるまで、行動特徴量抽出部124による行動特徴量の再抽出と、関連付け部125によるオブジェクトの関連付けとを交互に繰り返し実行させる。すなわち、実行制御部126は、関連付け部125によるオブジェクトの関連付けを行った前後において関連付けられているオブジェクトの数の変化(増分)が小さくなるまで行動特徴量抽出部124による行動特徴量の再抽出と、関連付け部125によるオブジェクトの関連付けとを交互に繰り返し実行させる。このようにすることで、オブジェクト追跡装置1は、オブジェクトの関連付けが収束するまでオブジェクトの関連付けを行うことができる。 Specifically, the execution control unit 126 determines the number of objects associated before the association with respect to the number of objects associated after the association as a result of the association of the objects by the association unit 125. The re-extraction of the behavior feature quantity by the behavior feature quantity extraction unit 124 and the association of objects by the association unit 125 are alternately and repeatedly executed until the ratio of the number of . That is, the execution control unit 126 causes the behavior feature amount extraction unit 124 to re-extract the behavior feature amounts until the change (increase) in the number of associated objects before and after the association of the objects by the association unit 125 becomes small. , and the association of objects by the association unit 125 are alternately and repeatedly executed. By doing so, the object tracking device 1 can associate the objects until the association of the objects converges.

なお、行動特徴量抽出部124による行動特徴量の再抽出と、関連付け部125によるオブジェクトの関連付けとを交互に繰り返し実行させる回数を予め定めておき、実行制御部126が、当該回数に基づいて、行動特徴量抽出部124による行動特徴量の再抽出と、関連付け部125によるオブジェクトの関連付けとを交互に繰り返し実行させてもよい。 Note that the number of times that the re-extraction of the behavioral feature amount by the behavioral feature amount extraction unit 124 and the association of the object by the association unit 125 are alternately and repeatedly executed is predetermined, and the execution control unit 126, based on the number of times, The re-extraction of the behavior feature amount by the behavior feature amount extraction unit 124 and the association of the object by the association unit 125 may be alternately and repeatedly executed.

[オブジェクト追跡装置1における処理の流れ]
続いて、オブジェクト追跡装置1における処理の流れについて説明する。図6は、本実施形態に係るオブジェクト追跡装置1における処理の流れを示すフローチャートである。
[Flow of processing in object tracking device 1]
Next, the flow of processing in the object tracking device 1 will be described. FIG. 6 is a flow chart showing the flow of processing in the object tracking device 1 according to this embodiment.

まず、取得部121は、所定エリアを撮像する撮像装置2が複数の時刻のそれぞれで撮像した複数の撮像画像を取得する(S1)。
続いて、オブジェクト検出部122は、取得部121が取得した複数の撮像画像のそれぞれからオブジェクトに対応する位置特徴量を抽出することにより、複数の撮像画像のそれぞれに映るオブジェクトを検出する(S2)。
First, the acquiring unit 121 acquires a plurality of captured images captured at a plurality of times by the imaging device 2 that captures an image of a predetermined area (S1).
Subsequently, the object detection unit 122 detects the object appearing in each of the plurality of captured images by extracting the position feature amount corresponding to the object from each of the plurality of captured images acquired by the acquisition unit 121 (S2). .

続いて、見え特徴量抽出部123は、オブジェクト検出部122が検出したオブジェクトの見え特徴量を抽出する(S3)。
続いて、行動特徴量抽出部124は、オブジェクト検出部122が検出したオブジェクトの行動特徴量を抽出する(S4)。
Subsequently, the appearance feature amount extraction unit 123 extracts the appearance feature amount of the object detected by the object detection unit 122 (S3).
Subsequently, the behavior feature quantity extraction unit 124 extracts the behavior feature quantity of the object detected by the object detection unit 122 (S4).

続いて、関連付け部125は、オブジェクト検出部122が抽出した位置特徴量、見え特徴量抽出部123が抽出した見え特徴量、及び行動特徴量抽出部124が抽出した行動特徴量に基づいて、オブジェクト検出部122が検出したオブジェクトの関連付けを行う(S5)。 Subsequently, the associating unit 125 selects an object based on the position feature amount extracted by the object detection unit 122, the appearance feature amount extracted by the appearance feature amount extraction unit 123, and the behavior feature amount extracted by the behavior feature amount extraction unit 124. The objects detected by the detection unit 122 are associated (S5).

続いて、行動特徴量抽出部124は、関連付け部125により関連付けが行われた複数のオブジェクトのそれぞれについて、当該オブジェクトと、当該オブジェクトに関連付けられた一以上の他のオブジェクトとに基づいて行動特徴量を再抽出する(S6)。 Next, for each of the plurality of objects associated by the association unit 125, the behavior feature amount extraction unit 124 extracts the behavior feature amount based on the object and one or more other objects associated with the object. is re-extracted (S6).

続いて、関連付け部125は、オブジェクト検出部122が抽出した位置特徴量、見え特徴量抽出部123が抽出した見え特徴量、及び行動特徴量抽出部124が再抽出した行動特徴量に基づいて、オブジェクト検出部122が検出したオブジェクトの関連付けを行う(S7)。 Subsequently, the associating unit 125, based on the position feature amount extracted by the object detection unit 122, the appearance feature amount extracted by the appearance feature amount extraction unit 123, and the behavior feature amount re-extracted by the behavior feature amount extraction unit 124, The objects detected by the object detection unit 122 are associated (S7).

続いて、実行制御部126は、関連付け部125によるオブジェクトの関連付けが収束したか否かを判定する(S8)。実行制御部126は、オブジェクトの関連付けが収束したと判定すると、本フローチャートに係る処理を終了し、オブジェクトの関連付けが収束していないと判定すると、S6に処理を移す。 Subsequently, the execution control unit 126 determines whether or not the association of objects by the association unit 125 has converged (S8). If the execution control unit 126 determines that the object associations have converged, it ends the processing according to this flowchart, and if it determines that the object associations have not converged, the processing proceeds to S6.

[本実施形態における効果]
以上説明したように、本実施形態に係るオブジェクト追跡装置1は、所定エリアを複数の時刻のそれぞれで撮像した複数の撮像画像からオブジェクトを検出し、検出したオブジェクトに対応する撮像画像の部分画像に基づいてオブジェクトの行動特徴量を抽出し、抽出した行動特徴量に基づいて撮像時刻が異なる複数の撮像画像のそれぞれから検出されたオブジェクトの関連付けを行う。そして、オブジェクト追跡装置1は、関連付けが行われた複数のオブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた他のオブジェクトに対応する部分画像とに基づいて行動特徴量を再抽出し、再抽出した行動特徴量に基づいて、撮像時刻が異なる複数の撮像画像のそれぞれから検出されたオブジェクトの関連付けを再度行う。
[Effects of this embodiment]
As described above, the object tracking device 1 according to the present embodiment detects an object from a plurality of captured images obtained by capturing a predetermined area at each of a plurality of times, and extracts a partial image of the captured image corresponding to the detected object. Based on the behavior feature amount of the object is extracted, and based on the extracted behavior feature amount, objects detected from each of the plurality of captured images taken at different times are associated with each other. Then, for each of the plurality of associated objects, the object tracking device 1 calculates a behavior feature amount based on a partial image corresponding to the object and a partial image corresponding to another object associated with the object. are re-extracted, and based on the re-extracted behavior feature amount, objects detected from each of the plurality of captured images captured at different times are re-associated.

このようにすることで、オブジェクト追跡装置1は、関連付けが行われたオブジェクトのそれぞれに対応するオブジェクトの行動特徴量の精度を高めることができるので、オブジェクトを精度良く追跡することができる。 By doing so, the object tracking device 1 can improve the accuracy of the behavior feature amount of the object corresponding to each associated object, so that the object can be tracked with high accuracy.

また、オブジェクト追跡装置1は、行動特徴量の再抽出と、オブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行う。これにより、オブジェクト追跡装置1は、関連付けが行われたオブジェクト同士が示す行動特徴量に基づいて、各オブジェクトの行動特徴量の精度をさらに高めることができるので、オブジェクトの追跡精度をさらに向上させることができる。 Further, the object tracking device 1 tracks the object by alternately and repeatedly executing the re-extraction of the behavior feature amount and the re-association of the object until a predetermined condition is satisfied. As a result, the object tracking device 1 can further improve the accuracy of the behavioral feature amount of each object based on the behavioral feature amount indicated by the associated objects, so that the object tracking accuracy can be further improved. can be done.

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、上述の実施形態では、関連付け部125は、オブジェクト検出部122が抽出した位置特徴量、見え特徴量抽出部123が抽出した見え特徴量、及び行動特徴量抽出部124が抽出した行動特徴量に基づいて、オブジェクトの関連付けを行うこととしたが、これに限らない。 Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments, and various modifications and changes are possible within the scope of the gist thereof. be. For example, in the above-described embodiment, the association unit 125 uses the position feature amount extracted by the object detection unit 122, the appearance feature amount extracted by the appearance feature amount extraction unit 123, and the behavior feature amount extracted by the behavior feature amount extraction unit 124. Although the objects are associated based on the above, the present invention is not limited to this.

関連付け部125は、行動特徴量抽出部124が抽出した行動特徴量のみに基づいて、オブジェクト検出部122が検出したオブジェクトの関連付けを行ってもよい。また、関連付け部125は、オブジェクト検出部122が抽出した位置特徴量及び見え特徴量抽出部123が抽出した見え特徴量のいずれかと、行動特徴量抽出部124が抽出した行動特徴量とに基づいてオブジェクト検出部122が検出したオブジェクトの関連付けを行ってもよい。 The associating unit 125 may associate the objects detected by the object detecting unit 122 based only on the behavior feature amount extracted by the behavior feature amount extracting unit 124 . Further, the association unit 125 performs the following operations based on either the position feature amount extracted by the object detection unit 122 or the appearance feature amount extracted by the appearance feature amount extraction unit 123, and the behavior feature amount extracted by the behavior feature amount extraction unit 124. Objects detected by the object detection unit 122 may be associated.

また、取得部121は、撮像装置2が4以上の複数の時刻のそれぞれで撮像した4以上の複数の撮像画像を取得したが、これに限らない。取得部121は、撮像装置2が3つの時刻のそれぞれで撮像した3つの撮像画像を取得してもよい。この場合には、行動特徴量抽出部124による行動特徴量の再抽出と、関連付け部125による行動特徴量の再抽出が行われたオブジェクトの関連付けとを、それぞれ1回のみ実行し、行動特徴量の再抽出と、行動特徴量の再抽出が行われたオブジェクトの関連付けとを複数回実行しないようにしてもよい。 In addition, although the acquisition unit 121 acquires four or more captured images captured by the imaging device 2 at each of four or more times, the acquisition unit 121 is not limited to this. The acquisition unit 121 may acquire three captured images captured by the imaging device 2 at three times. In this case, the re-extraction of the behavioral feature quantity by the behavioral feature quantity extraction unit 124 and the association of the object whose behavioral feature quantity is re-extracted by the associating unit 125 are each executed only once, and the behavioral feature quantity re-extraction and the association of the objects from which the behavior feature values have been re-extracted may not be executed multiple times.

また、上記の実施の形態では、オブジェクトが、店舗内を行動する店員や顧客等の人物であることを例として説明したが、これに限らない。例えば、撮像画像が、町中を撮像する撮像画像である場合、人物に限らず、車両等の移動物もオブジェクトとしてもよい。この場合、オブジェクト追跡装置1は、オブジェクトの種別に応じた各種特徴量を用いてもよい。 Further, in the above-described embodiment, an example has been described in which the object is a person such as a salesclerk or a customer who acts in the store, but the object is not limited to this. For example, when the captured image is a captured image of the town, moving objects such as vehicles may be used as objects in addition to people. In this case, the object tracking device 1 may use various feature amounts according to the type of object.

また、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。 Also, all or part of the device can be functionally or physically distributed and integrated in arbitrary units. In addition, new embodiments resulting from arbitrary combinations of multiple embodiments are also included in the embodiments of the present invention. The effect of the new embodiment caused by the combination has the effect of the original embodiment.

1・・・オブジェクト追跡装置、11・・・記憶部、12・・・制御部、121・・・取得部、122・・・オブジェクト検出部、123・・・見え特徴量抽出部、124・・・行動特徴量抽出部、125・・・関連付け部、126・・・実行制御部、2・・・撮像装置

Reference Signs List 1... Object tracking device, 11... Storage unit, 12... Control unit, 121... Acquisition unit, 122... Object detection unit, 123... Appearance feature amount extraction unit, 124... Behavior feature quantity extraction unit 125 Association unit 126 Execution control unit 2 Imaging device

Claims (12)

所定エリアを撮像する撮像装置が以上の複数の時刻のそれぞれで撮像した以上の複数の撮像画像を取得する取得部と、
前記取得部が取得した前記複数の撮像画像のそれぞれから、前記撮像画像に映るオブジェクトを検出するオブジェクト検出部と、
前記オブジェクト検出部が検出した前記オブジェクトに対応する前記撮像画像の部分画像に基づいて、前記オブジェクトの行動の特徴量を示す行動特徴量を抽出する行動特徴量抽出部と、
前記行動特徴量抽出部が抽出した前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行う関連付け部と、
を備え、
前記行動特徴量抽出部は、前記関連付け部により関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた一以上の他のオブジェクトのそれぞれに対応する前記部分画像とに基づいて前記行動特徴量を再抽出し、
前記関連付け部は、前記行動特徴量抽出部により再抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを再度行い、
前記関連付け部によるオブジェクトの関連付けを行った結果、当該関連付けを行った後において関連付けられているオブジェクトの数に対する、当該関連付けを行う前において関連付けられているオブジェクトの数の割合が所定の割合以上となるまで、前記行動特徴量抽出部による前記行動特徴量の再抽出と、前記関連付け部による前記オブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行う実行制御部を備える、
オブジェクト追跡装置。
an acquisition unit that acquires four or more captured images captured at each of four or more times by an imaging device that captures an image of a predetermined area;
an object detection unit that detects an object appearing in the captured image from each of the plurality of captured images acquired by the acquisition unit;
a behavior feature quantity extraction unit that extracts a behavior feature quantity indicating a behavior feature quantity of the object based on a partial image of the captured image corresponding to the object detected by the object detection unit;
an association unit that associates the object detected by the object detection unit from each of the plurality of captured images captured at different times based on the behavior feature amount extracted by the behavior feature amount extraction unit;
with
For each of the plurality of objects associated by the association unit, the behavior feature amount extraction unit corresponds to each of a partial image corresponding to the object and one or more other objects associated with the object. Re-extracting the behavior feature amount based on the partial image and
The associating unit associates the object detected by the object detecting unit from each of the plurality of captured images captured at different times based on the behavioral feature quantity re-extracted by the behavioral feature quantity extraction unit. do it again,
As a result of associating objects by the associating unit, a ratio of the number of objects associated before the association to the number of objects associated after the association becomes a predetermined ratio or more. The object is tracked by alternately and repeatedly executing the re-extraction of the behavior feature amount by the behavior feature amount extraction unit and the re-association of the object by the association unit until a predetermined condition is satisfied. comprising an execution control unit;
object tracker.
所定エリアを撮像する撮像装置が4以上の複数の時刻のそれぞれで撮像した4以上の複数の撮像画像を取得する取得部と、
前記取得部が取得した前記複数の撮像画像のそれぞれから、前記撮像画像に映るオブジェクトを検出するオブジェクト検出部と、
前記オブジェクト検出部が検出した前記オブジェクトに対応する前記撮像画像の部分画像に基づいて、前記オブジェクトの行動の特徴量を示す行動特徴量を抽出する行動特徴量抽出部と、
前記行動特徴量抽出部が抽出した前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行う関連付け部と、
を備え、
前記行動特徴量抽出部は、前記関連付け部により関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた一以上の他のオブジェクトのそれぞれに対応する前記部分画像とに基づいて前記行動特徴量を再抽出し、
前記関連付け部は、前記行動特徴量抽出部により再抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを再度行い、
前記行動特徴量抽出部による前記行動特徴量の再抽出と、前記関連付け部による前記オブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行う実行制御部を備え、
前記行動特徴量抽出部は、前記関連付け部により関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する前記行動特徴量が示す行動傾向に基づいて、当該オブジェクトの前記行動特徴量の再抽出に用いる他のオブジェクトの数を変化させる、
オブジェクト追跡装置。
an acquisition unit that acquires four or more captured images captured at each of four or more times by an imaging device that captures an image of a predetermined area;
an object detection unit that detects an object appearing in the captured image from each of the plurality of captured images acquired by the acquisition unit;
a behavior feature quantity extraction unit that extracts a behavior feature quantity indicating a behavior feature quantity of the object based on a partial image of the captured image corresponding to the object detected by the object detection unit;
an association unit that associates the object detected by the object detection unit from each of the plurality of captured images captured at different times based on the behavior feature amount extracted by the behavior feature amount extraction unit;
with
For each of the plurality of objects associated by the association unit, the behavior feature amount extraction unit corresponds to each of a partial image corresponding to the object and one or more other objects associated with the object. Re-extracting the behavior feature amount based on the partial image and
The associating unit associates the object detected by the object detecting unit from each of the plurality of captured images captured at different times based on the behavioral feature quantity re-extracted by the behavioral feature quantity extraction unit. do it again,
The re-extraction of the behavioral feature quantity by the behavioral feature quantity extraction unit and the re-association of the object by the associating unit are alternately and repeatedly executed until a predetermined condition is satisfied, thereby performing execution control for tracking the object. having a department,
The behavior feature quantity extraction unit extracts the behavior feature quantity of each of the plurality of objects associated by the association unit based on the behavior tendency indicated by the behavior feature quantity corresponding to the object. Varying the number of other objects used for resampling,
object tracker.
前記オブジェクト検出部は、前記撮像画像に映る前記オブジェクトの位置を示すオブジェクト位置を特定することにより前記オブジェクトを検出し、
前記行動特徴量抽出部は、前記オブジェクト検出部が特定した前記オブジェクト位置に対応する前記部分画像に基づいて、前記行動特徴量を抽出する、
請求項1又は2に記載のオブジェクト追跡装置。
The object detection unit detects the object by specifying an object position indicating the position of the object in the captured image,
The behavior feature quantity extraction unit extracts the behavior feature quantity based on the partial image corresponding to the object position identified by the object detection unit.
3. The object tracking device according to claim 1 or 2 .
前記関連付け部は、前記オブジェクト検出部が特定した前記オブジェクト位置にさらに基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行う、
請求項に記載のオブジェクト追跡装置。
The association unit associates the object detected by the object detection unit from each of the plurality of captured images captured at different times, further based on the object position specified by the object detection unit.
The object tracking device according to claim 3 .
前記オブジェクト検出部が検出した前記オブジェクトの前記撮像画像における見え方を示す見え特徴量を抽出する見え特徴量抽出部をさらに備え、
前記関連付け部は、前記見え特徴量抽出部が抽出した前記見え特徴量にさらに基づいて、撮像された時刻が異なる撮像画像のそれぞれから前記オブジェクト検出部が検出した前記オブジェクトの関連付けを行う、
請求項1からのいずれか1項に記載のオブジェクト追跡装置。
further comprising an appearance feature amount extraction unit for extracting an appearance feature amount indicating how the object detected by the object detection unit appears in the captured image,
The association unit associates the object detected by the object detection unit from each of the captured images captured at different times, further based on the appearance feature amount extracted by the appearance feature amount extraction unit.
The object tracking device according to any one of claims 1 to 4 .
前記行動特徴量抽出部は、前記オブジェクト検出部が検出した前記オブジェクトに対応する前記撮像画像の前記部分画像と、当該撮像画像が撮像された時刻の前の時刻又は後の時刻に撮像された撮像画像の前記部分画像との差分に基づいて、前記行動特徴量を抽出する、
請求項1からのいずれか1項に記載のオブジェクト追跡装置。
The behavior feature amount extraction unit extracts the partial image of the captured image corresponding to the object detected by the object detection unit and an image captured at a time before or after the captured image is captured. extracting the behavior feature amount based on the difference between the image and the partial image;
An object tracking device according to any one of claims 1 to 5 .
前記行動特徴量抽出部は、前記オブジェクト検出部が検出した前記オブジェクトを含む前記部分画像である第1部分画像と、前記オブジェクトを含み、前記第1部分画像より表示領域が大きい前記部分画像である第2部分画像に基づいて、前記行動特徴量を抽出する、
請求項1からのいずれか1項に記載のオブジェクト追跡装置。
The behavior feature amount extraction unit is a first partial image that is the partial image including the object detected by the object detection unit, and the partial image that includes the object and has a display area larger than that of the first partial image. extracting the behavior feature amount based on the second partial image;
An object tracking device according to any one of claims 1 to 6 .
前記行動特徴量抽出部は、前記部分画像の入力に対して前記行動特徴量を出力するニューラルネットワークに、前記オブジェクトに対応する前記部分画像と、当該オブジェクトとの関連付けが行われた一以上の前記他のオブジェクトに対応する前記部分画像とを入力し、前記ニューラルネットワークから出力された複数の行動特徴量に基づいて、当該オブジェクトの前記行動特徴量を再抽出する、
請求項1からのいずれか1項に記載のオブジェクト追跡装置。
The action feature amount extraction unit supplies a neural network that outputs the action feature amount in response to the input of the partial image to the partial image corresponding to the object and one or more of the one or more associated objects. inputting the partial image corresponding to another object and re-extracting the behavioral feature of the object based on a plurality of behavioral features output from the neural network;
An object tracking device according to any one of claims 1 to 7 .
前記行動特徴量抽出部は、前記部分画像の入力に対して前記行動特徴量を出力するニューラルネットワークに、前記オブジェクトに対応する前記部分画像を入力し、前記ニューラルネットワークにおける中間層が示す特徴量を取得し、取得した特徴量に基づいて、当該オブジェクトの前記行動特徴量を抽出する、
請求項1からのいずれか1項に記載のオブジェクト追跡装置。
The action feature amount extraction unit inputs the partial image corresponding to the object to a neural network that outputs the action feature amount in response to the input of the partial image, and extracts the feature amount indicated by an intermediate layer in the neural network. Obtaining, based on the obtained feature amount, extracting the behavior feature amount of the object;
An object tracking device according to any one of claims 1 to 8 .
前記行動特徴量抽出部は、前記部分画像の入力に対して前記行動特徴量を出力するニューラルネットワークに、前記オブジェクトに対応する前記部分画像と、当該オブジェクトとの関連付けが行われた一以上の前記他のオブジェクトに対応する前記部分画像とを入力し、前記ニューラルネットワークにおける中間層が示す特徴量を取得し、取得した特徴量に基づいて、当該オブジェクトの前記行動特徴量を再抽出する、
請求項1からのいずれか1項に記載のオブジェクト追跡装置。
The action feature amount extraction unit supplies a neural network that outputs the action feature amount in response to the input of the partial image to the partial image corresponding to the object and one or more of the one or more associated objects. Input the partial image corresponding to another object, acquire the feature amount indicated by the intermediate layer in the neural network, and re-extract the behavior feature amount of the object based on the acquired feature amount.
An object tracking device according to any one of claims 1 to 8 .
コンピュータが実行する、
所定エリアを撮像する撮像装置が以上の複数の時刻のそれぞれで撮像した以上の複数の撮像画像を取得するステップと、
取得された前記複数の撮像画像のそれぞれから、前記撮像画像に映るオブジェクトを検出するステップと、
検出された前記オブジェクトに対応する前記撮像画像の部分画像に基づいて、前記オブジェクトの行動の特徴量を示す行動特徴量を抽出するステップと、
抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから検出された前記オブジェクトの関連付けを行うステップと、
関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた一以上の他のオブジェクトのそれぞれに対応する前記部分画像とに基づいて前記行動特徴量を再抽出するステップと、
再抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから検出された前記オブジェクトの関連付けを再度行うステップと、
前記オブジェクトの関連付けを行った結果、当該関連付けを行った後において関連付けられているオブジェクトの数に対する、当該関連付けを行う前において関連付けられているオブジェクトの数の割合が所定の割合以上となるまで、前記行動特徴量の再抽出と、前記オブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行うステップと、
を有するオブジェクト追跡方法。
the computer runs
acquiring four or more captured images captured at each of four or more times by an imaging device that captures an image of a predetermined area;
a step of detecting an object appearing in the captured image from each of the plurality of acquired captured images;
a step of extracting a behavior feature quantity indicating a behavior feature quantity of the object based on a partial image of the captured image corresponding to the detected object;
a step of associating the object detected from each of the plurality of captured images taken at different times based on the extracted behavior feature amount;
For each of the plurality of associated objects, the behavior feature amount is based on a partial image corresponding to the object and the partial images corresponding to one or more other objects associated with the object. re-extracting the
a step of re-associating the object detected from each of the plurality of captured images taken at different times based on the re-extracted behavior feature quantity;
Until the ratio of the number of objects associated before the association to the number of objects associated after the association reaches a predetermined ratio or more as a result of the association of the objects, a step of tracking an object by alternately and repeatedly executing the re-extraction of the behavior feature amount and the re-association of the object until a predetermined condition is satisfied;
object tracking method with
コンピュータが実行する、
所定エリアを撮像する撮像装置が以上の複数の時刻のそれぞれで撮像した以上の複数の撮像画像を取得するステップと、
取得された前記複数の撮像画像のそれぞれから、前記撮像画像に映るオブジェクトを検出するステップと、
検出された前記オブジェクトに対応する前記撮像画像の部分画像に基づいて、前記オブジェクトの行動の特徴量を示す行動特徴量を抽出するステップと、
抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから検出された前記オブジェクトの関連付けを行うステップと、
関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する部分画像と、当該オブジェクトに関連付けられた一以上の他のオブジェクトのそれぞれに対応する前記部分画像とに基づいて前記行動特徴量を再抽出するステップと、
再抽出された前記行動特徴量に基づいて、撮像された時刻が異なる複数の前記撮像画像のそれぞれから検出された前記オブジェクトの関連付けを再度行うステップと、
前記行動特徴量の再抽出と、前記オブジェクトの再度の関連付けとを、所定の条件を満たすまで交互に繰り返し実行させることにより、オブジェクトの追跡を行うステップと、
を有し、
前記行動特徴量を再抽出するステップにおいて、前記コンピュータは、関連付けが行われた複数の前記オブジェクトのそれぞれについて、当該オブジェクトに対応する前記行動特徴量が示す行動傾向に基づいて、当該オブジェクトの前記行動特徴量の再抽出に用いる他のオブジェクトの数を変化させる、
オブジェクト追跡方法。
the computer runs
acquiring four or more captured images captured at each of four or more times by an imaging device that captures an image of a predetermined area;
a step of detecting an object appearing in each of the captured images from each of the plurality of acquired captured images;
a step of extracting a behavior feature quantity indicating a behavior feature quantity of the object based on a partial image of the captured image corresponding to the detected object;
a step of associating the object detected from each of the plurality of captured images taken at different times based on the extracted behavior feature amount;
For each of the plurality of associated objects, the behavior feature amount is based on a partial image corresponding to the object and the partial images corresponding to one or more other objects associated with the object. re-extracting the
a step of re-associating the object detected from each of the plurality of captured images taken at different times based on the re-extracted behavior feature quantity;
a step of tracking an object by alternately and repeatedly executing the re-extraction of the behavior feature amount and the re-association of the object until a predetermined condition is satisfied;
has
In the step of re-extracting the behavioral feature quantity, the computer extracts, for each of the plurality of associated objects, the behavior of the object based on the behavioral tendency indicated by the behavioral feature quantity corresponding to the object. Varying the number of other objects used for re-extracting features,
Object tracking method.
JP2020009676A 2020-01-24 2020-01-24 Object tracking device and object tracking method Active JP7229954B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020009676A JP7229954B2 (en) 2020-01-24 2020-01-24 Object tracking device and object tracking method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020009676A JP7229954B2 (en) 2020-01-24 2020-01-24 Object tracking device and object tracking method

Publications (2)

Publication Number Publication Date
JP2021117635A JP2021117635A (en) 2021-08-10
JP7229954B2 true JP7229954B2 (en) 2023-02-28

Family

ID=77175643

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020009676A Active JP7229954B2 (en) 2020-01-24 2020-01-24 Object tracking device and object tracking method

Country Status (1)

Country Link
JP (1) JP7229954B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953580B (en) * 2024-01-29 2024-09-13 浙江大学 Behavior recognition method and system based on cross-camera multi-target tracking and electronic equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010273112A (en) 2009-05-21 2010-12-02 Fujifilm Corp Person tracking method, person tracking device, and person tracking program
JP2017111660A (en) 2015-12-17 2017-06-22 日本電信電話株式会社 Video pattern learning device, method and program
JP2018181273A (en) 2017-04-21 2018-11-15 キヤノン株式会社 Image processing apparatus, method thereof, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010273112A (en) 2009-05-21 2010-12-02 Fujifilm Corp Person tracking method, person tracking device, and person tracking program
JP2017111660A (en) 2015-12-17 2017-06-22 日本電信電話株式会社 Video pattern learning device, method and program
JP2018181273A (en) 2017-04-21 2018-11-15 キヤノン株式会社 Image processing apparatus, method thereof, and program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Atif Ilyas et al.,"A combined motion and appearance model for human tracking in multiple cameras environment",2010 6th International Conference on Emerging Technologies (ICET),米国,IEEE,2010年10月18日,pp.198-203
Gurkirt Singh et al.,"Online Real-Time Multiple Spatiotemporal Action Localisation and Prediction",2017 IEEE International Conference on Computer Vision (ICCV),米国,IEEE,2017年10月22日,pp.3657-3666
西村 仁志、外3名,"基本行動特徴量を用いたオンライン複数人物追跡",第34回 画像符号化シンポジウム 第24回 映像メディア処理シンポジウム,日本,電子情報通信学会画像工学研究専門委員会,2019年11月18日,pp.168-169

Also Published As

Publication number Publication date
JP2021117635A (en) 2021-08-10

Similar Documents

Publication Publication Date Title
US10977521B2 (en) Multi-scale aware pedestrian detection method based on improved full convolutional network
EP2905724B1 (en) Object detection system and method
JP4208898B2 (en) Object tracking device and object tracking method
JP5554984B2 (en) Pattern recognition method and pattern recognition apparatus
CN109376681A (en) A kind of more people's Attitude estimation method and system
CN110276785B (en) Anti-shielding infrared target tracking method
JP6597914B2 (en) Image processing apparatus, image processing method, and program
CN107451156B (en) Image re-identification method and identification device
JP2007128195A (en) Image processing system
CN105844248B (en) Face detection method and device
CN112597943B (en) Pedestrian re-identification feature extraction method and device, electronic equipment and storage medium
CN110019895B (en) Image retrieval method and device and electronic equipment
CN106097383A (en) A kind of method for tracking target for occlusion issue and equipment
KR102166117B1 (en) Semantic matchaing apparatus and method
KR20210099450A (en) Far away small drone detection method Using Deep Learning
JP7229954B2 (en) Object tracking device and object tracking method
CN110569711B (en) Human body action oriented recognition method
CN113870315A (en) Training method of action migration model and action migration method
CN113129332A (en) Method and apparatus for performing target object tracking
JP6452324B2 (en) Image processing apparatus, image processing method, and program
JP2010257267A (en) Device, method and program for detecting object area
JP6713422B2 (en) Learning device, event detection device, learning method, event detection method, program
JP6030457B2 (en) Image detection apparatus, control program, and image detection method
CN110458177B (en) Method for acquiring image depth information, image processing device and storage medium
JP2018180646A (en) Object candidate area estimation device, object candidate area estimation method and object candidate area estimation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7229954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150