JP7456590B2 - Tracking devices and programs - Google Patents

Tracking devices and programs Download PDF

Info

Publication number
JP7456590B2
JP7456590B2 JP2020038879A JP2020038879A JP7456590B2 JP 7456590 B2 JP7456590 B2 JP 7456590B2 JP 2020038879 A JP2020038879 A JP 2020038879A JP 2020038879 A JP2020038879 A JP 2020038879A JP 7456590 B2 JP7456590 B2 JP 7456590B2
Authority
JP
Japan
Prior art keywords
camera
image
likelihood
particles
photographing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020038879A
Other languages
Japanese (ja)
Other versions
JP2021140560A (en
Inventor
英夫 山田
雅聡 柴田
修一 榎田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Aisin Corp
Original Assignee
Aisin Seiki Co Ltd
Kyushu Institute of Technology NUC
Aisin Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisin Seiki Co Ltd, Kyushu Institute of Technology NUC, Aisin Corp filed Critical Aisin Seiki Co Ltd
Priority to JP2020038879A priority Critical patent/JP7456590B2/en
Publication of JP2021140560A publication Critical patent/JP2021140560A/en
Application granted granted Critical
Publication of JP7456590B2 publication Critical patent/JP7456590B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、追跡装置、及び追跡プログラムに関し、例えば、歩行者を追跡するものに関する。 The present invention relates to a tracking device and a tracking program, and for example, to one that tracks pedestrians.

近年、ホテルの案内ロボットや掃除ロボットなど、生活環境で活用するロボットの開発が盛んに行われている。これらのロボットは、将来の人口減少に伴う人手不足の解消や、生活支援など、例えば、商業施設、工場、介護事業などでの活躍が特に期待されている。
人の生活環境内で動作するためには、追跡対象である人や避けるべき障害物といった周辺環境を把握する必要がある。
このような技術に特許文献1の「自律移動ロボット、自律移動ロボットの制御方法および制御プログラム」がある。
この技術は、追跡対象である人の移動先を予測するとともに、人を撮影するカメラの視界を遮る障害物の移動先を予測し、障害物が人を遮蔽する場合に撮影される人の面積が大きくなるようにカメラの視界を変更するものである。
In recent years, there has been active development of robots for use in the living environment, such as hotel guide robots and cleaning robots. These robots are particularly expected to be useful in resolving labor shortages due to population decline in the future, and providing lifestyle support, such as in commercial facilities, factories, and nursing care businesses.
In order to operate within a human living environment, it is necessary to understand the surrounding environment, such as the person to be tracked and the obstacles to be avoided.
An example of such technology is "Autonomous mobile robot, autonomous mobile robot control method, and control program" in Patent Document 1.
This technology not only predicts the destination of a person being tracked, but also predicts the destination of obstacles that obstruct the view of the camera that is photographing the person. The field of view of the camera is changed so that the image becomes larger.

ところで、このように歩行する人をロボットで認識して追跡する場合、人はロボットの近距離で頻繁に方向転換や速度変更を気まぐれに行うため、これを如何に見失わずに頑健に追跡するかが課題となっていた。 By the way, when a robot recognizes and tracks a walking person in this way, the human frequently changes direction and speed whimsically within close range of the robot. was an issue.

特開2018-147337号公報Japanese Patent Application Publication No. 2018-147337

本発明は、対象を頑健に追跡することを目的とする。 The present invention aims to robustly track objects.

(1)本発明では、対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生手段と、前記対象を撮影する撮影手段と、前記撮影した画像に前記発生させた粒子を写像する写像手段と、前記写像した粒子の前記画像内での位置に基づいて検出領域を設定して、前記撮影した対象を画像認識する画像認識手段と、前記画像認識の結果に基づいて前記発生させた粒子の尤度を取得する尤度取得手段と、前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡手段と、を具備し、前記粒子発生手段は、前記対象が移動する平面に平行な平面に沿って、逐次、前記更新した確率分布に基づいて粒子を発生させることを特徴とする追跡装置を提供する。
(2)また本発明では、対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生機能と、前記対象を撮影する撮影機能と、前記撮影した画像に前記発生させた粒子を写像する写像機能と、前記写像した粒子の前記画像内での位置に基づいて検出領域を設定して、前記撮影した対象を画像認識する画像認識機能と、前記画像認識の結果に基づいて前記発生させた粒子の尤度を取得する尤度取得機能と、前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡手段と、をコンピュータで実現し、前記粒子発生機能は、前記対象が移動する平面に平行な平面に沿って、逐次、前記更新した確率分布に基づいて粒子を発生させる追跡プログラムを提供する。
(1) The present invention includes: a particle generating means that generates particles to be used in a particle filter in a three-dimensional space based on a probability distribution of a position where an object exists; a photographing means that photographs the object; a mapping means for mapping the generated particles; an image recognition means for recognizing the photographed object as an image by setting a detection area based on the position of the mapped particle in the image; a likelihood acquisition unit that acquires the likelihood of the generated particles based on the result; a tracking unit that updates the probability distribution based on the acquired likelihood to track the location where the target exists; The tracking device is characterized in that the particle generating means sequentially generates particles based on the updated probability distribution along a plane parallel to the plane in which the object moves .
(2) The present invention also includes a particle generation function that generates particles to be used in a particle filter in a three-dimensional space based on the probability distribution of the position where the target exists, a photographing function that photographs the target, and the photographed image. a mapping function that maps the generated particles to the image; an image recognition function that recognizes the photographed object by setting a detection area based on the position of the mapped particle in the image; and an image recognition function that recognizes the photographed object as an image. a likelihood acquisition function that acquires the likelihood of the generated particles based on the result of the above; and a tracking means that updates the probability distribution based on the acquired likelihood to track the location where the target exists. is realized by a computer, and the particle generation function provides a tracking program that sequentially generates particles based on the updated probability distribution along a plane parallel to the plane in which the object moves .

本発明によれば、対象が存在する3次元空間で粒子を発生させて、追跡対象の位置の確率分布を更新することにより、追跡対象を頑健に追跡することができる。 According to the present invention, the target can be robustly tracked by generating particles in a three-dimensional space where the target exists and updating the probability distribution of the position of the target.

第1実施形態に係る追跡ロボットの外見例を表した図である。FIG. 2 is a diagram showing an example of the appearance of a tracking robot according to the first embodiment. 追跡装置のハードウェア的な構成を表した図である。FIG. 2 is a diagram showing the hardware configuration of a tracking device. ステレオ画像を撮影する仮想カメラを説明するための図である。FIG. 2 is a diagram for explaining a virtual camera that takes stereo images. 対象までの距離と方位の計測方法を説明するための図である。FIG. 3 is a diagram for explaining a method of measuring distance and direction to a target. 輻輳ステレオ方式の優位性を説明するための図である。FIG. 2 is a diagram for explaining the superiority of the congestion stereo system. 粒子の発生方法を説明するための図である。FIG. 1 is a diagram for explaining a method for generating particles. 粒子のカメラ画像への写像を説明するための図である。FIG. 3 is a diagram for explaining mapping of particles to a camera image. 対象者の位置を仮想カメラで追跡する方法を説明するための図である。FIG. 3 is a diagram for explaining a method of tracking the position of a subject with a virtual camera. 尤度の計算方法を説明するための図である。FIG. 3 is a diagram for explaining a likelihood calculation method. 追跡処理を説明するためのフローチャートである。It is a flowchart for explaining tracking processing. 第2実施形態に係る追跡ロボットの外見例を表した図である。FIG. 7 is a diagram illustrating an example of the appearance of a tracking robot according to a second embodiment. 第2実施形態での測量方法を説明するための図である。It is a figure for demonstrating the surveying method in 2nd Embodiment.

(1)実施形態の概要
追跡装置1(図2)は、追跡ロボットの左右に配設された全天球カメラ9a、9bを備えている。
追跡装置1は、全天球カメラ9aで撮影した左全天球カメラ画像を球体オブジェクト30a(図3(a))に張り付け、球体オブジェクト30a(図3(a))の内部に仮想カメラ31aを設ける。
仮想カメラ31aは、球体オブジェクト30aの内部に形成された仮想的な撮影空間で自在に回転し、外界の左カメラ画像を取得することができる。
追跡装置1は、同様にして全天球カメラ9bで撮影した右全天球カメラ画像から右カメラ画像を取得する仮想カメラ31bも設け、仮想カメラ31a、31bによって輻輳ステレオカメラを構成する。
(1) Overview of Embodiment The tracking device 1 (FIG. 2) includes omnidirectional cameras 9a and 9b placed on the left and right sides of the tracking robot.
The tracking device 1 pastes the left omnidirectional camera image taken by the omnidirectional camera 9a onto the spherical object 30a (FIG. 3(a)), and places a virtual camera 31a inside the spherical object 30a (FIG. 3(a)). establish.
The virtual camera 31a can freely rotate in a virtual photographing space formed inside the spherical object 30a and can acquire a left camera image of the outside world.
The tracking device 1 also includes a virtual camera 31b that acquires a right camera image from a right omnidirectional camera image taken by the omnidirectional camera 9b, and the virtual cameras 31a and 31b constitute a vergence stereo camera.

追跡装置1は、このように構成した輻輳ステレオカメラを用いて、対象者8の位置を粒子フィルタによって追跡する。
追跡装置1は、対象者8の存在する空間に3次元的に粒子を発生させるが、対象者8は、歩行者を想定しており、歩行面に平行に移動するため、対象者8の胴体程度の高さの歩行面に平行な平面で、対象者8を中心とする円形領域32あたりに粒子を多数発生させる。
The tracking device 1 uses the vergence stereo camera configured as described above to track the position of the subject 8 using a particle filter.
The tracking device 1 generates particles three-dimensionally in the space where the target person 8 exists, but since the target person 8 is assumed to be a pedestrian and moves parallel to the walking surface, the torso of the target person 8 A large number of particles are generated around a circular area 32 centered on the subject 8 on a plane parallel to the walking surface at a certain height.

そして、追跡装置1は、仮想カメラ31a、31bで左カメラ画像と右カメラ画像を取得し、対象者8が歩行する実空間で発生させた粒子を、それぞれ左右のカメラ画像に対応づけて写像する。
即ち、発生させた粒子を、それぞれ左右のカメラ画像に投影し、左カメラ画像と右カメラ画像に写像された粒子を対応づけて、これらが3次元空間で同一の粒子であることを識別できるようにする。
The tracking device 1 then acquires left and right camera images using the virtual cameras 31a and 31b, and maps particles generated in the real space in which the subject 8 is walking in correspondence with the left and right camera images, respectively.
That is, the generated particles are projected onto the left and right camera images, respectively, and the particles mapped onto the left and right camera images are matched together so that they can be identified as being the same particle in three-dimensional space.

次いで、追跡装置1は、写像した対応する粒子に基づいて左カメラ画像と右カメラ画像のそれぞれに検出領域を設定し、左カメラ画像と右カメラ画像のそれぞれで対象者8を画像認識する。
追跡装置1は、画像認識の結果から左カメラ画像での尤度と右カメラ画像での尤度を基に、対象者8の存在する実空間に発生させた粒子の尤度とする。例えば、追跡装置1は、左カメラ画像での尤度と右カメラ画像での尤度を平均して、対象者8の存在する実空間に発生させた粒子の尤度とする。
Next, the tracking device 1 sets a detection area in each of the left camera image and the right camera image based on the mapped corresponding particles, and performs image recognition of the subject 8 in each of the left camera image and the right camera image.
The tracking device 1 determines the likelihood of particles generated in the real space where the subject 8 exists based on the likelihood in the left camera image and the likelihood in the right camera image from the result of image recognition. For example, the tracking device 1 averages the likelihood in the left camera image and the likelihood in the right camera image to determine the likelihood of the particle generated in the real space where the subject 8 exists.

このように、追跡装置1は、実空間で対象者8の周囲に発生させた個々の粒子の尤度を計算して、尤度に基づいて各粒子の重み付けをする。この重み付けの分布により、対象者8の存在する位置の確率分布を得ることができる。
この確率分布によって、3次元実空間で、対象者8がどのあたりの空間(ここでは、胴体の高さ程度に粒子を散布するため、胴体の存在する空間)に、どの程度の確率で存在するかを推定することができる。
これによって、対象者8の位置(確率密度の高い場所)を得ることができる。
In this way, the tracking device 1 calculates the likelihood of each particle generated around the subject 8 in real space, and weights each particle based on the likelihood. From the distribution of the weights, a probability distribution of the location of the subject 8 can be obtained.
This probability distribution makes it possible to estimate the probability of the subject 8 being present in a certain space in three-dimensional real space (in this case, the space where the torso is located, since the particles are dispersed at about torso height).
This makes it possible to obtain the position of the subject 8 (place of high probability density).

そして、追跡装置1は、重みの大きい粒子に対しては、リサンプリングの対象にし、重みの小さい粒子は削除することにより、対象者8をリサンプリングして確率分布を更新する。
即ち、重みの大きい粒子の周りでは、多く粒子を乱数的に発生させ、重みの小さい粒子に対しては、粒子を発生させない(あるいは、少なく発生させる)。
これによって、現在の対象者8の確率分布に対応する粒子の密度(濃淡)の分布が得られる。
Then, the tracking device 1 resamples the subject 8 and updates the probability distribution by selecting particles with large weights as resampling targets and deleting particles with small weights.
That is, around particles with large weights, many particles are randomly generated, and around particles with small weights, no particles are generated (or fewer particles are generated).
As a result, a distribution of particle density (shading) corresponding to the current probability distribution of the subject 8 is obtained.

追跡装置1は、新たに左右の画像を取得して、これら新たに発生させた粒子の尤度を計算して、重みを更新する。これによって確率分布が更新される。
この追跡装置1は、この処理を繰り返すことにより、対象者8の現在の位置(即ち、最新の確率分布)を追跡することができる。
The tracking device 1 newly acquires left and right images, calculates the likelihood of these newly generated particles, and updates the weights. This updates the probability distribution.
By repeating this process, the tracking device 1 can track the current position of the subject 8 (that is, the latest probability distribution).

このように、追跡装置1は、粒子の発生、尤度の観測、粒子の重み付け、リサンプリングを繰り返す粒子フィルタによって、対象者8の存在する確率の高い位置を追跡する。
そして、追跡装置1は、仮想カメラ31a、31bで対象者8の存在する確率の高い場所を輻輳視して測量することにより、対象者8までの距離dと、対象者8の存在する角度θを計算し、これに基づいて追跡ロボットの移動を制御する。
なお、対象者8の位置は、(d、θ、高さz)の円筒座標系で表されるが、歩行者の高さzは、一定と考えられるため、(d、θ)によって対象者8の位置を表した。
In this way, the tracking device 1 uses a particle filter that repeats particle generation, likelihood observation, particle weighting, and resampling to track a position where the target person 8 is likely to exist.
Then, the tracking device 1 uses the virtual cameras 31a and 31b to survey a place where there is a high probability that the target person 8 is present, thereby determining the distance d to the target person 8 and the angle θ where the target person 8 is present. is calculated and the movement of the tracking robot is controlled based on this.
Note that the position of the target person 8 is expressed in a cylindrical coordinate system of (d, θ, height z), but since the height z of the pedestrian is considered to be constant, the position of the target person 8 is expressed by (d, θ). 8 position is shown.

第2実施形態では、全天球カメラ9a、9bを上下方向に配設し、仮想カメラ31a、31bを上下方向に設置した。
仮想カメラ31a、31bを上下に設けることにより、対象者8の歩行環境を360度死角無く撮影・測量することができる。
In the second embodiment, the omnidirectional cameras 9a and 9b are disposed in the vertical direction, and the virtual cameras 31a and 31b are disposed in the vertical direction.
By providing the virtual cameras 31a and 31b above and below, the walking environment of the subject 8 can be photographed and surveyed in 360 degrees without any blind spots.

(2)実施形態の詳細
(第1実施形態)
図1の各図は、第1実施形態に係る追跡ロボット12の外見例を表した図である。
追跡ロボット12は、追跡対象を認識してこれを後方から追跡する自律移動型の追跡ロボットである。
以下では、追跡対象を主に歩行者とする。これは、一例であって、追跡対象を、車両やドローンといった飛行体など、その他の移動体とすることができる。
(2) Details of the embodiment (first embodiment)
Each diagram in FIG. 1 illustrates an example of the appearance of the tracked robot 12 according to the first embodiment.
The tracking robot 12 is an autonomous mobile tracking robot that recognizes a target and tracks it from behind.
In the following, the tracking target is mainly a pedestrian, but this is merely an example, and the tracking target may be other moving objects, such as a vehicle or an air vehicle such as a drone.

図1(a)は、追跡自体を主目的とし、追跡ロボット12aを三輪車でコンパクトに構成した例を示している。
例えば、散歩する児童や高齢者を見守ったり、担当者に追随して作業現場や災害現場などに入って情報収集したり、家畜などの動物を追跡して監視・観察したり、対象者が制限エリアに侵入しないように追跡・監視したりなどすることができる。
FIG. 1(a) shows an example in which a tracking robot 12a is constructed compactly using a tricycle, with the main purpose of tracking itself.
For example, you can watch over children and the elderly as they walk, follow a person in charge into a work site or disaster site to collect information, track livestock and other animals to monitor and observe them, and limit the number of people who can be targeted. It is possible to track and monitor areas to prevent them from entering the area.

追跡ロボット12aは、駆動輪を構成する一対の後輪16と、方向転換を行って、追跡方向を案内する一つの前輪17を具備した円柱状の筐体15を備えている。
なお、これら車輪は、ブルドーザーなどで利用されている無限軌道や、昆虫の節足部のような脚構造としても良い。
The tracking robot 12a includes a cylindrical housing 15 that includes a pair of rear wheels 16 that constitute driving wheels, and one front wheel 17 that changes direction and guides the tracking direction.
In addition, these wheels may be an endless track used in a bulldozer or the like, or a leg structure like the arthropod of an insect.

筐体15の上面の中央付近には、高さがおよそ歩行者の胴体の高さ程度である柱状部材が鉛直上方に立てられており、その先端には、撮影部11が設けられている。
撮影部11は、水平方向に30cm程度離れて設置された2つの全天球カメラ9a、9bを有している。以下、これらを特に区別しない場合は単に全天球カメラ9と略記し、他の構成要素も同様とする。
Near the center of the upper surface of the casing 15, a columnar member whose height is approximately the height of a pedestrian's torso is vertically erected upward, and the photographing section 11 is provided at the tip of the columnar member.
The photographing unit 11 has two omnidirectional cameras 9a and 9b installed horizontally about 30 cm apart. Hereinafter, unless there is a particular distinction between them, they will simply be abbreviated as omnidirectional camera 9, and the same will apply to the other components.

全天球カメラ9a、9bは、それぞれ、魚眼レンズを組み合わせて構成されており、360度の視界を得ることができる。追跡ロボット12aが搭載する追跡装置1(図2)は、全天球カメラ9a、9bの撮影したそれぞれの全天球カメラ画像から平面画像を切り出す仮想的な仮想カメラ31a、31bによって追跡対象をステレオ視し、追跡対象の距離と方位(角度、方角)を三角測量で測量する。
追跡ロボット12aは、当該測量結果に基づいて追跡対象の後方で移動し、これを追尾する。
The omnidirectional cameras 9a and 9b are each configured with a combination of fisheye lenses, and can provide a 360 degree field of view. The tracking device 1 (FIG. 2) mounted on the tracking robot 12a stereoscopically tracks the tracking target using virtual cameras 31a and 31b that cut out flat images from the respective spherical camera images taken by the spherical cameras 9a and 9b. and measure the distance and direction (angle, direction) of the tracked target using triangulation.
The tracking robot 12a moves behind the object to be tracked based on the survey results and tracks the object.

筐体15の内部には、追跡装置1を構成するコンピュータ、サーバや携帯端末などと通信するための通信装置、電力を供給するバッテリ、及び、車輪を駆動する駆動装置などが収納されている。 Inside the casing 15, a computer forming the tracking device 1, a communication device for communicating with a server, a mobile terminal, etc., a battery for supplying electric power, a drive device for driving wheels, and the like are housed.

図1(b)は、追跡ロボット12bに積載機能を備えた例を示している。
追跡ロボット12bは、進行方向を長手方向とする筐体20を備えている。筐体20は、コンピュータ、通信装置、バッテリ、駆動装置などを収納する他、例えば、荷台、収納ボックス、鞍型の着座部を装備することが可能である。
筐体20の上面先端部分には、追跡ロボット12aと同様の撮影部11が設けられている。
更に、追跡ロボット12bは、駆動輪を構成する一対の後輪21と、方向転換を行って、追跡方向を案内する一対の前輪22を具備している。これら車輪は、無限軌道や脚構造としても良い。
FIG. 1(b) shows an example in which the tracking robot 12b is equipped with a loading function.
The tracking robot 12b includes a housing 20 whose longitudinal direction is the traveling direction. In addition to housing a computer, a communication device, a battery, a drive device, etc., the housing 20 can be equipped with, for example, a loading platform, a storage box, and a saddle-shaped seating section.
An imaging unit 11 similar to the tracking robot 12a is provided at the top end of the housing 20.
Further, the tracking robot 12b includes a pair of rear wheels 21 that constitute driving wheels, and a pair of front wheels 22 that change direction and guide the tracking direction. These wheels may be tracks or leg structures.

追跡ロボット12bは、例えば、荷物の運搬補助を行ったり、着座部に人を乗せて運んだりすることができる。また、複数の追跡ロボット12bに対して、先頭の追跡ロボット12bは、追跡対象を追跡し、他の追跡ロボット12bは、直前の追跡ロボット12bを追尾するよう設定し、これによって複数の追跡ロボット12bをソフトウェアによって連結して縦列走行するように構成することもできる。これにより、一人の案内者が多くの荷物を運搬することができる。 The tracking robot 12b can, for example, assist in transporting luggage or carry a person on the seat. Further, among the plurality of tracking robots 12b, the first tracking robot 12b is set to track the tracking target, and the other tracking robots 12b are set to track the immediately preceding tracking robot 12b. They can also be configured to be connected by software and run in tandem. This allows one guide to transport a large amount of luggage.

図1(c)は、追跡ロボット12cをドローンに搭載した例を示している。
筐体25の上面には追跡装置1を浮揚する複数のプロペラ26が設けられており、底面の下に撮影部11が懸架されている。追跡ロボット12cは、空中を浮揚・飛行しながら目標を追跡する。
例えば、風邪が流行しているときに、マスクをしていない人を追跡して、搭載した拡声器から「マスクをしましょう」などと、注意を促すことができる。
FIG. 1(c) shows an example in which the tracking robot 12c is mounted on a drone.
A plurality of propellers 26 for levitating the tracking device 1 are provided on the top surface of the housing 25, and the photographing unit 11 is suspended below the bottom surface. The tracking robot 12c tracks the target while floating and flying in the air.
For example, during a cold outbreak, it can track people who are not wearing masks and use an on-board loudspeaker to warn them, ``Wear a mask.''

図2は、追跡装置1のハードウェア的な構成を表した図である。
追跡装置1は、CPU(Central Processing Unit)2、ROM(Read Only Memory)3、RAM(Random Access Memory)4、GPU(Graphics Processing Unit)5、撮影部11、記憶部10、制御部6、駆動装置7などがバスラインで接続されて構成されている。
追跡装置1は、対象者8の位置をステレオカメラ画像を用いた画像認識によって3次元的に追跡する。ここでは、対象者8として歩行者を想定する。
FIG. 2 is a diagram showing the hardware configuration of the tracking device 1.
The tracking device 1 includes a CPU (Central Processing Unit) 2, a ROM (Read Only Memory) 3, a RAM (Random Access Memory) 4, a GPU (Graphics Processing Unit) 5, an imaging unit 11, and a storage unit. 10, control unit 6, drive The device 7 and the like are connected by a bus line.
The tracking device 1 three-dimensionally tracks the position of the subject 8 by image recognition using stereo camera images. Here, the target person 8 is assumed to be a pedestrian.

CPU2は、記憶部10が記憶している追跡プログラムに従って対象者8を画像認識し、その位置を測量したり、制御プログラムに従って制御部6に追跡ロボット12が移動するための指令を発したりする。
ROM3は、CPU2が追跡装置1を動作させるための基本的なプログラムやパラメータなどを記憶した読み取り専用のメモリである。
The CPU 2 performs image recognition of the subject 8 according to the tracking program stored in the storage unit 10, measures the position thereof, and issues a command for the tracking robot 12 to move to the control unit 6 according to the control program.
The ROM 3 is a read-only memory that stores basic programs and parameters for the CPU 2 to operate the tracking device 1 .

RAM4は、CPU2が上記処理を行うためのワーキングメモリを提供する読み書きが可能なメモリである。
撮影部11が撮影した画像は、RAM4に展開されてCPU2により利用される。
GPU5は、複数の計算を同時に並行して行う機能を有する演算装置であり、本実施形態では、多数発生させた粒子に基づく粒子ごとの画像処理を、高速に並列処理するのに用いる。
The RAM 4 is a readable and writable memory that provides a working memory for the CPU 2 to perform the above processing.
The image photographed by the photographing unit 11 is developed in the RAM 4 and used by the CPU 2.
The GPU 5 is an arithmetic device having a function of performing multiple calculations simultaneously and in parallel, and is used in this embodiment to perform high-speed parallel image processing for each particle based on a large number of generated particles.

撮影部11は、周囲360度のカラー画像を一度に取得できる全天球カメラ9a、9bを用いて構成されている。
全天球カメラ9a、9bは、所定の距離(ここでは30cm程度)を水平方向に離れて設置されており、対象者8をステレオ視した画像を取得する。
対象者8が追跡装置1の正面にいる場合、全天球カメラ9aが対象者8の左側に位置し、全天球カメラ9bが右側に位置する。対象者8が追跡装置1の背後に回った場合は、左右が逆転する。
The imaging unit 11 is configured using omnidirectional cameras 9a and 9b that can capture color images of 360 degrees of the surrounding area at once.
The omnidirectional cameras 9a and 9b are installed horizontally apart from each other by a predetermined distance (about 30 cm in this case), and acquire stereoscopic images of the subject 8.
When the subject 8 is in front of the tracking device 1, the omnidirectional camera 9a is located on the left side of the subject 8, and the omnidirectional camera 9b is located on the right side of the subject 8. When the subject 8 goes behind the tracking device 1, the left and right sides are reversed.

全天球カメラ9a、9bは、視界が360度の広角カメラであるため、このように、追跡装置1は、左広角カメラと右広角カメラから、それぞれ、左広角画像と右広角画像を取得する広角画像取得手段を備えており、これら左広角カメラと右広角カメラは、それぞれ左全天球カメラ(対象者8が追跡ロボット12の正面に位置する場合は全天球カメラ9a)と右全天球カメラ(全天球カメラ9b)で構成されている。なお、これら広角カメラの視界は、360度以下であっても追跡範囲が制限されるものの追跡装置1の構成は可能である。 Since the omnidirectional cameras 9a and 9b are wide-angle cameras with a field of view of 360 degrees, the tracking device 1 thus acquires a left wide-angle image and a right wide-angle image from the left wide-angle camera and the right wide-angle camera, respectively. It is equipped with a wide-angle image acquisition means, and these left wide-angle cameras and right wide-angle cameras are respectively a left omnidirectional camera (if the subject 8 is located in front of the tracking robot 12, the omnidirectional camera 9a) and a right omnidirectional camera. It is composed of a spherical camera (all-celestial spherical camera 9b). Note that even if the field of view of these wide-angle cameras is 360 degrees or less, the tracking device 1 can be configured although the tracking range is limited.

以下で、対象者8が追跡装置1の正面にいる場合について説明し、全天球カメラ9aが対象者8を左側から撮影し、全天球カメラ9bが対象者8を右側から撮影するものとする。
対象者8が追跡装置1の背面側に位置する場合は、説明の左右を読み替えれば良い。
駆動装置7は、車輪を駆動するモータなどで構成されており、制御部6は、CPU2からの信号に基づいて駆動装置7を制御して走行速度や旋回方向などを調節する。
Below, we will explain the case where the subject 8 is in front of the tracking device 1, and assume that the omnidirectional camera 9a photographs the subject 8 from the left side, and the omnidirectional camera 9b photographs the subject 8 from the right side. do.
When the subject 8 is located on the back side of the tracking device 1, the left and right sides of the explanation can be read interchangeably.
The drive device 7 includes a motor that drives wheels, and the control unit 6 controls the drive device 7 based on signals from the CPU 2 to adjust the traveling speed, turning direction, and the like.

図3の各図は、対象者8のステレオ画像を撮影する仮想カメラを説明するための図である。
全天球カメラ9aは、2枚の魚眼レンズを組み合わせて構成されており、これらで撮影した左全天球カメラ画像を、図3(a)に示した球体オブジェクト30aの表面に張り付けることにより、2つの魚眼カメラ画像を1つの球体で構築する。
これにより、表面が全天球カメラ9aの周囲360度の景色となった地球儀のようなオブジェクトができる。
Each figure in FIG. 3 is a diagram for explaining a virtual camera that captures a stereo image of the subject 8.
The omnidirectional camera 9a is configured by combining two fisheye lenses, and by pasting the left omnidirectional camera image taken with these onto the surface of the spherical object 30a shown in FIG. 3(a), Construct two fisheye camera images with one sphere.
As a result, a globe-like object whose surface is a 360-degree view around the spherical camera 9a is created.

そして、球体オブジェクト30aの内側に仮想のピンホールカメラで構成した仮想カメラ31aを設置して、これをソフトウェアで仮想的に回転させることにより、仮想カメラ31aの撮影方向に見た周囲の景色を、単眼のカメラで撮影したのと同様の歪みの小さい左カメラ画像を取得することができる。 Then, by placing a virtual camera 31a consisting of a virtual pinhole camera inside the spherical object 30a and virtually rotating it using software, it is possible to obtain a left camera image of the surrounding scenery as seen in the shooting direction of the virtual camera 31a with little distortion, similar to that of a monocular camera.

仮想カメラ31aは、球体オブジェクト30aの中で自在に連続的に、あるいは離散的に回転して撮影方向を選択することができる。
これにより、矢線で示したように、球体オブジェクト30a内で仮想カメラ31aを任意の方向に任意の量だけパンしたりチルトしたりすることができる。
このように、球体オブジェクト30aの内部が、仮想カメラ31aの仮想的な撮影空間となっている。
The virtual camera 31a can freely rotate continuously or discretely within the spherical object 30a to select a shooting direction.
Thereby, as shown by the arrow, the virtual camera 31a can be panned or tilted by an arbitrary amount in an arbitrary direction within the spherical object 30a.
In this way, the inside of the spherical object 30a serves as a virtual imaging space for the virtual camera 31a.

仮想カメラ31aは、ソフトウェアによって形成されているため、慣性の法則の影響を受けず、また、機械機構を介さずに撮影方向を制御することができる。そのため、瞬時に撮影方向を連続的・離散的に切り替えることができる。
なお、球体オブジェクト30aの中に複数の仮想カメラ31aを設けて、これらを独立に回転させて複数の撮影方向の左カメラ画像を同時に取得することも可能である。
例えば、以下では、単数の対象者8を追跡する場合について説明するが、対象者8の人数だけ仮想カメラ31a、31a、…を形成し、複数人を同時に独立して追跡することも可能である。
Since the virtual camera 31a is formed by software, it is not affected by the law of inertia, and the shooting direction can be controlled without using a mechanical mechanism. Therefore, the shooting direction can be switched continuously or discretely in an instant.
Note that it is also possible to provide a plurality of virtual cameras 31a in the spherical object 30a and rotate them independently to simultaneously obtain left camera images in a plurality of photographing directions.
For example, in the following, a case will be described in which a single target person 8 is tracked, but it is also possible to form virtual cameras 31a, 31a, . .

以上、全天球カメラ9aについて説明したが、全天球カメラ9bについても同様である。
図示しないが、全天球カメラ9bで右全天球カメラ画像を取得して球体オブジェクト30bに張り付け、仮想カメラ31bにより、仮想的な撮影空間で周囲の景色を撮影することができる。
The above description has been made regarding the omnidirectional camera 9a, but the same applies to the omnidirectional camera 9b.
Although not shown, the right omnidirectional camera image can be acquired by the omnidirectional camera 9b and pasted onto the spherical object 30b, and the surrounding scenery can be photographed in a virtual photographing space by the virtual camera 31b.

左全天球カメラ画像は、魚眼レンズ画像によって構成されており、図3(b)の例で示した机の画像では、机の直線部分が湾曲している。例えば、左全天球カメラ画像は、画面の中心からの距離と角度が比例する等距離射影方式等の魚眼レンズ画像によって構成されいる。
これを仮想カメラ31aで撮影すると、図3(c)に示したように、歪みの少ない机の左カメラ画像が得られる。このように、仮想カメラ31aを用いると、一般の画像認識で用いられている2次元のカメラ画像が得られるため、通常の画像認識技術を適用することができる。
The left omnidirectional camera image is composed of a fisheye lens image, and in the image of the desk shown in the example of FIG. 3(b), the straight portion of the desk is curved. For example, the left spherical camera image is composed of a fisheye lens image using an equidistant projection method or the like in which the angle is proportional to the distance from the center of the screen.
When this is photographed with the virtual camera 31a, a left camera image of the desk with little distortion is obtained, as shown in FIG. 3(c). In this way, when the virtual camera 31a is used, a two-dimensional camera image used in general image recognition can be obtained, so normal image recognition techniques can be applied.

右全天球カメラ画像についても同様であり、仮想カメラ31bを用いると、通常の画像認識に用いる2次元のカメラ画像を取得することができる。
本実施形態では、仮想カメラ31a、31bを仮想的なピンホールカメラで構成したが、これは一例であって、魚眼レンズ画像を平面画像に変換する他の方法を用いても良い。
ここで、仮想カメラ31a、31bは、対象を撮影する撮影手段として機能している。
The same applies to the right spherical camera image, and by using the virtual camera 31b, it is possible to obtain a two-dimensional camera image used for normal image recognition.
In this embodiment, the virtual cameras 31a and 31b are configured with virtual pinhole cameras, but this is just an example, and other methods of converting a fisheye lens image into a planar image may be used.
Here, the virtual cameras 31a and 31b function as a photographing means for photographing an object.

図4の各図は、カメラを用いた対象までの距離と方位の計測方法を説明するための図である。
追跡装置1は、対象者8を追跡するため、カメラを用いて対象者8の3次元空間(歩行空間)における位置を計測する必要がある。
このような計測方法には、主に次の3手法がある。
Each figure in FIG. 4 is a diagram for explaining a method of measuring the distance and direction to an object using a camera.
In order to track the subject 8, the tracking device 1 needs to measure the position of the subject 8 in a three-dimensional space (walking space) using a camera.
There are mainly three methods for such measurement:

図4(a)は、幾何補正による計測方法を表した図である。
単眼方式による幾何補正では、単眼のカメラの設置位置とカメラ画像における対象33の幾何学的な状態(対象の写り方)によって距離を求める。
例えば、カメラ画像の底辺に対する対象33の立ち位置によって対象33までの距離が分かり、図の例では、対象33までの距離が1m、2m、3mの場合の立ち位置を横線にて示している。
また、カメラ画像の上記横線上での左右位置により、対象33が存在する方位を得ることができる。
FIG. 4(a) is a diagram showing a measurement method using geometric correction.
In the monocular geometric correction, the distance is determined based on the installation position of the monocular camera and the geometric state of the object 33 (how the object appears) in the camera image.
For example, the distance to the object 33 can be determined by the standing position of the object 33 with respect to the bottom of the camera image, and in the illustrated example, the standing positions when the distance to the object 33 is 1 m, 2 m, and 3 m are indicated by horizontal lines.
Furthermore, the direction in which the object 33 is present can be obtained from the left and right positions of the camera image on the horizontal line.

図4(b)は、視差ステレオ(複眼)による計測方法を表した図である。
視差ステレオ方式では、正面に向けた一対のカメラ35a(左カメラ)とカメラ35b(右カメラ)を左右の所定距離に固定し、対象33に対するカメラ35a、35bからの視差によって、対象33を立体視・三角測量する。
図に示したように、視差ステレオ方式では、対象33と基線が構成する太線で示した大きな方の三角形と、撮像面に形成された視差による底辺とレンズの中心が構成する太線で示した小さい方の三角形の相似関係から対象33の距離と方位を求めることができる。
例えば、対象までの距離をZ、基線長をB、焦点距離をF、視差長をDとすると、Zは、式(1)で表される。方位も相似関係から求めることができる。
FIG. 4(b) is a diagram showing a measurement method using parallax stereo (compound eyes).
In the parallax stereo system, a pair of cameras 35a (left camera) and 35b (right camera) facing the front are fixed at a predetermined distance on the left and right, and the object 33 is viewed stereoscopically by the parallax from the cameras 35a, 35b with respect to the object 33.・Triangulate.
As shown in the figure, in the parallax stereo method, the larger triangle shown by the thick line is made up of the object 33 and the base line, and the smaller triangle shown by the thick line is made up of the base and the center of the lens due to the parallax formed on the imaging surface. The distance and direction of the object 33 can be determined from the similarity relationship between the two triangles.
For example, when the distance to the object is Z, the base line length is B, the focal length is F, and the parallax length is D, Z is expressed by equation (1). Directions can also be determined from similarity relationships.

図4(c)は、輻輳ステレオ方式による計測方法を表した図である。
輻輳とは、いわゆる寄り目を行う動作を意味し、左右の所定距離に配置した一対のカメラ36a(左カメラ)、カメラ36b(右カメラ)で対象33を輻輳視することにより、対象33を立体視・測量する。
図に示したように、輻輳ステレオ方式では、右カメラと左カメラの撮影方向をそれぞれ対象33に向け、基線長をB、左カメラから対象33までの距離をdL、左カメラレンズの光軸と前方との角度をθL、右カメラレンズの光軸と前方との角度をθR、輻輳ステレオカメラに対する対象33の方位をθ、輻輳ステレオカメラから対象33までの距離をdとすると、幾何学的な関係からdLは、式(2)で表され、これによってdは式(3)で求めることができる。方位に相当する角度θも同様に幾何学的な関係から求めることができる。
なお、文字コードの誤変換(いわゆる文字化け)を防止するため、図で表した下付文字や上付文字を通常の文字で表記する。以下で説明する他の数式も同様とする。
FIG. 4(c) is a diagram showing a measurement method using the convergence stereo method.
Convergence refers to the so-called cross-eyed action, and a pair of cameras 36a (left camera) and camera 36b (right camera) arranged at a predetermined distance on the left and right side converge to view the object 33, thereby creating a stereoscopic view of the object 33.・Survey.
As shown in the figure, in the vergence stereo method, the shooting directions of the right camera and the left camera are directed toward the object 33, the baseline length is B, the distance from the left camera to the object 33 is dL, and the optical axis of the left camera lens is If the angle with the front is θL, the angle between the optical axis of the right camera lens and the front is θR, the orientation of the object 33 with respect to the vergence stereo camera is θ, and the distance from the vergence stereo camera to the object 33 is d, then the geometric From the relationship, dL is expressed by equation (2), and d can be calculated from equation (3). The angle θ corresponding to the azimuth can also be determined from the geometric relationship.
Note that to prevent erroneous conversion of character codes (so-called garbled characters), the subscripts and superscripts shown in the diagram are written in normal characters. The same applies to other formulas described below.

以上、3種類の何れの計測方法も利用可能であるが、次に述べるように、これらの計測方法のうちで輻輳ステレオ方式が歩行者追跡で優位であり、卓越した能力を発揮するため、本実施形態では、輻輳ステレオ方式を採用した。 Any of the three measurement methods mentioned above can be used, but as described below, among these measurement methods, the vergence stereo method is superior in pedestrian tracking and exhibits outstanding ability, so this method is not suitable for this purpose. In the embodiment, a congestion stereo method is adopted.

図5は、輻輳ステレオ方式の優位性を説明するための図である。
視差ステレオ方式と輻輳ステレオ方式が単眼方式に比べて優れていることは明らかであるので、単眼方式については説明を省略する。
図5(a)に示したように、視差ステレオ方式では、カメラ35a、35bの撮影方向が前方に固定されている。そのため、カメラ35aによる撮影領域37aと、カメラ35bによる撮影領域37bも固定され、その共通の撮影領域37cが測量可能な領域となる。
FIG. 5 is a diagram for explaining the superiority of the congestion stereo system.
It is clear that the parallax stereo method and the vergence stereo method are superior to the monocular method, so a description of the monocular method will be omitted.
As shown in FIG. 5A, in the parallax stereo system, the shooting directions of the cameras 35a and 35b are fixed to the front. Therefore, the photographing area 37a by the camera 35a and the photographing area 37b by the camera 35b are also fixed, and the common photographing area 37c becomes an area that can be surveyed.

一方、輻輳ステレオ方式では、カメラ36a、36bを独立して回転させることにより自在に左右カメラの撮影方向を個別に設定できるため、共通の撮影領域37c以外の広い領域についても立体視・測量可能である。
例えば、図5(b)に示したように、対象33がカメラ正面の近距離にあり、撮影領域37cの外に存在する場合であっても、矢線で示したように左右の仮想カメラ31で対象33を輻輳視することにより位置と方位を測量することができる。
On the other hand, in the convergence stereo system, the shooting directions of the left and right cameras can be freely set individually by rotating the cameras 36a and 36b independently, so it is possible to stereoscopically view and survey a wide area other than the common shooting area 37c. be.
For example, as shown in FIG. 5B, even if the object 33 is located at a short distance in front of the camera and outside the photographing area 37c, the left and right virtual cameras 33 By viewing the target 33 convergently, the position and direction can be measured.

また、図5(c)に示したように、対象33が左側に寄った場所に位置し、撮影領域37aに含まれているものの、撮影領域37bに含まれていない場合であっても、矢線で示したように、輻輳視によって測量することができる。対象33が右側に位置する場合も同様である。 Further, as shown in FIG. 5(c), even if the object 33 is located to the left and is included in the imaging area 37a but not included in the imaging area 37b, the arrow As shown by the line, it can be surveyed using convergence vision. The same applies when the object 33 is located on the right side.

図5(d)に示したように、対象33が更に左に寄った場所に位置し、撮影領域37aにも含まれない場合であっても、矢線で示したように、輻輳視によって測量することができる。対象33が右側に位置する場合も同様である。
このように、輻輳ステレオ方式は、視差ステレオ方式に比べて測量できる領域が広く、自由に動き回って歩行状態が頻繁に変化する歩行者を近距離から追跡するのに適している。
そこで、本実施形態では、全天球カメラ9a、9bに仮想カメラ31a、31bを形成し、これによって対象者8を輻輳視することとした。
As shown in FIG. 5(d), even if the target 33 is located further to the left and is not included in the imaging area 37a, the survey can be performed using convergence vision as shown by the arrow. can do. The same applies when the object 33 is located on the right side.
In this way, the vergence stereo method can measure a wider area than the parallax stereo method, and is suitable for tracking pedestrians who move freely and whose walking status frequently changes from a short distance.
Therefore, in this embodiment, virtual cameras 31a and 31b are formed on the omnidirectional cameras 9a and 9b, and the subject 8 is viewed convergently by these.

このように、追跡装置1が備える撮影手段は、左カメラと右カメラを用いた輻輳ステレオカメラによって対象を撮影する。
そして、当該撮影手段は、左広角画像(左全天球カメラ画像)から任意の方向の左カメラ画像を取得する仮想的なカメラ(仮想カメラ31a)で左カメラを構成するとともに、右広角画像(右全天球カメラ画像)から任意の方向の右カメラ画像を取得する仮想的なカメラ(仮想カメラ31b)で右カメラを構成している。
更に、追跡装置1は、左カメラと右カメラが、左広角画像と右広角画像からそれぞれ左カメラ画像と右カメラ画像を取得する仮想的な撮影空間(球体オブジェクト30a、30bによる撮影空間)で撮影方向を移動することができる。
In this way, the photographing means included in the tracking device 1 photographs the object using a vergence stereo camera using a left camera and a right camera.
The photographing means constitutes a left camera with a virtual camera (virtual camera 31a) that acquires a left camera image in an arbitrary direction from a left wide-angle image (left omnidirectional camera image), and a right wide-angle image ( The right camera is constituted by a virtual camera (virtual camera 31b) that acquires a right camera image in an arbitrary direction from the right spherical camera image).
Furthermore, the tracking device 1 shoots in a virtual shooting space (a shooting space using spherical objects 30a and 30b) where the left camera and the right camera acquire a left camera image and a right camera image from the left wide-angle image and the right wide-angle image, respectively. Can move direction.

追跡装置1は、粒子(パーティクル)フィルタを用いて対象者8の存在する場所を追跡するが、ここで、一般的な粒子フィルタリングの概要について説明する。
まず、粒子フィルタリングでは、観測対象の存在する可能性のある場所に多数の粒子を発生させる。
そして、各粒子について何らかの手法で尤度を観測し、観測した尤度に従って各粒子を重み付けする。尤度は、その粒子に基づいて観測した場合、その観測したものが、どの程度の観測対象であるかという確からしさに相当する。
The tracking device 1 uses a particle filter to track the location of the target person 8. Here, an overview of general particle filtering will be explained.
First, in particle filtering, a large number of particles are generated in locations where an observation target may exist.
Then, the likelihood of each particle is observed using some method, and each particle is weighted according to the observed likelihood. The likelihood corresponds to the degree of certainty that the observed object is the observed object when observed based on the particle.

そして、各粒子について尤度を観測した後、各粒子を尤度の大きいものほど重みが大きくなるように重み付けする。これによって、観測対象が存在する程度が高い場所ほど粒子の重み付けが大きくなるため、重み付けした粒子の分布が、観測対象の存在を表す確率分布に対応する。 After observing the likelihood of each particle, each particle is weighted such that the greater the likelihood, the greater the weight. As a result, particles are weighted more heavily in locations where the observation target exists to a higher degree, so that the weighted particle distribution corresponds to a probability distribution representing the existence of the observation target.

更に、追跡対象の移動に伴う確率分布の時系列的な変化を追うため、リサンプリングを行う。
リサンプリングでは、例えば、重み付けの小さかった粒子を間引いて重み付けの大きかった粒子を残し、残った粒子の付近で新たな粒子を発生させて、発生させた各粒子について、現時点での尤度を観測して重み付けする。これにより、確率分布が更新されて、確率密度の大きい場所、即ち、観測対象が存在する可能性の高い場所を更新することができる。
以降、リサンプリングを繰り返し、観測対象の位置の時系列的な変化を追跡することができる。
Furthermore, resampling is performed to track time-series changes in the probability distribution as the tracking target moves.
In resampling, for example, particles with low weighting are thinned out, particles with high weighting are left behind, new particles are generated near the remaining particles, and the likelihood of each generated particle is observed at the current moment. and weight it. Thereby, the probability distribution is updated, and it is possible to update a location with a high probability density, that is, a location where the observation target is likely to exist.
Thereafter, by repeating resampling, it is possible to track time-series changes in the position of the observation target.

図6の各図は、粒子の発生方法を説明するための図である。
追跡装置1は、粒子フィルタを用いて対象者8の存在する位置の確率分布を推測する。
一般に行われている粒子フィルタを用いた画像認識では、2次元のカメラ画像において粒子を発生させるが、それに対し、追跡装置1は、対象者8が存在する3次元空間内で粒子を発生させて、これら3次元的な粒子を左右のカメラ画像に写像して投影することにより、立体情報を含めて対象者8を画像認識する。
Each figure in FIG. 6 is a diagram for explaining a method of generating particles.
The tracking device 1 estimates the probability distribution of the position where the target person 8 exists using a particle filter.
In general image recognition using a particle filter, particles are generated in a two-dimensional camera image, but in contrast, the tracking device 1 generates particles in a three-dimensional space where the subject 8 exists. By mapping and projecting these three-dimensional particles onto the left and right camera images, the image of the subject 8 including the three-dimensional information is recognized.

立体情報を含まずに画像認識する場合、右カメラ画像と左カメラ画像で独立して粒子を発生させる必要があり、この場合、左右のカメラで違う位置を観測してしまい、これが測量精度に影響して誤追跡が発生する可能性がある。
一方、追跡装置1は、3次元空間の同じ粒子に左右のカメラを向けて撮影した左カメラ画像と右カメラ画像による画像認識を行うため、左右のカメラで同一の領域を観測することができ、これによって効果的に対象者8の探索を行うことができる。
When recognizing images without including stereoscopic information, it is necessary to generate particles independently in the right and left camera images. In this case, the left and right cameras may observe different positions, which may affect surveying accuracy and result in mistracking.
On the other hand, the tracking device 1 performs image recognition using left and right camera images taken by pointing the left and right cameras at the same particle in three-dimensional space, so that the same area can be observed by both the left and right cameras, thereby enabling effective searching for the subject 8.

このように、追跡装置1は、対象者8の周囲に粒子を発生させるが、本実施形態では、追跡対象が追跡装置1の前方を歩行する歩行者であって、床面と平行に2次元的に動くため、歩行面と平行な平面で粒子を散布することとした。
なお、ドローンや鳥類など、追跡対象が高さ方向にも移動し、3次元的な動きをする場合は、3次元的に粒子を散布すれば、これを追跡することができる。
In this way, the tracking device 1 generates particles around the target person 8, but in this embodiment, the tracking target is a pedestrian walking in front of the tracking device 1, and particles are generated in a two-dimensional manner parallel to the floor surface. Since the robot moves in a consistent manner, we decided to scatter the particles on a plane parallel to the walking surface.
Note that if the target to be tracked, such as a drone or bird, moves in the height direction and moves in a three-dimensional manner, it can be tracked by scattering particles three-dimensionally.

図6(a)は、追跡装置1を原点に設定したxyz空間で対象者8が歩行している様子を表している。
対象者8が歩行する平面(歩行面)にxy座標系を設定し、高さ方向をz軸とする。撮影部11は、対象者8の胴体あたりの高さ(1m程度)に位置している。
FIG. 6A shows the subject 8 walking in an xyz space with the tracking device 1 set as the origin.
An xy coordinate system is set on the plane (walking surface) on which the subject 8 walks, and the height direction is set as the z axis. The imaging unit 11 is located at the height of the torso of the subject 8 (about 1 m).

追跡装置1は、図に示したように、概ね胴体付近の高さでxy平面に平行な円形領域32に粒子が散布されるように、対象者8を中心にノイズを発生させ、これによって対象者8を中心とする粒子を所定の個数発生させる。
本実施形態では、粒子を500個発生させた。実験によると、粒子の個数が50程度から追跡可能である。
なお、ここでは、円形領域32を含む平面上で粒子を発生させたが、高さ方向(z軸方向)に幅をもたせた厚みのある空間に分布するように構成することもできる。
As shown in the figure, the tracking device 1 generates noise centered around the subject 8 so that particles are scattered in a circular area 32 parallel to the xy plane at a height approximately near the torso. A predetermined number of particles centered on particle 8 are generated.
In this embodiment, 500 particles were generated. According to experiments, it is possible to track the number of particles starting from about 50.
Although particles are generated here on a plane including the circular region 32, they may be distributed in a thick space with width in the height direction (z-axis direction).

胴体の位置は、対象者8が存在する確率密度の大きい場所であり、また、粒子の重み付け後には重みに従って(確率分布に従って)リサンプリングするため、追跡装置1は、対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生手段を備えている。
また、当該粒子発生手段は、対象が移動する平面に平行な平面に沿って粒子を発生させている。
更に、リサンプリングによって、対象者8の移動に伴う確率分布の時系列的な変化を追うため、粒子発生手段は、逐次、前回の更新した確率分布に基づいて今回の粒子を発生させている。
The position of the torso is a place with a high probability density that the target person 8 exists, and since the particles are resampled according to the weights (according to the probability distribution) after weighting, the tracking device 1 calculates the probability of the position where the target person exists. The apparatus includes particle generation means for generating particles to be used in the particle filter in a three-dimensional space based on the distribution.
Further, the particle generating means generates particles along a plane parallel to the plane in which the object moves.
Furthermore, in order to follow time-series changes in the probability distribution as the subject 8 moves through resampling, the particle generation means sequentially generates the current particles based on the previously updated probability distribution.

ここで、発生させたノイズは、対象者8を中心にガウス分布に従うホワイトノイズ(正規性白色雑音)であり、当該ノイズに従うことにより、対象者8の周囲に粒子を正規分布に従って発生させることができる。図の円形領域32は、発生した粒子の例えば3σ程度の範囲となっている。
なお、円形領域32において粒子を一様に発生させるなど、他の発生方法を採用しても良い。
Here, the generated noise is white noise (normal white noise) that follows a Gaussian distribution centered around the subject 8, and by following the noise, particles can be generated around the subject 8 according to a normal distribution. can. The circular region 32 in the figure is a range of, for example, about 3σ of the generated particles.
Note that other generation methods may be adopted, such as generating particles uniformly in the circular region 32.

また、後述するように、追跡装置1は、追跡開始時に、通常の画像認識で対象者8の位置を測量し、これに基づいて対象者8を中心とする粒子を発生させるが、対象者8の位置が不明な場合は、対象者8が存在する確率分布が空間で一様となるため、円形領域32を含むxy平面で一様に粒子を発生させれば良い。
対象者8が存在する場所の粒子の尤度が高くなるため、これをリサンプリングすることにより、対象者8の位置に応じた確率分布を得ることができる。
追跡装置1は、以上のようにして発生させた粒子をリサンプリングすることにより、対象者8を追跡する。
In addition, as will be described later, at the start of tracking, the tracking device 1 measures the position of the target person 8 using normal image recognition, and based on this, generates particles centered on the target person 8. If the position of the target person 8 is unknown, the probability distribution of the existence of the target person 8 is uniform in space, so it is sufficient to uniformly generate particles in the xy plane including the circular area 32.
Since the likelihood of particles at a location where the target person 8 is present becomes higher, by resampling this, a probability distribution according to the position of the target person 8 can be obtained.
The tracking device 1 tracks the subject 8 by resampling the particles generated as described above.

図6(b)は、円形領域32を上から見たところを模式的に表した図である。
図の黒点で示したように、対象者8を中心とする円形領域32に粒子を発生させるが、これらのz座標値は一定であるため、追跡装置1は、利便性のために、これら粒子や対象者8の位置を(d、θ)座標による極座標で表すことにした。なお、xy座標で表しても良い。
FIG. 6(b) is a diagram schematically showing the circular area 32 viewed from above.
As shown by the black dots in the figure, particles are generated in a circular area 32 centered on the subject 8, but since these z-coordinate values are constant, the tracking device 1 generates particles in a circular area 32 for convenience. The position of the subject 8 is expressed in polar coordinates using (d, θ) coordinates. Note that it may be expressed in xy coordinates.

また、対象者8の歩行している方向が分かる場合は、図6(c)に示したように、粒子の分布が歩行方向を長手方向とする円形領域32aとなるように発生させることもできる。歩行方向に沿って粒子を発生させることにより、対象者8の存在する確率の低いところに粒子を発生させて無駄な計算を行うことを抑制することができる。 Furthermore, if the direction in which the subject 8 is walking is known, the distribution of particles can be generated in a circular region 32a whose longitudinal direction is the walking direction, as shown in FIG. 6(c). . By generating particles along the walking direction, it is possible to suppress unnecessary calculations caused by generating particles in places where the probability that the subject 8 is present is low.

更に、撮影方向であるカメラ画像の奥行き方向にも粒子を散布するため、例えば、追跡装置1が建物内の廊下を移動している場合、建築物内部の平面図から間取りのレイアウトを取得し、これを参照して壁の中や立ち入り禁止の部屋などの対象者8が存在する可能性の無いところに粒子を発生しないようにすることができる。
このように、追跡装置1は、対象者8が移動する3次元空間で撮影の奥行き方向にも粒子を発生させるため、追跡対象の運動状態や周囲の環境を考慮した任意の分布で粒子を発生させることが可能である。
Furthermore, in order to scatter particles also in the depth direction of the camera image, which is the shooting direction, for example, when the tracking device 1 is moving in a hallway in a building, the layout of the floor plan is obtained from the plan view inside the building, By referring to this, it is possible to prevent particles from being generated in a place where there is no possibility that the subject 8 exists, such as inside a wall or a room where entry is prohibited.
In this way, since the tracking device 1 generates particles also in the depth direction of imaging in the three-dimensional space in which the subject 8 moves, the tracking device 1 generates particles in an arbitrary distribution that takes into account the state of motion of the tracked subject and the surrounding environment. It is possible to do so.

図7は、粒子のカメラ画像への写像を説明するための図である。
追跡装置1は、上のように発生させた粒子を、図7(a)に示したように、関数g(d、θ)、f(d、θ)を用いて、カメラ画像71a(左カメラ画像)とカメラ画像71b(右カメラ画像)のカメラ画像座標系に写像する。
カメラ画像座標系は、例えば、画像の上左隅を原点とし、水平右方向をx軸、鉛直下方向をy軸とする2次元座標系である。
FIG. 7 is a diagram for explaining mapping of particles to a camera image.
The tracking device 1 captures the particles generated as above in a camera image 71a (left camera) using functions g(d, θ) and f(d, θ) as shown in FIG. image) and camera image 71b (right camera image) to the camera image coordinate system.
The camera image coordinate system is, for example, a two-dimensional coordinate system with the upper left corner of the image as the origin, the horizontal right direction as the x axis, and the vertically downward direction as the y axis.

このように、追跡装置1は、撮影した画像に対象者8の存在する実空間で発生させた粒子を写像する写像手段を備えている。
そして、当該写像手段は、発生させた粒子の左カメラ画像、及び右カメラ画像での位置を所定の写像関数で計算して取得している。
In this way, the tracking device 1 is provided with a mapping means for mapping particles generated in the real space in which the subject 8 exists onto the captured image.
The mapping means acquires the positions of the generated particles in the left camera image and the right camera image by calculating them using a predetermined mapping function.

これにより、例えば、空間に散布された粒子41は、関数g(d、θ)によってカメラ画像71a上の粒子51aに写像され、関数f(d、θ)によってカメラ画像71b上の粒子51bに写像される。
なお、これら写像関数は、輻輳ステレオ視の関係式と、仮想カメラ31で取得したカメラ画像の1ピクセルごとの角度を算出することにより導くことができる。
このように、写像手段は、左カメラと右カメラでそれぞれ撮影した左カメラ画像と右カメラ画像に実空間で発生させた粒子を対応づけて写像している。
As a result, for example, particles 41 scattered in space are mapped to particles 51a on the camera image 71a by the function g(d, θ), and mapped to particles 51b on the camera image 71b by the function f(d, θ). be done.
Note that these mapping functions can be derived by calculating the relational expression of convergence stereo vision and the angle for each pixel of the camera image acquired by the virtual camera 31.
In this way, the mapping means maps the particles generated in real space to the left camera image and the right camera image taken by the left camera and the right camera, respectively, in association with each other.

ところで、粒子41には、画像認識を行うための検出領域の位置、検出領域のサイズなど、カメラ画像に検出領域を設定するためのパラメータである状態パラメータが付随しており、追跡装置1は、これに基づいて、カメラ画像71aとカメラ画像71bのそれぞれに、検出領域61aと検出領域61bを設定する。
このように、粒子41、42、43、…は、状態パラメータを成分にもつ状態ベクトルによって表される。
Incidentally, the particles 41 are accompanied by state parameters that are parameters for setting the detection area in the camera image, such as the position of the detection area for image recognition and the size of the detection area, and the tracking device 1 Based on this, a detection area 61a and a detection area 61b are set in the camera image 71a and the camera image 71b, respectively.
In this way, the particles 41, 42, 43, . . . are represented by state vectors having state parameters as components.

検出領域61a、61bは、矩形形状を有しており、検出領域61a、61b内の画像が画像認識を行う対象の部分領域画像となる。追跡装置1は、検出領域61a、61bで区画されたそれぞれの部分領域画像で対象者8の画像認識を行う。
ここでは、検出領域61a、61bを、写像後の粒子51a、51bが矩形の重心となるように設定する。これは一例であって、検出領域61の位置を固定値や関数によって粒子51の位置からオフセットするように構成することもできる。
このように、追跡装置1は、写像した粒子のカメラ画像内での位置に基づいて検出領域を設定して、撮影した対象を画像認識する画像認識手段を備えている。
The detection areas 61a and 61b have a rectangular shape, and images within the detection areas 61a and 61b become partial area images to be subjected to image recognition. The tracking device 1 performs image recognition of the subject 8 using each partial region image divided by the detection regions 61a and 61b.
Here, the detection areas 61a and 61b are set so that the particles 51a and 51b after mapping become the center of gravity of the rectangle. This is just an example, and the position of the detection area 61 may be offset from the position of the particle 51 using a fixed value or a function.
In this way, the tracking device 1 is equipped with an image recognition unit that sets a detection area based on the position of the mapped particle in the camera image and recognizes the photographed object as an image.

また、追跡装置1は、歩行者を所定距離にて追跡するため、検出領域61a、61bの大きさが大きく変化することは少ない。
そのため、追跡装置1では、追跡前に対象者8の身長に合わせて検出領域61のサイズを設定し、固定したサイズの検出領域61a、61bを使用することとした。
Further, since the tracking device 1 tracks a pedestrian at a predetermined distance, the sizes of the detection areas 61a and 61b rarely change greatly.
Therefore, in the tracking device 1, the size of the detection area 61 is set according to the height of the subject 8 before tracking, and the detection areas 61a and 61b of fixed size are used.

なお、これは一例であって、検出領域61のサイズをパラメータとして、粒子フィルタリングの対象とすることもできる。
この場合は、(x座標値、y座標値、サイズ)という状態ベクトル空間で粒子を発生させることになる。
即ち、xy座標値が同じでもサイズが異なれば異なる粒子となり、それぞれに対して尤度を観測する。これによって、サイズが画像認識に適した粒子の尤度が大きくなり、これによって検出領域61の最適なサイズも決定することができる。
Note that this is just an example, and the size of the detection area 61 can also be used as a parameter for particle filtering.
In this case, particles are generated in a state vector space of (x coordinate value, y coordinate value, size).
That is, even if the x and y coordinate values are the same, if the sizes are different, the particles are different, and the likelihood is observed for each particle. This increases the likelihood of particles whose size is suitable for image recognition, and thereby allows the optimum size of the detection region 61 to be determined.

このように、実空間に限定せずに、粒子41を規定する状態ベクトル空間で粒子を発生させると、より拡張した運用が可能となる。パラメータがn個ある場合、n次元の空間で粒子を発生させることになる。
例えば、尤度を第1の方法によって計算する尤度1と、第2の方法によって計算する尤度2があり、前者をα、後者を(α-1)の割合で組み合わせて(例えば、0<α<1とする)両者を合成した尤度を計算したい場合は、状態ベクトルを(x座標値、y座標値、サイズ、α)とする。
In this way, by generating particles in the state vector space that defines the particles 41 without being limited to the real space, more expanded operation becomes possible. If there are n parameters, particles will be generated in an n-dimensional space.
For example, there is likelihood 1, which is calculated by the first method, and likelihood 2, which is calculated by the second method, and the former is α and the latter is combined at a ratio of (α-1) (for example, 0 <α<1) If you want to calculate the likelihood by combining both, let the state vector be (x coordinate value, y coordinate value, size, α).

このような状態ベクトル空間で粒子41を発生させると、粒子フィルタリングによって異なるαに対しても尤度を計算することができ、対象者8を画像認識するのに最適な(x座標値、y座標値、サイズ、α)と、その場合の尤度を求めることができる。
αを用いた尤度の合成については、HOG特徴量による尤度と色分布特徴による尤度を組み合わせる例について後に触れる。
When the particles 41 are generated in such a state vector space, the likelihood can be calculated for different α by particle filtering, and the optimal (x coordinate value, y coordinate value) for image recognition of the subject 8 value, size, α) and the likelihood in that case.
Regarding the combination of likelihoods using α, an example of combining the likelihood based on the HOG feature amount and the likelihood based on the color distribution feature will be described later.

追跡装置1は、このような手順に従って粒子を発生させ、図7(b)に示したように、図示しない粒子41、42、…を、カメラ画像71aの粒子51a、52a、…に写像し、これに基づいて検出領域61a、62a、…を設定する。
カメラ画像71bに対しても、粒子41、42、…を、粒子51b、52b、…に写像し、これに基づいて検出領域61b、62b、…を設定する。
The tracking device 1 generates particles according to such a procedure, and as shown in FIG. 7(b), maps the unillustrated particles 41, 42, . . . onto the particles 51a, 52a, . . . in the camera image 71a, Based on this, detection areas 61a, 62a, . . . are set.
Also for the camera image 71b, particles 41, 42, . . . are mapped onto particles 51b, 52b, . . . and detection regions 61b, 62b, .

そして、追跡装置1は、カメラ画像71aの検出領域61aで対象者8を画像認識することにより粒子51aの尤度(写像した粒子の左カメラ画像における尤度であり、以下、左尤度と記す)を計算し、カメラ画像71bの検出領域61bで対象者8を画像認識することにより粒子51bの尤度(写像した粒子の右カメラ画像における尤度であり、以下、右尤度と記す)を計算し、左尤度と右尤度を平均することにより、写像元の粒子41の尤度を計算する。 Then, the tracking device 1 recognizes the target person 8 in the detection area 61a of the camera image 71a, thereby determining the likelihood of the particle 51a (the likelihood of the mapped particle in the left camera image, hereinafter referred to as the left likelihood). ), and by image-recognizing the subject 8 in the detection area 61b of the camera image 71b, the likelihood of the particle 51b (the likelihood in the right camera image of the mapped particle, hereinafter referred to as right likelihood) is calculated. The likelihood of the mapping source particle 41 is calculated by averaging the left likelihood and the right likelihood.

追跡装置1は、同様にして、3次元空間に発生させた粒子42、43、…の尤度を計算する。
このように、追跡装置1は、対象者8が歩行している立体的な空間に発生させた粒子を左右一対のステレオカメラ画像に写像し、2次元のカメラ画像に写像した粒子の左尤度と右尤度を介して、写像元の粒子の尤度を計算する。
The tracking device 1 similarly calculates the likelihood of the particles 42, 43, . . . generated in the three-dimensional space.
In this way, the tracking device 1 maps particles generated in the three-dimensional space in which the subject 8 is walking onto a pair of left and right stereo camera images, and calculates the left likelihood of the particles mapped onto the two-dimensional camera image. and the right likelihood to calculate the likelihood of the mapping source particle.

追跡装置1は、左尤度と右尤度を平均することにより統合して3次元空間における写像元の粒子の尤度を観測したが、これは一例であって、他の計算方法によって統合しても良い。
また、右尤度と左尤度のうち、尤度が高いものを写像元の尤度とするなど、左尤度と右尤度の少なくとも一方を用いて統合した尤度を求めれば良い。
The tracking device 1 integrated the left likelihood and the right likelihood to observe the likelihood of the mapping source particle in the three-dimensional space, but this is just an example, and it could be integrated by other calculation methods. It's okay.
Further, it is sufficient to obtain an integrated likelihood using at least one of the left likelihood and the right likelihood, such as by using the higher likelihood of the right likelihood and the left likelihood as the likelihood of the mapping source.

このように、追跡装置1が有する画像認識手段は、左カメラ画像と右カメラ画像でそれぞれ画像認識する。
そして、追跡装置1は、画像認識の結果に基づいて発生させた粒子の尤度を取得する尤度取得手段を備えており、当該尤度取得手段は、左カメラ画像の画像認識に基づく第1の尤度(左尤度)と、右カメラ画像の画像認識に基づく第2の尤度(右尤度)の少なくとも一方を用いて尤度を取得している。
In this way, the image recognition means included in the tracking device 1 recognizes the left camera image and the right camera image, respectively.
The tracking device 1 is equipped with a likelihood acquisition unit that acquires the likelihood of the generated particles based on the result of image recognition, and the likelihood acquisition unit includes a first The likelihood is obtained using at least one of the likelihood (left likelihood) and the second likelihood (right likelihood) based on image recognition of the right camera image.

以上の例では、関数g(d、θ)、f(d、θ)で演算することにより、左右の一組のステレオカメラ画像に粒子41、42、43、…を写像したが、仮想カメラ31a、31bの仮想性を駆使し、発生させた粒子41、42、…の各々に対して、仮想カメラ31aと仮想カメラ31bを向けて粒子ごとの左右カメラ画像を取得することにより、左右カメラ画像のセットごとに、粒子41、42、…を画像の中心に写像することも可能である。 In the above example, the particles 41, 42, 43, ... were mapped to a pair of left and right stereo camera images by calculating with the functions g (d, θ) and f (d, θ), but the virtual camera 31a , 31b, the virtual camera 31a and the virtual camera 31b are directed toward each of the generated particles 41, 42, . . . to obtain left and right camera images for each particle. It is also possible to map the particles 41, 42, . . . to the center of the image for each set.

この変形例の場合、粒子41に仮想カメラ31a、31bの撮影方向を向けて、図7(c)に示したような、カメラ画像81a(左カメラ画像)とカメラ画像81b(右カメラ画像)を取得し、次に、粒子42に仮想カメラ31a、31bの撮影方向を向けてカメラ画像82a(左カメラ画像)とカメラ画像82b(右カメラ画像)を取得し…、といったように、粒子ごとに、これに撮影方向を向けたステレオカメラ画像を取得していく。ただし、図では左カメラ画像だけ示し、右カメラ画像は、省略した。 In this modified example, virtual cameras 31a and 31b are pointed at particle 41 to obtain camera image 81a (left camera image) and camera image 81b (right camera image) as shown in FIG. 7(c), then virtual cameras 31a and 31b are pointed at particle 42 to obtain camera image 82a (left camera image) and camera image 82b (right camera image)... and so on, acquiring stereo camera images with the camera direction pointed at each particle. However, only the left camera image is shown in the figure, and the right camera image is omitted.

仮想カメラ31を構成するピンホールカメラは単焦点であり、球体オブジェクト30内で仮想カメラ31を粒子41、42、…に向けて撮影しても、対象者8の画像は、ピントが合った状態で取得することができる。
また、仮想カメラ31は、ソフトウェアによって形成されているため、機械的な駆動が必要なく、高速に撮影方向を切り替えて粒子41、42、…を撮影することができる。
あるいは、複数の仮想カメラ31、31、…を設定し、これらを並列的に駆動して、一度に複数のステレオカメラ画像を取得するように構成することもできる。
The pinhole camera constituting the virtual camera 31 has a single focus, and even if the virtual camera 31 is aimed at particles 41, 42, etc. within the spherical object 30, the image of the subject 8 will remain in focus. It can be obtained with.
Further, since the virtual camera 31 is formed by software, it does not require mechanical driving and can quickly switch the shooting direction to take photos of the particles 41, 42, . . . .
Alternatively, it is also possible to set a plurality of virtual cameras 31, 31, . . . and drive them in parallel to obtain a plurality of stereo camera images at once.

図7(c)に示したように、仮想カメラ31aを粒子41に向けて撮影すると、粒子41が画像の中心の粒子51aに写像されたカメラ画像81aが得られる。
図示しないが、同様に、仮想カメラ31bを粒子41に向けて撮影すると、粒子41が画像の中心の粒子51bに写像されたカメラ画像81bが得られる。
追跡装置1は、カメラ画像81a、81bで画像認識して粒子51a、51bによる左尤度と右尤度を求めて、これを平均して粒子41の尤度を求める。
As shown in FIG. 7C, when the virtual camera 31a is directed toward the particle 41 and photographed, a camera image 81a is obtained in which the particle 41 is mapped onto the particle 51a at the center of the image.
Although not shown, similarly, when the virtual camera 31b is directed toward the particle 41 to take an image, a camera image 81b in which the particle 41 is mapped onto the particle 51b at the center of the image is obtained.
The tracking device 1 performs image recognition using the camera images 81a and 81b to obtain the left likelihood and right likelihood of the particles 51a and 51b, and averages these to obtain the likelihood of the particle 41.

以下、同様にして、仮想カメラ31a、31bを粒子42に向けて撮影して、カメラ画像82a、82bを取得し(カメラ画像82bは図示せず)、これによって画像中心に写像された粒子52a、52bの左尤度、右尤度から粒子42の尤度を計算する。
追跡装置1は、この処理を繰り返して、粒子41、42、43、…の尤度を計算する。
Thereafter, in the same way, the virtual cameras 31a and 31b are directed toward the particles 42 and photographed to obtain camera images 82a and 82b (the camera image 82b is not shown). The likelihood of the particle 42 is calculated from the left likelihood and right likelihood of 52b.
The tracking device 1 repeats this process to calculate the likelihood of the particles 41, 42, 43, . . . .

このように、この例の撮影手段は、発生させた粒子ごとに左カメラと右カメラを向けて撮影し、写像手段は、左カメラ画像と右カメラ画像の撮影方向に対応する位置(例えば、画像の中心)を粒子の位置として取得している。
以上、対象者8が歩行する3次元空間に発生させた粒子を左右のカメラ画像に写像する2つの方法について説明したが、以下では、前者の方法で写像する場合について説明する。なお、後者の方法を用いて写像しても良い。
In this way, the photographing means in this example photographs each generated particle by pointing the left camera and the right camera, and the mapping means positions the left camera image and the right camera image at positions corresponding to the photographing directions (for example, the image center) is obtained as the particle position.
Two methods of mapping particles generated in the three-dimensional space in which the subject 8 walks to the left and right camera images have been described above, and below, a case in which the particles are mapped using the former method will be described. Note that mapping may be performed using the latter method.

図8の各図は、対象者8の位置を仮想カメラ31で追跡する方法を説明するための図である。
上で説明したように、追跡装置1は、図8(a)に示したように、カメラ画像71aにおいて、検出領域61aによる画像認識を行い、これによって、粒子51aの左尤度を計算する。そして、図示しないカメラ画像71bにおいて、検出領域61bによる画像認識を行い、これによって、粒子51bの右尤度を計算する。
Each figure in FIG. 8 is a diagram for explaining a method of tracking the position of the subject 8 with the virtual camera 31.
As explained above, the tracking device 1 performs image recognition using the detection area 61a in the camera image 71a, as shown in FIG. 8(a), and thereby calculates the left likelihood of the particle 51a. Then, in the camera image 71b (not shown), image recognition is performed using the detection area 61b, thereby calculating the right likelihood of the particle 51b.

更に、追跡装置1は、当該左尤度と右尤度の平均により、粒子51a、51bの写像元である粒子41の尤度を計算する。
追跡装置1は、この計算を繰り返し、対象者8の周囲に3次元的に散布した粒子42、43、…の尤度を計算する。
Furthermore, the tracking device 1 calculates the likelihood of the particle 41, which is the mapping source of the particles 51a and 51b, by averaging the left likelihood and the right likelihood.
The tracking device 1 repeats this calculation and calculates the likelihood of the particles 42, 43, . . . scattered three-dimensionally around the subject 8.

そして、追跡装置1は、計算した尤度に従って、尤度が大きいほど重みが大きくなるように3次元空間に発生させた各粒子を重み付けする。
図8(b)は、重み付けを行った後の粒子41、42、43、…を示しており、重み付けが大きいほど黒点の大きさが大きくなるように表している。
図の例では、粒子41の重みが最も大きく、その周辺の粒子の重みも大きくなっている。
Then, the tracking device 1 weights each particle generated in the three-dimensional space according to the calculated likelihood so that the larger the likelihood, the larger the weight.
FIG. 8(b) shows the particles 41, 42, 43, . . . after weighting, and the larger the weighting, the larger the size of the black spot.
In the illustrated example, the weight of the particle 41 is the largest, and the weights of the surrounding particles are also large.

このように、実空間での重み付けされた粒子の分布が得られるが、この重みの分布が対象者8の存在する位置の確率分布に対応している。このため、図の例では、対象者8は、粒子41付近にいると推測できる。
重みのピークの位置に追跡対象がいると推測したり、あるいは、重みが上位5%の範囲に追跡対象が存在すると推測したりなど、推定の仕方は、各種のものが可能である。
In this way, a weighted particle distribution in real space is obtained, and this weight distribution corresponds to the probability distribution of the position where the subject 8 is present. Therefore, in the illustrated example, it can be inferred that the subject 8 is near the particle 41.
Various estimation methods are possible, such as estimating that the tracked object exists at the position of the peak weight, or estimating that the tracked object exists within the top 5% of the weights.

このような確率分布の更新をリサンプリングによって更新していくことにより、対象者8の存在する位置を追跡することができる。
このように、追跡装置1は、取得した尤度に基づいて確率分布を更新することにより対象の存在する位置を追跡する追跡手段を備えている。
By updating the probability distribution using resampling, the location of the target person 8 can be tracked.
In this way, the tracking device 1 includes tracking means that tracks the location of the target by updating the probability distribution based on the acquired likelihood.

そして、追跡装置1は、確率分布の大きい場所に(即ち、対象者8がいる可能性が高い場所に)仮想カメラ31a、31bを向けることにより、仮想カメラ31a、31bの撮影方向を対象者8に向けることができる。
図8(c)の例では、最も尤度が大きかった粒子41に仮想カメラ31a、31bを向けている。
このように、追跡装置1は、更新した確率分布に基づいて左カメラと右カメラの撮影方向を対象の方向に移動する撮影方向移動手段を備えている。
Then, the tracking device 1 directs the virtual cameras 31a, 31b to a location where the probability distribution is large (that is, a location where the subject 8 is likely to be present), thereby changing the imaging direction of the virtual cameras 31a, 31b toward the subject 8. can be directed to.
In the example of FIG. 8C, the virtual cameras 31a and 31b are directed toward the particle 41 that has the highest likelihood.
In this way, the tracking device 1 includes a photographing direction moving means that moves the photographing directions of the left camera and the right camera in the direction of the object based on the updated probability distribution.

ここでは、最も尤度の高い粒子に仮想カメラ31を向けたが、これは一例であって、何らかのアルゴリズムに従って確率分布の高い場所に仮想カメラ31を向ければ良い。
このように、確率密度の高い場所に仮想カメラ31a、31bを向けることにより、対象者8をカメラの正面に捉えることができる。
Here, the virtual camera 31 is directed to the particle with the highest likelihood, but this is just an example, and the virtual camera 31 may be directed to a location with a high probability distribution according to some algorithm.
In this way, by pointing the virtual cameras 31a and 31b at a location with high probability density, the subject 8 can be captured in front of the camera.

更に、仮想カメラ31a、31bが輻輳視する角度から対象者8の位置(d、θ)を測量できるため、位置(d、θ)の出力値に基づいて、制御部6に指令を発し、追跡装置1を対象者8の後方の所定位置に移動するように制御することができる。
このように、追跡装置1は、確率分布に基づいて移動した左カメラと右カメラの撮影方向に基づいて対象の存在する位置を測量する測量手段と、当該測量した測量結果を出力する出力手段を備えており、更に、当該出力した測量結果に基づいて駆動装置7を駆動し、これによって対象と共に移動する移動手段を備えている。
Furthermore, since the position (d, θ) of the subject 8 can be measured from the angle at which the virtual cameras 31a, 31b converge, a command can be issued to the control unit 6 based on the output value of the position (d, θ) to control the tracking device 1 to move to a specified position behind the subject 8.
In this way, the tracking device 1 is equipped with a surveying means that surveys the position of the target based on the shooting directions of the left camera and right camera that are moved based on the probability distribution, and an output means that outputs the surveying results, and further includes a moving means that drives the drive unit 7 based on the outputted surveying results, thereby moving together with the target.

ところで、図8(b)のように粒子を重み付けした後、確率分布を対象者8の移動に合わせて更新するようにリサンプリングを行うが、これは、粒子41などの尤度の高い粒子については、その付近で次の粒子をホワイトノイズに従って発生させ(あるいは多く発生させ)、尤度の低い粒子については、その付近での次の粒子を発生させず(あるいは少なく発生させ)、このようにして発生させた新たな粒子について、新たな左右カメラ画像を用いた尤度を計算、及び、重み付けを行うことにより実行する。 After weighting the particles as shown in Figure 8(b), resampling is performed to update the probability distribution in accordance with the movement of the subject 8. This is performed by generating the next particle (or generating a large number of particles) in the vicinity of a particle with high likelihood such as particle 41 according to white noise, and not generating the next particle in the vicinity of a particle with low likelihood (or generating a small number of particles), and then calculating the likelihood of the new particles generated in this way using new left and right camera images and weighting them.

このように、尤度の高いものはリサンプリングし、尤度の低いものは削減する処理を逐次的に繰り返し行うことにより確率分布を更新して、対象者8の存在する確率の高い場所を逐次的に追跡することができる。
本実施形態では、一例として、対象者8の速度情報を考慮した、図8(d)の式(4)に基づいて状態を遷移させた(リサンプリングのための粒子を発生させた)。
ここで、xtは、時刻tにおける粒子の位置を表し、xt-1は、時刻t-1における粒子の位置を表している。
In this way, the probability distribution is updated by sequentially repeating the process of resampling those with a high likelihood and reducing those with a low likelihood, and successively selects locations with a high probability that the target person 8 is present. can be tracked.
In the present embodiment, as an example, the state is changed based on equation (4) in FIG. 8(d), which takes into account the speed information of the subject 8 (particles for resampling are generated).
Here, xt represents the position of the particle at time t, and xt-1 represents the position of the particle at time t-1.

vt-1は、対象者8の速度情報であり、式(6)に示したように、時刻tでの位置から時刻t-1での位置を減算したものである。
N(0、σ2)は、ノイズの項であって、粒子の位置での分散σ2の正規分布を表している。
σ2は、式(5)で表したように、速度が大きいほど対象者8の移動量が大きくなるため、これに応じて分散が大きくなるように設定した。
vt-1 is velocity information of the subject 8, and is obtained by subtracting the position at time t-1 from the position at time t, as shown in equation (6).
N(0, σ2) is a noise term and represents a normal distribution of variance σ2 at the particle position.
As expressed by Equation (5), σ2 was set so that the larger the speed, the larger the amount of movement of the subject 8, and therefore the variance was set accordingly.

図9は、尤度の計算方法を説明するための図である。
尤度の計算には、任意の手法を用いることが可能であるが、ここでは、一例としてHOG特徴量を用いる例について説明する。この計算方法を右尤度と左尤度の計算に利用することができる。
HOG特徴量は、輝度勾配分布を用いた画像特徴量であって、対象のエッジを検出する技術である。例えて言えば、対象をエッジによるシルエットで認識するものである。
FIG. 9 is a diagram for explaining the likelihood calculation method.
Although any method can be used to calculate the likelihood, an example using HOG features will be described here. This calculation method can be used to calculate right likelihood and left likelihood.
The HOG feature is an image feature using a brightness gradient distribution, and is a technique for detecting edges of an object. For example, objects are recognized by silhouettes created by edges.

HOG特徴量は、次の手順により画像から抽出される。
図9(a)左図に示した画像101は、検出領域によってカメラ画像から抽出した画像を示している。
まず、画像101を矩形のセル102a、102b、…に分割する。
次に、図9(a)右図に示したように、セル102ごとに各画素(ピクセル)の輝度勾配方向(低輝度から高輝度に向かう方向)を例えば8方向に量子化する。
The HOG feature amount is extracted from the image by the following procedure.
An image 101 shown in the left diagram of FIG. 9(a) shows an image extracted from a camera image using a detection area.
First, the image 101 is divided into rectangular cells 102a, 102b, . . . .
Next, as shown in the right diagram of FIG. 9A, the brightness gradient direction (direction from low brightness to high brightness) of each pixel is quantized into, for example, eight directions for each cell 102.

次に、図9(b)に示したように、量子化した輝度勾配の方向を階級とし、出現回数を度数とするヒストグラムを生成することにより、セル102に含まれる輝度勾配のヒストグラム106をセル102ごとに作成する。
そして、セル102をいくつか集めたブロック単位でヒストグラム106の合計度数が1となるように正規化する。
Next, as shown in FIG. 9B, by generating a histogram in which the direction of the quantized brightness gradient is the class and the number of appearances is the frequency, the histogram 106 of the brightness gradient included in the cell 102 is Create every 102.
Then, the histogram 106 is normalized so that the total frequency of the histogram 106 is 1 for each block in which several cells 102 are collected.

図9(a)左図の例では、セル102a、102b、102c、102dから1ブロックが形成されている。
このようにして正規化したヒストグラム106a、106b、…(図示しない)を図9(c)のように一列に並べたヒストグラム107が画像101のHOG特徴量である。
In the example shown in the left diagram of FIG. 9A, one block is formed from cells 102a, 102b, 102c, and 102d.
A histogram 107 obtained by arranging the thus normalized histograms 106a, 106b, . . . (not shown) in a line as shown in FIG. 9C is the HOG feature amount of the image 101.

HOG特徴量を用いた画像の類似程度の判断は、次のようにして行う。
まず、HOG特徴量の度数(M個あるとする)を成分とするベクトルφ(x)を考える。ここで、xは、画像101を表すベクトルであり、x=(第1番目の画素の輝度、第2番目の画素の輝度、…)である。
なお、ベクトルは太字などで表すが、文字コードの誤変換防止のため、以下では、通常の文字で表す。
The degree of similarity between images using HOG features is determined as follows.
First, consider a vector φ(x) whose components are the frequencies (assuming there are M) of HOG features. Here, x is a vector representing the image 101, and x=(brightness of the first pixel, brightness of the second pixel, . . . ).
Note that vectors are expressed in bold, etc., but in order to prevent erroneous conversion of character codes, vectors are expressed in normal letters below.

図9(d)は、HOG特徴量空間を表しており、画像101のHOG特徴量は、M次元空間のベクトルφ(x)に写像される。
なお、図では簡単化のためHOG特徴量空間を2次元空間で表してある。
一方、Fは、人物画像の学習によって得た重みベクトルであり、多数の人物画像のHOG特徴量を平均化したベクトルである。
FIG. 9D shows the HOG feature space, and the HOG feature of the image 101 is mapped to a vector φ(x) in the M-dimensional space.
Note that in the figure, the HOG feature space is represented in a two-dimensional space for simplicity.
On the other hand, F is a weight vector obtained by learning human images, and is a vector obtained by averaging HOG feature amounts of a large number of human images.

画像101が学習した画像に類似する場合、φ(x)は、ベクトル109のようにFの周辺に分布し、類似しない場合は、ベクトル110、111のようにFとは異なる方向に分布する。
Fとφ(x)は、規格化されており、Fとφ(x)の内積で定義される相関係数は、画像101が学習画像に類似するほど1に近づき、類似程度が低いほど-1に近づく。
このように、類似判断の対象となる画像をHOG特徴量空間に写像することにより、学習画像に類似している画像と類似していない画像を輝度勾配分布により分離することができる。
この相関係数を尤度として用いることができる。
When the image 101 is similar to the learned image, φ(x) is distributed around F as in the vector 109, and when it is not similar, it is distributed in a direction different from F as in the vectors 110 and 111.
F and φ(x) are standardized, and the correlation coefficient defined by the inner product of F and φ(x) approaches 1 as the image 101 resembles the training image, and decreases as the degree of similarity decreases. approaches 1.
In this way, by mapping the images to be subjected to similarity determination into the HOG feature space, it is possible to separate images that are similar to the learning image and images that are not similar based on the brightness gradient distribution.
This correlation coefficient can be used as a likelihood.

この他に、色分布特徴を用いた尤度の評価も可能である。
例えば、画像101は、色々な色成分(色1、色2、…)を有する画素から構成されている。
これら色成分の出現頻度からヒストグラムを作成すると、その度数を成分とするベクトルqが得られる。
一方、対象者8を用いて予め用意した追跡対象モデルについても同様のヒストグラムを作成し、その度数を成分とするベクトルpを作成する。
画像101の画像が追跡対象モデルに類似する場合、qは、pの周辺に分布し、類似しない場合は、pとは異なる方向に分布する。
In addition to this, it is also possible to evaluate the likelihood using color distribution features.
For example, the image 101 is composed of pixels having various color components (color 1, color 2, . . . ).
When a histogram is created from the frequencies of appearance of these color components, a vector q whose components are the frequencies is obtained.
On the other hand, a similar histogram is created for a tracking target model prepared in advance using the subject 8, and a vector p whose components are the frequencies of the histogram is created.
When the image 101 is similar to the tracked model, q is distributed around p, and when it is not similar, q is distributed in a direction different from p.

qとpは、規格化されており、qとpの内積で定義される相関係数は、画像101が追跡対象モデルに類似するほど1に近づき、類似程度が低いほど-1に近づく。
このように、類似判断の対象となる画像を色特徴量空間に写像することにより、追跡対象モデルに類似している画像と類似していない画像を色特徴量分布により分離することができる。
この相関係数を尤度して用いることもできる。
q and p are standardized, and the correlation coefficient defined by the inner product of q and p approaches 1 as the image 101 resembles the tracked model, and approaches -1 as the degree of similarity decreases.
In this way, by mapping the image that is the target of similarity determination into the color feature space, images that are similar to the tracking target model and images that are not similar can be separated based on the color feature distribution.
This correlation coefficient can also be used as a likelihood.

また、例えば、HOG特徴量による類似度と色分布特徴による類似を組み合わせることも可能である。
HOG特徴量と色分布特徴は、認識が得意なシーン(場面)と不得意なシーンがあり、これらを組み合わせることにより、画像認識の頑健性を向上させることができる。
この場合、先に説明したパラメータαを用いて(実験により0.25<α<0.75とした)、α×(HOG特徴量による類似度)+(1-α)×(色分布特徴による類似度)で尤度を定義し、αを含む状態ベクトル空間で粒子を発生させることにより、尤度を最大化するαも求めることができる。
この式によると、αが大きいほどHOG特徴量の寄与が大きくなり、αが小さくなるほど色分布特徴量の寄与が大きくなる。
そのため、αを適当に選択することにより、シーンに適した値を得ることができ、頑健性が向上する。
Furthermore, for example, it is also possible to combine the similarity based on the HOG feature amount and the similarity based on the color distribution feature.
HOG feature amounts and color distribution features have scenes that are good at recognition and scenes that are bad for recognition, and by combining these, the robustness of image recognition can be improved.
In this case, using the parameter α explained earlier (0.25<α<0.75 by experiment), α x (similarity based on HOG feature) + (1 - α) x (based on color distribution feature α that maximizes the likelihood can also be found by defining the likelihood in terms of similarity (similarity) and generating particles in a state vector space that includes α.
According to this equation, the larger α is, the larger the contribution of the HOG feature is, and the smaller α is, the larger the contribution of the color distribution feature is.
Therefore, by appropriately selecting α, a value suitable for the scene can be obtained, and robustness is improved.

図10は、追跡装置1が行う追跡処理を説明するためのフローチャートである。
以下の処理は、記憶部10が記憶する追跡プログラムに従ってCPU2が行うものである。
まず、CPU2は、ユーザに対象者8の身長などを入力してもらい、これに基づいて左右の検出領域のサイズを設定し、これをRAM4に記憶する。
次に、対象者8に追跡装置1の前の所定位置に立ってもらい、CPU2は、これを仮想カメラ31a、31bで撮影して、左カメラ画像と右カメラ画像を取得してRAM4に記憶する(ステップ5)。
FIG. 10 is a flowchart for explaining the tracking process performed by the tracking device 1.
The following processing is performed by the CPU 2 according to the tracking program stored in the storage unit 10.
First, the CPU 2 asks the user to input the height of the subject 8, etc., sets the size of the left and right detection areas based on this, and stores this in the RAM 4.
Next, the subject 8 is asked to stand at a predetermined position in front of the tracking device 1, and the CPU 2 photographs this with the virtual cameras 31a and 31b, obtains a left camera image and a right camera image, and stores them in the RAM 4. (Step 5).

より詳細には、CPU2は、全天球カメラ9a、9bが撮影した左全天球カメラ画像と右全天球カメラ画像をRAM4に記憶し、計算によって、これらをそれぞれ球体オブジェクト30a、30bに張り付ける。
そして、これをそれぞれ仮想カメラ31a、31bで内側から撮影した左カメラ画像と右カメラ画像を計算によって取得してRAM4に記憶する。
More specifically, the CPU 2 stores in the RAM 4 the left omnidirectional camera image and the right omnidirectional camera image taken by the omnidirectional cameras 9a and 9b, and pastes these onto the spherical objects 30a and 30b, respectively, by calculation. Ru.
Then, a left camera image and a right camera image photographed from the inside using the virtual cameras 31a and 31b are obtained by calculation and stored in the RAM 4.

次に、CPU2は、左右のカメラ画像で対象者8を画像認識する(ステップ10)。
この画像認識は、例えば、RAM4に記憶したサイズの検出領域を左右のカメラ画像でそれぞれスキャンして対象者8を探索するなど、一般に行われている方法を用いる。
そして、CPU2は、仮想カメラ31a、31bをそれぞれ画像認識した対象者8の方向に向ける。
Next, the CPU 2 recognizes the subject 8 from the left and right camera images (step 10).
This image recognition uses a commonly used method, such as searching for the target person 8 by scanning a detection area of a size stored in the RAM 4 using left and right camera images, respectively.
Then, the CPU 2 directs the virtual cameras 31a and 31b toward the subject 8 whose image has been recognized.

次に、CPU2は、仮想カメラ31a、31bの角度から対象者8の位置を測量することにより対象者8の存在する場所を、対象者8までの距離dと角度θにて取得してRAM4に記憶する。
そして、CPU2は、取得した対象者8の位置(d、θ)と、追跡ロボット12の正面方向と仮想カメラ31a、31bに対する角度から、追跡ロボット12に対する対象者8の位置と方向を計算し、対象者8が追跡ロボット12の正面の所定位置に位置するように、制御部6に指令を出して、追跡ロボット12を移動させる。このときCPU2は、仮想カメラ31a、31bの角度を調節して、対象者8をカメラの正面に捉えるようにする。
Next, the CPU 2 acquires the location of the target person 8 by measuring the position of the target person 8 from the angles of the virtual cameras 31a and 31b using the distance d and the angle θ to the target person 8, and stores it in the RAM 4. Remember.
Then, the CPU 2 calculates the position and direction of the subject 8 with respect to the tracking robot 12 from the obtained position (d, θ) of the subject 8, the front direction of the tracking robot 12, and the angle with respect to the virtual cameras 31a, 31b, A command is issued to the controller 6 to move the tracking robot 12 so that the subject 8 is located at a predetermined position in front of the tracking robot 12. At this time, the CPU 2 adjusts the angles of the virtual cameras 31a and 31b so that the subject 8 is captured in front of the camera.

次に、CPU2は、対象者8の存在する場所の所定高さ(胴体あたり)の水平面上でホワイトノイズを発生させ、これに従って所定の数の粒子を発生させる(ステップ15)。そして、CPU2は、各粒子の位置(d、θ)をRAM4に記憶する。
以下のステップ20、25で各粒子に対する処理は、GPU5にて並列処理するが、ここでは、説明を簡単にするためCPU2が行うものとする。
Next, the CPU 2 generates white noise on a horizontal plane at a predetermined height (around the torso) where the subject 8 is present, and generates a predetermined number of particles accordingly (step 15). Then, the CPU 2 stores the position (d, θ) of each particle in the RAM 4.
The processing for each particle in steps 20 and 25 below is performed in parallel by the GPU 5, but here, for the sake of simplicity, it is assumed that the processing is performed by the CPU 2.

次に、CPU2は、発生させた粒子の一つを選択し、これを左カメラ画像と右カメラ画像に、それぞれ関数g(d、θ)、f(d、θ)によって、左カメラ画像と右カメラ画像に写像し、これら写像した粒子の画像座標値をRAM4に記憶する(ステップ20)。
次に、CPU2は、左カメラ画像と右カメラ画像のそれぞれについて、写像した粒子に基づく左カメラ画像尤度と右カメラ画像尤度を計算し、これらの平均によって写像元の粒子の尤度を計算してRAM4に記憶する(ステップ25)。
Next, the CPU 2 selects one of the generated particles and converts it into a left camera image and a right camera image using functions g(d, θ) and f(d, θ), respectively. The particles are mapped onto a camera image, and the image coordinate values of these mapped particles are stored in the RAM 4 (step 20).
Next, the CPU 2 calculates the left camera image likelihood and right camera image likelihood based on the mapped particles for each of the left camera image and the right camera image, and calculates the likelihood of the mapping source particle by averaging these. and stores it in the RAM 4 (step 25).

次に、CPU2は、発生させた写像元の全ての粒子について尤度を計算したか否かを判断する(ステップ30)。
まだ、計算していない粒子がある場合(ステップ30;N)、ステップ20に戻って次の粒子の尤度を計算する。
一方、全ての粒子の尤度を計算した場合(ステップ30;Y)、CPU2は、粒子の尤度に基づいて各粒子を重み付けして、粒子ごとの重みをRAM4に記憶する。
Next, the CPU 2 determines whether the likelihood has been calculated for all of the generated mapping source particles (step 30).
If there are still particles that have not been calculated (step 30; N), the process returns to step 20 to calculate the likelihood of the next particle.
On the other hand, when the likelihoods of all particles have been calculated (step 30; Y), the CPU 2 weights each particle based on the likelihood of the particles, and stores the weight for each particle in the RAM 4.

次に、CPU2は、粒子の重みの分布に基づいて撮影部11に対する対象者8の位置を推定し、推定される対象者8の位置に仮想カメラ31a、31bを向ける。
そして、CPU2は、仮想カメラ31a、31bの角度から対象者8の位置を測量計算し、計算した対象者8の座標(d、θ)をRAM4に記憶する(ステップ35)。
Next, the CPU 2 estimates the position of the subject 8 with respect to the imaging unit 11 based on the distribution of particle weights, and directs the virtual cameras 31a and 31b to the estimated position of the subject 8.
Then, the CPU 2 calculates the position of the subject 8 from the angles of the virtual cameras 31a and 31b, and stores the calculated coordinates (d, θ) of the subject 8 in the RAM 4 (step 35).

更に、CPU2は、ステップ35でRAM4に記憶した対象者8の座標(d、θ)、及び追跡ロボット12の正面方向と仮想カメラ31a、31bの撮影方向の成す角度から、追跡ロボット12に対する対象者8の位置の座標を計算し、これを用いて、追跡ロボット12が対象者8の後方の所定の追跡位置に移動するように制御部6に指令を発して移動制御する(ステップ40)。
これに応じて制御部6は、駆動装置7を駆動して、追跡ロボット12を移動させることにより、対象者8の後について対象者8を追尾する。
Further, the CPU 2 determines the target person relative to the tracking robot 12 based on the coordinates (d, θ) of the target person 8 stored in the RAM 4 in step 35 and the angle formed by the front direction of the tracking robot 12 and the shooting direction of the virtual cameras 31a and 31b. The coordinates of the position of the subject 8 are calculated, and using the coordinates, a command is issued to the control unit 6 to control the movement of the tracking robot 12 so that it moves to a predetermined tracking position behind the subject 8 (step 40).
In response to this, the control unit 6 drives the drive device 7 to move the tracking robot 12 to track the subject 8 after the subject 8 .

次に、CPU2は、追跡処理を終了するか否かを判断する(ステップ45)。処理を継続すると判断した場合(ステップ45;N)、CPU2は、ステップ15に戻って、次の粒子を発生させ、処理を終了すると判断した場合(ステップ45;Y)は、処理を終了する。
この判断は、例えば、対象者8が目的地に到達した場合に、「到着しました」などと発話してもらい、これを音声認識することにより行ったり、あるいは、特定のジェスチャーをしてもらったりして行う。
Next, the CPU 2 determines whether to end the tracking process (step 45). If it is determined to continue the process (step 45; N), the CPU 2 returns to step 15 and generates the next particle, and if it is determined to end the process (step 45; Y), it ends the process.
This judgment can be made, for example, by asking the subject 8 to say something like "I have arrived" when he or she has reached the destination, and by having the subject 8 recognize this by voice, or by having the subject make a specific gesture. and do it.

以上、本実施形態の追跡装置1について説明したが、各種の変形が可能である。
例えば、追跡ロボット12に撮影部11、制御部6、及び駆動装置7を搭載し、他の構成要素を追跡装置1をサーバに備えて、追跡ロボット12とサーバを通信回線で結ぶことにより、追跡ロボット12を遠隔操作することもできる。
Although the tracking device 1 of this embodiment has been described above, various modifications are possible.
For example, the tracking robot 12 is equipped with the photographing unit 11, the control unit 6, and the drive device 7, and the other components are provided in the server with the tracking device 1, and the tracking robot 12 and the server are connected through a communication line. The robot 12 can also be controlled remotely.

また仮想カメラ31a、31bに加えて、撮影部11に外部観察用の仮想カメラを備え、当該カメラで撮影した画像をサーバに送信するように構成することもできる。
更に、追跡装置1にマイクロフォンとスピーカを備え、第三者が携帯端末などを介して、外部観察用の仮想カメラの画像を観察しつつ、追跡対象者と会話することも可能である。
この場合、例えば、高齢者の散歩に追跡ロボット12を同行させ、介助者が携帯端末から追跡ロボット12の周囲を観察しつつ、「車が来るので気をつけてください」などと、高齢者に声をかけることが可能となる。
Further, in addition to the virtual cameras 31a and 31b, the photographing unit 11 may be provided with a virtual camera for external observation, and the image taken by the camera may be transmitted to the server.
Furthermore, the tracking device 1 is equipped with a microphone and a speaker, so that a third party can have a conversation with the person to be tracked while observing the image of the virtual camera for external observation via a mobile terminal or the like.
In this case, for example, the tracking robot 12 accompanies the elderly person for a walk, and the caregiver observes the surroundings of the tracking robot 12 from a mobile terminal and tells the elderly person, ``Please be careful because a car is coming.'' It becomes possible to call out.

(第2実施形態)
第1実施形態の追跡装置1が備える撮影部11では、全天球カメラ9a、9bを左右方向に配設したが、第2実施形態の追跡装置1bが備える撮影部11bでは、これらを上下方向に配設する。
図示しないが、追跡装置1bの構成は、全天球カメラ9a、9bを上下方向に配設する他は、図2に示した追跡装置1と同様である。
(Second embodiment)
In the imaging unit 11 of the tracking device 1 of the first embodiment, the omnidirectional cameras 9a and 9b are arranged in the left and right directions, but in the imaging unit 11b of the tracking device 1b of the second embodiment, these are arranged in the vertical direction. to be placed.
Although not shown, the configuration of the tracking device 1b is the same as the tracking device 1 shown in FIG. 2, except that omnidirectional cameras 9a and 9b are arranged in the vertical direction.

図11は、第2実施形態に係る追跡ロボット12の外見例を表した図である。
図11(a)に示した追跡ロボット12dは、追跡ロボット12a(図1(a))で、全天球カメラ9a、9bを上下方向に設置したものである。
撮影部11bは、柱状部材の先端に配置されており、全天球カメラ9aが鉛直方向上側、全天球カメラ9bが鉛直方向下側に配設されている。
FIG. 11 is a diagram showing an example of the appearance of the tracking robot 12 according to the second embodiment.
The tracking robot 12d shown in FIG. 11(a) is the tracking robot 12a (FIG. 1(a)) in which omnidirectional cameras 9a and 9b are installed in the vertical direction.
The photographing unit 11b is arranged at the tip of the columnar member, and the omnidirectional camera 9a is disposed on the upper side in the vertical direction, and the omnidirectional camera 9b is disposed on the lower side in the vertical direction.

このように、第1実施形態では、撮影部11の長手方向が水平方向となるように設置したが、第2実施形態では、撮影部11bの長手方向が鉛直方向となるように設置した。
なお、全天球カメラ9aが全天球カメラ9bの斜め上方向に位置するように配設することも可能であり、全天球カメラ9aがある水平面の上側に位置し、全天球カメラ9bが下側に位置するように配設すればよい。
このように、追跡装置1bは、所定の水平面よりも上側に配設した上カメラと、下側に配設した下カメラを用いた輻輳ステレオカメラによって対象を撮影する撮影手段を備えている。
In this way, in the first embodiment, the photographing section 11 was installed so that the longitudinal direction was the horizontal direction, but in the second embodiment, the photographing section 11b was installed so that the longitudinal direction was the vertical direction.
It is also possible to arrange the omnidirectional camera 9a to be located diagonally above the omnidirectional camera 9b, or to arrange the omnidirectional camera 9a to be located above the horizontal plane where the omnidirectional camera 9b is located. It may be arranged so that it is located on the lower side.
In this way, the tracking device 1b includes a photographing means for photographing an object using a vergence stereo camera using an upper camera disposed above a predetermined horizontal plane and a lower camera disposed below.

撮影部11の場合、全天球カメラ9a、9bが水平方向(横方向)に設置されているため、当該横方向が死角となるが、撮影部11bでは、全天球カメラ9a、9bを鉛直方向(縦方向)に設置しているため、360度の全周に渡って死角がなく、対象者8が追跡ロボット12の周りの何れの位置に存在しても対象者8の画像を取得することができる。
図11(b)、(c)の追跡ロボット12e、12fは、それぞれ図1(b)、(c)の追跡ロボット12b、12cに対応しており、それぞれ撮影部11bによって全天球カメラ9a、9bを上下に配設したものである。
In the case of the photographing section 11, since the omnidirectional cameras 9a and 9b are installed in the horizontal direction (lateral direction), the horizontal direction becomes a blind spot.However, in the photographing section 11b, the omnidirectional cameras 9a and 9b are installed vertically. Because it is installed in the vertical direction, there is no blind spot over the entire 360-degree circumference, and images of the target person 8 are acquired no matter where the target person 8 is located around the tracking robot 12. be able to.
The tracking robots 12e and 12f shown in FIGS. 11(b) and 12f correspond to the tracking robots 12b and 12c shown in FIGS. 1(b) and 12c, respectively. 9b are arranged one above the other.

図11(d)は、路面に柱を立てて、その先端に撮影部11bを取り付けた例である。路上を歩行する通行者を追跡することができる。
図11(e)は、路面に高低差のある2本の柱を立てて、低い方の柱の先端に全天球カメラ9bを取り付け、高い方の柱の先端に全天球カメラ9aを取り付けて撮影部11bを構成した例である。
このように、全天球カメラ9a、9bを、別の支持部材に取り付けたり、更に、斜め上下方向に設置しても良い。
図11(f)は、家屋やビルなどの建築物の軒下に下げる形態で撮影部11bを設置した例である。
FIG. 11(d) is an example in which a pillar is erected on the road surface and the photographing unit 11b is attached to the tip of the pillar. Passersby walking on the street can be tracked.
In Figure 11(e), two pillars with different heights are erected on the road surface, a spherical camera 9b is attached to the tip of the lower pillar, and a spherical camera 9a is attached to the tip of the higher pillar. This is an example in which the photographing section 11b is configured as follows.
In this way, the omnidirectional cameras 9a and 9b may be attached to separate support members, or may be installed diagonally up and down.
FIG. 11F shows an example in which the photographing section 11b is installed under the eaves of a building such as a house or a building.

図11(g)は、団体旅行の引率者が掲げる旗の先端に撮影部11bを設けた例である。団体客の顔を顔認証することにより、個々の参加者の位置を追跡することができる。
図11(h)は、車両の屋根に撮影部11bを設置した例である。前方車両の位置など、周囲の環境物の位置を取得することができる。
図11(i)は、三脚の上に撮影部11bを設置した例である。土木分野などで利用可能である。
FIG. 11(g) is an example in which a photographing section 11b is provided at the tip of a flag raised by a leader of a group tour. By facial recognition of the faces of group guests, it is possible to track the locations of individual participants.
FIG. 11(h) is an example in which the photographing unit 11b is installed on the roof of the vehicle. It is possible to obtain the positions of surrounding environmental objects, such as the position of the vehicle ahead.
FIG. 11(i) is an example in which the photographing section 11b is installed on a tripod. It can be used in the civil engineering field.

図12は、第2実施形態での測量方法を説明するための図である。
粒子の発生方法は、第1実施形態と同じである。
図12(a)に示したように、追跡装置1bは、全天球カメラ9a、9bに設けた図示しない仮想カメラ31a、31bをz軸と対象者8を含む平面内で輻輳視すると共に、z軸の周りに回転して(回転角度をφとする)、撮影方向を対象者8に向ける。
図12(b)に示したように、追跡装置1bは、対象者8の位置を、対象者8の距離dと、仮想カメラ31a、31bのz軸の周りの回転角度φによる座標(d、φ)によって測量することができる。
FIG. 12 is a diagram for explaining the surveying method in the second embodiment.
The method of generating particles is the same as in the first embodiment.
As shown in FIG. 12A, the tracking device 1b converges virtual cameras 31a and 31b (not shown) provided on the omnidirectional cameras 9a and 9b in a plane including the z-axis and the subject 8, and It rotates around the z-axis (rotation angle is φ) and directs the photographing direction toward the subject 8.
As shown in FIG. 12(b), the tracking device 1b determines the position of the subject 8 using coordinates (d, φ).

撮影手段以外の追跡装置1bの有する各手段については、粒子を発生させる粒子発生手段、対象の存在する位置を追跡する追跡手段、測量結果を出力する出力手段、及び測量結果に基づいて移動する移動手段は、追跡装置1と同じである。 Regarding each means of the tracking device 1b other than the photographing means, a particle generating means for generating particles, a tracking means for tracking the position of an object, an output means for outputting survey results, and a movement for moving based on the survey results. The means are the same as the tracking device 1.

また、追跡装置1bが有する、粒子を写像する写像手段、画像認識する画像認識手段、粒子の尤度を取得する尤度取得手段、撮影方向を移動する撮影方向移動手段、対象の存在する位置を測量する測量手段、及び広角画像を取得する広角画像取得手段については、左右を上下に対応させて、左カメラ、右カメラ、左カメラ画像、右カメラ画像、左広角カメラ、右広角カメラ、左広角画像、右広角画像、左全天球カメラ、右全天球カメラを、それぞれ、上カメラ、下カメラ、上カメラ画像、下カメラ画像、上広角カメラ、下広角カメラ、上広角画像、下広角画像、上全天球カメラ、及び、下全天球カメラに対応させる構成とすることができる。 The tracking device 1b also includes a mapping means for mapping particles, an image recognition means for image recognition, a likelihood acquisition means for acquiring the likelihood of particles, a photographing direction moving means for moving the photographing direction, and a photographing direction moving means for moving the photographing direction. Regarding the surveying means for surveying and the wide-angle image acquisition means for acquiring wide-angle images, left and right cameras are arranged vertically, and left camera, right camera, left camera image, right camera image, left wide-angle camera, right wide-angle camera, and left wide-angle camera are used. image, right wide-angle image, left spherical camera, right spherical camera, upper camera, lower camera, upper camera image, lower camera image, upper wide-angle camera, lower wide-angle camera, upper wide-angle image, lower wide-angle image, respectively. , an upper omnidirectional camera, and a lower omnidirectional camera.

以上により、第1実施形態及び第2実施形態では、次の構成を得ることができる。
(1)第1実施形態の構成
(第101構成) 対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生手段と、前記対象を撮影する撮影手段と、前記撮影した画像に前記発生させた粒子を写像する写像手段と、前記写像した粒子の前記画像内での位置に基づいて検出領域を設定して、前記撮影した対象を画像認識する画像認識手段と、前記画像認識の結果に基づいて前記発生させた粒子の尤度を取得する尤度取得手段と、前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡手段と、を具備し、前記粒子発生手段は、逐次、前記更新した確率分布に基づいて粒子を発生させることを特徴とする追跡装置。
(第102構成) 前記粒子発生手段は、前記対象が移動する平面に平行な平面に沿って前記粒子を発生させることを特徴とする第101構成に記載の追跡装置。
(第103構成) 前記撮影手段は、左カメラと右カメラを用いた輻輳ステレオカメラによって前記対象を撮影し、前記写像手段は、前記左カメラと前記右カメラでそれぞれ撮影した左カメラ画像と右カメラ画像に前記発生させた粒子を対応づけて写像し、前記画像認識手段は、前記左カメラ画像と前記右カメラ画像でそれぞれ画像認識し、前記尤度取得手段は、前記左カメラ画像の画像認識に基づく第1の尤度と、前記右カメラ画像の画像認識に基づく第2の尤度の少なくとも一方を用いて前記尤度を取得し、更に、前記更新した確率分布に基づいて前記左カメラと前記右カメラの撮影方向を前記対象の方向に移動する撮影方向移動手段と、を具備したことを特徴とする第101構成又は第102構成に記載の追跡装置。
(第104構成) 前記移動した左カメラと右カメラの撮影方向に基づいて前記対象の存在する位置を測量する測量手段と、前記測量した測量結果を出力する出力手段と、を具備したことを特徴とする第103構成に記載の追跡装置。
(第105構成) 左広角カメラと右広角カメラから、それぞれ、左広角画像と右広角画像を取得する広角画像取得手段を具備し、前記撮影手段は、前記取得した左広角画像から任意の方向の左カメラ画像を取得する仮想的なカメラで前記左カメラを構成するとともに、前記取得した右広角画像から任意の方向の右カメラ画像を取得する仮想的なカメラで前記右カメラを構成し、前記撮影方向移動手段は、前記左広角カメラと前記右広角カメラが、前記左広角画像と前記右広角画像からそれぞれ左カメラ画像と右カメラ画像を取得する仮想的な撮影空間で前記撮影方向を移動する、ことを特徴とする第104構成に記載の追跡装置。
(第106構成) 前記左広角カメラと前記右広角カメラは、それぞれ左全天球カメラと右全天球カメラであることを特徴とする第105構成に記載の追跡装置。
(第107構成) 前記写像手段は、前記発生させた粒子の前記左カメラ画像、及び前記右カメラ画像での位置を所定の写像関数で計算して取得することを特徴とする第103構成から第106構成までのうちの何れか1の構成に記載の追跡装置。
(第108構成) 前記撮影手段は、前記発生させた粒子ごとに前記左カメラと前記右カメラを向けて撮影し、前記写像手段は、前記左カメラ画像と前記右カメラ画像の前記撮影方向に対応する位置を前記粒子の位置として取得することを特徴とする第103構成から第106構成までのうちの何れか1の構成に記載の追跡装置。
(第109構成) 前記出力した測量結果に基づいて前記対象と共に移動する移動手段を、具備したことを特徴とする第104構成に記載の追跡装置。
(第110構成) 対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生機能と、前記対象を撮影する撮影機能と、前記撮影した画像に前記発生させた粒子を写像する写像機能と、前記写像した粒子の前記画像内での位置に基づいて検出領域を設定して、前記撮影した対象を画像認識する画像認識機能と、前記画像認識の結果に基づいて前記発生させた粒子の尤度を取得する尤度取得機能と、前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡機能と、をコンピュータで実現し、前記粒子発生機能は、逐次、前記更新した確率分布に基づいて粒子を発生させる追跡プログラム。
As described above, the following configuration can be obtained in the first embodiment and the second embodiment.
(1) Configuration of the first embodiment (101st configuration) Particle generating means that generates particles to be used in a particle filter in a three-dimensional space based on the probability distribution of the position where the target exists, and a photographing unit that photographs the target. a mapping means for mapping the generated particles onto the photographed image; and image recognition for recognizing the photographed object as an image by setting a detection area based on the position of the mapped particle in the image. means for acquiring the likelihood of the generated particles based on the result of the image recognition, and updating the probability distribution based on the acquired likelihood to determine the location where the target exists. a tracking device for tracking, wherein the particle generating device sequentially generates particles based on the updated probability distribution.
(102nd Configuration) The tracking device according to the 101st configuration, wherein the particle generating means generates the particles along a plane parallel to a plane in which the object moves.
(103rd configuration) The photographing means photographs the object with a vergence stereo camera using a left camera and a right camera, and the mapping means photographs a left camera image and a right camera image photographed by the left camera and the right camera, respectively. The generated particles are mapped to an image in association with each other, the image recognition means performs image recognition on the left camera image and the right camera image, and the likelihood acquisition means performs image recognition on the left camera image. the likelihood is obtained using at least one of a first likelihood based on image recognition of the right camera image and a second likelihood based on image recognition of the right camera image, and further, based on the updated probability distribution, the left camera and the The tracking device according to the 101st or 102nd configuration, further comprising a photographing direction moving means for moving the photographing direction of the right camera in the direction of the object.
(104th configuration) The present invention is characterized by comprising a surveying means for surveying the position where the object exists based on the photographing directions of the moved left camera and right camera, and an output means for outputting the surveyed result. The tracking device according to the 103rd configuration.
(105th configuration) Wide-angle image acquisition means is provided for acquiring a left wide-angle image and a right wide-angle image from a left wide-angle camera and a right wide-angle camera, respectively, and the photographing means is configured to capture images in any direction from the acquired left wide-angle image. The left camera is configured with a virtual camera that acquires a left camera image, and the right camera is configured with a virtual camera that acquires a right camera image in an arbitrary direction from the acquired right wide-angle image, and the right camera is configured with a virtual camera that acquires a right camera image in an arbitrary direction from the acquired right wide-angle image. The direction moving means moves the photographing direction in a virtual photographing space in which the left wide-angle camera and the right wide-angle camera acquire a left camera image and a right camera image from the left wide-angle image and the right wide-angle image, respectively. The tracking device according to the 104th configuration.
(106th Configuration) The tracking device according to the 105th configuration, wherein the left wide-angle camera and the right wide-angle camera are a left omnidirectional camera and a right omnidirectional camera, respectively.
(107th configuration) The 103rd configuration is characterized in that the mapping means calculates and obtains the position of the generated particle in the left camera image and the right camera image using a predetermined mapping function. 106. The tracking device according to any one of up to 106 configurations.
(108th configuration) The photographing means points and photographs the left camera and the right camera for each of the generated particles, and the mapping means corresponds to the photographing direction of the left camera image and the right camera image. The tracking device according to any one of the 103rd to 106th configurations, wherein the tracking device acquires the position of the particle as the position of the particle.
(109th configuration) The tracking device according to the 104th configuration, further comprising a moving means that moves together with the object based on the outputted survey result.
(110th configuration) A particle generation function that generates particles to be used in a particle filter in a three-dimensional space based on a probability distribution of a position where a target exists, a photographing function that photographs the target, and a particle generating function that generates particles in the photographed image. a mapping function that maps the captured particles; an image recognition function that recognizes the photographed object as an image by setting a detection area based on the position of the mapped particle in the image; a likelihood acquisition function that acquires the likelihood of the generated particles based on the acquired likelihood; and a tracking function that updates the probability distribution based on the acquired likelihood to track the location where the target exists. The particle generation function is a tracking program that sequentially generates particles based on the updated probability distribution.

(2)第2実施形態の構成
(第201構成) 走行体や建造物などに設置されて、所定の対象を検出する検出装置であって、所定の水平面よりも上側に配設した上カメラと、前記水平面よりも下側に配設した下カメラによって、前記対象を広角で撮影する撮影手段と、前記撮影した対象を、前記上カメラの上カメラ画像と前記下カメラの下カメラ画像でそれぞれ画像認識することで検出する検出手段と、を具備したことを特徴とする検出装置。
(第202構成) 対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生手段と、前記請求項1に記載した検出装置と、尤度取得手段と、追跡手段と、を備えた追跡装置であって、前記検出装置の前記撮像手段は、所定の水平面よりも上側に配設した上カメラと、下側に配設した下カメラを用いた輻輳ステレオカメラによって前記対象を撮影し、前記検出装置の前記検出手段は、前記前記上カメラと前記下カメラでそれぞれ撮影した上カメラ画像と下カメラ画像に前記発生させた粒子を対応づけて写像する写像手段と、前記写像した粒子の前記上カメラ画像と前記下カメラ画像でのそれぞれの位置に基づいて前記上カメラ画像と前記下カメラ画像に検出領域を設定して、前記撮影した対象を前記上カメラ画像と下カメラ画像でそれぞれ画像認識する画像認識手段と、を備え、前記尤度取得手段は、前記上カメラ画像の画像認識に基づく第1の尤度と、前記下カメラ画像の画像認識に基づく第2の尤度の少なくとも一方を用いて前記発生させた粒子の尤度を取得し、前記追跡手段は、前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡し、前記粒子発生手段は、逐次、前記更新した確率分布に基づいて粒子を発生させる、ことを特徴とする追跡装置。
(第203構成) 前記粒子発生手段は、前記対象が移動する平面に平行な平面に沿って前記粒子を発生させることを特徴とする請求項2に記載の追跡装置。
(第204構成) 前記更新した確率分布に基づいて前記上カメラと前記下カメラの撮影方向を前記対象の方向に移動する撮影方向移動手段と、を具備したことを特徴とする請求項2又は請求項3に記載の追跡装置。
(第205構成) 前記移動した上カメラと下カメラの撮影方向に基づいて前記対象の存在する位置を測量する測量手段と、前記測量した測量結果を出力する出力手段と、を具備したことを特徴とする請求項4に記載の追跡装置。
(第206構成) 所定の水平面よりも上側に配設した上広角カメラと、下側に配設した下広角カメラから、それぞれ、上広角画像と下広角画像を取得する広角画像取得手段を具備し、前記撮影手段は、前記取得した上広角画像から任意の方向の上カメラ画像を取得する仮想的なカメラで前記上カメラを構成するとともに、前記取得した下広角画像から任意の方向の下カメラ画像を取得する仮想的なカメラで前記下カメラを構成し、前記撮影方向移動手段は、前記上カメラと前記下カメラが、前記上広角画像と前記下広角画像からそれぞれ上カメラ画像と下カメラ画像を取得する仮想的な撮影空間で前記撮影方向を移動する、ことを特徴とする請求項2から請求項5までのうちの何れか1の請求項に記載の追跡装置。
(第207構成) 前記上広角カメラと前記下広角カメラは、それぞれ上全天球カメラと下全天球カメラであることを特徴とする請求項6に記載の追跡装置。
(第208構成) 前記写像手段は、前記発生させた粒子の前記上カメラ画像、及び前記下カメラ画像での位置を所定の写像関数で計算して取得することを特徴とする請求項2から請求項7までのうちの何れか1の請求項に記載の追跡装置。
(第209構成) 前記撮影手段は、前記発生させた粒子ごとに前記上カメラと前記下カメラを向けて撮影し、前記写像手段は、前記上カメラ画像と前記下カメラ画像の前記撮影方向に対応する位置を前記粒子の位置として取得することを特徴とする請求項2から請求項7までのうちの何れか1の請求項に記載の追跡装置。
(第210構成) 前記出力した測量結果に基づいて前記対象と共に移動する移動手段を、具備したことを特徴とする請求項2から請求項9までのうちの何れか1の請求項に記載の追跡装置。
(第211構成) 前記上カメラと前記下カメラは鉛直線上に配設されていることを特徴とする請求項2から請求項10までのうちの何れか1の請求項に記載の追跡装置。
(第212構成) 走行体や建造物などに設置されて、所定の対象を検出する検出装置としてコンピュータを機能させる検出プログラムであって、所定の水平面よりも上側に配設した上カメラと、前記水平面よりも下側に配設した下カメラによって、前記対象を広角で撮影する撮影機能と、前記撮影した対象を、前記上カメラの上カメラ画像と前記下カメラの下カメラ画像でそれぞれ画像認識することで検出する検出機能と、コンピュータに実現させることを特徴とする検出プログラム。
(第213構成) 対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生機能と、所定の水平面よりも上側に配設した上カメラと、下側に配設した下カメラを用いた輻輳ステレオカメラによって前記対象を撮影する撮影機能と、前記上カメラと前記下カメラでそれぞれ撮影した上カメラ画像と下カメラ画像に前記発生させた粒子を対応づけて写像する写像機能と、前記写像した粒子の前記上カメラ画像と前記下カメラ画像でのそれぞれの位置に基づいて前記上カメラ画像と前記下カメラ画像に検出領域を設定して、前記撮影した対象を前記上カメラ画像と前記下カメラ画像でそれぞれ画像認識する画像認識機能と、前記上カメラ画像の画像認識に基づく第1の尤度と、前記下カメラ画像の画像認識に基づく第2の尤度の少なくとも一方を用いて前記発生させた粒子の尤度を取得する尤度取得機能と、前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡機能と、をコンピュータで実現し、前記粒子発生機能は、逐次、前記更新した確率分布に基づいて粒子を発生させる、追跡プログラム。
(2) Configuration of the second embodiment (201st configuration) A detection device installed on a traveling object, a building, etc. to detect a predetermined object, which includes an upper camera disposed above a predetermined horizontal plane. , a photographing means for photographing the object at a wide angle using a lower camera disposed below the horizontal plane, and an image of the photographed object as an upper camera image of the upper camera and a lower camera image of the lower camera, respectively. 1. A detection device comprising: a detection means for detecting by recognition.
(202nd configuration) Particle generation means for generating particles to be used in a particle filter in a three-dimensional space based on a probability distribution of a position where a target exists, a detection device according to claim 1, and a likelihood acquisition means. , a tracking device, wherein the imaging device of the detection device is a vergence stereo system using an upper camera disposed above a predetermined horizontal plane and a lower camera disposed below a predetermined horizontal plane. The object is photographed by a camera, and the detection means of the detection device is a mapping means for mapping the generated particles in association with an upper camera image and a lower camera image respectively photographed by the upper camera and the lower camera. Then, a detection area is set in the upper camera image and the lower camera image based on the respective positions of the mapped particles in the upper camera image and the lower camera image, and the captured object is detected in the upper camera image. and an image recognition unit that recognizes the images using the lower camera image, and the likelihood acquisition unit includes a first likelihood based on image recognition of the upper camera image and a first likelihood based on image recognition of the lower camera image. 2, and the tracking means updates the probability distribution based on the acquired likelihood, thereby determining the position where the target exists. A tracking device characterized in that the particle generating means sequentially generates particles based on the updated probability distribution.
(203rd Configuration) The tracking device according to claim 2, wherein the particle generating means generates the particles along a plane parallel to a plane in which the object moves.
(204th configuration) The apparatus further comprises a photographing direction moving means for moving the photographing directions of the upper camera and the lower camera toward the object based on the updated probability distribution. The tracking device according to item 3.
(205th configuration) The present invention is characterized by comprising a surveying means for surveying the position where the object exists based on the photographing directions of the moved upper camera and lower camera, and an output means for outputting the surveyed result. The tracking device according to claim 4.
(206th configuration) Wide-angle image acquisition means for acquiring an upper wide-angle image and a lower wide-angle image from an upper wide-angle camera disposed above a predetermined horizontal plane and a lower wide-angle camera disposed below, respectively. , the photographing means configures the upper camera with a virtual camera that acquires an upper camera image in an arbitrary direction from the acquired upper wide-angle image, and also configures the upper camera with a virtual camera that acquires an upper camera image in an arbitrary direction from the acquired lower wide-angle image. The lower camera is configured with a virtual camera that acquires the images, and the photographing direction moving means is configured to cause the upper camera and the lower camera to obtain upper camera images and lower camera images from the upper wide-angle image and the lower wide-angle image, respectively. The tracking device according to any one of claims 2 to 5, wherein the tracking device moves in the shooting direction in a virtual shooting space to be acquired.
(207th Configuration) The tracking device according to claim 6, wherein the upper wide-angle camera and the lower wide-angle camera are an upper omnidirectional camera and a lower omnidirectional camera, respectively.
(208th configuration) The mapping means calculates and obtains the position of the generated particle in the upper camera image and the lower camera image using a predetermined mapping function. A tracking device according to any one of claims up to claim 7.
(209th configuration) The photographing means photographs each of the generated particles by pointing the upper camera and the lower camera, and the mapping means corresponds to the photographing direction of the upper camera image and the lower camera image. The tracking device according to any one of claims 2 to 7, characterized in that the position of the particle is acquired as the position of the particle.
(210th configuration) The tracking according to any one of claims 2 to 9, further comprising a moving means that moves together with the object based on the outputted survey result. Device.
(211th Configuration) The tracking device according to any one of claims 2 to 10, wherein the upper camera and the lower camera are arranged on a vertical line.
(212th configuration) A detection program that causes a computer to function as a detection device that is installed on a traveling object, a building, etc. and detects a predetermined target, and includes an upper camera disposed above a predetermined horizontal plane; A shooting function that takes a wide-angle picture of the object using a lower camera disposed below the horizontal plane, and image recognition of the photographed object using an upper camera image of the upper camera and a lower camera image of the lower camera, respectively. A detection program that is characterized by a detection function that performs detection by detecting objects, and a detection program that is realized by a computer.
(213th configuration) A particle generation function that generates particles to be used in a particle filter in a three-dimensional space based on the probability distribution of the position where a target exists, an upper camera disposed above a predetermined horizontal plane, and a lower camera. a photographing function for photographing the object with a convergence stereo camera using a lower camera disposed in the camera; and a photographing function for photographing the object with a convergence stereo camera using a lower camera disposed in A detection area is set in the upper camera image and the lower camera image based on a mapping function for mapping and the respective positions of the mapped particle in the upper camera image and the lower camera image, and the photographed object is detected. an image recognition function that recognizes images in the upper camera image and the lower camera image, a first likelihood based on image recognition of the upper camera image, and a second likelihood based on image recognition of the lower camera image; a likelihood acquisition function that acquires the likelihood of the generated particles using at least one of them; and a tracking function that updates the probability distribution based on the acquired likelihood to track the location where the target exists. , is realized by a computer, and the particle generation function sequentially generates particles based on the updated probability distribution.

1 追跡装置
2 CPU
3 ROM
4 RAM
5 GPU
6 制御部
7 駆動装置
8 対象者
9 全天球カメラ
10 記憶部
11 撮影部
12 追跡ロボット
15 筐体
16 後輪
17 前輪
20 筐体
21 後輪
22 前輪
25 筐体
26 プロペラ
30 球体オブジェクト
31 仮想カメラ
32 円形領域
33 対象
35、36 カメラ
37 撮影領域
41、42、43 粒子
51、52 粒子
61、62 検出領域
71、81、82 カメラ画像
101 画像
102 セル
106、107 ヒストグラム
109、110、111 ベクトル
1 Tracking device 2 CPU
3 ROM
4 RAM
5 GPU
6 Control unit 7 Drive device 8 Subject 9 Spherical camera 10 Storage unit 11 Photography unit 12 Tracking robot 15 Housing 16 Rear wheel 17 Front wheel 20 Housing 21 Rear wheel 22 Front wheel 25 Housing 26 Propeller 30 Spherical object 31 Virtual camera 32 Circular area 33 Target 35, 36 Camera 37 Photographing area 41, 42, 43 Particles 51, 52 Particles 61, 62 Detection area 71, 81, 82 Camera image 101 Image 102 Cell 106, 107 Histogram 109, 110, 111 Vector

Claims (9)

対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生手段と、
前記対象を撮影する撮影手段と、
前記撮影した画像に前記発生させた粒子を写像する写像手段と、
前記写像した粒子の前記画像内での位置に基づいて検出領域を設定して、前記撮影した対象を画像認識する画像認識手段と、
前記画像認識の結果に基づいて前記発生させた粒子の尤度を取得する尤度取得手段と、
前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡手段と、
を具備し、
前記粒子発生手段は、前記対象が移動する平面に平行な平面に沿って、逐次、前記更新した確率分布に基づいて粒子を発生させることを特徴とする追跡装置。
Particle generating means for generating particles to be used in a particle filter in a three-dimensional space based on a probability distribution of a position where an object exists;
Photographing means for photographing the object;
Mapping means for mapping the generated particles onto the photographed image;
image recognition means for image recognition of the photographed object by setting a detection area based on the position of the mapped particle in the image;
likelihood acquisition means for acquiring the likelihood of the generated particles based on the result of the image recognition;
tracking means for tracking the location of the object by updating the probability distribution based on the acquired likelihood;
Equipped with
The tracking device is characterized in that the particle generating means sequentially generates particles based on the updated probability distribution along a plane parallel to the plane in which the object moves .
前記撮影手段は、左カメラと右カメラを用いた輻輳ステレオカメラによって前記対象を撮影し、
前記写像手段は、前記左カメラと前記右カメラでそれぞれ撮影した左カメラ画像と右カメラ画像に前記発生させた粒子を対応づけて写像し、
前記画像認識手段は、前記左カメラ画像と前記右カメラ画像でそれぞれ画像認識し、
前記尤度取得手段は、前記左カメラ画像の画像認識に基づく第1の尤度と、前記右カメラ画像の画像認識に基づく第2の尤度の少なくとも一方を用いて前記尤度を取得し、
更に、
前記更新した確率分布に基づいて前記左カメラと前記右カメラの撮影方向を前記対象の方向に移動する撮影方向移動手段と、
を具備したことを特徴とする請求項1に記載の追跡装置。
The photographing means photographs the object with a vergence stereo camera using a left camera and a right camera,
The mapping means maps the generated particles in association with a left camera image and a right camera image taken by the left camera and the right camera, respectively,
The image recognition means performs image recognition on the left camera image and the right camera image, respectively,
The likelihood obtaining means obtains the likelihood using at least one of a first likelihood based on image recognition of the left camera image and a second likelihood based on image recognition of the right camera image,
Furthermore,
Photographing direction moving means for moving the photographing directions of the left camera and the right camera in the direction of the object based on the updated probability distribution;
The tracking device according to claim 1, further comprising:
前記移動した左カメラと右カメラの撮影方向に基づいて前記対象の存在する位置を測量する測量手段と、
前記測量した測量結果を出力する出力手段と、
を具備したことを特徴とする請求項2に記載の追跡装置。
a surveying means for surveying a position where the target exists based on the photographing directions of the moved left camera and right camera;
an output means for outputting the survey results;
3. The tracking device according to claim 2, further comprising:
左広角カメラと右広角カメラから、それぞれ、左広角画像と右広角画像を取得する広角画像取得手段を具備し、
前記撮影手段は、前記取得した左広角画像から任意の方向の左カメラ画像を取得する仮想的なカメラで前記左カメラを構成するとともに、前記取得した右広角画像から任意の方向の右カメラ画像を取得する仮想的なカメラで前記右カメラを構成し、
前記撮影方向移動手段は、前記左広角カメラと右広角カメラが、前記左広角画像と前記右広角画像からそれぞれ左カメラ画像と右カメラ画像を取得する仮想的な撮影空間で前記撮影方向を移動する、
ことを特徴とする請求項3に記載の追跡装置。
comprising wide-angle image acquisition means for acquiring a left wide-angle image and a right wide-angle image from the left wide-angle camera and the right wide-angle camera, respectively;
The photographing means configures the left camera with a virtual camera that acquires a left camera image in an arbitrary direction from the acquired left wide-angle image, and also configures the left camera as a virtual camera that acquires a left camera image in an arbitrary direction from the acquired right wide-angle image. Configure the right camera with the virtual camera to be acquired,
The photographing direction moving means moves the photographing direction in a virtual photographing space in which the left wide-angle camera and the right wide-angle camera acquire a left camera image and a right camera image from the left wide-angle image and the right wide-angle image, respectively. ,
The tracking device according to claim 3 , characterized in that:
前記左広角カメラと前記右広角カメラは、それぞれ左全天球カメラと右全天球カメラであることを特徴とする請求項4に記載の追跡装置。 The tracking device according to claim 4, wherein the left wide-angle camera and the right wide-angle camera are a left omnidirectional camera and a right omnidirectional camera, respectively. 前記写像手段は、前記発生させた粒子の前記左カメラ画像、及び前記右カメラ画像での位置を所定の写像関数で計算して取得することを特徴とする請求項2から請求項5までのうちの何れか1の請求項に記載の追跡装置。 The mapping means calculates and obtains the positions of the generated particles in the left camera image and the right camera image using a predetermined mapping function. A tracking device according to any one of claims. 前記撮影手段は、前記発生させた粒子ごとに前記左カメラと前記右カメラを向けて撮影し、
前記写像手段は、前記左カメラ画像と前記右カメラ画像の前記撮影方向に対応する位置を前記粒子の位置として取得することを特徴とする請求項2から請求項5までのうちの何れか1の請求項に記載の追跡装置。
The photographing means photographs each of the generated particles by pointing the left camera and the right camera,
The method according to any one of claims 2 to 5 , wherein the mapping means acquires positions of the left camera image and the right camera image corresponding to the photographing direction as the positions of the particles. A tracking device according to the claims.
前記出力した測量結果に基づいて前記対象と共に移動する移動手段を、
具備したことを特徴とする請求項3に記載の追跡装置。
A moving means that moves together with the object based on the outputted survey results,
The tracking device according to claim 3, further comprising a tracking device.
対象が存在する位置の確率分布に基づいて粒子フィルタに用いる粒子を3次元空間内に発生する粒子発生機能と、
前記対象を撮影する撮影機能と、
前記撮影した画像に前記発生させた粒子を写像する写像機能と、
前記写像した粒子の前記画像内での位置に基づいて検出領域を設定して、前記撮影した対象を画像認識する画像認識機能と、
前記画像認識の結果に基づいて前記発生させた粒子の尤度を取得する尤度取得機能と、
前記取得した尤度に基づいて前記確率分布を更新することにより前記対象の存在する位置を追跡する追跡機能と、
をコンピュータで実現し、
前記粒子発生機能は、前記対象が移動する平面に平行な平面に沿って、逐次、前記更新した確率分布に基づいて粒子を発生させる追跡プログラム。
a particle generation function that generates particles to be used in a particle filter in a three-dimensional space based on the probability distribution of the position where the target exists;
a photographing function for photographing the object;
a mapping function that maps the generated particles to the captured image;
an image recognition function that recognizes the photographed object as an image by setting a detection area based on the position of the mapped particle in the image;
a likelihood acquisition function that acquires the likelihood of the generated particles based on the result of the image recognition;
a tracking function that tracks the location of the target by updating the probability distribution based on the acquired likelihood;
realized by computer,
The particle generation function is a tracking program that sequentially generates particles based on the updated probability distribution along a plane parallel to the plane in which the object moves .
JP2020038879A 2020-03-06 2020-03-06 Tracking devices and programs Active JP7456590B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020038879A JP7456590B2 (en) 2020-03-06 2020-03-06 Tracking devices and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020038879A JP7456590B2 (en) 2020-03-06 2020-03-06 Tracking devices and programs

Publications (2)

Publication Number Publication Date
JP2021140560A JP2021140560A (en) 2021-09-16
JP7456590B2 true JP7456590B2 (en) 2024-03-27

Family

ID=77669680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020038879A Active JP7456590B2 (en) 2020-03-06 2020-03-06 Tracking devices and programs

Country Status (1)

Country Link
JP (1) JP7456590B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206262A (en) 2012-03-29 2013-10-07 Kddi Corp Method and program for separating two or more subject area
JP2016146098A (en) 2015-02-09 2016-08-12 株式会社リコー Video display system, information processing device, video display method, video display program, video processing device, video processing method, and video processing program
JP2017182437A (en) 2016-03-30 2017-10-05 株式会社エクォス・リサーチ Image recognition device, mobile device, and image recognition program
WO2018051944A1 (en) 2016-09-13 2018-03-22 日本電気株式会社 People flow estimation device, people flow estimation method, abd recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206262A (en) 2012-03-29 2013-10-07 Kddi Corp Method and program for separating two or more subject area
JP2016146098A (en) 2015-02-09 2016-08-12 株式会社リコー Video display system, information processing device, video display method, video display program, video processing device, video processing method, and video processing program
JP2017182437A (en) 2016-03-30 2017-10-05 株式会社エクォス・リサーチ Image recognition device, mobile device, and image recognition program
WO2018051944A1 (en) 2016-09-13 2018-03-22 日本電気株式会社 People flow estimation device, people flow estimation method, abd recording medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佐藤 恵一 Keiichi Sato,パーティクルフィルタによる3次元位置推定の実験的検討 An Experimental Study on Object Location in 3D Space with Particle Filter,電気学会研究会資料 The Papers of Joint Technical Meeting on Information Processing and Innovative Industrial System,IEE,日本,一般社団法人電気学会 The Institute of Electrical Engineers of Japan(IEEJ),2012年08月24日,p.27-p.30
本村 太一,深層学習により構築された距離空間モデルを用いた人物追跡,SSII2019 [USB] ,日本,画像センシング技術研究会,2019年06月12日,IS2-14 SO2-14

Also Published As

Publication number Publication date
JP2021140560A (en) 2021-09-16

Similar Documents

Publication Publication Date Title
US11900536B2 (en) Visual-inertial positional awareness for autonomous and non-autonomous tracking
US20210065400A1 (en) Selective processing of sensor data
CN110582798B (en) System and method for virtual enhanced vision simultaneous localization and mapping
US10366508B1 (en) Visual-inertial positional awareness for autonomous and non-autonomous device
US10602115B2 (en) Method and apparatus for generating projection image, method for mapping between image pixel and depth value
CN111527463B (en) Method and system for multi-target tracking
US10410328B1 (en) Visual-inertial positional awareness for autonomous and non-autonomous device
US10599149B2 (en) Salient feature based vehicle positioning
KR102597216B1 (en) Guidance robot for airport and method thereof
US10437252B1 (en) High-precision multi-layer visual and semantic map for autonomous driving
KR101947619B1 (en) Slam on a mobile device
US20060098089A1 (en) Method and apparatus for a multisensor imaging and scene interpretation system to aid the visually impaired
WO2016031105A1 (en) Information-processing device, information processing method, and program
JP2017529521A (en) Wearable earpieces that provide social and environmental awareness
JP2022077976A (en) Image-based positioning method and system
JP2018173707A (en) Person estimation system and estimation program
CN111489392A (en) Single target human motion posture capturing method and system in multi-person environment
JP7422361B2 (en) Tracking devices and programs
Bae et al. SiT dataset: socially interactive pedestrian trajectory dataset for social navigation robots
JP7456590B2 (en) Tracking devices and programs
Gunethilake Blind navigation using deep learning-based obstacle detection
JP7354528B2 (en) Autonomous mobile device, method and program for detecting dirt on lenses of autonomous mobile device
US20240362820A1 (en) Aerial vehicle, image processing method and device, movable platform
CN117859104A (en) Aircraft, image processing method and device and movable platform
HENELL Airborne SLAM Using High-Speed Vision: The construction of a fully self-contained micro air vehicle localized and controlledusing computer vision based Simultaneous Localization And Mapping.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210728

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20231020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240306

R150 Certificate of patent or registration of utility model

Ref document number: 7456590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150