JP7198661B2 - Object tracking device and its program - Google Patents
Object tracking device and its program Download PDFInfo
- Publication number
- JP7198661B2 JP7198661B2 JP2018245234A JP2018245234A JP7198661B2 JP 7198661 B2 JP7198661 B2 JP 7198661B2 JP 2018245234 A JP2018245234 A JP 2018245234A JP 2018245234 A JP2018245234 A JP 2018245234A JP 7198661 B2 JP7198661 B2 JP 7198661B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- joint
- infrared
- attribute information
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Closed-Circuit Television Systems (AREA)
- Image Analysis (AREA)
Description
本発明は、赤外画像及び可視画像を用いて、オブジェクトを追跡するオブジェクト追跡装置及びそのプログラムに関する。 The present invention relates to an object tracking device and program for tracking an object using an infrared image and a visible image.
近年、映像解析技術の進展に伴い、カメラを用いた様々なアプリケーションが提案されている。この技術の発展は、特にスポーツシーンの映像解析において顕著である。例えば、ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラの映像を用いてテニスボールを3次元的に追跡し、IN/OUTの判定を行っている。また2014年のFIFAワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。さらにサッカースタジアムに多数のステレオカメラを設置し、フィールド内の全選手をリアルタイムに追跡するTRACABシステムも知られている。 In recent years, with the progress of video analysis technology, various applications using cameras have been proposed. The development of this technology is particularly remarkable in video analysis of sports scenes. For example, the Hawkeye system for tennis, which is also used at Wimbledon, tracks a tennis ball three-dimensionally using images from a plurality of fixed cameras, and performs IN/OUT determination. Also, at the 2014 FIFA World Cup, goal line technology was used to analyze images from several fixed cameras and automate goal determination. Furthermore, a TRACAB system is also known, in which a large number of stereo cameras are installed in a soccer stadium and all players on the field are tracked in real time.
これら映像解析技術は、時間解像度が30フレーム/秒(fps)のカメラで撮影した映像を利用する前提であることが多い。例えば、フェンシングの剣先、バドミントンのシャトルなど、目視が困難なほどの高速で移動するオブジェクトを撮影すると、映像上では、そのオブジェクトに極度のモーションブラーが発生する(図16の符号α)。このため、映像のみからオブジェクト位置を正確に計測することが極めて困難である。この場合、30fpsを超えるハイスピートカメラを利用したり、シャッター速度を高速化することで、モーションブラーを軽減できる。その一方、ハイスピードカメラは高価であり、シャッター速度を高速化すると映像の輝度が低下するという問題がある。 These video analysis techniques are often based on the premise of using video captured by a camera with a temporal resolution of 30 frames per second (fps). For example, if an object moving at such a high speed that it is difficult to see with the naked eye, such as the point of a fencing sword or a badminton shuttlecock, is photographed, extreme motion blur occurs in the image of the object (marked α in FIG. 16). Therefore, it is extremely difficult to accurately measure the object position only from the image. In this case, motion blur can be reduced by using a high-speed camera exceeding 30 fps or by increasing the shutter speed. On the other hand, the high-speed camera is expensive, and there is a problem that the brightness of the image decreases when the shutter speed is increased.
このような制約条件の中、赤外カメラを利用し、高速移動体を頑健に追跡する従来技術が提案されている(特許文献1)。この従来技術は、追跡対象に再帰性の反射テープを貼付し、赤外カメラから赤外光を照射し、その反射光を赤外画像上で検出することにより、追跡対象の位置を計測するものである。この従来技術では、赤外画像上で検出を行うことで、可視画像において誤検出の原因となるノイズを低減し、高い精度でオブジェクトを追跡できる。 Under such constraints, a conventional technique has been proposed that uses an infrared camera to robustly track a high-speed moving object (Patent Document 1). This conventional technology measures the position of a tracked target by attaching a retroreflective tape to the tracked target, irradiating infrared light from an infrared camera, and detecting the reflected light on an infrared image. is. In this prior art, detection is performed on an infrared image, thereby reducing noise that causes erroneous detection in a visible image and tracking an object with high accuracy.
前記した従来技術では、追跡対象が高速に移動している場合、又は、反射テープが赤外カメラに正対していない場合、反射テープからの反射光が微弱となり、赤外画像上で追跡対象の検出が困難となる。以後、追跡対象の検出に失敗することを「ロスト」と記載することがある。また、従来技術では、複数の追跡対象の追跡中に追跡対象同士が近接した際、又は、全追跡対象をロストした後に再検出した際、追跡対象が入れ替わる場合がある。この場合、従来技術では、正確な軌跡の描画が極めて困難となり、軌跡の入れ替わりが生じることがある。 In the above-described prior art, when the object to be tracked is moving at high speed, or when the reflective tape does not face the infrared camera, the reflected light from the reflective tape becomes weak, and the object to be tracked is displayed on the infrared image. Difficult to detect. Henceforth, failure to detect a tracked object may be referred to as "lost". Further, in the conventional technology, when a plurality of tracked objects are being tracked and the tracked objects come close to each other, or when all the tracked objects are lost and redetected, the tracked objects may be replaced. In this case, with the conventional technology, it is extremely difficult to draw an accurate trajectory, and the trajectory may be replaced.
そこで、本発明は、軌跡の入れ替わりを抑制できるオブジェクト追跡装置及びそのプログラムを提供することを課題とする。 Accordingly, it is an object of the present invention to provide an object tracking device and its program that can suppress the replacement of trajectories.
前記した課題に鑑みて、本発明に係るオブジェクト追跡装置は、動いているオブジェクトのそれぞれに付された赤外光マーカを赤外光で撮影した赤外画像と、それぞれのオブジェクトを動かしている人物を可視光で撮影した可視画像とを用いて、オブジェクトを追跡するオブジェクト追跡装置であって、赤外光検出手段と、関節位置検出手段と、特徴ベクトル算出手段と、属性情報生成手段と、軌跡生成手段と、を備える構成とした。 In view of the above-described problems, an object tracking device according to the present invention provides an infrared image obtained by photographing an infrared light marker attached to each moving object with infrared light, and a person moving each object. An object tracking device for tracking an object using a visible image captured with visible light, comprising infrared light detection means, joint position detection means, feature vector calculation means, attribute information generation means, and a trajectory and generating means.
かかるオブジェクト追跡装置において、赤外光検出手段は、オブジェクトの位置として、赤外画像から赤外光マーカの位置を検出する。
関節位置検出手段は、可視画像から人物の各関節位置を検出する。
特徴ベクトル算出手段は、オブジェクトの位置から各関節位置までの特徴ベクトルを算出する。この特徴ベクトルは、追跡の対象となるオブジェクトの位置と人物の姿勢との関係を表している。
In such an object tracking device, the infrared light detection means detects the position of the infrared light marker from the infrared image as the position of the object.
The joint position detection means detects each joint position of the person from the visible image.
The feature vector calculation means calculates feature vectors from the position of the object to each joint position. This feature vector represents the relationship between the position of the object to be tracked and the pose of the person.
属性情報生成手段は、オブジェクトの位置と各関節位置との関係を予め学習した識別器を用いて、特徴ベクトルによってオブジェクトに対応する人物を選択し、オブジェクトと人物との対応関係を示す属性情報を生成する。
軌跡生成手段は、オブジェクトの位置及び属性情報に基づいて、オブジェクトの軌跡を生成する。
このように、オブジェクト追跡装置は、オブジェクトを追跡する際、オブジェクトと人物との対応関係を示す属性情報を用いるので、その軌跡の入れ替わりを抑制できる。
The attribute information generating means selects a person corresponding to the object according to the feature vector using a classifier that has previously learned the relationship between the position of the object and the positions of each joint, and generates attribute information indicating the correspondence between the object and the person. Generate.
The trajectory generating means generates the trajectory of the object based on the position and attribute information of the object.
In this way, when tracking an object, the object tracking device uses the attribute information indicating the correspondence between the object and the person, so it is possible to suppress the change of the trajectory.
なお、本発明は、コンピュータが備えるCPU、メモリ、ハードディスクなどのハードウェア資源を、前記したオブジェクト追跡装置として協調動作させるプログラムで実現することもできる。 The present invention can also be implemented by a program that causes hardware resources such as a CPU, memory, and hard disk provided in a computer to operate cooperatively as the object tracking device described above.
本発明によれば、オブジェクトを追跡する際、オブジェクトと人物との対応関係を示す属性情報を用いるので、その軌跡の入れ替わりを抑制できる。このように、本発明によれば、正確なオブジェクトの軌跡を生成し、追跡頑健性を向上させることができる。 According to the present invention, when tracking an object, the attribute information indicating the correspondence between the object and the person is used, so that the trajectory can be suppressed from being replaced. Thus, according to the present invention, an accurate object trajectory can be generated and tracking robustness can be improved.
(実施形態)
[オブジェクト追跡システムの概略]
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。
図1を参照し、本発明の実施形態に係るオブジェクト追跡システム1の概略について説明する。
以後の実施形態では、フェンシングにおいて、選手(人物)が持っている剣の剣先(オブジェクト)を追跡対象として説明する。フェンシングの最中、両選手の剣先は、高速で動いていることが多い。
(embodiment)
[Overview of object tracking system]
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings as appropriate.
An overview of an
In the following embodiments, in fencing, the point of a sword (object) held by a player (person) will be described as a tracking target. During fencing, the tips of both athletes' swords are often moving at high speed.
オブジェクト追跡システム1は、可視光及び赤外光を同光軸で撮影可能な可視・赤外同軸光カメラ20を利用し、可視光画像V及び赤外画像Iを組み合わせて、高速で移動する2本の剣先位置を追跡し、その軌跡T(T1,T2)を描画するものである。図1に示すように、オブジェクト追跡システム1は、赤外光投光器10と、可視・赤外同軸光カメラ20と、オブジェクト追跡装置30と、を備える。
The
赤外光投光器10は、赤外光を投光する一般的な投光器である。
図2に示すように、この赤外光投光器10が投光した赤外光は、両選手の剣先90に付けた反射テープ(赤外光マーカ)91で反射され、後記する可視・赤外同軸光カメラ20で撮影される。
The
As shown in FIG. 2, the infrared light projected by the
反射テープ91は、赤外光投光器10からの赤外線を反射するものである。この反射テープ91は、剣先90に1枚以上付ければよく、その大きさや枚数に特に制限はない。図2の例では、剣先90は、その側面に矩形状の反射テープ91を1枚付けている。ここで、剣先90は、側面反対側に反射テープ91を1枚追加してもよく、その側面を一周するように帯状の反射テープ91を巻いてもよい(不図示)。
The
可視・赤外同軸光カメラ20は、可視光と赤外光を同一光軸で撮影し、同一画素数の可視画像V及び赤外画像Iを生成するものである。本実施形態では、可視・赤外同軸光カメラ20は、フェンシングの競技を撮影した可視画像V(図5)と、剣先90の反射テープ91を撮影した赤外画像Iとを生成する。図3に示すように、赤外画像Iは、2個の反射テープ91のみが撮影される一方、他の選手などが撮影されない(破線で図示)。また、可視画像Vの剣先90と、赤外画像Iの反射テープ91との画像座標が対応するため、3次元空間での視点変換を行うことなく軌跡Tを描画できる。
The visible/infrared
オブジェクト追跡装置30は、可視・赤外同軸光カメラ20から入力された赤外画像Iと可視画像Vとを用いて、両選手の剣先90を追跡するものである。そして、オブジェクト追跡装置30は、追跡した両選手の剣先90の軌跡T1,T2を異なる色で描画し、描画した軌跡T1,T2を可視画像Vに合成することで、軌跡合成画像Fを生成する。
なお、図1では、左側の選手が持つ剣先90の軌跡T1を破線で図示し、右側の選手が持つ剣先90の軌跡T2を一点鎖線で図示した。
The
In FIG . 1, the trajectory T1 of the
[オブジェクト追跡装置の構成]
図4を参照し、オブジェクト追跡装置30の構成について説明する。
図4に示すように、オブジェクト追跡装置30は、赤外光検出手段31と、人物姿勢取得手段33と、オブジェクト識別手段35と、オブジェクト追跡手段37と、を備える。
[Configuration of object tracking device]
The configuration of the
As shown in FIG. 4 , the
本実施形態では、オブジェクト追跡装置30は、時間方向に連続するフレーム1,…,t-1,t,…の赤外画像I及び可視画像Vが入力され、入力された赤外画像I及び可視画像Vに順次処理を施すこととする。以後、現在のフレーム(現フレーム)をtとし、現フレームtの赤外画像Iを赤外画像Itとし、現フレームの可視画像Vを可視画像Vtとする。
In this embodiment, the
赤外光検出手段31は、赤外画像Itから剣先90(反射テープ91)の位置を検出するものである。以下、赤外光検出手段31による剣先位置の検出手法の一例を説明する。 The infrared light detection means 31 detects the position of the tip 90 (reflective tape 91 ) from the infrared image It. An example of a technique for detecting the position of the tip of the sword by the infrared light detection means 31 will be described below.
<剣先位置の検出手法>
まず、赤外光検出手段31は、下記の式(1)を用いて、現在のフレームの赤外画像Itと、1つ前のフレームの赤外画像It-1との2値赤外差分画像を生成することで、動オブジェクトの領域Mtのみを抽出する。つまり、赤外光検出手段31は、赤外画像Itの画素(x,y)の輝度値Ixy
tと、赤外画像It-1の画素(x,y)の輝度値Ixy
t-1との差分が、予め設定した閾値R_briを超える動オブジェクトの領域Mxy
tを、候補ブロブとして抽出する。
<Detection method of sword tip position>
First, the infrared light detection means 31 uses the following equation (1) to obtain a binary infrared image of the infrared image I t of the current frame and the infrared image I t -1 of the previous frame. Only the region Mt of the moving object is extracted by generating the difference image. That is, the infrared light detection means 31 detects the luminance value I xy t of the pixel (x, y) of the infrared image I t and the luminance value I xy t of the pixel (x, y) of the infrared image I t−1 . A moving object region M xy t whose difference from −1 exceeds a preset threshold value R_bri is extracted as a candidate blob.
ここで、x,yは、水平及び垂直の画像座標を表す。また、閾値R_briは、任意の値で予め設定する。また、式(1)の‘0’が最小輝度値を表し、‘255’が最大輝度値を表す。
なお、赤外光検出手段31は、静止しているノイズブロブの発生を抑えるために2値赤外差分画像Mxy
tを生成したが、赤外画像Itで輝度が高い領域を候補ブロブとして抽出してもよい。
where x,y represent the horizontal and vertical image coordinates. Also, the threshold value R_bri is preset with an arbitrary value. Also, '0' in Equation (1) represents the minimum luminance value, and '255' represents the maximum luminance value.
Note that the infrared light detection means 31 generates the binary infrared difference image M xy t in order to suppress the generation of stationary noise blobs, but the area with high luminance in the infrared image I t is extracted as a candidate blob. You may
次に、赤外光検出手段31は、抽出した候補ブロブにモルフォロジ処理を施し、小領域のノイズブロブを消去する。このモルフォロジ処理とは、画像をいくつかの方向に画素単位でずらした画像群と、もとの画像との画像間演算によって、小領域のノイズブロブを消去する処理である。 Next, the infrared light detection means 31 applies morphology processing to the extracted candidate blobs to eliminate noise blobs in small areas. This morphology processing is processing for eliminating noise blobs in a small area by performing inter-image operations between an image group obtained by shifting an image in several directions pixel by pixel and the original image.
次に、赤外光検出手段31は、モルフォロジ処理で残った候補ブロブにラベリング処理を施す。このラベリング処理とは、候補ブロブにラベル(番号)を割り当てる処理である。
次に、赤外光検出手段31は、ラベリング処理を施した候補ブロブの位置、面積及び形状特徴量を求める。ここで、候補ブロブの位置は、候補ブロブの中心位置又は重心位置である。また、候補ブロブの形状特徴量は、円形度や外接矩形のアスペクト比とする。
Next, the infrared light detection means 31 performs labeling processing on the candidate blobs remaining after the morphology processing. This labeling process is a process of assigning labels (numbers) to candidate blobs.
Next, the infrared light detection means 31 obtains the position, area, and shape feature amount of the candidate blob subjected to the labeling process. Here, the position of the candidate blob is the center position or barycentric position of the candidate blob. Also, the shape feature amount of the candidate blob is the degree of circularity or the aspect ratio of the circumscribing rectangle.
次に、赤外光検出手段31は、予め設定した最小面積から最大面積までの範囲にない候補ブロブを消去する。そして、赤外光検出手段31は、形状特徴量が予め設定した範囲内にない候補ブロブを消去する。さらに、赤外光検出部311は、候補ブロブの数がオブジェクト上限数を超えている場合、面積が大きい2個の候補ブロブの位置を剣先90の位置S1,S2として残し、他の候補ブロブを消去する。なお、Sm(S1,S2)は、後記する左右の属性情報が付加されていない剣先90の位置を表す(m∈1,2)。
その後、赤外光検出手段31は、剣先90の位置S1,S2として、赤外画像Itから検出した2個の反射テープ91の位置をオブジェクト識別手段35(特徴ベクトル算出手段351)に出力する。
Next, the infrared light detection means 31 eliminates candidate blobs that are not within the range from the preset minimum area to the maximum area. Then, the infrared light detection means 31 deletes candidate blobs whose shape feature amount is not within the preset range. Furthermore, when the number of candidate blobs exceeds the upper limit number of objects, the infrared light detection unit 311 leaves the positions of two candidate blobs with large areas as the positions S 1 and S 2 of the
After that, the infrared light detection means 31 sends the positions of the two reflective tapes 91 detected from the infrared image It to the object identification means 35 ( feature vector calculation means 351) as positions S1 and S2 of the
人物姿勢取得手段33は、可視画像Vtから人物の姿勢を取得するものであり、人物姿勢検出手段(関節位置検出手段)331と、人物選択手段333と、を備える。 The human pose acquisition means 33 acquires the pose of a person from the visible image Vt , and includes a person pose detection means (joint position detection means) 331 and a person selection means 333 .
人物姿勢検出手段331は、人物の姿勢として、可視画像Vtから人物の各関節点(関節位置)を検出するものである。ここで、人物姿勢検出手段331は、任意の手法で人物の関節点を検出可能であり、可視画像Vtから関節点を自動的に検出してもよく、可視画像Vtに手動で関節点を指定してもよい。 The human pose detection means 331 detects each joint point (joint position) of the person from the visible image Vt as the pose of the person. Here, the human pose detection means 331 can detect the joint points of the person by any method, and may automatically detect the joint points from the visible image Vt , or manually detect the joint points on the visible image Vt . may be specified.
本実施形態では、人物姿勢検出手段331が、一般的な姿勢計測手法の一つである“OpenPose”を用いることとして説明する(参考文献1)。
参考文献1:ZheCao, Tomas Simon, Shih-EnWei, YaserSheikh, ”Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields,”In Proceedings of the IEEE InternationalConference on Computer Vision and Pattern Recognition 2017 (CVPR2017), pp.7291-7299
In the present embodiment, the human
Reference 1: ZheCao, Tomas Simon, Shih-EnWei, YaserSheikh, ”Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields,” In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition 2017 (CVPR2017), pp.7291- 7299
この姿勢計測手法は、深層学習を用いて人物姿勢を計測する手法であり、可視画像Vtから各人物の関節点を18点検出する。以後、図5に示すように、各人物の関節点をBn
iで表す。上付き添え字nは、可視画像Vtに含まれる人物の識別番号を表し(n∈N)、可視画像Vtに含まれる人物の総数をNとする。下付き添え字iは、関節点の識別番号を表す(i=0~17)。
なお、図5では、識別番号nを省略すると共に、隣接する関節点Bn
iを結ぶ破線を図示した。
This posture measurement method is a method of measuring a person's posture using deep learning, and detects 18 joint points of each person from the visible image Vt . Hereinafter, as shown in FIG. 5, the joint points of each person are represented by B n i . A superscript n represents the identification number of a person included in the visible image Vt ( nεN ), and let N be the total number of people included in the visible image Vt. The subscript i represents the identification number of the joint point (i=0 to 17).
Note that FIG. 5 omits the identification number n and shows dashed lines connecting adjacent joint points B n i .
この関節点Biには、上半身の関節点B0~B7,B14~B17と、股関節B8,B11を含めた下半身の股関節B8~B13とが含まれる。頭部の関節点B14~B17のように関節でない箇所も含まれているが、目や鼻のように画像特徴を有するので、これらも関節点として扱っている。 The joint points B i include upper body joint points B 0 to B 7 and B 14 to B 17 and lower body hip joints B 8 to B 13 including hip joints B 8 and B 11 . Although non-joint points such as the joint points B 14 to B 17 of the head are included, they are also treated as joint points because they have image features such as the eyes and nose.
例えば、図6の可視画像Vtが人物姿勢検出手段331に入力されたこととする。この可視画像Vtは、フェンシングの試合映像であり、2人の選手HL,HRの他、1人の審判HJ及び5人の観客HGなど、人物Hが8人含まれている(N=8)。ここで、参考文献1の姿勢計測手法では、関節点Bn
iの検出対象となる人物Hを可視画像Vtで指定できないので、全人物Hの関節点Bn
iを検出することになる。すなわち、人物姿勢検出手段331は、図7に示すように、可視画像Vtに含まれる全人物Hの関節点Bn
iを検出する。なお、図7では、図面を見やすくするため、一部の関節点Bn
iのみ符号を図示した。
その後、人物姿勢検出手段331は、可視画像Vtと、この可視画像Vtから検出した全人物Hの関節点Bn
iとを、人物選択手段333に出力する。
For example, assume that the visible image Vt in FIG. This visible image Vt is a video of a fencing match, and includes eight persons H, including two players HL and HR , one referee HJ , and five spectators HG . (N=8). Here, in the posture measurement method of
After that, the person posture detection means 331 outputs the visible image Vt and the joint points Bn i of all the persons H detected from this visible image Vt to the person selection means 333 .
前記したように、可視画像Vtに含まれる全人物Hの関節点Bn iが検出されてしまう。また、フェンシングの試合映像では、観客HGや審判HJに比べ、選手HL,HRが大きなサイズで撮影されることが多い。そこで、人物選択手段333は、下記の式(2)に示すように、全人物Hの関節点Bn iに基づいて胴体長lnを算出し、算出した胴体長lnが長い順に予め設定した人数の人物Hを選択する。 As described above, the joint points Bni of all persons H included in the visible image Vt are detected. Also, in a fencing game video, the players HL and HR are often shot in a larger size than the spectators HG and the referee HJ . Therefore, the person selection means 333 calculates the torso length ln based on the joint points Bn i of all the persons H, as shown in the following equation (2), and presets the calculated torso length ln in descending order. The number of people H selected is selected.
参考文献1の姿勢計測手法で関節点Bn iを検出した場合、図5に示すように、首関節が関節点B1であり、両足の付け根にあたる股関節がそれぞれ関節点B8,B11である。そこで、式(2)に示すように、首関節B1から一方の股関節B8までのベクトルの長さと、首関節B1から他方の股関節B11までのベクトルの長さとの平均値を、胴体長lnとした。 When the joint points Bn i are detected by the posture measurement method of Reference 1 , as shown in FIG. be. Therefore, as shown in equation (2), the average value of the length of the vector from neck joint B 1 to one hip joint B 8 and the length of the vector from neck joint B 1 to the other hip joint B 11 is the torso The length ln .
また、フェンシングの試合は2人の選手HL,HRで行うので、図8に示すように、胴体長lnが長い2人の選手HL,HRを選択すればよい。なお、首関節B1及び股関節B8,B11と、選択する人数とは、人物選択手段333に予め設定しておくこととする。 In addition, since the fencing match is played by two players HL and HR , two players HL and HR having a long torso length ln should be selected as shown in FIG. The neck joint B 1 , hip joints B 8 and B 11 , and the number of people to be selected are preset in the person selection means 333 .
また、フェンシングの試合では、左右の選手HL,HRの位置が入れ替わらないため、左側の選手HL又は右側の選手HRを示す属性によって、関節点Bn
i及び胴体長lnを記述できる。本実施形態では、左側の選手HLを示す識別番号nをLに置き換え、右側の選手HRを示す識別番号nをRに置き換えることとする。
その後、人物選択手段333は、左側の選手HLの関節点BL
i及び胴体長lLと、右側の選手HRの関節点BR
i及び胴体長lRとを、オブジェクト識別手段35(特徴ベクトル算出手段351)に出力する。
In addition, in a fencing match, the positions of the left and right players HL and HR are not interchanged . can be described. In this embodiment, the identification number n indicating the player HL on the left side is replaced with L , and the identification number n indicating the player HR on the right side is replaced with R.
After that, the person selection means 333 selects the joint point B Li and the torso length l L of the left player H L and the joint point B R i and the torso length l R of the right player H R as the object identification means 35 ( Output to the feature vector calculation means 351).
オブジェクト識別手段35は、フェンシングの試合映像から検出された2個の剣先90のそれぞれが、左側の選手HL又は右側の選手HRのどちらに対応するのかを識別するものであり、特徴ベクトル算出手段351と、属性情報生成手段353と、を備える。
The object identification means 35 identifies whether each of the two
特徴ベクトル算出手段351は、剣先90の位置S1,S2から選手HL,HRの各関節点BL
i,BR
iまでの特徴ベクトルを算出するものである。図9に示すように、特徴ベクトル算出手段351は、1個目の剣先90の位置S1から右側の選手HRの各関節点BR
iまでの特徴ベクトルを算出する。なお、図9では、特徴ベクトルを二点鎖線の矢印で図示した。また、特徴ベクトル算出手段351は、剣先90の位置S1から左側の選手HLの各関節点BL
iまでの特徴ベクトルも算出する。このように、特徴ベクトルは、剣先90の位置S1から左右の両選手HL,HRに向かうので、左右の選手HL,HRの相対位置を考慮した頑健な特徴量となる。
The feature vector calculation means 351 calculates feature vectors from the positions S 1 and S 2 of the tip of the
なお、図示を省略したが、特徴ベクトル算出手段351は、1個目の剣先90の位置S1と同様、2個目の剣先90の位置S2から右側の選手HRの各関節点BR
iまでの特徴ベクトルと、剣先90の位置S2から左側の選手HLの各関節点BL
iまでの特徴ベクトルとを算出する。
Although not shown, the feature vector calculation means 351 calculates each joint point B R of the player H R on the right side from the position S 2 of the
この特徴ベクトルは、以下の式(3)で表されており、関節点BL
i,BR
iがそれぞれ18点あるために36次元の特徴量となる。また、可視・赤外同軸光カメラ20のズーム量に応じて、可視画像Vt内で選手HL,HRのサイズが変化する。そこで、特徴ベクトル算出手段351は、式(3)に示すように、選手HL,HRの胴体長lL,lRで正規化(除算)することで、選手HL,HRのサイズに不変な特徴ベクトルを算出できる。
This feature vector is represented by the following equation (3), and since there are 18 joint points B L i and B R i each, it becomes a 36-dimensional feature amount. Also, depending on the zoom amount of the visible/infrared
その後、特徴ベクトル算出手段351は、算出した特徴ベクトルと、剣先90の位置S1,S2とを属性情報生成手段353に出力する。
After that, the feature vector calculating means 351 outputs the calculated feature vector and the positions S 1 and S 2 of the
属性情報生成手段353は、予め学習した識別器を用いて、剣先90の位置S1,S2に対応する選手HL,HRを選択し、剣先90と選手HL,HRとの対応関係を示す属性情報を生成するものである。つまり、属性情報は、2人の選手HL,HRと、各選手HL,HRが動かしている剣の剣先90の位置S1,S2とを対応付けた情報である。
The attribute information generating means 353 selects the players HL and HR corresponding to the positions S 1 and S 2 of the
この属性情報生成手段353は、2つの動作モードで動作する。動作モードの1つめは、属性情報生成手段353が、識別器を学習する学習モードである。動作モードの2つめは、属性情報生成手段353が、学習した識別器を用いて、剣先90の位置S1,S2に対応する選手HL,HRを選択する選択モードである。なお、本実施形態では、オブジェクト追跡装置30のユーザが、2つの動作モードを手動で切り替えることとする。
This attribute information generation means 353 operates in two operation modes. A first operation mode is a learning mode in which the attribute information generating means 353 learns a discriminator. The second operation mode is a selection mode in which the attribute information generating means 353 selects the players HL and HR corresponding to the positions S 1 and S 2 of the
<学習モード>
まず、属性情報生成手段353の学習モードについて説明する。
識別器は、図9の特徴ベクトル、すなわち、剣先90の位置S1,S2と、選手HL,HRの関節点BL
i,BR
iとの関係を学習したものである。本実施形態では、属性情報生成手段353が、サポートベクタマシン(SVM:Support Vector Machine)により、回帰モデルの識別器を学習する。
<Learning mode>
First, the learning mode of the attribute information generating means 353 will be described.
The discriminator has learned the feature vector of FIG. 9, that is, the relationship between the positions S 1 and S 2 of the tip of the
このとき、属性情報生成手段353は、図10に示すように、左右の選手HL,HR毎に識別器を学習する。図10では、SVM回帰(L)が左側の選手HLに対応した識別器であり、SVM回帰(R)が右側の選手HRに対応した識別器である。SVM回帰(L)の学習データは、剣先90の位置SL,SRを可視画像V上で手動で設定し、左側の選手HLに対応する剣先90の位置SLでスコア1.0(正例)とし、右側の選手HRに対応する剣先90の位置SRでスコア-1.0(負例)とすればよい。なお、剣先90の位置SL,SRは、左右の属性情報が付加された剣先90の位置を表す。SVM回帰(L)と同様、SVM回帰(R)の学習データは、左側の選手HLに対応する剣先90の位置SLでスコア-1.0(負例)とし、右側の選手HRに対応する剣先90の位置SRでスコア1.0(正例)とすればよい。一般的には、100組以上の学習データを準備すれば、高精度な識別器を学習できる。
At this time, as shown in FIG. 10, the attribute information generating means 353 learns classifiers for each of the left and right players HL and HR . In FIG. 10, SVM regression ( L ) is the discriminator corresponding to the player HL on the left, and SVM regression ( R ) is the discriminator corresponding to the player HR on the right. The learning data for SVM regression ( L ) is obtained by manually setting the positions S L and S R of the
<選択モード>
次に、属性情報生成手段353の選択モードについて説明する。
回帰モデルの識別器は、成否、正負や真偽といった2値判定ではなく、その判定結果を数値(尤度)として出力する。つまり、回帰モデルの識別器は、2個の剣先90がそれぞれ、左側の選手HLのものである尤度と、右側の選手HRのものである尤度とを出力する。従って、属性情報生成手段353は、図11に示すように、左側の選手HLに対応したSVM回帰(L)に特徴ベクトルを入力し、左側の選手HLであることを示す尤度と、右側の選手HRであることを示す尤度とを算出する。さらに、属性情報生成手段353は、右側の選手HRに対応したSVM回帰(R)に特徴ベクトルを入力し、左側の選手HLであることを示す尤度と、右側の選手HRであることを示す尤度とを算出する。このように、属性情報生成手段353は、左右の選手HL,HRに対応する識別器を用いて、左右の選手HL,HRに対応する尤度を計4通り算出する。
<Selection mode>
Next, the selection mode of the attribute information generating means 353 will be described.
The discriminator of the regression model outputs the determination result as a numerical value (likelihood) instead of binary determination such as success/failure, positive/negative, or true/false. That is, the regression model discriminator outputs the likelihood that each of the two
次に、属性情報生成手段353は、4通りの尤度のうち、最も尤度が高くなるものを選択する。つまり、属性情報生成手段353は、2個の剣先90と左右の選手HL,HRとの4通りの組み合わせのうち、最も尤度が高くなる組み合わせを選択する。従って、属性情報生成手段353は、残りの剣先90と、残りの選手HL,HRとの組み合わせも必然的に選択できる。
Next, the attribute information generating means 353 selects the one with the highest likelihood among the four likelihoods. That is, the attribute information generating means 353 selects the combination with the highest likelihood among the four combinations of the two
以下、4通りの尤度を算出する利点について、2値判定と対比して説明する。
左右の選手HL,HRに対応する識別器に2値判定(分類モデル)を適用した場合、両方の選手HL,HRに同一の剣先90が対応するという矛盾した判定結果を生じることがある。例えば、同一の剣先90について、SVM回帰(L)が左側の選手HLのものと判定すると共に、SVM回帰(R)が右側の選手HRのものと判定することがあり、何れが正しいか真偽不明となる。一方、属性情報生成手段353は、2値判定ではなく尤度という数値を算出するので、最も尤度が高くなる剣先90と選手HL,HRとの組み合わせを選択可能であり、2値判定のように矛盾した判定結果を生じることがない。
Advantages of calculating four types of likelihoods will be described below in comparison with binary determination.
When binary judgment (classification model) is applied to classifiers corresponding to left and right players HL and HR , a contradictory judgment result is produced that the
次に、属性情報生成手段353は、2個の剣先90のそれぞれと、左右の選手HL,HRとの対応関係を示す属性情報を生成し、生成した属性情報を剣先90の位置S1,S2に付加する。そして、属性情報生成手段353は、属性情報が付加された剣先90の位置SL,SRをオブジェクト追跡手段37(軌跡描画手段371)に出力する。
Next, the attribute information generating means 353 generates attribute information indicating the correspondence relationship between each of the two
図4に戻り、オブジェクト追跡装置30の構成について、説明を続ける。
オブジェクト追跡手段37は、オブジェクトを追跡するものであり、可視画像蓄積手段371と、軌跡描画手段(軌跡生成手段)373と、を備える。
Returning to FIG. 4, the description of the configuration of the
The object tracking means 37 tracks an object, and includes a visible image storage means 371 and a trajectory drawing means (trajectory generating means) 373 .
可視画像蓄積手段371は、可視・赤外同軸光カメラ20より入力された可視画像Vtを蓄積するメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶手段である。可視画像蓄積手段371が蓄積した可視画像Vtは、後記する軌跡描画手段373により参照される。
The visible image storage means 371 is storage means such as a memory, HDD (Hard Disk Drive), or SSD (Solid State Drive) for storing the visible image Vt input from the visible/infrared
軌跡描画手段373は、属性情報を参照しながら、可視画像蓄積手段371に蓄積されている可視画像Vtに剣先90の軌跡を描画するものである。このとき、軌跡描画手段373は、剣先90の位置SL,SRに付加された属性情報を参照するので、軌跡Tの入れ替わりを抑制し、正しい軌跡を描画できる。
The trajectory drawing means 373 draws the trajectory of the
例えば、軌跡描画手段373は、左側の選手HLの剣先が赤色、右側の選手HRの剣先が緑色のように、左右の選手HL,HRの剣先90に異なる色を予め設定する。そして、軌跡描画手段373は、図12に示すように、可視画像Vtと軌跡Tとを合成した軌跡合成画像Ftを生成する。この軌跡合成画像Ftには、左側の選手HLが持つ剣先90の軌跡T1と、右側の選手HRが持つ剣先90の軌跡T2とがCGで合成されている。
その後、軌跡描画手段373は、軌跡合成画像Ftを外部の装置(例えば、ディスプレイ)に出力する。
For example, the trajectory drawing means 373 presets different colors for the
After that, the trajectory drawing means 373 outputs the trajectory composite image Ft to an external device (for example, display).
[オブジェクト追跡装置の動作]
図13を参照し、オブジェクト追跡装置30の動作について説明する。
図13に示すように、ステップS1において、赤外光検出手段31は、赤外画像Itから剣先90の位置S1,S2を検出する。
例えば、赤外光検出手段31は、2値赤外差分画像を生成し、抽出した候補ブロブにモルフォロジ処理を施す。次に、赤外光検出部311は、モルフォロジ処理で残った候補ブロブにラベリング処理を施し、候補ブロブの位置、面積及び形状特徴量を求める。そして、赤外光検出手段31は、面積及び形状特徴量を基準にフィルタリングし、面積が大きい2個の候補ブロブの位置を剣先90の位置S1,S2として検出する。
[Operation of object tracking device]
The operation of the
As shown in FIG . 13 , in step S1, the infrared light detection means 31 detects the positions S1 and S2 of the tip 90 from the infrared image It.
For example, the infrared light detection means 31 generates a binary infrared difference image and applies morphological processing to the extracted candidate blobs. Next, the infrared light detection unit 311 performs labeling processing on the candidate blobs remaining after the morphology processing, and obtains the position, area, and shape feature amount of the candidate blobs. Then, the infrared light detection means 31 performs filtering based on the area and shape feature amount, and detects the positions of two candidate blobs having a large area as the positions S 1 and S 2 of the
ステップS2において、人物姿勢検出手段331は、可視画像Vtに含まれる全人物Hの関節点Bn
iを検出する。例えば、一般的な姿勢計測手法の一つである“OpenPose”を用いて、人物Hの各関節点Bn
iを検出する。
ステップS3において、人物選択手段333は、ステップS2で検出した全人物Hのうち、胴体長lnが長い2人の選手HL,HRを選択する。
In step S2, the human posture detection means 331 detects the joint points Bn i of all the people H included in the visible image Vt . For example, each joint point B n i of the person H is detected using “OpenPose” which is one of the general posture measurement methods.
In step S3, the person selection means 333 selects two players HL and HR having the longest torso length ln among all persons H detected in step S2.
ステップS4において、特徴ベクトル算出手段351は、ステップS1で検出した剣先90の位置S1,S2から、ステップS3で選択した選手HL,HRの各関節点BL
i,BR
iまでの特徴ベクトルを算出する。このとき、特徴ベクトル算出手段351は、選手HL,HRの胴体長lnで正規化する。
In step S4, the feature vector calculation means 351 calculates from the positions S 1 and S 2 of the tip of the
ステップS5において、属性情報生成手段353は、予め学習した識別器を用いて、剣先90の位置S1,S2に対応する選手HL,HRを選択し、剣先90と選手HL,HRとの対応関係を示す属性情報を生成する。
例えば、属性情報生成手段353は、左右の選手HL,HRに対応した2つの回帰モデルの識別器を用いて、左右の選手HL,HRに対応する尤度を4通り算出する。そして、属性情報生成手段353は、2個の剣先90と左右の選手HL,HRとの4通りの組み合わせのうち、最も尤度が高くなる組み合わせを選択する。さらに、属性情報生成手段353は、2個の剣先90と、左右の選手HL,HRとの対応関係を示す属性情報を生成し、生成した属性情報を剣先90の位置S1,S2に付加する。
In step S5, the attribute information generating means 353 selects the players HL and HR corresponding to the positions S1 and S2 of the
For example, the attribute information generating means 353 uses classifiers of two regression models corresponding to the left and right players HL and HR to calculate four likelihoods corresponding to the left and right players HL and HR . Then, the attribute information generating means 353 selects the combination with the highest likelihood among the four combinations of the two
ステップS6において、軌跡描画手段373は、ステップS5で生成した属性情報を参照しながら、剣先90の軌跡Tを可視画像Vtに描画する。例えば、軌跡描画手段373は、図12に示すように、可視画像Vtと軌跡Tとを合成した軌跡合成画像Ftを生成する。
In step S6, the trajectory drawing means 373 draws the trajectory T of the
[作用・効果]
以上のように、オブジェクト追跡装置30は、剣先90を追跡する際、剣先90と選手HL,HRとの対応関係を示す属性情報を用いるので、その軌跡の入れ替わりを抑制できる。このように、オブジェクト追跡装置30は、正確な剣先90の軌跡を生成し、追跡頑健性を向上させることができる。
[Action/effect]
As described above, when tracking the
(変形例)
以上、本発明の実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
(Modification)
Although the embodiments of the present invention have been described in detail above, the present invention is not limited to the above-described embodiments, and includes design changes and the like without departing from the gist of the present invention.
前記した実施形態では、可視・近赤外同光軸カメラを利用することとして説明したが、本発明は、これに限定されない。例えば、本発明では、可視・近赤外同時撮影カメラ、及び、可視・近赤外マルチ波長カメラを利用することができる。 In the above-described embodiment, the use of a visible/near-infrared coaxial camera has been described, but the present invention is not limited to this. For example, in the present invention, a visible/near-infrared simultaneous imaging camera and a visible/near-infrared multi-wavelength camera can be used.
[可視・近赤外同時撮影カメラ]
可視・近赤外同時撮影カメラは、RGBに加えIR(近赤外光)を分光する4波長分光プリズムを用いて、それぞれの波長毎のセンサ、合計4枚のセンサで撮影するカメラである。この可視・近赤外同時撮影カメラは、RGBセンサによる可視画像、及び、IRセンサによる赤外画像を個別に出力することが可能である。つまり、オブジェクト追跡装置は、前記した実施形態と同様、可視・近赤外同時撮影カメラから可視画像及び赤外画像を取得し、軌跡合成画像を出力できる。
[Visible and near-infrared simultaneous shooting camera]
The visible/near-infrared simultaneous shooting camera uses a four-wavelength spectral prism that separates IR (near-infrared light) in addition to RGB, and shoots with a sensor for each wavelength, a total of four sensors. This visible/near-infrared simultaneous photographing camera can separately output a visible image from an RGB sensor and an infrared image from an IR sensor. That is, the object tracking device can acquire a visible image and an infrared image from the visible/near-infrared simultaneous photographing camera and output a trajectory composite image, as in the above-described embodiment.
[可視・近赤外マルチ波長カメラ]
可視・近赤外マルチ波長カメラは、RGB3色以外に近赤外領域で3つの波長を分光するマルチ波長分光プリズムを利用したカメラである。通常、カメラは、IRカットフィルタ又は可視光カットフィルタを装着して可視分光特性又は近赤外分光特性に示される波長を取り出し、可視光又は近赤外のみの画像を取得する。しかし、可視・近赤外マルチ波長カメラは、IRカットフィルタ及び可視光カットフィルタを装着せず、基本分光特性に示される波長全てを取り出すことで、可視光及び近赤外光を合成した可視・赤外合成画像を生成する。
[Visible/near-infrared multi-wavelength camera]
The visible/near-infrared multi-wavelength camera is a camera that uses a multi-wavelength spectroscopic prism that separates three wavelengths in the near-infrared region in addition to the three colors of RGB. Usually, a camera is equipped with an IR cut filter or a visible light cut filter to extract wavelengths indicated by visible spectral characteristics or near-infrared spectral characteristics, and obtains an image of only visible light or near-infrared light. However, the visible/near-infrared multi-wavelength camera is not equipped with an IR cut filter or a visible light cut filter, and extracts all wavelengths indicated by the basic spectral characteristics. Generate an infrared composite image.
そこで、可視・近赤外マルチ波長カメラを用いる場合、オブジェクト追跡システムは、可視・赤外分離装置を備えればよい。この可視・赤外分離装置は、可視・近赤外マルチ波長カメラが生成した可視・赤外合成画像を、可視画像と赤外画像とに分離するものである。 Therefore, when using a visible/near-infrared multi-wavelength camera, the object tracking system may include a visible/infrared separation device. This visible/infrared separation device separates a visible/infrared composite image generated by a visible/near-infrared multi-wavelength camera into a visible image and an infrared image.
[属性情報の生成方法]
前記した実施形態では、現フレームの可視画像のみで尤度を求めることとして説明したが、本発明は、これに限定されない。つまり、過去フレームの可視画像でも尤度を求めてもよい。例えば、属性情報生成手段は、現時刻から一定時間遡った期間で尤度を平均し、この尤度の平均が最も高くなる剣先と選手との組み合わせを選択する。
[How to generate attribute information]
In the above-described embodiment, the likelihood is obtained only from the visible image of the current frame, but the present invention is not limited to this. That is, the likelihood may also be obtained for the visible image of the past frame. For example, the attribute information generating means averages the likelihoods in a period that is a certain amount of time before the current time, and selects the combination of the tip of the sword and the player that has the highest average likelihood.
[その他変形例]
前記した実施形態では、フェンシングを一例として説明したが、本発明は、これに限定されない。つまり、本発明は、テニス、バドミントン、バレーボール等、選手の位置が入れ替わらないスポーツにも適用することができる。例えば、バドミントンの場合、オブジェクト追跡装置は、選手が持つラケットの方向を識別し、ラケットの軌跡に左右の選手を対応付けることで、両選手が持つラケットの軌跡を異なる色で描画することができる。
[Other Modifications]
Although fencing has been described as an example in the above-described embodiments, the present invention is not limited to this. That is, the present invention can also be applied to sports such as tennis, badminton, and volleyball, in which the positions of players do not change. For example, in the case of badminton, the object tracking device identifies the direction of the racket held by the player, associates the left and right players with the racket trajectory, and draws the racket trajectories held by both players in different colors.
さらに、本発明は、軌跡を異なる色で描かない場合、選手の位置が入れ換わるスポーツにも適用することができる。例えば、オブジェクト追跡装置は、バドミントンのシャトルを追跡し、その軌跡を描画することができる。さらに、本発明は、剣道やナギナタにも適用することができる。この他、本発明は、オーケストラにおける指揮棒の軌跡や、ドラマや映画における刀等の軌跡を描画することができる。 Furthermore, the invention can also be applied to sports in which the positions of the players are swapped if the trajectories are not drawn in different colors. For example, an object tracking device can track a badminton shuttlecock and draw its trajectory. Furthermore, the present invention can also be applied to kendo and naginata. In addition, the present invention can draw the trajectory of a baton in an orchestra, or the trajectory of a sword or the like in a drama or movie.
前記した実施形態では、識別器をSVMで学習することとして説明したが、本発明は、これに限定されない。例えば、識別器は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)などのニューラルネットワーク、CRF(Conditional Random Fields)などで学習することができる。また、本発明では、回帰モデルの識別器だけでなく、分類モデルの識別器も利用することができる。 In the above-described embodiment, the classifier is learned by SVM, but the present invention is not limited to this. For example, the discriminator can be learned by a neural network such as a recurrent neural network (RNN: Recurrent Neural Network), CRF (Conditional Random Fields), or the like. Moreover, in the present invention, not only a regression model discriminator but also a classification model discriminator can be used.
前記した実施形態では、18点の関節点を検出することとして説明したが、全ての関節点を検出せずともよい。人物の姿勢に相関が高いのは上半身の関節点であり、特に、頭及び腕部の関節点であると考えられるので、これら関節点を検出すればよい。
また、関節点の検出には参考文献1に記載の手法を適用することとして説明したが、本発明は、これに限定されない。選手の関節点のみを検出できる手法を適用した場合、オブジェクト追跡装置は、人物選択手段を備えずともよい。
In the above-described embodiment, 18 joint points are detected, but all joint points may not be detected. The joint points of the upper body are considered to have a high correlation with the posture of the person, and particularly the joint points of the head and arms, so these joint points should be detected.
Further, although the method described in
前記した実施形態では、軌跡描画手段が軌跡を描画することとして説明したが、本発明は、これに限定されない。例えば、オブジェクト追跡装置は、オブジェクトの軌跡を示す軌跡データを生成し、生成した軌跡データを外部に出力してもよい。 In the above-described embodiment, the trajectory drawing means draws the trajectory, but the present invention is not limited to this. For example, the object tracking device may generate trajectory data indicating the trajectory of the object and output the generated trajectory data to the outside.
前記した実施形態では、オブジェクト追跡装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記したオブジェクト追跡装置として協調動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 Although the object tracking device has been described as independent hardware in the above-described embodiments, the present invention is not limited to this. For example, the present invention can also be realized by a program that causes hardware resources such as a CPU, memory, and hard disk provided in a computer to operate cooperatively as the object tracking device described above. These programs may be distributed via a communication line, or may be distributed after being written in a recording medium such as a CD-ROM or flash memory.
オブジェクト追跡装置による識別精度向上の効果を検証するため、図1のオブジェクト追跡装置にフェンシングの試合映像を入力して実験を行った。
従来手法では、パーティクルフィルタを用いて剣先の位置のみで追跡処理を行ったため、軌跡の入れ替わりなどの誤追跡が頻繁に生じた。この実施例では、従来手法で誤追跡が発生した映像シーケンスを利用し、その映像シーケンス毎に左右の選手を識別したときの精度(%)を算出した。さらに、オブジェクト追跡装置の処理速度(fps:フレーム/秒)をあわせて計測した。
In order to verify the effectiveness of the object tracking system in improving identification accuracy, we conducted an experiment by inputting a video of a fencing match into the object tracking system shown in FIG.
In the conventional method, tracking processing was performed only at the position of the tip of the sword using a particle filter, so erroneous tracking such as trajectory replacement occurred frequently. In this example, a video sequence in which mistracking occurred by the conventional method was used, and the accuracy (%) when identifying the left and right players for each video sequence was calculated. Furthermore, the processing speed (fps: frames/second) of the object tracking device was also measured.
その実験結果を以下の表1に示す。5映像シーケンスの平均で97.6%と、高い精度が得られた。この実施例では、従来手法で誤追跡が発生した映像シーケンスを用いたが、人物姿勢を考慮することによって、全ての映像シーケンスで誤追跡を低減できることが分かった。また、この実施例では、処理速度が平均2.8fps程度であり、実用上十分であることも分かった。例えば、GPU(Graphics Processing Unit)を用いることや、識別処理を秒単位にすることで、リアルタイム処理を実現できると考えられる。 The experimental results are shown in Table 1 below. A high accuracy of 97.6% was obtained on average for 5 video sequences. In this example, a video sequence in which mistracking occurred by the conventional method was used, but it was found that mistracking could be reduced in all video sequences by considering the pose of the person. Also, in this example, the average processing speed was about 2.8 fps, which was found to be practically sufficient. For example, real-time processing can be realized by using a GPU (Graphics Processing Unit) or performing identification processing in seconds.
実験結果を検証するため、尤度分布を可視化した画像を図14に示す。前記したように識別器(SVM回帰)は、左右の選手の尤度をそれぞれ算出できる。そこで、この実施例では、画像の全画素で左右の選手の尤度を算出し、その値に応じてヒートマップ状に可視化した。この図14では、尤度の値に応じた輝度で、左側の選手を赤色で示し、右側の選手を緑色で示した。さらに、図14では、剣先の検出位置を丸印で図示し、その位置での尤度を数値で示した。 FIG. 14 shows an image in which the likelihood distribution is visualized in order to verify the experimental results. As described above, the discriminator (SVM regression) can calculate the likelihoods of the left and right players, respectively. Therefore, in this embodiment, the likelihoods of the left and right players are calculated for all pixels of the image, and the calculated values are visualized in the form of a heat map. In FIG. 14, the brightness corresponding to the likelihood value indicates the player on the left side in red and the player on the right side in green. Furthermore, in FIG. 14, the detection position of the tip of the sword is illustrated with a circle, and the likelihood at that position is indicated numerically.
さらに、図14と同様、別の4画像で尤度分布を可視化したものを図15に示す。図14及び図15に示すように、選手同士の距離が近くなると、尤度分布の範囲も狭くなるが、オブジェクト追跡装置が左右の選手を正しく識別できた。このように、オブジェクト追跡装置は、剣先位置と人物の関節位置との関係性を学習することにより、高い精度で選手を識別できることがわかった。 Furthermore, similar to FIG. 14, FIG. 15 shows the visualization of the likelihood distribution with another four images. As shown in FIGS. 14 and 15, the closer the players are to each other, the narrower the range of the likelihood distribution becomes, but the object tracking device can correctly identify the left and right players. Thus, it was found that the object tracking device can identify the player with high accuracy by learning the relationship between the position of the tip of the sword and the joint positions of the person.
1 オブジェクト追跡システム
10 赤外光投光器
20 可視・赤外同軸光カメラ
30 オブジェクト追跡装置
31 赤外光検出手段
33 人物姿勢取得手段
331 人物姿勢検出手段(関節位置検出手段)
333 人物選択手段
35 オブジェクト識別手段
351 特徴ベクトル算出手段
353 属性情報生成手段
37 オブジェクト追跡手段
371 可視画像蓄積手段
373 軌跡描画手段(軌跡生成手段)
1
333 person selection means 35 object identification means 351 feature vector calculation means 353 attribute information generation means 37 object tracking means 371 visible image storage means 373 trajectory drawing means (trajectory generation means)
Claims (6)
前記オブジェクトの位置として、前記赤外画像から前記赤外光マーカの位置を検出する赤外光検出手段と、
前記可視画像から前記人物の各関節位置を検出する関節位置検出手段と、
前記オブジェクトの位置から前記各関節位置までの特徴ベクトルを算出する特徴ベクトル算出手段と、
前記オブジェクトの位置と前記各関節位置との関係を予め学習した識別器を用いて、前記特徴ベクトルによって前記オブジェクトに対応する前記人物を選択し、前記オブジェクトと前記人物との対応関係を示す属性情報を生成する属性情報生成手段と、
前記オブジェクトの位置及び前記属性情報に基づいて、前記オブジェクトの軌跡を生成する軌跡生成手段と、
を備えることを特徴とするオブジェクト追跡装置。 Using an infrared image obtained by photographing an infrared light marker attached to each moving object using infrared light and a visible image obtained by photographing a person moving each of the objects using visible light, the object An object tracking device for tracking
infrared light detection means for detecting the position of the infrared light marker from the infrared image as the position of the object;
joint position detection means for detecting each joint position of the person from the visible image;
feature vector calculation means for calculating a feature vector from the position of the object to each joint position;
The person corresponding to the object is selected by the feature vector using a classifier that has previously learned the relationship between the position of the object and the positions of the joints, and attribute information indicating the correspondence relationship between the object and the person. an attribute information generating means for generating
a trajectory generating means for generating a trajectory of the object based on the position of the object and the attribute information;
An object tracking device comprising:
回帰モデルの前記識別器を前記人物毎に学習し、
前記人物毎に学習した識別器を用いて、前記特徴ベクトルから前記オブジェクトと前記人物との組み合わせ毎の尤度を算出し、算出した前記尤度が最も高くなる前記オブジェクトと前記人物との組み合わせを選択し、前記属性情報を生成することを特徴とする請求項1に記載のオブジェクト追跡装置。 The attribute information generating means is
learning the classifier of the regression model for each person;
Using the classifier learned for each person, the likelihood of each combination of the object and the person is calculated from the feature vector, and the combination of the object and the person with the highest calculated likelihood is selected. 2. The object tracking device according to claim 1, wherein the attribute information is generated by selecting.
前記関節位置検出手段で検出された前記関節位置に基づいて、首関節から股関節までの胴体長を前記人物毎に算出し、算出した前記胴体長が長い順に予め設定した数の前記人物を選択し、選択した前記人物の前記関節位置を前記特徴ベクトル算出手段に出力する人物選択手段、をさらに備えることを特徴とする請求項1又は請求項2に記載のオブジェクト追跡装置。 The joint position detection means detects joint positions of all persons included in the visible image,
Based on the joint positions detected by the joint position detecting means, a body length from the neck joint to the hip joint is calculated for each person, and a predetermined number of the people are selected in descending order of the calculated body length. 3. The object tracking apparatus according to claim 1, further comprising: person selection means for outputting said joint positions of said selected person to said feature vector calculation means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018245234A JP7198661B2 (en) | 2018-12-27 | 2018-12-27 | Object tracking device and its program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018245234A JP7198661B2 (en) | 2018-12-27 | 2018-12-27 | Object tracking device and its program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020107071A JP2020107071A (en) | 2020-07-09 |
JP7198661B2 true JP7198661B2 (en) | 2023-01-04 |
Family
ID=71449132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018245234A Active JP7198661B2 (en) | 2018-12-27 | 2018-12-27 | Object tracking device and its program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7198661B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022091166A1 (en) * | 2020-10-26 | 2022-05-05 | 日本電気株式会社 | Tracking apparatus, tracking system, tracking method, and recording medium |
WO2024047848A1 (en) * | 2022-09-01 | 2024-03-07 | 日本電信電話株式会社 | Image processing device, image processing method, and image processing program |
CN115869608A (en) * | 2022-11-29 | 2023-03-31 | 京东方科技集团股份有限公司 | Referee method, device and system for fencing competition and computer readable storage medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015536507A (en) | 2012-11-16 | 2015-12-21 | マイクロソフト コーポレーション | Associating objects with targets |
WO2018087844A1 (en) | 2016-11-09 | 2018-05-17 | 三菱電機株式会社 | Work recognition device and work recognition method |
JP2018078431A (en) | 2016-11-09 | 2018-05-17 | 日本放送協会 | Object tracker and its program |
-
2018
- 2018-12-27 JP JP2018245234A patent/JP7198661B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015536507A (en) | 2012-11-16 | 2015-12-21 | マイクロソフト コーポレーション | Associating objects with targets |
WO2018087844A1 (en) | 2016-11-09 | 2018-05-17 | 三菱電機株式会社 | Work recognition device and work recognition method |
JP2018078431A (en) | 2016-11-09 | 2018-05-17 | 日本放送協会 | Object tracker and its program |
Also Published As
Publication number | Publication date |
---|---|
JP2020107071A (en) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11594029B2 (en) | Methods and systems for determining ball shot attempt location on ball court | |
US8805007B2 (en) | Integrated background and foreground tracking | |
US8538153B2 (en) | System and method for enabling meaningful interaction with video based characters and objects | |
KR101723432B1 (en) | Device for sensing moving ball and method for the same | |
US20190089923A1 (en) | Video processing apparatus for displaying a plurality of video images in superimposed manner and method thereof | |
JP6742221B2 (en) | Object tracking device and its program | |
JP7198661B2 (en) | Object tracking device and its program | |
Ren et al. | Tracking the soccer ball using multiple fixed cameras | |
Teachabarikiti et al. | Players tracking and ball detection for an automatic tennis video annotation | |
CN109684919B (en) | Badminton service violation distinguishing method based on machine vision | |
Conaire et al. | Tennissense: A platform for extracting semantic information from multi-camera tennis data | |
JP6983049B2 (en) | Object tracking device and its program | |
Sha et al. | Swimmer localization from a moving camera | |
Zhu et al. | Action recognition in broadcast tennis video using optical flow and support vector machine | |
JP4465150B2 (en) | System and method for measuring relative position of an object with respect to a reference point | |
Perš et al. | A system for tracking players in sports games by computer vision | |
Kilner et al. | 3D action matching with key-pose detection | |
CN112508998A (en) | Visual target alignment method based on global motion | |
Perš et al. | Tracking people in sport: Making use of partially controlled environment | |
JP4533037B2 (en) | Offside line detection device and program thereof | |
Li et al. | Automatic video-based analysis of athlete action | |
Leong et al. | Computer vision approach to automatic linesman | |
Kumar et al. | 3d estimation and visualization of motion in a multicamera network for sports | |
Poliakov et al. | Physics based 3D ball tracking for tennis videos | |
Aksay et al. | Robust 3d tracking in tennis videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211108 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7198661 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |