JP2018181273A - Image processing apparatus, method thereof, and program - Google Patents

Image processing apparatus, method thereof, and program Download PDF

Info

Publication number
JP2018181273A
JP2018181273A JP2017084778A JP2017084778A JP2018181273A JP 2018181273 A JP2018181273 A JP 2018181273A JP 2017084778 A JP2017084778 A JP 2017084778A JP 2017084778 A JP2017084778 A JP 2017084778A JP 2018181273 A JP2018181273 A JP 2018181273A
Authority
JP
Japan
Prior art keywords
person
series
time
image
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017084778A
Other languages
Japanese (ja)
Inventor
敬正 角田
Norimasa Kadota
敬正 角田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017084778A priority Critical patent/JP2018181273A/en
Publication of JP2018181273A publication Critical patent/JP2018181273A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To recognize behavior of a plurality of persons from a video image.SOLUTION: An image processing apparatus includes: acquisition means of acquiring a video image including time-series still images; detection means of detecting one or more objects in each still image from the video image; feature quantity extraction means of extracting feature quantities corresponding to each of the objects from the still images; object integration means of integrating feature quantities corresponding to each of the objects in the still images; time-series integration means of integrating the feature quantities integrated in the still images, for the time-series still images; and identification means of identifying behavior of the object in the video image, on the basis of the feature quantities integrated for the time-series still images.SELECTED DRAWING: Figure 2

Description

本発明は、動画像から人物などの対象物の行動を認識する技術に関する。特に、複数の人物により行われる行動を認識する技術に関するものである。   The present invention relates to a technology for recognizing the behavior of an object such as a person from a moving image. In particular, the present invention relates to a technology for recognizing an action performed by a plurality of persons.

映像解析による人物行動の認識(以下、行動認識と称する)は、監視、マーケティング、スポーツ解析等の用途で有用な技術である。例えば、行動認識の認識結果に基づき映像の中から被写体の特定行動を検出する監視応用や、行動の種類を示す行動ラベルをキーとした映像検索、マーケティング上関心のある行動のカウント、スポーツ映像におけるスタッツ解析等、多様な応用がある。   Recognition of person's action by image analysis (hereinafter referred to as action recognition) is a useful technique in applications such as monitoring, marketing, and sports analysis. For example, a monitoring application that detects a specific action of a subject from a video based on a recognition result of action recognition, a video search using an action label as a key indicating the type of action, counting of actions of interest in marketing, sports video There are various applications such as Stats analysis.

その際に撮影される映像は、1フレームに多人数が同時に映る状況が一般的である。このような映像を用いた行動認識方法として、特許文献1では、多人数が登場し隠れが多発する混雑状況下においても人物の動き予測を用いて長い軌跡情報を生成することで、映像中の複数人物の個別行動を安定して認識する技術が開示されている。映像解析による人物行動の認識(以下、行動認識)は、監視、マーケティング、スポーツ解析等の用途で有用な技術である。例えば、行動認識の認識結果に基づき映像の中から被写体の特定行動を検出する監視応用や、行動の種類を示す行動ラベルをキーとした映像検索、マーケティング上関心のある行動のカウント、スポーツ映像におけるスタッツ解析等、多様な応用がある。   In the case of the video taken at that time, it is common that a large number of people appear simultaneously in one frame. As an action recognition method using such a video, in Patent Document 1, even in a crowded situation where many people appear and hiding frequently occurs, long trajectory information is generated using motion prediction of a person, thereby making it possible to display in the video. There is disclosed a technology for stably recognizing individual actions of a plurality of persons. Recognition of human behavior by image analysis (hereinafter referred to as action recognition) is a useful technique in applications such as monitoring, marketing, and sports analysis. For example, a monitoring application that detects a specific action of a subject from a video based on a recognition result of action recognition, a video search using an action label as a key indicating the type of action, counting of actions of interest in marketing, sports video There are various applications such as Stats analysis.

その際に撮影される映像は、1フレームに多人数が同時に映る状況が一般的である。このような映像を用いた行動認識方法として、特許文献1では、多人数が登場し隠れが多発する混雑状況下においても人物の動き予測を用いて長い軌跡情報を生成することで、映像中の複数人物の個別行動を安定して認識する技術が開示されている。   In the case of the video taken at that time, it is common that a large number of people appear simultaneously in one frame. As an action recognition method using such a video, in Patent Document 1, even in a crowded situation where many people appear and hiding frequently occurs, long trajectory information is generated using motion prediction of a person, thereby making it possible to display in the video. There is disclosed a technology for stably recognizing individual actions of a plurality of persons.

さらに監視やスポーツ解析の用途では、映像中の複数人物が関係する協調動作の認識が可能になることで付加価値の高い応用につながると考えられる。例えば映像内の複数人の状況をより直観的で分かりやすい表現で監視者にアノテーションする(例「行列ができている」、「言い争いが起きている」など)ことができる。また、複数人が協力して行う犯罪の検知に応用したり、スポーツにおいてはチームプレイの解析が可能になるなどの応用例である。   Furthermore, in the application of surveillance and sports analysis, it is thought that it becomes possible to lead to application with high added value by enabling recognition of a coordinated action involving multiple persons in a video. For example, it is possible to annotate the observer with the situation of a plurality of persons in the video in a more intuitive and easy-to-understand expression (eg, "a matrix is made", "a dispute is occurring", etc.). In addition, it is applied to detection of a crime performed by a plurality of people in cooperation, and in sports, it is an application example such as analysis of team play becomes possible.

非特許文献1では、複数人物の協調動作を認識する技術として、複数の人間の協調的な行動の認識を行っており、個々の人物が立っているか歩いているかのプリミティブな個別行動の認識を行う。それから、2者間のインタラクション行動の認識(向き合っている、列になっている等)、全体の協調行動の認識(話し合っている、並んで歩いている、集まっている等)を階層的なグラフィカルモデルを用いて実現している。   In Non-Patent Document 1, as a technology for recognizing the cooperative action of a plurality of persons, recognition of cooperative actions of a plurality of persons is performed, and recognition of primitive individual actions of whether individual persons are standing or walking is performed. Do. Then, hierarchical graphical recognition of interaction behavior between two parties (face-to-face, in-line, etc.), overall collaborative behavior recognition (discussion, walking-side-by-side, etc.) It is realized using a model.

特許第5285575号公報Patent No. 5285575 gazette

Wongun Choi and Silvio Savarese,“A unified framework for multi−target tracking and collective activity recognition”,ECCV2012Wongun Choi and Silvio Savarese, “A unified framework for multi-target tracking and collective activity recognition”, ECCV 2012

上述のように、監視やスポーツにおける、複数の人間が関与する行動の認識は広範な応用が想定される。特許文献1は、複数人物の個別動作の認識は行うが、複数人物が協調して行う行動を認識するものではない。また、非特許文献1では、人物の個別行動の認識に、時空間上の直方体から作成される時空間特徴量を抽出し、さらに別途学習した識別器を用いて得られた識別スコアを用いている。このように特徴量自体が時間的な幅を持つため識別結果が時間的に粗くなるという特徴がある。また特徴抽出器、識別器、グラフィカルモデルは独立したモジュールであり、それらを一貫した全体の最適化が出来なかった。   As mentioned above, recognition of actions involving multiple people in surveillance and sports is expected to have wide application. Patent Document 1 recognizes individual actions of a plurality of persons, but does not recognize an action performed by a plurality of persons in cooperation. Further, in Non-Patent Document 1, for recognition of individual behavior of a person, a spatiotemporal feature value created from a rectangular parallelepiped in spacetime is extracted, and a discrimination score obtained using a separately learned classifier is used. There is. As such, since the feature amount itself has a temporal width, there is a feature that the identification result becomes rough in time. Also, feature extractors, classifiers and graphical models are independent modules, which could not be consistently optimized throughout.

本発明の1態様によれば、画像処理装置に、時系列の静止画像を含む動画像を取得する取得手段と、前記動画像から静止画像ごとに1以上の対象物を検出する検出手段と、前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段とを備える。   According to one aspect of the present invention, an image processing apparatus includes acquisition means for acquiring moving images including time-series still images, detection means for detecting one or more objects for each still image from the moving images, In the still image, a feature amount extraction unit for extracting feature amounts corresponding to each of the objects from the still image, an object integration unit for integrating feature amounts corresponding to each of the objects in the still image, and Time series integration means for integrating the feature quantities of the integrated object for the time series still image, and the action of the object in the moving image is identified based on the feature quantity integrated for the time series still image And identification means.

本発明によれば、動画の各フレームに映る人物の個別動作を表す特徴量を抽出し、複数人の特徴量を統合し、さらに時間的な統合を行うことで、複数人の個別行動で意味付けられる行動の精度の良い識別を可能にする。   According to the present invention, feature quantities representing individual motions of a person appearing in each frame of a moving image are extracted, feature quantities of a plurality of people are integrated, and temporal integration is performed to make sense of individual actions of a plurality of people. Allows accurate identification of the actions to be attached.

カメラ配置の一例と2つのカメラで撮影される静止画の一例を示す図である。It is a figure which shows an example of a camera arrangement | positioning, and an example of the still image image | photographed with two cameras. 認識時のシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration | structure at the time of recognition. 認識時の処理の一例を示すフローチャートである。It is a flow chart which shows an example of processing at the time of recognition. 人物検出の結果の一例と検出された人物領域をソートした結果の一例を示す図である。It is a figure which shows an example of a result of person detection, and an example of a result which sorted the detected person area. 2つのフレームでの人物検出の結果の一例と検出された人物領域をソートした結果の一例を示す図である。It is a figure which shows an example of the result of person detection in two flames | frames, and an example of the result of having sorted the detected person area | region. 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。It is a figure which shows an example of the neural network structure used by the process at the time of recognition and learning. 図6で示したニューラルネットワークを展開した図である。It is the figure which expand | deployed the neural network shown in FIG. 図7で示したニューラルネットワークを制御することで実現される人物系列の統合と時系列の統合を説明する図である。It is a figure explaining integration of a person series and integration of a time series which are realized by controlling a neural network shown in FIG. 図8で示した制御されたニューラルネットワークと等価なニューラルネットワークを示す図である。Fig. 9 shows a neural network equivalent to the controlled neural network shown in Fig. 8; 学習時のシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration | structure at the time of learning. 学習時の処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process at the time of learning. フレーム内の人物領域と人物の座標データを用いるニューラルネットワーク構造を示す図である。It is a figure which shows the neural network structure using the person area | region in a flame | frame, and coordinate data of a person. 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。It is a figure which shows an example of the neural network structure used by the process at the time of recognition and learning. 2つのカメラで撮影された同時刻の2フレームの人物検出結果の一例と検出された人物領域をソートした結果の一例を示す図である。FIG. 7 is a diagram showing an example of a person detection result of two frames at the same time taken by two cameras and an example of a result of sorting the detected person area. 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。It is a figure which shows an example of the neural network structure used by the process at the time of recognition and learning. 認識時のシステム構成の一例を示す図である(その2)。It is a figure which shows an example of the system configuration | structure at the time of recognition (the 2). 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。It is a figure which shows an example of the neural network structure used by the process at the time of recognition and learning. LSTMの制御状態を示す図である。It is a figure which shows the control state of LSTM.

以下、図面を参照しながら本発明の実施形態について詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(第1の実施形態)
第1の実施形態では、フットサルを例として動画像から複数選手の動作で意味付けられる行動ラベルを認識する方法について説明する。
First Embodiment
In the first embodiment, a method of recognizing an action label that can be added to the action of a plurality of players from a moving image will be described by taking a futsal as an example.

図1は、本実施形態において想定する動画について説明する図である。図1(a)の102はフットサルコートを示す。103―112はカメラを示す。X、Y、Zは原点を113に定義した3次元座標(世界座標)のX軸,Y軸、Z軸を示す。この図1(a)に示すように、フットサルのコートの周囲に複数台のカメラが配置され、そのカメラにより動画が撮影されるものとする。図1(b)に、カメラ103で取得されるフットサル動画の1フレーム(静止画像)201の例を示す。202がボール、203―209が、それぞれ人物A―Gを示す。このように動画中には、対象物として、複数人の人物(選手および審判が含まれる)とボールが存在する。図1(c)に、カメラ104で取得される1フレーム301の例を示す。302がボール、303―311が、それぞれ人物A―Kを示す。図1(c)におけるボール302、人物A−E(303−307)は、図1(b)におけるボール202、人物A−E(203−207)と同一の物体あるいは人物である。   FIG. 1 is a diagram for explaining a moving image assumed in the present embodiment. Reference numeral 102 in FIG. 1A denotes a futsal coat. Reference numerals 103 to 112 denote cameras. X, Y and Z indicate the X axis, Y axis and Z axis of three-dimensional coordinates (world coordinates) whose origin is defined as 113. As shown in FIG. 1A, it is assumed that a plurality of cameras are arranged around a futsal coat and a moving image is photographed by the cameras. FIG. 1B shows an example of one frame (still image) 201 of futsal moving image acquired by the camera 103. 202 indicates a ball, and 203 to 209 indicate persons AG, respectively. Thus, in the moving image, there are a plurality of persons (including players and referees) and a ball as objects. An example of one frame 301 acquired by the camera 104 is shown in FIG. Reference numeral 302 denotes a ball, and 303 to 311 denote persons AK, respectively. The ball 302 and the persons AE (303 to 307) in FIG. 1 (c) are the same objects or persons as the ball 202 and the persons AE (203 to 207) in FIG. 1 (b).

各カメラ103―112は、キャリブレーションが行われ、カメラの内部および外部パラメータが取得されているものとする。すなわち、各カメラで取得した画像にステレオ法を適用し、対応点をコートの基準点を原点として設定した世界座標上に投影することができる。本実施形態では、コートのセンターマークを原点113とし、X軸、Y軸、Z軸を持つ3次元空間を世界座標として設定する。画像に映る人物やボールの検出と組み合わせ、人物やボールの世界座標上の位置を取得できるものとする。   Each of the cameras 103 to 112 is calibrated, and internal and external parameters of the cameras are acquired. That is, the stereo method can be applied to the image acquired by each camera, and the corresponding points can be projected on world coordinates set with the reference point of the coat as the origin. In this embodiment, the center mark of the coat is set as the origin 113, and a three-dimensional space having an X axis, a Y axis, and a Z axis is set as world coordinates. The position of the person or the ball on the world coordinates can be acquired in combination with the detection of the person or the ball appearing in the image.

またこのフットサルの行動認識においては、パス、シュート、ドリブル、キープ、クリアーの5種類のマルチカテゴリの行動ラベルを認識するとする。ここで扱う行動ラベル(パス、シュート、ドリブル、キープ、クリアー)の認識は、個人の動作の認識だけでは不十分で、ボールに関係する複数人の個別動作を総合して識別する必要のある行動ラベルである。   Also, in this futsal action recognition, it is assumed that action labels of five types of multi-category are recognized: pass, shoot, dribble, keep and clear. The recognition of the action labels (pass, shoot, dribble, keep, clear) dealt with here is not enough to recognize the individual's actions, and the actions that need to be comprehensively identified by the individual actions of multiple persons related to the ball. It is a label.

図2(a)は、本実施形態の画像処理装置である行動認識装置1000の機能構成を示す図である。本実施形態の行動認識装置1000は、動画取得部1001、人物物体検出部1002、人物領域抽出部1003、人物領域ソート部1004、統合制御信号作成部1005、画像特徴量抽出部1006を有する。さらに、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009を有する。これらの各機能の詳細については、図3等を用いて後述する。   FIG. 2A is a diagram showing a functional configuration of the behavior recognition apparatus 1000 which is the image processing apparatus of the present embodiment. The action recognition apparatus 1000 of the present embodiment includes a moving image acquisition unit 1001, a human object detection unit 1002, a human area extraction unit 1003, a human area sort unit 1004, an integrated control signal generation unit 1005, and an image feature quantity extraction unit 1006. Furthermore, it has a person series integration unit 1007, a time series integration unit 1008, and an action label identification unit 1009. The details of each of these functions will be described later with reference to FIG.

図3(a)は、本実施形態における認識時の処理の一例を示すフローチャートである。このフローチャートを用いて、処理全体の概要を説明する。   FIG. 3A is a flowchart showing an example of processing at the time of recognition in the present embodiment. The outline of the entire process will be described using this flowchart.

まずS1001では、動画取得部1001が、複数の静止画から成る動画のフレーム系列を取得する。S1002では、人物物体検出部1002が、S1001で取得したフレームに映る人物およびボールのそれぞれについて位置とサイズを検出する。フレーム内に複数人物がいる場合、その人数に対応した複数の位置とサイズを検出する。S1003では、人物領域取得部1003が、S1002で検出した人物の位置とサイズに基づき、人物の領域(以後、単に人物領域と呼ぶ)を取得する。S1004では、人物領域ソート部1004が、S1002で検出したボールと人物の位置に基づき、S1003で取得した人物領域をソートする。ソートの詳細については後述する。   First, in S1001, the moving image acquisition unit 1001 acquires a frame sequence of a moving image composed of a plurality of still images. In S1002, the human object detection unit 1002 detects the position and size of each of the person and the ball appearing in the frame acquired in S1001. When there are a plurality of persons in the frame, a plurality of positions and sizes corresponding to the number of persons are detected. In S1003, the human area acquisition unit 1003 acquires a human area (hereinafter, simply referred to as a human area) based on the position and size of the human detected in S1002. In S1004, the person area sorting unit 1004 sorts the person area acquired in S1003 based on the position of the ball and the person detected in S1002. Details of the sorting will be described later.

S1005では、統合制御信号作成部1005が、S1002で検出したフレーム内に存在する人物の数に基づき、後述する人物系列統合部1007、時系列統合部1008を制御する信号を作成する。S1006では、画像特徴量抽出部1006が、S1003で取得した人物領域に対応する画像特徴量を抽出する。フレーム内に複数人物がいる場合は、複数人物に対応する領域毎に画像特徴量を抽出する。使用する画像特徴量は後述する。抽出した画像特徴量を人物特徴量と呼ぶこととする。   In S1005, the integrated control signal generation unit 1005 generates a signal for controlling a person series integration unit 1007 and a time series integration unit 1008 described later based on the number of persons present in the frame detected in S1002. In S1006, the image feature quantity extraction unit 1006 extracts an image feature quantity corresponding to the person area acquired in S1003. When there are a plurality of persons in the frame, the image feature amount is extracted for each area corresponding to the plurality of persons. Image feature quantities to be used will be described later. The extracted image feature quantity is referred to as a person feature quantity.

S1007では、人物系列統合部1007が、S1006で取得したフレーム内の人数に対応する複数の人物特徴量を統合する対象物統合の処理を行う。この統合処理の詳細については後述する。この処理の結果、複数人物特徴量を取得する。S1008では、時系列統合部1008が、S1001で取得した複数のフレームにそれぞれ対応する、S1007で統合した人物特徴量をさらに時間的に統合する処理を行う。この統合処理の詳細については後述する。この処理の結果、複数フレーム複数人物特徴量を取得する。S1009では、行動ラベル識別部1009が、S1008で統合した複数フレームの複数人物特徴量に基づき、行動ラベルを識別する。これはフレーム毎に行う。使用する識別器については後述する。   In S1007, the person series integration unit 1007 performs an object integration process of integrating a plurality of person feature quantities corresponding to the number of people in the frame acquired in S1006. Details of this integration process will be described later. As a result of this processing, a plurality of person feature quantities are acquired. In S1008, the time-series integration unit 1008 performs processing to further temporally integrate the person feature quantities integrated in S1007 respectively corresponding to the plurality of frames acquired in S1001. Details of this integration process will be described later. As a result of this processing, a plurality of frames and a plurality of person feature amounts are acquired. In S1009, the action label identification unit 1009 identifies an action label based on the plurality of person feature quantities of the plurality of frames integrated in S1008. This is done frame by frame. The classifier to be used will be described later.

次に、図3(a)に示したフローチャートに従って、各処理のより具体的な内容について述べる。   Next, more specific contents of each process will be described according to the flowchart shown in FIG.

S1001では、図1(a)のように配置したマルチカメラで撮影された動画を取得する。ただし、本実施形態では、次のS1002の人物物体検出以外の工程では多視点の動画は用いず、何れか1つのカメラで撮影された複数フレームを用いる。本実施形態では、カメラは解像度Full HD(1920×1080ピクセル)、秒間30フレーム程度の速度を想定し、連続する30フレーム(1秒分)を取得するとする。しかし、数フレームおきに取得する、より低速なカメラで取得する、またはより長い時間取得する等、異なる条件で複数フレームを取得しても、それらが数倍程度の差異であれば、本実施形態が実現する機能は大きく損なわれない。また、カメラで撮影された動画は、直接取得しても良いが、外部記憶装置に記憶し、そこから所定の複数フレームを取得しても良い。   In S1001, a moving image captured by a multi-camera arranged as shown in FIG. 1A is acquired. However, in the present embodiment, in the subsequent steps other than human object detection in S1002, a multi-viewpoint moving image is not used, and a plurality of frames captured by any one camera are used. In this embodiment, the camera assumes a resolution of Full HD (1920 × 1080 pixels) and a speed of about 30 frames per second, and obtains continuous 30 frames (for one second). However, even if a plurality of frames are acquired under different conditions, such as acquiring every few frames, acquiring with a slower camera, acquiring for a longer time, etc., if they differ by several times, this embodiment The functions realized by are not significantly compromised. In addition, although a moving image shot by a camera may be obtained directly, it may be stored in an external storage device, and a plurality of predetermined frames may be obtained therefrom.

次にS1002では、S1001で取得したマルチカメラの動画の各フレームに対し、人物検出およびボール検出を行い、複数カメラのフレームに対する検出結果を用いて、最終的な人物およびボールの位置と人物領域を取得する。1つのフレームにおける人物検出およびボール検出は、AdaBoost等の公知の物体検出方法を用いればよい。その際人物検出は、特に人物の顔を検出するように学習された検出器を用いることも可能である。   Next, in S1002, human detection and ball detection are performed on each frame of the multi-camera moving image acquired in S1001, and using the detection results for the multiple camera frames, the final positions of the human and the ball and the human area are displayed. get. For human detection and ball detection in one frame, a known object detection method such as AdaBoost may be used. In this case, it is also possible to use human detection, in particular a detector trained to detect a human face.

続いて、ある瞬間のあるカメラのフレームでの検出結果と別のカメラのフレームでの検出結果から、対応する点を探索することで、前述のようにステレオ法の適用により、検出結果の世界座標上(実世界上)の位置を取得することができる。対応点探索は、公知の技術であるORB等の特徴量、FAST等のコーナー検出、ハミング距離等のメトリック、kd−tree等の近似最近傍探索法を適用すればよい。これらの結果、ボールと各人物の顔の位置が世界座標上の3次元位置(X,Y,Z)として取得される。S1001で取得したフレーム毎にこの処理を行い、その結果、フレーム毎にボールと各人物の顔位置が取得される。   Subsequently, by searching for the corresponding point from the detection result of one camera frame at a certain moment and the detection result of another camera frame, by applying the stereo method as described above, the world coordinates of the detection result The position above (in the real world) can be obtained. Correspondence point search may be performed using known techniques such as feature amounts of ORB, corner detection such as FAST, metrics such as Hamming distance, and approximate nearest neighbor search methods such as kd-tree. As a result of these, the positions of the ball and the face of each person are obtained as three-dimensional positions (X, Y, Z) on world coordinates. This process is performed for each frame acquired in S1001. As a result, the ball and the face position of each person are acquired for each frame.

次に、S1003では、S1002で取得した各人物の世界座標上の顔位置から、各人物のフレーム上の領域(人物領域)をバウンディングボックスとして取得する。バウンディングボックスとは、各フレーム上での位置(X,Y)と幅(W,H)の4パラメータで指定される矩形領域である。バウンディングボックスは、人物の身長を基準に前後左右数mの幅を持たせて人物を覆うように設定するものとする。   Next, in S1003, from the face position on world coordinates of each person acquired in S1002, an area (person area) on the frame of each person is acquired as a bounding box. The bounding box is a rectangular area specified by four parameters of the position (X, Y) and the width (W, H) on each frame. The bounding box is set so as to cover the person by giving a width of several meters in front and rear left and right with reference to the height of the person.

図4(a)は、図1(b)のフレームに対し、人物検出およびボール検出を行った結果を描画した図である。402がボール検出位置、403―409が、それぞれ人物A―Gの人物領域である。人物検出位置に対しバウンディングボックスが設定され、さらにボールの位置が示されている。   FIG. 4A is a drawing in which results of human detection and ball detection are performed on the frame of FIG. 1B. Reference numeral 402 denotes a ball detection position, and reference numerals 403 to 409 denote person areas of the persons A to G, respectively. A bounding box is set for the person detection position, and the position of the ball is further indicated.

続いて、元のフレーム(サイズ:1920×1080ピクセル)から人物領域を切り出し、一定サイズにリサイズする。人物領域は様々な大きさが存在するため元のフレームの人物領域が拡大される場合と縮小される場合とがある。拡大にはバイキュービック補間、縮小には最近傍補間を適用する。また、本実施形態ではリサイズ後の人物領域のサイズは256×256ピクセルとし、以後リサイズ後の人物領域を単に人物領域と呼ぶ。以上の処理をフレーム毎に行い、その結果フレーム毎の人物領域が取得される。   Subsequently, the person area is cut out from the original frame (size: 1920 × 1080 pixels) and resized to a fixed size. Since the human area has various sizes, the human area of the original frame may be enlarged or reduced. Bicubic interpolation is applied for enlargement, and nearest neighbor interpolation is applied for reduction. Further, in the present embodiment, the size of the human area after resizing is 256 × 256 pixels, and the human area after resizing is hereinafter simply referred to as a human area. The above process is performed for each frame, and as a result, the person area for each frame is acquired.

次に、S1004では、S1003で取得した人物領域を、ボールと人物領域との距離に基づき降順にソートする。ここで距離は、人物物体検出工程S1002で取得した人物とボールの世界座標上の3次元位置から得られる人物とボールとの間のユークリッド距離とする。   Next, in S1004, the person area acquired in S1003 is sorted in descending order based on the distance between the ball and the person area. Here, the distance is the Euclidean distance between the person and the ball obtained from the three-dimensional position on the world coordinates of the person and the ball acquired in the person object detection step S1002.

図4(b)に、S1003でのリサイズ、本工程でのソート処理を1フレーム分に対し行った結果を示す。502―508は、それぞれ人物A―Gのリサイズした人物領域である。図4(a)での様々な大きさの人物領域は均一の解像度にリサイズされ、ボールからの距離が最も遠い人物Gの領域502から最も近い人物Aの領域508まで降順にソートされる。この処理をフレーム毎に行い、その結果フレーム毎のソートされた人物領域が取得される。さらにフレーム毎のソート結果をフレーム順に連結し、1次元に並んだ人物領域の系列データを取得する。この際フレーム毎に人物の数が違う場合でも、フレーム順に連結する。この系列データを以後、人物領域系列とよぶ。   FIG. 4B shows the results of resizing in S1003 and sorting in this step for one frame. Reference numerals 502 to 508 denote the resized person areas of the persons A to G, respectively. Human regions of various sizes in FIG. 4A are resized to uniform resolution, and sorted in descending order from the region 502 of the person G farthest from the ball to the region 508 of the closest person A. This process is performed for each frame, and as a result, the sorted person area for each frame is acquired. Furthermore, the sorting results for each frame are connected in frame order, and series data of the person area arranged in one dimension is acquired. At this time, even if the number of persons is different for each frame, they are linked in the order of frames. This series data is hereinafter referred to as a person area series.

図5に、人物の数が異なる2フレーム分の人物領域をソートし連結した例を示す。図5(a)の601は1フレーム目に対応する時刻Iでのフレームであり、602、603、604は、それぞれ人物A、B、Cの人物領域である。図5(b)において、701は2フレーム目に対応する時刻IIでのフレームであり、702、703は、それぞれ人物A、Bの人物領域である。図5(a)の人物領域602と図5(b)の人物領域702は同一人物Aに対応し、図5(a)の人物領域603と図5(b)の人物領域703と同一人物Bに対応している。図5(a)では3人の人物A、B、Cが存在し、図5(b)には2人の人物A、Bが存在する。この場合、人物領域はフレーム毎に距離に基づきソートされ、1フレーム目の3人の人物領域の後、2フレーム目の2人の人物領域が連結される。結果、図5(c)に示す人物領域系列が得られる。   FIG. 5 shows an example in which person areas of two frames different in the number of persons are sorted and connected. In FIG. 5A, reference numeral 601 denotes a frame at time I corresponding to the first frame, and reference numerals 602, 603, and 604 denote person areas of persons A, B, and C, respectively. In FIG. 5B, 701 is a frame at time II corresponding to the second frame, and 702 and 703 are person areas of persons A and B, respectively. The person area 602 in FIG. 5 (a) and the person area 702 in FIG. 5 (b) correspond to the same person A, and the same person B as the person area 603 in FIG. 5 (a) and the person area 703 in FIG. It corresponds to In FIG. 5A, there are three persons A, B, and C, and in FIG. 5B, two persons A and B exist. In this case, the person area is sorted based on the distance for each frame, and the two person areas of the second frame are connected after the three person areas of the first frame. As a result, a person area sequence shown in FIG. 5 (c) is obtained.

図5(c)において、802、803、804はそれぞれ1フレーム目の人物C、人物B、人物Aの人物領域、805、806はそれぞれ2フレーム目の人物B、人物Aの人物領域である。人物領域系列(802〜806)は、このように1次元の系列データである。また、ここでは、ソートの基準を人物とボールの間のユークリッド距離にしているが、別の基準でソートを行ってもよい。例えば、人物検出結果に対しすべてのフレームで統一的な人物IDが与えられる場合、そのIDを昇順にソートしてもよい。   In FIG. 5C, reference numerals 802, 803, and 804 denote a person C and a person B and a person area of a person A in the first frame, respectively, and 805 and 806 denote a person area of the person B and a person A in the second frame. The human region series (802 to 806) is thus one-dimensional series data. Also, although the sorting criterion is the Euclidean distance between the person and the ball here, sorting may be performed on another criterion. For example, when a uniform person ID is given to all the frames for the person detection result, the IDs may be sorted in ascending order.

本実施形態では、S1006−S1009の工程は、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、ソフトマックス識別器を組み合わせたニューラルネットワークのネットワーク構造で実現される。以下では、畳み込みニューラルネットワーク(Convolutional neural network)をCNN、再帰型ニューラルネットワーク(Recurrent neural network)をRNNとも称する。また本実施形態では、RNNとして、RNNの一種であるLSTM(Long shortーterm memory)を用いる。またS1005では、再帰型ニューラルネットワークを制御する信号を作成する。   In the present embodiment, the processes of S1006-S1009 are implemented by a network structure of a neural network combining a convolutional neural network, a recursive neural network, and a softmax discriminator. In the following, a convolutional neural network is also referred to as CNN, and a recurrent neural network is also referred to as RNN. Further, in the present embodiment, a long short-term memory (LSTM) which is a type of RNN is used as the RNN. In S1005, a signal for controlling a recursive neural network is created.

S1006−S1009の工程を実行するニューラルネットワークのネットワーク構造の概要を図6に示す。まずこの図6を用いて、S1006−S1009の詳細について説明する。次に、S1005で作成する制御信号について、より具体的な事例に即して説明する。   An outline of a network structure of a neural network that executes the steps of S1006-S1009 is shown in FIG. First, the details of S1006-S1009 will be described using FIG. Next, the control signal generated in S1005 will be described based on a more specific example.

図6のネットワーク構造901は、入力902、CNN903、LSTM1(904)、LSTM2(905)、FC906、Softmax907の各モジュールを持つ。S1006で行う画像特徴量抽出処理はCNN903によって実現される。CNN903は、画像認識に用いられる多数の層から構成されるニューラルネットワークである。CNNの中間層は低次では線や点、パターンなどのプリミティブな幾何学的特徴量、高次では、パーツ、パーツを組み合わせたオブジェクトに対応する複雑な特徴量を抽出することで知られている。また大規模データで学習済みのCNNの中間層の特徴量を別の分類タスクに応用することで、高精度な分類が行えることが以下のDonahueらの論文で開示されている。
J Donahue,Y Jia,O Vinyals,J Hoffman,N Zhang,E Tzeng,T Darrell,T Darrell,“DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition”,arXiv2013
S1006では、S1004で作成した人物領域系列の各人物領域をCNN(903)に入力し、画像特徴量を取得する。ここでCNNの特徴量は、複数の中間層から特徴量を取得してもよいし、一部の中間層の特徴量のみを用いてもよい。
The network structure 901 of FIG. 6 has modules of an input 902, CNN 903, LSTM1 (904), LSTM 2 (905), FC 906, and Softmax 907. The image feature extraction processing performed in S1006 is realized by the CNN 903. The CNN 903 is a neural network composed of multiple layers used for image recognition. The lower layer CNN's middle layer is known to extract primitive geometric features such as lines, points and patterns in low order, and complex features in high order parts and objects that combine parts. . Also, it is disclosed in the following paper by Donahue et al. That high-precision classification can be performed by applying the feature quantities of the CNN middle layer already trained on large-scale data to another classification task.
J Donahue, Y Jia, O Vinyals, J Hoffman, N Zhang, E Tzeng, T Darrell, T Darrell, "DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition", arXiv 2013
In S1006, each person area of the person area series created in S1004 is input to the CNN (903), and an image feature amount is acquired. Here, as the feature amount of CNN, the feature amounts may be acquired from a plurality of intermediate layers, or only the feature amounts of some intermediate layers may be used.

次に、S1007での人物系列統合処理は、LSTM1(904)によって実現される。LSTM(Long shortーterm memory)とは再帰型ニューラルネットワークの一種である。再帰型ニューラルネットワークでは一般に、現在の入力ベクトルxと一期前の隠れ状態ベクトルht−1がネットワークに入力され、現在の隠れ状態ベクトルhが計算され出力される。LSTMでは、内部で入力、忘却、出力を制御するニューラルネットワークである。下記のDonahueらの論文で開示されている表記に従うと、(input gate, forget gate, output gate, input modulation gate)とセルユニット を持つ。そして、ある時刻の入力 と一期前の隠れ状態hにより入力x、忘却、出力を制御することで、短・長期の複雑な時系列パターンが識別できるようになっている。
Donahue J. et al., ”Long−term recurrent convolutional networks for visual recognition and description”, CVPR2015
入力x、隠れ状態h、セルcおよび入力、忘却、出力を制御するゲート出力i、f、oの更新は以下の式(1)のとおりである。
=σ(Wxi+Whit−1+b
=σ(Wxf+Whft−1+b
=σ(Wxo+WhOt−1+b
=tanh(Wxc+Whct−1+b
=f・ct−1+i・g
=o・tanh(c) ・・・(1)
ここで、σ()はシグモイド関数、tanh()は双曲線正接関数、gはセルへの入力、・は要素ごとの積を表す。また、Wxi、Whi、Wxf、Whf、b、b、b、bは、input gate, forget gate, output gate, input modulation gateの重みおよびバイアスである。
Next, person series integration processing in S1007 is realized by LSTM 1 (904). Long short-term memory (LSTM) is a type of recursive neural network. In a recursive neural network, in general, the current input vector xt and the hidden state vector ht-1 one period before are input to the network, and the current hidden state vector ht is calculated and output. LSTM is a neural network that controls input, forgetting, and output internally. According to the notation disclosed in the paper of Donahue et al. Below, it has (input gate, forget gate, output gate, input modulation gate) and cell unit. Then, by controlling the input x t , forgetting and output according to the input at a certain time and the hidden state h t one period before, it is possible to identify short and long complex time series patterns.
Donahue J. et al. , “Long-term recurring convolutional networks for visual recognition and description”, CVPR 2015
Input x t, hidden states h t, cell c t and the input, forgetting, gate output to control the output i t, f t, updates o t are shown in the following formula (1).
i t = σ (W xi x t + W hi h t-1 + b i )
f t = σ (W xf x t + W hf h t-1 + b f)
o t = σ (W xo x t + W hO h t-1 + b o )
g t = tanh (W xc x t + W hc h t-1 + b c)
c t = f t · c t -1 + i t · g t
h t = o t · tan h (c t ) (1)
Here, sigma () is the sigmoid function, tanh () is hyperbolic tangent function, g t is input to the cell, - represents the product of each element. In addition, W xi , W hi , W xf , W hf , b i , b f , b o , b c are weights and biases of the input gate, the forget gate, the output gate, and the input modulation gate.

上記LSTMは、2つの外部からの制御が可能な状態(以下、制御状態)を持つ。本実施形態では、この2つの制御状態を、“更新”と“リセット”と呼ぶ。   The LSTM has a state in which two external controls are possible (hereinafter referred to as a control state). In this embodiment, these two control states are referred to as "update" and "reset".

式(1)のように機能させる場合を、本実施形態ではLSTMの“更新”とする。そして、“リセット”は、外部からの信号によってforget gateの出力を強制的にf=0とすることで実現される、
=σ(Wxi+Whit−1+b
=σ(Wxo+WhOt−1+b
=tanh(Wxc+Whct−1+b
=i・g
=o・tanh(c) ・・・(2)
となる制御状態とする。
In the present embodiment, the case of functioning as the equation (1) is referred to as "update" of LSTM. And "reset" is realized by forcing the output of the forge gate to f t = 0 by an external signal.
i t = σ (W xi x t + W hi h t-1 + b i )
o t = σ (W xo x t + W hO h t-1 + b o )
g t = tanh (W xc x t + W hc h t-1 + b c)
c t = i t · g t
h t = o t · tan h (c t ) (2)
The control state is

S1004で作成された人物領域系列は、CNN903を介して特徴量(人物特徴量)が抽出されLSTM1(904)に入力される。LSTM1(904)には、再帰的に人物特徴量が入力され、隠れ状態が更新される。またフレーム毎の系列の初期に制御状態を“リセット”にし、それ以外では“更新”に切り替え、フレーム毎の人物特徴量が統合される。この制御状態の切り替えについてはより具体的な事例に基づき後述する。   From the person area sequence created in S1004, the feature amount (person feature amount) is extracted via the CNN 903 and input to the LSTM1 (904). A person feature amount is recursively input to the LSTM 1 (904), and the hidden state is updated. Further, the control state is set to "reset" at the beginning of the series for each frame, and switched to "update" otherwise, and the person feature quantities for each frame are integrated. The switching of the control state will be described later based on more specific cases.

次に、S1008での時系列統合処理は、LSTM2(905)によって実現される。LSTM2(905)は、“更新”、“リセット”の他にもう一つの制御状態である“保持”を持つ。式(1)のLSTMの更新に対し、forget gate, input gate, output gateの各値を強制的にf=1、i=0、o=1とすることで、
=0
=1
=1
=tanh(Wxc+Whct−1+b
=f・ct−1+i・g
=o・tanh(c) ・・・(3)
となり、式(3)では、LSTMへの入力に関わらず、
=ct−1
=tanh(ct−1
となる。これは、隠れ状態h、セルcが如何なる入力に対しても変化しない状態である。本実施形態では、これをLSTMの3つ目の制御状態として“保持”とする。
Next, the time series integration process in S1008 is realized by LSTM2 (905). In addition to "update" and "reset", LSTM2 (905) has another control state, "hold". To update LSTM of formula (1), by a forget Gate, input The Gate, Forcing the values of output gate f t = 1, i t = 0, o t = 1,
i t = 0
f t = 1
o t = 1
g t = tanh (W xc x t + W hc h t-1 + b c)
c t = f t · c t -1 + i t · g t
h t = o t · tan h (c t ) (3)
In equation (3), regardless of the input to LSTM,
c t = c t -1
h t = tan h (c t -1 )
It becomes. This is the state hidden state h t, cell c t does not change for any input. In this embodiment, this is set as "holding" as the third control state of LSTM.

本工程では、LSTM1(904)が人物特徴量の統合を行う間、LSTM2(905)を“保持”に切り替えることで、状態(隠れ状態h、セルc)を変化させないようにする。そしてフレーム毎の人物特徴量の統合の最後で、“更新”に切り替えることで、フレーム内で再帰的に統合された人物特徴量を、フレーム毎に入力として受け取り、状態を更新し、時間的な統合を行う。制御状態の切り替えについては、より具体的な事例に基づき後述する。 In this process, while LSTM 1 (904) performs integration of person feature quantities, the state (hidden state h t , cell c t ) is not changed by switching LSTM 2 (905) to “hold”. Then, at the end of the integration of the person feature amounts for each frame, by switching to "update", the person feature amount recursively integrated in the frame is received as an input for each frame, and the state is updated. Do integration. The switching of the control state will be described later based on more specific cases.

最後に、S1009での行動ラベル識別処理は、FC906およびSoftmax(907)によって実現される。FC906は、LSTM2(905)の隠れ状態hに対し、重み行列を内積し、行動ラベルのラベル数に対応する数のスコア(内積スコア)を得る。さらに、Softmax(907)ではSoftmax関数により、内積スコアを確率(0以上、1以下の実数)に変換する。以上の処理により行動ラベルに対応する確率で表現された識別スコアを得る。 Finally, the action label identification process in S1009 is realized by FC 906 and Softmax (907). The FC 906 inner multiplies the weight matrix with respect to the hidden state h t of the LSTM 2 (905), and obtains scores (inner product score) of the number corresponding to the number of labels of the action label. Furthermore, in Softmax (907), the inner product score is converted to a probability (a real number of 0 or more and 1 or less) by the Softmax function. The identification score expressed by the probability corresponding to the action label is obtained by the above processing.

以上で、図6を参照して、画像特徴量抽出処理(S1006)、人物系列統合処理(S1007)、時系列統合処理(S1008)、行動ラベル識別処理(S1009)の各処理の詳細について説明した。次に、統合制御信号作成処理(S1005)で作成する制御信号について、より具体的な事例に即して説明する。S1005では、本実施形態が提示する複数人物の個別動作の統合および時系列統合を実現するため、人物系列統合処理(S1007)を担うLSTM1(904)と時系列統合処理(S1008)を担うLSTM2(905)とを制御する信号の作成を行う。   The details of each process of the image feature extraction process (S1006), the person series integration process (S1007), the time series integration process (S1008), and the action label identification process (S1009) have been described above with reference to FIG. . Next, control signals generated in the integrated control signal generation process (S1005) will be described based on more specific cases. In S1005, in order to realize integration and time-series integration of individual motions of a plurality of persons presented in the present embodiment, LSTM1 (904) responsible for person series integration processing (S1007) and LSTM2 responsible for time series integration processing (S1008) 905) and creating a control signal.

図7に、S1004で作成した人物領域系列を、図6に示したネットワーク構造のニューラルネットワークに入力した場合の例を示す。ここで、1002は時刻Iでの人物Cの人物領域、1003は時刻Iでの人物Bの人物領域、1004は時刻Iでの人物Aの人物領域、1005は時刻IIでの人物Bの人物領域、1006は時刻IIでの人物Aの人物領域である。これらの人物領域は、図5(c)における各人物領域と同一である。また1007はCNN、1008は1層目のLSTM、1009は2層目のLSTM、1010はFC、1011はSoftmaxである。1007から1011までの各モジュールは、図9における903から907までの各モジュールと同一である。   FIG. 7 shows an example of the case where the person area sequence created in S1004 is input to the neural network of the network structure shown in FIG. Here, 1002 is a person area of person C at time I, 1003 is a person area of person B at time I, 1004 is a person area of person A at time I, and 1005 is a person area of person B at time II , 1006 is the person area of the person A at time II. These person areas are the same as the person areas in FIG. 5 (c). 1007 is CNN, 1008 is a first layer LSTM, 1009 is a second layer LSTM, 1010 is FC, and 1011 is Softmax. The modules 1007 to 1011 are the same as the modules 903 to 907 in FIG.

また図7は、再帰型ニューラルネットワークを時間方向に展開した図であり、鉛直方向の線1012がユニット間の信号及び誤差の伝搬経路を表し、水平方向の線1013が時間方向の信号及び誤差の伝搬経路を表す。S1004で作成された人物領域系列(1002から1006)は、系列の左から順番にCNN1007に入力される。   FIG. 7 is a diagram in which the recursive neural network is expanded in the time direction, and the vertical line 1012 represents the propagation path of the signal and error between units, and the horizontal line 1013 is the signal and error in the time direction. Represents a propagation path. The person area series (1002 to 1006) created in S1004 are input to the CNN 1007 in order from the left of the series.

複数フレームにわたる人物領域系列(図7の1002〜1006)に対し、2つのLSTM(1008、1009)での人物系列の統合と時系列の統合とを実現する。そのため、LSTMの制御状態(“更新”、“保持”、“リセット”)を、制御信号によって切り替える。図18(a)に、図7の1002〜1006の人物領域系列に関し行う制御状態を示す。   With respect to person area series (1002 to 1006 in FIG. 7) extending over a plurality of frames, integration of person series and integration of time series by two LSTMs (1008, 1009) are realized. Therefore, the control state (“update”, “hold”, “reset”) of the LSTM is switched by the control signal. FIG. 18A shows a control state performed on the person area series 1002 to 1006 in FIG. 7.

系列の初期(n=1)では、2つのLSTMをリセットにする。LSTM1ではフレーム内の人物特徴量の統合を行い、LSTM2ではLSTM1で統合した人物特徴量をフレーム毎に統合する。この処理のため、n=2でLSTM1を“更新”、LSTM2を“リセット”にし、n=3でLSTM1を“更新”、LSTM2を“リセット”にする。これにより、LSTM1で1フレーム目の人物特徴量の統合、LSTM2でLSTM1によって統合された1フレーム目の人物特徴量をn=3のみ入力として受け取る。n=1、n=2でLSTM2を“リセット”としたが、これらは最初の人物を統合するn=3で“リセット”することが重要であり、n=1、n=2でLSTM2の制御状態は何でもよい。次にn=4で、LSTM1を再び“リセット”し、LSTM2を保持にする。n=5でLSTM1、LSTM2を共に“更新”にしすることで、LSTM1により2フレーム目の人物特徴量の統合、LSTM2で、統合した2フレーム目の人物特徴量をn=5に入力として受け取とる。結果LSTM2では、n=3(1フレーム目)の入力とn=5(2フレーム目)での入力が統合される(時間方向の統合)。   At the beginning of the sequence (n = 1), reset two LSTMs. The LSTM 1 integrates human feature quantities in a frame, and the LSTM 2 integrates human feature quantities integrated in the LSTM 1 for each frame. For this process, n = 2 makes LSTM1 "update", LSTM2 "reset", n = 3 makes LSTM1 "update", and LSTM2 "reset". As a result, integration of the person feature amount of the first frame by LSTM1 and the person feature amount of the first frame integrated by LSTM1 by LSTM2 are received as n = 3 only. Although n = 1 and n = 2 set LSTM2 to "Reset", it is important to integrate the first person with n = 3 and "Reset", n = 1 and n = 2 to control LSTM 2 The state may be anything. Next, at n = 4, "re-set" LSTM1 again and hold LSTM2. By setting both LSTM1 and LSTM2 to “update” at n = 5, the person feature of the second frame is integrated by LSTM 1 and the person feature of the integrated second frame is received as n = 5 by LSTM 2 . As a result, in the case of LSTM2, the input at n = 3 (first frame) and the input at n = 5 (second frame) are integrated (integration in time direction).

図8に、図7のネットワークに対し、図18(a)の制御を行った場合の信号および誤差の伝搬経路(1123)を示す。1102〜1106の人物領域は図7における1002〜1006と同一である。CNN、LSTM1、LSTM2、FC、Softmaxは、図7におけるCNN1007、LSTM1(1008)、LSTM2(1009)、FC1010、Softmax1011と同一である。LSTM1およびLSTM2に関し、“更新”を白背景の矩形(1116等)、“リセット”を斜線パターンの矩形(1109等)、“保持”をドットパターンの矩形(1114等)で示した。   FIG. 8 shows propagation paths (1123) of signals and errors when the control of FIG. 18 (a) is performed on the network of FIG. The person area 1102 to 1106 is the same as 1002 to 1006 in FIG. CNN, LSTM1, LSTM2, FC, Softmax are the same as CNN 1007, LSTM1 (1008), LSTM 2 (1009), FC 1010, Softmax 1011 in FIG. As for LSTM1 and LSTM2, “update” is indicated by a white background rectangle (1116 etc.), “reset” by a hatched pattern rectangle (1109 etc.), and “hold” by a dot pattern rectangle (1114 etc.).

1109が図18(a)のn=1におけるLSTM1の“リセット”、1112が図18(a)のn=1におけるLSTM2の“リセット”である。1110が図18(a)のn=2におけるLSTM1の“更新”、1113が図18(a)のn=2におけるLSTM2の“リセット”である。1124が図18(a)のn=3におけるLSTM1の“更新”、1116が図18(a)のn=3におけるLSTM2の“リセット”である。1111が図18(a)のn=4におけるLSTM1の“リセット”、1114が図18(a)のn=4におけるLSTM2の“保持”である。1125が図18(a)のn=5におけるLSTM1の“更新”、1117が図18(a)のn=5におけるLSTM2の“更新”である。   The reference numeral 1109 denotes "reset" of the LSTM 1 at n = 1 in FIG. 18A, and 1112 denotes the "reset" of the LSTM 2 at n = 1 in FIG. 18A. Reference numeral 1110 denotes “update” of LSTM 1 at n = 2 in FIG. 18A, and reference numeral 1113 denotes “reset” of LSTM 2 at n = 2 in FIG. 18A. 1124 is “update” of LSTM 1 at n = 3 in FIG. 18A, and 1116 is “reset” of LSTM 2 at n = 3 in FIG. 18A. In FIG. 18A, 1111 is a “reset” of the LSTM 1 at n = 4, and 1114 is a “hold” of the LSTM 2 at n = 4 in FIG. 18A. 1125 is "update" of LSTM 1 at n = 5 in FIG. 18A, and 1117 is "update" of LSTM 2 at n = 5 in FIG. 18A.

LSTM1では、“リセット”1109、“更新”1110、“更新”1124により、1フレーム目(時刻I)の人物特徴量が統合される。次に“リセット”1111により一旦内部状態をリセットし、再び“更新”1125をさせることで、1127で信号と誤差を伝搬させず、2フレーム目(時刻II)の人物特徴量のみが統合される。LSTM2では、“リセット”1112、“リセット”1113、“リセット”1116とし、n=3で1フレーム目の人物特徴量が統合されたLSTM1(1124)からのみ信号を受け取るようにする。次に“保持”1114を設定し、内部状態を不変にして、再び“更新”1117を設定する。こうすることで、1フレーム目の統合された人物特徴量を受け取ったLSTM2(1116)の信号と、2フレーム目の人物特徴量が統合されたLSTM1(1125)の信号を受け取り、時間方向の統合を行う。   In the LSTM 1, the person feature value of the first frame (time I) is integrated by “reset” 1109, “update” 1110, and “update” 1124. Next, the internal state is temporarily reset by "Reset" 1111 and "Update" 1125 is performed again, so that only the person feature value of the second frame (time II) is integrated without propagating the signal and error at 1127. . In LSTM2, “reset” 1112, “reset” 1113, and “reset” 1116 are made to receive signals only from LSTM 1 (1124) in which the person feature value of the first frame is integrated when n = 3. Next, “hold” 1114 is set, the internal state is made unchanged, and “update” 1117 is set again. By doing this, the signal of LSTM2 (1116) that receives the integrated human feature quantity of the first frame and the signal of LSTM1 (1125) where the human feature quantity of the second frame is integrated are integrated in the time direction I do.

各フレームのLSTM2の内部状態は、FCとSoftmax(1121、1122)に伝搬し、識別スコアが出力される。Softmaxの網掛けパターンの矩形(1118、1119、1120)は、誤差を評価しない“無視”をしめすが、これに関しては、学習時の処理の中で詳細に説明する。   The internal state of LSTM 2 of each frame is propagated to FC and Softmax (1121, 1122), and the identification score is output. Softmax's hatched pattern rectangles (1118, 1119, 1120) indicate "ignore" which does not evaluate the error, but this will be described in detail in the process of learning.

図9に、図8で示した制御を実施した場合のネットワークと等価の構造を持つネットワークの図を示す。1202〜1206の人物領域は図7における1002〜1006と同一である。またCNN(1207)、LSTM1(1208、1209)、LSTM2(1210)、FC(1211)、Softmax(1212)は、図7における同名の要素と同一である。   FIG. 9 shows a diagram of a network having a structure equivalent to the network when the control shown in FIG. 8 is performed. Person areas 1202 to 1206 are the same as 1002 to 1006 in FIG. Further, CNN (1207), LSTM1 (1208, 1209), LSTM2 (1210), FC (1211), and Softmax (1212) are the same as the elements of the same names in FIG.

1フレーム目(時刻I)の人物C領域1202、人物B領域1203、人物A領域1204は、CNNを介してLSTM1で統合され、1フレーム目の人物特徴量を統合したLSTM1の内部状態はLSTM2(1210)に入力される。続いてLSTM1は内部状態がリセットされ、新たに2フレーム目(時刻II)の人物B領域1205と人物A領域1206がLSTM1で統合され、2フレーム目の人物特徴量を統合したLSTM1の内部状態がLSTM2(1213)に入力される。LSTM2では、1フレーム目のLSTM2の内部状態とLSTM1からの入力を受け取り、1フレーム目の情報と2フレーム目の情報を統合する。各フレームのLSTM2の内部状態は、FCを経由してSoftmaxで行動ラベルの識別スコアを出力する。以上のように、図7に示す構成のネットワークと図18(a)に示す制御により、図9のネットワークが実行される。   Person C area 1202, person B area 1203 and person A area 1204 in the first frame (time I) are integrated by LSTM1 through CNN, and the internal state of LSTM1 obtained by integrating the person feature quantities of the first frame is LSTM2 ( 1210). Subsequently, the internal state of LSTM1 is reset, and person B area 1205 and person A area 1206 of the second frame (time II) are newly integrated by LSTM1, and the internal state of LSTM 1 is obtained by integrating the person feature value of the second frame. It is input to LSTM2 (1213). In LSTM2, the internal state of LSTM2 in the first frame and the input from LSTM1 are received, and the information in the first frame and the information in the second frame are integrated. The internal state of LSTM2 of each frame outputs the identification score of the action label by Softmax via FC. As described above, the network shown in FIG. 9 is executed by the network shown in FIG. 7 and the control shown in FIG. 18 (a).

以上が動画取得工程S1001で得られた30フレーム分の動画を複数人の動作に基づき行動認識する、認識時の処理である。この後、次の30フレームに対して同様に認識時の処理を実行してもよいが、いくつかのフレームが重複するように認識時の処理を実行してもよい。すなわち、ある認識時の処理によって、フットサル動画の1フレーム目から30フレーム目までの識別を実行した後、次に15フレーム目から45フレーム目までを処理するようにしてもよい。その場合、あるフレームの複数回の結果を平均して最終結果を得る。このように冗長に認識処理することで、あるフレームを異なる系列で複数回認識することになり、結果がよりロバストになる。   The above is the process at the time of recognition, which recognizes the motion of 30 frames obtained in the moving image acquisition step S1001 based on the motion of a plurality of people. After this, the process at the time of recognition may be similarly performed on the next 30 frames, but the process at the time of recognition may be performed such that several frames overlap. That is, after the identification from the first frame to the 30th frame of the futsal moving image is performed by a certain recognition process, the 15th to 45th frames may be processed next. In that case, multiple results of a certain frame are averaged to obtain the final result. By redundantly recognizing in this way, a frame is recognized multiple times by different sequences, and the result is more robust.

次に、人物系列統合工程で用いる人物系列統合部および時系列統合工程で用いる時系列統合部、行動ラベル識別工程で用いる、行動ラベル識別部の学習方法について説明する。   Next, a learning method of the action label identification unit used in the person series integration unit used in the person series integration process, the time series integration unit used in the time series integration process, and the action label identification process will be described.

図10は、本実施形態における学習装置5000の機能構成を示す図である。学習装置5000は、人物領域抽出部5001、人物領域ソート部5002、統合制御信号学習ラベル作成部5003、パラメータパラメータ最適化部5004を有する。さらに学習装置5000は、記憶部として、学習データ保持部5005、ネットワークパラメータ保持部5006を有する。   FIG. 10 is a diagram showing a functional configuration of the learning device 5000 in the present embodiment. The learning device 5000 includes a person area extraction unit 5001, a person area sorting unit 5002, an integrated control signal learning label generation unit 5003, and a parameter parameter optimization unit 5004. The learning device 5000 further includes a learning data holding unit 5005 and a network parameter holding unit 5006 as storage units.

図11は、本実施形態における学習に関する処理の一例を示すフローチャートである。ここで各工程の概要及び図10に示した各部の機能について説明する。   FIG. 11 is a flowchart showing an example of processing related to learning in the present embodiment. Here, the outline of each process and the function of each unit shown in FIG. 10 will be described.

S5001では、人物領域抽出部5001が、学習データ保持部5005に記憶されている動画および人物検出結果から動画を構成するフレーム内に存在する人物の領域を抽出する。この処理は本実施形態の認識時の処理で説明したS1003と同様の人物領域抽出処理である。また、学習データ保持部5005に記憶されているデータの詳細は、後述する。   In S5001, the person area extraction unit 5001 extracts the area of the person present in the frame making up the moving image from the moving image and the person detection result stored in the learning data holding unit 5005. This process is the same person area extraction process as S1003 described in the recognition process of this embodiment. The details of the data stored in the learning data storage unit 5005 will be described later.

S5002では、S5001で設定した人物領域を均一にリサイズし、一定の基準でソートする。本工程は、本実施形態の認識時の処理で説明したS1004の人物領域ソート処理と同様であるため詳細な説明は省略する。   In S5002, the person area set in S5001 is uniformly resized, and sorting is performed according to a certain standard. Since this process is the same as the person area sorting process of S1004 described in the process at the time of recognition of the present embodiment, the detailed description will be omitted.

S5003では、統合制御信号学習ラベル作成部5003が、S5001で検出したフレーム内に存在する人物の数とフレームに付与された行動ラベルに基づき、制御信号および学習ラベルを作成する。これらは、認識時の処理で用いる画像特徴量抽出部1006、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009で用いるニューラルネットワークのパラメータを学習するために用いられる。   In S5003, the integrated control signal learning label generation unit 5003 generates a control signal and a learning label based on the number of persons present in the frame detected in S5001 and the action label attached to the frame. These are used to learn the parameters of the neural network used in the image feature quantity extraction unit 1006, the person series integration unit 1007, the time series integration unit 1008, and the action label identification unit 1009 used in the process of recognition.

S5004では、S5002で作成した人物系列を入力とし、統合制御信号学習ラベル作成工程S5003で作成した学習ラベルを目標値として、ニューラルネットワークのパラメータの最適化を実行する。   In S5004, optimization of parameters of the neural network is executed with the person series created in S5002 as an input and the learning label created in the integrated control signal learning label creating step S5003 as a target value.

以上のS5001−S5004は、予め設定したイタレーション数Nだけ繰り返される。最終的なパラメータおよびイタレーションの途中でのパラメータは、ネットワークパラメータ保持部5006に記憶される。   The above S5001 to S5004 are repeated by the number N of iterations set in advance. The final parameters and the parameters in the middle of the iteration are stored in the network parameter storage unit 5006.

次に図10に示したフローチャートの内、認識時の処理と差異のある、統合制御信号学習ラベル作成(S5003)とパラメータ更新(S5004)について、より具体的な内容について述べる。また学習データ保持部5005に記憶されているデータについても説明する。   Next, more specific contents of integrated control signal learning label creation (S5003) and parameter update (S5004) which are different from the processing at the time of recognition in the flowchart shown in FIG. 10 will be described. Also, data stored in the learning data storage unit 5005 will be described.

学習データ保持部5005には、本実施形態で認識するフットサルの行動ラベルに対応する動画と正解ラベル(行動ラベル)、および動画中の各フレームの人物検出結果、ボール検出結果が保存されている。行動ラベルは“パス”,“シュート”,“ドリブル”,“キープ”,“クリアー”である。動画は任意の複数フレームで構成され、正解ラベルはフレーム毎に付与されているものとする。   The learning data holding unit 5005 stores a moving image and a correct answer label (action label) corresponding to the action label of the futsal recognized in the present embodiment, a person detection result of each frame in the moving image, and a ball detection result. The action labels are "pass", "shoot", "dribble", "keep" and "clear". It is assumed that the moving image is composed of arbitrary plural frames, and the correct answer label is attached to each frame.

S5001では、ある行動ラベルが付与された任意のフレーム数で構成される動画から、ランダムに連続する30フレームを選択し、その各フレームの人物検出結果を用い、人物領域の抽出を行う。人物領域の抽出は、認識時の処理におけるS1003と同様の処理である。   In S5001, 30 consecutive frames are selected at random from a moving image composed of an arbitrary number of frames to which a certain action label is attached, and a person area is extracted using a person detection result of each frame. Extraction of a person area is processing similar to S1003 in processing at the time of recognition.

S5003では、本実施形態の認識時の処理におけるS1005で行うLSTMの制御信号の作成に加え、CNN、LSTM、Softmax識別器を学習する学習ラベルの作成を行う。LSTMの制御信号の作成は、S1005での処理と同様の処理であるため、ここでは詳細な説明は省略する。この処理の結果、図18(a)と同様の統合制御信号が作成される。   In S5003, in addition to creation of the control signal of LSTM performed in S1005 in the processing at the time of recognition of this embodiment, creation of a learning label for learning CNN, LSTM, and Softmax discriminator is performed. The generation of the control signal of LSTM is the same processing as the processing in S1005, and thus the detailed description is omitted here. As a result of this process, an integrated control signal similar to that shown in FIG. 18A is created.

Softmax識別器には、作成されたLSTMの制御信号のうちLSTM2を“更新”させる信号発生時に、動画に付与された学習ラベルを与える。それ以外の場合は、学習ラベルに“無視”ラベルを設定する。“無視”ラベルは、それが設定された場合、Softmaxの損失関数を評価しないようにする特別なラベルである。   The Softmax discriminator is provided with a learning label attached to the moving image at the time of generation of a signal for “updating” LSTM 2 among the generated control signals of LSTM. Otherwise, set the "ignore" label on the learning label. The "ignore" label is a special label that prevents Softmax's loss function from being evaluated if it is set.

図8の上部に示したように、Softmax識別器には、時系列統合を実行する時刻I人物Aの人物領域(1104)および時刻II人物Aの人物領域(1106)を入力する際に学習ラベルを与え(1121、1122)る。また、それ以外のときは、“無視”ラベルを与える(1117)。   As shown in the upper part of FIG. 8, when the softmax discriminator inputs the person area (1104) of person A at time I and the person area (1106) of person A at time II to execute time series integration, learning labels (1121, 1122). Otherwise, the "ignore" label is given (1117).

S5004では、パラメータ最適化部5004により、画像特徴量抽出部1006、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009に対応するCNN、LSTMとSoftmax識別器のパラメータ最適化を行う。   In step S5004, the parameter optimization unit 5004 performs parameter optimization of the CNN, LSTM, and Softmax discriminators corresponding to the image feature quantity extraction unit 1006, person series integration unit 1007, time series integration unit 1008, and action label identification unit 1009. .

ここでは、S5003で作成した統合制御信号により、LSTMをリセット、保持、通常状態のいずれかの制御状態に適宜制御した上で、同時に作成した学習ラベルをSoftmax識別器に与える。下記のGravesらの論文に記載のBPTT(Back Propegation Throuth Time)法を適用することで、パラメータの最適化を実行する。
A. Graves and J. Schmidhuber. “Framewise Phoneme Classification with Bidirectional LSTM Networks”. In Proc. International Joint Conference on Neural Networks IJCNN’05
Softmax識別器では、損失関数として交差エントロピー誤差を用い、無視ラベル以外のラベルが与えられた場合に損失関数を評価し、誤差を計算する。LSTMは、制御信号によって、リセット、保持、通常状態の3つの制御状態が切り替えられ、保持以外の場合にパラメータが更新される。CNNは、大規模データで学習済みのパラメータを初期値として用い、本工程にてファインチューニングが行われる。ただしCNNのファインチューニングは実施しなくても、本実施形態が実現する機能は大きく損なわれない。そのため、CNNのファインチューニングは省略してもよいものとする。省略する場合、CNNのパラメータは、大規模データで学習済みのパラメータに固定して用いる。
Here, according to the integrated control signal generated in S5003, the LSTM is appropriately controlled to any of the control state of reset, hold, or normal state, and the learning label generated simultaneously is given to the Softmax discriminator. Parameter optimization is performed by applying the Back Propagation Throut Time (BPTT) method described in Graves et al.
A. Graves and J. Schmidhuber. “Framewise Phoneme Classification with Bidirectional LSTM Networks”. In Proc. International Joint Conference on Neural Networks IJCNN'05
The Softmax discriminator uses the cross entropy error as a loss function, evaluates the loss function when a label other than the neglected label is given, and calculates the error. In the LSTM, three control states of reset, hold, and normal state are switched by a control signal, and parameters are updated in cases other than hold. In CNN, fine tuning is performed in this process using large-scale data and learned parameters as initial values. However, even if the CNN fine tuning is not performed, the functions realized by the present embodiment are not significantly impaired. Therefore, CNN fine tuning may be omitted. When omitted, the parameters of CNN are fixed to the learned parameters for large scale data.

本実施形態では、スポーツの中で、サッカー、フットサル、ラグビーでのプレイの認識を想定した複数人の個別行動で意味付けられる行動ラベルの識別方法について説明した。   In the present embodiment, a method of identifying an action label to be added to by individual actions of a plurality of persons assuming recognition of play in soccer, futsal, rugby in sports has been described.

これらのスポーツにおいて、たとえばパス回しやタックルのような動作の識別は、選手個人の動作だけでは不十分だが、選手全員の動作を常に扱う必要はなく、ボールに関係する数人の選手の個別動作を扱う枠組みにより認識できると言える。このような複数人の協調的動作で意味付けられる行動の認識を、映像解析によって行う場合、非特許文献1と同様に、動画のフレーム毎の人数の変動に対応できる枠組みが必要である。また、サッカーやフットサル、ラグビーでの応用を想定すると、フレーム単位の時間分解能での認識が原理的に可能で、かつ複数人の個別動作を統合し、全体の行動を認識できる枠組みが求められる。さらに特徴量抽出、個別動作の統合、時系列の統合、行動ラベルの識別を実現する各部の全体を最適化することで、各手段を個別に最適化する以上の精度向上を図ることが期待出来る。   In these sports, for example, identification of movement such as pass turning and tackle is not sufficient for individual player's movement alone, but it is not necessary to always handle the movement of all players, and individual movement of several players related to the ball It can be said that it can be recognized by the framework that deals with In the case where such action recognition that is meaningfully performed by a plurality of cooperative actions is performed by video analysis, it is necessary to have a framework capable of coping with the change in the number of people for each frame of the moving image, as in Non-Patent Document 1. In addition, assuming applications in soccer, futsal and rugby, it is necessary in principle to be able to recognize with frame-based time resolution in principle, and to have a framework in which individual motions of multiple people can be integrated to recognize overall behavior. Furthermore, by optimizing the whole of each part that realizes feature value extraction, integration of individual actions, integration of time series, and identification of action labels, it can be expected to improve accuracy beyond optimizing each means individually. .

以上のように本実施形態によれば、行動認識装置1000は、複数人物の個別動作を表す特徴量を統合し、更にそれを時間的に統合し、行動ラベルを識別する。これにより、動画のフレーム毎の人数変動に対応し、フレーム単位での認識を行い、さらに複数人の個別動作を統合し全体の行動ラベルの識別を可能にする。さらに特徴量抽出、個別動作の統合、時系列の統合、行動ラベルの識別を実現するニューラルネットワークの全体を最適化することで、精度の良い行動ラベルの識別を可能にする。   As described above, according to the present embodiment, the behavior recognition apparatus 1000 integrates feature amounts representing individual motions of a plurality of persons, and further integrates them temporally to identify a behavior label. In this way, in response to the change in the number of people in each frame of the moving image, recognition is performed in frame units, and furthermore, individual actions of a plurality of people are integrated to enable identification of the entire action label. Furthermore, by optimizing the entire neural network that realizes feature value extraction, integration of individual actions, integration of time series, and identification of action labels, it is possible to identify action labels with high accuracy.

(実施形態1の派生の形態1)
第1の実施形態では、動画を構成する静止画の人物領域から画像特徴量を取得し、行動ラベルを識別する方法について説明した。しかし、第1の実施形態での問題設定で利用可能な情報は人物領域の画像特徴以外にも存在する。例えば、第1の実施形態では、S1002の人物物体検出で、ボール位置の検出を行っている。そこで、そのボールを中心とした任意の大きさの領域(以下、ボール領域と呼ぶ)を人物領域に加え利用してもよい。
(Form 1 of derivation of Embodiment 1)
In the first embodiment, the method of acquiring the image feature amount from the person area of the still image constituting the moving image and identifying the action label has been described. However, information available in the problem setting in the first embodiment exists in addition to the image feature of the person area. For example, in the first embodiment, detection of the ball position is performed in human object detection in S1002. Therefore, an area of an arbitrary size centered on the ball (hereinafter referred to as a ball area) may be added to the person area and used.

また、S1002の人物物体検出では、人物およびボールの3次元上の位置を取得している。その人物およびボールの座標値を人物領域またはボール領域の画像特徴量に連結して利用してもよい。人物領域に加え、ボール領域を利用する場合、ある時刻、あるカメラで撮影されたフレームの人物検出結果の人物領域系列の終端にボール領域を加えればよい。例えば、図4(b)に示した人物領域ソート結果(501)に対し、終端にボール領域を加えた系列を作成する。異なる時刻のフレームに対しても同様に人物領域系列の終端にボール領域を加え、ネットワークに入力する部分領域の画像系列を作成すればよい。   Further, in the human object detection in S1002, the three-dimensional positions of the human and the ball are acquired. The coordinate values of the person and the ball may be used in connection with the image feature amount of the person area or the ball area. When using the ball area in addition to the person area, the ball area may be added to the end of the person area series of the person detection result of the frame taken by a certain camera at a certain time. For example, a series is created in which the ball area is added to the end of the person area sorting result (501) shown in FIG. 4 (b). Similarly, a ball area may be added to the end of the person area series for frames at different times to create an image series of partial areas to be input to the network.

第1の実施形態では、ネットワークに入力する人物領域系列は、図7の1002〜1006等で示したように、
{時刻I人物C領域,時刻I人物B領域,時刻I人物A領域,時刻II人物B領域,時刻II人物A}
である。ここで、中括弧で囲まれた系列“{x1, x2, x3, ..., xn}”は、ネットワークに入力する系列データを示す。人物領域に加えボール領域を利用する場合、ネットワークへの入力は、
{時刻I人物C領域、時刻I人物B領域、時刻I人物A領域、時刻Iボール領域、時刻II人物B領域、時刻II人物A、時刻IIボール領域}
となる。
In the first embodiment, as shown by 1002 to 1006 in FIG.
{Time I person C area, time I person B area, time I person A area, time II person B area, time II person A}
It is. Here, a sequence “{x1, x2, x3,..., Xn}” surrounded by braces indicates sequence data to be input to the network. When using the ball area in addition to the person area, the input to the network is
{Time I person C area, time I person B area, time I person A area, time I ball area, time II person B area, time II person A, time II ball area}
It becomes.

ボール領域が検出されないフレームである場合、ボール領域を無視して画像領域の系列を作成してもよい。または、ボール検出が成功した前後のフレームから線形補間等の補間処理を実行し、ボール位置を推定してもよいし、ボールが検出されないフレームを含む動画はそもそも認識対象から除外してもよい。   If the ball area is a frame not detected, the ball area may be ignored to create a sequence of image areas. Alternatively, interpolation processing such as linear interpolation may be performed from frames before and after successful ball detection to estimate the ball position, or a moving image including a frame in which no ball is detected may be excluded from the recognition target.

フットサル、サッカー、ラグビー等の様々なスポーツにおいて、ボールは一般に人物よりも高速に移動する。そのためボール検出は、一般的なフレームレートの動画を利用する場合、検出失敗が多くなる場合が多い。そして線形補間等の単純な補間では誤差が大きくなることが考えられる。そこで補間等に起因する誤差の影響を軽減させるために、抽出するボール領域を人物領域よりも広い領域にしてもよい。具体的には、第1の実施形態では、人物領域を2−4m程度の領域と設定したが、それに対しボール領域は5−10m程度の広範囲から取得するようにする。このようにすれば、ボール検出に誤差があってもボール領域内にボールが含まれる確率が増える。   In various sports, such as futsal, soccer, rugby, balls generally move faster than people. Therefore, in the case of using a general frame rate moving image for ball detection, detection failures often increase. And in simple interpolations, such as linear interpolation, it is possible that an error becomes large. Therefore, in order to reduce the influence of an error caused by interpolation or the like, the ball area to be extracted may be a wider area than the human area. Specifically, in the first embodiment, the person area is set to an area of about 2 to 4 m, while the ball area is acquired from a wide range of about 5 to 10 m. In this way, even if there is an error in ball detection, the probability that the ball is included in the ball area increases.

(実施形態1の派生の形態2)
第1の実施形態では、動画を構成する静止画の人物領域から画像特徴量を取得し、行動ラベルを識別する方法について説明した。さらに第1の実施形態の派生の形態1で、ボール領域を人物領域に連結し、ボールと人物の領域から行動ラベルを識別する方法について説明した。本実施形態では、画像の他に画像に対応付けられるメタデータを利用する方法について述べる。
(Modified form 2 of Embodiment 1)
In the first embodiment, the method of acquiring the image feature amount from the person area of the still image constituting the moving image and identifying the action label has been described. Furthermore, in the first modification of the first embodiment, the method of connecting the ball area to the person area and identifying the action label from the ball and the area of the person has been described. In this embodiment, a method of using metadata associated with an image in addition to the image will be described.

第1の実施形態ですでに説明したように、ボールおよび人物は物体検出およびステレオ法により、3次元上の座標値が得られている。そのため人物およびボールの3次元上の座標値を、人物領域またはボール領域の画像特徴量と共に利用することができる。その場合では、第1の実施形態ではCNNによって実現した画像特徴抽出部1006の後段で、画像特徴量とこれらの座標値を連結し、人物系列統合部1007に入力するようにすればよい。   As already described in the first embodiment, the ball and the person obtain coordinate values in three dimensions by object detection and stereo method. Therefore, the three-dimensional coordinate values of the person and the ball can be used together with the image feature amount of the person area or the ball area. In such a case, the image feature quantities and their coordinate values may be connected at the subsequent stage of the image feature extraction unit 1006 implemented by CNN in the first embodiment, and may be input to the person series integration unit 1007.

図12に、人物の画像領域と3次元上の座標値を利用した場合のネットワーク構造の例を示す。1702、1704、1706は図7における1002、1003、1004と同一である。1703、1705、1707は、それぞれ人物A、人物B、人物Cの座標データを表す。CNN1708、LSTM1(1710)、LSTM2(1711)、FC1712、Softmax1713は、図6におけるCNN90)、LSTM1(904)、LSTM2(905)、FC906、Softmax907と同一である。Concat1709は、連結モジュールである。   FIG. 12 shows an example of a network structure in the case of using an image area of a person and three-dimensional coordinate values. 1702, 1704 and 1706 are the same as 1002, 1003 and 1004 in FIG. Reference numerals 1703, 1705, and 1707 denote coordinate data of the person A, the person B, and the person C, respectively. CNN 1708, LSTM 1 (1710), LSTM 2 (171 1), FC 1712 and Softmax 1713 are the same as CNN 90), LSTM 1 (904), LSTM 2 (905), FC 906 and Softmax 907 in FIG. Concat 1709 is a connection module.

ここで座標データ(1703、1705、1707)は、人物の3次元座標上の位置(X,Y,Z)の他、ボールからの距離、カメラからの距離を利用して計算してもよい。さらに前時刻のデータも利用して計算される速度や加速度、そしてチームIDなどのその他のメタデータ等を使ってもよい。連結モジュール1709は、CNN1708によって抽出された画像特徴量と座標データを連結するモジュールである。この連結後のデータがLSTM1(1710)に入力される。この連結モジュール1709は、このように2つの特徴量を単純に連結するだけでもよいが、重み行列を内積し、次元をより低次元に削減するようにしてもよい。その場合のFCをConcat1709とLSTM1(1710)の間に追加し、第1の実施形態の学習時の処理で記述した手続きと同様に学習する。   Here, the coordinate data (1703, 1705, 1707) may be calculated using the distance from the ball or the distance from the camera in addition to the position (X, Y, Z) on the three-dimensional coordinate of the person. Furthermore, other metadata such as the speed and acceleration calculated using data of previous time and team ID may be used. The connection module 1709 is a module that connects the image feature quantity extracted by the CNN 1708 and the coordinate data. This concatenated data is input to LSTM 1 (1710). The connection module 1709 may simply connect two feature quantities in this way, but may inner-multiply a weight matrix to reduce the dimensions to lower dimensions. In this case, FC is added between Concat 1709 and LSTM 1 (1710), and learning is performed in the same manner as the procedure described in the learning process of the first embodiment.

また座標データは、第1の実施形態ではカメラ・キャリブレーションを行ったマルチカメラの多視点画像に対する物体検出結果にステレオ法を適用することで取得した。座標データの取得方法は、この他にもGPS(Global Positioning System)機器を選手に装着させ、取得してもよい。   In the first embodiment, the coordinate data is acquired by applying the stereo method to the object detection result for the multi-viewpoint image of the multi-camera on which the camera calibration has been performed. The coordinate data may be acquired by attaching a GPS (Global Positioning System) device to the player.

(実施形態1の派生の形態3)
第1の実施形態では、人物系列の統合と時系列の統合を行い、行動ラベルを識別する方法について説明した。その際、まず人物系列の統合を行い、時系列の統合を行うという順序で2つの統合を行ったが、その順番はこの限りではない。すなわち、まず時系列の統合を行い、次に人物系列の統合を行ってもよい。
(Form 3 of derivation of Embodiment 1)
In the first embodiment, the method of integrating the person series and integrating the time series to identify the action label has been described. At that time, two series of integration were performed in the order of first integrating the person series and then integrating the time series, but the order is not limited to this. That is, time series integration may be performed first, and then person series integration may be performed.

この場合、各人物毎にその人物が映る時刻をソートし、人物領域系列を作成する。図5(a)と図5(b)に示すように、時刻Iで人物A、B、Cの3名が存在し時刻IIで人物AとBの2名が存在する場合を再び考える。このとき、人物Cは、時刻Iにしか存在せず、人物Bは時刻I、IIとも存在し、人物Aも同じく時刻I、IIともに存在するため、ソートした結果の人物領域系列は以下のようになる。
{時刻I人物C領域,時刻I人物B領域,時刻II人物B領域,時刻I人物A領域,時刻II人物A}
ここで、人物の順序は、ボールからの距離を降順にソートし(人物C、B、A)、時刻は昇順にソートした(時刻I、II)。これを、すでに図6に示したネットワークのInput(902)に入力し、LSTM11と2(904と905)を、時系列の統合、人物系列の統合という順に統合するため制御する。このときのLSTM1とLSTM2制御状態は図18(b)のようになる。
In this case, the time when the person appears for each person is sorted to create a person area series. As shown in FIGS. 5A and 5B, consider again the case where there are three persons A, B and C at time I and two persons A and B at time II. At this time, person C is present only at time I, person B is present at both times I and II, and person A is also present at both times I and II. become.
{Time I person C area, time I person B area, time II person B area, time I person A area, time II person A}
Here, the order of persons was sorted in descending order of the distance from the ball (persons C, B, A), and the times were sorted in ascending order (time I, II). This is input to the input (902) of the network already shown in FIG. 6, and LSTMs 11 and 2 (904 and 905) are controlled to be integrated in order of time series integration and person series integration. The control states of LSTM1 and LSTM2 at this time are as shown in FIG.

ここで、n=1でLSTM1では、時刻I人物C領域を統合するため“リセット”し、LSTM2でも“リセット”する。人物Cは時刻IIで存在しないのでLSTM2では、n=1で最初の人物が統合される。n=2、n=3で次の人物Bを統合する。そのためn=2でLSTM1を“リセット”し、LSTM2を“保持”にすることで、LSTM1で時刻Iの人物B領域を統合する。n=3でLSTM1、LSTM2を共に“更新”することで、LSTM1で時刻IIの人物Bを統合し、LSTM2で、時刻I、IIの人物B領域を統合した結果を受け取り、内部状態を更新する。次は、同様にn=4でLSTM1を“リセット”し、LSTM2を“保持”にすることで、LSTM1で時刻Iの人物A領域を統合する。n=5でLSTM1、LSTM2を共に“更新”することで、LSTM1で時刻IIの人物Aを統合し、LSTM2で、時刻I、IIの人物A領域を統合した結果を受け取り、内部状態を更新する。   Here, with n = 1, in LSTM1, “time reset” is performed in order to integrate the time I person C area, and “reset” is also performed in LSTM2. Since the person C does not exist at time II, in LSTM 2, the first person is integrated at n = 1. The next person B is integrated with n = 2 and n = 3. Therefore, LSTM1 is "reset" at n = 2 and LSTM2 is "held", whereby the person B area at time I is integrated in LSTM1. By “updating” both LSTM1 and LSTM2 with n = 3, the person B at time II is integrated in LSTM1, and the result of integrating the person B area in time I and II is received in LSTM2 and the internal state is updated . Next, similarly, “n” resets LSTM1 with n = 4, and “holds” LSTM2, thereby integrating the person A area at time I with LSTM1. By “updating” both LSTM1 and LSTM2 at n = 5, the person A at time II is integrated in LSTM1, and the result of integrating the person A area in time I, II is received in LSTM 2 and the internal state is updated. .

図13に、図6のネットワークに対し、人物領域系列を入力し、図18(b)の制御を行った場合の信号及び誤差の伝搬経路(1411)を示す。1402は図5(c)の802に示した時刻I人物A領域と同一である。1403は図5(c)の803に示した時刻I人物B領域と同一である。1404は図5(c)の805に示した時刻II人物B領域と同一である。1405は図5(c)の804に示した時刻I人物A領域と同一である。1406は図5(c)の806に示した時刻II人物A領域と同一である。CNN、LSTM1、LSTM2、FC、Softmaxは、図6におけるCNN(903)、LSTM1(904)、LSTM2(905)、FC(906)、Softmax(907)と同一である。   FIG. 13 shows propagation paths (1411) of signals and errors when the person area sequence is input to the network of FIG. 6 and the control of FIG. 18 (b) is performed. Reference numeral 1402 is the same as the time I person A area shown at 802 in FIG. 5C. Reference numeral 1403 is the same as the time I person B area shown at 803 in FIG. 5C. 1404 is the same as the time II person B area shown in 805 of FIG. 5C. 1405 is identical to the time I person A area shown at 804 in FIG. 5C. 1406 is the same as the time II person A area shown at 806 in FIG. 5C. CNN, LSTM1, LSTM2, FC, Softmax are the same as CNN (903), LSTM1 (904), LSTM2 (905), FC (906), Softmax (907) in FIG.

LSTM1およびLSTM2に関し、“更新”を白背景の矩形(1409)、“リセット”を斜線パターンの矩形(1407)、“保持”をドットパターンの矩形(1408)で示した。また網掛けパターンの矩形(1410)はSoftmaxの“無視”、白背景の矩形(1412)はSoftmaxの“通常動作”(“無視”でない動作)を示す。図18(b)の制御により、信号及び誤差が1411のように伝搬し、時系列統合および人物系列統合をこの順序で実現される。   As for LSTM1 and LSTM2, “update” is indicated by a white background rectangle (1409), “reset” is indicated by a hatched pattern rectangle (1407), and “hold” is indicated by a dot pattern rectangle (1408). Also, the shaded pattern rectangle (1410) indicates Softmax's "ignore", and the white background rectangle (1412) indicates Softmax's "normal operation" (an operation that is not "ignore"). By the control of FIG. 18B, the signal and the error are propagated as 1411, and time series integration and person series integration are realized in this order.

以上のように実施することで、人物系列および時系列の統合を任意の順序が行うことができる。   By carrying out as described above, integration of person series and time series can be performed in any order.

(実施形態2)
本実施形態では、複数のカメラで撮影されたフットサル動画に関し、同一の人物が複数のカメラで撮影された場合における行動認識を行う方法について述べる。その際、複数のカメラの同一人物領域の統合(視点統合)と、複数の人物の個別動作を表す人物特徴量の統合(対象物統合)と、時系列の統合との3種類の情報の統合を行う。
Second Embodiment
In the present embodiment, a method of performing action recognition in the case where the same person is photographed by a plurality of cameras will be described with respect to futsal moving images photographed by a plurality of cameras. At that time, integration of three types of information: integration of the same person area of a plurality of cameras (viewpoint integration), integration of person feature quantities representing individual motions of a plurality of persons (object integration), and integration of time series I do.

本実施形態で識別する行動ラベルは、第1の実施形態と同様に、“パス”,“シュート”,“ドリブル”,“キープ”,“クリアー”の5種類の行動ラベルとする。   Similar to the first embodiment, the action labels to be identified in this embodiment are five types of action labels: “pass”, “shoot”, “dribble”, “keep”, and “clear”.

また本実施形態では、第1の実施形態と同様に、フットサルコート周辺に配置した複数のカメラで撮影されたフットサル動画を用いる。図1は既に説明した図であるが、このカメラ配置の一例と2つのカメラで撮影された1フレームの例を説明する図である。   Further, in the present embodiment, as in the first embodiment, futsal moving images photographed by a plurality of cameras arranged around the futsal court are used. FIG. 1 is a diagram already described, but is a diagram for explaining an example of this camera arrangement and an example of one frame photographed by two cameras.

図2(b)は、本実施形態で説明する行動認識装置2000の機能構成を示す図である。本実施形態の行動認識装置2000は、マルチカメラ動画取得部2001、人物物体検出部2002、人物領域抽出部2003、人物領域ソート部2004、統合制御信号作成部2005、画像特徴量抽出部2006を有する。さらに、カメラ系列統合部2007、人物系列統合部2008、時系列統合部2009、行動ラベル識別部2010を有する。これらの各機能の詳細について、図3等を用いて以下に説明する。   FIG. 2B is a diagram showing a functional configuration of the behavior recognition apparatus 2000 described in the present embodiment. The action recognition apparatus 2000 according to this embodiment includes a multi-camera moving image acquisition unit 2001, a human object detection unit 2002, a human area extraction unit 2003, a human area sort unit 2004, an integrated control signal generation unit 2005, and an image feature quantity extraction unit 2006. . Further, it has a camera series integration unit 2007, a person series integration unit 2008, a time series integration unit 2009, and an action label identification unit 2010. Details of each of these functions will be described below with reference to FIG.

図3(b)は、本実施形態における認識時の処理の一例を示すフローチャートである。   FIG. 3B is a flowchart showing an example of processing at the time of recognition in the present embodiment.

S2001では、マルチカメラ動画取得部2001により、複数のカメラで撮影された、複数の静止画から成る動画のフレーム系列を取得する。S2002の人物物体検出及びS2003の人物領域抽出は、第1の実施形態における認識処理時のS1002及びS1003と同様の処理であるため説明を省略する。   In S2001, the multi-camera moving image acquisition unit 2001 acquires a frame sequence of moving images composed of a plurality of still images captured by a plurality of cameras. The human object detection in S2002 and the human area extraction in S2003 are the same processes as S1002 and S1003 at the time of recognition processing in the first embodiment, and therefore the description thereof is omitted.

また、人物領域ソート処理(S2004)、統合制御信号作成処理(S2005)、画像特徴量抽出処理(S2006)は、第1の実施形態における認識処理時のS1004−1006と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。   The person area sorting process (S2004), the integrated control signal creation process (S2005), and the image feature quantity extraction process (S2006) are the same processes as S1004-1006 at the recognition process in the first embodiment. However, since there is a difference, the difference will be described together with other processing.

S2007では、カメラ系列統合部2007により、複数のカメラで撮影された同一人物の人物領域の統合を行う。   In step S2007, the camera series integration unit 2007 integrates the person areas of the same person captured by a plurality of cameras.

また、人物系列統合処理(S2008)、時系列統合処理(S2009)、行動ラベル識別処理(S2010)は、第1の実施形態における認識処理時のS1007−1009と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。   The person series integration process (S2008), the time series integration process (S2009), and the action label identification process (S2010) are the same processes as S1007-1009 at the recognition process in the first embodiment. However, since there is a difference, the difference will be described together with other processing.

次に、図3(b)に示したフローチャートに従って、各処理のより具体的な内容について述べる。   Next, more specific contents of each process will be described according to the flowchart shown in FIG.

マルチカメラ動画取得工程S2001は、図1(a)のように配置したマルチカメラを用い、多視点の動画を取得する。各カメラの動画は、同期されているとする。図1(b)と(c)は、前述の通り同じ瞬間を撮影したカメラ103(図1(a)。以後カメラ1と呼ぶ)とカメラ104(図1(a)。以後カメラ2と呼ぶ)のフレームであるが、各カメラからはこのような同期されたフレームが取得されるとする。   A multi-camera moving image acquisition step S2001 acquires a multi-view moving image using a multi-camera arranged as shown in FIG. 1 (a). It is assumed that the videos of each camera are synchronized. 1 (b) and 1 (c) show the camera 103 (FIG. 1 (a); hereinafter referred to as camera 1) and the camera 104 (FIG. 1 (a); hereinafter referred to as camera 2) capturing the same moment as described above. It is assumed that such synchronized frames are acquired from each camera.

人物領域ソート工程S2004では、マルチカメラ動画取得工程S2001で取得された多視点動画の各フレーム中の人物領域のソートを行う。
本工程では、同一の人物が複数のフレームおよびカメラで撮影されており、例えば人物Aが、フレームIのカメラ1、カメラ2,カメラ4で撮影されている場合、人物Aの人物領域をカメラの番号順に並べた系列,
{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4}
をカメラ系列とする。
同様に人物Bについて、カメラ1とカメラ2で撮影され、
{フレームI人物Bカメラ1,フレームI人物Bカメラ2}
というカメラ系列が得られる場合、人物系列は,カメラ系列をネストした系列、
{{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4},{フレームI人物Bカメラ1,フレームI人物Bカメラ2}}
となる。
さらにフレームIIにおいて、人物Aがカメラ1,カメラ2で撮影され,人物Bがカメラ2,カメラ3で撮影された場合,時系列は、カメラ系列および人物系列をネストした系列,
{{{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4},{フレームI人物Bカメラ1,フレームI人物Bカメラ2}},{{フレームII人物Aカメラ1,フレームII人物Aカメラ2},{フレームII人物Bカメラ2,フレームII人物Bカメラ3}}}
となる。
人物領域のソートは、このように作成された、ネストされた時系列を1次元に並べることで実行される。
{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4,フレームI人物Bカメラ1,フレームI人物Bカメラ2,フレームII人物Aカメラ1,フレームII人物Aカメラ2,フレームII人物Bカメラ2,フレームII人物Bカメラ3}
図14にカメラ1およびカメラ2で撮影された同じ時刻の2つのフレームにおける人物検出の結果(図14(a),(b))と人物領域のソート結果(図14(c))を示す。ここで、1302は、カメラ1のフレーム上でのボール検出結果、1303―1309は、それぞれカメラ1で撮影されたフレーム上の人物A―Gの人物領域を示す。1402は、カメラ2のフレーム上でのボール検出結果、1403―1413は、それぞれカメラ1で撮影されたフレーム上の人物A―Kの人物領域を示す。カメラ1で撮影されたボール1302および人物A―E(1303―1307)とカメラ2で撮影されたボール1402および人物A―E(1403―1407)は同一の物体及び人物である。
In the person area sorting step S2004, the person area in each frame of the multi-view moving image acquired in the multi-camera moving image acquisition step S2001 is sorted.
In this process, when the same person is photographed by a plurality of frames and cameras, for example, when person A is photographed by camera 1, camera 2, and camera 4 of frame I, the person area of person A is Sequences arranged in numerical order,
{Frame I Person A Camera 1, Frame I Person A Camera 2, Frame I Person A Camera 4}
As a camera series.
Similarly, the person B is photographed with the camera 1 and the camera 2,
{Frame I Person B Camera 1, Frame I Person B Camera 2}
If a camera series is obtained, the person series is a series of nested camera series,
{{Frame I Person A Camera 1, Frame I Person A Camera 2, Frame I Person A Camera 4}, {Frame I Person B Camera 1, Frame I Person B Camera 2}}
It becomes.
Furthermore, in the frame II, when the person A is photographed by the cameras 1 and 2 and the person B is photographed by the cameras 2 and 3, the time series is a series of nested camera series and person series,
{{{Frame I Person A Camera 1, Frame I Person A Camera 2, Frame I Person A Camera 4}, {Frame I Person B Camera 1, Frame I Person B Camera 2}}, {{Frame II Person A Camera 1 , Frame II Person A Camera 2}, {Frame II Person B Camera 2, Frame II Person B Camera 3}}}
It becomes.
Sorting of the person area is performed by arranging the nested time series created in this way in one dimension.
{Frame I Person A Camera 1, Frame I Person A Camera 2, Frame I Person A Camera 4, Frame I Person B Camera 1, Frame I Person B Camera 2, Frame II Person A Camera 1, Frame II Person A Camera 2, Frame II Person B Camera 2, Frame II Person B Camera 3}
FIG. 14 shows results of human detection (FIGS. 14A and 14B) in two frames at the same time taken by the cameras 1 and 2 and results of sorting of human regions (FIG. 14C). Here, reference numeral 1302 denotes a ball detection result on the frame of the camera 1, and 1303-1309 respectively denote human regions of the persons A to G on the frame photographed by the camera 1. Reference numeral 1402 denotes a ball detection result on the frame of the camera 2, and reference numerals 1403 to 1413 respectively denote person regions of the persons A to K on the frame photographed by the camera 1. The ball 1302 photographed with the camera 1 and the persons AE (1303-1307) and the ball 1402 photographed with the camera 2 and the persons AE (1403-1407) are the same object and person.

このとき、ネストされた人物系列は、
{{人物Gカメラ1},{人物Kカメラ2},{人物Jカメラ2},{人物Fカメラ1},{人物Jカメラ1},{人物Hカメラ2},{人物Eカメラ1,人物Eカメラ2},{人物Dカメラ1,人物Dカメラ2},{人物Cカメラ1,人物Cカメラ2},{人物Bカメラ1,人物Bカメラ2},{人物Aカメラ1,人物Aカメラ2}}
となる。ネストされた人物系列を1次元に並べたソート結果は図14(c)の1504〜1519である。すなわち,
{人物Gカメラ1,人物Kカメラ2,人物Jカメラ2,人物Fカメラ1,人物Jカメラ1,人物Hカメラ2,人物Eカメラ1,人物Eカメラ2,人物Dカメラ1,人物Dカメラ2,人物Cカメラ1,人物Cカメラ2,人物Bカメラ1,人物Bカメラ2,人物Aカメラ1,人物Aカメラ2}
となる。
At this time, the nested person series is
{{Person G camera 1}, {person K camera 2}, {person J camera 2}, {person F camera 1}, {person J camera 1}, {person H camera 2}, {person E camera 1, person E camera 2}, {person D camera 1, person D camera 2}, {person C camera 1, person C camera 2}, {person B camera 1, person B camera 2}, {person A camera 1, person A camera 2}}
It becomes. The sorting result of arranging the nested person series in one dimension is 1504 to 1519 in FIG. That is,
{Person G camera 1, person K camera 2, person J camera 2, person F camera 1, person J camera 1, person H camera 2, person E camera 1, person E camera 2, person D camera 1, person D camera 2 , Person C camera 1, person C camera 2, person B camera 1, person B camera 2, person A camera 1, person A camera 2}
It becomes.

ここでは第1の実施形態と同様に、各人物はボールからの距離に基づきソートしたが、前述のように前フレームで統一的な人物IDが得られる場合、その人物IDの順序に従ってソートしてもよい。   Here, as in the first embodiment, each person is sorted based on the distance from the ball, but as described above, when a uniform person ID is obtained in the previous frame, it is sorted according to the order of the person ID It is also good.

次に、統合制御信号作成工程S2005は、カメラ系列統合工程S2007、人物系列統合工程S2008、時系列統合工程S2009の工程で用いる制御信号を生成する。この制御信号により、それぞれカメラ系列統合部2007、人物系列統合部2008、時系列統合部2009を制御する。   Next, integrated control signal creation step S2005 generates control signals used in the steps of camera series integration step S2007, person series integration step S2008, and time series integration step S2009. The camera series integration unit 2007, the person series integration unit 2008, and the time series integration unit 2009 are controlled by the control signal.

第1の実施形態では、人物系列統合部1007、時系列統合部1008を2層のLSTMで実現した。本実施形態では、カメラ系列統合部2007、人物系列統合部2008、時系列統合部2009を各1層ずつの3層のLSTM(LSTM1、LSTM2、LSTM3)で実現する。   In the first embodiment, the person series integration unit 1007 and the time series integration unit 1008 are realized by two layers of LSTM. In this embodiment, a camera series integration unit 2007, a person series integration unit 2008, and a time series integration unit 2009 are realized by three layers of LSTM (LSTM1, LSTM2, and LSTM3) each having one layer.

LSTMの各レイヤーでは,ネストされた3階層の系列を階層ごとに統合することになる。すなわち,図14に示したある1時刻、2カメラの2フレームで検出される人物領域のネストされた系列は,
{{{人物Gカメラ1},{人物Kカメラ2},{人物Jカメラ2},{人物Fカメラ1},{人物Jカメラ1},{人物Hカメラ2},{人物Eカメラ1,人物Eカメラ2},{人物Dカメラ1,人物Dカメラ2},{人物Cカメラ1,人物Cカメラ2},{人物Bカメラ1,人物Bカメラ2},{人物Aカメラ1,人物Aカメラ2}}}
となる。この場合,カメラ系列を統合するLSTM1の制御状態は、カメラ系列の初期に“リセット”、統合時に“更新”をするように制御され,
{リセット,リセット,リセット,リセット,リセット,リセット,リセット,更新,リセット,更新,リセット,更新,リセット,更新,リセット,更新}
という状態系列になるよう制御信号が作成される。
また、人物系列を統合するLSTM2では、人物系列の初期にリセット、統合時に更新、1階層下のカメラ系列が最後の要素以外の場合、“保持”とする。すなわち、
{リセット,更新,更新,更新,更新,更新,更新,更新,保持,更新,保持,更新,保持,更新,保持,更新}
となる。
In each layer of LSTM, nested three-hierarchical series will be integrated in each hierarchy. That is, the nested sequence of the person area detected in two frames of one camera and two cameras shown in FIG.
{{{Person G camera 1}, {person K camera 2}, {person J camera 2}, {person F camera 1}, {person J camera 1}, {person H camera 2}, {person E camera 1, 1 Person E camera 2}, {person D camera 1, person D camera 2}, {person C camera 1, person C camera 2}, {person B camera 1, person B camera 2}, {person A camera 1, person A Camera 2}}}
It becomes. In this case, the control state of LST M1 that integrates the camera series is controlled to “reset” at the beginning of the camera series and “update” at the time of integration,
{Reset, Reset, Reset, Reset, Reset, Reset, Reset, Update, Reset, Update, Reset, Update, Reset, Reset, Update, Reset, Reset, Update}
The control signal is generated to be in the state series.
In addition, in LSTM2 in which person series are integrated, reset at the beginning of the person series, update at integration, and "hold" if the camera series one layer lower is other than the last element. That is,
{Reset, Update, Update, Update, Update, Update, Update, Update, Update, Hold, Update, Hold, Update, Hold, Update, Hold, Update, Hold, Update}
It becomes.

同様に時系列統合するLSTM3では,時系列の初期に“リセット”をするため、最後の要素をリセットにする。それ以外はどれでもよいが便宜的に“リセット”とする。すなわち、
{リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット}
となる。
Similarly, in LSTM3 that integrates in time series, the last element is reset in order to "reset" at the beginning of time series. Anything other than that may be used, but for convenience, "reset". That is,
{Reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset, reset}
It becomes.

図14(c)の人物領域の系列に対し、実際に制御状態を切り替えたネットワークを図15に図示する。図中のCNN、LSTM1、LSTM2、LSTM3、FC、Softmaxと記された矩形は、それぞれCNN、3層のLSTM、Softmax識別器である。斜線で塗られた矩形(1618)がLSTMの“リセット”、ドットで塗られた矩形(1619)が“保持”、白背景の矩形(1620)が“更新”を表す。網掛けパターンの矩形(1621)がSoftmax識別器の“無視”、白背景の矩形(1622)がSoftmax識別器の通常動作(“無視”でない状態)を表す。   A network in which the control state is actually switched with respect to the sequence of the person area in FIG. 14C is illustrated in FIG. The rectangles described as CNN, LSTM1, LSTM2, LSTM3, FC, and Softmax in the figure are CNN, and three-layer LSTM and Softmax classifiers, respectively. A hatched rectangle (1618) represents LSTM "reset", a dotted rectangle (1619) represents "hold", and a white background rectangle (1620) represents "update". A shaded pattern rectangle (1621) indicates the Softmax discriminator "ignore", and a white background rectangle (1622) indicates the Softmax discriminator normal operation (non-ignore state).

この後に続く各工程(画像特徴量抽出工程S2006、カメラ系列統合工程S2007、人物系列統合工程S2008、時系列統合工程S2009、行動ラベル識別工程S2010)は、第1の実施形態と同様に実現される。すなわち、CNN、LSTM、Softmax識別器を組み合わせたニューラルネットワークで実現される。そのネットワーク構造は、既に説明の通り、図15となる。すなわち、前工程で作成した制御信号によって、図15に示した構造と制御状態で、第1の実施形態と同様の認識時の処理を実行すれば、カメラ系列、人物系列、時系列を統合した行動ラベルの識別結果が得られる。   The subsequent steps (image feature quantity extraction step S2006, camera series integration step S2007, person series integration step S2008, time series integration step S2009, action label identification step S2010) are realized in the same manner as in the first embodiment. . That is, it is realized by a neural network combining CNN, LSTM, and Softmax classifiers. The network structure is as shown in FIG. That is, the camera series, the person series, and the time series are integrated if the same recognition processing as in the first embodiment is executed with the structure and the control state shown in FIG. The identification result of the action label is obtained.

以上のように実行することで、マルチモーダルの系列情報(当実施例では、カメラ系列、人物系列、時系列)を統合した行動ラベルの認識を行うことができる。
本実施形態では、カメラ系列、人物系列、時系列という順番に統合したが、時系列、人物系列、カメラ系列、という順番で統合することも可能である。
By performing as described above, it is possible to recognize an action label in which multimodal sequence information (in this embodiment, a camera sequence, a person sequence, and a time sequence) are integrated.
In this embodiment, the camera series, the person series, and the time series are integrated in this order, but it is also possible to integrate the time series, the person series, and the camera series in this order.

さらに本実施形態に記された手続きは、より一般的な多種の系列情報の統合にも適用できる。例えば、選手が心拍数センサ、加速度センサ、GPSセンサを装着し、それらのセンサから心拍データ、速度・加速度データ、位置データを取得できる場合を考える。この場合、本実施形態と同様の手続きで、各人物の複数のセンサデータの統合、複数人物のセンサデータの統合、時系列の統合の3種類の統合を行うことが可能である。選手各々が異なる機種のセンサを装着している場合や、装着しているセンサの数が選手毎に違う場合、複数のセンサデータの統合を行うことで、それらの差異を吸収する効果が期待できる。   Furthermore, the procedure described in the present embodiment can also be applied to integration of more general types of sequence information. For example, consider a case where a player wears a heart rate sensor, an acceleration sensor, and a GPS sensor and can acquire heart rate data, velocity / acceleration data, and position data from those sensors. In this case, it is possible to perform integration of three types of integration of a plurality of sensor data of each person, integration of sensor data of a plurality of persons, and integration of time series by the same procedure as this embodiment. When each player wears a different type of sensor, or when the number of worn sensors is different for each player, the integration of multiple sensor data can be expected to have the effect of absorbing those differences. .

(実施形態3)
第1、第2の実施形態では、カメラによって取得されるフレームに対し、人物検出を行い、その結果に基づく局所的な人物領域を用い、行動ラベルの識別を行った。
これらの形態では、仮に人物検出が正しく動作しなかった場合、人物でない領域が誤って入力され、誤識別につながる場合がある。
(Embodiment 3)
In the first and second embodiments, person detection is performed on a frame acquired by a camera, and action label identification is performed using a local person area based on the result.
In these modes, if person detection does not operate correctly, a non-person area may be erroneously input, which may lead to misidentification.

本実施形態では、画像の局所的な部分である人物領域に加え、画像全体からの画像特徴を抽出し、行動ラベルの識別に利用することで、人物検出の誤識別の軽減を図る方法について説明する。   In this embodiment, in addition to the human region which is a local part of the image, the image feature from the entire image is extracted and used for identification of the action label to explain a method for reducing misidentification of human detection. Do.

本実施形態で識別する行動ラベルは、第1、第2の実施形態と同様に、“パス”,“シュート”,“ドリブル”,“キープ”,“クリアー”の5種類の行動ラベルとする。   Similar to the first and second embodiments, the action labels to be identified in this embodiment are five types of action labels: “pass”, “shoot”, “dribble”, “keep”, and “clear”.

また本実施形態では、第1、第2の実施形態と同様に、フットサルコート周辺に配置した複数のカメラで撮影されたフットサル動画を用いる。図1は既に説明した図であるが、このカメラ配置の一例と2つのカメラで撮影された1フレームの例を説明する図である。   Further, in the present embodiment, as in the first and second embodiments, futsal moving images photographed by a plurality of cameras arranged around the futsal court are used. FIG. 1 is a diagram already described, but is a diagram for explaining an example of this camera arrangement and an example of one frame photographed by two cameras.

図16(a)は、本実施形態で説明する行動認識装置3000の機能構成を示す図である。   FIG. 16A shows a functional configuration of the behavior recognition apparatus 3000 described in the present embodiment.

本実施形態の行動認識装置3000は、第1の実施形態における行動認識装置1000の機能構成に加え、大域的特徴量抽出部3010を有する。これらの各機能の詳細について、図3等を用いて以下に説明する。   The action recognition apparatus 3000 of this embodiment has a global feature quantity extraction unit 3010 in addition to the functional configuration of the action recognition apparatus 1000 of the first embodiment. Details of each of these functions will be described below with reference to FIG.

図3(c)は、本実施形態における認識時の処理の一例を示すフローチャートである。   FIG. 3C is a flowchart showing an example of processing at the time of recognition in the present embodiment.

ここで、S3001−S3005は、第1の実施形態における認識処理時のS1001−1005と同様の処理であるため説明を省略する。   Here, since S3001 to S3005 are the same processes as S1001 to 1005 at the time of the recognition process in the first embodiment, the description will be omitted.

画像特徴量抽出処理(S3006)は、第1の実施形態における認識処理時の画像特徴量抽出工程S1006と同様の処理であるが、一部異なるため、その差分について他の処理と合わせて説明する。   The image feature quantity extraction process (S3006) is the same process as the image feature quantity extraction step S1006 at the recognition process in the first embodiment, but is partially different, so the difference will be described together with other processes. .

S3007では、大域的特徴量抽出部3010により、動画取得工程S3001で取得されるフレーム全体から大域的画像特徴量を抽出する。   In S3007, the global feature extraction unit 3010 extracts global image features from the entire frame acquired in the moving image acquisition step S3001.

また、人物系列統合処理(S2008)、時系列統合処理(S2009)、行動ラベル識別処理(S2010)は、第1の実施形態における認識処理時のS1007−1009と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。   The person series integration process (S2008), the time series integration process (S2009), and the action label identification process (S2010) are the same processes as S1007-1009 at the recognition process in the first embodiment. However, since there is a difference, the difference will be described together with other processing.

次に、図3(c)に示したフローチャートに従って、より具体的な内容について述べる。本実施形態では、画像特徴量抽出処理(S3006)以降の処理に関し第1の実施形態と差異があり、その他の処理は第1の実施形態と同様である。そのため差異のある各処理について説明する。   Next, more specific contents will be described according to the flowchart shown in FIG. The present embodiment is different from the first embodiment in the processing after the image feature quantity extraction processing (S3006), and the other processing is the same as that of the first embodiment. Therefore, each different processing will be described.

第1の実施形態では、S1006−S1009で機能する各部、画像特徴量抽出部1006、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009は、CNN、LSTM、Softmax識別器を組み合わせて実現された。本実施形態でも同じく画像特徴量抽出部3006、人物系列統合部3007、時系列統合部3008、行動ラベル識別部3009は、CNN、LSTM、Softmax識別器で実現する。加えて大域的画像特徴量抽出工程S3007で用いる大域的特徴量抽出部3010もCNNで実現する。   In the first embodiment, the respective units functioning in S1006-S1009, the image feature extraction unit 1006, the person series integration unit 1007, the time series integration unit 1008, and the action label identification unit 1009 combine CNN, LSTM and Softmax discriminators Was realized. Also in the present embodiment, the image feature quantity extraction unit 3006, the person series integration unit 3007, the time series integration unit 3008, and the action label identification unit 3009 are realized by CNN, LSTM, and Softmax discriminators. In addition, the global feature extraction unit 3010 used in the global image feature extraction step S3007 is also realized by CNN.

これらで構成されるネットワークの構造は、第1の実施形態におけるネットワーク構造を示す図(図9)と同様の方法で図示すると、図17のようになる。第1の実施形態におけるネットワーク構造(図9)のLSTM1とLSTM2の間に、連結操ユニット(1315)が挿入された構造を持つ。連結操ユニット(1315)では、各時刻における全体画像(1302、1308)がCNN(1313)に入力され、そこで抽出された大域的画像特徴量とLSTM1(1314)による人物系列の統合結果が連結される。連結後の特徴量が時系列統合を行うLSTM2(1316)に入力される。   The structure of a network configured of these is as shown in FIG. 17 when it is illustrated in the same manner as the diagram (FIG. 9) showing the network structure in the first embodiment. A connection control unit (1315) is inserted between LSTM1 and LSTM2 of the network structure (FIG. 9) in the first embodiment. In the combined operation unit (1315), the entire image (1302, 1308) at each time is input to the CNN (1313), and the global image feature value extracted there and the integrated result of the person series by LSTM1 (1314) are connected. Ru. The feature values after connection are input to LSTM 2 (1316) that performs time series integration.

ここで、CNN(1313)に入力する各時刻における全体画像(1302、1308)は、動画取得手段3001で取得されたFull HD(1920x1080ピクセル)の画像をクロップせずにCNNに合わせた大きさにリサイズした画像である。リサイズした画像は、例えば227×227ピクセルである。   Here, the entire image (1302, 1308) at each time input to the CNN (1313) has a size adjusted to the CNN without cropping the image of Full HD (1920 x 1080 pixels) acquired by the moving image acquisition means 3001. It is a resized image. The resized image is, for example, 227 × 227 pixels.

また、人物領域から画像特徴量を抽出するCNN(1312)と全体画像から大域的画像特徴量を抽出するCNN(1313)では、同じ構造にし、同じ重みパラメータを共有してもよい。あるいは、同じ構造でも別の重みパラメータを設定してもよいし、別の構造、別の重みパラメータとしてもよい。   Also, the CNN (1312) that extracts the image feature amount from the human region and the CNN (1313) that extracts the global image feature amount from the entire image may have the same structure and share the same weight parameters. Alternatively, another weight parameter may be set with the same structure, or another structure or another weight parameter may be set.

図17が表すように、時刻Iの人物領域の画像特徴量はLSTM1によって再帰的に統合され、全体画像から抽出される大域的画像特徴量と連結操作モジュールによって連結される。連結した特徴量は時系列統合を実行するLSTM2に入力される。時刻IIについても同様に、人物領域についてはLSTM1によって再帰的に統合され、大域的画像特徴量と連結され、その後LSTM2によって再帰的に時系列統合が実行される。行動ラベルのスコアは、LSTM2による時系列統合毎にInner−productユニット、Softmaxユニットによって計算され、出力される。   As FIG. 17 shows, the image feature-value of the person area | region of the time I is integrated recursively by LSTM1, and it is connected with the global image feature-value extracted from the whole image by the connection operation module. The concatenated feature quantities are input to LsTM 2 that performs time series integration. Similarly, for the time II, the person area is recursively integrated by LSTM 1 and linked with the global image feature, and thereafter, time series integration is recursively performed by LSTM 2. The score of the action label is calculated and output by the Inner-product unit and the Softmax unit for each time-series integration by LSTM2.

以上のように実行することで、画像全体から抽出した特徴量を人物検出によって得た検出誤差を含む局所的な人物領域の特徴量と連結し、時系列的な統合が実行される。これにより、人物検出が含む誤りを軽減した行動ラベルの識別が実行できる。   By performing as described above, the feature quantity extracted from the entire image is linked with the feature quantity of the local human region including the detection error obtained by the human detection, and time-series integration is performed. Thereby, identification of the action label which reduced the error which person detection contains can be performed.

(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or storage medium, and one or more processors in a computer of the system or apparatus read and execute the program. Can also be realized. It can also be implemented by a circuit (eg, an ASIC) that implements one or more functions.

1000 行動認識装置
1001 動画取得部
1002 人物物体検出部
1003 人物領域抽出部
1004 人物領域ソート部
1005 統合制御信号作成部
1006 画像特徴量抽出部
1007 人物系列統合部
1008 時系列統合部
1009 行動ラベル識別部
1000 action recognition apparatus 1001 motion image acquisition unit 1002 person object detection unit 1003 person region extraction unit 1004 person region sort unit 1005 integrated control signal creation unit 1006 image feature amount extraction unit 1007 person sequence integration unit 1008 time series integration unit 1009 activity label identification unit

Claims (14)

時系列の静止画像を含む動画像を取得する取得手段と、
前記動画像から静止画像ごとに1以上の対象物を検出する検出手段と、
前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、
前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、
前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、
前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段と
を有することを特徴とする画像処理装置。
Acquiring means for acquiring a moving image including a time-series still image;
Detection means for detecting one or more objects for each still image from the moving image;
Feature quantity extraction means for extracting the feature quantity corresponding to each of the objects from the still image;
An object integrating unit that integrates feature amounts corresponding to the respective objects in the still image;
A time-series integration unit that integrates feature quantities of an object integrated in the still image with respect to the time-series still image;
An image processing apparatus, comprising: identification means for identifying the action of the object in the moving image based on the integrated feature amount of the time-series still image.
前記静止画像から前記対象物のそれぞれに対応する領域を抽出する領域抽出手段と、
前記時系列の静止画像のそれぞれから抽出された前記領域を並べた領域系列を作成する作成手段とを備え、
前記特徴量抽出手段は、前記領域系列における前記対象物のそれぞれに対応する領域から特徴量を抽出することを特徴とする請求項1に記載の画像処理装置。
Area extraction means for extracting an area corresponding to each of the objects from the still image;
A creation unit configured to create an area sequence in which the areas extracted from each of the time-series still images are arranged;
The image processing apparatus according to claim 1, wherein the feature amount extraction unit extracts feature amounts from regions corresponding to the respective objects in the region series.
前記作成手段は、前記複数の対象物の領域を当該対象物の位置に基づいてソートすることを特徴とする請求項2に記載の画像処理装置。   The image processing apparatus according to claim 2, wherein the creation unit sorts the regions of the plurality of objects based on the positions of the objects. 前記検出手段による検出結果に基づいて、前記対象物統合手段と前記時系列統合手段の制御状態を制御する制御手段をさらに有することを特徴とする請求項2に記載の画像処理装置。   3. The image processing apparatus according to claim 2, further comprising control means for controlling the control states of the object integration means and the time series integration means based on the detection result by the detection means. 前記対象物統合手段は、リセット、更新の少なくとも2つの制御状態を有し、
前記制御手段が、前記静止画像における対象物の特徴量の系列の初期で前記対象物統合手段の制御状態をリセットにし、それ以外で前記対象物統合手段の制御状態を更新にすることで、前記対象物統合手段は、当該静止画像における対象物の系列を統合することを特徴とする請求項4に記載の画像処理装置。
The object integration means has at least two control states of reset and update;
The control means resets the control state of the object integration means at the beginning of the series of feature quantities of the object in the still image, and updates the control state of the object integration means at other times. 5. The image processing apparatus according to claim 4, wherein the object integration means integrates a series of objects in the still image.
前記時系列統合手段は、リセット、保持、更新の少なくとも3つの制御状態を有し、
前記制御手段が、前記系列の初期で前記時系列統合手段の制御状態をリセットにし、前記静止画像ごとに統合された対象物の特徴量の系列の最後で前記時系列統合手段の制御状態にし、それ以外で前記時系列統合手段の制御状態を保持にすることで、前記時系列統合手段は、静止画像ごとに統合された対象物の特徴量の系列を統合することを特徴とする請求項1に記載の画像処理装置。
The time series integration means has at least three control states of reset, hold and update;
The control means resets the control state of the time series integration means at the initial stage of the series, and brings the control state of the time series integration means at the end of the series of feature quantities of the objects integrated for each still image, By holding the control state of the time-series integration means at other times, the time-series integration means integrates a series of feature quantities of the object integrated for each still image. The image processing apparatus according to claim 1.
前記検出手段は、前記対象物の実世界上の位置を検出することを特徴とする請求項1に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the detection unit detects a real-world position of the object. 前記検出手段は、前記対象物として人物と人物とは異なる所定の対象物とを検出することを特徴とする請求項1に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the detection unit detects a person and a predetermined object different from the person as the object. 前記取得手段は、ある対象物を同時に複数の視点で撮影した動画像を取得することを特徴とする請求項1に記載の画像処理装置。   The image processing apparatus according to claim 1, wherein the acquisition unit acquires a moving image obtained by photographing an object at a plurality of viewpoints simultaneously. 前記検出手段は、前記複数の視点で撮影した動画像を構成する静止画像ごとに、複数の視点の静止画像で同一の対象物を対応付けて検出し、当該対象物の位置を検出することを特徴とする請求項9に記載の画像処理装置。   The detection means detects, for each still image constituting a moving image taken from the plurality of viewpoints, the same object in the still images of the plurality of viewpoints, and detects the position of the object. The image processing apparatus according to claim 9, characterized in that: 前記複数の視点の対象物の特徴量の系列を統合する視点統合手段をさらに有し、
前記対象物統合手段は、前記対象物ごとに統合された複数の視点の対象物の特徴量を統合することを特徴とする請求項10に記載の画像処理装置。
The image processing apparatus further comprises viewpoint integration means for integrating a series of feature quantities of the objects of the plurality of viewpoints,
11. The image processing apparatus according to claim 10, wherein the object integration unit integrates feature amounts of objects of a plurality of viewpoints integrated for each of the objects.
前記動画像を構成する静止画像の全体から大域的な画像特徴量を抽出する大域的特徴量抽出手段をさらに有し、
前記時系列統合手段は、静止画像ごとに統合された対象物の特徴量と前記静止画像ごとの大域的な画像特徴量とを統合することを特徴とする請求項1に記載の画像処理装置。
The image processing apparatus further comprises global feature quantity extraction means for extracting a global image feature quantity from the whole still image constituting the moving image,
The image processing apparatus according to claim 1, wherein the time-series integration unit integrates the feature amount of the object integrated for each still image and the global image feature amount for each still image.
時系列の静止画像を含む動画像を取得する取得工程と、
前記動画像から静止画像ごとに1以上の対象物を検出する検出工程と、
前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出工程と、
前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合工程と、
前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合工程と、
前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別工程と
を有することを特徴とする画像処理方法。
An acquisition step of acquiring a moving image including a time-series still image;
Detecting one or more objects for each still image from the moving image;
A feature amount extraction step of extracting feature amounts corresponding to each of the objects from the still image;
An object integration step of integrating feature amounts corresponding to each of the objects in the still image;
A time-series integration step of integrating feature quantities of an object integrated in the still image with respect to the time-series still image;
An identification step of identifying the action of the object in the moving image based on the integrated feature amount of the time-series still image.
コンピュータを請求項1乃至12のいずれか1項に記載の画像処理装置の各手段として機能させることを特徴とするプログラム。   A program causing a computer to function as each means of the image processing apparatus according to any one of claims 1 to 12.
JP2017084778A 2017-04-21 2017-04-21 Image processing apparatus, method thereof, and program Withdrawn JP2018181273A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017084778A JP2018181273A (en) 2017-04-21 2017-04-21 Image processing apparatus, method thereof, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017084778A JP2018181273A (en) 2017-04-21 2017-04-21 Image processing apparatus, method thereof, and program

Publications (1)

Publication Number Publication Date
JP2018181273A true JP2018181273A (en) 2018-11-15

Family

ID=64275674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017084778A Withdrawn JP2018181273A (en) 2017-04-21 2017-04-21 Image processing apparatus, method thereof, and program

Country Status (1)

Country Link
JP (1) JP2018181273A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970442B1 (en) * 2018-12-04 2019-04-19 주식회사 넥스파시스템 Illegal parking enforcement system Using Fast R-CNN based on Vehicle detection
WO2020202308A1 (en) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント State control device, learning device, state control method, learning method, and program
WO2021111704A1 (en) 2019-12-02 2021-06-10 パナソニックIpマネジメント株式会社 Information processing method, information processing system, and program
JP2021117635A (en) * 2020-01-24 2021-08-10 Kddi株式会社 Object tracking device and object tracking method
JP2022027439A (en) * 2020-07-30 2022-02-10 エヌ・シー・アール・コーポレイション Analysis method of image/video using activity signature and analysis system of the same
KR20220030548A (en) * 2020-09-03 2022-03-11 (주) 넥스트랩 Device and method for recognizing work motion based on image analysis
CN114913296A (en) * 2022-05-07 2022-08-16 中国石油大学(华东) MODIS surface temperature data product reconstruction method
WO2023127370A1 (en) * 2021-12-28 2023-07-06 キヤノン株式会社 Image processing device, image processing method, and program
KR102647328B1 (en) * 2023-07-26 2024-03-14 주식회사 엠포더스 Edge-type surveillance camera AI abnormal situation detection and control device and method

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970442B1 (en) * 2018-12-04 2019-04-19 주식회사 넥스파시스템 Illegal parking enforcement system Using Fast R-CNN based on Vehicle detection
WO2020202308A1 (en) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント State control device, learning device, state control method, learning method, and program
JPWO2020202308A1 (en) * 2019-03-29 2021-10-21 株式会社ソニー・インタラクティブエンタテインメント State control device, learning device, state control method, learning method and program
JP7046267B2 (en) 2019-03-29 2022-04-01 株式会社ソニー・インタラクティブエンタテインメント State control device, learning device, state control method, learning method and program
WO2021111704A1 (en) 2019-12-02 2021-06-10 パナソニックIpマネジメント株式会社 Information processing method, information processing system, and program
JP2021117635A (en) * 2020-01-24 2021-08-10 Kddi株式会社 Object tracking device and object tracking method
JP7229954B2 (en) 2020-01-24 2023-02-28 Kddi株式会社 Object tracking device and object tracking method
JP7213294B2 (en) 2020-07-30 2023-01-26 エヌ・シー・アール・コーポレイション Image/video analysis method using activity signature and its analysis system
JP2022027439A (en) * 2020-07-30 2022-02-10 エヌ・シー・アール・コーポレイション Analysis method of image/video using activity signature and analysis system of the same
KR20220030548A (en) * 2020-09-03 2022-03-11 (주) 넥스트랩 Device and method for recognizing work motion based on image analysis
KR102466433B1 (en) * 2020-09-03 2022-11-11 (주)넥스트랩 Device and method for recognizing work motion based on image analysis
WO2023127370A1 (en) * 2021-12-28 2023-07-06 キヤノン株式会社 Image processing device, image processing method, and program
CN114913296A (en) * 2022-05-07 2022-08-16 中国石油大学(华东) MODIS surface temperature data product reconstruction method
CN114913296B (en) * 2022-05-07 2023-08-11 中国石油大学(华东) MODIS surface temperature data product reconstruction method
KR102647328B1 (en) * 2023-07-26 2024-03-14 주식회사 엠포더스 Edge-type surveillance camera AI abnormal situation detection and control device and method

Similar Documents

Publication Publication Date Title
JP2018181273A (en) Image processing apparatus, method thereof, and program
Chavdarova et al. Wildtrack: A multi-camera hd dataset for dense unscripted pedestrian detection
CN108537112B (en) Image processing apparatus, image processing system, image processing method, and storage medium
US11205298B2 (en) Method and system for creating a virtual 3D model
Majumder et al. Vision and inertial sensing fusion for human action recognition: A review
Seemanthini et al. Human detection and tracking using HOG for action recognition
CN111587437A (en) Activity recognition method using video pipe
JP5227629B2 (en) Object detection method, object detection apparatus, and object detection program
KR20160096460A (en) Recognition system based on deep learning including a plurality of classfier and control method thereof
JP2012108785A (en) Person counting device, person counting method, and person counting program
JP2022510417A (en) Systems and methods for detecting articulated body posture
JP2023015989A (en) Item identification and tracking system
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
JP5027030B2 (en) Object detection method, object detection apparatus, and object detection program
Gomes et al. Multi-human fall detection and localization in videos
Singh et al. A new algorithm designing for detection of moving objects in video
López-Rubio et al. Anomalous object detection by active search with PTZ cameras
Saleh et al. Cyclist intent prediction using 3d lidar sensors for fully automated vehicles
Zhang et al. Robust multi-view multi-camera face detection inside smart rooms using spatio-temporal dynamic programming
Ko et al. Rectified trajectory analysis based abnormal loitering detection for video surveillance
Park et al. Understanding human interactions with track and body synergies (TBS) captured from multiple views
Guan et al. A video-based fall detection network by spatio-temporal joint-point model on edge devices
Ramanathan et al. Combining pose-invariant kinematic features and object context features for rgb-d action recognition
Koutrintzes et al. Boosting the Performance of Deep Approaches through Fusion with Handcrafted Features.
Rajendran et al. Study on machine learning and deep learning methods for human action recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200327

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20200714