JP7439004B2 - Behavior recognition device, learning device, and behavior recognition method - Google Patents

Behavior recognition device, learning device, and behavior recognition method Download PDF

Info

Publication number
JP7439004B2
JP7439004B2 JP2021037260A JP2021037260A JP7439004B2 JP 7439004 B2 JP7439004 B2 JP 7439004B2 JP 2021037260 A JP2021037260 A JP 2021037260A JP 2021037260 A JP2021037260 A JP 2021037260A JP 7439004 B2 JP7439004 B2 JP 7439004B2
Authority
JP
Japan
Prior art keywords
behavior
learning
shape
target
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021037260A
Other languages
Japanese (ja)
Other versions
JP2022043974A (en
Inventor
敦 根尾
由希子 荻原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to EP21183349.6A priority Critical patent/EP3965007A1/en
Priority to US17/369,123 priority patent/US20220076003A1/en
Publication of JP2022043974A publication Critical patent/JP2022043974A/en
Application granted granted Critical
Publication of JP7439004B2 publication Critical patent/JP7439004B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、行動認識装置、学習装置、および行動認識方法に関する。 The present invention relates to a behavior recognition device, a learning device, and a behavior recognition method.

本技術分野の背景技術として、特許文献1は、人の動作において、表面筋電位等の生体信号に頼らずにそれが意図したものであるか否かを識別する意図推定装置を開示する。この意図推定装置は、人の動作している位置、および角度の計測方法を用いて動作情報を取得し人の動作を人が実現可能な範囲に制限し、その動作中における人の関節角度と動作している部位の先端位置の位置情報を抽出し多変量解析手法を用い、さらに人の動作が意図するものであるか否かを識別する閾値を用いて、人の動作がその人が意図するものであるか否かを識別することで、表面筋電位等の生体信号に頼らずに、動作が意図したものであるか否かを識別する。 As background art in this technical field, Patent Document 1 discloses an intention estimation device that identifies whether a human movement is intended without relying on biological signals such as surface myoelectric potential. This intention estimation device acquires movement information using a method of measuring the position and angle of a person's movement, limits the person's movement to a range that is achievable by the person, and calculates the joint angles of the person during the movement. We extract the positional information of the tip position of the moving part and use a multivariate analysis method, and then use a threshold to identify whether the person's movement is intentional or not. By identifying whether the movement is intended or not, it is possible to identify whether the movement is intended or not, without relying on biological signals such as surface myoelectric potential.

特開2012-101284号公報Japanese Patent Application Publication No. 2012-101284

人の動作における意図を推定するために上記特許文献1に記載された技術では、行動を意図するものか否かの2値化判断するため、複数種類の複雑な動作の意図を分類することはできず、動作の意図推定の精度を著しく低下させる可能性が生じる。 In the technology described in Patent Document 1 for estimating the intention of a person's movements, it is difficult to classify the intentions of multiple types of complex movements in order to make a binary judgment as to whether the action is intended or not. This may result in a significant decrease in the accuracy of motion intention estimation.

本発明は、認識対象の複数種類の行動を高精度に認識することを目的とする。 An object of the present invention is to highly accurately recognize multiple types of behaviors to be recognized.

本願において開示される発明の一側面となる行動認識装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する行動認識装置であって、多変量解析で統計的な成分を生成する成分分析により学習対象の形状から得られる成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、前記プロセッサは、解析対象データから認識対象の形状を検出する検出処理と、前記成分分析により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する成分分析処理と、前記各々の寄与率から得られる累積寄与率に基づいて、前記1以上の各々の次元を示す序数を決定する決定処理と、前記決定処理によって決定された次元を示す序数の成分を1以上含む特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、を実行することを特徴とする。 A behavior recognition device that is an aspect of the invention disclosed in this application is a behavior recognition device that includes a processor that executes a program, and a storage device that stores the program, and that calculates statistical components by multivariate analysis. A behavior classification model group learned for each component group can be accessed using a component group obtained from the shape of the learning target by the generated component analysis and the behavior of the learning target, and the processor can access the behavior classification model group learned for each component group. One or more components and a contribution rate of each of the components are determined by a detection process of detecting the shape of the recognition target from data and the component analysis based on the shape of the recognition target detected by the detection process. a component analysis process to generate; a determination process that determines an ordinal number indicating each of the one or more dimensions based on a cumulative contribution rate obtained from each of the contribution rates; and an ordinal number indicating the dimension determined by the determination process. A selection process of selecting a specific behavior classification model learned with the same component group as a specific component group containing one or more components from the behavior classification model group, and a specific behavior classification model selected by the selection process. The present invention is characterized in that, by inputting the specific component group, a behavior recognition process is executed that outputs a recognition result indicating the behavior of the recognition target.

本願において開示される発明の他の側面となる行動認識装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する行動認識装置であって、多変量解析で統計的な成分を生成する次元削減により学習対象の形状から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、前記プロセッサは、解析対象データから認識対象の形状を検出する検出処理と、前記次元削減により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する次元削減処理と、前記各々の寄与率に基づいて、前記1以上の成分のうち第1変数からの昇順の成分の次元を示す序数を決定する決定処理と、前記第1変数から前記決定処理によって決定された次元を示す序数の成分までの特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、を実行することを特徴とする。 Another aspect of the invention disclosed in this application is an action recognition device that includes a processor that executes a program, and a storage device that stores the program, and that performs multivariate analysis to calculate statistical components. The behavior classification model group learned for each component group can be accessed by using the component group in ascending order from the first variable obtained from the shape of the learning target by dimension reduction to generate , and the behavior of the learning target. The processor performs a detection process of detecting the shape of the recognition target from the analysis target data, and performs the dimension reduction to determine one or more components and the component based on the shape of the recognition target detected by the detection process. and a determination process that determines an ordinal number indicating the dimension of the component in ascending order from the first variable among the one or more components based on the contribution rate of each of the components. , a selection process of selecting a specific behavior classification model trained with the same component group as a specific component group from the first variable to an ordinal component indicating the dimension determined by the determination process from the behavior classification model group; and a behavior recognition process that outputs a recognition result indicating the behavior to be recognized by inputting the specific component group to a specific behavior classification model selected by the selection process. do.

本願において開示される発明の一側面となる学習装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する学習装置であって、前記プロセッサは、学習対象の形状および行動を含む教師データを取得する取得処理と、多変量解析で統計的な成分を生成する成分分析により、前記取得処理によって取得された前記学習対象の形状に基づいて、1以上の成分を生成する成分分析処理と、許容計算量に基づいて、前記1以上の各々の次元を示す序数を制御する制御処理と、前記制御処理によって制御された次元を示す序数の成分を1以上含む成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記学習対象の行動を分類する行動分類モデルを生成する行動学習処理と、を実行することを特徴とする。 A learning device that is one aspect of the invention disclosed in this application is a learning device that has a processor that executes a program, and a storage device that stores the program, and the processor is configured to learn the shape and behavior of a learning target. Component analysis that generates one or more components based on the shape of the learning target acquired by the acquisition process, by an acquisition process that acquires training data containing the data, and a component analysis that generates statistical components by multivariate analysis. a control process for controlling ordinal numbers indicating each of the one or more dimensions based on an allowable amount of calculation; a component group including one or more ordinal components indicating the dimensions controlled by the control process; and the learning. The present invention is characterized in that a behavior learning process is executed for learning the behavior of the learning target based on the behavior of the target and generating a behavior classification model for classifying the behavior of the learning target.

本願において開示される発明の他の側面となる学習装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する学習装置であって、前記プロセッサは、学習対象の形状および行動を含む教師データを取得する取得処理と、多変量解析で統計的な成分を生成する次元削減により、前記取得処理によって取得された前記学習対象の形状に基づいて、1以上の成分を生成する次元削減処理と、許容計算量に基づいて、前記1以上の成分のうち第1変数からの昇順の成分の次元を示す序数を制御する制御処理と、前記第1変数から前記制御処理によって制御された次元を示す序数の成分までの成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記学習対象の行動を分類する行動分類モデルを生成する行動学習処理と、を実行することを特徴とする。 A learning device according to another aspect of the invention disclosed in this application is a learning device including a processor that executes a program, and a storage device that stores the program, and the processor is configured to control the shape and behavior of a learning target. A dimension that generates one or more components based on the shape of the learning target acquired by the acquisition process, by an acquisition process that acquires training data including , and a dimension reduction that generates statistical components by multivariate analysis. a reduction process; a control process that controls an ordinal number indicating the dimension of an ascending component from a first variable among the one or more components based on an allowable amount of calculation; Behavior learning processing that generates a behavior classification model that classifies the behavior of the learning target by learning the behavior of the learning target based on a component group up to an ordinal component indicating a dimension and the behavior of the learning target. It is characterized by executing the following.

本発明の代表的な実施の形態によれば、認識対象の複数種類の行動を高精度に認識することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to a typical embodiment of the present invention, multiple types of behaviors to be recognized can be recognized with high accuracy. Problems, configurations, and effects other than those described above will become clear from the description of the following examples.

図1は、実施例1にかかる行動認識システムのシステム構成例を示す説明図である。FIG. 1 is an explanatory diagram showing an example of a system configuration of an action recognition system according to a first embodiment. 図2は、コンピュータのハードウェア構成例を示すブロック図である。FIG. 2 is a block diagram showing an example of the hardware configuration of a computer. 図3は、学習データの一例を示す説明図である。FIG. 3 is an explanatory diagram showing an example of learning data. 図4は、実施例1にかかる行動認識システムの機能的構成例を示すブロック図である。FIG. 4 is a block diagram showing an example of the functional configuration of the action recognition system according to the first embodiment. 図5は、骨格情報処理部の詳細な機能的構成例を示すブロック図である。FIG. 5 is a block diagram showing a detailed functional configuration example of the skeleton information processing section. 図6は、関節角度算出部が実行する関節角度の詳細な算出方法を示す説明図である。FIG. 6 is an explanatory diagram showing a detailed method for calculating joint angles executed by the joint angle calculating section. 図7は、移動量算出部が実行するフレーム間の移動量の詳細な算出方法の例を示す説明図である。FIG. 7 is an explanatory diagram illustrating a detailed example of a method for calculating the amount of movement between frames, which is executed by the movement amount calculating section. 図8は、正規化部が実行する骨格情報の正規化の詳細な手法を示す説明図である。FIG. 8 is an explanatory diagram showing a detailed method of normalizing skeleton information executed by the normalization unit. 図9は、教師信号DBが保持する教師信号の詳細な例を示す説明図である。FIG. 9 is an explanatory diagram showing a detailed example of the teacher signal held by the teacher signal DB. 図10は、教師信号を入力データとして主成分分析部が生成した主成分を、主成分空間上にプロットした例を示す説明図である。FIG. 10 is an explanatory diagram showing an example in which principal components generated by a principal component analysis section using a teacher signal as input data are plotted on a principal component space. 図11は、行動学習部が行動を学習し、行動認識部が行動を分類するための詳細な手法を示す説明図である。FIG. 11 is an explanatory diagram showing a detailed method for the behavior learning unit to learn behaviors and for the behavior recognition unit to classify the behaviors. 図12は、次元数決定部が次元数決定の際に用いる累積寄与率の推移を示すグラフである。FIG. 12 is a graph showing changes in the cumulative contribution rate used by the dimension number determining unit when determining the number of dimensions. 図13は、実施例1にかかるサーバ(学習装置)による学習処理の詳細な処理手順例を示すフローチャートである。FIG. 13 is a flowchart illustrating a detailed processing procedure example of learning processing by the server (learning device) according to the first embodiment. 図14は、実施例1にかかる骨格情報処理の詳細な処理手順例を示すフローチャートである。FIG. 14 is a flowchart illustrating a detailed processing procedure example of skeleton information processing according to the first embodiment. 図15は、実施例1にかかるクライアント(行動認識装置)による行動認識処理手順例を示すフローチャートである。FIG. 15 is a flowchart illustrating an example of a behavior recognition processing procedure by a client (behavior recognition device) according to the first embodiment. 図16は、実施例2にかかる行動認識システムの機能的構成例を示すブロック図である。FIG. 16 is a block diagram showing an example of the functional configuration of the action recognition system according to the second embodiment. 図17は、実施例2にかかるサーバ(学習装置)による学習処理の詳細な処理手順例を示すフローチャートである。FIG. 17 is a flowchart illustrating a detailed processing procedure example of learning processing by the server (learning device) according to the second embodiment. 図18は、実施例2にかかるクライアント(行動認識装置)による行動認識処理手順例を示すフローチャートである。FIG. 18 is a flowchart illustrating an example of a behavior recognition processing procedure by a client (behavior recognition device) according to the second embodiment. 図19は、実施例4にかかる骨格情報処理部の機能的構成例を示すブロック図である。FIG. 19 is a block diagram showing an example of the functional configuration of the skeleton information processing section according to the fourth embodiment. 図20は、実施例4にかかる骨格情報処理部の詳細な処理手順例を示すフローチャートである。FIG. 20 is a flowchart illustrating a detailed processing procedure example of the skeleton information processing unit according to the fourth embodiment. 図21は、実施例5にかかる行動認識システムの機能的構成例を示すブロック図である。FIG. 21 is a block diagram showing an example of the functional configuration of the action recognition system according to the fifth embodiment. 図22は、実施例6にかかる行動認識システムの機能的構成例を示すブロック図である。FIG. 22 is a block diagram showing an example of the functional configuration of the action recognition system according to the sixth embodiment. 図23は、行動学習部および行動認識部が行動を分類するための基礎となる手法である決定木を示す説明図である。FIG. 23 is an explanatory diagram showing a decision tree, which is a basic method by which the behavior learning unit and the behavior recognition unit classify behaviors. 図24は、決定木による分類の詳細な展開方法を示す説明図である。FIG. 24 is an explanatory diagram showing a detailed method for developing classification using a decision tree. 図25は、アンサンブル学習と、行動学習部と行動認識部が行動を分類するために用いる手法を示す説明図である。FIG. 25 is an explanatory diagram showing ensemble learning and a method used by the behavior learning section and the behavior recognition section to classify behaviors. 図26は、実施例7にかかる行動認識システムの機能的構成例を示すブロック図である。FIG. 26 is a block diagram showing an example of the functional configuration of the action recognition system according to the seventh embodiment. 図27は、実施例7にかかるサーバ(学習装置)による学習処理の詳細な処理手順例を示すフローチャートである。FIG. 27 is a flowchart illustrating a detailed processing procedure example of learning processing by the server (learning device) according to the seventh embodiment.

以下、本発明に係る実施の形態を図面に基づいて説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。また、「Aからなる」、「Aよりなる」、「Aを有する」、「Aを含む」と言うときは、特にその要素のみである旨明示した場合等を除き、それ以外の要素を排除するものでないことは言うまでもない。同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは、特に明示した場合および原理的に明らかにそうでないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。 Embodiments according to the present invention will be described below based on the drawings. In addition, in all the figures for explaining the embodiment, the same members are given the same reference numerals in principle, and repeated explanations thereof will be omitted. In addition, in the following embodiments, the constituent elements (including elemental steps, etc.) are not necessarily essential, except when explicitly stated or when it is clearly considered essential in principle. Needless to say. In addition, when we say "consists of A," "consists of A," "has A," or "contains A," other elements are excluded, unless it is specifically stated that only that element is included. Needless to say, this is not something you should do. Similarly, in the following embodiments, when referring to the shape, positional relationship, etc. of components, etc., the shape, positional relationship, etc. of components, etc. are referred to, unless specifically stated or when it is considered that it is clearly not possible in principle. This shall include things that approximate or are similar to, etc.

本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。 In this specification, etc., expressions such as "first," "second," and "third" are used to identify constituent elements, and do not necessarily limit the number, order, or content thereof. isn't it. Further, numbers for identifying components are used for each context, and a number used in one context does not necessarily indicate the same configuration in another context. Furthermore, this does not preclude a component identified by a certain number from serving the function of a component identified by another number.

図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。 The position, size, shape, range, etc. of each component shown in the drawings etc. may not represent the actual position, size, shape, range, etc. in order to facilitate understanding of the invention. Therefore, the present invention is not necessarily limited to the position, size, shape, range, etc. disclosed in the drawings or the like.

<行動認識システム>
図1は、実施例1にかかる行動認識システムのシステム構成例を示す説明図である。行動認識システム100は、サーバ101と、1台以上のクライアント102と、を有する。サーバとクライアントとは、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などのネットワーク105を介して通信可能に接続される。サーバ101は、クライアント102を管理するコンピュータである。クライアント102は、センサ103に接続され、センサ103からのデータを取得するコンピュータである。
<Action recognition system>
FIG. 1 is an explanatory diagram showing an example of a system configuration of an action recognition system according to a first embodiment. The behavior recognition system 100 includes a server 101 and one or more clients 102. The server and the client are communicably connected via a network 105 such as the Internet, a LAN (Local Area Network), or a WAN (Wide Area Network). The server 101 is a computer that manages the clients 102. The client 102 is a computer that is connected to the sensor 103 and acquires data from the sensor 103.

センサ103は、解析環境から解析対象データを検出する。センサ103は、たとえば、静止画または動画を撮像するカメラである。また、センサ103は、音声や匂いを検出してもよい。教師信号DB104は、学習データ(人の骨格情報および関節角度)と行動情報(たとえば、「立つ」、「倒れる」といった人の姿勢や動作)との組み合わせを教師信号として保持するデータベースである。教師信号DB104は、サーバ101に記憶されていてもよく、サーバ101またはクライアント102とネットワーク105を介して通信可能なコンピュータに接続されていてもよい。 The sensor 103 detects data to be analyzed from the analysis environment. The sensor 103 is, for example, a camera that captures still images or moving images. Further, the sensor 103 may detect sound or smell. The teacher signal DB 104 is a database that holds a combination of learning data (person's skeletal information and joint angles) and behavior information (for example, person's postures and movements such as "standing" and "falling down") as a teacher signal. The teacher signal DB 104 may be stored in the server 101 or may be connected to a computer that can communicate with the server 101 or the client 102 via the network 105.

行動認識システム100は、教師信号DB104を用いた学習機能と、学習機能により得られた行動分類モデルを用いた行動認識機能と、を有する。行動分類モデルとは、人や動物などの認識対象の行動を分類するための学習モデルである。学習機能および行動認識機能は、行動認識システム100に実装されていれば、サーバ101およびクライアント102のいずれに実装されていてもよい。たとえば、サーバ101が学習機能を実装し、クライアント102が行動認識機能を実装してもよい。また、サーバ101が学習機能および行動認識機能を実装し、クライアント102は、センサ103からのデータをサーバ101に送信したり、サーバ101からの行動認識機能による行動認識結果を受け付けたりしてもよい。 The behavior recognition system 100 has a learning function using the teacher signal DB 104 and an action recognition function using a behavior classification model obtained by the learning function. A behavior classification model is a learning model for classifying the behavior of recognition targets such as people and animals. The learning function and the behavior recognition function may be implemented in either the server 101 or the client 102 as long as they are implemented in the behavior recognition system 100. For example, the server 101 may implement a learning function, and the client 102 may implement an action recognition function. Further, the server 101 may implement a learning function and a behavior recognition function, and the client 102 may transmit data from the sensor 103 to the server 101 or receive behavior recognition results from the server 101 using the behavior recognition function. .

また、クライアント102が学習機能および行動認識機能を実装し、サーバ101は、クライアント102からの行動分類モデルや行動認識結果を管理してもよい。なお、学習機能を実装するコンピュータを学習装置と称し、学習機能および行動認識機能のうち少なくとも行動認識機能を実装するコンピュータを行動認識装置と称す。また、図1では、クライアントサーバ型の行動認識システム100を例に挙げたが、スタンドアロン型の行動認識装置でもよい。実施例1では、説明の便宜上、サーバ101が学習機能を実装し(学習装置)、クライアント102が行動認識機能を実装した(行動認識装置)行動認識システム100を例に挙げて説明する。 Further, the client 102 may implement a learning function and a behavior recognition function, and the server 101 may manage behavior classification models and behavior recognition results from the client 102. Note that a computer implementing a learning function is referred to as a learning device, and a computer implementing at least an action recognition function of the learning function and the action recognition function is referred to as an action recognition device. Further, in FIG. 1, a client-server type behavior recognition system 100 is taken as an example, but a stand-alone type behavior recognition device may be used. In the first embodiment, for convenience of explanation, a behavior recognition system 100 will be described as an example in which the server 101 implements a learning function (learning device) and the client 102 implements a behavior recognition function (behavior recognition device).

<コンピュータのハードウェア構成例>
図2は、コンピュータ(サーバ101、クライアント102)のハードウェア構成例を示すブロック図である。コンピュータ200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF)205と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、コンピュータ200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信IF205は、ネットワーク105と接続し、データを送受信する。
<Example of computer hardware configuration>
FIG. 2 is a block diagram showing an example of the hardware configuration of a computer (server 101, client 102). The computer 200 includes a processor 201, a storage device 202, an input device 203, an output device 204, and a communication interface (communication IF) 205. The processor 201, storage device 202, input device 203, output device 204, and communication IF 205 are connected by a bus 206. Processor 201 controls computer 200 . Storage device 202 serves as a work area for processor 201 . Furthermore, the storage device 202 is a non-temporary or temporary recording medium that stores various programs and data. Examples of the storage device 202 include ROM (Read Only Memory), RAM (Random Access Memory), HDD (Hard Disk Drive), and flash memory. Input device 203 inputs data. Examples of the input device 203 include a keyboard, mouse, touch panel, numeric keypad, and scanner. Output device 204 outputs data. Examples of the output device 204 include a display, a printer, and a speaker. Communication IF 205 connects to network 105 and transmits and receives data.

<学習データ>
図3は、学習データの一例を示す説明図である。学習データ380は、対象者ごとに骨格情報320と、関節角度370と、により構成される。骨格情報320は、センサ103から取得した解析対象データを基に検出される。関節角度370は、骨格情報320を基に算出される。対象者一人分の学習データ380は、たとえば、その対象者が被写体となる複数の時系列なフレームの各々から得られる骨格情報320および関節角度370の組み合わせにより構成される。
<Learning data>
FIG. 3 is an explanatory diagram showing an example of learning data. The learning data 380 includes skeletal information 320 and joint angles 370 for each subject. Skeletal information 320 is detected based on analysis target data acquired from sensor 103. Joint angle 370 is calculated based on skeletal information 320. The learning data 380 for one subject is configured, for example, by a combination of skeletal information 320 and joint angles 370 obtained from each of a plurality of time-series frames in which the subject is the subject.

骨格情報320は、複数(本例では18個)の骨格点300~317の各々について、名前321と、X軸におけるx座標値322と、X軸に直交するy軸におけるy座標値323と、を有する。関節角度370も、複数(本例では18個)の骨格点300~317の各々について、名前371を有する。なお、名前371において、∠a-b-c(a,b,cは骨格点の名前321)は、線分abと線分bcとのなす骨格点bの関節角度370である。なお、骨格情報320は、たとえば、指の関節を含んでもよい。また、関節角度370も、これら以外の関節角度370を含んでもよい。 The skeleton information 320 includes, for each of a plurality of (18 in this example) skeleton points 300 to 317, a name 321, an x-coordinate value 322 on the X-axis, a y-coordinate value 323 on the y-axis perpendicular to the X-axis, has. The joint angle 370 also has a name 371 for each of the plurality of (18 in this example) skeletal points 300-317. In addition, in the name 371, ∠a-b-c (a, b, c are the names 321 of skeleton points) is the joint angle 370 of the skeleton point b formed by the line segment ab and the line segment bc. Note that the skeletal information 320 may include, for example, finger joints. Further, the joint angle 370 may also include joint angles 370 other than these.

なお、図3では、骨格点300~317の座標値を2次元の位置情報(x座標値およびy座標値の組み合わせ)としたが、3次元の位置情報としてもよい。具体的には、たとえば、X軸およびy軸に直交するz軸(たとえば、奥行き方向)におけるz座標値が追加されてもよい。 Note that in FIG. 3, the coordinate values of the skeleton points 300 to 317 are two-dimensional positional information (a combination of x-coordinate values and y-coordinate values), but they may be three-dimensional positional information. Specifically, for example, a z-coordinate value in the z-axis (eg, depth direction) orthogonal to the X-axis and the y-axis may be added.

<行動認識システム100の機能的構成例>
図4は、実施例1にかかる行動認識システム100の機能的構成例を示すブロック図である。サーバ101は、教師信号取得部401と、欠損情報制御部402と、骨格情報処理部403と、主成分分析部404と、次元数制御部405と、行動学習部406と、を有する。クライアント102は、骨格検出部451と、欠損情報判断部452と、骨格情報処理部453と、主成分分析部454と、次元数決定部455と、行動分類モデル選択部456と、行動認識部457と、を有する。
<Functional configuration example of behavior recognition system 100>
FIG. 4 is a block diagram showing an example of the functional configuration of the behavior recognition system 100 according to the first embodiment. The server 101 includes a teacher signal acquisition section 401, a missing information control section 402, a skeleton information processing section 403, a principal component analysis section 404, a dimension number control section 405, and a behavior learning section 406. The client 102 includes a skeleton detection unit 451, a missing information determination unit 452, a skeleton information processing unit 453, a principal component analysis unit 454, a dimensionality determination unit 455, a behavior classification model selection unit 456, and a behavior recognition unit 457. and has.

これらは、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより実現される。まず、サーバ101側の機能的構成例について説明する。 Specifically, these are realized, for example, by causing the processor 201 to execute a program stored in the storage device 202 shown in FIG. 2. First, an example of the functional configuration of the server 101 will be described.

教師信号取得部401は、教師信号DB104から取得した教師信号について学習に用いる教師信号を単数、または複数取得して、選択した教師信号を欠損情報制御部402に出力する。 The teacher signal acquisition unit 401 acquires one or more teacher signals used for learning from the teacher signal DB 104 and outputs the selected teacher signal to the missing information control unit 402 .

欠損情報制御部402は、教師信号取得部401から取得した教師信号の内、骨格情報320に対して任意の骨格点を欠損させる。欠損させる骨格点は単数でも複数でも0でもよい。欠損情報制御部402は、欠損後(欠損させる骨格点が0個の場合も含む)の骨格情報320を教師信号内の骨格情報320として更新する。またノイズ耐性を強くするため、情報を欠損させる際に骨格情報320に対して骨格点位置をずらすようなノイズを加えて、骨格情報320を更新してもよい。 The missing information control unit 402 causes arbitrary skeleton points to be missing from the skeleton information 320 in the teacher signal acquired from the teacher signal acquisition unit 401. The number of skeleton points to be deleted may be singular, plural, or zero. The missing information control unit 402 updates the skeleton information 320 after the loss (including the case where there are no skeleton points to be deleted) as the skeleton information 320 in the teacher signal. Further, in order to strengthen noise resistance, the skeleton information 320 may be updated by adding noise that shifts the position of the skeleton points to the skeleton information 320 when deleting information.

そして、欠損情報制御部402は、欠損させた骨格点の名前321および位置情報(x座標値322、y座標値323)である欠損情報を含む教師信号を、骨格情報処理部120に出力する。また、欠損情報制御部402は、欠損情報を骨格情報処理部403と主成分分析部404と次元数制御部405を介して行動学習部406に出力する。 Then, the missing information control unit 402 outputs a teacher signal including missing information, which is the name 321 and position information (x coordinate value 322, y coordinate value 323) of the missing skeleton point, to the skeleton information processing unit 120. Furthermore, the missing information control unit 402 outputs the missing information to the behavior learning unit 406 via the skeleton information processing unit 403, principal component analysis unit 404, and dimension number control unit 405.

骨格情報処理部403は、更新後の骨格情報320を処理する。具体的には、たとえば、骨格情報処理部403は、取得した更新後の教師信号の内、骨格情報320から関節角度370とフレーム間の移動量とを算出する。また、骨格情報処理部403は、骨格情報320に対して絶対的な位置情報を除外し、骨格情報320の大きさが一定となる正規化を実行する。そして、骨格情報処理部403は、関節角度370と、フレーム間の移動量と、正規化した骨格情報320と、を主成分分析部404に出力する。 The skeleton information processing unit 403 processes the updated skeleton information 320. Specifically, for example, the skeleton information processing unit 403 calculates the joint angle 370 and the amount of movement between frames from the skeleton information 320 of the acquired updated teacher signal. Furthermore, the skeleton information processing unit 403 performs normalization on the skeleton information 320, excluding absolute position information so that the size of the skeleton information 320 is constant. Then, the skeletal information processing unit 403 outputs the joint angle 370, the amount of movement between frames, and the normalized skeletal information 320 to the principal component analysis unit 404.

図5は、骨格情報処理部403,453の詳細な機能的構成例を示すブロック図である。骨格情報処理部403,453は、関節角度算出部501と、移動量算出部502と、正規化部503と、を有する。 FIG. 5 is a block diagram showing a detailed functional configuration example of the skeleton information processing units 403 and 453. The skeletal information processing units 403 and 453 include a joint angle calculation unit 501, a movement amount calculation unit 502, and a normalization unit 503.

関節角度算出部501は、取得した教師信号の内、骨格情報320から関節角度370を算出し、移動量算出部502と正規化部503を介して主成分分析部404に出力する。 The joint angle calculation unit 501 calculates a joint angle 370 from the skeleton information 320 of the acquired teacher signal, and outputs it to the principal component analysis unit 404 via the movement amount calculation unit 502 and the normalization unit 503.

移動量算出部502は、取得した教師信号の内、骨格情報320からフレーム間の移動量を算出し、正規化部503を介して主成分分析部404に出力する。 The movement amount calculation unit 502 calculates the inter-frame movement amount from the skeleton information 320 of the acquired teacher signal, and outputs it to the principal component analysis unit 404 via the normalization unit 503.

正規化部503は、取得した教師信号の内、骨格情報320に対して絶対的な位置情報を除外し、骨格情報320の大きさが一定となる正規化を実行して主成分分析部404に出力する。 The normalization unit 503 excludes absolute position information from the acquired teacher signal with respect to the skeleton information 320, performs normalization so that the size of the skeleton information 320 is constant, and sends it to the principal component analysis unit 404. Output.

図4に戻り、主成分分析部404は、骨格情報処理部403から取得した教師信号の内、正規化した骨格情報320と、関節角度370と、フレーム間の移動量と、を入力データとして、主成分分析を実行して単数または複数の主成分を生成し、次元数制御部405に出力する。なお、骨格情報320、関節角度370、およびフレーム間の移動量のうち、少なくとも骨格情報320が入力データであればよい。 Returning to FIG. 4, the principal component analysis unit 404 uses as input data the normalized skeletal information 320, the joint angles 370, and the amount of movement between frames among the teacher signals acquired from the skeletal information processing unit 403. A principal component analysis is performed to generate one or more principal components, and the generated principal components are output to the number of dimensions control unit 405 . Note that among the skeletal information 320, the joint angles 370, and the amount of movement between frames, at least the skeletal information 320 may be input data.

主成分分析では下記式(1)に示す通り、入力データxに係数wijを各々乗算し、加算することで主成分yを生成する。主成分分析の一般式を下記式(2)に示す。係数wijは、下記式(3)に示す通り、yの分散をV(y)として定義した場合、分散V(y)が最大となるように定める。 In principal component analysis, as shown in equation (1) below, input data x i is multiplied by coefficient w ij and added to generate principal component y i . The general formula for principal component analysis is shown in formula (2) below. As shown in equation (3) below, the coefficient w ij is determined so that when the variance of y i is defined as V(y i ), the variance V(y i ) is maximized.

ただし、係数wijに制約を持たせない場合、分散V(y)の絶対量は無限に大きく取ることができ、係数wijは一意に決定することができないため、下記式(4)の制約を付すことが望ましい。また、情報の重複を無くすため、新たに生成する主成分yとこれまでに生成した主成分yの共分散は0となる下記式(5)の制約を付すことが望ましい。 However, if there is no constraint on the coefficient wij, the absolute amount of the variance V(y i ) can be infinitely large, and the coefficient wij cannot be uniquely determined, so the constraint in equation (4) below It is desirable to add . Furthermore, in order to eliminate duplication of information, it is desirable to impose the following formula (5) constraint such that the covariance between the newly generated principal component y k and the previously generated principal component y k is 0.

Figure 0007439004000001
Figure 0007439004000001

ただし、制約として付す上記式(4)と上記式(5)は、これに限らず別の制約条件を付したり、または制約を外したりして係数wijを算出しても問題ない。こうして生成した新たな主成分yの分散V(yj)について下記式(6)に示す通りλとして別途定義した場合、下記式(7)に示す通り入力データxの分散V(x)の合計とλの合計は等しい。 However, the above equations (4) and (5) that are added as constraints are not limited to these, and the coefficient w ij may be calculated by adding another constraint condition or removing the constraints. When the variance V(yj) of the new principal component y j generated in this way is separately defined as λ j as shown in equation ( 6) below, the variance V(x j ) and the sum of λ j are equal.

Figure 0007439004000002
Figure 0007439004000002

ここでpは入力データxの数とする。新たに生成した主成分yの分散V(y)は高い方が元の情報をより多く反映しており、分散値が高い主成分から順に第1、第2、…、第m主成分という。新たに生成した変数yの分散と元のデータの分散の比を寄与率といい、下記式(8)で示される。また、第1主成分の寄与率から分散値の降順(主成分の序数mの昇順)に寄与率を加算した結果を累積寄与率といい、下記式(9)で示される。 Here, p is the number of input data xj . The higher the variance V (y j ) of the newly generated principal component y j , the more the original information is reflected, and the principal component with the highest variance value is the first, second, ..., m-th principal component. That's what it means. The ratio of the variance of the newly generated variable y j to the variance of the original data is called the contribution rate, and is expressed by the following equation (8). Further, the result of adding the contribution rate from the contribution rate of the first principal component in descending order of the variance value (in ascending order of the ordinal number m of the principal component) is called the cumulative contribution rate, and is expressed by the following equation (9).

Figure 0007439004000003
Figure 0007439004000003

寄与率と累積寄与率は、新たに生成した主成分yや生成した複数の主成分が元のデータの情報量をどの程度表しているかといった尺度となり、主成分と共に生成される。なお、多変量解析で統計的な成分を生成する成分分析の一例として、主成分分析を適用したが、主成分分析の替わりに、同じく成分分析の一例である独立成分分析を実行してもよい。 The contribution rate and the cumulative contribution rate are measures of how much the newly generated principal component y j or the generated plurality of principal components represent the information amount of the original data, and are generated together with the principal component. Although principal component analysis was applied as an example of component analysis that generates statistical components in multivariate analysis, independent component analysis, which is also an example of component analysis, may be performed instead of principal component analysis. .

独立成分分析の場合、主成分は独立成分となる。この独立成分が入力データxiにどのくらい影響を与えているのかを示す指標として、寄与率を用いてもよい。独立成分分析では、独立成分ごとの独立成分分析における混合係数行列の2乗和が、各独立成分の強度となる。 In the case of independent component analysis, the principal components are independent components. A contribution rate may be used as an index indicating how much influence this independent component has on the input data xi. In the independent component analysis, the sum of squares of the mixing coefficient matrix in the independent component analysis for each independent component becomes the strength of each independent component.

独立成分の強度は独立成分の入力データxにおける分散を示す。すなわち、独立成分分析によって得られた独立成分はいずれも分散が1に統一されるため、混合係数の2乗和をとれば入力データxの分散になる。そして、独立成分の強度を、全独立成分の強度の総和で割った値を、その独立変数の寄与率とすればよい。 The strength of the independent component indicates the variance of the independent component in the input data x i . That is, since all the independent components obtained by the independent component analysis have a unified variance of 1, the sum of the squares of the mixing coefficients becomes the variance of the input data x i . Then, the contribution ratio of the independent variable may be determined by dividing the strength of the independent component by the sum of the strengths of all independent components.

次元数制御部405は、1以上の成分の各々の次元を示す序数kを制御する。具体的には、たとえば、次元数制御部405は、取得した主成分の内、行動学習部406で学習に用いる主成分を分散値の高い順に何次元まで使用するかを決定し、第1主成分から、決定した次元k(kは1以上の整数)を序数とする第k主成分までの主成分を、分散値の高い順に行動学習部406に出力する。 The dimension number control unit 405 controls an ordinal number k indicating the dimension of each of one or more components. Specifically, for example, the dimension number control unit 405 determines how many dimensions of the principal components to be used for learning in the behavioral learning unit 406 among the acquired principal components, in descending order of variance value, and selects the first principal component. The principal components from the component to the k-th principal component whose ordinal number is the determined dimension k (k is an integer greater than or equal to 1) are output to the behavior learning unit 406 in descending order of variance value.

行動学習部406は、次元数制御部405から取得した主成分と、教師信号DB104から取得した教師信号内の行動情報とを、関連付けて学習する。具体的には、たとえば、行動学習部406は、次元数制御部405から取得した第1主成分から第k主成分までの主成分群を入力データとし、教師信号DB104から取得した教師信号内の行動情報を出力データとして、機械学習により、行動分類モデルを生成する。行動学習部406は、学習の結果生成した行動分類モデルを、欠損情報制御部402から取得した欠損情報と関連付けて、行動分類モデル選択部456に出力する。 The behavior learning unit 406 learns the principal components acquired from the number of dimensions control unit 405 and the behavior information in the teacher signal acquired from the teacher signal DB 104 in association with each other. Specifically, for example, the behavior learning unit 406 uses the principal component group from the first principal component to the k-th principal component obtained from the number of dimensions control unit 405 as input data, and uses the information in the teacher signal obtained from the teacher signal DB 104 as input data. A behavior classification model is generated by machine learning using behavior information as output data. The behavior learning unit 406 associates the behavior classification model generated as a result of learning with the missing information acquired from the missing information control unit 402 and outputs it to the behavior classification model selection unit 456.

つぎに、クライアント102側の機能的構成例について説明する。骨格検出部451は、センサ103から取得した解析対象データに映る人の骨格情報320を検出し、欠損情報判断部452に出力する。骨格情報320の検出には機械学習により生成した人の骨格情報320を推定可能なNN(neural network)を用いてもよいし、検出したい人の骨格点にマーカーを付与して、画像に映るマーカー位置から骨格情報320を検出してもよく、骨格情報320を検出する方法は限定されない。 Next, an example of the functional configuration of the client 102 will be described. The skeleton detection unit 451 detects the skeleton information 320 of a person appearing in the analysis target data acquired from the sensor 103 and outputs it to the missing information determination unit 452. To detect the skeletal information 320, a neural network (NN) that can estimate the human skeletal information 320 generated by machine learning may be used, or markers may be added to the skeletal points of the person to be detected, and markers that appear in the image may be used. The skeletal information 320 may be detected from the position, and the method of detecting the skeletal information 320 is not limited.

欠損情報判断部452は、骨格検出部451で検出した骨格情報320の内、オクルージョンなどにより取得できない骨格点があるか否かを判断し、取得できなかった骨格点があれば、その位置情報を欠損情報とし、骨格検出部451で検出した骨格情報320を骨格情報処理部453に出力する。また、欠損情報判断部452は、欠損情報を骨格情報処理部453と主成分分析部454と次元数決定部455を介して行動分類モデル選択部456に出力する。 The missing information determining unit 452 determines whether there is a skeleton point that cannot be acquired due to occlusion or the like in the skeleton information 320 detected by the skeleton detecting unit 451, and if there is a skeleton point that could not be acquired, the position information of the skeleton point is determined. The skeleton information 320 detected by the skeleton detection section 451 is output to the skeleton information processing section 453 as missing information. Furthermore, the missing information determining unit 452 outputs the missing information to the behavior classification model selecting unit 456 via the skeletal information processing unit 453, the principal component analyzing unit 454, and the number of dimensions determining unit 455.

骨格情報処理部453は、骨格情報処理部403と同様の機能を有する。骨格情報処理部453は、骨格検出部451で検出した骨格情報320に対して骨格情報処理部403と同様の処理を実行して、関節角度370と、フレーム間の移動量と、正規化した骨格情報320と、を主成分分析部454に出力する。 The skeletal information processing unit 453 has the same functions as the skeletal information processing unit 403. The skeleton information processing unit 453 executes the same processing as the skeleton information processing unit 403 on the skeleton information 320 detected by the skeleton detection unit 451, and calculates the joint angle 370, the amount of movement between frames, and the normalized skeleton. The information 320 is output to the principal component analysis section 454.

主成分分析部454は、主成分分析部404と同様の機能を有する。主成分分析部454は、骨格情報処理部453からの出力データに対して主成分分析部404と同様の処理を実行して、単数または複数の主成分を生成する。また、主成分分析部454は、主成分と共に生成した寄与率と累積寄与率とを次元数決定部455に出力する。 Principal component analysis section 454 has the same functions as principal component analysis section 404. The principal component analysis section 454 performs the same processing as the principal component analysis section 404 on the output data from the skeleton information processing section 453 to generate one or more principal components. Further, the principal component analysis unit 454 outputs the contribution rate and cumulative contribution rate generated together with the principal component to the number of dimensions determination unit 455.

次元数決定部455は、各々の寄与率から得られる累積寄与率に基づいて、1以上の成分の各々の次元を示す序数kを決定する。具体的には、たとえば、次元数決定部455は、取得した寄与率および累積寄与率から、取得した主成分の内、分散の高い順に何次元までの主成分を行動分類モデル選択部456に出力するかを示す次元数kを決定する。次元数kとは、主成分の次元を示す序数kである。たとえば、第1主成分であれば、次元数(序数)k=1であり、第2主成分であれば、次元数(序数)k=2である。次元数決定部455は、分散の高い順に第1主成分から第k主成分までの主成分群を行動分類モデル選択部456に出力する。 The dimension number determination unit 455 determines an ordinal number k indicating each dimension of one or more components based on the cumulative contribution rate obtained from each contribution rate. Specifically, for example, the dimension number determining unit 455 outputs the principal components of the acquired principal components in descending order of variance from the acquired contribution rate and cumulative contribution rate to the behavior classification model selection unit 456. Determine the number of dimensions k that indicates whether The number of dimensions k is an ordinal number k indicating the dimension of the principal component. For example, for the first principal component, the number of dimensions (ordinal number) k=1, and for the second principal component, the number of dimensions (ordinal number) k=2. The number of dimensions determining unit 455 outputs a group of principal components from the first principal component to the k-th principal component to the behavior classification model selecting unit 456 in descending order of variance.

行動分類モデル選択部456は、欠損情報制御部402が生成する欠損情報に関連付けられた行動分類モデルの内、欠損情報判断部452から取得した欠損情報と同じ欠損情報が関連付けられ、かつ、次元数決定部455が決定した第k次元までの主成分群(第1主成分~第k主成分)で行動学習を行った行動分類モデルを選択する。行動分類モデル選択部456は、第1主成分から第k主成分までの主成分群と共に選択した行動分類モデルを行動認識部457に出力する。 The behavior classification model selection unit 456 selects a behavior classification model associated with the missing information generated by the missing information control unit 402, which is associated with the same missing information as the missing information obtained from the missing information determination unit 452, and whose dimension number is The determining unit 455 selects a behavior classification model that has undergone behavioral learning using the group of principal components up to the kth dimension (first principal component to kth principal component) determined by the determining unit 455. The behavior classification model selection unit 456 outputs the selected behavior classification model along with the principal component group from the first principal component to the k-th principal component to the behavior recognition unit 457.

特に2次元画像においては、定義したすべての骨格点をオクルージョンなどにより取得できない可能性があり、取得できなかった一部の骨格点が欠損した骨格情報320が骨格検出部451で生成される可能性がある。この一部の骨格点が欠損した骨格情報320について行動認識を行う場合、クライアント102は、骨格検出部451で検出された欠損した骨格情報320の欠損情報に関連付けられた行動学習モデルを用いて行動認識を行う。これにより、一部の骨格点が欠損した骨格情報320についても高精度な行動認識が実現される。 In particular, in a two-dimensional image, there is a possibility that all defined skeleton points cannot be obtained due to occlusion, etc., and the skeleton detection unit 451 may generate skeleton information 320 in which some skeleton points that could not be obtained are missing. There is. When performing behavior recognition on the skeleton information 320 in which some skeleton points are missing, the client 102 uses the behavior learning model associated with the missing information in the missing skeleton information 320 detected by the skeleton detection unit 451 to perform behavior recognition. Recognize. As a result, highly accurate behavior recognition is achieved even for the skeleton information 320 in which some skeleton points are missing.

なお、行動学習部406から取得した欠損情報制御部402が生成する欠損情報に関連付けられた行動分類モデルの内、欠損情報判断部452から取得した欠損情報と同じ欠損情報が関連付けられ、且つ次元数決定部455が決定した主成分の次元を示す序数kと同一の主成分(第1主成分~第k主成分)で行動学習を行った行動分類モデルが生成されていない場合も想定される。 Note that among the behavior classification models associated with the missing information generated by the missing information control unit 402 obtained from the behavior learning unit 406, the same missing information as the missing information obtained from the missing information determining unit 452 is associated, and the number of dimensions is It is also assumed that a behavior classification model in which behavior learning is performed using the same principal components (first principal component to k-th principal component) as the ordinal number k indicating the dimension of the principal component determined by the determining unit 455 is not generated.

この場合、行動分類モデル選択部456は、この条件に最も近い行動分類モデル(たとえば、欠損した骨格点の位置情報と所定距離以内の欠損情報が関連付けられた行動分類モデル、第1主成分~第(k-1)主成分で行動学習を行った行動分類モデルなど)を選択してもよい。 In this case, the behavior classification model selection unit 456 selects a behavior classification model that is closest to this condition (for example, a behavior classification model in which the position information of the missing skeletal point and the missing information within a predetermined distance are associated, the first principal component to the (k-1) A behavior classification model in which behavior learning is performed using principal components, etc.) may be selected.

行動認識部457は、選択した行動分類モデルと第1主成分から第k主成分までの主成分群とに基づいて、センサ103から取得した解析対象データに映る人の行動を認識する。具体的には、たとえば、行動認識部457は、解析対象データから得らえた主成分群(第1主成分~第k主成分)を、選択した行動分類モデルに入力することにより、解析対象データに映る人の行動を示す予測値を認識結果として出力する。 The behavior recognition unit 457 recognizes the behavior of the person reflected in the analysis target data acquired from the sensor 103 based on the selected behavior classification model and the principal component group from the first principal component to the k-th principal component. Specifically, for example, the behavior recognition unit 457 inputs the principal component group (first principal component to k-th principal component) obtained from the data to be analyzed into the selected behavior classification model. A predicted value indicating the behavior of the person shown in the image is output as a recognition result.

<関節角度算出の例>
図6は、関節角度算出部501が実行する関節角度370の詳細な算出方法を示す説明図である。関節角度算出部501は、連結する3点の骨格点600~602において関節角度θを算出する。骨格点600~602の骨格情報620について、原点630を基準とする位置ベクトルO、A、Bのように各々定義する。関節角度算出部501は、骨格点600を原点とする相対ベクトルを下記式(10),(11)に示す通り算出し、算出したベクトルから下記式(12)が成立し、下記式(13)に示す通り逆余弦を算出することで関節角度θを算出する。
<Example of joint angle calculation>
FIG. 6 is an explanatory diagram showing a detailed calculation method of the joint angle 370 executed by the joint angle calculation unit 501. The joint angle calculation unit 501 calculates the joint angle θ at three connected skeleton points 600 to 602. The skeleton information 620 of the skeleton points 600 to 602 is defined as position vectors O, A, and B with the origin 630 as a reference. The joint angle calculation unit 501 calculates a relative vector with the skeleton point 600 as the origin as shown in the following equations (10) and (11), and from the calculated vector, the following equation (12) is established, and the following equation (13) is established. The joint angle θ is calculated by calculating the arc cosine as shown in .

Figure 0007439004000004
Figure 0007439004000004

<フレーム間の移動量算出の例>
図7は、移動量算出部502が実行するフレーム間の移動量の詳細な算出方法の例を示す説明図である。移動量算出部502は、フレーム間の移動量の算出において、同一被写体についての第Nフレーム目の骨格情報701と第N-Mフレーム目の骨格情報702とを用いる。N、Mは1以上の整数であり、N>Mである。Mの値は任意に設定可能である。下記式(14)~(16)に示す通り、移動量算出部502は、各フレーム間で示される同一人物の同一骨格点300~317の距離を各々算出する。18個の骨格点300~317のフレーム間の移動量が、当該人物についてのフレーム間の移動量となる。
<Example of calculating the amount of movement between frames>
FIG. 7 is an explanatory diagram illustrating a detailed example of a method for calculating the amount of movement between frames, which is executed by the movement amount calculation unit 502. The movement amount calculation unit 502 uses skeleton information 701 of the Nth frame and skeleton information 702 of the NMth frame regarding the same subject in calculating the movement amount between frames. N and M are integers of 1 or more, and N>M. The value of M can be set arbitrarily. As shown in equations (14) to (16) below, the movement amount calculation unit 502 calculates the distances between the same skeletal points 300 to 317 of the same person shown between each frame. The amount of movement of the 18 skeleton points 300 to 317 between frames is the amount of movement between frames for the person.

Figure 0007439004000005
Figure 0007439004000005

ただ、移動量算出部502が実行するフレーム間の移動量はこれに限定されるものではなく、下記式(17)に示す通り、移動量算出部502は、各フレーム間で示される同一人物の同一骨格点300~317の距離を各々算出し、全18個の骨格点300~317のフレーム間の移動量を合算した値を、当該人物についてのフレーム間の移動量としてもよい。

Figure 0007439004000006
However, the amount of movement between frames executed by the movement amount calculation unit 502 is not limited to this, and as shown in equation (17) below, the movement amount calculation unit 502 can calculate the amount of movement of the same person shown between each frame. The distances between the same skeletal points 300 to 317 may be calculated, and the sum of the inter-frame movement amounts of all 18 skeletal points 300 to 317 may be used as the inter-frame movement amount for the person.
Figure 0007439004000006

また、移動量算出部502は、第nフレームの骨格情報701と第n-mフレームの骨格情報702の内、重心となる重心骨格情報711と重心骨格情報712を用いてもよい。具体的には、たとえば、移動量算出部502は、下記式(18)~(19)に示す通り、人物ごとに重心を算出し、下記式(20)に示す通り、算出した重心に対して、当該人物についてのフレーム間の移動量を算出してもよい。 Further, the movement amount calculation unit 502 may use center-of-gravity skeleton information 711 and center-of-gravity skeleton information 712, which are the center of gravity, out of the skeleton information 701 of the n-th frame and the skeleton information 702 of the nm-th frame. Specifically, for example, the movement amount calculation unit 502 calculates the center of gravity for each person as shown in equations (18) to (19) below, and calculates the center of gravity for each person as shown in equation (20) below. , the amount of movement between frames for the person may be calculated.

Figure 0007439004000007
Figure 0007439004000007

<正規化の例>
図8は、正規化部503が実行する骨格情報320の正規化の詳細な手法を示す説明図である。まず、正規化部503は、(a)すべてまたは一部の骨格情報320から重心を算出し、(b)重心を原点とする相対座標に変換する。その後、正規化部503は、(c)18個の骨格点300~317を囲う最小の長方形の対角線の長さLで、(d)骨格情報320の各骨格点の位置情報を割る。(d)で得られた骨格情報320を教師信号とした場合、割り算後の骨格点300~317の位置情報も組み込まれることとなる。
<Example of normalization>
FIG. 8 is an explanatory diagram showing a detailed method of normalizing the skeleton information 320 performed by the normalization unit 503. First, the normalization unit 503 (a) calculates the center of gravity from all or part of the skeleton information 320, and (b) converts the center of gravity into relative coordinates with the origin as the origin. After that, the normalization unit 503 divides (d) the position information of each skeleton point in the skeleton information 320 by (c) the length L of the minimum rectangular diagonal that surrounds the 18 skeleton points 300 to 317. If the skeleton information 320 obtained in (d) is used as a teacher signal, the position information of the skeleton points 300 to 317 after division will also be incorporated.

たとえば、正規化部503が実行されないと「180cmの人が地点Aで座る」といった行動について骨格検出および行動分類のための学習が実行されると、「地点A以外では座らない」、「180cm以外の人は座らない」といった判定が下される可能性がある。こうした限定を除外し、行動分類に汎用性を持たせるため、画像内の絶対的な位置情報と、骨格の大きさに関する情報について除去するため、正規化部503が骨格情報320の正規化を実行する。 For example, if the normalization unit 503 is not executed and learning for skeleton detection and behavior classification is executed for an action such as "a 180 cm person sits at point A", "a person who is 180 cm tall sits at point A" and "does not sit at any place other than point A" There is a possibility that a judgment will be made that ``people who do not sit down will not sit down''. In order to eliminate these limitations and provide versatility in behavior classification, the normalization unit 503 normalizes the skeleton information 320 in order to remove absolute position information in the image and information regarding the size of the skeleton. do.

<教師信号DB104が保持する教師信号>
図9は、教師信号DB104が保持する教師信号の詳細な例を示す説明図である。解析対象データとなる(a)画像900に映る人において、(b)骨格情報320Aと、関節角度370(不図示)と、骨格情報320Aに関連付けられる(c)行動情報901(「立つ」)と、の組み合わせが、教師信号となる。同様に、解析対象データとなる(a)画像910に映る人において、(b)骨格情報320Bと、関節角度370(不図示)と、骨格情報320Bに関連付けられる(c)行動情報911(「倒れる」)と、の組み合わせが、教師信号となる。
<Teacher signal held by the teacher signal DB 104>
FIG. 9 is an explanatory diagram showing a detailed example of the teacher signal held by the teacher signal DB 104. For the person appearing in (a) image 900, which is data to be analyzed, (b) skeletal information 320A, joint angles 370 (not shown), and (c) behavior information 901 (“standing”) associated with skeletal information 320A. , becomes the teacher signal. Similarly, for the person appearing in (a) image 910, which is the data to be analyzed, (b) skeletal information 320B, joint angles 370 (not shown), and (c) behavioral information 911 (“fall down”) associated with skeletal information 320B. ”) becomes the teacher signal.

<次元数制御部405による次元数制御と行動学習部406による行動学習>
図10は、教師信号を入力データとして主成分分析部404が生成した主成分を、主成分空間上にプロットした例を示す説明図である。凡例は教師信号に含まれる行動情報1000~1004を示す。
<Number of dimensions control by the number of dimensions control unit 405 and behavior learning by the behavior learning unit 406>
FIG. 10 is an explanatory diagram showing an example in which the principal components generated by the principal component analysis unit 404 using the teacher signal as input data are plotted on the principal component space. The legend indicates behavior information 1000 to 1004 included in the teacher signal.

図10において、(a)はX軸に第1主成分を、Y軸に第2主成分をとり、第2主成分までの情報を2次元平面上にプロットした例を示す。(b)はX軸に第1主成分を、Y軸に第2主成分をとり、Z軸に第3主成分をとり、第3主成分までの情報を3次元空間上にプロットした例を示す。 In FIG. 10, (a) shows an example in which the first principal component is plotted on the X axis and the second principal component is plotted on the Y axis, and information up to the second principal component is plotted on a two-dimensional plane. (b) is an example in which the first principal component is plotted on the X-axis, the second principal component is plotted on the Y-axis, and the third principal component is plotted on the Z-axis, and the information up to the third principal component is plotted on a three-dimensional space. show.

(a)において、立つ1000と、座る1001と、倒れる1004は、第2主成分までの2次元平面上でも分離可能な様子が伺えるが、歩く1002と、しゃがむ1003は第2主成分までの2次元平面上では分離困難な様子が伺える。ここで、(b)において、第3主成分までを含めた3次元空間上で、歩く1002としゃがむ1003をプロットした場合、分離の可能性が拡大する場合がある。 In (a), it can be seen that standing 1000, sitting 1001, and falling 1004 can be separated even on a two-dimensional plane up to the second principal component, but walking 1002 and squatting 1003 are two-dimensional up to the second principal component. It can be seen that separation is difficult on a dimensional plane. Here, in (b), if walking 1002 and crouching 1003 are plotted on a three-dimensional space including up to the third principal component, the possibility of separation may increase.

このため、主成分分析部404が生成した主成分を多く用いれば高精度な行動分類の可能性がある。ただし、主成分の次元を示す序数kを多くすると計算量は増加するため、精度と計算量からどこまでの主成分を考慮し、どのくらいの次元の空間で行動を表すかを判断する必要がある。 Therefore, if a large number of principal components generated by the principal component analysis unit 404 are used, highly accurate behavior classification is possible. However, as the ordinal number k, which indicates the dimension of the principal component, increases, the amount of calculation increases, so it is necessary to consider the extent of the principal component based on the accuracy and amount of calculation, and determine in what dimensional space the behavior should be represented.

したがって、次元数制御部405は、行動学習部406で学習に用いる主成分の最大序数を変化させ、第1主成分~最大序数の主成分までの主成分群を行動学習部406に出力する。具体的には、たとえば、上述した行動分類の要求精度(たとえば、最低限必要な主成分の次元を示す序数)または/および許容計算量をあらかじめ設定しておき、次元数制御部405が、行動学習部406で学習に用いる主成分の最大序数を変化させ、要求精度または/および許容計算量を最大限充足する序数を決定する。 Therefore, the dimension number control unit 405 changes the maximum ordinal number of the principal components used for learning by the behavior learning unit 406, and outputs the principal component group from the first principal component to the principal component with the maximum ordinal number to the behavior learning unit 406. Specifically, for example, the required accuracy of the behavior classification described above (for example, an ordinal number indicating the minimum required dimension of the principal component) and/or the allowable amount of calculation are set in advance, and the number of dimensions control unit 405 controls the behavior classification. The learning unit 406 changes the maximum ordinal number of the principal component used for learning, and determines the ordinal number that satisfies the required accuracy and/or allowable amount of calculation to the maximum extent.

たとえば、要求精度が次元を示す序数「3」(第3主成分)という条件の場合、次元数制御部405は、最大序数を「3」に決定し、第1主成分~第3主成分までの主成分群を行動学習部406に出力する。 For example, if the required accuracy is an ordinal number "3" indicating a dimension (third principal component), the dimension number control unit 405 determines the maximum ordinal number to be "3" and The principal component group of is output to the behavior learning unit 406.

また、許容計算量が条件に設定されている場合、次元数制御部405は、第1主成分から昇順に計算量を順次取得し、最大序数を、許容計算量をはじめて超えたときの序数(たとえば、「5」)より1つ少ない序数(たとえば、「4」)に決定し、第1主成分から最大序数k=4の第4主成分までの主成分群を行動学習部406に出力する。 In addition, when the allowable amount of calculation is set as a condition, the number of dimensions control unit 405 sequentially acquires the amount of calculation in ascending order from the first principal component, and sets the maximum ordinal number to the ordinal number ( For example, the ordinal number (for example, "4") is determined to be one less than "5" (for example, "4"), and the principal component group from the first principal component to the fourth principal component with the maximum ordinal number k=4 is output to the behavior learning unit 406. .

また、要求精度が次元を示す序数「3」(第3主成分)以上という条件で、かつ、許容計算量が条件に設定されている場合、第3主成分までの累積計算量が許容計算量以下であれば、次元数制御部405は、最大序数を「3」から「4」に変化させる。そして、第4主成分までの累積計算量が許容計算量を超えれば、次元数制御部405は、最大序数kを「3」に決定し、第1主成分~第3主成分までの主成分群を行動学習部406に出力する。 In addition, if the required accuracy is the ordinal number "3" indicating the dimension (third principal component) or more, and the allowable calculation amount is set as a condition, the cumulative calculation amount up to the third principal component is the allowable calculation amount. If it is below, the dimension number control unit 405 changes the maximum ordinal number from "3" to "4". Then, if the cumulative amount of calculation up to the fourth principal component exceeds the allowable amount of calculation, the dimension number control unit 405 determines the maximum ordinal number k to be "3", and The group is output to the behavior learning unit 406.

一方、第3主成分までの累積計算量が許容計算量を超えれば、次元数制御部405は、最大序数を「3」から「2」に変化させる。そして、第2主成分までの累積計算量が許容計算量以下であれば、次元数制御部405は、最大序数kを「2」に決定し、第1主成分~第2主成分までの主成分群を行動学習部406に出力する。 On the other hand, if the cumulative amount of calculation up to the third principal component exceeds the allowable amount of calculation, the number of dimensions control unit 405 changes the maximum ordinal number from "3" to "2". Then, if the cumulative amount of calculation up to the second principal component is less than the allowable amount of calculation, the number of dimensions control unit 405 determines the maximum ordinal number k to be "2", and The component group is output to the behavior learning unit 406.

なお、行動学習部406に出力する主成分群は、第1主成分から昇順に限定する必要はない。たとえば、次元数制御部405は、予め定めた主成分群を特定の数だけ取り出してもよい。また、次元数制御部405は、特定の主成分群を除外した上で行動学習部406に出力する主成分群を決定してもよい。このように、行動学習部406に出力する主成分群は第1主成分から昇順の主成分群に限定されない。 Note that the principal component group output to the behavior learning unit 406 does not need to be limited to ascending order starting from the first principal component. For example, the number of dimensions control unit 405 may extract a specific number of predetermined principal component groups. Further, the number of dimensions control unit 405 may decide the principal component group to be output to the behavior learning unit 406 after excluding a specific principal component group. In this way, the principal component groups output to the behavior learning unit 406 are not limited to principal component groups in ascending order from the first principal component.

また、この場合においても、許容計算量が条件に設定されている場合、次元数制御部405は、上述した第1主成分からの昇順に限定していない主成分群について、序数の昇順に計算量を順次取得し、許容計算量をはじめて超えたときの序数より1つ前の序数までの主成分群を行動学習部406に出力する。たとえば、主成分群が第2主成分、第3主成分、第5主成分からなる場合、第2主成分では許容計算量を超えず、第2主成分および第3主成分でも許容計算量を超えず、第2主成分、第3主成分、および第5主成分ではじめて許容計算量を超えた場合、次元数制御部405は、第2主成分から第5主成分の1つ前の第3主成分までを、行動学習部406に出力する主成分群に決定してもよい。 Also, in this case, if the allowable amount of calculation is set as a condition, the number of dimensions control unit 405 calculates the principal component groups in ascending order of ordinal numbers, which is not limited to the ascending order from the first principal component described above. The amount is sequentially acquired, and the principal component group up to the ordinal number immediately before the ordinal number when the allowable calculation amount is exceeded for the first time is output to the behavior learning unit 406. For example, if the principal component group consists of the second principal component, third principal component, and fifth principal component, the second principal component does not exceed the allowable amount of calculation, and the second and third principal components do not exceed the allowable amount of calculation. If the allowable calculation amount is exceeded for the first time in the second principal component, third principal component, and fifth principal component without exceeding the allowable amount of calculation, the dimension number control unit 405 Up to three principal components may be determined as the principal component group to be output to the behavior learning unit 406.

行動学習部406は、予め複数の条件での行動学習を行い、行動分類モデルを生成し、行動分類モデル選択部456に出力する。こうして生成した複数の行動分類モデルから状況に合わせて行動分類モデルを選択することで、汎用的で高精度な行動認識を実現する。 The behavior learning unit 406 performs behavior learning under a plurality of conditions in advance, generates a behavior classification model, and outputs it to the behavior classification model selection unit 456. By selecting a behavior classification model according to the situation from the multiple behavior classification models generated in this way, versatile and highly accurate behavior recognition is achieved.

図11は、行動学習部406が行動を学習し、行動認識部457が行動を分類するための詳細な手法を示す説明図である。主成分空間上での各行動について、行動学習部406は、(a)境界線1101や(b)境界平面1102を用いて、各行動を領域毎に分類する。行動を学習し分類する際の手法は、k平均法や、サポートベクトルマシン、決定木や、ランダムフォレストなどいずれを採用してもよく、行動学習方法は限定されない。 FIG. 11 is an explanatory diagram showing a detailed method for the behavior learning unit 406 to learn behaviors and for the behavior recognition unit 457 to classify the behaviors. Regarding each action on the principal component space, the action learning unit 406 classifies each action into regions using (a) a boundary line 1101 and (b) a boundary plane 1102. The method for learning and classifying behaviors may be any of the k-means method, support vector machine, decision tree, random forest, etc., and the behavior learning method is not limited.

行動学習部406が学習して生成した行動分類モデルを用いて、行動認識部457は行動を認識する。具体的には、たとえば、クライアント102は、新たに入力された骨格情報320について主成分分析を適用し、新たに生成された主成分を行動分類モデルが設定する境界線1101や境界平面1102に従って、どの領域に属するかを判定し、判定された領域に従って行動を認識する。 Using the behavior classification model learned and generated by the behavior learning unit 406, the behavior recognition unit 457 recognizes the behavior. Specifically, for example, the client 102 applies principal component analysis to the newly input skeletal information 320, and uses the newly generated principal components according to the boundary line 1101 and boundary plane 1102 set by the behavior classification model. Determine which region it belongs to and recognize the behavior according to the determined region.

図12は、次元数決定部455が次元数決定の際に用いる累積寄与率の推移を示すグラフである。累積寄与率は、新たに生成した複数の主成分が元のデータの情報量をどの程度表しているかといったことを示す尺度となる。このため、主成分の数を増やして、行動分類の際の次元数を増やしても、累積寄与率に大きな変化が見られない場合は、大きな精度向上は見込めない。 FIG. 12 is a graph showing changes in the cumulative contribution rate used by the dimension number determining unit 455 when determining the number of dimensions. The cumulative contribution rate is a measure of how much the newly generated principal components represent the amount of information in the original data. Therefore, even if the number of principal components is increased to increase the number of dimensions for behavior classification, if there is no significant change in the cumulative contribution rate, no significant improvement in accuracy can be expected.

そこで、次元数決定部455は、予め定めた累積寄与率の閾値を超えるのに必要な数だけ主成分を使用することとし、次元数を決定する。たとえば、予め定めた累積寄与率の閾値を「0.8」とする場合、第2主成分まであれば条件を満たすため、ここでの次元数kは「2」として、第1主成分と第2主成分とを行動分類モデル選択部456に出力する。 Therefore, the number of dimensions determining unit 455 determines the number of dimensions by using only the number of principal components necessary to exceed a predetermined cumulative contribution rate threshold. For example, if the predetermined cumulative contribution rate threshold is "0.8", the condition is satisfied as long as the second principal component is reached, so the number of dimensions k here is set to "2", and the first principal component and 2 principal components to the behavior classification model selection unit 456.

なお、行動分類モデル選択部456に出力する主成分群は、第1主成分から昇順に限定する必要はない。たとえば、次元数決定部455は、予め定めた累積寄与率の閾値を超えずかつ累積寄与率が最大となる主成分の序数kの組み合わせを決定してもよい。また、次元数決定部455は、このような主成分の序数kの組み合わせを、行動分類モデルに適用さされる主成分群から選択してもよい。このように、行動分類モデル選択部456に出力する主成分群は第1主成分から昇順の主成分群に限定されない。 Note that the principal component groups output to the behavior classification model selection unit 456 do not need to be limited to ascending order starting from the first principal component. For example, the number of dimensions determination unit 455 may determine a combination of ordinal numbers k of principal components that does not exceed a predetermined cumulative contribution rate threshold and has a maximum cumulative contribution rate. Further, the dimension number determination unit 455 may select such a combination of ordinal numbers k of principal components from a group of principal components applied to the behavior classification model. In this way, the principal component groups output to the behavior classification model selection unit 456 are not limited to principal component groups in ascending order from the first principal component.

<学習処理>
図13は、実施例1にかかるサーバ101(学習装置)による学習処理の詳細な処理手順例を示すフローチャートである。サーバ101は、教師信号取得部401により、教師信号DB104から取得した教師信号について学習に用いる教師信号を単数、または複数取得する(ステップS1300)。
<Learning process>
FIG. 13 is a flowchart illustrating a detailed processing procedure example of learning processing by the server 101 (learning device) according to the first embodiment. The server 101 uses the teacher signal acquisition unit 401 to acquire one or more teacher signals used for learning from the teacher signals acquired from the teacher signal DB 104 (step S1300).

サーバ101は、欠損情報制御部402により、取得した教師信号内の骨格情報320に対して情報を欠損させ、欠損させた骨格情報320を教師信号内の骨格情報320として更新し、欠損させた骨格点の名前321および位置情報(x座標値322,y座標値323)を欠損情報とする(ステップS1301)。欠損情報制御部が実行された教師信号を、更新教師信号と称す。 The server 101 uses the missing information control unit 402 to cause information to be missing from the skeleton information 320 in the acquired teacher signal, updates the missing skeleton information 320 as the skeleton information 320 in the teacher signal, and updates the missing skeleton as the skeleton information 320 in the teacher signal. The point name 321 and position information (x coordinate value 322, y coordinate value 323) are set as missing information (step S1301). The teacher signal on which the missing information control unit is executed is referred to as an updated teacher signal.

サーバ101は、骨格情報処理部403により、更新教師信号ごとに骨格情報処理を実行する(ステップS1302)。具体的には、たとえば、サーバ101は、関節角度算出部501、移動量算出部502、および正規化部503による処理を実行する。 The server 101 uses the skeleton information processing unit 403 to execute skeleton information processing for each updated teacher signal (step S1302). Specifically, for example, the server 101 executes processing by a joint angle calculation unit 501, a movement amount calculation unit 502, and a normalization unit 503.

図14は、実施例1にかかる骨格情報処理の詳細な処理手順例を示すフローチャートである。サーバ101は、関節角度算出部501により、更新教師信号ごとに、更新教師信号内の骨格情報320から関節角度370を算出する(ステップS1401)。つぎに、サーバ101は、移動量算出部502により、更新教師信号ごとに、更新教師信号内の骨格情報320からフレーム間の移動量を算出する(ステップS1401)。 FIG. 14 is a flowchart illustrating a detailed processing procedure example of skeleton information processing according to the first embodiment. The server 101 uses the joint angle calculating unit 501 to calculate the joint angle 370 from the skeleton information 320 in the updated teaching signal for each updated teaching signal (step S1401). Next, in the server 101, the movement amount calculation unit 502 calculates the movement amount between frames for each updated teacher signal from the skeleton information 320 in the updated teacher signal (step S1401).

そして、サーバ101は、正規化部により、更新教師信号ごとに、骨格情報320に対して絶対的な位置情報を除外し、骨格情報320の大きさが一定となる正規化を実行する(ステップS1303)。これにより、更新教師信号について、関節角度370と、フレーム間の移動量と、正規化した骨格情報320と、が得られる。そして、図13のステップS1303に移行する。 Then, the server 101 uses the normalization unit to exclude absolute position information from the skeletal information 320 for each updated teacher signal, and performs normalization such that the size of the skeletal information 320 is constant (step S1303 ). As a result, the joint angle 370, the amount of movement between frames, and the normalized skeletal information 320 are obtained for the updated teacher signal. Then, the process moves to step S1303 in FIG. 13.

図13に戻り、サーバ101は、主成分分析部404により、正規化した骨格情報320と、関節角度370と、フレーム間の移動量と、を入力データとして、主成分分析を実行して、単数または複数の主成分を生成する(ステップS1303)。 Returning to FIG. 13, the server 101 uses the normalized skeletal information 320, the joint angles 370, and the amount of movement between frames as input data, and executes a principal component analysis using the principal component analysis unit 404. Alternatively, multiple principal components are generated (step S1303).

つぎに、サーバ101は、次元数制御部405により、生成した主成分の内、学習に用いる主成分を分散値の高い順に何次元使用するか決定し、決定したk次元までの主成分(第1主成分~第k主成分)を分散値の高い順に選択する(ステップS1304)。 Next, the server 101 uses the dimension number control unit 405 to determine how many principal components to use for learning among the generated principal components in descending order of variance value, and determines the principal components up to the determined k dimension (the 1st principal component to kth principal component) are selected in descending order of variance value (step S1304).

そして、サーバ101は、行動学習部により、選択した主成分と、更新教師信号内の行動情報と、に基づいて学習を行い、学習の結果、行動分類モデルを生成し、欠損情報と関連付ける(ステップS1305)。 Then, the server 101 uses the behavior learning unit to perform learning based on the selected principal component and the behavior information in the updated teacher signal, and as a result of the learning, generates a behavior classification model and associates it with the missing information (step S1305).

主成分分析(ステップS1303)では、主成分分析を実行する前の情報と同じ次元数kの主成分を生成することが可能である。このため、ステップS1306では、サーバ101は、次元数制御部405により、ステップS1304で決定した学習に用いる主成分の次元数kについて、これまでに決定していない主成分の次元がある場合は(ステップS1306:No)、ステップS1304に戻り、これまでに決定していない主成分の次元を決定する(ステップS1304)。 In the principal component analysis (step S1303), it is possible to generate principal components with the same number of dimensions k as the information before performing the principal component analysis. Therefore, in step S1306, the server 101 uses the dimension number control unit 405 to control the dimension number k of the principal components used for learning determined in step S1304, if there is a dimension of the principal components that has not been determined so far, ( Step S1306: No), the process returns to step S1304, and the dimensions of the principal components that have not been determined so far are determined (step S1304).

一方、決定可能な学習に用いるすべての主成分の次元をこれまでに決定している場合は(ステップS1306:Yes)、ステップS1307に進む。ただ、ステップS1306の処理の判断は、決定可能な学習に用いるすべての主成分の次元の決定の是非で次の処理を判断のみに限定されない。たとえば、繰返し回数を予め定めておき、予め定めた繰返し回数だけステップS1304を繰返していれば、ステップS1307の処理に進むなどの処理としてもよい。 On the other hand, if the dimensions of all principal components used for determinable learning have been determined (step S1306: Yes), the process advances to step S1307. However, the determination of the process in step S1306 is not limited to determining the next process based on whether or not to determine the dimensions of all principal components used for decidable learning. For example, if the number of repetitions is predetermined and step S1304 is repeated the predetermined number of times, the process may proceed to step S1307.

ステップS1307では、ステップS1301で欠損させた骨格情報320について、まだ欠損させていない骨格情報320があれば(ステップS1307:No)、ステップS1301の処理に戻り、サーバ101は、これまでに欠損させていない骨格について欠損させる(ステップS1301)。 In step S1307, if there is skeletal information 320 that has not been deleted yet for the skeletal information 320 that has been deleted in step S1301 (step S1307: No), the process returns to step S1301, and the server 101 determines whether or not the skeletal information 320 has been deleted so far. Skeletons that do not exist are deleted (step S1301).

一方、すべての骨格情報320について欠損させた場合(ステップS1307:Yes)、ステップS1308の処理に進む。ただステップS1307の処理の判断はこれに限らず、サーバ101は、予め定めた繰返し回数に従ってステップS1301に戻るか、ステップS1308に進むかを判断してもよい。また、欠損させる骨格を予め定めておき、サーバ101は、予め定めた骨格をすべて欠損させたか否かでステップS1301に戻るか、ステップS1308に進むか判断してもよい。 On the other hand, if all of the skeleton information 320 is deleted (step S1307: Yes), the process advances to step S1308. However, the determination of the process in step S1307 is not limited to this, and the server 101 may determine whether to return to step S1301 or proceed to step S1308 according to a predetermined number of repetitions. Alternatively, skeletons to be deleted may be determined in advance, and the server 101 may determine whether to return to step S1301 or proceed to step S1308 depending on whether all the predetermined skeletons have been deleted.

ステップS1308では、ステップS1300で選択した教師信号について、まだ選択していない教師信号があれば(ステップS1308:No)、サーバ101は、これまでに選択していない教師信号を選択する(ステップS1300)。一方、すべての教師信号について選択した場合は(ステップS1308:Yes)、サーバ101は、行動学習の処理を終了する。ただステップS1308の処理の判断はこれに限らず、サーバ101は、予め定めた繰返し回数に従ってステップS1300に戻るか、行動学習の処理を終了するかを判断してもよい。 In step S1308, if there is a teacher signal that has not been selected yet among the teacher signals selected in step S1300 (step S1308: No), the server 101 selects a teacher signal that has not been selected so far (step S1300). . On the other hand, if all teacher signals have been selected (step S1308: Yes), the server 101 ends the behavioral learning process. However, the determination of the process in step S1308 is not limited to this, and the server 101 may determine whether to return to step S1300 or terminate the behavior learning process according to a predetermined number of repetitions.

<行動認識処理>
図15は、実施例1にかかるクライアント102(行動認識装置)による行動認識処理手順例を示すフローチャートである。クライアント102は、骨格検出部451により、センサ103から取得した解析対象データに映る人の骨格情報320を検出する(ステップS1500)。つぎに、クライアント102は、欠損情報判断部452により、検出した骨格情報320の内、オクルージョンなどにより検出できなかった骨格点の位置情報を欠損情報であると判断する(ステップS1501)
<Action recognition processing>
FIG. 15 is a flowchart illustrating an example of a behavior recognition processing procedure by the client 102 (behavior recognition device) according to the first embodiment. The client 102 uses the skeleton detection unit 451 to detect the skeleton information 320 of the person appearing in the analysis target data acquired from the sensor 103 (step S1500). Next, in the client 102, the missing information determining unit 452 determines that the position information of the skeletal points that could not be detected due to occlusion or the like in the detected skeletal information 320 is missing information (step S1501).

つぎに、クライアント102は、骨格情報処理部453により、ステップS1500で検出した骨格情報320について、ステップS1302の処理と同様に、骨格情報処理を実行する(ステップS1502)。具体的には、たとえば、サーバ101は、図14に示したように、関節角度算出部501、移動量算出部502、および正規化部503による処理を実行する。 Next, the client 102 uses the skeleton information processing unit 453 to perform skeleton information processing on the skeleton information 320 detected in step S1500, similar to the process in step S1302 (step S1502). Specifically, for example, the server 101 executes processing by a joint angle calculation unit 501, a movement amount calculation unit 502, and a normalization unit 503, as shown in FIG.

つぎに、クライアント102は、主成分分析部454により、ステップS1502で正規化した骨格情報320と関節角度370とフレーム間の移動量とを入力データとして、主成分分析を実行して、単数または複数の主成分を生成し、主成分と共に寄与率と累積寄与率も算出する(ステップS1503)。 Next, the client 102 uses the skeletal information 320 normalized in step S1502, the joint angles 370, and the amount of movement between frames as input data to cause the principal component analysis unit 454 to perform principal component analysis, and then A principal component is generated, and a contribution rate and a cumulative contribution rate are also calculated along with the principal component (step S1503).

つぎに、クライアント102は、次元数決定部455により、算出した寄与率および累積寄与率から、生成した主成分の内、分散の高い順にいくつの主成分を使用するかを決定する(ステップS1504)。 Next, the client 102 uses the dimension number determination unit 455 to determine how many principal components to use from among the generated principal components in descending order of variance from the calculated contribution rate and cumulative contribution rate (step S1504). .

つぎに、クライアント102は、行動分類モデル選択部456により、行動学習により生成した行動分類モデルの内、ステップS1501で検出した欠損情報と同じ欠損情報が関連付けられ、且つステップS1504で決定した主成分の次元数と同じ次元数の主成分で行動学習を行った行動分類モデルを選択する(ステップS1505)。 Next, the client 102 uses the behavior classification model selection unit 456 to determine whether the behavior classification model generated by behavior learning is associated with the same missing information as the missing information detected in step S1501, and which is associated with the main component determined in step S1504. A behavior classification model that has undergone behavior learning using principal components having the same number of dimensions as the number of dimensions is selected (step S1505).

つぎに、クライアント102は、行動認識部457により、ステップS1505で選択した行動分類モデルと主成分とに基づいて、センサ103から取得した解析対象データに映る人の行動を認識する(ステップS1506)。クライアント102は、認識結果をサーバ101に送信してもよく、また、認識結果を用いて、クライアント102に接続されている機器を制御してもよい。 Next, the client 102 uses the behavior recognition unit 457 to recognize the behavior of the person reflected in the analysis target data acquired from the sensor 103 based on the behavior classification model and principal components selected in step S1505 (step S1506). The client 102 may send the recognition result to the server 101, and may also use the recognition result to control devices connected to the client 102.

たとえば、センサ103が配備されている解析環境が工場である場合、行動認識システム100は、認識結果を用いて、工場内での作業員の作業監視や、製品の欠陥検査などに適用可能である。解析環境が電車である場合、行動認識システム100は、認識結果を用いて、電車内での乗客の監視や車内設備の監視、火災などの災害検知などに適用可能である。 For example, if the analysis environment in which the sensor 103 is installed is a factory, the behavior recognition system 100 can be applied to monitoring the work of workers in the factory, inspecting products for defects, etc. using the recognition results. . When the analysis environment is a train, the behavior recognition system 100 can be applied to monitoring passengers on the train, monitoring in-car equipment, detecting disasters such as fire, etc. using the recognition results.

このように、実施例1によれば、認識対象の複数種類の行動を高精度に認識することができる。特に、オクルージョンになどにより骨格点300~317が一部欠損した場合においても、欠損した骨格点に応じた複数種類の行動を高精度に認識することができる。 In this manner, according to the first embodiment, multiple types of behaviors to be recognized can be recognized with high accuracy. In particular, even if some of the skeleton points 300 to 317 are missing due to occlusion or the like, it is possible to recognize a plurality of types of actions with high accuracy depending on the missing skeleton points.

実施例2を、実施例1との相違点を中心に説明する。なお、実施例1と共通する点については、同一符号を付し、その説明を省略する。 The second embodiment will be described focusing on the differences from the first embodiment. Note that the same points as in the first embodiment are given the same reference numerals, and the explanation thereof will be omitted.

図16は、実施例2にかかる行動認識システム100の機能的構成例を示すブロック図である。実施例2では、欠損情報制御部402が削除され、欠損情報判断部452が欠損情報補間部1652に変更される。これにより、人の動作している位置の計測について、オクルージョンなどにより一部骨格が計測できずに欠損情報が含まれる場合に、欠損情報補間部1652は、計測可能であった骨格情報320から欠損情報を補間する。 FIG. 16 is a block diagram showing an example of the functional configuration of the behavior recognition system 100 according to the second embodiment. In the second embodiment, the missing information control section 402 is deleted, and the missing information determining section 452 is changed to the missing information interpolating section 1652. As a result, when measuring the position of a person's movement, if part of the skeleton cannot be measured due to occlusion or the like and contains missing information, the missing information interpolation unit 1652 can remove the missing information from the measurable skeletal information 320. Interpolate information.

具体的には、たとえば、欠損情報補間部1652は、骨格検出部451から取得した骨格情報320の内、オクルージョンなどにより取得できなかった骨格点の位置情報を欠損情報とし、欠損情報を補間して骨格情報処理部453に出力する。欠損情報補間部1652は、たとえば、取得できた骨格情報320の内、連結される骨格点または欠損情報に近い位置にある骨格点から、欠損情報を補間してもよい。 Specifically, for example, the missing information interpolation unit 1652 uses the position information of a skeleton point that could not be acquired due to occlusion or the like in the skeleton information 320 obtained from the skeleton detection unit 451 as missing information, and interpolates the missing information. It is output to the skeleton information processing section 453. The missing information interpolation unit 1652 may, for example, interpolate the missing information from skeleton points to be connected or skeleton points located near the missing information in the acquired skeleton information 320.

また、欠損情報補間部1652は、欠損情報に対して予め定めた位置情報を代入してもよい。また、欠損情報補間部1652は、これまでに取得した別のフレームの骨格情報320について欠損情報を含むと判断された骨格情報320の欠損情報を用いて補間してもよい。このように、欠損情報の補間手法は限定されない。 Furthermore, the missing information interpolation unit 1652 may substitute predetermined position information for the missing information. Furthermore, the missing information interpolation unit 1652 may interpolate the previously acquired skeletal information 320 of another frame using the missing information of the skeletal information 320 that has been determined to include missing information. In this way, the interpolation method for missing information is not limited.

<学習処理>
図17は、実施例2にかかるサーバ101(学習装置)による学習処理の詳細な処理手順例を示すフローチャートである。実施例2では、欠損情報制御(ステップS1301)が実行されず、ステップS1300で選択された教師信号について骨格情報処理(ステップS1302)が実行される。すなわち、実施例2では、骨格点の欠損の有無にかかわらず、骨格情報320を区別することなく、行動学習部406が1つの行動分類モデルを生成する。
<Learning process>
FIG. 17 is a flowchart illustrating a detailed processing procedure example of learning processing by the server 101 (learning device) according to the second embodiment. In the second embodiment, missing information control (step S1301) is not performed, and skeleton information processing (step S1302) is performed for the teacher signal selected in step S1300. That is, in the second embodiment, the behavior learning unit 406 generates one behavior classification model without distinguishing the skeletal information 320 regardless of the presence or absence of missing skeletal points.

<行動認識処理>
図18は、実施例2にかかるクライアント102(行動認識装置)による行動認識処理手順例を示すフローチャートである。実施例2では、欠損情報判断(ステップS1501)が欠損情報補間(ステップS1801)に変更される。クライアント102は、骨格検出(ステップS1500)で検出した骨格情報320の内、オクルージョンなどにより取得できなかった骨格点の位置情報を欠損情報で補間し、補間後の骨格情報320に更新する(ステップS1801)。骨格情報処理(ステップS1502)では、補間後の骨格情報320を含む教師信号が用いられる。
<Action recognition processing>
FIG. 18 is a flowchart illustrating an example of a behavior recognition processing procedure by the client 102 (behavior recognition device) according to the second embodiment. In the second embodiment, missing information determination (step S1501) is changed to missing information interpolation (step S1801). The client 102 interpolates the position information of the skeleton points that could not be acquired due to occlusion or the like out of the skeleton information 320 detected in the skeleton detection (step S1500) with missing information, and updates it to the interpolated skeleton information 320 (step S1801). ). In the skeleton information processing (step S1502), a teacher signal including the interpolated skeleton information 320 is used.

このように、実施例2によれば、オクルージョンなどにより欠損のある骨格情報320を補間することにより、欠損情報ごとに行動分類モデルを生成する必要がない。これにより、学習機能の処理負荷の低減と、行動認識機能の高速化と、を図ることができる。 In this manner, according to the second embodiment, by interpolating the skeleton information 320 that is missing due to occlusion or the like, it is not necessary to generate a behavior classification model for each piece of missing information. Thereby, it is possible to reduce the processing load of the learning function and speed up the action recognition function.

実施例3は、実施例1と実施例2とを組み合わせた実施例である。具体的には、たとえば、実施例3の行動認識システム100では、ユーザ操作により、実施例1にかかる学習処理および行動認識処理を実行する第1モードと、実施例2にかかる学習処理および行動認識処理を実行する第2モードと、に切替可能である。 Example 3 is an example in which Example 1 and Example 2 are combined. Specifically, for example, in the behavior recognition system 100 according to the third embodiment, a first mode in which the learning process and behavior recognition process according to the second embodiment are executed, and a first mode in which the learning process and the behavior recognition process according to the second embodiment are executed by user operation. It is possible to switch to a second mode in which processing is executed.

このように、実施例3によれば、欠損情報を考慮したければ第1モードを選択することにより、高精度な行動認識結果を得ることができ、欠損を補間したければ第2モードを選択することにより、効率的に行動認識結果を得ることができる。 In this way, according to the third embodiment, if you want to consider missing information, you can obtain highly accurate action recognition results by selecting the first mode, and if you want to interpolate the missing information, you can select the second mode. By doing so, action recognition results can be obtained efficiently.

実施例4を、実施例1~実施例3との相違点を中心に説明する。なお、実施例1~実施例3と共通する点については、同一符号を付し、その説明を省略する。 Example 4 will be explained focusing on the differences from Examples 1 to 3. Note that the same points as in Examples 1 to 3 are given the same reference numerals, and the explanation thereof will be omitted.

図19は、実施例4にかかる骨格情報処理部の機能的構成例を示すブロック図である。実施例4では、骨格情報処理部403,453は、相互情報正規化部1904を有する。相互情報正規化部1904は、主成分分析部404に出力する骨格情報320、関節角度370、およびフレーム間の移動量について、値域を一定の範囲内に正規化する。 FIG. 19 is a block diagram showing an example of the functional configuration of the skeleton information processing section according to the fourth embodiment. In the fourth embodiment, the skeleton information processing units 403 and 453 include a mutual information normalization unit 1904. The mutual information normalization unit 1904 normalizes the range of the skeletal information 320, joint angles 370, and inter-frame movement amounts to be within a certain range, which are output to the principal component analysis unit 404.

骨格情報320およびフレーム間の移動量の値域は、解析対象データの解像度に依存する。一方、関節角度370の値域は、0から2π、または0度から360度の範囲となる。主成分分析の実行対象となるデータについて、値域に大きな違いがある場合、元のデータの主成分に対する影響にデータ種毎の偏りが生じる場合がある。 The range of the skeleton information 320 and the amount of movement between frames depends on the resolution of the data to be analyzed. On the other hand, the range of the joint angle 370 is from 0 to 2π, or from 0 degrees to 360 degrees. If there is a large difference in the range of the data to be subjected to principal component analysis, the influence on the principal components of the original data may be biased depending on the data type.

この偏りを無くすため、相互情報正規化部1904は、主成分にかけるデータの値域を一定の範囲内にする正規化を実行する。たとえば、相互情報正規化部1904は、骨格情報320を下記式(21)~(22)に従い、フレーム間移動量を下記式(23)に従って、元のデータの値域を0から2πに統一する。 In order to eliminate this bias, the mutual information normalization unit 1904 performs normalization to bring the value range of the data to be applied to the principal component within a certain range. For example, the mutual information normalization unit 1904 unifies the range of the original data from 0 to 2π using the skeleton information 320 according to the following formulas (21) to (22) and the inter-frame movement amount according to the following formula (23).

Figure 0007439004000008
Figure 0007439004000008

ただし、相互情報正規化部1904が実行する正規化の手法はこれに限らず、相互情報正規化部1904は、たとえば、主成分分析の実行対象となるデータの解像度の大きさに従って、関節角度370の値域を一定に正規化してもよい。 However, the normalization method executed by the mutual information normalization unit 1904 is not limited to this; for example, the mutual information normalization unit 1904 may adjust the joint angle 370 The value range of may be normalized to a constant value.

図20は、実施例4にかかる骨格情報処理部の詳細な処理手順例を示すフローチャートである。実施例4では、骨格情報処理(ステップS1302,S1502)において、クライアント102は、正規化(ステップS1403)のあと、相互情報正規化(ステップS2004)を実行する。相互情報正規化(ステップS2004)では、正規化部で正規化された骨格情報320と、関節角度370と、フレーム間の移動量と、について、取りえる値域を一定に正規化する。 FIG. 20 is a flowchart illustrating a detailed processing procedure example of the skeleton information processing unit according to the fourth embodiment. In the fourth embodiment, in the skeleton information processing (steps S1302, S1502), the client 102 performs mutual information normalization (step S2004) after normalization (step S1403). In mutual information normalization (step S2004), the possible value ranges of the skeletal information 320, joint angles 370, and inter-frame movement amounts normalized by the normalization unit are normalized to a constant value.

このように、実施例4によれば、主成分分析を実行する元のデータ(骨格情報320、関節角度370、フレーム間の移動量)の取り得る値域を一定に統一することで、広い値域を持つ特定のデータによる主成分への影響の偏りを無くし、複数種類の行動を高精度に判別することができる。 In this way, according to the fourth embodiment, by unifying the range of possible values of the original data (skeletal information 320, joint angles 370, amount of movement between frames) on which principal component analysis is performed, a wide range of values can be achieved. It is possible to eliminate bias in the influence of specific data on the principal components and to discriminate between multiple types of behavior with high accuracy.

実施例5を、実施例1~実施例4との相違点を中心に説明する。なお、実施例1~実施例4と共通する点については、同一符号を付し、その説明を省略する。 Example 5 will be explained focusing on the differences from Examples 1 to 4. Note that the same reference numerals are given to the same points as in Examples 1 to 4, and the explanation thereof will be omitted.

図21は、実施例5にかかる行動認識システム100の機能的構成例を示すブロック図である。実施例5では、主成分分析部404と主成分分析部445が、次元削減部2100と次元削減部2101に変更される。次元削減は、元の情報量を可能な限り維持した上で元の変数の数または元の次元の数を削減する処理であり、実施例1~実施例4の主成分分析や独立成分分析といった成分分析を包含する概念である。 FIG. 21 is a block diagram showing an example of the functional configuration of the behavior recognition system 100 according to the fifth embodiment. In the fifth embodiment, the principal component analysis section 404 and the principal component analysis section 445 are changed to a dimension reduction section 2100 and a dimension reduction section 2101. Dimensionality reduction is a process of reducing the number of original variables or the number of original dimensions while maintaining the original amount of information as much as possible. This is a concept that includes component analysis.

次元削減部2100は、骨格情報処理部403から取得した教師信号の内、正規化した骨格情報320と、関節角度370と、フレーム間の移動量と、を入力データとして、次元削減を実行して単数または複数の変数を生成し、次元数制御部405に出力する。 The dimension reduction unit 2100 executes dimension reduction using the normalized skeleton information 320, joint angles 370, and inter-frame movement amounts as input data among the teacher signals acquired from the skeleton information processing unit 403. One or more variables are generated and output to the number of dimensions control unit 405.

次元削減部2100が行う次元削減の手法としては、SNE(Stochastic Neighbor Embedding)、t-SNE(t-Distributed Stochastic Neighbor Embedding)、UMAP(Uniform Manifold Approximation and Projection)、Isomap、LLE(Locally Linear Embedding)、ラプラシアン固有マップ(Laplacian Eignmap)、LargeVis、および拡散マップのような手法がある。次元削減部2100は、t-SNEやUMAPに主成分分析や独立成分分析を組み合わせて次元削減してもよい。以下、各次元削減の手法と、各手法を組み合わせて行う次元削減の手法を説明する。 The dimension reduction methods performed by the dimension reduction unit 2100 include SNE (Stochastic Neighbor Embedding), t-SNE (t-Distributed Stochastic Neighbor Embedding), and UMAP (Uniform Manifold). Approximation and Projection), Isomap, LLE (Locally Linear Embedding), Techniques include Laplacian Eignmap, LargeVis, and Diffusion Map. The dimension reduction unit 2100 may reduce the dimension by combining t-SNE or UMAP with principal component analysis or independent component analysis. Below, each dimension reduction method and a dimension reduction method performed by combining each method will be explained.

SNEの処理を、下記式(24)~(28)を用いて説明する。 The SNE processing will be explained using the following equations (24) to (28).

Figure 0007439004000009
Figure 0007439004000009

とxの2つのx座標値322(入力データ)の類似度をxが与えられたときに近傍としてxを選択する条件付確率pj|iとする。条件付確率pj|iを上記式(24)に示す。この時、xはxを中心とした正規分布に基づいて選択されると仮定する。次に、次元削減後のyとyの2つのy座標値323(主成分)の類似度も、次元削減前のxとxの類似度と同様に、上記式(25)に示す条件付き確率qj|iとする。但し、次元削減後の座標値の分散は、式を簡略化するため1/√2で固定される。 Let the similarity between two x coordinate values 322 (input data) x i and x j be the conditional probability p j |i of selecting x j as a neighbor when x i is given. The conditional probability p j |i is shown in the above equation (24). At this time, it is assumed that x j is selected based on a normal distribution centered on x i . Next, the similarity between the two y-coordinate values 323 (principal components) of y i and y j after dimension reduction is also calculated by the above equation (25), as well as the similarity between x i and x j before dimension reduction. Let the conditional probability q j|i be However, the variance of the coordinate values after dimension reduction is fixed at 1/√2 to simplify the equation.

次元削減前後での距離関係を維持するように次元削減のyを生成すれば、情報量も可能な限り維持した上で、次元削減することが可能である。情報量の低減を抑制した上で次元削減を行うため、次元削減部2100は、pj|i=qj|iとなるように処理を行う。次元削減には2つの確率分布がどの程度似ているかを表す尺度であるKLダイバージェンスが用いられる。 If y for dimension reduction is generated so as to maintain the distance relationship before and after dimension reduction, it is possible to reduce dimension while maintaining the amount of information as much as possible. In order to perform dimension reduction while suppressing a reduction in the amount of information, the dimension reduction unit 2100 performs processing so that p j |i = q j |i . KL divergence, which is a measure of how similar two probability distributions are, is used for dimension reduction.

KLダイバージェンスを損失関数として次元削減前後の確率分布を適応した式を上記式(26)に示す。次元削減部2100は、損失関数である上記式(26)を確率的勾配降下法により最小化する。この勾配は損失関数をyで微分した上記式(27)を用いて、yを変動させる。この変動の際の更新式は上記式(28)で示される。 The above equation (26) shows an equation in which the probability distribution before and after dimension reduction is adapted using the KL divergence as a loss function. The dimensionality reduction unit 2100 minimizes the loss function expressed in equation (26) using stochastic gradient descent. This gradient varies y i using the above equation (27) in which the loss function is differentiated by y i . The updating formula for this variation is shown by the above equation (28).

以上、yを変動させながら上記式(28)を更新させ、上記式(27)が最小となるyを得ることで次元削減を行ない、新たな変数を得る。ただし、SNEの場合、主成分分析と異なり処理の特性上縮約後の次元数(変数)は2または,3種類になる。このため、SNEによる次元削減を実施の際は、予め定めた次元数(変数)を次元数制御部405に出力し、次元数制御部405は前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 As described above, the above formula (28) is updated while varying y i , and dimension reduction is performed by obtaining y i that minimizes the above formula (27), and a new variable is obtained. However, in the case of SNE, unlike principal component analysis, the number of dimensions (variables) after reduction is two or three types due to processing characteristics. Therefore, when performing dimension reduction by SNE, a predetermined number of dimensions (variables) is output to the dimension number control unit 405, and the dimension number control unit 405 uses the number of variables to be used according to the predetermined number of dimensions. All you have to do is decide.

ただSNEでは損失関数の最小化が難しく、また次元削減の際に等距離性を保とうとして、x座標値322およびy座標値323で特定される骨格点が密になってしまう問題がある。この問題の解決手法としてt-SNEがある。 However, in SNE, it is difficult to minimize the loss function, and there is a problem that the skeleton points specified by the x-coordinate value 322 and the y-coordinate value 323 become dense when trying to maintain equidistantness during dimension reduction. t-SNE is a method for solving this problem.

t-SNEの処理を下記式(29)~(33)を用いて説明する。 The t-SNE processing will be explained using the following equations (29) to (33).

Figure 0007439004000010
Figure 0007439004000010

損失関数最小化を簡単にするため、損失関数を対称化する。損失関数の対称化処理では、上記式(29)に示す通り、xとxの距離を同時確率分布pijで表す。pj|iは上記式(24)同様で上記式(30)で示せる。また次元削減後のyとyの距離を上記式(31)に示す同時確率分布qijで表す。 To simplify loss function minimization, we make the loss function symmetric. In the loss function symmetrization process, the distance between x i and x j is represented by a joint probability distribution p ij , as shown in equation (29) above. p j|i is similar to the above equation (24) and can be expressed by the above equation (30). Further, the distance between y i and y j after dimension reduction is expressed by the joint probability distribution q ij shown in the above equation (31).

次元削減後の点の距離はスチューデントのt分布を仮定している。スチューデントのt分布は、正規分布に比較して、平均値からずれた値の存在確率が高いことが特徴であり、この特徴が次元削減後のデータ間の距離について長い距離の分布も許容することが可能となる。 The distance between points after dimension reduction assumes Student's t distribution. The Student's t distribution is characterized by a higher probability of the existence of values that deviate from the mean value than the normal distribution, and this feature allows for a long distance distribution of the distance between data after dimension reduction. becomes possible.

t-SNEでは、次元削減部2100は、上記式(29)~(31)で求めたpijとqijを用いて、上記式(32)に示す損失関数を最小化することで次元削減を行う。次元削減部2100は、損失関数の最小化にはSNEと同様に上記式(33)に示す確率的勾配降下法を用いる。 In t-SNE, the dimensionality reduction unit 2100 performs dimensionality reduction by minimizing the loss function shown in the above equation (32) using pij and q ij obtained from the above equations (29) to (31). . The dimension reduction unit 2100 uses the stochastic gradient descent method shown in the above equation (33) similarly to SNE to minimize the loss function.

以上、上記式(33)が最小となるyを得ることで、次元削減部2100は、次元削減を行ない、新たな変数を得る。t-SNEもSNE同様に処理の特性上縮約後の次元数(変数)は2または3種類になる。このため、t-SNEによる次元削減を実施の際は、予め定めた次元数(変数)を次元数制御部405に出力し、次元数制御部405は前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 As described above, by obtaining y i that minimizes the above equation (33), the dimension reduction unit 2100 performs dimension reduction and obtains a new variable. Like SNE, t-SNE also has two or three types of dimensions (variables) after reduction due to processing characteristics. Therefore, when performing dimension reduction by t-SNE, a predetermined number of dimensions (variables) is output to the dimension number control unit 405, and the dimension number control unit 405 selects the variables to be used according to the predetermined number of dimensions. All you have to do is decide on the number of .

t-SNEは、次元削減前の高次元の局所的な構造を保った上で、大局的な構造も可能な限り捉えることから精度よく次元削減可能であるが、次元削減前の次元数に応じて計算時間が増加するといった問題がある。この次元削減の計算時間の問題を解決する手法としてUMAPがある。UMAPの処理を下記式(34)~(36)を用いて説明する。 t-SNE maintains the high-dimensional local structure before dimension reduction and captures the global structure as much as possible, so it is possible to reduce the dimension accurately, but depending on the number of dimensions before dimension reduction. There is a problem that calculation time increases. UMAP is a method for solving the calculation time problem of dimension reduction. The UMAP processing will be explained using the following equations (34) to (36).

Figure 0007439004000011
Figure 0007439004000011

とり得る値の全体Aの中で、高次元の集合X(上記式(34))がある。Aの中から任意のデータを取り出した際に、それが集合Xに含まれる度合いを0から1の範囲で出力するメンバーシップ関数をμとする。上記式(1)に示す入力Xに対して、上記式(2)に示すYを用意する。YはXに比較して低い次元の空間に存在するm(<p)個の点の集合であり、次元削減後のデータの集合である。そしてYのメンバーシップ関数をνとして、次元削減部2100は、上記式(36)が最小となるようなYを定めることで次元削減を行ない、新たな変数を得る。 Among all possible values A, there is a high-dimensional set X (formula (34) above). Let μ be a membership function that, when arbitrary data is extracted from A, outputs the degree to which it is included in the set X in a range of 0 to 1. For input X shown in equation (1) above, Y shown in equation (2) above is prepared. Y is a set of m (<p) points existing in a space with a lower dimension than X, and is a set of data after dimension reduction. Then, by setting the membership function of Y to ν, the dimension reduction unit 2100 performs dimension reduction by determining Y such that the above equation (36) is minimized, and obtains a new variable.

UMAPによる次元削減を実施の際には、次元削減部2100は、SNEやt-SNE同様に予め定めた次元数(変数)を次元数制御部405に出力してもよいし、または、次元削減後のメンバーシップ関数νが予め定めた値域以上となるような次元数(変数)を必要な次元数として次元制御部405に出力してもよい。この際、次元数制御部405は、次元削減部2100が出力する次元数(変数)に従って、使用する次元数(変数の数)を決定すればよい。 When performing dimension reduction using UMAP, the dimension reduction unit 2100 may output a predetermined number of dimensions (variables) to the dimension number control unit 405 as in SNE and t-SNE, or may perform dimension reduction. The number of dimensions (variables) such that the subsequent membership function ν is greater than or equal to a predetermined range may be output to the dimension control unit 405 as the required number of dimensions. At this time, the dimension number control unit 405 may determine the number of dimensions (number of variables) to be used according to the number of dimensions (variables) output by the dimension reduction unit 2100.

Isomapの処理を説明する。次元削減部2100は、任意のデータにおいて、近傍にあるデータの最短距離を算出し、算出した距離を多次元尺度構成法(MDS)により測地線距離行列で表すことで次元削減を行ない、新たな変数を得る。Isomapによる次元削減の実施の際には、次元削減部2100は、予め定めた次元数(変数)を次元数制御部405に出力し、前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 Isomap processing will be explained. The dimensionality reduction unit 2100 calculates the shortest distance between neighboring data in arbitrary data, and performs dimensionality reduction by expressing the calculated distance in a geodesic distance matrix using multidimensional scaling (MDS). Get variable. When performing dimension reduction using Isomap, the dimension reduction unit 2100 outputs a predetermined number of dimensions (variables) to the dimension number control unit 405, and determines the number of variables to be used according to the predetermined number of dimensions. do it.

LLEについて下記式(35)~(41)を用いて説明する。 LLE will be explained using the following formulas (35) to (41).

Figure 0007439004000012
Figure 0007439004000012

の近傍にある点を線形結合で近似的に上記式(35)で表す。ここで、上記式(36)の制約下で上記式(37)を最小化することで次元削減前のxの近似値が定まる。次に、次元削減後のyについて、次元削減後にも可能な限りxの線形の隣接関係を保つため、次元削減部2100は、上記式(38)を最小化する。この解は上記式(39)の固有ベクトルを固有値の2番目に小さいものvから(d+1)番目のvまで抽出することで上記式(40)の通り得られ、次元削減部2100は、上記式(41)の通り、次元削減後のyを取得する。 Points in the vicinity of x i are approximately represented by the above equation (35) by linear combination. Here, by minimizing the above equation (37) under the constraint of the above equation (36), the approximate value of x i before dimension reduction is determined. Next, regarding y i after dimension reduction, the dimension reduction unit 2100 minimizes the above equation (38) in order to maintain the linear adjacency relationship of x i as much as possible even after dimension reduction. This solution is obtained as in the above equation (40) by extracting the eigenvectors of the above equation (39) from the second smallest eigenvalue v i to the (d+1)th v d . As shown in equation (41), y i after dimension reduction is obtained.

LLEによる次元削減を実施の際には、次元削減部2100は、予め定めた次元数(変数)を次元数制御部405に出力し、次元数制御部405は前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 When performing dimension reduction by LLE, the dimension reduction unit 2100 outputs a predetermined number of dimensions (variables) to the dimension number control unit 405, and the dimension number control unit 405 uses the dimension number according to the predetermined number of dimensions. All you have to do is decide the number of variables to use.

ラプラシアン固有マップの処理を下記式(42)~(47)を用いて説明する。 The processing of the Laplacian eigenmap will be explained using the following equations (42) to (47).

Figure 0007439004000013
Figure 0007439004000013

次元削減前のデータが生成する近傍グラフの各辺xを上記式(42)または上記式(43)に割り当てる。割り当てた重みに対して上記式(44)のグラフラプラシアンを導入し、グラフラプラシアンの固有ベクトル(上記式(45))を固有値の2番目に小さいvから(d+1)番目のvまで抽出することで上記式(46)の通り得られ、次元削減部2100は、上記式(47)の通り次元削減後の値yを取得する。 Each edge x i x j of the neighborhood graph generated by the data before dimension reduction is assigned to the above equation (42) or the above equation (43). Introducing the graph Laplacian of the above equation (44) for the assigned weights, and extracting the eigenvectors of the graph Laplacian (the above equation (45)) from the second smallest eigenvalue v i to the (d+1)th v d is obtained according to the above equation (46), and the dimension reduction unit 2100 obtains the value y i after dimension reduction according to the above equation (47).

ラプラシアン固有マップによる次元削減を実施の際には、次元削減部2100は、予め定めた次元数(変数)を次元数制御部405に出力し、次元数制御部405は前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 When implementing dimension reduction using the Laplacian eigenmap, the dimension reduction section 2100 outputs a predetermined number of dimensions (variables) to the dimension number control section 405, and the dimension number control section 405 follows the predetermined number of dimensions. , just decide the number of variables to use.

LargeVisの処理について説明する。LargeVisはt-SNEの計算時間を改善した手法である。t-SNEではデータ点同士の距離を求めるため、データ数に応じて計算時間が増大していた。LargeVisでは、次元削減部2100は、近傍のデータからK-NNグラフを用いてデータを領域ごとに分け、領域ごとに分けられたデータモデル毎にt-SNEと同様の手法で次元削減を行う。 The processing of LargeVis will be explained. LargeVis is a method that improves the calculation time of t-SNE. In t-SNE, the distance between data points is determined, so the calculation time increases depending on the number of data. In LargeVis, the dimension reduction unit 2100 divides data into regions from neighboring data using a K-NN graph, and performs dimension reduction for each data model divided into regions using a method similar to t-SNE.

LargeVisによる次元削減を実施の際には、次元数制御部405は、予め定めた次元数(変数)を次元数制御部405に出力し、前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 When implementing dimension reduction using LargeVis, the dimension number control unit 405 outputs a predetermined number of dimensions (variables) to the dimension number control unit 405, and determines the number of variables to be used according to the predetermined number of dimensions. All you have to do is decide.

拡散マップについて下記式(48)~(53)を用いて説明する。 The diffusion map will be explained using the following equations (48) to (53).

Figure 0007439004000014
Figure 0007439004000014

次元削減前のxと近傍にあるxから構成される近傍グラフの各辺xに重みWijを割当て、これを正規化して上記式(48)に示すN×Nの推移確率行列Pを作る。p(x)はPで表現されるグラフ上のランダムウォークによってxを出発してtステップ後にxに到達する確率を表すとする。推移行列の性質からp(x)はt→∞で定常分布φ(x)に収束する。この時、点xの拡散距離を上記式(49)で定義する。推移確率行列Pの固有値を上記式(50)、固有ベクトルを上記式(51)とする。この時、上記式(52)が成り立つ。λの絶対値は1以下であるから、次元削減部2100は、Nより小さい適当な次元d(t)までの固有ベクトルをとって、上記式(53)の通り次元削減を行ない、新たな変数を得る。 A weight W ij is assigned to each edge x i x j of the neighborhood graph consisting of x i before dimension reduction and the neighboring x j , and this is normalized to obtain the N×N transition probability shown in equation (48) above. Create matrix P. Let p t (x i x j ) represent the probability of starting from x i and arriving at x j after t steps by a random walk on the graph represented by P. From the properties of the transition matrix, p t (x i x j ) converges to a stationary distribution φ 0 (x j ) at t→∞. At this time, the diffusion distance of the point x i x j is defined by the above equation (49). Let the eigenvalue of the transition probability matrix P be the above equation (50), and the eigenvector be the above equation (51). At this time, the above formula (52) holds true. Since the absolute value of λ i is less than or equal to 1, the dimension reduction unit 2100 takes the eigenvectors up to an appropriate dimension d(t) smaller than N, performs dimension reduction according to the above equation (53), and creates a new variable. get.

拡散マップによる次元削減を実施の際には、予め定めた次元数(変数)を次元数制御部405に出力し、次元数制御部405は前記予め定めた次元数に従って、使用する変数の数を決定すればよい。 When performing dimension reduction using a diffusion map, a predetermined number of dimensions (variables) is output to the dimension number control unit 405, and the dimension number control unit 405 controls the number of variables to be used according to the predetermined number of dimensions. All you have to do is decide.

次元削減部2100は、これまでに説明した主成分分析、独立成分分析、t-SNE、UMAP、Isomap、LLE、ラプラシアン固有マップ、LargeVis、拡散マップなどを組み合わせて実施してもよい。たとえば、次元削減部2100は、36次元、または36変数ある高次元なデータに対して、10次元までの次元削減を主成分分析を用いて行い、その後2次元までの次元削減をUMAPを用いるなど、次元削減に用いる手法の組合せは限定されない。このように次元削減の際に各種手法を組み合わせることで性能や計算時間に複合的な効果が期待できる。 The dimension reduction unit 2100 may perform a combination of the principal component analysis, independent component analysis, t-SNE, UMAP, Isomap, LLE, Laplacian eigenmap, LargeVis, diffusion map, etc. described above. For example, the dimension reduction unit 2100 uses principal component analysis to reduce the dimension to 10 dimensions for high-dimensional data with 36 dimensions or 36 variables, and then reduces the dimension to 2 dimensions by using UMAP. , the combination of methods used for dimensionality reduction is not limited. In this way, by combining various methods during dimensionality reduction, we can expect a composite effect on performance and calculation time.

また、これら次元削減の手法は、実施例5に記載の範囲で限定されるものではなく、たとえば、単に高次元の情報を可算、減算、乗算または除算したり、予め定めた係数に従って畳み込んだりしてもよく、実施例5記載の手法のように高次元のデータまたは多変数を、より低い次元のデータや、少ない数の変数を生成する手法であれば、次元削減の手法は限定されない。 Furthermore, these dimension reduction methods are not limited to the scope described in Example 5, and may include, for example, simply counting, subtracting, multiplying, or dividing high-dimensional information, or convolving it according to predetermined coefficients. However, the dimension reduction method is not limited as long as it is a method that generates high-dimensional data or multiple variables, lower-dimensional data, or a small number of variables, such as the method described in Example 5.

次元削減部2101は、次元削減部2100と同様の機能を有する。次元削減部2101は、骨格情報処理部453からの出力データに対して次元削減部2100と同様の処理を実行して、次元削減前に比較して、少ない単数または複数の新たな変数を生成する。また、主成分分析部454は、主成分と共に生成した寄与率と累積寄与率とを次元数決定部455に出力する。 The dimension reduction unit 2101 has the same function as the dimension reduction unit 2100. The dimensionality reduction unit 2101 executes the same processing as the dimensionality reduction unit 2100 on the output data from the skeleton information processing unit 453, and generates one or more new variables that are smaller than before the dimensionality reduction. . Further, the principal component analysis unit 454 outputs the contribution rate and cumulative contribution rate generated together with the principal component to the number of dimensions determination unit 455.

次元削減部2101は、次元削減部2100と同様の機能を有する。次元削減部2101は、骨格情報処理部453からの出力データに対して次元削減部2100と同様の処理を実行して、単数または複数の新たな変数を生成する。また、次元削減部2101は、次元削減部2100同様の手法で、新たな変数と共に次元数決定部455で必要な次元数(変数)の情報を次元数決定部455に出力する。 The dimension reduction unit 2101 has the same function as the dimension reduction unit 2100. The dimension reduction unit 2101 performs the same processing as the dimension reduction unit 2100 on the output data from the skeleton information processing unit 453 to generate one or more new variables. In addition, the dimension reduction unit 2101 outputs information on the number of dimensions (variables) required by the dimension number determination unit 455 to the dimension number determination unit 455 along with new variables using a method similar to that of the dimension reduction unit 2100.

次元数決定部455は、取得した次元数(変数)をもとに、取得した変数をいくつまで行動分類モデル選択部456に出力するかを示す次元数kを決定し、決定した数だけ新たに生成した変数を行動分類モデル選択部456に出力する。 Based on the obtained number of dimensions (variables), the number of dimensions determination unit 455 determines the number of dimensions k indicating how many of the obtained variables are to be output to the behavior classification model selection unit 456, and newly outputs the determined number of variables. The generated variables are output to the behavior classification model selection unit 456.

このように、実施例5によれば、次元削減の手法を変えることで、骨格情報処理部403から取得するデータに合わせて、効果的に、または計算時間を短縮して次元削減可能となり、複雑な行動を高精度に判別することができる。 As described above, according to the fifth embodiment, by changing the dimension reduction method, it is possible to reduce the dimension effectively or reduce the calculation time according to the data acquired from the skeleton information processing unit 403, and to reduce the complexity. behavior can be determined with high accuracy.

実施例6を、実施例1~実施例5との相違点を中心に説明する。なお、実施例1~実施例5と共通する点については、同一符号を付し、その説明を省略する。 Example 6 will be explained focusing on the differences from Examples 1 to 5. Note that the same reference numerals are given to the points common to Examples 1 to 5, and the explanation thereof will be omitted.

図22は、実施例6にかかる行動認識システム100の機能的構成例を示すブロック図である。実施例6では、行動学習部406と行動認識部457が、行動学習部2200と行動認識部2201に変更される。行動学習部2200および行動認識部2201が行動を分類するための詳細な手法を図23~図25を用いて説明する。 FIG. 22 is a block diagram showing an example of the functional configuration of the behavior recognition system 100 according to the sixth embodiment. In the sixth embodiment, the behavior learning section 406 and the behavior recognition section 457 are changed to the behavior learning section 2200 and the behavior recognition section 2201. A detailed method by which the behavior learning unit 2200 and the behavior recognition unit 2201 classify behaviors will be explained using FIGS. 23 to 25.

図23は、行動学習部2200および行動認識部2201が行動を分類するための基礎となる手法である決定木を示す説明図である。決定木を用いた行動分類手法を説明する。決定木では、次元削減後に新たに生成された変数空間での各行動について、予め行動の種類を与えられた変数2300から変数2303を用いて、(a)境界線2310が生成される。 FIG. 23 is an explanatory diagram showing a decision tree, which is a basic method by which the behavior learning unit 2200 and the behavior recognition unit 2201 classify behaviors. We will explain the behavior classification method using decision trees. In the decision tree, for each action in the variable space newly generated after dimension reduction, a boundary line 2310 (a) is generated using variables 2300 to 2303 given the type of action in advance.

(a)境界線2310を生成する手法を説明する。決定木は、入力された変数群2321の不純度が最小になるように段階的に行動を分類しいく。1段階目では第2変数軸上で、行動を変数群2322と変数群2323とに分類し、2段階目では第1変数軸上で、変数群2322および変数群2323を変数群2324~2327に分類する。こうして不純度が最小となるよう分類していく過程で得られる判別式を用いて(a)境界線2310が生成される。尚、各段階でどの軸で行動を分類するかは限定されず、また各軸での行動分類について1回などの規定された回数で分類するなどの限定もされない。 (a) A method of generating the boundary line 2310 will be explained. The decision tree classifies actions step by step so that the impurity of the input variable group 2321 is minimized. In the first stage, the behavior is classified into variable group 2322 and variable group 2323 on the second variable axis, and in the second stage, the variable group 2322 and variable group 2323 are classified into variable groups 2324 to 2327 on the first variable axis. Classify. (a) A boundary line 2310 is generated using the discriminant obtained in the process of classifying so that the impurity is minimized. Note that there is no limitation on which axis the behavior is classified at each stage, and there is no limitation on the behavior classification on each axis by a prescribed number of times such as once.

図24は、決定木による分類の詳細な展開方法を示す説明図である。決定木には、レベル(深さ)ごとに決定木を成長させるレベルワイズ2400と、リーフ(分岐後のデータ群)ごとに決定木を成長させるリーフワイズ2401と、がある。決定木のような分類器を重ねて学習することをアンサンブル学習という。 FIG. 24 is an explanatory diagram showing a detailed method for developing classification using a decision tree. Decision trees include level-wise 2400, which grows a decision tree for each level (depth), and leaf-wise 2401, which grows a decision tree for each leaf (data group after branching). Learning by stacking classifiers such as decision trees is called ensemble learning.

図25は、アンサンブル学習と、行動学習部2200と行動認識部2201が行動を分類するために用いる手法を示す説明図である。アンサンブル学習には、決定木のような分類木を並列に用いるバギング2401と、前の結果を引き継ぎ学習結果を更新していくブースティング2402と、がある。実施例1のランダムフォレストは、決定木についてバギング2401を採用した手法で、実施例6の行動学習部2200および行動認識部2201は、ブースティング2402を使用した分類手法である。 FIG. 25 is an explanatory diagram showing ensemble learning and a method used by the behavior learning unit 2200 and the behavior recognition unit 2201 to classify behaviors. Ensemble learning includes bagging 2401 that uses classification trees such as decision trees in parallel, and boosting 2402 that updates learning results by inheriting previous results. The random forest of the first embodiment is a method that uses bagging 2401 for decision trees, and the behavior learning section 2200 and the behavior recognition section 2201 of the sixth embodiment are a classification method that uses boosting 2402.

行動学習部2200が行動を学習し、行動認識部2201が行動を分類するにあたっては、各決定木をレベルワイズにより成長させ、複数の決定木を重ねるブースティングにより入力された変数を分類してもよいし、各決定木をリーフワイズにより成長させ、複数の決定木を重ねるブースティングにより入力された変数を分類してもよい。 When the behavior learning unit 2200 learns the behavior and the behavior recognition unit 2201 classifies the behavior, it is possible to grow each decision tree levelwise and classify the input variables by boosting multiple decision trees. Alternatively, each decision tree may be grown leafwise, and input variables may be classified by boosting, which overlaps a plurality of decision trees.

尚、各決定木をレベルワイズにより成長させ、複数の決定木を重ねるブースティングを行動分類手法として採用する際にはソフトウェアライブラリxgboostを用いて実装してもよい。また一方で、各決定木をリーフワイズにより成長させ、複数の決定木を重ねるブースティングを行動分類手法として採用する際にはソフトウェアライブラリLightGBMを用いて実装してもよい。ただし、実装手法はこれらに限定されない。 Note that when employing boosting, in which each decision tree is grown levelwise and multiple decision trees are stacked, as a behavior classification method, it may be implemented using the software library xgboost. On the other hand, when employing boosting, in which each decision tree is grown leafwise and multiple decision trees are stacked, as a behavior classification method, it may be implemented using the software library LightGBM. However, implementation methods are not limited to these.

このように、実施例6によれば、行動分類手法にブースティングを用いて、複数の決定木を重ねることにより、複雑な行動を高精度に判別することができる。 In this way, according to the sixth embodiment, by using boosting as the behavior classification method and overlapping a plurality of decision trees, complex behaviors can be determined with high accuracy.

実施例7を、実施例1~実施例6との相違点を中心に説明する。なお、実施例1~実施例6と共通する点については、同一符号を付し、その説明を省略する。 Example 7 will be explained focusing on the differences from Examples 1 to 6. Note that the same reference numerals are given to the same points as in Examples 1 to 6, and the explanation thereof will be omitted.

図26は、実施例7にかかる行動認識システム100の機能的構成例を示すブロック図である。実施例7では、次元削減部2100と次元数制御部405と行動学習部406と次元数決定部455が、次元削減部2600と次元数制御部2601と行動学習部2602と次元削減部2603に変更される。 FIG. 26 is a block diagram showing an example of the functional configuration of the behavior recognition system 100 according to the seventh embodiment. In the seventh embodiment, the dimension reduction unit 2100, the dimension number control unit 405, the behavior learning unit 406, and the dimension number determination unit 455 are changed to the dimension reduction unit 2600, the dimension number control unit 2601, the behavior learning unit 2602, and the dimension reduction unit 2603. be done.

次元削減部2600は、予め定めた次元数に従って、実施例1~実施例6のいずれかの手法で次元削減を行い、次元削減後に生成した新たな変数を次元数制御部2601に出力する。次元数制御部2601は取得した次元数に従って、次元削減後の変数を行動学習部2602に出力する。 The dimensionality reduction unit 2600 performs dimensionality reduction using any of the methods of Examples 1 to 6 according to a predetermined number of dimensions, and outputs new variables generated after dimensionality reduction to the dimensionality number control unit 2601. The number of dimensions control unit 2601 outputs the variable after dimension reduction to the behavior learning unit 2602 according to the obtained number of dimensions.

行動学習部2602は、取得した次元削減後の変数と共に、与えられた行動の種類から機械学習により、行動分類のための境界線を生成し、行動分類モデルを生成する。この際、生成した行動分類モデルに対して、どのくらいの精度で行動を予測できるかという行動分類精度を算出する。 The behavior learning unit 2602 generates a boundary line for behavior classification by machine learning from the given behavior type together with the obtained variable after dimension reduction, and generates a behavior classification model. At this time, the behavior classification accuracy, which indicates how accurately the behavior can be predicted, is calculated for the generated behavior classification model.

行動学習部2602は、行動分類モデル生成に用いた変数を用いて行動分類精度を算出してもよい。行動学習部2602は、次元制御部2600から取得した変数の内、一部を行動分類モデル生成には用いず、行動分類生成に用いなかった変数を用いて行動分類精度を算出してもよい。ただし、行動分類精度算出の方法は、これらに限定されない。算出した行動分類精度が予め定めた精度より高ければ、行動学習部2602は、生成した行動分類モデルを行動分類モデル選択部456に出力する。またこの際、行動学習部2602は、取得した次元数と行動分類精度が合格であったことを次元制御部2601に出力する。 The behavior learning unit 2602 may calculate the behavior classification accuracy using the variables used to generate the behavior classification model. The behavior learning unit 2602 may not use some of the variables acquired from the dimension control unit 2600 for behavior classification model generation, and may calculate behavior classification accuracy using variables that are not used for behavior classification generation. However, the method of calculating behavior classification accuracy is not limited to these. If the calculated behavior classification accuracy is higher than the predetermined accuracy, the behavior learning unit 2602 outputs the generated behavior classification model to the behavior classification model selection unit 456. At this time, the behavior learning unit 2602 outputs to the dimension control unit 2601 that the acquired number of dimensions and behavior classification accuracy are acceptable.

一方で、行動学習部2602は、算出した行動分類精度が予め定めた精度より低ければ、行動分類精度が不合格であったことを次元制御部2601に出力する。ただし、設定可能な次元数(変数)すべてで行動分類モデルを生成した上で、そのすべてで行動分類精度が不合格であった場合には、行動学習部2602は、これまでに生成した行動分類モデルの中で最も行動分類精度が高かった行動分類モデルを行動分類モデル選択部456に出力し、出力した際に用いた次元数(変数)を全学習完了情報と共に次元数制御部2601に出力する。 On the other hand, if the calculated behavior classification accuracy is lower than the predetermined accuracy, the behavior learning unit 2602 outputs to the dimension control unit 2601 that the behavior classification accuracy has failed. However, if behavior classification models are generated using all settable dimensions (variables) and the behavior classification accuracy fails in all of them, the behavior learning unit 2602 Outputs the behavior classification model with the highest behavior classification accuracy among the models to the behavior classification model selection unit 456, and outputs the number of dimensions (variables) used at the time of output to the number of dimensions control unit 2601 together with all learning completion information. .

次元制御部2601は、行動学習部2602から取得した合否情報と全学習完了情報に従って、合格または全学習完了情報を取得した場合には、取得した次元数情報を次元削減部2603に出力し、不合格であった場合には次元削減に用いる次元数を変更して再度次元削減を実施するよう次元削減命令を次元削減部2600に出力する。 When the dimension control unit 2601 acquires pass or complete learning information according to the pass/fail information and all learning completion information acquired from the behavior learning unit 2602, it outputs the acquired dimension number information to the dimension reduction unit 2603 and If it passes, a dimension reduction command is output to the dimension reduction unit 2600 to change the number of dimensions used for dimension reduction and perform dimension reduction again.

次元削減部2600は、取得した次元削減命令に従って、これまでに設定していない次元数を設定して再度次元削減を実施し、生成した変数を次元数制御部2601に出力する。 In accordance with the obtained dimension reduction command, the dimension reduction unit 2600 sets the number of dimensions that have not been set so far, performs dimension reduction again, and outputs the generated variables to the dimension number control unit 2601.

次元削減部2603は、次元数制御部2601から取得した次元数(変数)に従って、骨格情報処理部452から取得したデータに、実施例1~実施例6の次元削減手法を用いて次元削減を行い、生成した変数を行動分類モデル選択部456に出力する。尚、合否を判断する行動分類精度を定めず、次元削減部2603は、設定可能な次元数全てで学習を行い、行動分類精度を算出した上で、算出した行動分類精度に従って、行動分類モデルと次元数を決定してもよい。 The dimension reduction unit 2603 performs dimension reduction on the data obtained from the skeleton information processing unit 452 according to the number of dimensions (variables) obtained from the number of dimensions control unit 2601 using the dimension reduction methods of Examples 1 to 6. , outputs the generated variables to the behavior classification model selection unit 456. Note that without determining the behavior classification accuracy for determining pass/fail, the dimension reduction unit 2603 performs learning with all settable dimensions, calculates the behavior classification accuracy, and then creates a behavior classification model according to the calculated behavior classification accuracy. The number of dimensions may also be determined.

行動学習部2602が算出する行動分類精度は実施例1に記載の寄与率に見立ててもよい。例えば、取得した次元削減後の変数とそれを用いて算出した行動分類精度とを関連付けておき、算出された行動分類精度が、算出に用いた次元削減後の変数の元の情報に対する寄与率とする。次元制御部2601は、こうして見立てた寄与率に応じて、次元削減後の変数についてどれを用いて制御を行うか決定する。 The behavior classification accuracy calculated by the behavior learning unit 2602 may be regarded as the contribution rate described in the first embodiment. For example, by associating the obtained variable after dimension reduction with the behavior classification accuracy calculated using it, the calculated behavior classification accuracy is the contribution rate to the original information of the variable after dimension reduction used for calculation. do. The dimension control unit 2601 determines which of the variables after dimension reduction is used for control according to the contribution rate estimated in this way.

<学習処理>
図27は、実施例7にかかるサーバ101(学習装置)による学習処理の詳細な処理手順例を示すフローチャートである。サーバ101は、次元数制御部2601により、次元数を決定する。この際、初めて次元削減を実施する場合には予め定めた次元数を決定し、2回目以降の次元削減の場合は、これまでに決定してない次元数を決定する(ステップS2700)。
<Learning process>
FIG. 27 is a flowchart illustrating a detailed processing procedure example of learning processing by the server 101 (learning device) according to the seventh embodiment. The server 101 determines the number of dimensions using the number of dimensions control unit 2601. At this time, when performing dimension reduction for the first time, a predetermined number of dimensions is determined, and when dimension reduction is performed for the second time or later, a previously undetermined number of dimensions is determined (step S2700).

つぎに、サーバ101は決定した次元数に従って、次元削減部2601で次元削減を行い、新たな変数を生成する(S2701)。ステップS2702では、サーバ101は行動学習部2602から取得した行動分類精度に対して、合否判断を行い、合格であればステップS1307に進み、不合格であればステップS2700に戻る。 Next, the server 101 performs dimension reduction in the dimension reduction unit 2601 according to the determined number of dimensions, and generates a new variable (S2701). In step S2702, the server 101 makes a pass/fail judgment on the behavior classification accuracy acquired from the behavior learning unit 2602. If it passes, the process advances to step S1307, and if it fails, the process returns to step S2700.

このように、実施例7によれば、目標の行動分類精度に合わせて次元数を変更し、次元削減を繰り返すことで、複雑な行動を高精度に判別することができる。 In this manner, according to the seventh embodiment, by changing the number of dimensions in accordance with the target behavior classification accuracy and repeating dimension reduction, complex behaviors can be determined with high accuracy.

また、上述した実施例1~実施例7の行動認識装置および学習装置は、下記(1)~(14)のように構成することもできる。 Furthermore, the behavior recognition devices and learning devices of Examples 1 to 7 described above can also be configured as shown in (1) to (14) below.

(1)プログラムを実行するプロセッサ201と、前記プログラムを記憶する記憶デバイス202と、を有する行動認識装置(クライアント102)は、多変量解析で統計的な成分を生成する成分分析(主成分分析または独立成分分析)により学習対象の形状(骨格情報320)から得られる成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、前記プロセッサ201は、センサ103から得られた解析対象データから認識対象の形状(骨格情報320)を検出する検出処理と、前記成分分析により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する成分分析処理と、前記各々の寄与率から得られる累積寄与率に基づいて、前記1以上の各々の次元を示す序数kを決定する決定処理と、前記決定処理によって決定された次元を示す序数kの成分を1以上含む特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、を実行する。 (1) A behavior recognition device (client 102) having a processor 201 that executes a program and a storage device 202 that stores the program performs component analysis (principal component analysis or The behavior classification model group learned for each component group can be accessed using the component group obtained from the shape of the learning target (skeletal information 320) by independent component analysis) and the behavior of the learning target, and the behavior classification model group learned for each component group can be accessed. The processor 201 performs a detection process to detect the shape of the recognition target (skeletal information 320) from the analysis target data obtained from the sensor 103, and performs the component analysis based on the shape of the recognition target detected by the detection process. , an ordinal number k indicating each of the one or more dimensions based on a component analysis process that generates one or more components and a contribution rate of each of the components, and a cumulative contribution rate obtained from each of the contribution rates. and a specific behavior classification model learned with the same component group as a specific component group containing one or more components with an ordinal number k indicating the dimension determined by the determination process, from the behavior classification model group. A selection process for selecting, and a behavior recognition process for outputting a recognition result indicating the behavior to be recognized by inputting the specific component group to a specific behavior classification model selected by the selection process. .

これにより、学習対象の形状に応じた行動分類モデルが用意されているため、認識対象の複数種類の行動を高精度に認識することができる。 Thereby, since a behavior classification model is prepared according to the shape of the learning target, multiple types of behaviors to be recognized can be recognized with high accuracy.

(2)上記(1)の行動認識装置において、前記行動分類モデル群の各々の行動分類モデルは、前記学習対象の形状および前記形状を構成する複数の頂点の角度(関節角度370)から得られる成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習されており、前記プロセッサ201は、前記認識対象の形状に基づいて、前記認識対象の形状を構成する複数の頂点の角度(関節角度370)を算出する算出処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記認識対象の形状と、前記算出処理によって算出された前記認識対象の頂点の角度と、に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (2) In the behavior recognition device of (1) above, each behavior classification model of the behavior classification model group is obtained from the shape of the learning target and the angles (joint angles 370) of a plurality of vertices constituting the shape. Learning is performed for each component group using a component group and the behavior of the learning target, and the processor 201 determines the shape of a plurality of vertices constituting the shape of the recognition target based on the shape of the recognition target. A calculation process for calculating an angle (joint angle 370) is executed, and in the component analysis process, the processor 201 calculates the shape of the recognition target and the angle of the vertex of the recognition target calculated by the calculation process. Based on the above, the one or more components and the contribution rate are generated.

これにより、頂点の角度に起因する形状の変化に応じて、認識対象の複数種類の行動を高精度に認識することができる。 Thereby, multiple types of actions to be recognized can be recognized with high accuracy according to changes in shape caused by the angle of the vertices.

(3)上記(1)の行動認識装置において、前記行動分類モデル群の各々の行動分類モデルは、前記学習対象の形状および前記学習対象の移動量から得られる成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習されており、前記プロセッサ201は、前記認識対象の異なる時点の複数の形状に基づいて、前記認識対象の移動量を算出する算出処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記認識対象の形状と、前記算出処理によって算出された前記認識対象の移動量と、に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (3) In the behavior recognition device of (1) above, each behavior classification model of the behavior classification model group includes a component group obtained from the shape of the learning target and the amount of movement of the learning target, and the behavior of the learning target. are learned for each component group using In the component analysis process, the processor 201 generates the one or more components and the contribution rate based on the shape of the recognition target and the movement amount of the recognition target calculated by the calculation process. do.

これにより、移動に起因する形状の経時的な変化に応じて、認識対象の複数種類の行動を高精度に認識することができる。 Thereby, multiple types of actions of the recognition target can be recognized with high accuracy according to changes in shape over time due to movement.

(4)上記(1)の行動認識装置において、前記プロセッサ201は、前記認識対象の形状の大きさを正規化する第1正規化処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記第1正規化処理による第1正規化後の前記認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (4) In the behavior recognition device of (1) above, the processor 201 executes a first normalization process to normalize the size of the shape of the recognition target, and in the component analysis process, the processor 201 The one or more components and the contribution rate are generated based on the shape of the recognition target after first normalization by the first normalization process.

これにより、行動分類の汎用性の向上により、誤認識の抑制を図ることができる。 Thereby, the versatility of behavior classification is improved, and erroneous recognition can be suppressed.

(5)上記(2)の行動認識装置において、前記プロセッサ201は、前記認識対象の形状および頂点の角度が取りうる値域を正規化する第2正規化処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記第2正規化処理による第2正規化後の前記認識対象の形状および頂点の角度(関節角度370)に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (5) In the behavior recognition device of (2) above, the processor 201 executes a second normalization process to normalize the range of possible values of the shape of the recognition target and the angle of the vertex, and in the component analysis process, The processor 201 generates the one or more components and the contribution rate based on the shape of the recognition target and the angle of the vertex (joint angle 370) after second normalization by the second normalization process. do.

これにより、形状と角度という異なるデータ種における値域の偏りを抑制することができ、行動認識の高精度化を図ることができる。 As a result, it is possible to suppress bias in the range of different data types such as shape and angle, and it is possible to improve the accuracy of behavior recognition.

(6)上記(1)の行動認識装置において、前記決定処理では、前記プロセッサ201は、前記累積寄与率がしきい値を超えるのに必要な前記成分の次元を示す序数kを決定する。 (6) In the behavior recognition device of (1) above, in the determination process, the processor 201 determines an ordinal number k indicating the dimension of the component necessary for the cumulative contribution rate to exceed a threshold value.

累積寄与率は、新たに生成した複数の成分が元のデータの情報量をどの程度表しているかといったことを示す尺度となるため、累積寄与率を参照することにより、次元数増加の抑制を図ることができる。 The cumulative contribution rate is a measure of how much the newly generated components represent the amount of information in the original data, so by referring to the cumulative contribution rate, it is possible to suppress the increase in the number of dimensions. be able to.

(7)上記(1)の行動認識装置において、前記行動分類モデル群の各々の行動分類モデルは、学習対象の一部欠損した形状から得られる成分群と、前記学習対象の行動と、を用いて、前記一部欠損した形状および成分群の組み合わせごとに学習されており、前記プロセッサ201は、前記認識対象の一部欠損した形状を判断する判断処理と、前記成分分析処理では、前記プロセッサ201は、前記判断処理によって判断された前記認識対象の一部欠損した形状に基づいて、前記1以上の成分と、前記1以上の成分の各々の寄与率と、を生成し、前記選択処理では、前記プロセッサ201は、前記認識対象の一部欠損した形状と同一欠損形状および前記特定の成分群と同じ成分群の組み合わせで学習された特定の行動分類モデルを、前記行動分類モデル群から選択する。 (7) In the behavior recognition device of (1) above, each behavior classification model of the behavior classification model group uses a component group obtained from a partially missing shape of the learning target and the behavior of the learning target. The processor 201 performs learning for each combination of the partially missing shape and the component group, and the processor 201 performs the judgment process of determining the partially missing shape of the recognition target and the component analysis process. generates the one or more components and the contribution rate of each of the one or more components based on the partially missing shape of the recognition target determined by the determination process, and in the selection process, The processor 201 selects a specific behavior classification model from the behavior classification model group that has been trained using the same missing shape as the partially missing shape of the recognition target and the same component group as the specific component group.

認識対象の形状が一部欠損していても、当該一部欠損に対応した行動分類モデルを用いて、高精度な行動認識をおこなうことができる。 Even if the shape of the recognition target is partially missing, highly accurate behavior recognition can be performed using a behavior classification model that corresponds to the partially missing shape.

(8)上記(1)の行動認識装置において、前記プロセッサ201は、前記認識対象の形状に一部欠損があれば補間する補間処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記補間処理による補間後の認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (8) In the behavior recognition device of (1) above, the processor 201 executes an interpolation process to interpolate if there is a partial defect in the shape of the recognition target, and in the component analysis process, the processor 201 The one or more components and the contribution rate are generated based on the shape of the recognition target after interpolation by interpolation processing.

これにより、形状に欠損がない学習対象によって生成された行動分類モデルに適切な入力を与えることができ、行動認識精度の低下を抑制することができる。 Thereby, appropriate input can be given to the behavior classification model generated by the learning target with no defects in shape, and a decrease in behavior recognition accuracy can be suppressed.

(9)プログラムを実行するプロセッサ201と、前記プログラムを記憶する記憶デバイス202と、を有する行動認識装置(クライアント102)は、多変量解析で統計的な成分を生成する次元削減(主成分分析または独立成分分析またはSNE(Stochastic Neighbor Embedding)またはt-SNE(t-Distributed Stochastic Neighbor Embedding)またはUMAP(Uniform Manifold Approximation and Projection)またはIsomapまたはLLE(Locally Linear Embedding)またはラプラシアン固有マップ(Laplacian Eignmap)またはLargeVisまたは拡散マップ)により学習対象の形状(骨格情報320)から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、前記プロセッサ201は、センサ103から得られた解析対象データから認識対象の形状(骨格情報320)を検出する検出処理と、前記次元削減により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する次元削減処理と、前記各々の寄与率から得られる累積寄与率に基づいて、前記1以上の成分のうち第1変数からの昇順の成分の次元を示す序数kを決定する決定処理と、前記第1変数から前記決定処理によって決定された次元を示す序数kの成分までの特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、を実行する。 (9) The behavior recognition device (client 102), which includes a processor 201 that executes a program and a storage device 202 that stores the program, performs dimension reduction (principal component analysis or Independent component analysis or SNE (Stochastic Neighbor Embedding) or t-SNE (t-Distributed Stochastic Neighbor Embedding) or UMAP (Uniform Manifold Approximation) on and Projection) or Isomap or LLE (Locally Linear Embedding) or Laplacian Eignmap or LargeVis A behavior classification model group learned for each component group using the component group in ascending order from the first variable obtained from the shape of the learning target (skeletal information 320) using a diffusion map) and the behavior of the learning target. The processor 201 performs a detection process of detecting the shape of the recognition target (skeletal information 320) from the analysis target data obtained from the sensor 103, and performs the dimension reduction to detect the shape of the recognition target from the analysis target data obtained from the sensor 103, and the Dimension reduction processing that generates one or more components and a contribution rate of each of the components based on the shape of the recognition target, and a dimension reduction process that generates one or more components and a contribution rate of each of the components, and a a determination process for determining an ordinal number k indicating the dimension of the component in ascending order from the first variable among the components; and a specific component group from the first variable to the component with the ordinal number k indicating the dimension determined by the determination process. A selection process of selecting a specific behavior classification model learned with the same component group from the behavior classification model group, and inputting the specific component group to the specific behavior classification model selected by the selection process, and a behavior recognition process of outputting a recognition result indicating the behavior of the recognition target.

これにより、学習対象の形状に応じた行動分類モデルが用意されているため、認識対象の複数種類の行動を高精度に認識することができる。 Thereby, since a behavior classification model is prepared according to the shape of the learning target, multiple types of behaviors to be recognized can be recognized with high accuracy.

(10)上記(9)の行動認識装置において、前記行動分類モデル群の各々の行動分類モデルは、前記学習対象の形状および前記形状を構成する複数の頂点の角度(関節角度370)から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習されており、前記プロセッサ201は、前記認識対象の形状に基づいて、前記認識対象の形状を構成する複数の頂点の角度(関節角度370)を算出する算出処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記認識対象の形状と、前記算出処理によって算出された前記認識対象の頂点の角度と、に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (10) In the behavior recognition device of (9) above, each behavior classification model of the behavior classification model group is obtained from the shape of the learning target and the angles (joint angles 370) of a plurality of vertices constituting the shape. Learning is performed for each component group using the component group in ascending order from the first variable and the behavior of the learning target, and the processor 201 determines the shape of the recognition target based on the shape of the recognition target. In the dimension reduction process, the processor 201 calculates the shape of the recognition target and the recognition target calculated by the calculation process. The one or more components and the contribution rate are generated based on the angle of the vertex.

これにより、頂点の角度に起因する形状の変化に応じて、認識対象の複数種類の行動を高精度に認識することができる。 Thereby, multiple types of actions to be recognized can be recognized with high accuracy according to changes in shape caused by the angle of the vertices.

(11)上記(9)の行動認識装置において、前記行動分類モデル群の各々の行動分類モデルは、前記学習対象の形状および前記学習対象の移動量から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習されており、前記プロセッサ201は、前記認識対象の異なる時点の複数の形状に基づいて、前記認識対象の移動量を算出する算出処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記認識対象の形状と、前記算出処理によって算出された前記認識対象の移動量と、に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (11) In the behavior recognition device of (9) above, each behavior classification model of the behavior classification model group is a component group in ascending order from a first variable obtained from the shape of the learning target and the amount of movement of the learning target. and the behavior of the learning target are learned for each component group, and the processor 201 calculates the amount of movement of the recognition target based on a plurality of shapes of the recognition target at different times. In the dimension reduction process, the processor 201 calculates the one or more components based on the shape of the recognition target and the movement amount of the recognition target calculated by the calculation process. The contribution rate is generated.

これにより、移動に起因する形状の経時的な変化に応じて、認識対象の複数種類の行動を高精度に認識することができる。 Thereby, multiple types of actions of the recognition target can be recognized with high accuracy according to changes in shape over time due to movement.

(12)上記(9)の行動認識装置において、前記プロセッサ201は、前記認識対象の形状の大きさを正規化する第1正規化処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記第1正規化処理による第1正規化後の前記認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (12) In the behavior recognition device of (9) above, the processor 201 executes a first normalization process to normalize the size of the shape of the recognition target, and in the dimension reduction process, the processor 201 The one or more components and the contribution rate are generated based on the shape of the recognition target after first normalization by the first normalization process.

これにより、行動分類の汎用性の向上により、誤認識の抑制を図ることができる。 Thereby, by improving the versatility of behavior classification, it is possible to suppress misrecognition.

(13)上記(10)の行動認識装置において、前記プロセッサ201は、前記認識対象の形状および頂点の角度が取りうる値域を正規化する第2正規化処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記第2正規化処理による第2正規化後の前記認識対象の形状および頂点の角度(関節角度370)に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (13) In the behavior recognition device of (10) above, the processor 201 executes a second normalization process to normalize the range of possible values of the shape of the recognition target and the angle of the vertex, and in the dimension reduction process, The processor 201 generates the one or more components and the contribution rate based on the shape of the recognition target and the angle of the vertex (joint angle 370) after second normalization by the second normalization process. do.

これにより、形状と角度という異なるデータ種における値域の偏りを抑制することができ、行動認識の高精度化を図ることができる。 As a result, it is possible to suppress bias in the range of different data types such as shape and angle, and it is possible to improve the accuracy of behavior recognition.

(14)上記(9)の行動認識装置において、前記決定処理では、前記プロセッサ201は、前記第1変数からの累積寄与率がしきい値を超えるのに必要な前記第1変数からの昇順の成分の次元を示す序数kを決定する。 (14) In the behavior recognition device of (9) above, in the determination process, the processor 201 selects the values in ascending order from the first variable that are necessary for the cumulative contribution rate from the first variable to exceed a threshold. Determine the ordinal number k indicating the dimension of the component.

累積寄与率は、新たに生成した複数の成分が元のデータの情報量をどの程度表しているかといったことを示す尺度となるため、累積寄与率を参照することにより、次元数増加の抑制を図ることができる。 The cumulative contribution rate is a measure of how much the newly generated components represent the amount of information in the original data, so by referring to the cumulative contribution rate, it is possible to suppress the increase in the number of dimensions. be able to.

(15)上記(9)の行動認識装置において、前記行動分類モデル群の各々の行動分類モデルは、学習対象の一部欠損した形状から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、前記一部欠損した形状および成分群の組み合わせごとに学習されており、前記プロセッサ201は、前記認識対象の一部欠損した形状を判断する判断処理と、前記次元削減処理では、前記プロセッサ201は、前記判断処理によって判断された前記認識対象の一部欠損した形状に基づいて、前記1以上の成分と、前記1以上の成分の各々の寄与率と、を生成し、前記選択処理では、前記プロセッサ201は、前記認識対象の一部欠損した形状と同一欠損形状および前記特定の成分群と同じ成分群の組み合わせで学習された特定の行動分類モデルを、前記行動分類モデル群から選択する。 (15) In the behavior recognition device according to (9) above, each behavior classification model of the behavior classification model group includes a component group in ascending order from a first variable obtained from a partially missing shape of the learning target, and the learning object. The behavior of the target is learned for each combination of the partially missing shape and the component group, and the processor 201 performs a judgment process for determining the partially missing shape of the recognition target, and the dimension In the reduction process, the processor 201 generates the one or more components and the contribution rate of each of the one or more components based on the partially missing shape of the recognition target determined by the determination process. In the selection process, the processor 201 selects a specific behavior classification model learned using the same missing shape as the partially missing shape of the recognition target and a combination of the same component group as the specific component group. Select from a group of classification models.

認識対象の形状が一部欠損していても、当該一部欠損に対応した行動分類モデルを用いて、高精度な行動認識をおこなうことができる。 Even if the shape of the recognition target is partially missing, highly accurate behavior recognition can be performed using a behavior classification model that corresponds to the partially missing shape.

(16)上記(9)の行動認識装置において、前記プロセッサ201は、前記認識対象の形状に一部欠損があれば補間する補間処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記補間処理による補間後の認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する。 (16) In the behavior recognition device of (9) above, the processor 201 executes an interpolation process to interpolate if there is a partial defect in the shape of the recognition target, and in the dimension reduction process, the processor 201 The one or more components and the contribution rate are generated based on the shape of the recognition target after interpolation by interpolation processing.

これにより、形状に欠損がない学習対象によって生成された行動分類モデルに適切な入力を与えることができ、行動認識精度の低下を抑制することができる。 Thereby, appropriate input can be given to the behavior classification model generated by the learning target with no defects in shape, and a decrease in behavior recognition accuracy can be suppressed.

(17)プログラムを実行するプロセッサ201と、前記プログラムを記憶する記憶デバイス202と、を有する学習装置において、前記プロセッサ201は、学習対象の形状および行動を含む教師データを取得する取得処理と、多変量解析で統計的な成分を生成する成分分析(主成分分析または独立成分分析)により、前記取得処理によって取得された前記学習対象の形状に基づいて、1以上の成分を生成する成分分析処理と、許容計算量に基づいて、前記1以上の成分の各々の次元を示す序数を制御する制御処理と、前記制御処理によって制御された次元を示す序数の成分を1以上含む成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記学習対象の行動を分類する行動分類モデルを生成する行動学習処理と、を実行する。 (17) In a learning device that includes a processor 201 that executes a program and a storage device 202 that stores the program, the processor 201 performs an acquisition process that acquires teacher data including the shape and behavior of a learning target, and A component analysis process that generates one or more components based on the shape of the learning target acquired by the acquisition process by component analysis (principal component analysis or independent component analysis) that generates statistical components by variable analysis; , a control process for controlling ordinal numbers indicating dimensions of each of the one or more components based on an allowable amount of calculation; a component group including one or more ordinal components indicating the dimensions controlled by the control process; and the learning. and a behavior learning process of learning the behavior of the learning target based on the behavior of the target and generating a behavior classification model for classifying the behavior of the learning target.

これにより、学習対象の形状に応じた行動分類モデルを複数種類用意することができるため、認識対象の複数種類の行動を高精度に認識することができる。 As a result, it is possible to prepare a plurality of types of behavior classification models according to the shape of the learning target, and therefore, it is possible to recognize multiple types of recognition target behaviors with high accuracy.

(18)上記(17)の学習装置において、前記プロセッサ201は、前記学習対象の形状に基づいて、前記学習対象の形状を構成する複数の頂点の角度(関節角度370)を算出する算出処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記学習対象の形状と、前記算出処理によって算出された前記学習対象の頂点の角度と、に基づいて、前記1以上の成分を生成する。 (18) In the learning device of (17) above, the processor 201 performs a calculation process of calculating angles (joint angles 370) of a plurality of vertices constituting the shape of the learning target based on the shape of the learning target. In the component analysis process, the processor 201 generates the one or more components based on the shape of the learning target and the angle of the vertex of the learning target calculated by the calculation process.

これにより、頂点の角度に起因する形状の変化に応じて、行動分類モデルを複数種類用意することができるため、認識対象の頂点の角度に起因する形状の変化に応じた複数種類の行動を、高精度に認識することができる。 As a result, multiple types of behavior classification models can be prepared according to changes in shape caused by the angle of the vertex to be recognized. It can be recognized with high precision.

(19)上記(17)の学習装置において、前記プロセッサ201は、前記学習対象の異なる時点の複数の形状に基づいて、前記学習対象の移動量を算出する算出処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記学習対象の形状と、前記算出処理によって算出された前記学習対象の移動量と、に基づいて、前記1以上の成分を生成する。 (19) In the learning device of (17) above, the processor 201 executes a calculation process for calculating the movement amount of the learning target based on a plurality of shapes of the learning target at different times, and performs the component analysis process. Then, the processor 201 generates the one or more components based on the shape of the learning target and the amount of movement of the learning target calculated by the calculation process.

これにより、移動に起因する形状の経時的な変化に応じて、行動分類モデルを複数種類用意することができるため、移動に起因する形状の経時的な変化に応じた複数種類の行動を、高精度に認識することができる。 As a result, it is possible to prepare multiple types of behavior classification models according to changes in shape over time due to movement. Can be recognized with precision.

(20)上記(17)の学習装置において、前記プロセッサ201は、前記学習対象の形状の大きさを正規化する第1正規化処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記第1正規化処理による第1正規化後の前記学習対象の形状に基づいて、前記1以上の成分を生成する。 (20) In the learning device of (17) above, the processor 201 executes a first normalization process to normalize the size of the shape of the learning target, and in the component analysis process, the processor 201 performs the first normalization process to normalize the size of the shape of the learning target. The one or more components are generated based on the shape of the learning target after first normalization by a first normalization process.

これにより、行動分類学習の汎用性の向上により、誤学習の抑制を図ることができる。 Thereby, by improving the versatility of behavior classification learning, it is possible to suppress erroneous learning.

(21)上記(18)の学習装置において、前記プロセッサ201は、前記学習対象の形状および頂点の角度が取りうる値域を正規化する第2正規化処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記第2正規化処理による第2正規化後の前記学習対象の形状および頂点の角度に基づいて、前記1以上の成分を生成する。 (21) In the learning device of (18) above, the processor 201 executes a second normalization process to normalize the range of possible values of the shape of the learning target and the angle of the vertex, and in the component analysis process, the The processor 201 generates the one or more components based on the shape of the learning target and the angle of the vertex after second normalization by the second normalization process.

これにより、形状と角度という異なるデータ種における値域の偏りを抑制することができ、行動分類学習の高精度化を図ることができる。 Thereby, it is possible to suppress bias in the range of different data types such as shape and angle, and it is possible to improve the accuracy of behavior classification learning.

(22)上記(17)の学習装置において、前記プロセッサ201は、前記学習対象の形状を一部欠損させる欠損制御処理を実行し、前記成分分析処理では、前記プロセッサ201は、前記欠損制御処理によって得られた前記学習対象の一部欠損した形状に基づいて、前記1以上の成分を生成し、前記行動学習処理では、前記プロセッサ201は、前記成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記行動分類モデルを生成し、前記一部欠損させた形状に関する欠損情報と関連付ける。 (22) In the learning device of (17) above, the processor 201 executes a loss control process for partially missing the shape of the learning target, and in the component analysis process, the processor 201 performs a loss control process by the loss control process. The one or more components are generated based on the obtained partially missing shape of the learning target, and in the behavior learning process, the processor 201 generates the one or more components based on the component group and the behavior of the learning target. Then, the behavior of the learning target is learned, the behavior classification model is generated, and the behavior classification model is associated with the missing information regarding the partially missing shape.

意図的に一部欠損した形状を生成することにより、行動分類モデルの種類数の増加を図ることができる。これにより、認識対象の様々な形状に対応した高精度な行動認識が可能になる。 By generating a shape with some parts intentionally missing, it is possible to increase the number of types of behavior classification models. This enables highly accurate behavior recognition that corresponds to various shapes of recognition targets.

(23)プログラムを実行するプロセッサ201と、前記プログラムを記憶する記憶デバイス202と、を有する学習装置において、前記プロセッサ201は、学習対象の形状および行動を含む教師データを取得する取得処理と、多変量解析で統計的な成分を生成する次元削減(主成分分析または独立成分分析またはSNE(Stochastic Neighbor Embedding)またはt-SNE(t-Distributed Stochastic Neighbor Embedding)またはUMAP(Uniform Manifold Approximation and Projection)またはIsomapまたはLLE(Locally Linear Embedding)またはラプラシアン固有マップ(Laplacian Eignmap)またはLargeVisまたは拡散マップ)により、前記取得処理によって取得された前記学習対象の形状に基づいて、1以上の成分を生成する次元削減処理と、許容計算量に基づいて、前記1以上の成分のうち第1変数からの昇順の成分の次元を示す序数を制御する制御処理と、前記第1変数から前記制御処理によって制御された次元を示す序数の成分までの成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記学習対象の行動を分類する行動分類モデルを生成する行動学習処理と、を実行する。 (23) In a learning device that includes a processor 201 that executes a program and a storage device 202 that stores the program, the processor 201 performs an acquisition process that acquires teacher data including the shape and behavior of a learning target, and Dimensionality reduction (Principal Component Analysis or Independent Component Analysis or SNE (Stochastic Neighbor Embedding) or t-SNE (t-Distributed Stochastic Neighbor Embedding) or UMAP (Uniform Mani fold Approximation and Projection) or Isomap or a dimension reduction process that generates one or more components based on the shape of the learning target acquired by the acquisition process using LLE (Locally Linear Embedding), Laplacian Eignmap, LargeVis, or Diffusion Map); , a control process that controls an ordinal number indicating the dimension of the component in ascending order from the first variable among the one or more components based on an allowable amount of calculation; and a control process that indicates the dimension controlled by the control process from the first variable. Behavior learning processing that generates a behavior classification model that classifies the behavior of the learning target by learning the behavior of the learning target based on a component group up to an ordinal component and the behavior of the learning target. Execute.

これにより、学習対象の形状に応じた行動分類モデルを複数種類用意することができるため、認識対象の複数種類の行動を高精度に認識することができる。 As a result, it is possible to prepare a plurality of types of behavior classification models according to the shape of the learning target, and therefore, it is possible to recognize multiple types of recognition target behaviors with high accuracy.

(24)上記(23)の学習装置において、前記プロセッサ201は、前記学習対象の形状に基づいて、前記学習対象の形状を構成する複数の頂点の角度(関節角度370)を算出する算出処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記学習対象の形状と、前記算出処理によって算出された前記学習対象の頂点の角度と、に基づいて、前記1以上の成分を生成する。 (24) In the learning device of (23) above, the processor 201 performs a calculation process of calculating the angles (joint angles 370) of a plurality of vertices constituting the shape of the learning target based on the shape of the learning target. In the dimension reduction process, the processor 201 generates the one or more components based on the shape of the learning target and the angle of the vertex of the learning target calculated by the calculation process.

これにより、頂点の角度に起因する形状の変化に応じて、行動分類モデルを複数種類用意することができるため、認識対象の頂点の角度に起因する形状の変化に応じた複数種類の行動を、高精度に認識することができる。 As a result, multiple types of behavior classification models can be prepared according to changes in shape caused by the angle of the vertex to be recognized. It can be recognized with high precision.

(25)上記(23)の学習装置において、前記プロセッサ201は、前記学習対象の異なる時点の複数の形状に基づいて、前記学習対象の移動量を算出する算出処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記学習対象の形状と、前記算出処理によって算出された前記学習対象の移動量と、に基づいて、前記1以上の成分を生成する。 (25) In the learning device of (23) above, the processor 201 executes a calculation process for calculating the movement amount of the learning target based on a plurality of shapes of the learning target at different times, and performs the dimension reduction process. Then, the processor 201 generates the one or more components based on the shape of the learning target and the amount of movement of the learning target calculated by the calculation process.

これにより、移動に起因する形状の経時的な変化に応じて、行動分類モデルを複数種類用意することができるため、移動に起因する形状の経時的な変化に応じた複数種類の行動を、高精度に認識することができる。 As a result, it is possible to prepare multiple types of behavior classification models according to changes in shape over time due to movement. Can be recognized with precision.

(26)上記(23)の学習装置において、前記プロセッサ201は、前記学習対象の形状の大きさを正規化する第1正規化処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記第1正規化処理による第1正規化後の前記学習対象の形状に基づいて、前記1以上の成分を生成する。 (26) In the learning device of (23) above, the processor 201 executes a first normalization process to normalize the size of the shape of the learning target, and in the dimension reduction process, the processor 201 The one or more components are generated based on the shape of the learning target after first normalization by a first normalization process.

これにより、行動分類学習の汎用性の向上により、誤学習の抑制を図ることができる。 Thereby, by improving the versatility of behavior classification learning, it is possible to suppress erroneous learning.

(27)上記(24)の学習装置において、前記プロセッサ201は、前記学習対象の形状および頂点の角度が取りうる値域を正規化する第2正規化処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記第2正規化処理による第2正規化後の前記学習対象の形状および頂点の角度に基づいて、前記1以上の成分を生成する。 (27) In the learning device of (24) above, the processor 201 executes a second normalization process to normalize the range of possible values of the shape of the learning target and the angle of the vertex, and in the dimension reduction process, the The processor 201 generates the one or more components based on the shape of the learning target and the angle of the vertex after second normalization by the second normalization process.

これにより、形状と角度という異なるデータ種における値域の偏りを抑制することができ、行動分類学習の高精度化を図ることができる。 Thereby, it is possible to suppress bias in the range of different data types such as shape and angle, and it is possible to improve the accuracy of behavior classification learning.

(28)上記(23)の学習装置において、前記プロセッサ201は、前記学習対象の形状を一部欠損させる欠損制御処理を実行し、前記次元削減処理では、前記プロセッサ201は、前記欠損制御処理によって得られた前記学習対象の一部欠損した形状に基づいて、前記1以上の成分を生成し、前記行動学習処理では、前記プロセッサ201は、前記第1変数から前記次元を示す序数の成分までの成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記行動分類モデルを生成し、前記一部欠損させた形状に関する欠損情報と関連付ける。 (28) In the learning device of (23) above, the processor 201 executes a loss control process for partially missing the shape of the learning target, and in the dimension reduction process, the processor 201 performs the loss control process by the loss control process. The one or more components are generated based on the obtained partially missing shape of the learning target, and in the behavioral learning process, the processor 201 generates the components from the first variable to the ordinal component indicating the dimension. The behavior of the learning target is learned based on the component group and the behavior of the learning target, the behavior classification model is generated, and the behavior is associated with the missing information regarding the partially missing shape.

意図的に一部欠損した形状を生成することにより、行動分類モデルの種類数の増加を図ることができる。これにより、認識対象の様々な形状に対応した高精度な行動認識が可能になる。 By generating a shape with some parts intentionally missing, it is possible to increase the number of types of behavior classification models. This enables highly accurate behavior recognition that corresponds to various shapes of recognition targets.

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。 Note that the present invention is not limited to the embodiments described above, and includes various modifications and equivalent configurations within the scope of the appended claims. For example, the embodiments described above have been described in detail to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to having all the configurations described. Further, a part of the configuration of one embodiment may be replaced with the configuration of another embodiment. Further, the configuration of one embodiment may be added to the configuration of another embodiment. Furthermore, other configurations may be added to, deleted from, or replaced with some of the configurations of each embodiment.

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ201がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。 Further, each of the above-described configurations, functions, processing units, processing means, etc. may be partially or entirely realized in hardware by designing an integrated circuit, for example, and the processor 201 may implement each function. It may be realized by software by interpreting and executing a program to be realized.

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。 Information such as programs, tables, and files that realize each function is stored in storage devices such as memory, hard disks, and SSDs (Solid State Drives), or on IC (Integrated Circuit) cards, SD cards, and DVDs (Digital Versatile Discs). It can be stored on a medium.

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要なすべての制御線や情報線を示しているとは限らない。実際には、ほとんどすべての構成が相互に接続されていると考えてよい。 Furthermore, the control lines and information lines shown are those considered necessary for explanation, and do not necessarily show all the control lines and information lines necessary for implementation. In reality, almost all configurations can be considered interconnected.

100 行動認識システム
101 サーバ
102 クライアント
103 センサ
104 教師信号DB
201 プロセッサ
202 記憶デバイス
320 骨格情報
401 教師信号取得部
402 欠損情報制御部
403,453 骨格情報処理部
404,454 主成分分析部
405,2601 次元数制御部
406,2200,2602 行動学習部
451 骨格検出部
452 欠損情報判断部
455 次元数決定部
456 行動分類モデル選択部
457,2201 行動認識部
501 関節角度算出部
502 移動量算出部
503 正規化部
1652 欠損情報補間部
1904 相互情報正規化部
2100,2101,2600,2603 次元削減部
100 Behavior recognition system 101 Server 102 Client 103 Sensor 104 Teacher signal DB
201 Processor 202 Storage device 320 Skeleton information 401 Teacher signal acquisition section 402 Missing information control section 403, 453 Skeletal information processing section 404, 454 Principal component analysis section 405, 2601 Number of dimensions control section 406, 2200, 2602 Behavior learning section 451 Skeleton detection Unit 452 Missing information judgment unit 455 Dimension number deciding unit 456 Behavior classification model selection unit 457, 2201 Behavior recognition unit 501 Joint angle calculation unit 502 Movement amount calculation unit 503 Normalization unit 1652 Missing information interpolation unit 1904 Mutual information normalization unit 2100, 2101, 2600, 2603 Dimension reduction part

Claims (20)

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する行動認識装置であって、
多変量解析で統計的な成分を生成する成分分析により学習対象の形状から得られる成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、
前記プロセッサは、
解析対象データから認識対象の形状を検出する検出処理と、
前記成分分析により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する成分分析処理と、
前記各々の寄与率から得られる累積寄与率に基づいて、前記1以上の成分の各々の次元を示す序数を決定する決定処理と、
前記決定処理によって決定された次元を示す序数の成分を1以上含む特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、
前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、
を実行することを特徴とする行動認識装置。
An action recognition device comprising a processor that executes a program, and a storage device that stores the program,
Using the component group obtained from the shape of the learning target through component analysis that generates statistical components through multivariate analysis and the behavior of the learning target, it is possible to access the behavior classification model group learned for each component group. and
The processor includes:
Detection processing that detects the shape of the recognition target from the analysis target data,
A component analysis process that generates one or more components and a contribution rate of each of the components based on the shape of the recognition target detected by the detection process by the component analysis;
a determination process of determining an ordinal number indicating the dimension of each of the one or more components based on the cumulative contribution rate obtained from each of the contribution rates;
a selection process of selecting a specific behavior classification model trained with the same component group as a specific component group that includes one or more ordinal components indicating the dimension determined by the determination process from the behavior classification model group;
a behavior recognition process that outputs a recognition result indicating the behavior to be recognized by inputting the specific component group to a specific behavior classification model selected by the selection process;
An action recognition device characterized by performing.
請求項1に記載の行動認識装置であって、
前記行動分類モデル群の各々の行動分類モデルは、学習対象の一部欠損した形状から得られる成分群と、前記学習対象の行動と、を用いて、前記一部欠損した形状および成分群の組み合わせごとに学習されており、
前記プロセッサは、
前記認識対象の一部欠損した形状を判断する判断処理と、
前記成分分析処理では、前記プロセッサは、前記判断処理によって判断された前記認識対象の一部欠損した形状に基づいて、前記1以上の成分と、前記1以上の成分の各々の寄与率と、を生成し、
前記選択処理では、前記プロセッサは、前記認識対象の一部欠損した形状と同一欠損形状および前記特定の成分群と同じ成分群の組み合わせで学習された特定の行動分類モデルを、前記行動分類モデル群から選択する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 1,
Each of the behavior classification models in the behavior classification model group uses a component group obtained from the partially missing shape of the learning target and the behavior of the learning target to combine the partially missing shape and the component group. It is learned every
The processor includes:
a determination process for determining a partially missing shape of the recognition target;
In the component analysis process, the processor calculates the one or more components and the contribution rate of each of the one or more components based on the partially missing shape of the recognition target determined by the determination process. generate,
In the selection process, the processor selects a specific behavior classification model learned using the same missing shape as the partially missing shape of the recognition target and the same component group as the specific component group, into the behavior classification model group. choose from;
An action recognition device characterized by:
請求項1に記載の行動認識装置であって、
前記プロセッサは、
前記認識対象の形状に一部欠損があれば補間する補間処理を実行し、
前記成分分析処理では、前記プロセッサは、前記補間処理による補間後の認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 1,
The processor includes:
Performing interpolation processing to interpolate if there is a partial defect in the shape of the recognition target,
In the component analysis process, the processor generates the one or more components and the contribution rate based on the shape of the recognition target after interpolation by the interpolation process.
An action recognition device characterized by:
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する行動認識装置であって、
多変量解析で統計的な成分を生成する次元削減により学習対象の形状から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、
前記プロセッサは、
解析対象データから認識対象の形状を検出する検出処理と、
前記次元削減により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する次元削減処理と、
前記各々の寄与率に基づいて、前記1以上の成分のうち第1変数からの昇順の成分の次元を示す序数を決定する決定処理と、
前記第1変数から前記決定処理によって決定された次元を示す序数の成分までの特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、
前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、
を実行することを特徴とする行動認識装置。
An action recognition device comprising a processor that executes a program, and a storage device that stores the program,
Each component group is learned using the component group in ascending order from the first variable obtained from the shape of the learning target by dimension reduction that generates statistical components through multivariate analysis, and the behavior of the learning target. Has access to a group of behavioral classification models,
The processor includes:
Detection processing that detects the shape of the recognition target from the analysis target data,
Dimension reduction processing that generates one or more components and a contribution rate of each of the components based on the shape of the recognition target detected by the detection processing by the dimension reduction;
a determination process of determining an ordinal number indicating the dimension of the component in ascending order from the first variable among the one or more components, based on each of the contribution rates;
a selection process of selecting a specific behavior classification model learned with the same component group as a specific component group from the first variable to an ordinal component indicating the dimension determined by the determination process from the behavior classification model group; ,
a behavior recognition process that outputs a recognition result indicating the behavior to be recognized by inputting the specific component group to a specific behavior classification model selected by the selection process;
An action recognition device characterized by performing.
請求項4に記載の行動認識装置であって、
前記行動分類モデル群の各々の行動分類モデルは、前記学習対象の形状および前記形状を構成する複数の頂点の角度から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習されており、
前記プロセッサは、
前記認識対象の形状に基づいて、前記認識対象の形状を構成する複数の頂点の角度を算出する算出処理を実行し、
前記次元削減処理では、前記プロセッサは、前記認識対象の形状と、前記算出処理によって算出された前記認識対象の頂点の角度と、に基づいて、前記1以上の成分と、前記寄与率と、を生成する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 4,
Each behavior classification model of the behavior classification model group includes a component group in ascending order from a first variable obtained from the shape of the learning target and the angles of a plurality of vertices constituting the shape, the behavior of the learning target, is learned for each component group using
The processor includes:
Based on the shape of the recognition target, performing a calculation process of calculating angles of a plurality of vertices forming the shape of the recognition target;
In the dimension reduction process, the processor calculates the one or more components and the contribution rate based on the shape of the recognition target and the angle of the vertex of the recognition target calculated by the calculation process. generate,
An action recognition device characterized by:
請求項4に記載の行動認識装置であって、
前記行動分類モデル群の各々の行動分類モデルは、前記学習対象の形状および前記学習対象の移動量から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習されており、
前記プロセッサは、
前記認識対象の異なる時点の複数の形状に基づいて、前記認識対象の移動量を算出する算出処理を実行し、
前記次元削減処理では、前記プロセッサは、前記認識対象の形状と、前記算出処理によって算出された前記認識対象の移動量と、に基づいて、前記1以上の成分と、前記寄与率と、を生成する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 4,
Each behavior classification model of the behavior classification model group uses a component group in ascending order from a first variable obtained from the shape of the learning target and the amount of movement of the learning target, and the behavior of the learning target, It is learned for each component group,
The processor includes:
executing a calculation process for calculating a movement amount of the recognition target based on a plurality of shapes of the recognition target at different times;
In the dimension reduction process, the processor generates the one or more components and the contribution rate based on the shape of the recognition target and the movement amount of the recognition target calculated by the calculation process. do,
An action recognition device characterized by:
請求項4に記載の行動認識装置であって、
前記プロセッサは、
前記認識対象の形状の大きさを正規化する第1正規化処理を実行し、
前記次元削減処理では、前記プロセッサは、前記第1正規化処理による第1正規化後の前記認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 4,
The processor includes:
performing a first normalization process to normalize the size of the shape of the recognition target;
In the dimension reduction process, the processor generates the one or more components and the contribution rate based on the shape of the recognition target after first normalization by the first normalization process.
An action recognition device characterized by:
請求項5に記載の行動認識装置であって、
前記プロセッサは、
前記認識対象の形状および頂点の角度が取りうる値域を正規化する第2正規化処理を実行し、
前記次元削減処理では、前記プロセッサは、前記第2正規化処理による第2正規化後の前記認識対象の形状および頂点の角度に基づいて、前記1以上の成分と、前記寄与率と、を生成する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 5,
The processor includes:
performing a second normalization process to normalize the range of possible values of the shape of the recognition target and the angle of the vertex;
In the dimension reduction process, the processor generates the one or more components and the contribution rate based on the shape of the recognition target and the angle of the vertex after second normalization by the second normalization process. do,
An action recognition device characterized by:
請求項4に記載の行動認識装置であって、
前記決定処理では、前記プロセッサは、前記寄与率がしきい値を超えるのに必要な前記第1変数からの昇順の成分の次元を示す序数を決定する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 4,
In the determination process, the processor determines an ordinal number indicating the dimension of an ascending component from the first variable necessary for the contribution rate to exceed a threshold;
An action recognition device characterized by:
請求項4に記載の行動認識装置であって、
前記行動分類モデル群の各々の行動分類モデルは、学習対象の一部欠損した形状から得られる第1変数からの昇順の成分群と、前記学習対象の行動と、を用いて、前記一部欠損した形状および成分群の組み合わせごとに学習されており、
前記プロセッサは、
前記認識対象の一部欠損した形状を判断する判断処理と、
前記次元削減処理では、前記プロセッサは、前記判断処理によって判断された前記認識対象の一部欠損した形状に基づいて、前記1以上の成分と、前記1以上の成分の各々の寄与率と、を生成し、
前記選択処理では、前記プロセッサは、前記認識対象の一部欠損した形状と同一欠損形状および前記特定の成分群と同じ成分群の組み合わせで学習された特定の行動分類モデルを、前記行動分類モデル群から選択する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 4,
Each of the behavior classification models of the behavior classification model group uses a component group in ascending order from the first variable obtained from the partially missing shape of the learning target and the behavior of the learning target. It is learned for each combination of shape and component group,
The processor includes:
a determination process for determining a partially missing shape of the recognition target;
In the dimension reduction process, the processor calculates the one or more components and the contribution rate of each of the one or more components based on the partially missing shape of the recognition target determined by the determination process. generate,
In the selection process, the processor selects a specific behavior classification model learned using the same missing shape as the partially missing shape of the recognition target and the same component group as the specific component group, into the behavior classification model group. choose from,
An action recognition device characterized by:
請求項4に記載の行動認識装置であって、
前記プロセッサは、
前記認識対象の形状に一部欠損があれば補間する補間処理を実行し、
前記次元削減処理では、前記プロセッサは、前記補間処理による補間後の認識対象の形状に基づいて、前記1以上の成分と、前記寄与率と、を生成する、
ことを特徴とする行動認識装置。
The behavior recognition device according to claim 4,
The processor includes:
Performing interpolation processing to interpolate if there is a partial defect in the shape of the recognition target,
In the dimension reduction process, the processor generates the one or more components and the contribution rate based on the shape of the recognition target after interpolation by the interpolation process.
An action recognition device characterized by:
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する学習装置であって、
前記プロセッサは、
学習対象の形状および行動を含む教師データを取得する取得処理と、
多変量解析で統計的な成分を生成する成分分析により、前記取得処理によって取得された前記学習対象の形状に基づいて、1以上の成分を生成する成分分析処理と、
許容計算量に基づいて、前記1以上の成分の各々の次元を示す序数を制御する制御処理と、
前記制御処理によって制御された次元を示す序数の成分を1以上含む成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記学習対象の行動を分類する行動分類モデルを生成する行動学習処理と、
を実行することを特徴とする学習装置。
A learning device comprising a processor that executes a program and a storage device that stores the program,
The processor includes:
an acquisition process that acquires training data including the shape and behavior of the learning target;
a component analysis process that generates one or more components based on the shape of the learning target acquired by the acquisition process by a component analysis that generates statistical components by multivariate analysis;
A control process that controls ordinal numbers indicating dimensions of each of the one or more components based on an allowable amount of calculation;
The behavior of the learning target is learned and the behavior of the learning target is classified based on the behavior of the learning target and a component group including one or more ordinal components indicating the dimension controlled by the control process. Behavior learning processing that generates a behavior classification model;
A learning device characterized by performing the following.
請求項12に記載の学習装置であって、
前記プロセッサは、
前記学習対象の形状を一部欠損させる欠損制御処理を実行し、
前記成分分析処理では、前記プロセッサは、前記欠損制御処理によって得られた前記学習対象の一部欠損した形状に基づいて、前記1以上の成分を生成し、
前記行動学習処理では、前記プロセッサは、
前記成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記行動分類モデルを生成し、前記一部欠損させた形状に関する欠損情報と関連付ける、
ことを特徴とする学習装置。
The learning device according to claim 12,
The processor includes:
Execute a loss control process to partially lose the shape of the learning target,
In the component analysis process, the processor generates the one or more components based on the partially missing shape of the learning target obtained by the loss control process,
In the behavior learning process, the processor:
learning the behavior of the learning target based on the component group and the behavior of the learning target, generating the behavior classification model, and associating it with missing information regarding the partially missing shape;
A learning device characterized by:
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する学習装置であって、
前記プロセッサは、
学習対象の形状および行動を含む教師データを取得する取得処理と、
多変量解析で統計的な成分を生成する次元削減により、前記取得処理によって取得された前記学習対象の形状に基づいて、1以上の成分を生成する次元削減処理と、
許容計算量に基づいて、前記1以上の成分のうち第1変数からの昇順の成分の次元を示す序数を制御する制御処理と、
前記第1変数から前記制御処理によって制御された次元を示す序数の成分までの成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記学習対象の行動を分類する行動分類モデルを生成する行動学習処理と、
を実行することを特徴とする学習装置。
A learning device comprising a processor that executes a program and a storage device that stores the program,
The processor includes:
an acquisition process that acquires training data including the shape and behavior of the learning target;
Dimension reduction processing that generates one or more components based on the shape of the learning target acquired by the acquisition process by dimension reduction that generates statistical components by multivariate analysis;
A control process that controls ordinal numbers indicating dimensions of components in ascending order from a first variable among the one or more components based on an allowable amount of calculation;
Learning the behavior of the learning target based on a component group from the first variable to an ordinal component indicating a dimension controlled by the control process and the behavior of the learning target, and learning the behavior of the learning target. a behavior learning process that generates a behavior classification model that classifies the
A learning device characterized by performing the following.
請求項14に記載の学習装置であって、
前記プロセッサは、
前記学習対象の形状に基づいて、前記学習対象の形状を構成する複数の頂点の角度を算出する算出処理を実行し、
前記次元削減処理では、前記プロセッサは、前記学習対象の形状と、前記算出処理によって算出された前記学習対象の頂点の角度と、に基づいて、前記1以上の成分を生成する、
ことを特徴とする学習装置。
The learning device according to claim 14,
The processor includes:
Based on the shape of the learning target, performing a calculation process of calculating angles of a plurality of vertices forming the shape of the learning target,
In the dimension reduction process, the processor generates the one or more components based on the shape of the learning target and the angle of the vertex of the learning target calculated by the calculation process.
A learning device characterized by:
請求項14に記載の学習装置であって、
前記プロセッサは、
前記学習対象の異なる時点の複数の形状に基づいて、前記学習対象の移動量を算出する算出処理を実行し、
前記次元削減処理では、前記プロセッサは、前記学習対象の形状と、前記算出処理によって算出された前記学習対象の移動量と、に基づいて、前記1以上の成分を生成する、
ことを特徴とする学習装置。
The learning device according to claim 14,
The processor includes:
Executing a calculation process to calculate a movement amount of the learning target based on a plurality of shapes of the learning target at different times,
In the dimension reduction process, the processor generates the one or more components based on the shape of the learning target and the amount of movement of the learning target calculated by the calculation process.
A learning device characterized by:
請求項14に記載の学習装置であって、
前記プロセッサは、
前記学習対象の形状の大きさを正規化する第1正規化処理を実行し、
前記次元削減処理では、前記プロセッサは、前記第1正規化処理による第1正規化後の前記学習対象の形状に基づいて、前記1以上の成分を生成する、
ことを特徴とする学習装置。
The learning device according to claim 14,
The processor includes:
performing a first normalization process to normalize the size of the shape of the learning target;
In the dimension reduction process, the processor generates the one or more components based on the shape of the learning target after first normalization by the first normalization process.
A learning device characterized by:
請求項15に記載の学習装置であって、
前記プロセッサは、
前記学習対象の形状および頂点の角度が取りうる値域を正規化する第2正規化処理を実行し、
前記次元削減処理では、前記プロセッサは、前記第2正規化処理による第2正規化後の前記学習対象の形状および頂点の角度に基づいて、前記1以上の成分を生成する、
ことを特徴とする学習装置。
The learning device according to claim 15,
The processor includes:
performing a second normalization process to normalize the range of possible values of the shape of the learning target and the angle of the vertex;
In the dimension reduction process, the processor generates the one or more components based on the shape of the learning target and the angle of the vertex after second normalization by the second normalization process.
A learning device characterized by:
請求項14に記載の学習装置であって、
前記プロセッサは、
前記学習対象の形状を一部欠損させる欠損制御処理を実行し、
前記次元削減処理では、前記プロセッサは、前記欠損制御処理によって得られた前記学習対象の一部欠損した形状に基づいて、前記1以上の成分を生成し、
前記行動学習処理では、前記プロセッサは、
前記第1変数から前記次元を示す序数の成分までの成分群と、前記学習対象の行動と、に基づいて、前記学習対象の行動を学習して、前記行動分類モデルを生成し、前記一部欠損させた形状に関する欠損情報と関連付ける、
ことを特徴とする学習装置。
The learning device according to claim 14,
The processor includes:
Execute a loss control process to partially lose the shape of the learning target,
In the dimension reduction process, the processor generates the one or more components based on the partially missing shape of the learning target obtained by the loss control process,
In the behavior learning process, the processor:
Learning the behavior of the learning target based on a component group from the first variable to an ordinal component indicating the dimension and the behavior of the learning target to generate the behavior classification model; Correlate with missing information regarding the missing shape,
A learning device characterized by:
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する行動認識装置が実行する行動認識方法であって、
多変量解析で統計的な成分を生成する成分分析により学習対象の形状から得られる成分群と、前記学習対象の行動と、を用いて、成分群ごとに学習された行動分類モデル群にアクセス可能であり、
前記行動認識方法は、
前記プロセッサが、
解析対象データから認識対象の形状を検出する検出処理と、
前記成分分析により、前記検出処理によって検出された前記認識対象の形状に基づいて、1以上の成分と、前記成分の各々の寄与率と、を生成する成分分析処理と、
前記各々の寄与率から得られる累積寄与率に基づいて、前記1以上の成分の各々の次元を示す序数を決定する決定処理と、
前記決定処理によって決定された次元を示す序数の成分を1以上含む特定の成分群と同じ成分群で学習された特定の行動分類モデルを、前記行動分類モデル群から選択する選択処理と、
前記選択処理によって選択された特定の行動分類モデルに前記特定の成分群を入力することにより、前記認識対象の行動を示す認識結果を出力する行動認識処理と、
を実行することを特徴とする行動認識方法。
An action recognition method executed by an action recognition device having a processor that executes a program, and a storage device that stores the program, the method comprising:
Using the component group obtained from the shape of the learning target through component analysis that generates statistical components through multivariate analysis and the behavior of the learning target, it is possible to access the behavior classification model group learned for each component group. and
The behavior recognition method includes:
The processor,
Detection processing that detects the shape of the recognition target from the analysis target data,
A component analysis process that generates one or more components and a contribution rate of each of the components based on the shape of the recognition target detected by the detection process by the component analysis;
a determination process of determining an ordinal number indicating the dimension of each of the one or more components based on the cumulative contribution rate obtained from each of the contribution rates;
a selection process of selecting a specific behavior classification model trained with the same component group as a specific component group that includes one or more ordinal components indicating the dimension determined by the determination process from the behavior classification model group;
a behavior recognition process that outputs a recognition result indicating the behavior to be recognized by inputting the specific component group to a specific behavior classification model selected by the selection process;
An action recognition method characterized by performing the following.
JP2021037260A 2020-09-04 2021-03-09 Behavior recognition device, learning device, and behavior recognition method Active JP7439004B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21183349.6A EP3965007A1 (en) 2020-09-04 2021-07-02 Action recognition apparatus, learning apparatus, and action recognition method
US17/369,123 US20220076003A1 (en) 2020-09-04 2021-07-07 Action recognition apparatus, learning apparatus, and action recognition method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020148759 2020-09-04
JP2020148759 2020-09-04

Publications (2)

Publication Number Publication Date
JP2022043974A JP2022043974A (en) 2022-03-16
JP7439004B2 true JP7439004B2 (en) 2024-02-27

Family

ID=80668771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021037260A Active JP7439004B2 (en) 2020-09-04 2021-03-09 Behavior recognition device, learning device, and behavior recognition method

Country Status (1)

Country Link
JP (1) JP7439004B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023182085A (en) * 2022-06-14 2023-12-26 株式会社日立製作所 Behavior recognition device, learning device, and behavior recognition method
JP7156655B1 (en) * 2022-06-29 2022-10-19 アースアイズ株式会社 Monitoring system, monitoring method, and learning method for image recognition device for monitoring system
KR102501576B1 (en) * 2022-11-22 2023-02-21 주식회사 아무랩스 Method and apparatus for transmitting information about diagram to a user terminal using a neural network
CN117876972B (en) * 2024-03-12 2024-05-07 厦门锋联信息技术有限公司 Workshop safety supervision method and system based on internet of things perception

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010893A1 (en) 2005-07-19 2007-01-25 Nec Corporation Joint object position and posture estimating device, its method, and program
KR101563297B1 (en) 2014-04-23 2015-10-26 한양대학교 산학협력단 Method and apparatus for recognizing action in video

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010893A1 (en) 2005-07-19 2007-01-25 Nec Corporation Joint object position and posture estimating device, its method, and program
KR101563297B1 (en) 2014-04-23 2015-10-26 한양대학교 산학협력단 Method and apparatus for recognizing action in video

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAO HONGXIAN, et al.,3D HUMAN ACTION RECOGNITION BASED ON THE SPATIAL-TEMPORAL MOVING SKELETON DESCRIPTOR,2017 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME),米国,IEEE,2017年07月10日,p937-942,DOI: 10.1109/ICME.2017.8019498

Also Published As

Publication number Publication date
JP2022043974A (en) 2022-03-16

Similar Documents

Publication Publication Date Title
JP7439004B2 (en) Behavior recognition device, learning device, and behavior recognition method
US9098740B2 (en) Apparatus, method, and medium detecting object pose
JP6522060B2 (en) Object recognition device, classification tree learning device and operation method thereof
CN104115192B (en) Three-dimensional closely interactive improvement or associated improvement
Han et al. Vision-based detection of unsafe actions of a construction worker: Case study of ladder climbing
Gall et al. Optimization and filtering for human motion capture: A multi-layer framework
CN110782483B (en) Multi-view multi-target tracking method and system based on distributed camera network
WO2011086889A1 (en) Feature point selection system, feature point selection method and feature point selection program
JP6905079B2 (en) Detection and representation of objects in images
Wu et al. Flexible signature descriptions for adaptive motion trajectory representation, perception and recognition
JP2007334756A (en) Abnormal operation detection device and abnormal operation detection method
EP3965007A1 (en) Action recognition apparatus, learning apparatus, and action recognition method
JP2021135619A (en) Situation identification device, situation learning device, and program
US20210150078A1 (en) Reconstructing an object
Morell et al. 3d maps representation using gng
WO2023243130A1 (en) Behavior recognition device, training device, and behavior recognition method
WO2018207292A1 (en) Target object recognition method, device, system, and program
Hernández et al. Adding uncertainty to an object detection system for mobile robots
WO2019235370A1 (en) Learning device, forecasting device, method, and program
Abdelrahman et al. Data-Based dynamic haptic interaction model with deformable 3D objects
Pham et al. Evaluation of similarity measuring method of human body movement based on 3d chain code
Gharde et al. Detection of morphed face, body, audio signals using deep neural networks
JP7233610B2 (en) Information processing device, program and information processing method
Sharet et al. Analyzing data changes using mean shift clustering
Maier Estimating anthropometric marker locations from 3-d ladar point clouds

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240214

R150 Certificate of patent or registration of utility model

Ref document number: 7439004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150