JP2019139479A - Program, device, and method for estimating context using a plurality of recognition engines - Google Patents
Program, device, and method for estimating context using a plurality of recognition engines Download PDFInfo
- Publication number
- JP2019139479A JP2019139479A JP2018021847A JP2018021847A JP2019139479A JP 2019139479 A JP2019139479 A JP 2019139479A JP 2018021847 A JP2018021847 A JP 2018021847A JP 2018021847 A JP2018021847 A JP 2018021847A JP 2019139479 A JP2019139479 A JP 2019139479A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- engine
- input data
- selection
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、複数の認識エンジンを用いてコンテキストを推定する技術に関する。 The present invention relates to a technique for estimating a context using a plurality of recognition engines.
近年、ディープラーニングを用いることによって、物体認識や人物の行動認識における認識精度が飛躍的に向上してきている。
例えば、特定のデータセットを入力し、機械学習アルゴリズムの候補を比較する技術がある(例えば特許文献1参照)。この技術によれば、機械学習モデル毎の性能結果を集計することによって、機械学習モデルの評価を自動的に比較することができる。
In recent years, recognition accuracy in object recognition and human action recognition has been dramatically improved by using deep learning.
For example, there is a technique for inputting a specific data set and comparing machine learning algorithm candidates (see, for example, Patent Document 1). According to this technique, it is possible to automatically compare the evaluations of the machine learning models by counting the performance results for each machine learning model.
映像データに対する認識エンジンとして、例えばRGB画像に映り込む物体を検出する物体認識の技術がある(例えば非特許文献1参照)。
また、移動特徴量(オプティカルフロー)から物体の動きを検出する動体認識の技術もある(例えば非特許文献2参照)。例えばTwo-stream ConvNetsによれば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランス特徴と、オプティカルフローの水平方向成分及び垂直方向成分の系列における動き特徴との両方を抽出する。これら両方の特徴を統合することによって、行動を高精度に認識する。
更に、3次元映像から、人物の行動を認識する技術もある(例えば非特許文献3参照)。
更に、人の関節とその連携部分のスケルトン情報を抽出することによって、人物の行動を認識する技術もある(例えば非特許文献4参照)。
As a recognition engine for video data, for example, there is an object recognition technique for detecting an object reflected in an RGB image (see, for example, Non-Patent Document 1).
There is also a moving object recognition technique for detecting the movement of an object from a moving feature amount (optical flow) (see, for example, Non-Patent Document 2). For example, according to Two-stream ConvNets, the appearance characteristics of objects and backgrounds in an image and the horizontal direction of an optical flow using spatial-direction CNN (Spatial stream ConvNet) and time-series CNN (Temporal stream ConvNet) Extract both the component and motion features in the sequence of vertical components. By integrating both features, the behavior is recognized with high accuracy.
Further, there is a technique for recognizing a person's action from a three-dimensional video (see, for example, Non-Patent Document 3).
Further, there is a technique for recognizing a person's action by extracting skeleton information of a human joint and its associated part (see, for example, Non-Patent Document 4).
その他の適用分野として、ロボットの自律動作によれば、階層的な学習モデルの強化学習を実行する技術もある(例えば非特許文献5参照)。また、ゲートネットワークが使用する機械学習のネットワークであるエキスパートネットワークを、入力データに応じて選択する技術もある(例えば非特許文献6参照)。 As another application field, there is a technology for executing reinforcement learning of a hierarchical learning model according to the autonomous operation of a robot (for example, see Non-Patent Document 5). There is also a technique for selecting an expert network, which is a machine learning network used by a gate network, according to input data (see, for example, Non-Patent Document 6).
図1は、認識装置を有するシステム構成図である。 FIG. 1 is a system configuration diagram having a recognition device.
図1のシステムによれば、認識装置1は、インターネットに接続されたサーバとして機能する。認識装置1は、教師データによって予め学習モデルを構築した認識エンジンを有する。認識エンジンが、人物の行動を認識するものである場合、教師データは、人の行動が映り込む映像データと、その行動対象(コンテキスト)とが予め対応付けられたものである。
According to the system of FIG. 1, the
端末2はそれぞれ、カメラを搭載しており、人の行動を撮影した映像データを、認識装置1へ送信する。端末2は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが認識装置1へ入力されるものであってもよい。
Each terminal 2 is equipped with a camera, and transmits video data obtained by photographing a human action to the
Of course, the terminal 2 is not limited to a smartphone or the like, and may be, for example, a Web camera installed in a home. Alternatively, video data captured by a Web camera may be recorded on an SD card, and the recorded video data may be input to the
具体的には、例えばユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像データを、認識装置1へ送信する。認識装置1は、その映像データから人の行動を推定し、その推定結果を様々なアプリケーションで利用する。
尚、認識装置1の各機能が端末2に組み込まれたものであってもよい。
Specifically, for example, a user photographs his / her behavior with his / her smartphone camera. The smartphone transmits the video data to the
Note that each function of the
非特許文献1〜4の技術によれば、認識精度が最も高くなるであろう学習モデルを予め決定しておく必要がある。そのために、入力データによっては、結果的に最適でない学習モデルが選択される場合もあり得る。
特許文献1の技術によれば、機械学習モデルを比較するために、全ての機械学習モデルに入力データを入力する必要がある。機械学習モデルが多いほど、サーバリソースを必要とする。
非特許文献5の技術によれば、階層的な学習モデルの強化学習を実行するものであって、複数の認識エンジンを用いてコンテキストを認識するものではない。
非特許文献6の技術によれば、ネットワークを選択するエキスパートの学習が不十分である場合、ユーザ所望のスコアに満たないこともある。
According to the techniques of
According to the technique of
According to the technique of Non-Patent Document 5, reinforcement learning of a hierarchical learning model is executed, and context is not recognized using a plurality of recognition engines.
According to the technique of Non-Patent Document 6, when the learning of an expert who selects a network is insufficient, the score desired by the user may not be reached.
前述したいずれの従来技術についても、学習モデルが最適に構築された認識エンジンを利用することを前提としたものであって、入力データに応じて、最適な学習モデルの認識エンジンを予め決定しておく必要がある。
これに対し、本発明の発明者らは、入力データに応じて、最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキスト(認識結果)の認識精度を高めることができないか、と考えた。
All of the above-described conventional techniques are based on the premise that a learning engine having an optimally constructed learning model is used, and an optimum learning model recognition engine is determined in advance according to input data. It is necessary to keep.
On the other hand, the inventors of the present invention can increase the recognition accuracy of the context (recognition result) by automatically selecting one or more optimal recognition engines according to the input data. I thought.
そこで、本発明は、入力データに応じて最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキストの認識精度を高めることができるプログラム、装置及び方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a program, an apparatus, and a method that can improve context recognition accuracy by automatically selecting one or more optimal recognition engines according to input data. .
本発明によれば、複数の認識エンジンを用いて、入力データからコンテキストを推定するようにコンピュータを機能させる認識プログラムにおいて、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を選択エンジンへフィードバックする認識スコア判定手段と
してコンピュータに機能させ、
選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、学習モデルを再学習する
ようにコンピュータに機能させることを特徴とする。
According to the present invention, in a recognition program for causing a computer to function to estimate a context from input data using a plurality of recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
Determining a recognition engine for which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and causing the computer to function as a recognition score determination unit that feeds back the identifier of the recognition engine to the selection engine;
The selection engine causes the computer to function so as to re-learn the learning model based on the teacher data in which the input data is associated with the fed back identifier of the recognition engine.
本発明の認識プログラムにおける他の実施形態によれば、
認識エンジンは、クラス毎に認識スコアを算出するクラス分類に基づくものであり、
認識エンジンは、複数のクラスの複数のスコアにおける最高値、最低値、平均値又は加算値のいずれかの統計値を、認識スコアとして算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The recognition engine is based on a classification that calculates a recognition score for each class.
The recognition engine also preferably causes the computer to function as a recognition score by calculating a statistical value of any one of a maximum value, a minimum value, an average value, and an addition value in a plurality of scores of a plurality of classes.
本発明の認識プログラムにおける他の実施形態によれば、
認識スコア判定手段は、入力データに対して要した処理時間が、所定閾値時間以下となった認識エンジンの識別子のみを、選択エンジンへフィードバックする
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The recognition score determination means preferably causes the computer to function so as to feed back only the identifier of the recognition engine whose processing time required for the input data is equal to or less than a predetermined threshold time to the selection engine.
本発明の認識プログラムにおける他の実施形態によれば、
選択エンジンは、クラス毎に選択スコアを算出するクラス分類に基づくものであり、
選択エンジンは、推定すべき入力データに対する当該選択スコアが第1の選択閾値以上となる認識エンジンへ、当該入力データを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The selection engine is based on a class classification that calculates a selection score for each class,
The selection engine preferably causes the computer to function so as to output the input data to a recognition engine in which the selection score for the input data to be estimated is equal to or higher than the first selection threshold.
本発明の認識プログラムにおける他の実施形態によれば、
選択エンジンは、当該選択スコアが第1の選択閾値未満で且つ第2の選択閾値以上となる認識エンジンへ更に、当該入力データを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
Preferably, the selection engine further causes the computer to function to output the input data to a recognition engine whose selection score is less than the first selection threshold and equal to or greater than the second selection threshold.
本発明の認識プログラムにおける他の実施形態によれば、
選択エンジンは、第1の選択閾値以上となった一方の認識エンジンの選択スコアと、第1の選択閾値未満となった他方の認識エンジンの認識スコアとの差が、所定差分以下である場合、他方の認識エンジンへ更に、当該入力データを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
When the difference between the selection score of one recognition engine that is equal to or greater than the first selection threshold and the recognition score of the other recognition engine that is less than the first selection threshold is equal to or less than a predetermined difference, It is also preferable to further cause the computer to function so as to output the input data to the other recognition engine.
本発明の認識プログラムにおける他の実施形態によれば、
入力データは、映像データであり、
複数の認識エンジンは、互いに異なるものであり、
RGB画像に基づく物体認識エンジン、
オプティカルフローに基づく動体認識エンジン、及び/又は、
スケルトン情報に基づく人物の関節認識エンジン
のいずれかである
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The input data is video data,
Multiple recognition engines are different from each other,
An object recognition engine based on RGB images;
Motion recognition engine based on optical flow and / or
It is also preferred to make the computer function so that it is one of the human joint recognition engines based on skeleton information.
本発明によれば、複数の認識エンジンを用いて、入力データからコンテキストを推定する認識装置において、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を選択エンジンへフィードバックする認識スコア判定手段と
を有し、
選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、学習モデルを再学習する
ことを特徴とする。
According to the present invention, in a recognition apparatus that estimates a context from input data using a plurality of recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
A recognition score determining means for determining a recognition engine for which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and feeding back the identifier of the recognition engine to the selection engine;
The selection engine is characterized in that the learning model is re-learned by using teacher data in which the input data is associated with the fed back identifier of the recognition engine.
本発明によれば、複数の認識エンジンを用いて、入力データからコンテキストを推定する装置の認識方法において、
装置は、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する第1のステップと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定する第2のステップと、
当該入力データと、第2のステップによって真と判定された当該認識エンジンの識別子とを対応付けた教師データによって、学習モデルを再学習する第3のステップと
を実行することを特徴とする。
According to the present invention, in a recognition method for an apparatus for estimating a context from input data using a plurality of recognition engines,
The device
First, a recognition engine for input data to be estimated is selected using a learning model learned from teacher data in which input data is associated with an identifier of a recognition engine, and the input data is output to the selected recognition engine. And the steps
A second step of determining a recognition engine having a recognition score calculated by the recognition engine for the input data equal to or greater than a recognition threshold;
A third step of re-learning the learning model is performed using the teacher data in which the input data is associated with the identifier of the recognition engine determined to be true in the second step.
本発明のプログラム、装置及び方法によれば、入力データに応じて最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキストの認識精度を高めることができる。 According to the program, apparatus, and method of the present invention, it is possible to improve context recognition accuracy by automatically selecting one or more optimal recognition engines according to input data.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図2は、本発明における認識装置の機能構成図である。 FIG. 2 is a functional configuration diagram of the recognition device according to the present invention.
認識装置1は、複数の認識エンジンを用いて、入力データからコンテキスト(例えば物体、動体、人物行動など)を推定する。
図2によれば、認識装置1は、選択エンジン11と、複数の認識エンジン12(第1の認識エンジン121、第2の認識エンジン122)と、認識スコア判定部13とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、入力データに対する装置の認識方法としても理解できる。
The
According to FIG. 2, the
[選択エンジン11]
選択エンジン11は、クラス分類に基づくものであって、推定すべき入力データに、クラス(認識エンジン12の識別子)を付与する機械学習エンジンである。選択エンジン11は、入力データと認識エンジンの識別子とを対応付けた教師データに基づいて、学習モデルを予め構築したものである。
<教師データ>
入力データ <-> 認識エンジンの識別子
選択エンジン11は、具体的には、認識エンジン(クラス)毎に、スコア(認識精度)を算出する。一般的には、スコアが最も高い1つの認識エンジンが、推定結果として選択される。但し、本発明によれば、認識エンジンは、1つに限られず、複数であってもよい。選択エンジン11の選択方法における実施形態については、図3〜図6で後述する。
そして、選択エンジン11は、学習モデルを用いて、推定すべき入力データに対する認識エンジン12を選択し、選択された認識エンジン12へ入力データを出力する。
[Selection engine 11]
The
<Teacher data>
Input Data <-> Recognition Engine Identifier The
Then, the
尚、本発明の選択エンジン11は、完全な学習モデルを予め構築しておく必要はなく、後述する認識スコア判定部13からのフィードバックによって再学習していく。「再学習」とは、入力データと、フィードバックされた認識エンジンの識別子とを教師データとして、当該学習モデルに更に学習させることをいう。
Note that the
[認識エンジン12]
選択エンジン11によって選択された認識エンジン12は、当該選択エンジン11から、入力データを入力する。認識エンジン12も、クラス分類に基づくものであって、クラス(推定可能なコンテキスト)毎に、認識スコア(認識精度)を算出する。一般的には、認識スコアが最も高い1つのコンテキストが、推定結果として出力される。
[Recognition engine 12]
The recognition engine 12 selected by the
本発明によれば、異なる種類の複数の認識エンジン12を有する。例えば、物体を主として認識するエンジン、大まかな行動を主として認識するエンジン、細かな行動を主として認識するエンジンのように、異なる種類の認識エンジンを組み合わせる。各認識エンジンは、その種類に応じて異なる教師データに基づいて、学習モデルを予め構築したものである。 According to the present invention, it has a plurality of different types of recognition engines 12. For example, different types of recognition engines are combined, such as an engine that mainly recognizes objects, an engine that mainly recognizes rough actions, and an engine that mainly recognizes fine actions. Each recognition engine builds a learning model in advance based on different teacher data depending on its type.
図2によれば、2つの認識エンジン(第1の認識エンジン121、第2の認識エンジン122)を有する。認識エンジン12によって算出される認識スコアは、複数のコンテキストの複数の認識スコアにおける最高値、最低値、平均値又は加算値のいずれかの「統計値」であってもよい。
そして、各認識エンジン12は、コンテキスト毎に算出された認識スコアを、認識スコア判定部13へ出力する。
According to FIG. 2, it has two recognition engines (the
Each recognition engine 12 then outputs a recognition score calculated for each context to the recognition
[認識スコア判定部13]
認識スコア判定部13は、当該入力データに対して各認識エンジン12の各コンテキストについて算出された認識スコアが、「認識閾値」以上であるか否かを判定する。
ここで、真(認識スコア≧認識閾値)と判定された場合、当該認識エンジン12の識別子を選択エンジン11へフィードバックする。 これに対して、選択エンジン11は、当該入力データと当該認識エンジンの識別子とを対応付けた教師データとして、学習モデルを再学習する。
また、各認識エンジン12によって算出された認識スコアの中で、認識閾値以上となるコンテキストは、推定結果として、アプリケーションへ出力される。
尚、認識閾値は、オペレータによって任意に設定可能なものである。
[Recognition score determination unit 13]
The recognition
Here, when it is determined to be true (recognition score ≧ recognition threshold), the identifier of the recognition engine 12 is fed back to the
Further, among the recognition scores calculated by each recognition engine 12, a context that is equal to or higher than the recognition threshold is output to the application as an estimation result.
The recognition threshold can be arbitrarily set by the operator.
結果的に、選択エンジン11は、認識スコア判定部13からのフィードバックに基づいて学習モデルを再学習することによって、その後、推定すべき入力データに対して、できる限り最適な認識エンジン12を選択するようになる。
As a result, the
図3は、本発明における具体的な第1の処理フローである。 FIG. 3 is a specific first processing flow in the present invention.
図3によれば、選択エンジン11は、推定すべき入力データに対する各認識エンジンについて、以下のように選択スコアを算出したとする。
[認識エンジンID] [選択スコア]
S1 -> 0.7
S2 -> 0.6
<選択エンジン11>※第1の選択閾値=0.6
ここで、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.6)以上となる認識エンジン121及び122の両方へ、当該入力データを出力している。
尚、第1の選択閾値は、オペレータによって任意に設定可能なものである。
According to FIG. 3, it is assumed that the
[Recognition engine ID] [Selected score]
S1-> 0.7
S2-> 0.6
<
Here, the
Note that the first selection threshold can be arbitrarily set by the operator.
次に、第1の認識エンジン121及び第2の認識エンジン122は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。ここでは、複数のコンテキストの複数の認識スコアにおける「最高値」を統計値としたものである。
<第1の認識エンジン121> (コンテキスト):(認識スコア)
c11 : 0.5
c12 : 0.2
c13 : 0.1
※最高値(統計値)=0.5
<第2の認識エンジン122> (コンテキスト):(認識スコア)
c21 : 0.7
c22 : 0.3
c23 : 0.3
※最高値(統計値)=0.7
<認識スコア判定部13> ※認識閾値=0.6
Next, the
<
c11: 0.5
c12: 0.2
c13: 0.1
* Maximum value (statistical value) = 0.5
<
c21: 0.7
c22: 0.3
c23: 0.3
* Maximum value (statistical value) = 0.7
<Recognition
認識スコア判定部13は、認識スコアが、認識閾値(0.6)以上であるか否かを判定する。ここでは、第2の認識エンジン122のみが認識スコア0.6以上であるために、第2の認識エンジン122の識別子(ID:122)を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、フィードバックされた第2の認識エンジン122の識別子とを対応付けた教師データによって、学習モデルを再学習する。
尚、図3によれば、統計値は、最高値であるとして説明したが、最低値、平均値、加算値であってもよい。
The recognition
As a result, the
Although the statistical value has been described as being the highest value according to FIG. 3, it may be the lowest value, the average value, or the added value.
図4は、本発明における具体的な第2の処理フローである。 FIG. 4 is a specific second processing flow in the present invention.
図4によれば、図3と比較して、選択エンジン11は、推定すべき入力データに対する各認識エンジンについて、以下のように選択スコアを算出したとする。
[認識エンジンID] [選択スコア]
S1 -> 0.7
S2 -> 0.6
<選択エンジン11>※第1の選択閾値=0.7
ここで、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.7)以上となる第1の認識エンジン121のみへ、当該入力データを出力する。この場合、第2の認識エンジン122へは、入力データは出力されない。
According to FIG. 4, it is assumed that the
[Recognition engine ID] [Selected score]
S1-> 0.7
S2-> 0.6
<
Here, the
次に、第1の認識エンジン121は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。ここでも、コンテキストの複数の認識スコアにおける「最高値」を統計値とする。
<第1の認識エンジン121> (コンテキスト):(認識スコア)
c11 : 0.5
c12 : 0.2
c13 : 0.1
※最高値(統計値)=0.5
Next, the
<
c11: 0.5
c12: 0.2
c13: 0.1
* Maximum value (statistical value) = 0.5
そして、認識スコア判定部13は、認識スコアが認識閾値(例えば0.5)以上となる第1の認識エンジン121の識別子(ID:121)を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、当該第1の認識エンジン121の識別子とを対応付けた教師データとして更に、学習モデルを再学習する。
Then, the recognition
Thereby, the
図5は、本発明における具体的な第3の処理フローである。 FIG. 5 is a specific third processing flow in the present invention.
図5によれば、図3と同様に、認識エンジン12によって算出される認識スコアは、複数のコンテキストの複数のスコアにおける最高値を統計値として、算出している。
<第1の認識エンジン121> (コンテキスト):(スコア)
c11 : 0.6
c12 : 0.2
c13 : 0.1
※最高値(統計値)=0.6
※処理時間=100ms
<第2の認識エンジン122> (コンテキスト):(スコア)
c21 : 0.7
c22 : 0.3
c23 : 0.3
※最高値(統計値)=0.7
※処理時間=500ms
<認識スコア判定部13> ※認識閾値=0.6
※所定閾値時間=200ms
According to FIG. 5, as in FIG. 3, the recognition score calculated by the recognition engine 12 is calculated by using the highest value of a plurality of scores in a plurality of contexts as a statistical value.
<
c11: 0.6
c12: 0.2
c13: 0.1
* Maximum value (statistical value) = 0.6
* Processing time = 100ms
<
c21: 0.7
c22: 0.3
c23: 0.3
* Maximum value (statistical value) = 0.7
* Processing time = 500ms
<Recognition
* Predetermined threshold time = 200 ms
認識スコア判定部13は、認識スコアが、認識閾値(0.6)以上であるか否かを判定する。ここでは、認識エンジン121及び122の両方の認識スコアが0.6以上である。
また、認識スコア判定部13は、入力データに対して要した処理時間が、所定閾値時間(200ms)以下であるか否かを判定する。ここでは、第2の認識エンジン122の処理時間が500msであって、偽となる。この場合、認識スコア判定部13は、第1の認識エンジン121の識別子(ID:121)のみを、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、第1の認識エンジン121の識別子とを対応付けた教師データによって、学習モデルを再学習する。
このように、認識スコアのみならず、認識エンジンの「処理時間」に基づいて、選択エンジン11の学習モデルを再学習することは、処理リソースの観点も好ましい。
The recognition
The recognition
As a result, the
Thus, it is preferable from the viewpoint of processing resources to re-learn the learning model of the
図6は、本発明における具体的な第4の処理フローである。 FIG. 6 is a specific fourth processing flow in the present invention.
図6によれば、選択エンジン11の学習モデルに学習漏れを考慮したものである。即ち、選択スコアが第1の選択閾値未満となった認識エンジン12であっても、選択エンジン11の学習モデルの学習が不完全であったために、選択すべき認識エンジン12を選択できなかった可能性がある。その場合、その認識エンジン12の認識スコアについて改めて、選択エンジン11の学習モデルの再学習に利用するか否かを判定する。
図6によれば、2つの実施形態について記載されている。
According to FIG. 6, the learning model of the
According to FIG. 6, two embodiments are described.
<第1の実施形態>
前述した選択エンジン11によれば、選択スコアが第1の選択閾値(例えば0.6)以上となる第1の認識エンジン121を選択する。
これに対し更に、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.6)未満で且つ第2の選択閾値(例えば0.5)以上となる第2の認識エンジン122も選択する。
そして、選択エンジン11は、選択された認識エンジン121及び122の両方へ入力データを出力する。
次に、認識エンジン121及び122は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。
そして、認識スコア判定部13は、認識スコアが認識閾値(例えば0.6)以上となる認識エンジン121及び122の識別子を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、当該認識エンジン121及び122の識別子とを対応付けた教師データとして、学習モデルを再学習する。
<First Embodiment>
According to the
On the other hand, the
Then, the
Next, the
Then, the recognition
As a result, the
<第2の実施形態>
前述した選択エンジン11によれば、選択スコアが第1の選択閾値(例えば0.6)以上となる第1の認識エンジン121を選択する。
これに対し更に、選択エンジン11は、選択された第1の認識エンジン121の選択スコア(例えば0.7)と、第1の選択閾値未満となった第2の認識エンジン122の選択スコア(例えば0.5)との差が、所定差分(例えば0.2)以下であるか否かを判定する。真と判定された場合、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.6未満)となる第2の認識エンジン122も選択する。
そして、選択エンジン11は、選択された認識エンジン121及び122の両方へ入力データを出力する。
次に、認識エンジン121及び122は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。
そして、認識スコア判定部13は、認識スコアが認識閾値(例えば0.6)以上となる認識エンジン121及び122の識別子を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、当該認識エンジン121及び122の識別子とを対応付けた教師データとして、学習モデルを再学習する。
<Second Embodiment>
According to the
On the other hand, the
Then, the
Next, the
Then, the recognition
As a result, the
前述した図3〜図6によれば、全ての認識エンジン12によって算出された認識スコアを、1つの認識閾値によって判定している。これに対し、他の実施形態として、認識エンジン12毎に、異なる認識閾値によって判定するもであってもよい。 According to FIGS. 3 to 6 described above, the recognition scores calculated by all the recognition engines 12 are determined by one recognition threshold value. On the other hand, as another embodiment, each recognition engine 12 may be determined by a different recognition threshold.
尚、全ての認識エンジン12によって算出された認識スコアが、認識閾値に満たない場合、別途又は特定の認識エンジンによって認識するようにしたものであってもよいし、当該入力データに認識エンジン無しを対応付けた教師データとして、選択エンジン11の学習モデルを再学習するものであってもよい。
In addition, when the recognition score calculated by all the recognition engines 12 is less than a recognition threshold value, you may be made to recognize separately or with a specific recognition engine, and the said input data may be without a recognition engine. As the associated teacher data, the learning model of the
図7は、映像データに対する具体的な第5の処理フローである。
図8は、図7に基づくフローチャートである。
FIG. 7 is a specific fifth processing flow for video data.
FIG. 8 is a flowchart based on FIG.
認識装置1は、入力データとして、人の行動が映り込む映像データを入力し、行動認識結果(コンテキスト)を推定するとする。
図7及び図8によれば、互いに異なる3つの認識エンジンを有する。
(1)RGB画像に基づく物体認識エンジン
(2)オプティカルフローに基づく動体認識エンジン
(3)スケルトン情報に基づく人物の関節認識エンジン
これら認識エンジンはそれぞれ、人物が映り込む大量の映像データに行動結果が対応付けられた教師データによって、学習モデルを予め生成したものである。物体認識、動体認識及び関節認識では、同じ映像データを認識する場合であっても、行動結果としてのコンテキストが異なっていてもよい。
Assume that the
According to FIG.7 and FIG.8, it has three mutually different recognition engines.
(1) Object recognition engine based on RGB image (2) Motion recognition engine based on optical flow (3) Human joint recognition engine based on skeleton information Each of these recognition engines has an action result in a large amount of video data in which a person is reflected. A learning model is generated in advance using the associated teacher data. In object recognition, moving object recognition, and joint recognition, even if the same video data is recognized, the contexts as behavior results may be different.
(1)RGB認識に基づく物体認識エンジンは、具体的にはCNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込むオブジェクト(対象物)を推定する。
例えば「コップ」「スマホ」「テレビ」「建物」のように、映像データに物体が映り込んでいる場合、物体を高い精度で認識する。
(1) The object recognition engine based on RGB recognition specifically estimates an object (target object) reflected in a captured image using a neural network such as CNN (Convolutional Neural Network).
For example, when an object is reflected in video data such as “cop”, “smartphone”, “television”, and “building”, the object is recognized with high accuracy.
(2)オプティカルフローに基づく動体認識エンジンは、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すものである。
例えば「把持」「振る」「パンチ」「蹴る」のように、映像データに人物の動きが映り込んでいる場合、動体を高い精度で認識する。
(2) The moving object recognition engine based on the optical flow extracts a part where the same feature point is moving between frames, and represents the movement of the object in the captured video as a “vector”.
For example, when a person's movement is reflected in the video data, such as “gripping”, “shaking”, “punch”, “kick”, the moving object is recognized with high accuracy.
(3)スケルトン情報に基づく人物の関節認識エンジンは、具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出するものである(例えば非特許文献7〜9参照)。OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
例えば「飲む」「食べる」「走る」「畳む」のように、映像データに人物の関節の角度や位置に基づく人物の動きが映り込んでいる場合、人物の関節の動きを高い精度で認識する。
(3) The human joint recognition engine based on the skeleton information specifically extracts a feature point of a human joint using a skeleton model such as OpenPose (registered trademark) (for example, Non-Patent Document 7). To 9). OpenPose is software that can detect multiple human body / hand / face keypoints in real time from images, and is published by GitHub. For example, 15 key points can be detected in the whole body of a person shown in a captured image.
For example, if the movement of a person based on the angle or position of a person's joint is reflected in the video data, such as “drink”, “eat”, “run”, or “fold”, the movement of the person's joint is recognized with high accuracy. .
人物の行動認識については、一般的に、物体認識よりも、動体認識及び関節認識の方が、認識精度は高い。また、人物の身体の動作認識の場合、動体認識よりも、関節認識の方が、認識精度は高い。 As for human action recognition, in general, moving object recognition and joint recognition have higher recognition accuracy than object recognition. Also, in the case of motion recognition of a person's body, joint recognition has higher recognition accuracy than motion recognition.
図7及び図8によれば、以下のように処理されている。
(S10)認識装置1は、「映像データ」を入力する。
(S11)選択エンジン11は、図7によれば、全ての認識エンジン12を選択しているとする。この場合、選択エンジン11は、各認識エンジン12へ、映像データを出力している。
(S12)各認識エンジン12は、以下のようなコンテキスト及び認識スコアを出力している。
<RGB認識エンジン121> (コンテキスト):(スコア)
コップ : 0.7
スマホ : 0.4
テレビ : 0.1
※最高値(統計値)=0.7
<オプティカルフロー認識エンジン122> (コンテキスト):(スコア)
把持 : 0.4
振る : 0.2
パンチ : 0.1
※最高値(統計値)=0.4
<スケルトン認識エンジン123> (コンテキスト):(スコア)
飲む : 0.6
食べる : 0.2
走る : 0.0
※最高値(統計値)=0.6
(S13)認識スコア判定部13は、認識スコアが、認識閾値(0.6)以上であるか否かを判定する。ここでは、認識エンジン121及び123が、認識スコア0.6以上となっている。
また、認識エンジン121及び123によって算出された認識スコアの中で、認識閾値以上となるコンテンツ「コップ」「飲む」が、推定結果として、アプリケーションへ出力される。
(S14)認識エンジン121及び123の識別子(ID:121、123)を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、フィードバックされた認識エンジン121及び123の識別子とを対応付けた教師データによって、学習モデルを再学習する。
According to FIG.7 and FIG.8, it processes as follows.
(S10) The
(S11) According to FIG. 7, it is assumed that the
(S12) Each recognition engine 12 outputs the following context and recognition score.
<
Cup: 0.7
Smartphone: 0.4
TV: 0.1
* Maximum value (statistical value) = 0.7
<Optical
Grasping: 0.4
Shake: 0.2
Punch: 0.1
* Maximum value (statistical value) = 0.4
<
Drinking: 0.6
Eat: 0.2
Run: 0.0
* Maximum value (statistical value) = 0.6
(S13) The recognition
Further, among the recognition scores calculated by the
(S14) The identifiers (ID: 121, 123) of the
As a result, the
他の実施形態として、本発明の認識エンジンは、映像データに基づくものに限られず、文字認識のものであってもよいし、特定の物体(例えば花の種類)専用に認識するものであってもよい。 As another embodiment, the recognition engine of the present invention is not limited to the one based on video data, but may be a character recognition one or a recognition object dedicated to a specific object (for example, a type of flower). Also good.
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、入力データに応じて最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキストの認識精度を高めることができる。
本発明によれば、入力データに対する認識エンジンは、学習モデルを有する選択エンジンによって切り替えられるために、予め決定しておく必要がない。
特に、本発明によれば、選択エンジンの学習モデルは、学習段階のみならず、運用段階であっても再学習することができる。
As described above in detail, according to the program, apparatus, and method of the present invention, the context recognition accuracy is improved by automatically selecting one or more optimum recognition engines according to input data. Can do.
According to the present invention, since the recognition engine for the input data is switched by the selection engine having the learning model, it is not necessary to determine in advance.
In particular, according to the present invention, the learning model of the selection engine can be relearned not only at the learning stage but also at the operation stage.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 認識装置
11 選択エンジン
12 認識エンジン
121 第1の認識エンジン
122 第2の認識エンジン
13 認識スコア判定部
2 端末
DESCRIPTION OF
Claims (9)
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を前記選択エンジンへフィードバックする認識スコア判定手段と
してコンピュータに機能させ、
前記選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、前記学習モデルを再学習する
ようにコンピュータに機能させることを特徴とする認識プログラム。 In a recognition program that allows a computer to function to infer context from input data using multiple recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
Determining a recognition engine in which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and causing the computer to function as a recognition score determination unit that feeds back the identifier of the recognition engine to the selection engine;
The selection engine causes a computer to function so as to re-learn the learning model based on teacher data in which the input data is associated with the fed back identifier of the recognition engine.
前記認識エンジンは、複数のクラスの複数のスコアにおける最高値、最低値、平均値又は加算値のいずれかの統計値を、前記認識スコアとして算出する
ようにコンピュータを機能させることを特徴とする請求項1に記載の認識プログラム。 The recognition engine is based on a class classification that calculates a recognition score for each class,
The recognition engine causes a computer to calculate a statistical value of any one of a maximum value, a minimum value, an average value, and an addition value of a plurality of scores of a plurality of classes as the recognition score. Item 4. The recognition program according to item 1.
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の認識プログラム。 The recognition score determination means causes the computer to function so as to feed back only the identifier of the recognition engine whose processing time required for the input data is equal to or less than a predetermined threshold time to the selection engine. The recognition program according to claim 1 or 2.
前記選択エンジンは、推定すべき入力データに対する当該選択スコアが第1の選択閾値以上となる認識エンジンへ、当該入力データを出力する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の認識プログラム。 The selection engine is based on a class classification that calculates a selection score for each class,
The said selection engine makes a computer function so that the said input data may be output to the recognition engine from which the said selection score with respect to the input data which should be estimated becomes more than a 1st selection threshold value. The recognition program according to any one of claims.
ようにコンピュータを機能させることを特徴とする請求項4に記載の認識プログラム。 The selection engine further causes the computer to function so as to output the input data to a recognition engine whose selection score is less than a first selection threshold and greater than or equal to a second selection threshold. The recognition program described in 1.
ようにコンピュータを機能させることを特徴とする請求項4に記載の認識プログラム。 The selection engine has a difference between a selection score of one recognition engine that is equal to or higher than the first selection threshold and a recognition score of the other recognition engine that is lower than the first selection threshold is equal to or less than a predetermined difference. 5. The recognition program according to claim 4, further causing a computer to function to output the input data to the other recognition engine.
複数の前記認識エンジンは、互いに異なるものであり、
RGB画像に基づく物体認識エンジン、
オプティカルフローに基づく動体認識エンジン、及び/又は、
スケルトン情報に基づく人物の関節認識エンジン
のいずれかである
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載の認識プログラム。 The input data is video data,
The plurality of recognition engines are different from each other.
An object recognition engine based on RGB images;
Motion recognition engine based on optical flow and / or
The recognition program according to any one of claims 1 to 6, wherein the computer functions so as to be one of human joint recognition engines based on skeleton information.
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を前記選択エンジンへフィードバックする認識スコア判定手段と
を有し、
前記選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、前記学習モデルを再学習する
ことを特徴とする認識装置。 In a recognition apparatus that estimates a context from input data using a plurality of recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
A recognition score determining means for determining a recognition engine for which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and feeding back an identifier of the recognition engine to the selection engine;
The recognition apparatus, wherein the selection engine re-learns the learning model based on teacher data in which the input data is associated with the fed back identifier of the recognition engine.
前記装置は、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する第1のステップと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定する第2のステップと、
当該入力データと、第2のステップによって真と判定された当該認識エンジンの識別子とを対応付けた教師データによって、前記学習モデルを再学習する第3のステップと
を実行することを特徴とする装置の認識方法。
In a method for recognizing a device that estimates a context from input data using a plurality of recognition engines,
The device is
First, a recognition engine for input data to be estimated is selected using a learning model learned from teacher data in which input data is associated with an identifier of a recognition engine, and the input data is output to the selected recognition engine. And the steps
A second step of determining a recognition engine having a recognition score calculated by the recognition engine for the input data equal to or greater than a recognition threshold;
And a third step of re-learning the learning model with the teacher data in which the input data is associated with the identifier of the recognition engine determined to be true in the second step. Recognition method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018021847A JP6875058B2 (en) | 2018-02-09 | 2018-02-09 | Programs, devices and methods for estimating context using multiple recognition engines |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018021847A JP6875058B2 (en) | 2018-02-09 | 2018-02-09 | Programs, devices and methods for estimating context using multiple recognition engines |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019139479A true JP2019139479A (en) | 2019-08-22 |
JP6875058B2 JP6875058B2 (en) | 2021-05-19 |
Family
ID=67694102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018021847A Active JP6875058B2 (en) | 2018-02-09 | 2018-02-09 | Programs, devices and methods for estimating context using multiple recognition engines |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6875058B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021090870A1 (en) | 2019-11-07 | 2021-05-14 | 川崎重工業株式会社 | Instrument-to-be-used estimation device and method, and surgery assistance robot |
WO2022009543A1 (en) * | 2020-07-10 | 2022-01-13 | パナソニックIpマネジメント株式会社 | Information processing method and information processing system |
KR20220095363A (en) * | 2020-12-29 | 2022-07-07 | 주식회사 와이즈오토모티브 | Performance test device for vehicle image controller and operation method thereof |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0478974A (en) * | 1990-07-23 | 1992-03-12 | Sharp Corp | Visual recognizing device |
JP2002175515A (en) * | 2000-12-06 | 2002-06-21 | Glory Ltd | Pattern authenticating device |
JP2008021034A (en) * | 2006-07-11 | 2008-01-31 | Fujitsu Ten Ltd | Image recognition device, image recognition method, pedestrian recognition device and vehicle controller |
JP2017004509A (en) * | 2015-06-04 | 2017-01-05 | ザ・ボーイング・カンパニーThe Boeing Company | Advanced analytical infrastructure for machine learning |
JP2017010475A (en) * | 2015-06-26 | 2017-01-12 | 富士通株式会社 | Program generation device, program generation method, and generated program |
-
2018
- 2018-02-09 JP JP2018021847A patent/JP6875058B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0478974A (en) * | 1990-07-23 | 1992-03-12 | Sharp Corp | Visual recognizing device |
JP2002175515A (en) * | 2000-12-06 | 2002-06-21 | Glory Ltd | Pattern authenticating device |
JP2008021034A (en) * | 2006-07-11 | 2008-01-31 | Fujitsu Ten Ltd | Image recognition device, image recognition method, pedestrian recognition device and vehicle controller |
JP2017004509A (en) * | 2015-06-04 | 2017-01-05 | ザ・ボーイング・カンパニーThe Boeing Company | Advanced analytical infrastructure for machine learning |
JP2017010475A (en) * | 2015-06-26 | 2017-01-12 | 富士通株式会社 | Program generation device, program generation method, and generated program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021090870A1 (en) | 2019-11-07 | 2021-05-14 | 川崎重工業株式会社 | Instrument-to-be-used estimation device and method, and surgery assistance robot |
WO2022009543A1 (en) * | 2020-07-10 | 2022-01-13 | パナソニックIpマネジメント株式会社 | Information processing method and information processing system |
KR20220095363A (en) * | 2020-12-29 | 2022-07-07 | 주식회사 와이즈오토모티브 | Performance test device for vehicle image controller and operation method thereof |
KR102585521B1 (en) * | 2020-12-29 | 2023-10-10 | 주식회사 와이즈오토모티브 | Performance test device for vehicle image controller and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP6875058B2 (en) | 2021-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102415632B1 (en) | Information processing apparatus, information processing method, and storage medium | |
US8467571B2 (en) | Ordered recognition of connected objects | |
JP6904651B2 (en) | Programs, devices and methods that recognize a person's behavior using multiple recognition engines | |
KR100886557B1 (en) | System and method for face recognition based on adaptive learning | |
CN110135249B (en) | Human behavior identification method based on time attention mechanism and LSTM (least Square TM) | |
KR102338486B1 (en) | User Motion Recognition Method and System using 3D Skeleton Information | |
KR101887637B1 (en) | Robot system | |
JP6719497B2 (en) | Image generation method, image generation device, and image generation system | |
JP6618395B2 (en) | Apparatus, program, and method for predicting position of survey object by action value | |
WO2021175071A1 (en) | Image processing method and apparatus, storage medium, and electronic device | |
JP6628494B2 (en) | Apparatus, program, and method for tracking object using discriminator learning based on real space information | |
TW201331891A (en) | Activity recognition method | |
CN110651300A (en) | Object detection device, object detection method, and program | |
JP6875058B2 (en) | Programs, devices and methods for estimating context using multiple recognition engines | |
US20200364444A1 (en) | Information processing apparatus and method of authentication | |
KR102261054B1 (en) | Fast Face Recognition Apparatus connected to a Camera | |
JP6906273B2 (en) | Programs, devices and methods that depict the trajectory of displacement of the human skeleton position from video data | |
JP6103765B2 (en) | Action recognition device, method and program, and recognizer construction device | |
US11335027B2 (en) | Generating spatial gradient maps for a person in an image | |
JP6836985B2 (en) | Programs, devices and methods for estimating the context of human behavior from captured images | |
Tsinikos et al. | Real-time activity recognition for surveillance applications on edge devices | |
CN112131979A (en) | Continuous action identification method based on human skeleton information | |
CN107798285A (en) | Image processing apparatus and image processing method | |
Benhamida et al. | Theater Aid System for the Visually Impaired Through Transfer Learning of Spatio-Temporal Graph Convolution Networks | |
Srivastava et al. | Face Verification System with Liveness Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6875058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |