JP2019139479A - Program, device, and method for estimating context using a plurality of recognition engines - Google Patents

Program, device, and method for estimating context using a plurality of recognition engines Download PDF

Info

Publication number
JP2019139479A
JP2019139479A JP2018021847A JP2018021847A JP2019139479A JP 2019139479 A JP2019139479 A JP 2019139479A JP 2018021847 A JP2018021847 A JP 2018021847A JP 2018021847 A JP2018021847 A JP 2018021847A JP 2019139479 A JP2019139479 A JP 2019139479A
Authority
JP
Japan
Prior art keywords
recognition
engine
input data
selection
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018021847A
Other languages
Japanese (ja)
Other versions
JP6875058B2 (en
Inventor
和之 田坂
Kazuyuki Tasaka
和之 田坂
柳原 広昌
Hiromasa Yanagihara
広昌 柳原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018021847A priority Critical patent/JP6875058B2/en
Publication of JP2019139479A publication Critical patent/JP2019139479A/en
Application granted granted Critical
Publication of JP6875058B2 publication Critical patent/JP6875058B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide a program, a device, and a method, capable of enhancing context recognition accuracy by automatically selecting one or more optimal recognition engines in accordance with input data.SOLUTION: A recognition device 1 includes: a selection engine 11 for selecting recognition engines corresponding to input data to be estimated using a learning model which has learned by training data in which input data is associated with identifiers of recognition engines, and outputting the input data into the selected recognition engines; and a recognition score determination section 13 for determining, for the input data, recognition engines whose recognition score calculated by recognition engines 121, 122 is equal to or greater than a recognition threshold, and allowing the selected engines to get feedback of the identifiers of the recognition engines. The selection engine 11 learns the learning model again by training data in which the input data is associated with the identifiers of the recognition engines received the feedback.SELECTED DRAWING: Figure 2

Description

本発明は、複数の認識エンジンを用いてコンテキストを推定する技術に関する。   The present invention relates to a technique for estimating a context using a plurality of recognition engines.

近年、ディープラーニングを用いることによって、物体認識や人物の行動認識における認識精度が飛躍的に向上してきている。
例えば、特定のデータセットを入力し、機械学習アルゴリズムの候補を比較する技術がある(例えば特許文献1参照)。この技術によれば、機械学習モデル毎の性能結果を集計することによって、機械学習モデルの評価を自動的に比較することができる。
In recent years, recognition accuracy in object recognition and human action recognition has been dramatically improved by using deep learning.
For example, there is a technique for inputting a specific data set and comparing machine learning algorithm candidates (see, for example, Patent Document 1). According to this technique, it is possible to automatically compare the evaluations of the machine learning models by counting the performance results for each machine learning model.

映像データに対する認識エンジンとして、例えばRGB画像に映り込む物体を検出する物体認識の技術がある(例えば非特許文献1参照)。
また、移動特徴量(オプティカルフロー)から物体の動きを検出する動体認識の技術もある(例えば非特許文献2参照)。例えばTwo-stream ConvNetsによれば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランス特徴と、オプティカルフローの水平方向成分及び垂直方向成分の系列における動き特徴との両方を抽出する。これら両方の特徴を統合することによって、行動を高精度に認識する。
更に、3次元映像から、人物の行動を認識する技術もある(例えば非特許文献3参照)。
更に、人の関節とその連携部分のスケルトン情報を抽出することによって、人物の行動を認識する技術もある(例えば非特許文献4参照)。
As a recognition engine for video data, for example, there is an object recognition technique for detecting an object reflected in an RGB image (see, for example, Non-Patent Document 1).
There is also a moving object recognition technique for detecting the movement of an object from a moving feature amount (optical flow) (see, for example, Non-Patent Document 2). For example, according to Two-stream ConvNets, the appearance characteristics of objects and backgrounds in an image and the horizontal direction of an optical flow using spatial-direction CNN (Spatial stream ConvNet) and time-series CNN (Temporal stream ConvNet) Extract both the component and motion features in the sequence of vertical components. By integrating both features, the behavior is recognized with high accuracy.
Further, there is a technique for recognizing a person's action from a three-dimensional video (see, for example, Non-Patent Document 3).
Further, there is a technique for recognizing a person's action by extracting skeleton information of a human joint and its associated part (see, for example, Non-Patent Document 4).

その他の適用分野として、ロボットの自律動作によれば、階層的な学習モデルの強化学習を実行する技術もある(例えば非特許文献5参照)。また、ゲートネットワークが使用する機械学習のネットワークであるエキスパートネットワークを、入力データに応じて選択する技術もある(例えば非特許文献6参照)。   As another application field, there is a technology for executing reinforcement learning of a hierarchical learning model according to the autonomous operation of a robot (for example, see Non-Patent Document 5). There is also a technique for selecting an expert network, which is a machine learning network used by a gate network, according to input data (see, for example, Non-Patent Document 6).

図1は、認識装置を有するシステム構成図である。   FIG. 1 is a system configuration diagram having a recognition device.

図1のシステムによれば、認識装置1は、インターネットに接続されたサーバとして機能する。認識装置1は、教師データによって予め学習モデルを構築した認識エンジンを有する。認識エンジンが、人物の行動を認識するものである場合、教師データは、人の行動が映り込む映像データと、その行動対象(コンテキスト)とが予め対応付けられたものである。   According to the system of FIG. 1, the recognition apparatus 1 functions as a server connected to the Internet. The recognition apparatus 1 has a recognition engine in which a learning model is built in advance using teacher data. When the recognition engine recognizes a person's action, the teacher data is obtained by associating in advance video data in which a person's action is reflected and an action target (context).

端末2はそれぞれ、カメラを搭載しており、人の行動を撮影した映像データを、認識装置1へ送信する。端末2は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが認識装置1へ入力されるものであってもよい。
Each terminal 2 is equipped with a camera, and transmits video data obtained by photographing a human action to the recognition device 1. The terminal 2 is a smartphone or a mobile terminal possessed by each user, and is connected to an access network such as a mobile phone network or a wireless LAN.
Of course, the terminal 2 is not limited to a smartphone or the like, and may be, for example, a Web camera installed in a home. Alternatively, video data captured by a Web camera may be recorded on an SD card, and the recorded video data may be input to the recognition device 1.

具体的には、例えばユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像データを、認識装置1へ送信する。認識装置1は、その映像データから人の行動を推定し、その推定結果を様々なアプリケーションで利用する。
尚、認識装置1の各機能が端末2に組み込まれたものであってもよい。
Specifically, for example, a user photographs his / her behavior with his / her smartphone camera. The smartphone transmits the video data to the recognition device 1. The recognition apparatus 1 estimates a human action from the video data, and uses the estimation result in various applications.
Note that each function of the recognition device 1 may be incorporated in the terminal 2.

特開2017−004509号公報JP 2017-004509 A

Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 、[online]、[平成30年1月24日検索]、インターネット<URL:https://arxiv.org/pdf/1506.01497.pdf>Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, [online], [Search January 24, 2018], Internet <URL: https: / /arxiv.org/pdf/1506.01497.pdf> Karen Simonyan and Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos,” in NIPS 2014、[online]、[平成30年1月24日検索]、インターネット<URL:https://arxiv.org/abs/1406.2199.pdf>Karen Simonyan and Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos,” in NIPS 2014, [online], [searched January 24, 2018], Internet <URL: https://arxiv.org/ abs / 1406.2199.pdf> Hernandez Ruiz, Alejandro & Porzi, Lorenzo & Rota Bul?, Samuel & Moreno-Noguer, Francesc: 3D CNNs on Distance Matrices for Human Action Recognition、[online]、[平成30年1月24日検索]、インターネット<URL:https://www.researchgate.net/publication/320543521_3D_CNNs_on_Distance_Matrices_for_Human_Action_Recognition>Hernandez Ruiz, Alejandro & Porzi, Lorenzo & Rota Bul ?, Samuel & Moreno-Noguer, Francesc: 3D CNNs on Distance Matrices for Human Action Recognition, [online], [Search January 24, 2018], Internet <URL: https://www.researchgate.net/publication/320543521_3D_CNNs_on_Distance_Matrices_for_Human_Action_Recognition> Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.、[online]、[平成30年1月28日検索]、インターネット<https://arxiv.org/pdf/1611.08050.pdf>Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields., [Online], [Search January 28, 2018], Internet <https: // arxiv. org / pdf / 1611.08050.pdf> 高橋 泰岳、浅田 稔、「複数の学習機構の階層的構築による行動獲得」、[online]、[平成30年1月24日検索]、インターネット<URL:http://www.er.ams.eng.osaka-u.ac.jp/Paper/1999/Takahashi99c.pdf>Yasutake Takahashi, Satoshi Asada, “Acquisition of Action by Hierarchical Construction of Multiple Learning Mechanisms”, [online], [Search January 24, 2018], Internet <URL: http: //www.er.ams. eng.osaka-u.ac.jp/Paper/1999/Takahashi99c.pdf> Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton and Jeff Dean: OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER、[online]、[平成30年1月24日検索]、インターネット<URL:https://openreview.net/pdf?id=B1ckMDqlg>Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton and Jeff Dean: OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER, [online], [January 24, 2018 Search ] Internet <URL: https: //openreview.net/pdf? Id = B1ckMDqlg> OpenPose、[online]、[平成30年1月24日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose>OpenPose, [online], [Search January 24, 2018], Internet <URL: https://github.com/CMU-Perceptual-Computing-Lab/openpose> 「動画や写真からボーンが検出できる OpenPoseを試してみた」、[online]、[平成30年1月24日検索]、インターネット<URL:http://hackist.jp/?p=8285>“I tried OpenPose, which can detect bones from videos and photos”, [online], [Search January 24, 2018], Internet <URL: http://hackist.jp/?p=8285> 「OpenPoseがどんどんバージョンアップして3d pose estimationも試せるようになっている」、[online]、[平成30年1月24日検索]、インターネット<URL: http://izm-11.hatenablog.com/entry/2017/08/01/140945>“OpenPose has been upgraded and 3d pose estimation can be tried now,” [online], [searched January 24, 2018], Internet <URL: http://izm-11.hatenablog.com / entry / 2017/08/01/140945>

非特許文献1〜4の技術によれば、認識精度が最も高くなるであろう学習モデルを予め決定しておく必要がある。そのために、入力データによっては、結果的に最適でない学習モデルが選択される場合もあり得る。
特許文献1の技術によれば、機械学習モデルを比較するために、全ての機械学習モデルに入力データを入力する必要がある。機械学習モデルが多いほど、サーバリソースを必要とする。
非特許文献5の技術によれば、階層的な学習モデルの強化学習を実行するものであって、複数の認識エンジンを用いてコンテキストを認識するものではない。
非特許文献6の技術によれば、ネットワークを選択するエキスパートの学習が不十分である場合、ユーザ所望のスコアに満たないこともある。
According to the techniques of Non-Patent Documents 1 to 4, it is necessary to determine in advance a learning model that will have the highest recognition accuracy. Therefore, depending on the input data, a learning model that is not optimal as a result may be selected.
According to the technique of Patent Document 1, in order to compare machine learning models, it is necessary to input input data to all machine learning models. The more machine learning models, the more server resources are required.
According to the technique of Non-Patent Document 5, reinforcement learning of a hierarchical learning model is executed, and context is not recognized using a plurality of recognition engines.
According to the technique of Non-Patent Document 6, when the learning of an expert who selects a network is insufficient, the score desired by the user may not be reached.

前述したいずれの従来技術についても、学習モデルが最適に構築された認識エンジンを利用することを前提としたものであって、入力データに応じて、最適な学習モデルの認識エンジンを予め決定しておく必要がある。
これに対し、本発明の発明者らは、入力データに応じて、最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキスト(認識結果)の認識精度を高めることができないか、と考えた。
All of the above-described conventional techniques are based on the premise that a learning engine having an optimally constructed learning model is used, and an optimum learning model recognition engine is determined in advance according to input data. It is necessary to keep.
On the other hand, the inventors of the present invention can increase the recognition accuracy of the context (recognition result) by automatically selecting one or more optimal recognition engines according to the input data. I thought.

そこで、本発明は、入力データに応じて最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキストの認識精度を高めることができるプログラム、装置及び方法を提供することを目的とする。   Therefore, an object of the present invention is to provide a program, an apparatus, and a method that can improve context recognition accuracy by automatically selecting one or more optimal recognition engines according to input data. .

本発明によれば、複数の認識エンジンを用いて、入力データからコンテキストを推定するようにコンピュータを機能させる認識プログラムにおいて、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を選択エンジンへフィードバックする認識スコア判定手段と
してコンピュータに機能させ、
選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、学習モデルを再学習する
ようにコンピュータに機能させることを特徴とする。
According to the present invention, in a recognition program for causing a computer to function to estimate a context from input data using a plurality of recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
Determining a recognition engine for which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and causing the computer to function as a recognition score determination unit that feeds back the identifier of the recognition engine to the selection engine;
The selection engine causes the computer to function so as to re-learn the learning model based on the teacher data in which the input data is associated with the fed back identifier of the recognition engine.

本発明の認識プログラムにおける他の実施形態によれば、
認識エンジンは、クラス毎に認識スコアを算出するクラス分類に基づくものであり、
認識エンジンは、複数のクラスの複数のスコアにおける最高値、最低値、平均値又は加算値のいずれかの統計値を、認識スコアとして算出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The recognition engine is based on a classification that calculates a recognition score for each class.
The recognition engine also preferably causes the computer to function as a recognition score by calculating a statistical value of any one of a maximum value, a minimum value, an average value, and an addition value in a plurality of scores of a plurality of classes.

本発明の認識プログラムにおける他の実施形態によれば、
認識スコア判定手段は、入力データに対して要した処理時間が、所定閾値時間以下となった認識エンジンの識別子のみを、選択エンジンへフィードバックする
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The recognition score determination means preferably causes the computer to function so as to feed back only the identifier of the recognition engine whose processing time required for the input data is equal to or less than a predetermined threshold time to the selection engine.

本発明の認識プログラムにおける他の実施形態によれば、
選択エンジンは、クラス毎に選択スコアを算出するクラス分類に基づくものであり、
選択エンジンは、推定すべき入力データに対する当該選択スコアが第1の選択閾値以上となる認識エンジンへ、当該入力データを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The selection engine is based on a class classification that calculates a selection score for each class,
The selection engine preferably causes the computer to function so as to output the input data to a recognition engine in which the selection score for the input data to be estimated is equal to or higher than the first selection threshold.

本発明の認識プログラムにおける他の実施形態によれば、
選択エンジンは、当該選択スコアが第1の選択閾値未満で且つ第2の選択閾値以上となる認識エンジンへ更に、当該入力データを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
Preferably, the selection engine further causes the computer to function to output the input data to a recognition engine whose selection score is less than the first selection threshold and equal to or greater than the second selection threshold.

本発明の認識プログラムにおける他の実施形態によれば、
選択エンジンは、第1の選択閾値以上となった一方の認識エンジンの選択スコアと、第1の選択閾値未満となった他方の認識エンジンの認識スコアとの差が、所定差分以下である場合、他方の認識エンジンへ更に、当該入力データを出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
When the difference between the selection score of one recognition engine that is equal to or greater than the first selection threshold and the recognition score of the other recognition engine that is less than the first selection threshold is equal to or less than a predetermined difference, It is also preferable to further cause the computer to function so as to output the input data to the other recognition engine.

本発明の認識プログラムにおける他の実施形態によれば、
入力データは、映像データであり、
複数の認識エンジンは、互いに異なるものであり、
RGB画像に基づく物体認識エンジン、
オプティカルフローに基づく動体認識エンジン、及び/又は、
スケルトン情報に基づく人物の関節認識エンジン
のいずれかである
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the recognition program of the present invention,
The input data is video data,
Multiple recognition engines are different from each other,
An object recognition engine based on RGB images;
Motion recognition engine based on optical flow and / or
It is also preferred to make the computer function so that it is one of the human joint recognition engines based on skeleton information.

本発明によれば、複数の認識エンジンを用いて、入力データからコンテキストを推定する認識装置において、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を選択エンジンへフィードバックする認識スコア判定手段と
を有し、
選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、学習モデルを再学習する
ことを特徴とする。
According to the present invention, in a recognition apparatus that estimates a context from input data using a plurality of recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
A recognition score determining means for determining a recognition engine for which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and feeding back the identifier of the recognition engine to the selection engine;
The selection engine is characterized in that the learning model is re-learned by using teacher data in which the input data is associated with the fed back identifier of the recognition engine.

本発明によれば、複数の認識エンジンを用いて、入力データからコンテキストを推定する装置の認識方法において、
装置は、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する第1のステップと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定する第2のステップと、
当該入力データと、第2のステップによって真と判定された当該認識エンジンの識別子とを対応付けた教師データによって、学習モデルを再学習する第3のステップと
を実行することを特徴とする。
According to the present invention, in a recognition method for an apparatus for estimating a context from input data using a plurality of recognition engines,
The device
First, a recognition engine for input data to be estimated is selected using a learning model learned from teacher data in which input data is associated with an identifier of a recognition engine, and the input data is output to the selected recognition engine. And the steps
A second step of determining a recognition engine having a recognition score calculated by the recognition engine for the input data equal to or greater than a recognition threshold;
A third step of re-learning the learning model is performed using the teacher data in which the input data is associated with the identifier of the recognition engine determined to be true in the second step.

本発明のプログラム、装置及び方法によれば、入力データに応じて最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキストの認識精度を高めることができる。   According to the program, apparatus, and method of the present invention, it is possible to improve context recognition accuracy by automatically selecting one or more optimal recognition engines according to input data.

認識装置を有するシステム構成図である。It is a system block diagram which has a recognition apparatus. 本発明における認識装置の機能構成図である。It is a functional block diagram of the recognition apparatus in this invention. 本発明における具体的な第1の処理フローである。It is a specific 1st processing flow in this invention. 本発明における具体的な第2の処理フローである。It is a concrete 2nd processing flow in this invention. 本発明における具体的な第3の処理フローである。It is a specific 3rd processing flow in this invention. 本発明における具体的な第4の処理フローである。It is a concrete 4th processing flow in the present invention. 映像データに対する具体的な第5の処理フローである。It is a specific 5th processing flow with respect to video data. 図7に基づくフローチャートである。It is a flowchart based on FIG.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図2は、本発明における認識装置の機能構成図である。   FIG. 2 is a functional configuration diagram of the recognition device according to the present invention.

認識装置1は、複数の認識エンジンを用いて、入力データからコンテキスト(例えば物体、動体、人物行動など)を推定する。
図2によれば、認識装置1は、選択エンジン11と、複数の認識エンジン12(第1の認識エンジン121、第2の認識エンジン122)と、認識スコア判定部13とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、入力データに対する装置の認識方法としても理解できる。
The recognition apparatus 1 estimates a context (for example, an object, a moving object, a human action, etc.) from input data using a plurality of recognition engines.
According to FIG. 2, the recognition apparatus 1 includes a selection engine 11, a plurality of recognition engines 12 (a first recognition engine 121 and a second recognition engine 122), and a recognition score determination unit 13. These functional components can be realized by executing a program that causes a computer installed in the apparatus to function. Further, the processing flow of these functional components can be understood as a device recognition method for input data.

[選択エンジン11]
選択エンジン11は、クラス分類に基づくものであって、推定すべき入力データに、クラス(認識エンジン12の識別子)を付与する機械学習エンジンである。選択エンジン11は、入力データと認識エンジンの識別子とを対応付けた教師データに基づいて、学習モデルを予め構築したものである。
<教師データ>
入力データ <-> 認識エンジンの識別子
選択エンジン11は、具体的には、認識エンジン(クラス)毎に、スコア(認識精度)を算出する。一般的には、スコアが最も高い1つの認識エンジンが、推定結果として選択される。但し、本発明によれば、認識エンジンは、1つに限られず、複数であってもよい。選択エンジン11の選択方法における実施形態については、図3〜図6で後述する。
そして、選択エンジン11は、学習モデルを用いて、推定すべき入力データに対する認識エンジン12を選択し、選択された認識エンジン12へ入力データを出力する。
[Selection engine 11]
The selection engine 11 is based on a class classification, and is a machine learning engine that gives a class (identifier of the recognition engine 12) to input data to be estimated. The selection engine 11 builds a learning model in advance based on teacher data in which input data is associated with an identifier of a recognition engine.
<Teacher data>
Input Data <-> Recognition Engine Identifier The selection engine 11 specifically calculates a score (recognition accuracy) for each recognition engine (class). In general, one recognition engine having the highest score is selected as the estimation result. However, according to the present invention, the number of recognition engines is not limited to one and may be plural. An embodiment of the selection method of the selection engine 11 will be described later with reference to FIGS.
Then, the selection engine 11 selects a recognition engine 12 for the input data to be estimated using the learning model, and outputs the input data to the selected recognition engine 12.

尚、本発明の選択エンジン11は、完全な学習モデルを予め構築しておく必要はなく、後述する認識スコア判定部13からのフィードバックによって再学習していく。「再学習」とは、入力データと、フィードバックされた認識エンジンの識別子とを教師データとして、当該学習モデルに更に学習させることをいう。   Note that the selection engine 11 of the present invention does not need to build a complete learning model in advance, and re-learns by feedback from a recognition score determination unit 13 described later. “Relearning” means that the learning model is further trained using the input data and the fed back recognition engine identifier as teacher data.

[認識エンジン12]
選択エンジン11によって選択された認識エンジン12は、当該選択エンジン11から、入力データを入力する。認識エンジン12も、クラス分類に基づくものであって、クラス(推定可能なコンテキスト)毎に、認識スコア(認識精度)を算出する。一般的には、認識スコアが最も高い1つのコンテキストが、推定結果として出力される。
[Recognition engine 12]
The recognition engine 12 selected by the selection engine 11 inputs input data from the selection engine 11. The recognition engine 12 is also based on the class classification, and calculates a recognition score (recognition accuracy) for each class (estimable context). Generally, one context having the highest recognition score is output as an estimation result.

本発明によれば、異なる種類の複数の認識エンジン12を有する。例えば、物体を主として認識するエンジン、大まかな行動を主として認識するエンジン、細かな行動を主として認識するエンジンのように、異なる種類の認識エンジンを組み合わせる。各認識エンジンは、その種類に応じて異なる教師データに基づいて、学習モデルを予め構築したものである。   According to the present invention, it has a plurality of different types of recognition engines 12. For example, different types of recognition engines are combined, such as an engine that mainly recognizes objects, an engine that mainly recognizes rough actions, and an engine that mainly recognizes fine actions. Each recognition engine builds a learning model in advance based on different teacher data depending on its type.

図2によれば、2つの認識エンジン(第1の認識エンジン121、第2の認識エンジン122)を有する。認識エンジン12によって算出される認識スコアは、複数のコンテキストの複数の認識スコアにおける最高値、最低値、平均値又は加算値のいずれかの「統計値」であってもよい。
そして、各認識エンジン12は、コンテキスト毎に算出された認識スコアを、認識スコア判定部13へ出力する。
According to FIG. 2, it has two recognition engines (the 1st recognition engine 121 and the 2nd recognition engine 122). The recognition score calculated by the recognition engine 12 may be a “statistical value” of any one of the highest value, the lowest value, the average value, and the added value of the plurality of recognition scores in the plurality of contexts.
Each recognition engine 12 then outputs a recognition score calculated for each context to the recognition score determination unit 13.

[認識スコア判定部13]
認識スコア判定部13は、当該入力データに対して各認識エンジン12の各コンテキストについて算出された認識スコアが、「認識閾値」以上であるか否かを判定する。
ここで、真(認識スコア≧認識閾値)と判定された場合、当該認識エンジン12の識別子を選択エンジン11へフィードバックする。 これに対して、選択エンジン11は、当該入力データと当該認識エンジンの識別子とを対応付けた教師データとして、学習モデルを再学習する。
また、各認識エンジン12によって算出された認識スコアの中で、認識閾値以上となるコンテキストは、推定結果として、アプリケーションへ出力される。
尚、認識閾値は、オペレータによって任意に設定可能なものである。
[Recognition score determination unit 13]
The recognition score determination unit 13 determines whether or not the recognition score calculated for each context of each recognition engine 12 with respect to the input data is greater than or equal to the “recognition threshold”.
Here, when it is determined to be true (recognition score ≧ recognition threshold), the identifier of the recognition engine 12 is fed back to the selection engine 11. On the other hand, the selection engine 11 re-learns the learning model as teacher data in which the input data is associated with the identifier of the recognition engine.
Further, among the recognition scores calculated by each recognition engine 12, a context that is equal to or higher than the recognition threshold is output to the application as an estimation result.
The recognition threshold can be arbitrarily set by the operator.

結果的に、選択エンジン11は、認識スコア判定部13からのフィードバックに基づいて学習モデルを再学習することによって、その後、推定すべき入力データに対して、できる限り最適な認識エンジン12を選択するようになる。   As a result, the selection engine 11 re-learns the learning model based on the feedback from the recognition score determination unit 13, and then selects the most suitable recognition engine 12 for the input data to be estimated thereafter. It becomes like this.

図3は、本発明における具体的な第1の処理フローである。   FIG. 3 is a specific first processing flow in the present invention.

図3によれば、選択エンジン11は、推定すべき入力データに対する各認識エンジンについて、以下のように選択スコアを算出したとする。
[認識エンジンID] [選択スコア]
S1 -> 0.7
S2 -> 0.6
<選択エンジン11>※第1の選択閾値=0.6
ここで、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.6)以上となる認識エンジン121及び122の両方へ、当該入力データを出力している。
尚、第1の選択閾値は、オペレータによって任意に設定可能なものである。
According to FIG. 3, it is assumed that the selection engine 11 calculates a selection score for each recognition engine for input data to be estimated as follows.
[Recognition engine ID] [Selected score]
S1-> 0.7
S2-> 0.6
<Selection engine 11> * first selection threshold = 0.6
Here, the selection engine 11 outputs the input data to both the recognition engines 121 and 122 whose selection score is equal to or higher than the first selection threshold (for example, 0.6).
Note that the first selection threshold can be arbitrarily set by the operator.

次に、第1の認識エンジン121及び第2の認識エンジン122は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。ここでは、複数のコンテキストの複数の認識スコアにおける「最高値」を統計値としたものである。
<第1の認識エンジン121> (コンテキスト):(認識スコア)
c11 : 0.5
c12 : 0.2
c13 : 0.1
※最高値(統計値)=0.5
<第2の認識エンジン122> (コンテキスト):(認識スコア)
c21 : 0.7
c22 : 0.3
c23 : 0.3
※最高値(統計値)=0.7
<認識スコア判定部13> ※認識閾値=0.6
Next, the first recognition engine 121 and the second recognition engine 122 output a recognition score for each context with respect to the input data to the recognition score determination unit 13. Here, the “highest value” in a plurality of recognition scores in a plurality of contexts is a statistical value.
<First recognition engine 121> (Context): (Recognition score)
c11: 0.5
c12: 0.2
c13: 0.1
* Maximum value (statistical value) = 0.5
<Second recognition engine 122> (context): (recognition score)
c21: 0.7
c22: 0.3
c23: 0.3
* Maximum value (statistical value) = 0.7
<Recognition score determination unit 13> * Recognition threshold = 0.6

認識スコア判定部13は、認識スコアが、認識閾値(0.6)以上であるか否かを判定する。ここでは、第2の認識エンジン122のみが認識スコア0.6以上であるために、第2の認識エンジン122の識別子(ID:122)を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、フィードバックされた第2の認識エンジン122の識別子とを対応付けた教師データによって、学習モデルを再学習する。
尚、図3によれば、統計値は、最高値であるとして説明したが、最低値、平均値、加算値であってもよい。
The recognition score determination unit 13 determines whether or not the recognition score is a recognition threshold (0.6) or more. Here, since only the second recognition engine 122 has a recognition score of 0.6 or more, the identifier (ID: 122) of the second recognition engine 122 is fed back to the selection engine 11.
As a result, the selection engine 11 re-learns the learning model based on the teacher data in which the input data is associated with the fed back identifier of the second recognition engine 122.
Although the statistical value has been described as being the highest value according to FIG. 3, it may be the lowest value, the average value, or the added value.

図4は、本発明における具体的な第2の処理フローである。   FIG. 4 is a specific second processing flow in the present invention.

図4によれば、図3と比較して、選択エンジン11は、推定すべき入力データに対する各認識エンジンについて、以下のように選択スコアを算出したとする。
[認識エンジンID] [選択スコア]
S1 -> 0.7
S2 -> 0.6
<選択エンジン11>※第1の選択閾値=0.7
ここで、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.7)以上となる第1の認識エンジン121のみへ、当該入力データを出力する。この場合、第2の認識エンジン122へは、入力データは出力されない。
According to FIG. 4, it is assumed that the selection engine 11 calculates a selection score for each recognition engine for input data to be estimated as follows, as compared with FIG.
[Recognition engine ID] [Selected score]
S1-> 0.7
S2-> 0.6
<Selection engine 11> * First selection threshold = 0.7
Here, the selection engine 11 outputs the input data only to the first recognition engine 121 whose selection score is equal to or higher than the first selection threshold (for example, 0.7). In this case, input data is not output to the second recognition engine 122.

次に、第1の認識エンジン121は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。ここでも、コンテキストの複数の認識スコアにおける「最高値」を統計値とする。
<第1の認識エンジン121> (コンテキスト):(認識スコア)
c11 : 0.5
c12 : 0.2
c13 : 0.1
※最高値(統計値)=0.5
Next, the first recognition engine 121 outputs a recognition score for each context for the input data to the recognition score determination unit 13. Again, the “highest value” in the plurality of recognition scores of the context is used as the statistical value.
<First recognition engine 121> (Context): (Recognition score)
c11: 0.5
c12: 0.2
c13: 0.1
* Maximum value (statistical value) = 0.5

そして、認識スコア判定部13は、認識スコアが認識閾値(例えば0.5)以上となる第1の認識エンジン121の識別子(ID:121)を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、当該第1の認識エンジン121の識別子とを対応付けた教師データとして更に、学習モデルを再学習する。
Then, the recognition score determination unit 13 feeds back to the selection engine 11 an identifier (ID: 121) of the first recognition engine 121 whose recognition score is equal to or greater than a recognition threshold (for example, 0.5).
Thereby, the selection engine 11 further re-learns the learning model as teacher data in which the input data is associated with the identifier of the first recognition engine 121.

図5は、本発明における具体的な第3の処理フローである。   FIG. 5 is a specific third processing flow in the present invention.

図5によれば、図3と同様に、認識エンジン12によって算出される認識スコアは、複数のコンテキストの複数のスコアにおける最高値を統計値として、算出している。
<第1の認識エンジン121> (コンテキスト):(スコア)
c11 : 0.6
c12 : 0.2
c13 : 0.1
※最高値(統計値)=0.6
※処理時間=100ms
<第2の認識エンジン122> (コンテキスト):(スコア)
c21 : 0.7
c22 : 0.3
c23 : 0.3
※最高値(統計値)=0.7
※処理時間=500ms
<認識スコア判定部13> ※認識閾値=0.6
※所定閾値時間=200ms
According to FIG. 5, as in FIG. 3, the recognition score calculated by the recognition engine 12 is calculated by using the highest value of a plurality of scores in a plurality of contexts as a statistical value.
<First recognition engine 121> (Context): (Score)
c11: 0.6
c12: 0.2
c13: 0.1
* Maximum value (statistical value) = 0.6
* Processing time = 100ms
<Second recognition engine 122> (context): (score)
c21: 0.7
c22: 0.3
c23: 0.3
* Maximum value (statistical value) = 0.7
* Processing time = 500ms
<Recognition score determination unit 13> * Recognition threshold = 0.6
* Predetermined threshold time = 200 ms

認識スコア判定部13は、認識スコアが、認識閾値(0.6)以上であるか否かを判定する。ここでは、認識エンジン121及び122の両方の認識スコアが0.6以上である。
また、認識スコア判定部13は、入力データに対して要した処理時間が、所定閾値時間(200ms)以下であるか否かを判定する。ここでは、第2の認識エンジン122の処理時間が500msであって、偽となる。この場合、認識スコア判定部13は、第1の認識エンジン121の識別子(ID:121)のみを、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、第1の認識エンジン121の識別子とを対応付けた教師データによって、学習モデルを再学習する。
このように、認識スコアのみならず、認識エンジンの「処理時間」に基づいて、選択エンジン11の学習モデルを再学習することは、処理リソースの観点も好ましい。
The recognition score determination unit 13 determines whether or not the recognition score is a recognition threshold (0.6) or more. Here, the recognition scores of both the recognition engines 121 and 122 are 0.6 or more.
The recognition score determination unit 13 determines whether the processing time required for the input data is equal to or shorter than a predetermined threshold time (200 ms). Here, the processing time of the second recognition engine 122 is 500 ms, which is false. In this case, the recognition score determination unit 13 feeds back only the identifier (ID: 121) of the first recognition engine 121 to the selection engine 11.
As a result, the selection engine 11 re-learns the learning model based on the teacher data in which the input data is associated with the identifier of the first recognition engine 121.
Thus, it is preferable from the viewpoint of processing resources to re-learn the learning model of the selection engine 11 based not only on the recognition score but also on the “processing time” of the recognition engine.

図6は、本発明における具体的な第4の処理フローである。   FIG. 6 is a specific fourth processing flow in the present invention.

図6によれば、選択エンジン11の学習モデルに学習漏れを考慮したものである。即ち、選択スコアが第1の選択閾値未満となった認識エンジン12であっても、選択エンジン11の学習モデルの学習が不完全であったために、選択すべき認識エンジン12を選択できなかった可能性がある。その場合、その認識エンジン12の認識スコアについて改めて、選択エンジン11の学習モデルの再学習に利用するか否かを判定する。
図6によれば、2つの実施形態について記載されている。
According to FIG. 6, the learning model of the selection engine 11 is considered in the learning omission. That is, even if the recognition engine 12 has a selection score that is less than the first selection threshold, the recognition engine 12 to be selected cannot be selected because the learning model of the selection engine 11 is incompletely learned. There is sex. In this case, the recognition score of the recognition engine 12 is determined again to determine whether or not to use the learning engine for the learning model again.
According to FIG. 6, two embodiments are described.

<第1の実施形態>
前述した選択エンジン11によれば、選択スコアが第1の選択閾値(例えば0.6)以上となる第1の認識エンジン121を選択する。
これに対し更に、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.6)未満で且つ第2の選択閾値(例えば0.5)以上となる第2の認識エンジン122も選択する。
そして、選択エンジン11は、選択された認識エンジン121及び122の両方へ入力データを出力する。
次に、認識エンジン121及び122は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。
そして、認識スコア判定部13は、認識スコアが認識閾値(例えば0.6)以上となる認識エンジン121及び122の識別子を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、当該認識エンジン121及び122の識別子とを対応付けた教師データとして、学習モデルを再学習する。
<First Embodiment>
According to the selection engine 11 described above, the first recognition engine 121 having a selection score equal to or higher than a first selection threshold (for example, 0.6) is selected.
On the other hand, the selection engine 11 also selects the second recognition engine 122 whose selection score is less than the first selection threshold (for example, 0.6) and equal to or higher than the second selection threshold (for example, 0.5). .
Then, the selection engine 11 outputs input data to both of the selected recognition engines 121 and 122.
Next, the recognition engines 121 and 122 output a recognition score for each context for the input data to the recognition score determination unit 13.
Then, the recognition score determination unit 13 feeds back to the selection engine 11 the identifiers of the recognition engines 121 and 122 whose recognition score is equal to or greater than the recognition threshold (for example, 0.6).
As a result, the selection engine 11 re-learns the learning model as teacher data in which the input data and the identifiers of the recognition engines 121 and 122 are associated with each other.

<第2の実施形態>
前述した選択エンジン11によれば、選択スコアが第1の選択閾値(例えば0.6)以上となる第1の認識エンジン121を選択する。
これに対し更に、選択エンジン11は、選択された第1の認識エンジン121の選択スコア(例えば0.7)と、第1の選択閾値未満となった第2の認識エンジン122の選択スコア(例えば0.5)との差が、所定差分(例えば0.2)以下であるか否かを判定する。真と判定された場合、選択エンジン11は、選択スコアが第1の選択閾値(例えば0.6未満)となる第2の認識エンジン122も選択する。
そして、選択エンジン11は、選択された認識エンジン121及び122の両方へ入力データを出力する。
次に、認識エンジン121及び122は、入力データに対するコンテキスト毎の認識スコアを、認識スコア判定部13へ出力する。
そして、認識スコア判定部13は、認識スコアが認識閾値(例えば0.6)以上となる認識エンジン121及び122の識別子を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、当該認識エンジン121及び122の識別子とを対応付けた教師データとして、学習モデルを再学習する。
<Second Embodiment>
According to the selection engine 11 described above, the first recognition engine 121 having a selection score equal to or higher than a first selection threshold (for example, 0.6) is selected.
On the other hand, the selection engine 11 further selects the selection score (for example, 0.7) of the selected first recognition engine 121 and the selection score (for example, the second recognition engine 122 that is less than the first selection threshold). It is determined whether or not the difference from 0.5) is a predetermined difference (for example, 0.2) or less. If it is determined to be true, the selection engine 11 also selects the second recognition engine 122 whose selection score is a first selection threshold (for example, less than 0.6).
Then, the selection engine 11 outputs input data to both of the selected recognition engines 121 and 122.
Next, the recognition engines 121 and 122 output a recognition score for each context for the input data to the recognition score determination unit 13.
Then, the recognition score determination unit 13 feeds back to the selection engine 11 the identifiers of the recognition engines 121 and 122 whose recognition score is equal to or greater than the recognition threshold (for example, 0.6).
As a result, the selection engine 11 re-learns the learning model as teacher data in which the input data and the identifiers of the recognition engines 121 and 122 are associated with each other.

前述した図3〜図6によれば、全ての認識エンジン12によって算出された認識スコアを、1つの認識閾値によって判定している。これに対し、他の実施形態として、認識エンジン12毎に、異なる認識閾値によって判定するもであってもよい。   According to FIGS. 3 to 6 described above, the recognition scores calculated by all the recognition engines 12 are determined by one recognition threshold value. On the other hand, as another embodiment, each recognition engine 12 may be determined by a different recognition threshold.

尚、全ての認識エンジン12によって算出された認識スコアが、認識閾値に満たない場合、別途又は特定の認識エンジンによって認識するようにしたものであってもよいし、当該入力データに認識エンジン無しを対応付けた教師データとして、選択エンジン11の学習モデルを再学習するものであってもよい。   In addition, when the recognition score calculated by all the recognition engines 12 is less than a recognition threshold value, you may be made to recognize separately or with a specific recognition engine, and the said input data may be without a recognition engine. As the associated teacher data, the learning model of the selection engine 11 may be relearned.

図7は、映像データに対する具体的な第5の処理フローである。
図8は、図7に基づくフローチャートである。
FIG. 7 is a specific fifth processing flow for video data.
FIG. 8 is a flowchart based on FIG.

認識装置1は、入力データとして、人の行動が映り込む映像データを入力し、行動認識結果(コンテキスト)を推定するとする。
図7及び図8によれば、互いに異なる3つの認識エンジンを有する。
(1)RGB画像に基づく物体認識エンジン
(2)オプティカルフローに基づく動体認識エンジン
(3)スケルトン情報に基づく人物の関節認識エンジン
これら認識エンジンはそれぞれ、人物が映り込む大量の映像データに行動結果が対応付けられた教師データによって、学習モデルを予め生成したものである。物体認識、動体認識及び関節認識では、同じ映像データを認識する場合であっても、行動結果としてのコンテキストが異なっていてもよい。
Assume that the recognition device 1 inputs video data in which a human action is reflected as input data and estimates an action recognition result (context).
According to FIG.7 and FIG.8, it has three mutually different recognition engines.
(1) Object recognition engine based on RGB image (2) Motion recognition engine based on optical flow (3) Human joint recognition engine based on skeleton information Each of these recognition engines has an action result in a large amount of video data in which a person is reflected. A learning model is generated in advance using the associated teacher data. In object recognition, moving object recognition, and joint recognition, even if the same video data is recognized, the contexts as behavior results may be different.

(1)RGB認識に基づく物体認識エンジンは、具体的にはCNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込むオブジェクト(対象物)を推定する。
例えば「コップ」「スマホ」「テレビ」「建物」のように、映像データに物体が映り込んでいる場合、物体を高い精度で認識する。
(1) The object recognition engine based on RGB recognition specifically estimates an object (target object) reflected in a captured image using a neural network such as CNN (Convolutional Neural Network).
For example, when an object is reflected in video data such as “cop”, “smartphone”, “television”, and “building”, the object is recognized with high accuracy.

(2)オプティカルフローに基づく動体認識エンジンは、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すものである。
例えば「把持」「振る」「パンチ」「蹴る」のように、映像データに人物の動きが映り込んでいる場合、動体を高い精度で認識する。
(2) The moving object recognition engine based on the optical flow extracts a part where the same feature point is moving between frames, and represents the movement of the object in the captured video as a “vector”.
For example, when a person's movement is reflected in the video data, such as “gripping”, “shaking”, “punch”, “kick”, the moving object is recognized with high accuracy.

(3)スケルトン情報に基づく人物の関節認識エンジンは、具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出するものである(例えば非特許文献7〜9参照)。OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
例えば「飲む」「食べる」「走る」「畳む」のように、映像データに人物の関節の角度や位置に基づく人物の動きが映り込んでいる場合、人物の関節の動きを高い精度で認識する。
(3) The human joint recognition engine based on the skeleton information specifically extracts a feature point of a human joint using a skeleton model such as OpenPose (registered trademark) (for example, Non-Patent Document 7). To 9). OpenPose is software that can detect multiple human body / hand / face keypoints in real time from images, and is published by GitHub. For example, 15 key points can be detected in the whole body of a person shown in a captured image.
For example, if the movement of a person based on the angle or position of a person's joint is reflected in the video data, such as “drink”, “eat”, “run”, or “fold”, the movement of the person's joint is recognized with high accuracy. .

人物の行動認識については、一般的に、物体認識よりも、動体認識及び関節認識の方が、認識精度は高い。また、人物の身体の動作認識の場合、動体認識よりも、関節認識の方が、認識精度は高い。   As for human action recognition, in general, moving object recognition and joint recognition have higher recognition accuracy than object recognition. Also, in the case of motion recognition of a person's body, joint recognition has higher recognition accuracy than motion recognition.

図7及び図8によれば、以下のように処理されている。
(S10)認識装置1は、「映像データ」を入力する。
(S11)選択エンジン11は、図7によれば、全ての認識エンジン12を選択しているとする。この場合、選択エンジン11は、各認識エンジン12へ、映像データを出力している。
(S12)各認識エンジン12は、以下のようなコンテキスト及び認識スコアを出力している。
<RGB認識エンジン121> (コンテキスト):(スコア)
コップ : 0.7
スマホ : 0.4
テレビ : 0.1
※最高値(統計値)=0.7
<オプティカルフロー認識エンジン122> (コンテキスト):(スコア)
把持 : 0.4
振る : 0.2
パンチ : 0.1
※最高値(統計値)=0.4
<スケルトン認識エンジン123> (コンテキスト):(スコア)
飲む : 0.6
食べる : 0.2
走る : 0.0
※最高値(統計値)=0.6
(S13)認識スコア判定部13は、認識スコアが、認識閾値(0.6)以上であるか否かを判定する。ここでは、認識エンジン121及び123が、認識スコア0.6以上となっている。
また、認識エンジン121及び123によって算出された認識スコアの中で、認識閾値以上となるコンテンツ「コップ」「飲む」が、推定結果として、アプリケーションへ出力される。
(S14)認識エンジン121及び123の識別子(ID:121、123)を、選択エンジン11へフィードバックする。
これによって、選択エンジン11は、当該入力データと、フィードバックされた認識エンジン121及び123の識別子とを対応付けた教師データによって、学習モデルを再学習する。
According to FIG.7 and FIG.8, it processes as follows.
(S10) The recognition apparatus 1 inputs “video data”.
(S11) According to FIG. 7, it is assumed that the selection engine 11 has selected all the recognition engines 12. In this case, the selection engine 11 outputs video data to each recognition engine 12.
(S12) Each recognition engine 12 outputs the following context and recognition score.
<RGB Recognition Engine 121> (Context): (Score)
Cup: 0.7
Smartphone: 0.4
TV: 0.1
* Maximum value (statistical value) = 0.7
<Optical flow recognition engine 122> (context): (score)
Grasping: 0.4
Shake: 0.2
Punch: 0.1
* Maximum value (statistical value) = 0.4
<Skeleton recognition engine 123> (context): (score)
Drinking: 0.6
Eat: 0.2
Run: 0.0
* Maximum value (statistical value) = 0.6
(S13) The recognition score determination unit 13 determines whether or not the recognition score is greater than or equal to the recognition threshold (0.6). Here, the recognition engines 121 and 123 have a recognition score of 0.6 or more.
Further, among the recognition scores calculated by the recognition engines 121 and 123, the contents “cup” and “drink” that are equal to or higher than the recognition threshold are output to the application as estimation results.
(S14) The identifiers (ID: 121, 123) of the recognition engines 121 and 123 are fed back to the selection engine 11.
As a result, the selection engine 11 re-learns the learning model based on the teacher data in which the input data is associated with the fed back identifiers of the recognition engines 121 and 123.

他の実施形態として、本発明の認識エンジンは、映像データに基づくものに限られず、文字認識のものであってもよいし、特定の物体(例えば花の種類)専用に認識するものであってもよい。   As another embodiment, the recognition engine of the present invention is not limited to the one based on video data, but may be a character recognition one or a recognition object dedicated to a specific object (for example, a type of flower). Also good.

以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、入力データに応じて最適な1つ以上の認識エンジンを自動的に選択することによって、コンテキストの認識精度を高めることができる。
本発明によれば、入力データに対する認識エンジンは、学習モデルを有する選択エンジンによって切り替えられるために、予め決定しておく必要がない。
特に、本発明によれば、選択エンジンの学習モデルは、学習段階のみならず、運用段階であっても再学習することができる。
As described above in detail, according to the program, apparatus, and method of the present invention, the context recognition accuracy is improved by automatically selecting one or more optimum recognition engines according to input data. Can do.
According to the present invention, since the recognition engine for the input data is switched by the selection engine having the learning model, it is not necessary to determine in advance.
In particular, according to the present invention, the learning model of the selection engine can be relearned not only at the learning stage but also at the operation stage.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 認識装置
11 選択エンジン
12 認識エンジン
121 第1の認識エンジン
122 第2の認識エンジン
13 認識スコア判定部
2 端末

DESCRIPTION OF SYMBOLS 1 Recognition apparatus 11 Selection engine 12 Recognition engine 121 1st recognition engine 122 2nd recognition engine 13 Recognition score determination part 2 Terminal

Claims (9)

複数の認識エンジンを用いて、入力データからコンテキストを推定するようにコンピュータを機能させる認識プログラムにおいて、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を前記選択エンジンへフィードバックする認識スコア判定手段と
してコンピュータに機能させ、
前記選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、前記学習モデルを再学習する
ようにコンピュータに機能させることを特徴とする認識プログラム。
In a recognition program that allows a computer to function to infer context from input data using multiple recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
Determining a recognition engine in which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and causing the computer to function as a recognition score determination unit that feeds back the identifier of the recognition engine to the selection engine;
The selection engine causes a computer to function so as to re-learn the learning model based on teacher data in which the input data is associated with the fed back identifier of the recognition engine.
前記認識エンジンは、クラス毎に認識スコアを算出するクラス分類に基づくものであり、
前記認識エンジンは、複数のクラスの複数のスコアにおける最高値、最低値、平均値又は加算値のいずれかの統計値を、前記認識スコアとして算出する
ようにコンピュータを機能させることを特徴とする請求項1に記載の認識プログラム。
The recognition engine is based on a class classification that calculates a recognition score for each class,
The recognition engine causes a computer to calculate a statistical value of any one of a maximum value, a minimum value, an average value, and an addition value of a plurality of scores of a plurality of classes as the recognition score. Item 4. The recognition program according to item 1.
前記認識スコア判定手段は、前記入力データに対して要した処理時間が、所定閾値時間以下となった認識エンジンの識別子のみを、前記選択エンジンへフィードバックする
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載の認識プログラム。
The recognition score determination means causes the computer to function so as to feed back only the identifier of the recognition engine whose processing time required for the input data is equal to or less than a predetermined threshold time to the selection engine. The recognition program according to claim 1 or 2.
前記選択エンジンは、クラス毎に選択スコアを算出するクラス分類に基づくものであり、
前記選択エンジンは、推定すべき入力データに対する当該選択スコアが第1の選択閾値以上となる認識エンジンへ、当該入力データを出力する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の認識プログラム。
The selection engine is based on a class classification that calculates a selection score for each class,
The said selection engine makes a computer function so that the said input data may be output to the recognition engine from which the said selection score with respect to the input data which should be estimated becomes more than a 1st selection threshold value. The recognition program according to any one of claims.
前記選択エンジンは、当該選択スコアが第1の選択閾値未満で且つ第2の選択閾値以上となる認識エンジンへ更に、当該入力データを出力する
ようにコンピュータを機能させることを特徴とする請求項4に記載の認識プログラム。
The selection engine further causes the computer to function so as to output the input data to a recognition engine whose selection score is less than a first selection threshold and greater than or equal to a second selection threshold. The recognition program described in 1.
前記選択エンジンは、第1の選択閾値以上となった一方の認識エンジンの選択スコアと、第1の選択閾値未満となった他方の認識エンジンの認識スコアとの差が、所定差分以下である場合、他方の認識エンジンへ更に、当該入力データを出力する
ようにコンピュータを機能させることを特徴とする請求項4に記載の認識プログラム。
The selection engine has a difference between a selection score of one recognition engine that is equal to or higher than the first selection threshold and a recognition score of the other recognition engine that is lower than the first selection threshold is equal to or less than a predetermined difference. 5. The recognition program according to claim 4, further causing a computer to function to output the input data to the other recognition engine.
前記入力データは、映像データであり、
複数の前記認識エンジンは、互いに異なるものであり、
RGB画像に基づく物体認識エンジン、
オプティカルフローに基づく動体認識エンジン、及び/又は、
スケルトン情報に基づく人物の関節認識エンジン
のいずれかである
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載の認識プログラム。
The input data is video data,
The plurality of recognition engines are different from each other.
An object recognition engine based on RGB images;
Motion recognition engine based on optical flow and / or
The recognition program according to any one of claims 1 to 6, wherein the computer functions so as to be one of human joint recognition engines based on skeleton information.
複数の認識エンジンを用いて、入力データからコンテキストを推定する認識装置において、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する選択エンジンと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定し、当該認識エンジンの識別子を前記選択エンジンへフィードバックする認識スコア判定手段と
を有し、
前記選択エンジンは、当該入力データと、フィードバックされた当該認識エンジンの識別子とを対応付けた教師データによって、前記学習モデルを再学習する
ことを特徴とする認識装置。
In a recognition apparatus that estimates a context from input data using a plurality of recognition engines,
A selection engine that selects a recognition engine for input data to be estimated using a learning model learned from teacher data in which input data is associated with an identifier of the recognition engine, and outputs the input data to the selected recognition engine When,
A recognition score determining means for determining a recognition engine for which the recognition score calculated by the recognition engine for the input data is equal to or greater than a recognition threshold, and feeding back an identifier of the recognition engine to the selection engine;
The recognition apparatus, wherein the selection engine re-learns the learning model based on teacher data in which the input data is associated with the fed back identifier of the recognition engine.
複数の認識エンジンを用いて、入力データからコンテキストを推定する装置の認識方法において、
前記装置は、
入力データと認識エンジンの識別子とを対応付けた教師データによって学習した学習モデルを用いて、推定すべき入力データに対する認識エンジンを選択し、選択された当該認識エンジンへ当該入力データを出力する第1のステップと、
当該入力データに対して認識エンジンによって算出された認識スコアが認識閾値以上となる認識エンジンを判定する第2のステップと、
当該入力データと、第2のステップによって真と判定された当該認識エンジンの識別子とを対応付けた教師データによって、前記学習モデルを再学習する第3のステップと
を実行することを特徴とする装置の認識方法。

In a method for recognizing a device that estimates a context from input data using a plurality of recognition engines,
The device is
First, a recognition engine for input data to be estimated is selected using a learning model learned from teacher data in which input data is associated with an identifier of a recognition engine, and the input data is output to the selected recognition engine. And the steps
A second step of determining a recognition engine having a recognition score calculated by the recognition engine for the input data equal to or greater than a recognition threshold;
And a third step of re-learning the learning model with the teacher data in which the input data is associated with the identifier of the recognition engine determined to be true in the second step. Recognition method.

JP2018021847A 2018-02-09 2018-02-09 Programs, devices and methods for estimating context using multiple recognition engines Active JP6875058B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018021847A JP6875058B2 (en) 2018-02-09 2018-02-09 Programs, devices and methods for estimating context using multiple recognition engines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018021847A JP6875058B2 (en) 2018-02-09 2018-02-09 Programs, devices and methods for estimating context using multiple recognition engines

Publications (2)

Publication Number Publication Date
JP2019139479A true JP2019139479A (en) 2019-08-22
JP6875058B2 JP6875058B2 (en) 2021-05-19

Family

ID=67694102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018021847A Active JP6875058B2 (en) 2018-02-09 2018-02-09 Programs, devices and methods for estimating context using multiple recognition engines

Country Status (1)

Country Link
JP (1) JP6875058B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021090870A1 (en) 2019-11-07 2021-05-14 川崎重工業株式会社 Instrument-to-be-used estimation device and method, and surgery assistance robot
WO2022009543A1 (en) * 2020-07-10 2022-01-13 パナソニックIpマネジメント株式会社 Information processing method and information processing system
KR20220095363A (en) * 2020-12-29 2022-07-07 주식회사 와이즈오토모티브 Performance test device for vehicle image controller and operation method thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0478974A (en) * 1990-07-23 1992-03-12 Sharp Corp Visual recognizing device
JP2002175515A (en) * 2000-12-06 2002-06-21 Glory Ltd Pattern authenticating device
JP2008021034A (en) * 2006-07-11 2008-01-31 Fujitsu Ten Ltd Image recognition device, image recognition method, pedestrian recognition device and vehicle controller
JP2017004509A (en) * 2015-06-04 2017-01-05 ザ・ボーイング・カンパニーThe Boeing Company Advanced analytical infrastructure for machine learning
JP2017010475A (en) * 2015-06-26 2017-01-12 富士通株式会社 Program generation device, program generation method, and generated program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0478974A (en) * 1990-07-23 1992-03-12 Sharp Corp Visual recognizing device
JP2002175515A (en) * 2000-12-06 2002-06-21 Glory Ltd Pattern authenticating device
JP2008021034A (en) * 2006-07-11 2008-01-31 Fujitsu Ten Ltd Image recognition device, image recognition method, pedestrian recognition device and vehicle controller
JP2017004509A (en) * 2015-06-04 2017-01-05 ザ・ボーイング・カンパニーThe Boeing Company Advanced analytical infrastructure for machine learning
JP2017010475A (en) * 2015-06-26 2017-01-12 富士通株式会社 Program generation device, program generation method, and generated program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021090870A1 (en) 2019-11-07 2021-05-14 川崎重工業株式会社 Instrument-to-be-used estimation device and method, and surgery assistance robot
WO2022009543A1 (en) * 2020-07-10 2022-01-13 パナソニックIpマネジメント株式会社 Information processing method and information processing system
KR20220095363A (en) * 2020-12-29 2022-07-07 주식회사 와이즈오토모티브 Performance test device for vehicle image controller and operation method thereof
KR102585521B1 (en) * 2020-12-29 2023-10-10 주식회사 와이즈오토모티브 Performance test device for vehicle image controller and operation method thereof

Also Published As

Publication number Publication date
JP6875058B2 (en) 2021-05-19

Similar Documents

Publication Publication Date Title
KR102415632B1 (en) Information processing apparatus, information processing method, and storage medium
US8467571B2 (en) Ordered recognition of connected objects
JP6904651B2 (en) Programs, devices and methods that recognize a person&#39;s behavior using multiple recognition engines
KR100886557B1 (en) System and method for face recognition based on adaptive learning
CN110135249B (en) Human behavior identification method based on time attention mechanism and LSTM (least Square TM)
KR102338486B1 (en) User Motion Recognition Method and System using 3D Skeleton Information
KR101887637B1 (en) Robot system
JP6719497B2 (en) Image generation method, image generation device, and image generation system
JP6618395B2 (en) Apparatus, program, and method for predicting position of survey object by action value
WO2021175071A1 (en) Image processing method and apparatus, storage medium, and electronic device
JP6628494B2 (en) Apparatus, program, and method for tracking object using discriminator learning based on real space information
TW201331891A (en) Activity recognition method
CN110651300A (en) Object detection device, object detection method, and program
JP6875058B2 (en) Programs, devices and methods for estimating context using multiple recognition engines
US20200364444A1 (en) Information processing apparatus and method of authentication
KR102261054B1 (en) Fast Face Recognition Apparatus connected to a Camera
JP6906273B2 (en) Programs, devices and methods that depict the trajectory of displacement of the human skeleton position from video data
JP6103765B2 (en) Action recognition device, method and program, and recognizer construction device
US11335027B2 (en) Generating spatial gradient maps for a person in an image
JP6836985B2 (en) Programs, devices and methods for estimating the context of human behavior from captured images
Tsinikos et al. Real-time activity recognition for surveillance applications on edge devices
CN112131979A (en) Continuous action identification method based on human skeleton information
CN107798285A (en) Image processing apparatus and image processing method
Benhamida et al. Theater Aid System for the Visually Impaired Through Transfer Learning of Spatio-Temporal Graph Convolution Networks
Srivastava et al. Face Verification System with Liveness Detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210421

R150 Certificate of patent or registration of utility model

Ref document number: 6875058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150