JP7422621B2 - Recognition management device, recognition management system, and recognition management method - Google Patents
Recognition management device, recognition management system, and recognition management method Download PDFInfo
- Publication number
- JP7422621B2 JP7422621B2 JP2020115554A JP2020115554A JP7422621B2 JP 7422621 B2 JP7422621 B2 JP 7422621B2 JP 2020115554 A JP2020115554 A JP 2020115554A JP 2020115554 A JP2020115554 A JP 2020115554A JP 7422621 B2 JP7422621 B2 JP 7422621B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- class
- data
- weighting
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims description 95
- 238000004364 calculation method Methods 0.000 claims description 113
- 238000000034 method Methods 0.000 claims description 72
- 238000004458 analytical method Methods 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 44
- 230000000694 effects Effects 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 29
- 230000005484 gravity Effects 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 48
- 238000012549 training Methods 0.000 description 23
- 238000012795 verification Methods 0.000 description 21
- 239000000523 sample Substances 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 10
- 238000012937 correction Methods 0.000 description 6
- 241000282326 Felis catus Species 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000009194 climbing Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008867 communication pathway Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、認識管理装置、認識管理システム及び認識管理方法に関する。 The present invention relates to a recognition management device, a recognition management system, and a recognition management method.
近年、IT化の進展に伴い、社会に多数のセンサが配置され、極めて大量のデータが蓄積されている。そうした中、集積された画像データを活用する様々な方策が検討されている。特に、写真、動画、画像等の映像コンテンツが増えるにつれ、その映像におけるオブジェクトやアクティビティを自在に検出し、正確に識別する機械学習モデルが望まれている。 In recent years, with the advancement of IT, a large number of sensors have been placed in society, and an extremely large amount of data has been accumulated. Under these circumstances, various measures are being considered to utilize the accumulated image data. In particular, as video content such as photos, videos, and images increases, a machine learning model that can freely detect and accurately identify objects and activities in the video is desired.
任意のオブジェクトやアクティビティを高精度で認識できる機械学習モデルを訓練するためには、様々なクラス(カテゴリー)のデータで学習させる必要がある。しかし、実際には、クラスによって、適切な学習データの入手が困難となる場合がある。そのため、入手が比較的に容易なクラスの学習データが大量に入手されるのに対して、入手が困難なクラスの学習データが少量となる。異なるクラス間でサンプル数に偏りが存在する学習データを用いて機械学習モデルを訓練すると、当該機械学習モデルは、サンプル数の多いクラスに偏ってしまい、サンプル数の少ないクラスの認識精度が限定される。一般的には、クラスによって学習データ間に偏りが存在する状況は、「不均衡データの問題」と呼ばれ、機械学習モデルの認識精度低下を招く。 In order to train a machine learning model that can recognize arbitrary objects and activities with high accuracy, it needs to be trained on data from various classes (categories). However, in reality, it may be difficult to obtain appropriate learning data depending on the class. Therefore, a large amount of learning data for classes that are relatively easy to obtain is obtained, whereas a small amount of learning data for classes that are difficult to obtain is obtained. If a machine learning model is trained using learning data in which there is a bias in the number of samples between different classes, the machine learning model will be biased toward classes with a large number of samples, and recognition accuracy for classes with a small number of samples will be limited. Ru. Generally, a situation where there is a bias between training data depending on the class is called an "imbalanced data problem" and causes a decline in the recognition accuracy of machine learning models.
不均衡データの問題への対策はいくつか提案されている。
例えば、Tsung Yi Linによる研究(非特許文献1)には、「これまでで最も精度の高いオブジェクト検出器は、R-CNNによって一般化された2段階のアプローチに基づいている。このアプローチでは、分類器がオブジェクトの候補位置のまばらなセットに適用される。一方、可能なオブジェクト位置の規則的な高密度サンプリングに適用される1ステージ検出器は、より高速で単純になる可能性があるが、2ステージ検出器の精度に及ばない。この論文では、この原因を調査した。その結果、高密度検出器のトレーニング中に発生した極端なフォアグラウンド-バックグラウンドクラスの不均衡が中心的な原因であることを発見した。このクラスの不均衡に対処するために、標準的なクロスエントロピー損失を再形成して、適切に分類された例に割り当てられた損失を軽減することを提案する。Focal Loss法では、ハードな例のまばらなセットにトレーニングを集中させ、検出器がトレーニング中に膨大な数の負例に圧倒されることを防ぐ。損失の有効性を評価するために、RetinaNetと呼ばれるシンプルな高密度検出器を設計してトレーニングする。」技術が記載されている。
Several countermeasures to the problem of imbalanced data have been proposed.
For example, a study by Tsung Yi Lin (Non-Patent Document 1) states that ``The most accurate object detectors to date are based on a two-step approach generalized by R-CNN. A classifier is applied to a sparse set of candidate positions for an object, whereas a one-stage detector applied to a regular dense sampling of possible object positions could be faster and simpler. , falls short of the accuracy of the two-stage detector. In this paper, we investigate the cause of this. Results show that the extreme foreground-background class imbalance that occurred during training of the dense detector is the central cause. To address this class imbalance, we propose to reshape the standard cross-entropy loss to reduce the loss assigned to well-classified examples.Focal Loss The method focuses training on a sparse set of hard examples, preventing the detector from being overwhelmed by a huge number of negative examples during training.To evaluate the effectiveness of the loss, we use a simple method called RetinaNet. ``Design and train a high-density detector.'' techniques are described.
非特許文献1には、機械学習の過程において、サンプル毎に重み付けを計算する手法が記載されている。より具体的には、認識が難しいサンプルには高い重み付けが割り当てられ、認識が容易なサンプルには低い重み付けを割り当てられる。
しかし、非特許文献1に記載の手法では、重み付けがサンプル毎に計算されるため、例えば学習データの量が多いクラスAと、学習データの量が少ないクラスBがあり、クラスAにおいて認識が難しいサンプルの絶対数が、クラスBにおける難しいサンプルの絶対数より多い場合、認識モデルが学習データの量が多いクラスAに偏ってしまう。従って、例えば非特許文献1に記載の手段を用いても、いわゆる「不均衡データの問題」が解決されず、認識モデルの精度が限定されてしまう。
Non-Patent
However, in the method described in Non-Patent
そこで、本発明は、認識モデルの認識性能を基に、クラス毎の認識難易度を計算し、当該クラス毎の認識難易度に基づいて各クラスに対する重み付けを計算し、当該重み付けに応じて認識モデルのモデルパラメータを更新することで、特定のクラスに偏らず、平等な認識処理を行うことができる高精度の認識モデルを提供することを目的とする。 Therefore, the present invention calculates the recognition difficulty level for each class based on the recognition performance of the recognition model, calculates the weighting for each class based on the recognition difficulty level for each class, and uses the recognition model according to the weighting. The objective is to provide a highly accurate recognition model that can perform equal recognition processing without being biased toward a particular class by updating the model parameters of the model.
上記の課題を解決するために、代表的な本発明の認識管理装置の一つは、少なくとも1つのクラスを含む解析対象データに対して、クラス認識処理を施し、前記解析対象データに含まれる各クラスを特定する予測ラベルを判定する認識モデルと、前記解析対象データについて判定した前記予測ラベルと、前記解析対象データの真のクラスを指定する入力ラベルとから計算した前記認識モデルの誤差に基づいて、前記認識モデルの認識性能を計算する性能計算部、前記認識性能に基づいて、前記解析対象データに含まれる前記各クラスの認識難易度を計算する難易度計算部と、前記各クラスの前記認識難易度に基づいて、前記解析対象データに含まれる前記各クラスに対する重み付けを計算し、割り当てる重み付け計算部とを含む。 In order to solve the above problems, one of the typical recognition management devices of the present invention performs class recognition processing on data to be analyzed that includes at least one class, and Based on a recognition model that determines a predicted label that specifies a class, an error of the recognition model calculated from the predicted label determined for the analysis target data, and an input label that specifies the true class of the analysis target data. , a performance calculation unit that calculates the recognition performance of the recognition model, a difficulty calculation unit that calculates the recognition difficulty of each of the classes included in the analysis target data based on the recognition performance, and the recognition of each of the classes. and a weight calculation unit that calculates and allocates weights to each of the classes included in the data to be analyzed based on the difficulty level.
本発明によれば、認識モデルの認識性能を基に、クラス毎の認識難易度を計算し、当該クラス毎の認識難易度に基づいて各クラスに対する重み付けを計算し、当該重み付けに応じて認識モデルのモデルパラメータを更新することで、特定のクラスに偏らず、平等な認識処理を行うことができる高精度の認識モデルを提供することができる。
上記した以外の課題、構成、効果は、以下の実施形態の説明により明らかにされる。
According to the present invention, the recognition difficulty level for each class is calculated based on the recognition performance of the recognition model, the weighting for each class is calculated based on the recognition difficulty level for each class, and the recognition model is By updating the model parameters, it is possible to provide a highly accurate recognition model that can perform equal recognition processing without being biased toward a particular class.
Problems, configurations, and effects other than those described above will be made clear by the description of the embodiments below.
以下、図面を参照して、本発明の実施例について説明する。なお、この実施例により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
(本開示の背景及び概要)
Embodiments of the present invention will be described below with reference to the drawings. Note that the present invention is not limited to this example. In addition, in the description of the drawings, the same parts are denoted by the same reference numerals.
(Background and overview of this disclosure)
上述したように、機械学習において、クラスによって学習データ間に偏りが存在する「不均衡データの問題」は、認識モデルによる認識精度を限定してしまう重大な課題である。
不均衡データの問題の一例を説明するためには、例えば労働者活動のアクティビティ検出を行う認識システムを検討する。一般的には、大工等の労働者は、作業におけるすべてのアクティビティを同じ頻度で行うとは限らない。例えば、労働者は、釘を打つアクティビティを一日に何回も行うのに対して、はしごを上るアクティビティを1週間に1回しか行わないケースが考えられる。従って、これらのアクティビティの不均衡な頻度により、すべてのアクティビティについて同量の学習データサンプルを収集することは困難となり、クラスによって学習データ間に偏りが生じる。
As mentioned above, in machine learning, the "imbalanced data problem" in which there is bias between learning data depending on the class is a serious problem that limits the recognition accuracy of recognition models.
To illustrate an example of the problem of unbalanced data, consider a recognition system that performs activity detection of, for example, worker activity. Workers, such as carpenters, typically do not perform all activities on the job with the same frequency. For example, a worker may perform the activity of driving a nail many times a day, but only perform the activity of climbing a ladder once a week. Therefore, the unequal frequency of these activities makes it difficult to collect the same amount of training data samples for all activities, resulting in bias among training data by class.
このような不均衡な学習データセットを用いて訓練したアクティビティ認識モデルは、学習データが豊富なクラス(例えば、釘を打つアクティビティのクラス)に対して良好な認識精度を達成できるが、学習データが少量のクラス(例えば、はしごを上るクアクティビティのラス)に対する認識精度が不十分となる。これは、従来の機械学習手法において、全てのサンプルの重み付けが等しいからである。その結果、認識モデルは、より多くのサンプルを有するクラスからより多く更新され、当該クラスに偏ってしまう。
なお、ここでの「重み付け」とは、あるクラスの、認識モデルのモデルパラメータへの影響力を規定する尺度である。重み付けがより高いクラスは、認識モデルにより大きな影響を与え、重み付けがより低いクラスは、認識モデルにより小さな影響を与える。
An activity recognition model trained using such an unbalanced training dataset can achieve good recognition accuracy for classes with rich training data (e.g., the nail-driving activity class); Recognition accuracy for a small number of classes (for example, a class of cuactivities climbing a ladder) is insufficient. This is because in conventional machine learning methods, all samples are weighted equally. As a result, the recognition model is updated more from the class that has more samples, and is biased toward that class.
Note that "weighting" here is a measure that defines the influence of a certain class on the model parameters of a recognition model. Classes with higher weights have more influence on the recognition model, and classes with lower weights have less influence on the recognition model.
この不均衡データの問題を解決する最も簡単な方法は、学習データの量が少ないクラスについてより多くのデータサンプルを収集することであるが、学習データの量が少ないクラスが「交通事故」などの危険なアクティビティに対応する場合には、より多くのデータサンプルを収集することが現実的ではない。 The easiest way to solve this problem of unbalanced data is to collect more data samples for classes with a small amount of training data. Collecting more data samples is not practical when responding to hazardous activities.
より多くのデータを収集せずにクラス不均衡を解決しようと試みた従来の方法がある。
例えば、いわゆる「加重損失」は、従来で用いられた手法の1つである。加重損失では、
豊富な学習データのクラスによる認識モデルの更新回数と、少量の学習データのクラスによる認識モデルの更新回数とをバランスさせるためには、異なるサンプルに異なる重み付けが与えられる。加重損失を用いる1つの手法としては、上述した非特許文献1がある。
There are traditional methods that have attempted to resolve class imbalance without collecting more data.
For example, so-called "weighted loss" is one of the techniques used in the past. In weighted loss,
Different weights are given to different samples in order to balance the number of updates of the recognition model with classes of rich training data and the number of updates of the recognition model with classes of small amount of training data. As one method using weighted loss, there is the above-mentioned
また、静的なクラスベース重み付け方法も考えられる。このような静的なクラスベース重み付け方法では、各クラスの重み付けは、機械学習プロセスの開始前に計算され、学習プロセス全体にわたって固定に保たれる。これにより、データサンプルの数が少ないクラスは、より高い重み付けが割り当てられるため、データサンプルの数が多いクラスとのバランスが図れる。 A static class-based weighting method is also possible. In such static class-based weighting methods, the weights for each class are calculated before the start of the machine learning process and are kept fixed throughout the learning process. As a result, a higher weighting is assigned to a class with a small number of data samples, so that a balance can be achieved with a class with a large number of data samples.
しかし、従来の手法のいずれを用いても、不均衡データの問題が十分に解決されない。例えば、上述したように、非特許文献1に記載の手法では、重み付けがサンプル毎に計算されるため、例えば学習データの量が多いクラスAと、学習データの量が少ないクラスBがあり、クラスAにおいて認識が難しいサンプルの絶対数が、クラスBにおける難しいサンプルの絶対数より多い場合、認識モデルが学習データの量が多いクラスAに偏ってしまう。
また、静的なクラスベース重み付け方法では、各クラスの重み付けは、学習プロセス全体にわたって固定されるため、認識モデルが少量の学習データのクラスに偏ってしまう場合がある。
However, none of the conventional techniques satisfactorily solves the problem of unbalanced data. For example, as mentioned above, in the method described in
Furthermore, in static class-based weighting methods, the weighting of each class is fixed throughout the learning process, so the recognition model may be biased toward classes with a small amount of training data.
そこで、本発明では、認識モデルの認識性能を基に、クラス毎の認識難易度を計算し、当該クラス毎の認識難易度に基づいて各クラスに対する重み付けを計算し、当該重み付けに応じて認識モデルのモデルパラメータを更新することで、特定のクラスに偏らず、平等な認識処理を行うことができる高精度の認識モデルを提供することができる。 Therefore, in the present invention, the recognition difficulty level for each class is calculated based on the recognition performance of the recognition model, the weighting for each class is calculated based on the recognition difficulty level for each class, and the recognition model is By updating the model parameters, it is possible to provide a highly accurate recognition model that can perform equal recognition processing without being biased toward a particular class.
以下説明される実施例の説明では、入力データとして画像を用いる場合を一例として説明するが、本開示はこれに限定されず、テキスト、動画等、何のメディアデータを用いてもよい。また、以下では、説明の便宜上、機械学習のよるタスクは、認識(recognition)に関係するタスクである場合を一例として説明するが、本開示はこれに限定されず、機械学習のよるタスクは任意のものであってもよい。 In the description of the embodiments described below, an example will be described in which an image is used as input data, but the present disclosure is not limited to this, and any media data such as text, video, etc. may be used. Furthermore, for convenience of explanation, a case will be described below in which a task based on machine learning is a task related to recognition, but the present disclosure is not limited to this, and a task based on machine learning may be any task related to recognition. It may be of.
以下、図1~図10を参照して、本開示における実施例1について説明する。
図1は、本開示の実施例1に係る解析対象データの前処理の一例を示す図である。図1に示す前処理を受けた後、解析対象データが後述する認識モデルに入力される。 FIG. 1 is a diagram illustrating an example of preprocessing of analysis target data according to Example 1 of the present disclosure. After undergoing the preprocessing shown in FIG. 1, the data to be analyzed is input to a recognition model described later.
まず、解析対象データは、ハードディスク、ドライブメモリ、ソリッドステートドライブ、又はサーバメモリのいずれかであるデータストレージ部101に記憶される。この解析対象データは、例えば認識モデルを訓練するために予め用意されたデータであってもよく、第三者に提供された、推論の対象となるデータであってもよい。
First, data to be analyzed is stored in the
データ読み込み部102は、データストレージ部101に記憶されている解析対象データと共に、当該解析対象データに対応する入力ラベルを読み込む。ここでの入力ラベルとは、例えば、解析対象データの真のクラスを示す、グラウンドトゥルースとなるラベルである。ここで、データ読み込み部102は、入力ラベルを数値フォーマットに変換してもよい。例えば、ネコ/イヌの2値分類タスクでは、ネコの画像は「0」とラベル付けされ、イヌの画像は「1」とラベル付けされてもよい。同様に、C値の分類タスクの場合、データは0からC-1までのラベルが付与さあれる。これらの入力ラベルは、図1に示す入力ラベルDB107に格納される。
なお、入力ラベルの形式は特に限定されず、例えばワン・ホットエンコーディング等、任意の形式で表現されてもよい。
The
Note that the format of the input label is not particularly limited, and may be expressed in any format such as one-hot encoding, for example.
次に、データ読み込み部によって取得された解析対象データは、データ正規化部103に処理される。データ正規化部103は、解析対象データを最小・最大正規化等の一般的な正規化アルゴリズムによって処理することにより、解析対象データの画像強度値を0から1の範囲に正規化する。
なお、ここで用いられる正規化アルゴリズムは特に限定されず、平均減算、標準化など、任意の正規化アルゴリズムを用いてもよい。
Next, the analysis target data acquired by the data reading unit is processed by the
Note that the normalization algorithm used here is not particularly limited, and any normalization algorithm such as average subtraction or standardization may be used.
次に、正規化された解析対象データは、データ補正部104によって処理される。ここでは、データ補正部104は、正規化された解析対象データに対して、水平フリッピング、ランダムな画像クロッピング、画像回転など、様々な補正処理を行ってもよい。これらの補正処理は、解析対象データの多様性を向上させ、学習処理におけるオーバーフィッティングを防ぐためである。これにより、後述する認識モデルが、データにおける特定の一般的な特徴に偏ることを防止することができる。
なお、ここで用いられる補正処理の種類は特に限定されず、任意の手法が用いられてもよい。
Next, the normalized data to be analyzed is processed by the
Note that the type of correction processing used here is not particularly limited, and any method may be used.
補正処理が終了した後、解析対象データは、グラフィック処理ユニット(GPU)メモリ105に転送される。GPUメモリ105がない場合には、解析対象データをCPUメモリで処理してもよいが、処理速度を向上させる観点から、GPUメモリ105を用いる構成が望ましい。
なお、GPUメモリ105による処理が終了した後、前処理済みの解析対象データは、前処理済み解析対象データDB106に格納される。
After the correction process is completed, the data to be analyzed is transferred to the graphics processing unit (GPU)
Note that after the processing by the
上述した処理が終了した後、前処理済みの解析対象データと、当該前処理済みの解析対象データに対応する入力ラベルとが、後述する認識モデルに入力される。 After the above-described processing is completed, the preprocessed data to be analyzed and the input label corresponding to the preprocessed data to be analyzed are input to the recognition model described below.
図2は、本開示の実施例1に係る認識管理装置200の機能的構成を示す図である。
FIG. 2 is a diagram showing a functional configuration of the
まず、図1を参照して説明した前処理済み解析対象データDB106に格納されている解析対象データは、認識モデル203に入力される。ここでの認識モデル203の種類及び構成は、認識のタスクによって適宜に選択されてもよい。例えば、認識モデル203は、ResNet、LeNet、ImageNetなどの分類モデル、SSD、YOLOなどの検出モデル、又はSVM、kNNなど、任意の機械学習モデルであってもよい。ここで、説明の便宜上、本開示の実施例に係る認識管理手段を分類(classification)タスクに適用した場合を一例として説明するため、図2に示す認識モデル203を分類モデルとする。
First, the analysis target data stored in the preprocessed analysis
モデルパラメータDB204は、認識モデル203の挙動を制御する構成変数(configuration variables)である。認識モデル203は、モデルパラメータD204Bに格納されているモデルパラメータに従い、解析対象のデータに対する認識処理を行う。これらのモデルパラメータは、例えばランダムな値又は特定の分布から取得されている値を初期値としてもよい。
The
認識モデル203は、モデルパラメータDB204に格納されているモデルパラメータに従い、前処理済み解析対象データDB106から入力される解析対象データに対するクラス認識処理を施すことで、解析対象データのクラスを特定する予測ラベルを判定する。ここでのクラスとは、解析対象データに含まれるオブジェクトやアクティビティのカテゴリーを定義する情報である。
分類タスクの場合、認識モデル203の出力は、所定の数のクラス/ラベルにわたる確率分布である。この確率分布において、最大の確率を有するクラス/ラベルは、解析対象データの「予測ラベル」として選択され、予測ラベルDB205に格納される。
なお、認識モデルの出力の構成は、実行されるタスクによって異なってもよい。
The
For classification tasks, the output of
Note that the configuration of the output of the recognition model may differ depending on the task to be executed.
次に、誤差計算部206は、予測ラベルDB205に格納されている予測ラベルと、入力ラベルDB107に格納されている入力ラベル(すなわち、解析対象データの真のクラスを示すグラウンドトゥルース)とを比較し、認識モデル203の予測における誤差を計算する。ここで、認識モデル203の誤差を計算するために、誤差計算部206は、ユーザによって選択された誤差関数を用いて誤差を計算してもよい。ここでの誤差関数は、例えばいわゆる交差エントロピー関数であってもよい。原則としては、認識モデル203の精度が上がる程、予測の誤差が低下するはずである。
Next, the
次に、性能計算部207は、解析対象データに含まれる各クラスに対する、認識モデル203の認識性能(recognition accuracy)を計算する。ここでの認識性能とは、認識モデルが、解析対象データのクラスを正しく予測できる精度を示す尺度である。
また、難易度計算部208は、性能計算部207によって計算された認識モデル203の認識性能に基づいて、解析対象データにおける各クラスの認識難易度を計算する。この認識難易度(以下、「難易度」という)とは、認識モデル203にとっての、特定のクラスを正しく認識する難しさを示す尺度である。
また、動的重み付け計算部(以下、「重み付け計算部」という)209は、難易度計算部208によって計算された各クラスの難易度に基づいて、解析対象データにおけるクラスのそれぞれに対する重み付けを計算し、割り当てる。これにより、認識がより難しいクラスは、より高い重み付けが与えられる。
なお、性能計算部207、難易度計算部208、及び重み付け計算部209の詳細については後述する。
Next, the
Furthermore, the difficulty
Further, a dynamic weighting calculation unit (hereinafter referred to as “weighting calculation unit”) 209 calculates weighting for each class in the data to be analyzed based on the difficulty level of each class calculated by the difficulty
Note that details of the
また、図2に示すように、重み付け計算部209は、加重パラメータを用いてもよい。この加重パラメータとは、クラス間の相対的差異を規定するハイパーパラメータである。この加重パラメータを設定することで、認識がより難しいクラスと比較して、認識がより容易なクラスの重み付けをどの程度減じるかを指定することができる。
この加重パラメータは、図2に示す加重パラメータ設定部210によって設定される。本開示の実施例1では、加重パラメータ設定部210を介してユーザによって設定された固定値を加重パラメータとして用いる。この加重パラメータの値は、例えば0~5の範囲から選択されてもよいが、この範囲に限定されない。
Furthermore, as shown in FIG. 2, the
This weight parameter is set by the weight
重み付け計算部209によって計算された重み付けと、誤差計算部206によって計算された誤差とを乗算させることで、比重誤差を得ることができる。一例として、クラスY1に属するイメージIが認識モデル203に入力された結果、認識モデル203による予測の誤差がEIであるとする。この場合、クラスY1について計算された重み付けがW1の場合、イメージIの比重誤差がW1EIとなる。図2に示す更新部211は、この比重誤差を用いてモデルパラメータDB204に格納されるモデルパラメータを更新する。
認識モデル203に画像を入力し、当該画像に対するクラス認識処理から計算される比重誤差を用いてモデルパラメータを更新する流れは、反復的に行われ、反復の数が増加するにつれて、認識モデル203の認識精度が向上する。
なお、以上では、本開示の実施例に係る認識管理装置200を学習・訓練する際の機能的構成について説明したが、以上の過程によって学習された認識モデルを任意の認識タスクに適用することができるのはいうまでもない。例えば、本開示の実施例に係る認識管理手段の適用例の1つとして、人間アクティビティ検出が考えられる。本開示の実施例に係る認識管理手段を人間アクティビティ検出に適用した場合、解析対象データは、人間が特定のアクティビティを行っている様子が写る動画、音響、画像等であってもよく、本開示の実施例に係る認識管理手段がこの解析対象データを処理した結果、解析対象データにおいて行われているアクティビティのクラス(車を運転している、特定のオブジェクトを持っている等)を認識することができる。
一例として、本開示の実施例に係る認識管理装置は、例えば通信ネットワークを介してクライアント端末に接続され、当該クライアント端末から受信したアクティビティ検出用の推論データを、訓練済みの認識モデルを用いて解析することにより、当該推論データに対応するアクティビティのクラスを予測し、予測したアクティビティのクラスを示すアクティビティ検出結果をクライアント端末に送信してもよい。
By multiplying the weighting calculated by the
The flow of inputting an image to the
Although the functional configuration for learning and training the
As an example, the recognition management device according to the embodiment of the present disclosure is connected to a client terminal via a communication network, and analyzes inference data for activity detection received from the client terminal using a trained recognition model. By doing so, the activity class corresponding to the inference data may be predicted, and an activity detection result indicating the predicted activity class may be transmitted to the client terminal.
図3は、本開示の実施例1に係る認識管理手段における認識性能計算処理360の流れを示すフローチャートである。図3に示す認識性能計算処理360は、例えば図2に示す性能計算部207によって実行され、認識モデル203の性能を計算するための処理である。
FIG. 3 is a flowchart showing the flow of recognition
まず、ステップ361及びステップ362では、性能計算部は、予測ラベル(例えば、図2に示す予測ラベルDB205に格納されている予測ラベル)と、入力ラベル(例えば、図2に示す入力ラベルDB107に格納されている入力ラベル)とを入力する。これらの入力ラベルは、例えば図1に示すように、ユーザ又は管理者によって提供される、解析対象データの真のクラスを示すラベルである。また、予測ラベルは、図2に示す認識モデル203が解析対象データに対するクラス認識処理を施すことにより予測したラベルである。
なお、これらのラベルのデータ構成については、図4~図5を参照して後述する。
First, in
Note that the data structure of these labels will be described later with reference to FIGS. 4 and 5.
次に、ステップ363では、性能計算部は、クラス番号を指す変数iを宣言し、当該変数iが一番目のクラスを指すように、変数iの初期値を「1」とする。
Next, in
次に、ステップ364では、性能計算部は、予測ラベルと入力ラベルとを比較することで、i番目のクラス(例えば、ni)において、認識モデルによって正しく予測されたサンプルの数を判定する。ここでは、「正しく予測された」とは、認識モデルによって予測された予測ラベルが、実際のクラスを示す入力ラベルに一致することを意味する。
Next, in
次に、ステップ365では、性能計算部は、ステップ364で判定された、認識モデルによって正しく予測されたサンプルの数を用いて、解析対象データに含まれる各クラスについて、認識モデルの認識性能を計算する。ここでは、i番目のクラスにおける認識モデルの認識性能Aiは、以下の数式1によって求められる。
次に、ステップ366では、性能計算部は、解析対象データに含まれる次のクラスに進むために、変数iの値を1つ加算(increment)する。
Next, in
次に、ステップ367では、性能計算部は、変数iの値が、クラスの合計の数を示す値であるC以下か否かを判定する。変数iの値がC以下の場合、本処理はステップ364へと進み、ステップ364及びステップ365が次のクラスに対して行われる。変数iの値がCより大きい場合、本処理はステップ368へと進む。
Next, in
次に、解析対象データに含まれる全てのクラスに対する認識モデルの認識性能が計算された後、ステップ368では、性能計算部は、クラス毎の認識性能{A1、A2、...AC}を出力する。
Next, after the recognition performance of the recognition model for all classes included in the data to be analyzed is calculated, in
以上説明した認識性能計算処理360により、解析対象データに含まれる各クラスに対する認識モデルの認識性能を計算することができる。
Through the recognition
図4は、本開示の実施例1に係る認識管理手段における解析対象データ及び入力ラベルを含む入力データテーブル400の一例を示す図である。図4に示すように、入力データテーブル400に含まれる各行は、1つの画像データ番号401と、1つの入力ラベル402から構成される。
FIG. 4 is a diagram illustrating an example of an input data table 400 including analysis target data and input labels in the recognition management means according to the first embodiment of the present disclosure. As shown in FIG. 4, each row included in the input data table 400 is composed of one
解析対象データに含まれる各画像は、当該画像を一意に識別するための画像データ番号401に対応付けられている。例えば、解析対象データには、M個の画像がある場合、画像データ番号401の列は、0~M-1のエントリーを有する。また、解析対象データに含まれる各画像は、当該画像のクラスを示す入力ラベル402に対応付けられている。上述したように、図4に示す入力ラベル402は、グラウンドトゥルースとなるラベルであり、予測ラベルと共に認識モデルの性能を計算するために用いられる。図4では、入力ラベル402のラベルはYで示され、添え字の値はラベルの番号を示す。一例として、Y1は第1のクラスラベルを示し、Y2は第2のクラスラベルを示してもよい。猫・犬の2値分類タスクの場合、画像のクラスが猫と判定された場合、当該画像の入力ラベルは「猫」と記録されてもよい。画像データテーブルの1行は、1つの画像データシリアル番号と1つの実際のラベルから構成される。
Each image included in the analysis target data is associated with an
図5は、本開示の実施例1に係る認識管理手段における予測データテーブル500の一例を示す図である。図5に示すように、予測データテーブル500に含まれる各行は、1つの画像データ番号401と、1つの予測ラベル501から構成される。
FIG. 5 is a diagram illustrating an example of a prediction data table 500 in the recognition management means according to Example 1 of the present disclosure. As shown in FIG. 5, each row included in the prediction data table 500 is composed of one
解析対象データに含まれる各画像は、当該画像を一意に識別するための画像データ番号401に対応付けられている。また、解析対象データに含まれる各画像は、予測ラベル501にも対応付けられている。これらの予測ラベル501は、認識モデルが解析対象データに含まれる各画像(つまり、画像データ番号401に対応する画像)に対するクラス認識処理を施すことにより予測したラベルである。C値の認識タスクの場合、予測ラベルは、Cから選択されるラベルとなり、{Y1、Y2、...YC}に属する。
Each image included in the analysis target data is associated with an
図6は、本開示の実施例1に係る認識管理手段における認識性能テーブル600の一例を示す図である。図6に示すように、認識性能テーブル600に含まれる各行は、1つのクラスラベル601と、1つの認識性能602から構成される。
FIG. 6 is a diagram illustrating an example of a recognition performance table 600 in the recognition management means according to the first embodiment of the present disclosure. As shown in FIG. 6, each row included in the recognition performance table 600 is composed of one
図6に示す認識性能テーブル600は、例えば図3を参照して説明した認識性能計算処理360によって生成される、解析対象データに含まれる各クラスに対する認識モデルの認識性能を示すテーブルである。図6に示すように、認識性能テーブル600は、特定のクラスラベルを示すクラスラベル601を有する。C値の認識タスクの場合、認識性能テーブル600は、1~Cまでのクラスラベルを含む。また、認識性能テーブル600は、クラスラベル601のそれぞれについて、当該クラスラベルに対する認識モデルの認識性能602を示す。例えば、図6に示すように、認識モデルのそれぞれのクラスに対する認識性能が{A1、A2、...AC}として列挙される。
上述したように、認識性能テーブル600に示されているクラス毎の認識性能は、後述するクラス毎の難易度計算に用いられる。
The recognition performance table 600 shown in FIG. 6 is a table that shows the recognition performance of the recognition model for each class included in the analysis target data, which is generated by the recognition
As described above, the recognition performance for each class shown in the recognition performance table 600 is used for calculating the difficulty level for each class, which will be described later.
図7は、本開示の実施例1に係る認識管理手段における難易度計算部による難易度計算処理700の流れの一例を示す図である。図7に示す難易度計算処理700は、例えば図2に示す難易度計算部208によって実行され、クラス毎の難易度を計算するための処理である。
FIG. 7 is a diagram illustrating an example of the flow of difficulty
まず、ステップ701では、難易度計算部は、性能計算部によって計算された、認識モデルの各クラスに対する認識性能{A1、A2、...AC}を入力する。
First, in
次に、ステップ702では、難易度計算部は、クラス番号を指す変数iを宣言し、当該変数iが一番目のクラスを指すように、変数iの初期値を「1」とする。
Next, in
次に、ステップ703では、難易度計算部は、変数iに指定されているi番目のクラスの難易度Diを計算する。i番目のクラスの難易度Diは、以下の数式2によって求められる。数式2によって求められる難易度は、0~1の範囲内の数値となる。
特定のクラスに対する認識モデルの認識性能が高い場合、当該クラスは「認識が容易」なクラスとみなされ、数式2によって計算される難易度がより低い値となる。一方、特定のクラスに対する認識モデルの認識性能が低い場合、当該クラスは「認識が難しい」クラスとみなされ、数式2によって計算される難易度がより高い値となる。ステップ703での難易度計算は、学習過程における各エポック毎に動的に行われる。ここでのエポックとは、認識モデルが特定のデータセットを処理する期間を意味する。また、1つのエポックは、複数のバッチを含む。1つのバッチは、複数のサンプルの集合である。例えば、1000サンプルは、それぞれ100個のサンプルを含む10個のバッチに分割され、これらの10個のバッチを処理する期間は、1つのエポックとなる。
認識モデルが反復的に訓練され、エポックが経過するにつれて、認識モデルの各クラスに対する認識性能が増加する。そして、その結果、各クラスの難易度は減少するはずである。
When the recognition performance of the recognition model for a particular class is high, the class is considered to be an "easy to recognize" class, and the difficulty level calculated by
The recognition model is trained iteratively and the recognition performance for each class of the recognition model increases as epochs pass. As a result, the difficulty level of each class should decrease.
次に、ステップ704では、難易度計算部は、解析対象データに含まれる次のクラスに進むために、変数iの値を1つ加算(increment)する。
Next, in
次に、ステップ705では、難易度計算部は、変数iの値が、クラスの合計の数を示す値であるC以下か否かを判定する。変数iの値がC以下の場合、本処理はステップ703へと進み、ステップ703が次のクラスに対して行われる。変数iの値がCより大きい場合、本処理はステップ706へと進む。
Next, in
次に、解析対象データに含まれる全てのクラスに対する難易度が計算された後、ステップ706では、難易度計算部は、クラス毎の難易度{D1、D2、...DC}を出力する。
なお、上述したように、ここでの難易度計算は、学習過程における各エポック毎に動的に行われてもよいが、これに限定されず、ユーザに指定される頻度に計算されてもよい。
Next, after the difficulty levels for all classes included in the data to be analyzed are calculated, in
Note that, as described above, the difficulty level calculation here may be performed dynamically for each epoch in the learning process, but is not limited to this, and may be calculated at a frequency specified by the user. .
以上説明した難易度計算処理700により、解析対象データに含まれる各クラスの難易度を計算することができる。
The difficulty
なお、以上では、各クラスに対する難易度を計算する処理の一例を説明したが、本開示における難易度計算はこれに限定されない。例えば、各クラスに対する難易度は、当該クラスに属するサンプルの難易度の平均値としてもよい。この場合、特定のクラスにおける各サンプルの難易度を計算する方法はいくつか考えられる。1つの方法では、上述した誤差計算部(例えば、図2に示す誤差計算部206)によって各サンプルについて計算された誤差を当該サンプルの難易度としてもよい。これは、原則として、誤差がより高いサンプルは、認識難易度がより高い傾向があるからである。
Note that although an example of the process of calculating the difficulty level for each class has been described above, the difficulty level calculation in the present disclosure is not limited to this. For example, the difficulty level for each class may be the average value of the difficulty levels of samples belonging to the class. In this case, there are several possible ways to calculate the difficulty level of each sample in a particular class. In one method, the error calculated for each sample by the error calculation unit described above (for example, the
また、各サンプルの難易度を計算する別の方法としては、解析対象データに含まれるクラスcに属するサンプルsが認識モデルに入力されると、認識モデルは、全ての可能なクラスにわたる確率分布を出力する。ここで、サンプルsがクラスcに属する確率をpyとする。この場合、サンプルsの認識難易度は、(1-py)として計算される。また、サンプルsの難易度から、全体のクラスcの難易度を計算することができる。クラスcがNc個のサンプルを含む場合、クラスcの難易度DCは以下の数式3によって求められる。
図8は、本開示の実施例1に係る認識管理手段における難易度テーブル800の一例を示す図である。図8に示すように、難易度テーブル800に含まれる各行は、1つのクラスラベル601と、1つの難易度801から構成される。
FIG. 8 is a diagram illustrating an example of a difficulty level table 800 in the recognition management means according to the first embodiment of the present disclosure. As shown in FIG. 8, each row included in the difficulty level table 800 includes one
図8に示す難易度テーブル800は、例えば図7を参照して説明した難易度計算処理700によって生成される、解析対象データに含まれる各クラスの難易度を示すテーブルである。図8に示すように、難易度テーブル800は、特定のクラスラベルを示すクラスラベル601を有する。C値の認識タスクの場合、難易度テーブル800は、1~Cまでのクラスラベルを含む。また、難易度テーブル800は、クラスラベル601のそれぞれについて、当該クラスラベルの難易度を示す難易度801を示す。例えば、図8に示すように、認識モデルのそれぞれのクラスに対する難易度が{D1、D2、...DC}として列挙される。
上述したように、難易度テーブル800に示されているクラス毎の難易度は、後述するクラス毎の重み付け計算に用いられる。
A difficulty level table 800 shown in FIG. 8 is a table showing the difficulty level of each class included in the analysis target data, which is generated by the difficulty
As described above, the difficulty level for each class shown in the difficulty level table 800 is used in the weighting calculation for each class, which will be described later.
図9は、本開示の実施例1に係る認識管理手段における重み付け計算部による重み付け計算処理900の流れの一例を示す図である。図9に示す重み付け計算処理900は、例えば図2に示す重み付け計算部209によって実行され、クラス毎の重み付けを計算するための処理である。
FIG. 9 is a diagram illustrating an example of the flow of
まず、ステップ901では、重み付け計算部は、難易度計算部によって計算された、各クラスの難易度{D1、D2、...DC}を入力する。
First, in
次に、ステップ902では、重み付け計算部は、加重パラメータ設定部によって設定された加重パラメータを取得する。上述したように、この加重パラメータとは、クラス間の相対的差異を規定するハイパーパラメータであり、実施例1では、ユーザによって選択されるパラメータである。この加重パラメータを設定することで、認識がより難しいクラスと比較して、認識がより容易なクラスの重み付けをどの程度減じるかを指定することができる。
Next, in
次に、ステップ903では、重み付け計算部は、クラス番号を指す変数iを宣言し、当該変数iが一番目のクラスを指すように、変数iの初期値を「1」とする。
Next, in
次に、ステップ904では、重み付け計算部は、加重パラメータと、クラス毎の難易度とに基づいて、各クラスの重み付けを計算する。ここでは、i番目の重み付けWiは、以下の数式4によって求められる。
次に、ステップ905では、重み付け計算部は、解析対象データに含まれる次のクラスに進むために、変数iの値を1つ加算(increment)する。
Next, in
次に、ステップ906では、重み付け計算部は、変数iの値が、クラスの合計の数を示す値であるC以下か否かを判定する。変数iの値がC以下の場合、本処理はステップ904へと進み、ステップ904が次のクラスに対して行われる。変数iの値がCより大きい場合、本処理はステップ907へと進む。
Next, in
次に、解析対象データに含まれる全てのクラスに対する重み付けが計算された後、ステップ907では、重み付け計算部は、クラス毎の重み付け{W1、W2、...WC}を出力する。
Next, after the weights for all classes included in the data to be analyzed are calculated, in
以上説明した重み付け計算処理900により、認識がより難しいクラスは、認識がより容易なクラスに比較して、より高い重み付けが割り当てられる。また、加重パラメータは、認識が容易なクラスと認識が難しいクラスとの相対的差異を規定する。ここでの重み付けは、学習過程における各エポック毎に動的に行われる。また、ここで計算される各クラスの重み付けは、認識モデルの更新を行うための比重誤差を計算するために用いられる。
なお、各クラスの難易度は、認識モデルの学習が進むにつれて変化するため、各クラスの重み付けも、各クラスの難易度に応じて変化する。
By the
Note that since the difficulty level of each class changes as the learning of the recognition model progresses, the weighting of each class also changes according to the difficulty level of each class.
図10は、本開示の実施例1に係る認識管理手段におけるクラス別重み付けテーブル1000の一例を示す図である。図10に示すように、クラス別重み付けテーブル1000に含まれる各行は、1つのクラスラベル601と、1つのクラス重み付け1001から構成される。
FIG. 10 is a diagram illustrating an example of a class weighting table 1000 in the recognition management unit according to the first embodiment of the present disclosure. As shown in FIG. 10, each row included in the class weighting table 1000 is composed of one
図10に示すクラス別重み付けテーブル1000は、例えば図9を参照して説明した重み付け計算処理によって生成される、解析対象データに含まれる各クラスの重み付けを示すテーブルである。図10に示すように、クラス別重み付けテーブル1000は、特定のクラスラベルを示すクラスラベル601を有する。C値の認識タスクの場合、クラス別重み付けテーブル1000は、1~Cまでのクラスラベルを含む。また、クラス別重み付けテーブル1000は、クラスラベル601のそれぞれについて、当該クラスラベルの重み付けを示すクラス重み付け1001を示す。例えば、図10に示すように、それぞれのクラスに対する重み付けが{W1、W2、...WC}として列挙される。
The class-based weighting table 1000 shown in FIG. 10 is a table that shows the weighting of each class included in the analysis target data, which is generated by the weighting calculation process described with reference to FIG. 9, for example. As shown in FIG. 10, the class weighting table 1000 has a
以下、図11~図13を参照して、本開示における実施例2について説明する。上述した実施例1では、難易度計算部208は、性能計算部207によって計算された、認識モデル203の各クラスに対する認識性能を用いて、各クラスの難易度を計算した。そして、重み付け計算部209は、これらの難易度を用いて、各クラスに割り当てる重み付けを計算した。これらの重み付けは、上述した比重誤差を計算するために用いられる。また、この処理は、各エポック毎に繰り返されるため、訓練が進行するにつれて、認識モデル203の認識性能はますます向上し、その結果、各クラスの難易度が減少する。また、クラスの難易度が減少するにつれて、重み付け計算部209によって計算される各クラスの重み付けもおのずと減少する。そして、比重誤差は、計算された重み付けと、認識モデル203の予測誤差の積であるため、重み付けの減少が進むと、比重誤差は、実際の予測誤差に比較して僅かとなる。このような小さな比重誤差を用いて認識モデル203のモデルパラメータを更新すると、認識モデル203の学習の速度が遅くなる。以下説明する本開示の実施例2は、この課題を鑑みたものである。
図11は、本開示の実施例2に係る認識管理装置1100の機能的構成を示す図である。本開示の実施例2に係る認識管理装置1100は、重み付け正規化部1101を備える点において、本開示の実施例1に係る認識管理装置200と異なり、それ以外の構成は実質的に同様である。
FIG. 11 is a diagram showing a functional configuration of a
認識管理装置1100による処理の流れも、図2を参照して説明した認識管理装置200と実質的に同様である。前処理済み解決対象データDBに格納されている解決対象データと、入力ラベルDB107に格納されている入力ラベルは、図1に示すのと同様の処理によって作成され、認識モデル203に入力される。また、認識モデル203から出力される予測ラベルは予測ラベルDB205に保存される。誤差計算部206は、これらの予測ラベルと、解析対象データの実際のクラスを示す入力ラベルとを比較することにより、認識モデル203の予測誤差を計算する。性能計算部207は、認識モデル203の予測誤差に基づいて、認識モデル203の認識性能を各エポック毎に計算する。また、難易度計算部208は、性能計算部207によって計算される認識モデル203の認識性能を用いて、解析対象データに含まれる各クラスの難易度を計算する。重み付け計算部209は、加重パラメータ設定部210を介してユーザによって選択される加重パラメータと、難易度計算部208によって計算されるクラス毎の難易度とを用いて、各クラスの重み付けを計算する。
The flow of processing by the
ただし、実施例2に係る認識管理装置1100は、各クラスの重み付けが計算された後、各クラスの重み付けが重み付け正規化部1101によって処理される点において、本開示の実施例1に係る認識管理装置200と相違する。この重み付け正規化部1101は、ユーザによって選択された手法により、各クラスの重み付けを正規化するための機能部である。重み付け正規化部1101の処理の詳細については後述する。
次に、正規化された各クラスの重み付けと、誤差計算部206によって計算される認識モデル203の予測誤差を乗算させることで、比重誤差を得ることができる。その後、更新部211は、この比重誤差を用いてモデルパラメータDB204に格納される認識モデル203のモデルパラメータを更新する。
However, the
Next, by multiplying the normalized weighting of each class by the prediction error of the
以上説明した実施例2に係る認識管理装置1100を用いて、各クラスの重み付けを正規化することにより、各クラスの重み付けが認識モデル203の学習につれて過剰に減少することを防ぎ、認識モデル203の学習の速度が低下することを防止することができる。
By normalizing the weighting of each class using the
図12は、本開示の実施例2に係る認識管理手段における重み付け正規化部による重み付け正規化処理1200の流れの一例を示す図である。図12に示す重み付け正規化処理1200は、例えば図11に示す重み付け正規化部1101によって実行され、各クラスの重み付けを正規化するための処理である。
FIG. 12 is a diagram illustrating an example of the flow of
まず、ステップ1201では、重み付け正規化部は、上述した重み付け計算部によって計算された各クラスの重み付け{W1、W2、...、WC}を入力する。ここでは、重み付けのデータ構成は、例えば図10を参照して説明した通りである。
First, in
次に、ステップ1202では、重み付け正規化部は、クラス番号を指す変数iを宣言し、当該変数iが一番目のクラスを指すように、変数iの初期値を「1」とする。
Next, in
次に、ステップ1203では、重み付け正規化部は、i番目のクラスの重み付けを正規化する。ここで、i番目のクラスの正規化された重み付けNWi(以下、「正規化重み付け」という)は、以下の数式5によって求められる。
なお、Cとの乗算は、この場合の重み付けの合計を、重み付けが全て1の場合と同様に保つために行われる。
Next, in
Note that the multiplication with C is performed to keep the total weighting in this case the same as when the weightings are all 1.
次に、ステップ1204では、重み付け正規化部は、解析対象データに含まれる次のクラスに進むために、変数iの値を1つ加算(increment)する。
Next, in
次に、ステップ1205では、重み付け正規化部は、変数iの値が、クラスの合計の数を示す値であるC以下か否かを判定する。変数iの値がC以下の場合、本処理はステップ1203へと進み、ステップ1203が次のクラスに対して行われる。変数iの値がCより大きい場合、本処理はステップ1206へと進む。
Next, in
次に、解析対象データに含まれる全てのクラスの重み付けが正規化された後、ステップ1206では、性能計算部は、クラス毎の正規化重み付け{NW1、NW2、...NWC}を出力する。
Next, after the weights of all classes included in the data to be analyzed are normalized, in
以上説明した重み付け正規化処理1200により、解析対象データに含まれる各クラスの重み付けを正規化することができる。
The
図13は、本開示の実施例2に係る認識管理手段におけるクラス別正規化重み付けテーブル1300の一例を示す図である。図13に示すように、クラス別正規化重み付けテーブル1300に含まれる各行は、1つのクラスラベル601と、1つの正規化重み付け1301から構成される。
FIG. 13 is a diagram illustrating an example of a class-specific normalization weighting table 1300 in the recognition management unit according to the second embodiment of the present disclosure. As shown in FIG. 13, each row included in the normalized weighting table 1300 for each class is composed of one
図13に示すクラス別正規化重み付けテーブル1300は、例えば図12を参照して説明した重み付け正規化処理によって生成される、解析対象データに含まれる各クラスの正規化重み付けを示すテーブルである。図13に示すように、クラス別正規化重み付けテーブル1300は、特定のクラスラベルを示すクラスラベル601を有する。C値の認識タスクの場合、クラス別正規化重み付けテーブル1300は、1~Cまでのクラスラベルを含む。また、クラス別正規化重み付けテーブル1300は、クラスラベル601のそれぞれについて、当該クラスラベルの正規化重み付けを示す正規化重み付け1301を示す。例えば、図13に示すように、それぞれのクラスに対する正規化重み付けが{NW1、NW2、...NWC}として列挙される。
The normalized weighting table 1300 for each class shown in FIG. 13 is a table showing the normalized weighting of each class included in the data to be analyzed, which is generated by the weighted normalization process described with reference to FIG. 12, for example. As shown in FIG. 13, the normalized weighting table 1300 for each class has a
以下、図14~図17を参照して、本開示における実施例3について説明する。上述した実施例1及び実施例2では、加重パラメータが用いられる。上述した実施例1及び実施例2に係る加重パラメータは、クラス間の相対的差異を規定するために、ユーザによって選択されるハイパーパラメータであったが、本開示はこれに限定されない。例えば、場合によっては、ユーザによって選択された加重パラメータでは、良好なモデルパラメータに繋がる重み付けが得られないことがある。
従って、本開示における実施例3は、この課題を鑑みて、良好なモデルパラメータに繋がる重み付けが得られるための加重パラメータを自動的に判定することに関する。
Therefore, in view of this problem, the third embodiment of the present disclosure relates to automatically determining weighting parameters for obtaining weighting that leads to good model parameters.
図14は、本開示の実施例3に係る認識管理装置の機能的構成を示す図である。本開示の実施例3に係る認識管理装置1400は、図2に示す加重パラメータ設定部を、動的加重パラメータ判定部1401に置き換える点において、本開示の実施例1に係る認識管理装置200と異なり、それ以外の構成は実質的に同様である。
FIG. 14 is a diagram showing a functional configuration of a recognition management device according to Example 3 of the present disclosure. The
動的重み付け計算部209は、性能計算部207によって計算される各クラスに対する認識モデル203の認識性能を用いて、各エポック毎に加重パラメータを動的に計算する機能部である。ここでの加重パラメータの動的計算の詳細については、図15を参照して説明する。
また、上述したように、難易度計算部208は、性能計算部207によって計算される認識モデル203の認識性能を用いて、解析対象データに含まれる各クラスの難易度を各エポック毎に計算する。重み付け計算部209は、動的加重パラメータ判定部1401によって判定される加重パラメータと、難易度計算部208によって計算されるクラス毎の難易度とを用いて、各クラスの重み付けを計算する。更に、各クラスの重み付けは、比重誤差を計算するために用いられる。更新部211は、この比重誤差を用いて、モデルパラメータDB204に格納されるモデルパラメータを更新する。
The dynamic
Furthermore, as described above, the difficulty
以上説明した実施例3に係る認識管理装置1400を用いて、加重パラメータを動的且つ自動的に判定することにより、人間ユーザによる介入が不要となる上、人間ユーザによって選択される加重パラメータに比べて、より良好なモデルパラメータに繋がる重み付けを得ることができる。
By dynamically and automatically determining the weighting parameters using the
図15は、本開示の実施例3に係る認識管理手段における動的加重パラメータ判定部による加重パラメータ判定処理1500の流れの一例を示す図である。図15に示す加重パラメータ判定処理1500は、例えば図14に示す動的加重パラメータ判定部によって実行され、加重パラメータを動的且つ自動的に判定するための処理である。
FIG. 15 is a diagram illustrating an example of the flow of weighted
まず、ステップ1501では、動的加重パラメータ判定部は、性能計算部によって計算される、各クラスに対する認識モデルの認識性能{A1、A2,...,AC}を入力する。
First, in
次に、ステップ1502では、動的加重パラメータ判定部は、変数εを宣言し、当該変数εの初期値を例えば「0.0001」とする。変数εの初期値は、ユーザの選択によって定められてもよい。また、変数εは、値が小さい正値となるハイパーパラメータであり、後述する数式5においてmink=1,…,cAk=0の場合に、分母が0になることを防ぐために用いられる。
Next, in
次に、ステップ1503では、動的加重パラメータ判定部は、認識モデルの認識性能における最大値と最小値との比を加重パラメータとして設定する。この加重パラメータは、以下の数式6によって求められる。
次に、ステップ1504では、動的加重パラメータ判定部は、ステップ1503で計算された加重パラメータを出力する。
Next, in
以上説明した加重パラメータ判定処理1500により、認識モデルの認識性能は、認識が難しいクラスと認識が容易なクラスとで不均衡の場合、加重パラメータがより高い値となるため、認識が難しいクラスの重み付けがより高い値となる。同様に、認識モデルの認識性能は、認識が難しいクラスと認識が容易なクラスとで比較的に均衡の場合、加重パラメータが低くなるため、認識が難しいクラスの重み付けがより低い値となる。
According to the weighted
図16は、本開示の実施例3に係る認識管理手段における動的加重パラメータ判定部による加重パラメータ判定処理1600の流れの一例を示す図である。図16に示す加重パラメータ判定処理1600は、例えば図14に示す動的加重パラメータ判定部1401によって実行され、加重パラメータを動的且つ自動的に判定するための処理である。
なお、加重パラメータ判定処理1600は、図15を参照して説明した加重パラメータ判定処理1500とは別の加重パラメータ判定処理である。より具体的には、加重パラメータ判定処理1600は、クラス毎に異なる加重パラメータを計算する点において、上述した加重パラメータ判定処理1500と異なる。
FIG. 16 is a diagram illustrating an example of the flow of weighted
Note that the weighted
まず、ステップ1601では、動的加重パラメータ判定部は、性能計算部によって計算される、各クラスに対する認識モデルの認識性能{A1、A2,...,AC}を入力する。
First, in
次に、ステップ1602では、動的加重パラメータ判定部は、変数εを宣言し、当該変数εの初期値を例えば「0.0001」とする。変数εの初期値は、ユーザの選択によって定められてもよい。また、変数εは、値が小さい正値となるハイパーパラメータであり、後述する数式5においてmink=1,…,cAk=0の場合に、分母が0になることを防ぐために用いられる。
Next, in
次に、ステップ1603では、動的加重パラメータ判定部は、クラス番号を指す変数iを宣言し、当該変数iが一番目のクラスを指すように、変数iの初期値を「1」とする。
Next, in
次に、ステップ1604では、動的加重パラメータ判定部は、i番目のクラスの加重パラメータを計算する。i番目のクラスの加重パラメータτiは、以下の数式7によって求められる。
次に、ステップ1605では、動的加重パラメータ判定部は、解析対象データに含まれる次のクラスに進むために、変数iの値を1つ加算(increment)する。
Next, in
次に、ステップ1606では、動的加重パラメータ判定部は、変数iの値が、クラスの合計の数を示す値であるC以下か否かを判定する。変数iの値がC以下の場合、本処理はステップ1604へと進み、ステップ1604が次のクラスに対して行われる。変数iの値がCより大きい場合、本処理はステップ1607へと進む。
Next, in
次に、解析対象データに含まれる全てのクラスに対する加重パラメータが計算された後、ステップ1607では、動的加重パラメータ判定部は、クラス毎の加重パラメータ{τ1、τ2、... τC}を出力する。
なお、上述したクラス毎の加重パラメータの計算は、各エポック毎に計算される。
Next, after the weight parameters for all classes included in the data to be analyzed are calculated, in
Note that the calculation of the weighted parameter for each class described above is calculated for each epoch.
以上説明した加重パラメータ判定処理1600により、認識が難しいクラスのための加重パラメータが高くなり、認識が容易なクラスのための加重パラメータが低くなる。上述したように、各クラスの重み付けは、(各クラスの難易度)加重パラメータとして計算され、難易度が0~1の範囲内の数値となるため、認識が容易なクラスの重み付けが高くなるのに対して、認識が難しいクラスの重み付けがほぼ変わらない。その結果、認識が難しいクラスと認識が容易なクラスとの相対的差異がより大きくなる。
According to the weighted
図17は、本開示の実施例3に係る認識管理手段における加重パラメータテーブル1700の一例を示す図である。図17に示すように、加重パラメータテーブル1700に含まれる各行は、1つのクラスラベル601と、1つの加重パラメータ1701とから構成される。
FIG. 17 is a diagram illustrating an example of a weighted parameter table 1700 in the recognition management means according to the third embodiment of the present disclosure. As shown in FIG. 17, each row included in the weight parameter table 1700 is composed of one
図17に示す加重パラメータテーブル1700は、例えば図16を参照して説明した加重パラメータ判定処理によって生成される、解析対象データに含まれる各クラスに対して計算された加重パラメータを示すテーブルである。図17に示すように、加重パラメータテーブル1700は、特定のクラスラベルを示すクラスラベル601を有する。C値の認識タスクの場合、加重パラメータテーブル1700は、1~Cまでのクラスラベルを含む。また、加重パラメータテーブル1700は、クラスラベル601のそれぞれについて、当該クラスラベルについて計算された加重パラメータ1701を示す。例えば、図17に示すように、それぞれのクラスに対する加重パラメータが{τ1、τ2、... τC}として列挙される。
A weighted parameter table 1700 shown in FIG. 17 is a table showing weighted parameters calculated for each class included in the analysis target data, which is generated by the weighted parameter determination process described with reference to FIG. 16, for example. As shown in FIG. 17, the weighted parameter table 1700 has a
また、それぞれのクラスに対する加重パラメータは、各クラスの重み付けを計算するために用いられる。また、上述したように、各クラスの重み付けは、(クラスcの難易度)クラスcの加重パラメータとして計算される。 Also, the weighting parameters for each class are used to calculate the weighting for each class. Further, as described above, the weighting of each class is calculated as the weighting parameter of class c (difficulty level of class c).
次に、図18~図19を参照して、本開示における実施例4について説明する。上述した実施例1及び実施例2では、認識モデルの学習と、認識モデルの性能計算とは、同一の入力データ(解析対象データ)を用いた。この場合には、認識モデルは、学習用データとして用いられたデータにオーバーフィットしてしまうことがある。このオーバーフィットとは、認識モデルが、学習用データに対して過剰に適合した結果、他のデータセットへの適応性が失われる状況を意味する。認識モデルが学習用データにオーバーフィットすると、当該認識モデルの性能を用いて各クラスの難易度を計算しても、正確なクラス毎の難易度が得られない。
従って、本開示における実施例4は、この課題を鑑みて、認識モデルが学習用データにオーバーフィットすることを防ぐ手段に関する。
Next, a fourth embodiment of the present disclosure will be described with reference to FIGS. 18 and 19. In the first and second embodiments described above, the same input data (data to be analyzed) was used for learning the recognition model and calculating the performance of the recognition model. In this case, the recognition model may overfit the data used as learning data. This overfitting refers to a situation in which a recognition model is overfitted to training data, resulting in a loss of adaptability to other data sets. If the recognition model overfits the learning data, even if the difficulty level of each class is calculated using the performance of the recognition model, an accurate difficulty level for each class cannot be obtained.
Therefore, in view of this problem, Embodiment 4 of the present disclosure relates to means for preventing overfitting of a recognition model to learning data.
図18は、本開示の実施例4に係る認識管理装置1800の機能的構成を示す図である。本開示の実施例4に係る認識管理装置1800は、認識モデルの学習と、認識モデルの性能計算とで、2つの異なるデータセットを用いる点において、本開示の実施例1に係る認識管理装置200と異なり、それ以外の構成は実質的に同様である。
FIG. 18 is a diagram showing a functional configuration of a
より具体的には、本開示の実施例4に係る認識管理装置1800に入力されるデータセットは、認識モデルを学習するための学習用データである解析対象データと、認識モデルの性能を計算するための検証用データとを含む。ここでの解析対象データと検証用データとは、同じデータ分布から抽出されるが、互いに異なるデータセットである。また、ここでの検証用データは、図1を参照して説明した解析対象データと同様に、前処理を受け、前処理済み検証用データDB1801に保存される。また、この検証用データの真のクラスを示す検証用ラベルは、検証ラベルDB1802に格納される。
なお、検証用データに対して行われる前処理は、図1を参照して説明した前処理と実質的に同様であり、その詳細については図19を参照して後述する。
More specifically, the data set input to the
Note that the preprocessing performed on the verification data is substantially the same as the preprocessing described with reference to FIG. 1, and the details will be described later with reference to FIG. 19.
各エポック毎に、前処理済み検証用データは、認識モデル1803に入力される。この認識モデル1803のモデルパラメータは、認識モデル203と共通のモデルパラメータを用いる認識モデルである。また、認識モデル1803は、検証用データに基づいて、当該検証用データのクラスを予測し、予測したクラスを示す予測ラベルを予測ラベルDB205に出力する。
For each epoch, preprocessed verification data is input to the
性能計算部207は、検証ラベルDB1802に格納されている検証ラベルと、予測ラベルDB205に格納されている予測ラベルとに基づいて、認識モデル1803の認識性能を各エポック毎に計算する。ここで出力される認識モデル1803の認識性能は、例えば図6に示す認識性能テーブル600と実質的に同様のデータ構成であってもよい。
The
難易度計算部208は、性能計算部207によって計算される認識モデル1803の認識性能を用いて、各クラスの認識難易度を計算する。また、重み付け計算部209は、各クラスの認識難易度と、加重パラメータ設定部210によって設定される加重パラメータとを用いて、各クラスの重み付けを計算する。
The
また、誤差計算部206は、認識モデル203が前処理済み解析対象データDB106に格納されている解析対象データを処理することで予測した予測ラベルと、入力ラベルDB107に格納されている入力ラベルとに基づいて、認識モデル203の予測誤差を計算する。
The
更新部211は、誤差計算部206によって計算された予測誤差と、重み付け計算部209によって計算された重み付けとを用いて比重誤差を計算した後、この比重誤差を用いてモデルパラメータDB204に格納されているモデルパラメータを更新する。
The updating
なお、以上では、認識モデルの性能を「各エポック毎」に計算した場合を一例として説明したが、本開示はこれに限定されない。実際には、学習の過程において、認識モデルの性能は急速に変化することがあるため、これによって各クラスの難易度も、急速に変化する場合がある。例えば、1つのエポックの間にも、認識モデルの性能及び各クラスの難易度が大幅に変化する場合がある。そのため、認識モデルの性能及び各クラスの難易度を各エポック毎に計算しても、1つのエポックの間での変化を観測することができない。従って、本実施例では、認識モデルの性能及び各クラスの難易度をより頻繁に計算することが望ましい。一例としては、認識モデルの性能及び各クラスの難易度は、ユーザによって指定される所定のバッチ数毎に計算されてもよい。これにより、認識モデルの性能及び各クラスの難易度のより細かな変化を測定することが可能となる。 In addition, although the case where the performance of the recognition model is calculated "for each epoch" was described above as an example, the present disclosure is not limited to this. In reality, the performance of the recognition model may change rapidly during the learning process, and therefore the difficulty level of each class may also change rapidly. For example, even during one epoch, the performance of the recognition model and the difficulty level of each class may change significantly. Therefore, even if the performance of the recognition model and the difficulty level of each class are calculated for each epoch, changes between one epoch cannot be observed. Therefore, in this embodiment, it is desirable to calculate the performance of the recognition model and the difficulty level of each class more frequently. As an example, the performance of the recognition model and the difficulty level of each class may be calculated for each predetermined number of batches specified by the user. This makes it possible to measure more detailed changes in the performance of the recognition model and the difficulty level of each class.
図19は、本開示の実施例4に係る入力データの前処理の一例を示す図である。図19に示す、検証用データに対する前処理は、データ補正部104をクロッピング部1901に置き換える点において図1を参照して説明した実施例1に係る入力データの前処理と異なり、それ以外の構成及び処理は実質的に同様である。 FIG. 19 is a diagram illustrating an example of preprocessing of input data according to Example 4 of the present disclosure. The preprocessing of the verification data shown in FIG. 19 differs from the preprocessing of the input data according to the first embodiment described with reference to FIG. and the processing is substantially similar.
クロッピング部1901は、検証用データに含まれる画像の一部をクロップ(切り出す)ための機能部である。クロッピング部1901が取り出す画像の領域の位置や大きさは、例えばユーザによって定められてもよく、ランダムに定められてもよい。
The
検証用データに対する前処理が終了すると、前処理済みの検証用データが、前処理済み検証用データDB1801に格納され、当該前処理済み検証用データの真のクラスを示す検証ラベルは、検証ラベルDB1802に格納される。
(認識管理手段のGUIについて)
When the preprocessing of the verification data is completed, the preprocessed verification data is stored in the preprocessed
(About the GUI of recognition management means)
次に、図20~図24を参照して、本開示の実施例に係る認識管理手段のGUI(Graphical User Interface)について説明する。 Next, a GUI (Graphical User Interface) of the recognition management means according to the embodiment of the present disclosure will be described with reference to FIGS. 20 to 24.
図20は、本開示の実施例に係る認識管理手段のGUIの第1画面2000を示す図である。GUIの第1画面2000は、例えば、本開示の実施例に係る認識管理手段の認識モデルの学習を開始する際に表示されるGUIの初期状態を示してもよい。
FIG. 20 is a diagram showing a
まず、GUIの第1画面2000では、システム管理者等の人間ユーザは、認識モデルの学習過程を開始するために、いくつかの特定のハイパーパラメータの値を選択することができる。例えば、図20に示すように、ユーザは、解析対象データに含まれるクラスの総数であるクラス数2001を入力してもよい。また、ユーザは、認識モデルの学習を行うエポックの数であるエポック数2002を入力してもよい。エポック数を増やすことにより、より良好な学習結果を得ることができるが、より長い時間がかかる。
First, a
また、ユーザは、解析対象データが保存される収容先までのデータ経路2003を入力してもよい。一例として、このデータ経路2003は、解析対象データが保存される前処理済み解析対象データDBの収容先までのデータ経路であってもよい。また、ユーザは、1つのバッチに含まれるデータサンプルの数を指定するバッチサイズ2004を入力してもよい。一般的には、認識モデルの学習は、各バッチ毎に行われるが、本開示はこれに限定されず、認識モデルの学習を所定の数のバッチ毎に行ってもよい。
The user may also input a
また、ユーザは、認識モデルの学習に用いられる損失計算法2005を入力してもよい。一例として、ユーザは、交差エントロピー損失2006、フォーカル損失2007、またはクラス難易度ベース動的重み付け交差エントロピー損失2008の内、1つを損失計算法2005として選択してもよい。
なお、交差エントロピー損失2006及びフォーカル損失2007は、従来で用いられる損失計算法であり、クラス難易度ベース動的重み付け交差エントロピー損失2008は、上述した、本開示の実施例に係る損失計算法である。
上述したハイパーパラメータの入力が終了した後、GUIの画面が図21に示す第2画面2100に変わる。
The user may also input a
Note that the
After the hyperparameter input described above is completed, the GUI screen changes to a
図21は、本開示の実施例に係る認識管理手段のGUIの第2画面2100を示す図である。図20を参照して説明したGUIの第1画面2000においてハイパーパラメータの選択が終了すると、図21に示すGUIの第2画面2100のポップアップウインドウ2101が表示される。ポップアップウインドウ2101は、上述した加重パラメータを設定するための画面である。上述した実施例1に説明したように、ユーザが加重パラメータを固定値としたい場合、ユーザはポップアップウインドウ2101における「手動入力」を選択し、加重パラメータを0~10の範囲内の数値として設定してもよい。あるいは、上述した実施例3に説明したように、ユーザは加重パラメータが自動的に判定されることを望む場合、ポップアップウインドウ2101における「自動計算」を選択してもよい。
加重パラメータの設定が終了した後、GUIの画面が図22に示す第3画面2200に変わる。
FIG. 21 is a diagram showing a
After the weight parameter settings are completed, the GUI screen changes to the
図22は、本開示の実施例に係る認識管理手段のGUIの第3画面2200を示す図である。加重パラメータの設定が終了した後、図22に示すGUIの第3画面2200において新たなポップアップウインドウ2201が表示される。ポップアップウインドウ2201は、認識モデルの学習過程における重み付けの更新頻度を設定するための画面である。ここで、ユーザは、所定の数のエポック毎の重み付け更新や、所定の数のバッチ毎の重み付け更新を設定することができる。重み付けの更新頻度の設定が終了した後、GUIの画面が図23に示す第4画面2300に変わる。
FIG. 22 is a diagram showing a
図23は、本開示の実施例に係る認識管理手段のGUIの第4画面2300を示す図である。
上述したように、本開示の実施例に係る認識管理手段によって学習された認識モデルを所定の認識タスクに適用することにより、高精度の認識結果を得ることができる。例えば、本開示の実施例に係る認識管理手段の適用例の1つとして、人間アクティビティ検出が考えられる。
FIG. 23 is a diagram showing a
As described above, by applying the recognition model learned by the recognition management means according to the embodiment of the present disclosure to a predetermined recognition task, highly accurate recognition results can be obtained. For example, one possible application of the recognition management means according to the embodiment of the present disclosure is human activity detection.
また、本開示の実施例に係る認識管理手段を人間アクティビティ検出に適用した場合、アクティビティのクラスの重要性に基づいて、異なる加重パラメータを設定してもよい。ここでの重要性とは、特定のアクティビティを正しく検出する優先度を示す尺度であり、アクティビティのクラス毎にユーザによって定義されてもよい。また、この重要性は、例えば0~10の範囲内の数値として表現されてもよい(より高い数値がより高い重要性を示す)。 Further, when the recognition management means according to the embodiment of the present disclosure is applied to human activity detection, different weighting parameters may be set based on the importance of the activity class. The importance here is a measure indicating the priority for correctly detecting a specific activity, and may be defined by the user for each class of activity. This importance may also be expressed, for example, as a number in the range of 0 to 10 (higher numbers indicate higher importance).
クラス毎の重要性は、図23に示すGUIの第4画面2300に表示される重要性入力ウインドウ2301を介してユーザによって設定されてもよい。例えば、ユーザは、「人が武器を持っている」とのアクティビティのクラスについて「9」の重要性を与え、「人が本を持っている」とのアクティビティについて「1」の重要性を与えてもよい。これにより、重要性がより高いアクティビティのクラスについては、より高い加重パラメータが設定され、重要性がより低いアクティビティのクラスについては、より低い加重パラメータが設定される。
クラス毎の重要性が設定された後、GUIの画面が図24に示す第5画面2400に変わる。
The importance of each class may be set by the user via the
After the importance of each class is set, the GUI screen changes to the
図24は、本開示の実施例に係る認識管理手段のGUIの第5画面2400を示す図である。上述したGUIの第4画面2300においてクラス毎の重要性の設定が終了した後、認識モデルの学習の進行を示すGUIの第5画面2400が表示される。例えば、状態表示ウインドウ2401には、学習が開始されたことや、トレーニングが終了したことなどが表示される。認識モデルの学習が終了すると、学習済みのモデルが所定の収容先に保存される。
(ハードウェア構成)
FIG. 24 is a diagram showing a
(Hardware configuration)
次に、図25を参照して、本開示の実施例を実施するためのコンピュータシステム300について説明する。本明細書で開示される様々な実施例の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインタフェース314、I/O(入出力)デバイスインタフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
Next, with reference to FIG. 25, a
コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施例では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施例では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施例では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、認識管理アプリケーション350を格納していてもよい。ある実施例では、認識管理アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよい。
In some embodiments,
ある実施例では、認識管理アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施例では、認識管理アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施例では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。
In some embodiments, the
コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット312,314,316、及び318と通信してもよい。
表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム300は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。
For example, the
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
The I/O interface unit has the ability to communicate with various storage or I/O devices. For example, the
ストレージインタフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施例では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、ストレージ装置322に記憶され、必要に応じてストレージ装置322から読み出されてもよい。I/Oデバイスインタフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
ある実施例では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施例では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
In some embodiments,
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the embodiments described above, and various changes can be made without departing from the gist of the present invention.
106 前処理済み解析対象データDB
107 入力ラベルDB
203 認識モデル
204 モデルパラメータDB
205 予測ラベルDB
206 誤差計算部
207 性能計算部
208 難易度計算部
209 動的重み付け計算部
210 加重パラメータ設定部
211 更新部
106 Preprocessed analysis target data DB
107 Input label DB
203
205 Predicted label DB
206
Claims (8)
前記解析対象データについて判定した前記予測ラベルと、前記解析対象データの真のクラスを指定する入力ラベルとから計算した前記認識モデルの誤差に基づいて、前記認識モデルの認識性能を計算する性能計算部、
前記認識性能に基づいて、前記解析対象データに含まれる前記各クラスの認識難易度を計算する難易度計算部と、
前記各クラスの前記認識難易度に基づいて、前記解析対象データに含まれる前記各クラスに対する重み付けを計算し、割り当てる重み付け計算部と、
前記解析対象データに含まれる第1のクラスと第2のクラスのそれぞれに対して割り当てられる重み付けの相対的差異を規定する加重パラメータをユーザの入力に基づいて設定するための加重パラメータ設定部と、
前記認識性能における最大値と最小値との比を前記加重パラメータとして設定する動的加重パラメータ判定部と、
を含むことを特徴とする、認識管理装置。 a recognition model that performs class recognition processing on data to be analyzed that includes at least one class, and determines a predicted label that identifies each class included in the data to be analyzed;
a performance calculation unit that calculates recognition performance of the recognition model based on an error of the recognition model calculated from the predicted label determined for the analysis target data and an input label specifying the true class of the analysis target data; ,
a difficulty calculation unit that calculates the recognition difficulty of each of the classes included in the analysis target data based on the recognition performance;
a weighting calculation unit that calculates and assigns a weight to each of the classes included in the analysis target data based on the recognition difficulty level of each of the classes;
a weighting parameter setting unit for setting a weighting parameter that defines a relative difference in weighting assigned to each of the first class and the second class included in the analysis target data based on user input;
a dynamic weighting parameter determination unit that sets a ratio between a maximum value and a minimum value in the recognition performance as the weighting parameter;
A recognition management device comprising:
重み付け正規化部を更に含み、
前記重み付け正規化部は、
前記各クラスに割り当てられた前記重み付けを正規化することで、
前記各クラス間の重み付けの範囲を規定する、
ことを特徴とする、請求項1に記載の認識管理装置。 The recognition management device includes:
further comprising a weighted normalization unit;
The weighted normalization unit includes:
By normalizing the weights assigned to each class,
defining a weighting range between each of the classes;
The recognition management device according to claim 1, characterized in that:
前記比重誤差を用いて、前記認識モデルによる前記クラス認識処理の挙動を制御するモデルパラメータを更新することで前記認識モデルを訓練し、訓練済みの認識モデルを生成する更新部を更に含むことを特徴とする、請求項1に記載の認識管理装置。 calculating a specific gravity error based on the error of the recognition model and the weighting;
The method further includes an updating unit that trains the recognition model by updating model parameters that control the behavior of the class recognition process by the recognition model using the specific gravity error, and generates a trained recognition model. The recognition management device according to claim 1 .
ことを特徴とする、請求項3に記載の認識管理装置。 By analyzing inference data for activity detection using the trained recognition model, a class of an activity corresponding to the inference data is predicted, and an activity detection result indicating the predicted class of the activity is output. ,
The recognition management device according to claim 3 , characterized in that:
前記推論データに含まれる各クラスに対応する重要性に基づいて、
前記推論データに含まれる各クラスに対する加重パラメータを個別に設定する、
ことを特徴とする、請求項4に記載の認識管理装置。 The dynamic weighting parameter determination unit includes:
Based on the importance corresponding to each class included in the inference data,
individually setting weight parameters for each class included in the inference data;
The recognition management device according to claim 4 , characterized in that:
前記解析対象データに含まれる第1のクラスに対応する各サンプルの難易度を計算し、
前記各サンプルについて計算した難易度の平均値を前記第1のクラスの認識難易度とする、
ことを特徴とする、請求項1に記載の認識管理装置。 The difficulty level calculation section is
Calculating the difficulty level of each sample corresponding to the first class included in the analysis target data,
The average value of the difficulty levels calculated for each of the samples is set as the recognition difficulty level of the first class.
The recognition management device according to claim 1, characterized in that:
前記認識管理装置は、
少なくとも1つのクラスを含む解析対象データに対して、クラス認識処理を施し、前記解析対象データに含まれる各クラスを特定する予測ラベルを判定する認識モデルと、
前記解析対象データについて判定した前記予測ラベルと、前記解析対象データの真のクラスを指定する入力ラベルとから計算した前記認識モデルの誤差に基づいて、前記認識モデルの認識性能を計算する性能計算部、
前記認識性能に基づいて、前記解析対象データに含まれる前記各クラスの認識難易度を計算する難易度計算部と、
前記各クラスの前記認識難易度に基づいて、前記解析対象データに含まれる前記各クラスに対する重み付けを計算し、割り当てる重み付け計算部と、
前記解析対象データに含まれる第1のクラスと第2のクラスのそれぞれに対して割り当てられる重み付けの相対的差異を規定する加重パラメータをユーザの入力に基づいて設定するための加重パラメータ設定部と、
前記認識性能における最大値と最小値との比を前記加重パラメータとして設定する動的加重パラメータ判定部と、
前記認識モデルの前記誤差と前記重み付けとに基づいて比重誤差を計算し、
前記比重誤差を用いて、前記認識モデルによる前記クラス認識処理の挙動を制御するモデルパラメータを更新することで前記認識モデルを訓練し、訓練済みの認識モデルを生成する更新部と、
前記クライアント端末から受信するアクティビティ検出用の推論データを、前記訓練済みの認識モデルを用いて解析することにより、前記推論データに対応するアクティビティのクラスを予測し、予測した前記アクティビティの前記クラスを示すアクティビティ検出結果を前記クライアント端末に送信する、
ことを特徴とする認識管理システム。 A recognition management system in which a client terminal and a recognition management device are connected via a communication network,
The recognition management device includes:
a recognition model that performs class recognition processing on data to be analyzed that includes at least one class, and determines a predicted label that identifies each class included in the data to be analyzed;
a performance calculation unit that calculates recognition performance of the recognition model based on an error of the recognition model calculated from the predicted label determined for the analysis target data and an input label specifying the true class of the analysis target data; ,
a difficulty calculation unit that calculates the recognition difficulty of each of the classes included in the analysis target data based on the recognition performance;
a weighting calculation unit that calculates and assigns a weight to each of the classes included in the analysis target data based on the recognition difficulty level of each of the classes;
a weighting parameter setting unit for setting a weighting parameter that defines a relative difference in weighting assigned to each of the first class and the second class included in the analysis target data based on user input;
a dynamic weighting parameter determination unit that sets a ratio between a maximum value and a minimum value in the recognition performance as the weighting parameter;
calculating a specific gravity error based on the error of the recognition model and the weighting;
an updating unit that uses the specific gravity error to train the recognition model by updating model parameters that control the behavior of the class recognition process by the recognition model, and generates a trained recognition model;
Analyzing inference data for activity detection received from the client terminal using the trained recognition model, predicting a class of activity corresponding to the inference data, and indicating the predicted class of the activity. transmitting an activity detection result to the client terminal;
A recognition management system characterized by:
前記認識管理装置は、
メモリと、プロセッサとを含み、
前記メモリは、
少なくとも1つのクラスを含む解析対象データに対して、認識モデルによるクラス認識処理を施し、前記解析対象データに含まれる各クラスを特定する予測ラベルを判定する工程と、
前記解析対象データについて判定した前記予測ラベルと、前記解析対象データの真のクラスを指定する入力ラベルとから計算した前記認識モデルの誤差に基づいて、前記認識モデルの認識性能を計算する工程と、
前記認識性能に基づいて、前記解析対象データに含まれる前記各クラスの認識難易度を計算する工程と、
前記各クラスの前記認識難易度に基づいて、前記解析対象データに含まれる前記各クラスに対する重み付けを計算し、割り当てる工程と、
前記解析対象データに含まれる第1のクラスと第2のクラスのそれぞれに対して割り当てられる重み付けの相対的差異を規定する加重パラメータをユーザの入力に基づいて設定する工程と、
前記認識性能における最大値と最小値との比を前記加重パラメータとして設定する工程と、
を前記プロセッサに実行させる処理命令を含むことを特徴とする認識管理方法。 A recognition management method implemented by computer software in a recognition management device, the method comprising:
The recognition management device includes:
including a memory and a processor;
The memory is
performing class recognition processing using a recognition model on data to be analyzed that includes at least one class, and determining predicted labels that identify each class included in the data to be analyzed;
Calculating the recognition performance of the recognition model based on the error of the recognition model calculated from the predicted label determined for the analysis target data and an input label specifying the true class of the analysis target data;
calculating the recognition difficulty level of each of the classes included in the data to be analyzed based on the recognition performance;
Calculating and assigning a weight to each class included in the analysis target data based on the recognition difficulty level of each class;
setting a weighting parameter that defines a relative difference in weighting assigned to each of the first class and the second class included in the analysis target data based on user input;
setting a ratio between a maximum value and a minimum value in the recognition performance as the weighting parameter;
A recognition management method comprising : a processing instruction for causing the processor to execute .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020115554A JP7422621B2 (en) | 2020-07-03 | 2020-07-03 | Recognition management device, recognition management system, and recognition management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020115554A JP7422621B2 (en) | 2020-07-03 | 2020-07-03 | Recognition management device, recognition management system, and recognition management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022013172A JP2022013172A (en) | 2022-01-18 |
JP7422621B2 true JP7422621B2 (en) | 2024-01-26 |
Family
ID=80169540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020115554A Active JP7422621B2 (en) | 2020-07-03 | 2020-07-03 | Recognition management device, recognition management system, and recognition management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7422621B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140369A (en) | 2007-12-07 | 2009-06-25 | Sony Corp | Group learning device and group learning method, object detection device and object detection method, and computer program |
JP2017162456A (en) | 2016-03-11 | 2017-09-14 | 株式会社東芝 | Training of restricted deconvolution network for semantic segmentation of road scene |
JP2020061081A (en) | 2018-10-12 | 2020-04-16 | キヤノン株式会社 | Image processor and method for processing image |
WO2020081668A2 (en) | 2018-10-19 | 2020-04-23 | Genentech, Inc. | Defect detection in lyophilized drug products with convolutional neural networks |
JP2020080023A (en) | 2018-11-12 | 2020-05-28 | 富士通株式会社 | Learning program, learning method, learning apparatus, detection program, detection method and detection apparatus |
-
2020
- 2020-07-03 JP JP2020115554A patent/JP7422621B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009140369A (en) | 2007-12-07 | 2009-06-25 | Sony Corp | Group learning device and group learning method, object detection device and object detection method, and computer program |
JP2017162456A (en) | 2016-03-11 | 2017-09-14 | 株式会社東芝 | Training of restricted deconvolution network for semantic segmentation of road scene |
JP2020061081A (en) | 2018-10-12 | 2020-04-16 | キヤノン株式会社 | Image processor and method for processing image |
WO2020081668A2 (en) | 2018-10-19 | 2020-04-23 | Genentech, Inc. | Defect detection in lyophilized drug products with convolutional neural networks |
JP2020080023A (en) | 2018-11-12 | 2020-05-28 | 富士通株式会社 | Learning program, learning method, learning apparatus, detection program, detection method and detection apparatus |
Non-Patent Citations (1)
Title |
---|
Tsung-Yi Lin et al.,"Focal Loss for Dense Object Detection",IEEE Transactions on Pattern Analysis and Machine Intelligence,米国,IEEE,2018年07月23日,Vol.42, No.2,pp.318-327 |
Also Published As
Publication number | Publication date |
---|---|
JP2022013172A (en) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11977967B2 (en) | Memory augmented generative temporal models | |
JP6839342B2 (en) | Information processing equipment, information processing methods and programs | |
JP5943357B2 (en) | Detection apparatus, detection method, and program | |
US20150170053A1 (en) | Personalized machine learning models | |
JP6879433B2 (en) | Regression device, regression method, and program | |
JP5454827B1 (en) | Document evaluation apparatus, document evaluation method, and program | |
CN110069129B (en) | Determination system and determination method | |
JP2009122851A (en) | Technique for classifying data | |
US11132584B2 (en) | Model reselection for accommodating unsatisfactory training data | |
CN111582651A (en) | User risk analysis model training method and device and electronic equipment | |
US11868440B1 (en) | Statistical model training systems | |
US20220383458A1 (en) | Control method, storage medium, and information processing apparatus | |
JP2022079947A (en) | Pruning management apparatus, pruning management system, and pruning management method | |
JP7422621B2 (en) | Recognition management device, recognition management system, and recognition management method | |
CN117422934A (en) | Abnormal cell detection method, abnormal cell detection system, abnormal cell detection computer device, and storage medium | |
JP7235960B2 (en) | Job power prediction program, job power prediction method, and job power prediction device | |
CN114422450B (en) | Network traffic analysis method and device based on multi-source network traffic data | |
WO2020167156A1 (en) | Method for debugging a trained recurrent neural network | |
US20220269991A1 (en) | Evaluating reliability of artificial intelligence | |
JP7349404B2 (en) | Judgment device, judgment method and judgment program | |
CN110297989B (en) | Test method, device, equipment and medium for anomaly detection | |
CN115420866A (en) | Drug activity detection method, device, electronic equipment and storage medium | |
US8635225B1 (en) | Representative document selection | |
CN116469442B (en) | Method, device and storage medium for predicting chip data retention time | |
CN116521490B (en) | PC system health degree self-checking method, self-checking device, equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7422621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |