JP6193428B1 - Feature selection device, feature selection method, and program - Google Patents

Feature selection device, feature selection method, and program Download PDF

Info

Publication number
JP6193428B1
JP6193428B1 JP2016054517A JP2016054517A JP6193428B1 JP 6193428 B1 JP6193428 B1 JP 6193428B1 JP 2016054517 A JP2016054517 A JP 2016054517A JP 2016054517 A JP2016054517 A JP 2016054517A JP 6193428 B1 JP6193428 B1 JP 6193428B1
Authority
JP
Japan
Prior art keywords
evaluation
data
feature
evaluation value
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016054517A
Other languages
Japanese (ja)
Other versions
JP2017167979A (en
Inventor
信太郎 高橋
信太郎 高橋
実 西澤
実 西澤
秀将 伊藤
秀将 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016054517A priority Critical patent/JP6193428B1/en
Application granted granted Critical
Publication of JP6193428B1 publication Critical patent/JP6193428B1/en
Publication of JP2017167979A publication Critical patent/JP2017167979A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の評価指標の各々に設定された目標値をできるだけ達成するように部分集合の選択を行うことができる特徴選択装置、特徴選択方法およびプログラムを提供する。【解決手段】実施形態の特徴選択装置1は、モデルの性能に関する複数の評価指標の各々の評価値を算出するモデル評価部7と、複数の評価指標の各々について、設定された目標値に対する評価値の達成度を算出し、複数の評価指標の各々の達成度が高く、かつ、複数の評価指標間における達成度のばらつきが少ないほど高評価となる統合評価値を算出する評価値統合部8と、を備え、統合評価値が高くなる部分集合を探索する。【選択図】図6A feature selection device, a feature selection method, and a program capable of selecting a subset so as to achieve a target value set for each of a plurality of evaluation indexes as much as possible are provided. A feature selection device according to an embodiment includes a model evaluation unit that calculates an evaluation value of each of a plurality of evaluation indexes related to the performance of the model, and an evaluation for a set target value for each of the plurality of evaluation indexes. An evaluation value integration unit 8 that calculates a degree of achievement of a value and calculates an integrated evaluation value that is higher as the degree of achievement of each of the plurality of evaluation indices is higher and the variation in the degree of achievement among the plurality of evaluation indices is smaller. And searching for a subset having a high integrated evaluation value. [Selection] Figure 6

Description

本発明の実施形態は、特徴選択装置、特徴選択方法およびプログラムに関する。   Embodiments described herein relate generally to a feature selection device, a feature selection method, and a program.

機械学習アルゴリズムを用いてモデルを構築する際に任意の特徴集合から機械学習に有用な特徴の部分集合を選択する特徴選択と呼ばれる技術がある。特徴選択にはいくつかの方法があるが、その一つとしてWrapper法が知られている。Wrapper法は、部分集合を変更しながらモデルの生成および評価を繰り返し、評価値が高くなる部分集合を探索する方法である。   There is a technique called feature selection that selects a subset of features useful for machine learning from an arbitrary feature set when building a model using a machine learning algorithm. There are several methods for feature selection, one of which is the Wrapper method. The Wrapper method is a method of searching for a subset having a high evaluation value by repeatedly generating and evaluating a model while changing the subset.

モデルの性能を評価する評価指標には様々なものがある。例えば、事象の発生を予測する予測モデルの評価指標としては、予測の網羅性を示す「再現率」や、予測の正確性を示す「適合率」などがある。再現率と適合率は基本的にトレードオフの関係にあり、双方の評価値がともに最大値をとるような部分集合を選択することは困難である。そこで、再現率と適合率の調和平均である「F値」を評価指標として用いる場合もある。F値を用いてモデルを評価した場合、再現率と適合率のバランスがよいモデルの評価値が高くなる。   There are various evaluation indexes for evaluating the performance of the model. For example, as an evaluation index of a prediction model for predicting the occurrence of an event, there are a “reproducibility” indicating the completeness of prediction and a “matching rate” indicating the accuracy of prediction. The recall rate and the matching rate are basically in a trade-off relationship, and it is difficult to select a subset in which both evaluation values have the maximum value. Therefore, the “F value” that is the harmonic average of the recall rate and the precision rate may be used as an evaluation index. When the model is evaluated using the F value, the evaluation value of the model having a good balance between the recall rate and the matching rate becomes high.

しかし、モデルの用途によっては、例えば、再現率をある程度確保しながら適合率を優先したモデルを構築したい、あるいは逆に、適合率をある程度確保しながら再現率を優先したモデルを構築したいといった要望もある。従来の技術では、このように複数の評価指標の各々で目標が異なる場合に、それらをできるだけ達成するように部分集合の選択を行うことができず、改善が求められる。   However, depending on the use of the model, for example, there is a request to build a model that prioritizes the precision while maintaining a certain degree of recall, or conversely, a model that prioritizes the recall while securing a certain degree of precision. is there. In the conventional technique, when the target is different in each of the plurality of evaluation indexes as described above, the subset cannot be selected so as to achieve them as much as possible, and improvement is required.

特開平5−197813号公報JP-A-5-197813

本発明が解決しようとする課題は、複数の評価指標の各々に設定された目標値をできるだけ達成するように部分集合の選択を行うことができる特徴選択装置、特徴選択方法およびプログラムを提供することである。   A problem to be solved by the present invention is to provide a feature selection device, a feature selection method, and a program capable of selecting a subset so as to achieve a target value set for each of a plurality of evaluation indexes as much as possible. It is.

実施形態の特徴選択装置は、特徴集合の部分集合を用いたモデルの生成および評価を繰り返し、評価値が高くなる前記部分集合を探索する特徴選択装置であって、モデル評価部と、評価値統合部と、を備える。モデル評価部は、前記モデルの性能に関する複数の評価指標の各々の評価値を算出する。評価値統合部は、前記複数の評価指標の各々について、設定された目標値に対する前記評価値の達成度を算出し、前記複数の評価指標の各々の前記達成度が高く、かつ、前記複数の評価指標間における前記達成度のばらつきが少ないほど高評価となる統合評価値を算出する。実施形態の特徴選択装置は、前記統合評価値が高くなる前記部分集合を探索する。   A feature selection device according to an embodiment is a feature selection device that repeatedly generates and evaluates a model using a subset of a feature set, and searches for the subset with a high evaluation value. A section. The model evaluation unit calculates an evaluation value of each of a plurality of evaluation indexes related to the performance of the model. The evaluation value integration unit calculates a degree of achievement of the evaluation value with respect to a set target value for each of the plurality of evaluation indices, the degree of achievement of each of the plurality of evaluation indices is high, and the plurality of the plurality of evaluation indices An integrated evaluation value is calculated such that the smaller the variation in the achievement level between evaluation indexes, the higher the evaluation. The feature selection device according to the embodiment searches for the subset in which the integrated evaluation value is high.

図1は、一定周期でモデルによる推定を行う例を説明する図である。FIG. 1 is a diagram illustrating an example in which estimation using a model is performed at a constant period. 図2は、時系列データを使って将来の期間におけるデータを予測する例を説明する図である。FIG. 2 is a diagram for explaining an example of predicting data in a future period using time-series data. 図3は、データセットの一例を示す図である。FIG. 3 is a diagram illustrating an example of a data set. 図4は、コスト設定データの一例を示す図である。FIG. 4 is a diagram illustrating an example of cost setting data. 図5は、補正設定データの一例を示す図である。FIG. 5 is a diagram illustrating an example of the correction setting data. 図6は、実施例の特徴選択装置の機能的な構成例を示すブロック図である。FIG. 6 is a block diagram illustrating a functional configuration example of the feature selection device according to the embodiment. 図7は、目標値データの一例を示す図である。FIG. 7 is a diagram illustrating an example of target value data. 図8は、コスト制約データの一例を示す図である。FIG. 8 is a diagram illustrating an example of cost constraint data. 図9は、終了条件データの一例を示す図である。FIG. 9 is a diagram illustrating an example of the end condition data. 図10は、特徴候補データの一例を示す図である。FIG. 10 is a diagram illustrating an example of feature candidate data. 図11は、選択済み集合データの一例を示す図である。FIG. 11 is a diagram illustrating an example of selected set data. 図12は、モードデータの一例を示す図である。FIG. 12 is a diagram illustrating an example of mode data. 図13は、評価対象集合データの一例を示す図である。FIG. 13 is a diagram illustrating an example of the evaluation target set data. 図14は、コスト評価部の処理とデータとの関係を示す図である。FIG. 14 is a diagram illustrating a relationship between the process of the cost evaluation unit and data. 図15は、コストデータの一例を示す図である。FIG. 15 is a diagram illustrating an example of cost data. 図16は、モデルデータの一例を示す図である。FIG. 16 is a diagram illustrating an example of model data. 図17は、評価値データの一例を示す図である。FIG. 17 is a diagram illustrating an example of evaluation value data. 図18は、評価値統合部の処理とデータとの関係を示す図である。FIG. 18 is a diagram illustrating a relationship between processing of the evaluation value integration unit and data. 図19は、統合評価値データの一例を示す図である。FIG. 19 is a diagram illustrating an example of the integrated evaluation value data. 図20は、評価値補正部の処理とデータとの関係を示す図である。FIG. 20 is a diagram illustrating a relationship between processing of the evaluation value correction unit and data. 図21は、補正済み評価値データの一例を示す図である。FIG. 21 is a diagram illustrating an example of corrected evaluation value data. 図22は、除外損失評価部の処理とデータとの関係を示す図である。FIG. 22 is a diagram illustrating a relationship between the process of the exclusion loss evaluation unit and data. 図23は、最終評価データの一例を示す図である。FIG. 23 is a diagram illustrating an example of final evaluation data. 図24は、暫定一位データの一例を示す図である。FIG. 24 is a diagram illustrating an example of provisional first-order data. 図25は、最良集合データの一例を示す図である。FIG. 25 is a diagram illustrating an example of the best set data. 図26−1は、追加モード時における特徴選択装置の処理手順の一例を示すフローチャートである。FIG. 26A is a flowchart illustrating an example of a processing procedure of the feature selection device in the addition mode. 図26−2は、追加モード時における特徴選択装置の処理手順の一例を示すフローチャートである。FIG. 26B is a flowchart illustrating an example of a processing procedure of the feature selection device in the addition mode. 図27−1は、除外モード時における特徴選択装置の処理手順の一例を示すフローチャートである。FIG. 27A is a flowchart illustrating an example of a processing procedure of the feature selection device in the exclusion mode. 図27−2は、除外モード時における特徴選択装置の処理手順の一例を示すフローチャートである。FIG. 27-2 is a flowchart illustrating an example of a processing procedure of the feature selection device in the exclusion mode. 図28は、特徴選択装置のハードウェア構成の一例を示すブロック図である。FIG. 28 is a block diagram illustrating an example of a hardware configuration of the feature selection device.

以下、実施形態の特徴選択装置、特徴選択方法およびプログラムを、図面を参照して詳細に説明する。本実施形態の特徴選択装置は、任意の特徴集合の部分集合を用いたモデルの生成および評価を繰り返し、評価値が高くなる部分集合を探索する、Wrapper法による特徴選択装置である。   Hereinafter, a feature selection device, a feature selection method, and a program according to embodiments will be described in detail with reference to the drawings. The feature selection device according to the present embodiment is a feature selection device based on the Wrapper method that repeatedly generates and evaluates a model using a subset of an arbitrary feature set and searches for a subset having a high evaluation value.

<実施形態の概要>
まず、本実施形態の概要について説明する。従来のWrapper法による特徴選択装置は、モデルの性能に関する複数の評価指標に対して各々設定された目標値を考慮し、それらをできるだけ達成するように特徴選択を行う機能がない。そのため、ユーザが所望するモデルを得るのが難しいという問題がある。
<Outline of Embodiment>
First, an outline of the present embodiment will be described. A conventional feature selection apparatus based on the Wrapper method does not have a function of performing feature selection so as to achieve target values as much as possible in consideration of target values set for a plurality of evaluation indexes related to model performance. Therefore, there is a problem that it is difficult to obtain a model desired by the user.

そこで、本実施形態では、複数の評価指標の目標値に対する評価値の達成度に基づいて、これら複数の評価指標の評価値を統合した「統合評価値」を算出する。そして、この統合評価値が高くなる部分集合を探索する。統合評価値は、複数の評価指標の各々の達成度が高く、かつ、複数の評価指標間における達成度のばらつきが少ないほど高評価となる評価値である。これにより、複数の評価指標の各々に設定された目標値をできるだけ達成するように部分集合の選択を行うことができ、ユーザが所望するモデルを得ることができる。   Therefore, in the present embodiment, an “integrated evaluation value” obtained by integrating the evaluation values of the plurality of evaluation indexes is calculated based on the degree of achievement of the evaluation values with respect to the target values of the plurality of evaluation indexes. Then, a subset with a higher integrated evaluation value is searched. The integrated evaluation value is an evaluation value that becomes higher as the achievement level of each of the plurality of evaluation indexes is higher and the variation in the achievement level among the plurality of evaluation indexes is smaller. Thereby, the subset can be selected so as to achieve the target value set for each of the plurality of evaluation indexes as much as possible, and a model desired by the user can be obtained.

また、従来のWrapper法による特徴選択装置は、モデルの性能(予測精度、推定精度など)以外の要素を考慮して特徴選択を行うための機能がない。しかし、実際のデータ分析を考えると、モデルを評価する上で性能以外の要素も考慮したい場合がある。   In addition, a conventional feature selection apparatus based on the Wrapper method does not have a function for performing feature selection in consideration of factors other than model performance (such as prediction accuracy and estimation accuracy). However, considering actual data analysis, there are cases in which factors other than performance are considered when evaluating a model.

例えば、図1に示すように、一定周期でモデルによる予測・推定を行う場合を考える。この場合、予測・推定の周期ごとに、観測データからの特徴抽出とモデル適用を完了させる必要がある。このとき、使用する特徴集合(特徴選択装置により選択された部分集合)の中に、抽出に多くの時間を要する特徴が大量に含まれていると、一定周期での予測・推定ができない。したがって、特徴選択を行う際には、評価対象の部分集合により得られるモデルの性能だけでなく、その部分集合内の全特徴の抽出に要する処理時間が、予め定められた時間内に収まるか否かをチェックすることが求められる。   For example, as shown in FIG. 1, a case where prediction / estimation by a model is performed at a constant period is considered. In this case, it is necessary to complete feature extraction and model application from observation data for each prediction / estimation period. At this time, if the feature set to be used (subset selected by the feature selection device) contains a large amount of features that require a long time for extraction, prediction / estimation at a fixed period cannot be performed. Therefore, when performing feature selection, not only the performance of the model obtained from the subset to be evaluated, but also whether the processing time required to extract all the features in the subset falls within a predetermined time. It is required to check.

そこで、本実施形態では、部分集合内の全特徴の抽出に要する処理時間をその部分集合のコストと定義し、部分集合のコストが所定の上限値以下であるとの制約条件を満たしつつ、上記の統合評価値が高くなるように特徴選択を行う。これにより、実際のデータ分析において有用で、かつ、高性能なモデルを得ることができる。   Therefore, in this embodiment, the processing time required to extract all the features in the subset is defined as the cost of the subset, while satisfying the constraint that the cost of the subset is equal to or lower than a predetermined upper limit value. The feature selection is performed so that the integrated evaluation value of becomes higher. This makes it possible to obtain a high-performance model that is useful in actual data analysis.

また、例えば図2に示すように、時系列データを使って将来の期間における事象の発生を予測する場合を考える(以下、この期間を「予測対象期間」と呼ぶ)。予測結果に応じて予測対象期間までに何らかの対策を行いたい場合、予測結果はなるべく早い時期に得られることが望ましい。予測の精度が高くても、予測結果が予測対象期間の直前にしか得られなければ、予測モデルの価値は低下する。一方で、予測の精度が少々悪くても、早い時期に予測結果が得られる方が、予測モデルの価値が高いこともある。   Further, for example, as shown in FIG. 2, consider a case where occurrence of an event in a future period is predicted using time-series data (hereinafter, this period is referred to as a “prediction target period”). When it is desired to take some countermeasures by the prediction target period according to the prediction result, it is desirable to obtain the prediction result as early as possible. Even if the accuracy of the prediction is high, the value of the prediction model decreases if the prediction result is obtained only immediately before the prediction target period. On the other hand, even if the prediction accuracy is a little worse, the prediction model may be more valuable if the prediction result is obtained early.

図2に示すように、予測対象期間に対して、様々な位置に設置したウィンドウから特徴を抽出し、それらを特徴選択の候補とする場合、使用する特徴集合(特徴選択装置により選択された部分集合)に応じて予測結果が得られる時期も変化する。そこで、本実施形態では、評価対象の部分集合により得られるモデルにより予測結果が得られる時期の早さ(図2における期間Tの長さ)をその部分集合のスコアと定義し、部分集合のスコアに基づいて上記の統合評価値を補正する。補正は、図2における期間Tが長いほど、予測精度が同じモデルでも評価値が高くなるようにする。これにより、実際のデータ分析において有用で、かつ、高性能なモデルを得ることができる。   As illustrated in FIG. 2, when features are extracted from windows placed at various positions in a prediction target period and are used as candidates for feature selection, a feature set to be used (a portion selected by the feature selection device) The time when the prediction result is obtained also depends on the set. Therefore, in the present embodiment, the time when the prediction result is obtained by the model obtained from the subset to be evaluated (the length of the period T in FIG. 2) is defined as the score of the subset, and the score of the subset is set. Based on the above, the integrated evaluation value is corrected. The correction is performed so that the evaluation value becomes higher even in the model having the same prediction accuracy as the period T in FIG. 2 is longer. This makes it possible to obtain a high-performance model that is useful in actual data analysis.

<実施例>
以下では、本実施形態のより具体的な実施例について説明する。本実施例では、評価値が高くなる部分集合を探索するアプローチとして、例えば、前向き選択の貪欲法と後ろ向き選択の貪欲法を想定する。前向き選択の貪欲法は、選択済みの特徴の集合(以下、これを「選択済み集合」と呼ぶ)に対して特徴を追加する処理を繰り返す。本実施例の特徴選択装置は、このような前向き選択の貪欲法による特徴選択のモードをベースとし、必要に応じて、選択済み集合から特徴を除外する後ろ向き選択の貪欲法による特徴選択のモードに切り替えて処理を行う。以下、前者のモードを「追加モード」と呼び、後者のモードを「除外モード」と呼ぶ。
<Example>
Hereinafter, more specific examples of the present embodiment will be described. In this embodiment, for example, a greedy method for forward selection and a greedy method for backward selection are assumed as approaches for searching for a subset having a high evaluation value. The forward selection greedy method repeats the process of adding features to a selected feature set (hereinafter referred to as a “selected set”). The feature selection apparatus according to the present embodiment is based on the feature selection mode based on the forward selection greedy method, and is switched to the feature selection mode based on the backward selection greedy method that excludes the feature from the selected set as necessary. Switch to process. Hereinafter, the former mode is referred to as “addition mode”, and the latter mode is referred to as “exclusion mode”.

なお、以下で示す実施例は一例であり、装置が同様の機能を持つならば、機能の分け方などは問わない。また、以下に示す各種データについても、本実施例と同様の情報が含まれていれば、その表現・保存形式などは問わない。   Note that the embodiment described below is an example, and if the apparatus has the same function, there is no limitation on how to divide the function. In addition, the various data shown below may be expressed in any form as long as the same information as in the present embodiment is included.

本実施例では、以下に示す前提条件や設定に従って特徴選択・モデル生成を行うものとする。なお、ここに示した以外の条件や設定についても対応できるようにし、後述の初期設定の際にユーザの入力などに応じて条件や設定を切り替えられるようにしてもよい。例えば、初期設定時のユーザの入力に応じて、用いる評価指標を選択できるようにするなどが考えられる。   In this embodiment, feature selection / model generation is performed according to the following preconditions and settings. It should be noted that conditions and settings other than those shown here can be dealt with, and the conditions and settings can be switched in accordance with user input or the like during initial setting described later. For example, it may be possible to select an evaluation index to be used in accordance with a user input at the time of initial setting.

<生成するモデル>
本実施例では、ある機器の故障が発生するか否かを2クラス識別により予測するモデル(予測モデル)を生成するものとする。例えば、与えられた入力データが、「故障が発生するクラス」と「故障が発生しないクラス」の2クラスのうち、どちらに属するかを推定し分類するモデルを生成する。このモデルは、入力された特徴の値に対して、予測対象期間に故障が発生するか否かを示すデータ(以下、「ラベル」と呼ぶ)を出力する。このようなモデルは、例えばSupport Vector Machine、決定木、ロジスティック回帰などの機械学習アルゴリズムにより生成できる。
<Model to be generated>
In this embodiment, it is assumed that a model (prediction model) that predicts whether or not a failure of a certain device occurs by 2-class identification is generated. For example, a model is generated that estimates and classifies whether the given input data belongs to one of two classes, “a class in which a failure occurs” and “a class in which no failure occurs”. This model outputs data (hereinafter referred to as “label”) indicating whether or not a failure occurs in the prediction target period for the input feature value. Such a model can be generated by a machine learning algorithm such as Support Vector Machine, decision tree, and logistic regression.

<学習データセットおよび評価用データセット>
学習データセットは、機械学習によるモデル生成に用いられるデータセットであり、評価用データセットは、生成されたモデルの評価に用いられるデータセットである。学習データセットおよび評価用データセットは、サンプルの集合であり、両者に同様のサンプルが含まれる。以下、学習データセットと評価用データセットを区別しない場合は、単に「データセット」と呼ぶ。
<Learning data set and evaluation data set>
The learning data set is a data set used for model generation by machine learning, and the evaluation data set is a data set used for evaluation of the generated model. The learning data set and the evaluation data set are collections of samples, and both include similar samples. Hereinafter, when the learning data set and the evaluation data set are not distinguished, they are simply referred to as “data sets”.

図3は、データセットD1の一例を示す図である。図3に示すデータセットD1は、1つの行が1つのサンプルに対応する。各サンプルは、選択の候補となる特徴の値の集合と、正しい予測のラベル(以下、「正解ラベル」と呼ぶ)により構成される。図3に示すデータセットD1は、選択の候補となる特徴の数(特徴集合に含まれる特徴の総数)が300個である場合の例を示している。また、各サンプルの正解ラベルは、機器に故障が発生したことを「1」、機器に故障が発生しなかったことを「−1」で表している。なお、学習データセットと評価用データセットに含まれるサンプル同士は、モデル生成の前に毎回ランダムに入れ替えたり、交差検定を用いて決めたりしてもよい。本実施例では簡単のため、学習データセットと評価用データセットそれぞれに含まれるサンプルは変更されないものとする。   FIG. 3 is a diagram illustrating an example of the data set D1. In the data set D1 shown in FIG. 3, one row corresponds to one sample. Each sample includes a set of feature values that are candidates for selection and a correct prediction label (hereinafter referred to as “correct answer label”). A data set D1 illustrated in FIG. 3 illustrates an example in which the number of features that are selection candidates (the total number of features included in the feature set) is 300. The correct label of each sample represents “1” that a failure has occurred in the device and “−1” that a failure has not occurred in the device. Note that the samples included in the learning data set and the evaluation data set may be randomly replaced each time before model generation or may be determined using cross-validation. In this embodiment, for simplicity, it is assumed that the samples included in the learning data set and the evaluation data set are not changed.

<特徴選択処理の終了条件>
本実施例では、選択済み集合に含まれる特徴の個数が後述の初期設定時に定めた最大個数に達した場合、あるいは、除外モードによる処理が初期設定時に定めた上限回数実行された場合に、処理を終了するものとする。なお、これは一例であり、例えば選択済み集合によるモデルの再現率、適合率の達成度が一定以上になったとき終了するなど、他の終了条件を用いてもよい。
<Termination condition for feature selection processing>
In this embodiment, when the number of features included in the selected set reaches the maximum number determined at the time of initial setting, which will be described later, or when the processing in the exclusion mode is executed an upper limit number of times determined at the time of initial setting. Shall be terminated. Note that this is an example, and other termination conditions may be used, such as termination when the achievement rate of the model reproduction rate and the matching rate by the selected set becomes a certain level or more.

<モデルの評価指標>
評価対象となる部分集合(以下、これを「評価対象集合」と呼ぶ)Xを用いて生成されるモデルの性能(予測モデルの予測精度)は、モデルを用いて評価用データセットに対して予測を行い、得られた予測結果について、下記式(1)で表される再現率と、下記式(2)で表される適合率とを算出することで評価する。これはすなわち、「故障が発生するクラス」と「故障が発生しないクラス」の2クラスのうち、評価対象として、「故障が発生するクラス」のほうに着目し、「故障が発生するクラス」に分類されるべきデータがもらさず分類されているかを再現率で、「故障が発生するクラス」に分類されたデータのうち正しく分類されている割合を適合率でそれぞれ評価するということである。なお、ここでは評価対象のクラスを「故障が発生するクラス」のみとしているが、複数のクラスを対象として再現率・適合率を評価してもよい。

Figure 0006193428
Figure 0006193428
<Evaluation index of model>
The performance (prediction accuracy of the prediction model) of the model generated using the subset to be evaluated (hereinafter referred to as “evaluation target set”) X is predicted for the evaluation data set using the model. The prediction result obtained is evaluated by calculating the recall represented by the following formula (1) and the precision represented by the following formula (2). In other words, out of the two classes of “classes where failure occurs” and “classes where failure does not occur”, focus on the “class where failure occurs” as the evaluation target, and change it to “class where failure occurs” In other words, whether the data to be classified is classified without being obtained is evaluated by the reproducibility, and the correctly classified ratio of the data classified as “the class in which the failure occurs” is evaluated by the relevance ratio. Here, the evaluation target class is only “a class in which a failure occurs”, but the recall ratio and the conformity ratio may be evaluated for a plurality of classes.
Figure 0006193428
Figure 0006193428

本実施例では、これら再現率と適合率のそれぞれに対して、ユーザが初期設定時に目標値を設定する。そして、モデルの評価により得られる再現率の値(評価値)と適合率の値(評価値)とをそれぞれの目標値を考慮して統合し、統合評価値merged_eval(X)を算出する。なお、ここに示した評価指標は一例であり、数値として算出され、目標値が設定できる評価指標であれば、任意の種類のものを用いてよい。また、3種類以上の評価指標を用いても構わない。   In this embodiment, the user sets target values at the time of initial setting for each of the recall ratio and the matching ratio. Then, the recall value (evaluation value) and the precision value (evaluation value) obtained by the evaluation of the model are integrated in consideration of the respective target values to calculate an integrated evaluation value merged_eval (X). The evaluation index shown here is an example, and any type of evaluation index may be used as long as it is calculated as a numerical value and can set a target value. Three or more kinds of evaluation indexes may be used.

<コストと制約>
本実施例では、特徴集合に含まれる各特徴xそれぞれにコストfeature_cost(x)が設定されているものとする。コストfeature_cost(x)は、例えば特徴量xの抽出に要する平均的な処理時間などが考えられる。評価対象集合Xのコストcost(X)は、例えば下記式(3)に示すように、評価対象集合Xに含まれる各特徴xのコストfeature_cost(x)の総和で定義されるものとする。

Figure 0006193428
<Costs and constraints>
In this embodiment, it is assumed that cost feature_cost (x) is set for each feature x included in the feature set. The cost feature_cost (x) may be, for example, an average processing time required for extracting the feature quantity x. Assume that the cost cost (X) of the evaluation target set X is defined by the sum of the cost feature_cost (x) of each feature x included in the evaluation target set X, for example, as shown in the following equation (3).
Figure 0006193428

本実施例では、下記式(4)に示すように、評価対象集合Xのコストcost(X)が上限値max_cost以下であるとの制約条件を設定する。上限値max_costは、初期設定時にユーザが値を設定するものとする。

Figure 0006193428
In the present embodiment, a constraint condition that the cost cost (X) of the evaluation target set X is equal to or lower than the upper limit value max_cost is set as shown in the following formula (4). The upper limit value max_cost is set by the user at the time of initial setting.
Figure 0006193428

なお、これらの設定は一例であり、評価対象集合Xのコストcost(X)は、Xの要素数の増加に伴い増加する傾向を持つ数値であれば、任意の定義を用いてよい。例えば、特徴抽出を並列処理するのであれば、評価対象集合Xに含まれる各特徴xのコストfeature_cost(x)の総和ではなく、最大値を用いるなどの方法も考えられる。   These settings are only examples, and the cost cost (X) of the evaluation target set X may be any definition as long as it is a numerical value that tends to increase with an increase in the number of elements of X. For example, if feature extraction is performed in parallel, a method of using the maximum value instead of the sum of the cost feature_cost (x) of each feature x included in the evaluation target set X may be considered.

コストfeature_cost(x)に関する設定は、例えば図4に示すようなコスト設定データD2によって、本実施例の特徴選択装置による処理開始前に定義されているものとする。このコスト設定データD2には、特徴集合に含まれる各特徴xそれぞれのコストfeature_cost(x)が示されている。なお、初期設定時などのユーザの入力に応じて、特徴xのコストfeature_cost(x)の値や、評価対象集合Xのコストcost(X)の算出方法などを設定できるようにしても構わない。   It is assumed that the setting related to the cost feature_cost (x) is defined before the start of processing by the feature selection device of this embodiment, for example, by cost setting data D2 as shown in FIG. This cost setting data D2 indicates the cost feature_cost (x) of each feature x included in the feature set. Note that the value of the cost feature_cost (x) of the feature x, the calculation method of the cost cost (X) of the evaluation target set X, and the like may be set in accordance with user input at the time of initial setting or the like.

<スコアと補正方法>
本実施例では、特徴集合に含まれる各特徴xそれぞれにスコアfeature_score(x)が設定されているものとする。スコアfeature_score(x)は、例えば図2に示した特徴ごとの猶予期間tの長さなどが挙げられる。評価対象集合Xのスコアscore(X)は、例えば下記式(5)に示すように、評価対象集合Xに含まれる各特徴xのスコアfeature_score(x)の最小値で定義されるものとする。

Figure 0006193428
<Score and correction method>
In this embodiment, it is assumed that a score feature_score (x) is set for each feature x included in the feature set. The score feature_score (x) includes, for example, the length of the grace period t for each feature shown in FIG. Assume that the score score (X) of the evaluation target set X is defined by the minimum value of the score feature_score (x) of each feature x included in the evaluation target set X, for example, as shown in the following formula (5).
Figure 0006193428

本実施例では、統合評価値merged_eval(X)を算出した後、下記式(6)に示すように、評価対象集合Xのスコアscore(X)に応じて統合評価値merged_eval(X)を補正し、補正済み評価値corrected_eval(X)を得る。

Figure 0006193428
ここで、関数f(・)は、例えば下記式(7)に示すようなものが考えられる。なお、下記式(7)のα(score(X))は、score(X)が大きいほど大きい値となる係数である。本実施例では、score(X)の値に応じたα(score(X))の値が事前に設定されているものとするが(図5参照)、score(X)とα(score(X))の関係に関して、他の任意の関数を定義してもよい。
Figure 0006193428
In this embodiment, after calculating the integrated evaluation value merged_eval (X), the integrated evaluation value merged_eval (X) is corrected according to the score score (X) of the evaluation target set X as shown in the following formula (6). Then, a corrected evaluation value corrected_eval (X) is obtained.
Figure 0006193428
Here, as the function f (•), for example, a function as shown in the following formula (7) is conceivable. Note that α (score (X)) in the following formula (7) is a coefficient that increases as the score (X) increases. In the present embodiment, it is assumed that the value of α (score (X)) corresponding to the value of score (X) is set in advance (see FIG. 5), but score (X) and α (score (X Any other function may be defined with respect to the relationship of)).
Figure 0006193428

なお、ここに示した補正の方法は一例であり、評価対象集合Xのスコアscore(X)が良い値となるほど、補正済み評価値corrected_eval(X)も良い値となるような補正方法であれば、任意の方法を用いて構わない。例えば、上記式(7)では統合評価値merged_eval(X)に評価対象集合Xのスコアscore(X)に応じた係数α(score(X))を乗じているが、評価対象集合Xのスコアscore(X)に応じた係数α(score(X))を加算する方法も考えられる。また、より複雑な関数を定義しても構わない。   The correction method shown here is merely an example, and the correction method is such that the corrected evaluation value corrected_eval (X) becomes a better value as the score score (X) of the evaluation target set X becomes a better value. Any method may be used. For example, in the above equation (7), the integrated evaluation value merged_eval (X) is multiplied by a coefficient α (score (X)) corresponding to the score score (X) of the evaluation target set X. A method of adding the coefficient α (score (X)) corresponding to (X) is also conceivable. A more complicated function may be defined.

スコアfeature_score(x)やスコアscore(X)に応じた係数α(score(X))に関する設定は、例えば図5に示すような補正設定データD3によって、本実施例の特徴選択装置による処理開始前に定義されているものとする。この補正設定データD3には、特徴集合に含まれる各特徴xそれぞれのスコアfeature_score(x)と、評価対象集合Xのスコアscore(X)の値に応じた係数α(score(X))のテーブルが示されている。なお、初期設定時などのユーザの入力に応じて、特徴xのスコアfeature_score(x)の値や、評価対象集合Xのスコアscore(X)の算出方法、補正済み評価値corrected_eval(X)の算出方法などを設定できるようにしても構わない。   The setting relating to the score feature_score (x) and the coefficient α (score (X)) corresponding to the score score (X) is set by, for example, correction setting data D3 as shown in FIG. As defined in The correction setting data D3 includes a table of the score feature_score (x) of each feature x included in the feature set and the coefficient α (score (X)) corresponding to the score score (X) of the evaluation target set X. It is shown. It should be noted that in accordance with user input at the time of initial setting or the like, the value of the score feature_score (x) of the feature x, the score score (X) of the evaluation target set X, and the corrected evaluation value corrected_eval (X) are calculated. You may enable it to set a method etc.

<装置構成>
次に、本実施例の特徴選択装置の機能的な構成について説明する。図6は、本実施例の特徴選択装置1の機能的な構成例を示すブロック図である。本実施例の特徴選択装置1は、図6に示すように、入力受付部2と、初期設定部3と、評価対象集合生成部4と、コスト評価部5と、モデル生成部6と、モデル評価部7と、評価値統合部8と、評価値補正部9と、除外損失評価部10と、暫定一位更新部11と、選択済み集合更新部12と、終了判定部13と、出力部14とを備える。
<Device configuration>
Next, a functional configuration of the feature selection device according to the present embodiment will be described. FIG. 6 is a block diagram illustrating a functional configuration example of the feature selection device 1 according to the present embodiment. As shown in FIG. 6, the feature selection device 1 of the present embodiment includes an input reception unit 2, an initial setting unit 3, an evaluation target set generation unit 4, a cost evaluation unit 5, a model generation unit 6, a model Evaluation unit 7, evaluation value integration unit 8, evaluation value correction unit 9, exclusion loss evaluation unit 10, provisional first update unit 11, selected set update unit 12, end determination unit 13, output unit 14.

入力受付部2は、初期設定のためのユーザによる入力を受け付ける。ここでは、再現率・適合率の目標値、評価対象集合Xのコストcost(X)の上限値max_cost、終了条件における特徴の最大個数と除外モード実行の最大回数を、ユーザが入力するものとする。なお、評価対象集合Xのコストcost(X)の上限値max_costについては、各特徴xのスコアfeature_score(x)のうち、最小の値未満となる値は受け付けないものとする。   The input receiving unit 2 receives an input by a user for initial setting. Here, it is assumed that the user inputs the target value of the recall rate / matching rate, the upper limit value max_cost of the cost cost (X) of the evaluation target set X, the maximum number of features and the maximum number of exclusion mode executions in the end condition. . As for the upper limit value max_cost of the cost cost (X) of the evaluation target set X, a value that is less than the minimum value among the score feature_score (x) of each feature x is not accepted.

初期設定部3は、入力受付部2が受け付けたユーザの入力内容を反映し、目標値データD4、コスト制約データD5、終了条件データD6、特徴候補データD7、選択済み集合データD8、モードデータD9の生成および初期設定を行う。   The initial setting unit 3 reflects the input contents of the user received by the input receiving unit 2, and includes target value data D4, cost constraint data D5, end condition data D6, feature candidate data D7, selected set data D8, and mode data D9. Generate and initialize.

図7は、目標値データD4の一例を示す図である。目標値データD4は、ユーザの入力に応じて、再現率・適合率の目標値を記録したデータである。図7に例示する目標値データD4は、再現率の目標値が0.9、適合率の目標値が0.4に設定されたことを示している。   FIG. 7 is a diagram illustrating an example of the target value data D4. The target value data D4 is data in which target values of the recall rate and the matching rate are recorded in accordance with user input. The target value data D4 illustrated in FIG. 7 indicates that the target value for the recall is set to 0.9 and the target value for the precision is set to 0.4.

図8は、コスト制約データD5の一例を示す図である。コスト制約データD5は、ユーザの入力に応じて、評価対象集合Xのコストcost(X)の上限値max_costを記録したデータである。図8に例示するコスト制約データD5は、上限値max_costが5.0に設定されたことを示している。   FIG. 8 is a diagram illustrating an example of the cost constraint data D5. The cost constraint data D5 is data in which the upper limit value max_cost of the cost cost (X) of the evaluation target set X is recorded in accordance with a user input. The cost constraint data D5 illustrated in FIG. 8 indicates that the upper limit value max_cost is set to 5.0.

図9は、終了条件データD6の一例を示す図である。終了条件データD6は、ユーザの入力に応じて、選択する特徴の最大個数と除外モード実行の最大回数とを記録したデータである。図9に例示する終了条件データD6は、選択する特徴の最大個数が50個、除外モード実行の最大回数が10回に設定されたことを示している。   FIG. 9 is a diagram illustrating an example of the end condition data D6. The end condition data D6 is data in which the maximum number of features to be selected and the maximum number of executions of the exclusion mode are recorded in accordance with a user input. The end condition data D6 illustrated in FIG. 9 indicates that the maximum number of features to be selected is set to 50 and the maximum number of executions of the exclusion mode is set to 10.

図10は、特徴候補データD7の一例を示す図である。特徴候補データD7は、選択の候補となる全特徴(特徴集合に含まれる全特徴)とそれらの状態を記録したデータである。図10は、選択の候補となる特徴の数(特徴集合に含まれる特徴の総数)が300個の場合の特徴候補データD7の例を示している。各特徴の状態は、「未評価」、「保留」、「評価済み」、「選択済み」、「違反」、「除外」のいずれかを取る。初期設定時には、特徴候補データD7の全特徴の状態が「未評価」に設定される。   FIG. 10 is a diagram illustrating an example of the feature candidate data D7. The feature candidate data D7 is data in which all features that are candidates for selection (all features included in the feature set) and their states are recorded. FIG. 10 shows an example of the feature candidate data D7 when the number of features that are selection candidates (total number of features included in the feature set) is 300. The state of each feature takes one of “not evaluated”, “pending”, “evaluated”, “selected”, “violation”, and “excluded”. At the initial setting, the state of all the features in the feature candidate data D7 is set to “not evaluated”.

図11は、選択済み集合データD8の一例を示す図である。選択済み集合データD8は、選択済み集合に含まれる全特徴と、選択済み集合に対して算出された補正済み評価値corrected_eval(X)と、選択済み集合に対して算出されたコストcost(X)とを記録したデータである。初期設定時には、選択済み集合データD8の選択済み集合を空集合とし、補正済み評価値corrected_eval(X)およびコストcost(X)は任意の値が設定される。   FIG. 11 is a diagram illustrating an example of the selected set data D8. The selected set data D8 includes all features included in the selected set, a corrected evaluation value corrected_eval (X) calculated for the selected set, and a cost cost (X) calculated for the selected set. Is recorded data. At the initial setting, the selected set of the selected set data D8 is an empty set, and arbitrary values are set for the corrected evaluation value corrected_eval (X) and the cost cost (X).

図12は、モードデータD9の一例を示す図である。モードデータD9は、現在のモードが追加モードと除外モードのどちらであるかを記録したデータである。初期設定時には、モードデータD9のモードは追加モードに設定される。   FIG. 12 is a diagram illustrating an example of the mode data D9. The mode data D9 is data that records whether the current mode is the addition mode or the exclusion mode. At the initial setting, the mode of the mode data D9 is set to the additional mode.

評価対象集合生成部4は、モードデータD9、特徴候補データD7および選択済み集合データD8を参照し、追加モード時であれば状態が「未評価」の特徴を選択済み集合に1つ追加、除外モード時であれば選択済み集合から、特徴候補データD7に示された状態が「評価済み」でない特徴を1つ除外することにより評価対象集合を生成する。また、追加モード時であれば追加した特徴、除外モード時であれば除外した特徴について、特徴候補データD7の状態を「保留」にする。そして、評価対象集合生成部4は、例えば図13に示すように、評価対象集合に含まれる各特徴を記録した評価対象集合データD10を生成する。このとき、評価対象集合データD10がすでに存在する場合は、そのデータを削除して新規に評価対象集合データD10を生成する。   The evaluation target set generation unit 4 refers to the mode data D9, the feature candidate data D7, and the selected set data D8, and adds or excludes one feature whose state is “unevaluated” to the selected set in the add mode. In the mode, an evaluation target set is generated by excluding one feature whose state indicated in the feature candidate data D7 is not “evaluated” from the selected set. Further, the state of the feature candidate data D7 is set to “hold” for the added feature in the addition mode and the excluded feature in the exclusion mode. Then, the evaluation target set generation unit 4 generates evaluation target set data D10 in which each feature included in the evaluation target set is recorded, for example, as shown in FIG. At this time, if the evaluation target set data D10 already exists, the data is deleted and new evaluation target set data D10 is generated.

コスト評価部5は、評価対象集合生成部4が生成した評価対象集合のコストcost(X)を算出し、算出したコストcost(X)が上限値max_costを超えていないかを判定する。図14は、コスト評価部5の処理とデータとの関係を示す図である。図中のReferはデータの参照を意味し、Createはデータの生成を意味し、Updateはデータの更新を意味する。   The cost evaluation unit 5 calculates the cost cost (X) of the evaluation target set generated by the evaluation target set generation unit 4 and determines whether the calculated cost cost (X) exceeds the upper limit value max_cost. FIG. 14 is a diagram illustrating a relationship between the process of the cost evaluation unit 5 and data. In the figure, Refer means data reference, Create means data generation, and Update means data update.

コスト評価部5は、まず、評価対象集合データD10とコスト設定データD2を参照し、評価対象集合生成部4が生成した評価対象集合のコストcost(X)を上記式(3)により算出する。次に、コスト評価部5は、コスト制約データD5を参照し、算出した評価対象集合のコストcost(X)が上限値max_costを超えていないかを判定する。この判定の結果、評価対象集合のコストcost(X)が上限値max_costを超えていなければ、コスト評価部5は、特徴候補データD7を参照して、状態が「保留」となっている特徴の状態を「評価済み」に更新する。そして、例えば図15に示すように、評価対象集合のコストcost(X)を記録したコストデータD11を生成する。このとき、コストデータD11がすでに存在する場合は、そのデータを削除して新規にコストデータD11を生成する。   First, the cost evaluation unit 5 refers to the evaluation target set data D10 and the cost setting data D2, and calculates the cost cost (X) of the evaluation target set generated by the evaluation target set generation unit 4 by the above formula (3). Next, the cost evaluation unit 5 refers to the cost constraint data D5, and determines whether or not the calculated cost cost (X) of the evaluation target set exceeds the upper limit value max_cost. As a result of this determination, if the cost cost (X) of the set to be evaluated does not exceed the upper limit value max_cost, the cost evaluation unit 5 refers to the feature candidate data D7 and selects the feature whose state is “pending”. Update the status to “evaluated”. Then, for example, as shown in FIG. 15, cost data D11 in which the cost cost (X) of the evaluation target set is recorded is generated. At this time, if the cost data D11 already exists, the data is deleted and new cost data D11 is generated.

一方、評価対象集合のコストcost(X)が上限値max_costを超えた場合は、コスト評価部5は、特徴候補データD7を参照して、状態が「保留」の特徴の状態を「違反」に更新する。このとき、特徴候補データD7の特徴の状態が全て「選択済み」か「違反」か「除外」となった場合、コスト評価部5は、モードデータD9を除外モードに更新する。   On the other hand, when the cost cost (X) of the set to be evaluated exceeds the upper limit value max_cost, the cost evaluation unit 5 refers to the feature candidate data D7 and changes the state of the feature whose state is “pending” to “violation”. Update. At this time, if all the feature states of the feature candidate data D7 are “selected”, “violation”, or “exclusion”, the cost evaluation unit 5 updates the mode data D9 to the exclusion mode.

モデル生成部6は、評価対象集合データD10と学習データセット(データセットD1)を参照し、評価対象集合データD10に記録された特徴のみを使ってモデル生成を行う。そして、モデル生成部6は、生成したモデルのルール、パラメータなどを表すモデルデータD12を生成する。このとき、モデルデータD12がすでに存在する場合は、そのデータを削除して新規にモデルデータD12を生成する。図16は、モデルデータD12の一例を示す図である。この図16に例示するモデルデータD12は、線形判別器を用いたときのモデルデータの例であり、各特徴に対する重みwとバイアスbを記録している。   The model generation unit 6 refers to the evaluation target set data D10 and the learning data set (data set D1), and generates a model using only the features recorded in the evaluation target set data D10. And the model production | generation part 6 produces | generates the model data D12 showing the rule, parameter, etc. of the produced | generated model. At this time, if the model data D12 already exists, the data is deleted and new model data D12 is generated. FIG. 16 is a diagram illustrating an example of the model data D12. The model data D12 illustrated in FIG. 16 is an example of model data when a linear discriminator is used, and the weight w and the bias b for each feature are recorded.

モデル評価部7は、評価対象集合データD10、モデルデータD12および評価用データセット(データセットD1)を参照し、評価対象集合データD10に記録された特徴のみを使って、モデル生成部6が生成したモデルの再現率を上記式(1)、適合率を上記式(2)により算出する。そして、モデル評価部7は、算出した再現率と適合率とを評価値として記録した評価値データD13を生成する。このとき、評価値データD13がすでに存在する場合は、そのデータを削除して新規に評価値データD13を生成する。図17は、評価値データD13の一例を示す図である。図17に例示する評価値データD13は、算出した再現率の評価値が0.6、適合率の評価値が0.3であったことを示している。   The model evaluation unit 7 refers to the evaluation target set data D10, the model data D12, and the evaluation data set (data set D1), and the model generation unit 6 generates only the features recorded in the evaluation target set data D10. The reproducibility of the model is calculated by the above equation (1), and the precision is calculated by the above equation (2). And the model evaluation part 7 produces | generates the evaluation value data D13 which recorded the calculated reproduction rate and the precision as an evaluation value. At this time, if the evaluation value data D13 already exists, the data is deleted and new evaluation value data D13 is generated. FIG. 17 is a diagram illustrating an example of the evaluation value data D13. The evaluation value data D13 illustrated in FIG. 17 indicates that the calculated evaluation value of the reproduction rate is 0.6 and the evaluation value of the matching rate is 0.3.

評価値統合部8は、複数の評価指標である再現率と適合率のそれぞれについて、モデル評価部7が算出した評価値の目標値に対する達成度を算出し、これら再現率の達成度および適合率の達成度に基づいて、統合評価値を算出する。図18は、評価値統合部8の処理とデータとの関係を示す図である。図中のReferはデータの参照を意味し、Createはデータの生成を意味する。   The evaluation value integration unit 8 calculates a degree of achievement of the evaluation value calculated by the model evaluation unit 7 with respect to the target value for each of a plurality of evaluation indexes, ie, a reproduction rate and a relevance rate. An integrated evaluation value is calculated based on the degree of achievement. FIG. 18 is a diagram illustrating a relationship between the process of the evaluation value integration unit 8 and data. Refer in the figure means data reference, and Create means data generation.

評価値統合部8は、まず、評価値データD13と目標値データD4を参照し、下記式(8)により再現率の達成度(再現率達成度)、下記式(9)により適合率の達成度(適合率達成度)をそれぞれ算出する。

Figure 0006193428
Figure 0006193428
なお、本実施例では、値が大きいほど高い評価となる再現率および適合率を評価指標として扱うため、目標値に対する評価値の達成度を上記のように定義できる。平均二乗誤差のように、値が小さいほど高い評価となる評価指標を扱う場合は、分子・分母を反転して(評価値を分母、目標値を分子とする)目標値に対する評価値の達成度を定義すればよい。 The evaluation value integration unit 8 first refers to the evaluation value data D13 and the target value data D4, achieves the achievement rate of reproduction rate (reproduction rate achievement rate) by the following equation (8), and achieves the precision rate by the following equation (9). Each degree (accomplishment rate achievement) is calculated.
Figure 0006193428
Figure 0006193428
In the present embodiment, the higher the value, the higher the reproduction rate and the matching rate, which are treated as evaluation indexes, so that the degree of achievement of the evaluation value with respect to the target value can be defined as described above. When dealing with an evaluation index that becomes higher as the value is smaller, such as the mean square error, the degree of achievement of the evaluation value for the target value by inverting the numerator and denominator (with the evaluation value as the denominator and the target value as the numerator) Should be defined.

ここで、上記式(8)および上記式(9)をそのまま用いると、再現率達成度と適合率達成度の一方が1.0を大幅に超える場合に、他方の達成度が非常に小さくても、統合評価値が高い値になってしまう場合がある。そこで、再現率達成度を下記式(10)、適合率達成度を下記式(11)のように変換し、変換後再現率達成度および変換後適合率達成度を求めて、変換後再現率達成度および変換後適合率達成度を用いて統合評価値を算出することが望ましい。

Figure 0006193428
Figure 0006193428
上記式(10)のαと上記式(11)のαをともに1.0より小さい正の値(例えば0.1など)にすることで、変換後再現率達成度および変換後適合率達成度が1.0を大幅に超えないようにでき、上記の問題を防ぐことができる。これらαとαの値は予め定められているものとするが、初期設定時にユーザの入力に応じて設定してもよい。 Here, when the above formula (8) and the above formula (9) are used as they are, when one of the achievement rate of the recall rate and the achievement rate of the matching rate greatly exceeds 1.0, the achievement level of the other is very small. However, the integrated evaluation value may become a high value. Therefore, the reproduction rate achievement is converted as shown in the following equation (10), and the accuracy rate achievement is converted as shown in the following equation (11). It is desirable to calculate the integrated evaluation value by using the achievement level and the conversion rate achievement level after conversion.
Figure 0006193428
Figure 0006193428
By making α r in the above formula (10) and α p in the above formula (11) both positive values smaller than 1.0 (for example, 0.1, etc.), the post-conversion recall achievement rate and the post-conversion precision The achievement level can be made not to greatly exceed 1.0, and the above problem can be prevented. The values of these alpha r and alpha p are assumed to be predetermined, but may be set in accordance with at initialization to user input.

次に、評価値統合部8は、変換後再現率達成度と変換後適合率達成度を用いて、下記式(12)により、統合評価値merged_eval(X)を算出する。

Figure 0006193428
そして、評価値統合部8は、算出した統合評価値merged_eval(X)を記録した統合評価値データD14を生成する。このとき、統合評価値データD14がすでに存在する場合は、そのデータを削除して新規に統合評価値データD14を生成する。図19は、統合評価値データD14の一例を示す図である。図19に例示する統合評価値データD14は、算出した統合評価値merged_eval(X)が0.706であったことを示している。 Next, the evaluation value integration unit 8 calculates the integrated evaluation value merged_eval (X) by the following equation (12) using the post-conversion recall rate achievement and the post-conversion precision achievement.
Figure 0006193428
Then, the evaluation value integration unit 8 generates integrated evaluation value data D14 in which the calculated integrated evaluation value merged_eval (X) is recorded. At this time, if the integrated evaluation value data D14 already exists, the integrated evaluation value data D14 is newly generated by deleting the data. FIG. 19 is a diagram illustrating an example of the integrated evaluation value data D14. The integrated evaluation value data D14 illustrated in FIG. 19 indicates that the calculated integrated evaluation value merged_eval (X) is 0.706.

上記式(12)で算出される統合評価値merged_eval(X)は、変換後再現率達成度と変換後適合率達成度との調和平均となっている。すなわち、これら変換後再現率達成度と変換後適合率達成度の両者の値が大きく、かつ類似した値となっているときに、統合評価値merged_eval(X)は大きな値を取る。この統合評価値merged_eval(X)が高くなる(大きな値を取る)ように部分集合の選択を行っていくことで、再現率と適合率それぞれの目標値をできるだけ達成し、かつ達成度のばらつきが少ない(バランスが良い)モデルが得られることになる。   The integrated evaluation value merged_eval (X) calculated by the above equation (12) is a harmonic average of the degree of achievement of the conversion rate after conversion and the degree of achievement of the conversion rate after conversion. That is, the integrated evaluation value merged_eval (X) takes a large value when both the post-conversion recall rate achievement level and the post-conversion precision rate achievement level are large and similar values. By selecting subsets so that this integrated evaluation value merged_eval (X) becomes high (takes a large value), the target values of the recall and precision rates can be achieved as much as possible, and the variation in achievement level is A small (balanced) model will be obtained.

評価値補正部9は、評価対象集合生成部4が生成した評価対象集合のスコアscore(X)を算出し、このスコアscore(X)が高いほど高評価となるように、評価値統合部8が算出した統合評価値merged_eval(X)を補正する。図20は、評価値補正部9の処理とデータとの関係を示す図である。図中のReferはデータの参照を意味し、Createはデータの生成を意味する。   The evaluation value correction unit 9 calculates the score score (X) of the evaluation target set generated by the evaluation target set generation unit 4, and the evaluation value integration unit 8 so that the higher the score score (X), the higher the evaluation. The integrated evaluation value merged_eval (X) calculated by is corrected. FIG. 20 is a diagram illustrating a relationship between the process of the evaluation value correction unit 9 and data. Refer in the figure means data reference, and Create means data generation.

評価値補正部9は、まず、評価対象集合データD10と補正設定データD3を参照し、評価対象集合生成部4が生成した評価対象集合のスコアscore(X)を上記式(5)により算出する。次に、評価値補正部9は、統合評価値データD14と補正設定データD3を参照し、上記式(6)および式(7)により、統合評価値merged_eval(X)をスコアscore(X)に応じて補正した補正済み評価値corrected_eval(X)を算出する。そして、評価値補正部9は、算出した補正済み評価値corrected_eval(X)を記録した補正済み評価値データD15を生成する。このとき、補正済み評価値データD15がすでに存在する場合は、そのデータを削除して新規に補正済み評価値データD15を生成する。図21は、補正済み評価値データD15の一例を示す図である。図21に例示する補正済み評価値データD15は、算出した補正済み評価値corrected_eval(X)が0.776であったことを示している。   First, the evaluation value correction unit 9 refers to the evaluation target set data D10 and the correction setting data D3, and calculates the score score (X) of the evaluation target set generated by the evaluation target set generation unit 4 by the above formula (5). . Next, the evaluation value correction unit 9 refers to the integrated evaluation value data D14 and the correction setting data D3, and converts the integrated evaluation value merged_eval (X) into the score score (X) by the above formulas (6) and (7). A corrected evaluation value corrected_eval (X) corrected accordingly is calculated. Then, the evaluation value correction unit 9 generates corrected evaluation value data D15 in which the calculated corrected evaluation value corrected_eval (X) is recorded. At this time, if the corrected evaluation value data D15 already exists, the data is deleted and new corrected evaluation value data D15 is generated. FIG. 21 is a diagram illustrating an example of the corrected evaluation value data D15. The corrected evaluation value data D15 illustrated in FIG. 21 indicates that the calculated corrected evaluation value corrected_eval (X) is 0.776.

除外損失評価部10は、除外モード時に、選択済み集合から1つの特徴を除外したときのコストcost(X)の低下と、モデルの性能の低下との比率を示す除外損失を、除外する特徴ごとに算出する。図22は、除外損失評価部10の処理とデータとの関係を示す図である。図中のReferはデータの参照を意味し、Createはデータの生成を意味する。   The exclusion loss evaluation unit 10 excludes an exclusion loss indicating a ratio between a decrease in cost cost (X) and a decrease in model performance when one feature is excluded from the selected set in the exclusion mode. To calculate. FIG. 22 is a diagram illustrating a relationship between the processing of the exclusion loss evaluation unit 10 and data. Refer in the figure means data reference, and Create means data generation.

除外損失評価部10は、モードデータD9、選択済み集合データD8、補正済み評価値データD15およびコストデータD11を参照し、除外モード時に除外損失を算出する。具体的には、除外損失評価部10は、選択済み集合データD8に記録された選択済み集合 Xの補正済み評価値corrected_eval(X)およびコストcost(X)と、補正済み評価値データD15に記録された評価対象集合Xの補正済み評価値corrected_eval(X)およびコストデータD11に記録されたコストcost(X)とを用い、下記式(13)により、除外損失を算出する。

Figure 0006193428
The exclusion loss evaluation unit 10 refers to the mode data D9, the selected set data D8, the corrected evaluation value data D15, and the cost data D11, and calculates an exclusion loss in the exclusion mode. Specifically, the excluded loss evaluation unit 10 corrects the corrected evaluation value corrected_eval (X s ) and the cost cost (X s ) of the selected set X s recorded in the selected set data D8, and the corrected evaluation value data. Using the corrected evaluation value corrected_eval (X) of the evaluation target set X recorded in D15 and the cost cost (X) recorded in the cost data D11, the exclusion loss is calculated by the following equation (13).
Figure 0006193428

そして、除外損失評価部10は、評価対象集合Xの補正済み評価値corrected_eval(X)、コストcost(X)および上記式(13)で算出した除外損失を記録した最終評価データD16を生成する。図23は、最終評価データD16の一例を示す図である。図23に例示する最終評価データD16は、算出した除外損失が0.0021であったことを示している。なお、追加モード時においては、除外損失の値は使用されないため、除外損失として任意の値を記録した最終評価データD16を生成すればよい。   Then, the excluded loss evaluation unit 10 generates final evaluation data D16 in which the corrected evaluation value corrected_eval (X) of the evaluation target set X, the cost cost (X), and the excluded loss calculated by the above equation (13) are recorded. FIG. 23 is a diagram illustrating an example of the final evaluation data D16. The final evaluation data D16 illustrated in FIG. 23 indicates that the calculated exclusion loss is 0.0021. In addition, since the value of the exclusion loss is not used in the addition mode, the final evaluation data D16 in which an arbitrary value is recorded as the exclusion loss may be generated.

暫定一位更新部11は、モードデータD9、最終評価データD16および暫定一位データD17を参照し、追加モード時であれば暫定一位データD17よりも最終評価データD16の方に記録された補正済み評価値corrected_eval(X)の方が高い場合、除外モード時であれば暫定一位データD17よりも最終評価データD16に記録された除外損失の方が小さい場合に、暫定一位データD17を更新する。   The temporary first update unit 11 refers to the mode data D9, the final evaluation data D16, and the temporary first data D17, and in the addition mode, the correction recorded in the final evaluation data D16 rather than the temporary first data D17. When the already evaluated value corrected_eval (X) is higher, the provisional first data D17 is updated when the exclusion loss recorded in the final evaluation data D16 is smaller than the provisional first data D17 in the exclusion mode. To do.

図24は、暫定一位データD17の一例を示す図である。図24に示すように、暫定一位データD17には、評価値が暫定的に一位の評価対象集合Xと、その評価対象集合Xの補正済み評価値corrected_eval(X)、コストcost(X)および除外損失が記録されている。なお、暫定一位データD17が存在しない場合、暫定一位更新部11は暫定一位データD17を新規に生成し、そのときの評価対象集合Xと、最終評価データD16に記録されている補正済み評価値corrected_eval(X)、コストcost(X)および除外損失を暫定一位データD17に記録する。   FIG. 24 is a diagram illustrating an example of the provisional first place data D17. As shown in FIG. 24, the temporary first-rank data D17 includes an evaluation object set X whose provisional value is temporarily first, a corrected evaluation value corrected_eval (X) of the evaluation object set X, and a cost cost (X). And excluded losses are recorded. If the provisional first place data D17 does not exist, the provisional first place update unit 11 newly generates the provisional first place data D17, and has been corrected recorded in the evaluation target set X and the final evaluation data D16 at that time. The evaluation value corrected_eval (X), the cost cost (X), and the exclusion loss are recorded in the temporary first place data D17.

選択済み集合更新部12は、モードデータD9、選択済み集合データD8および特徴候補データD7を参照し、追加モード時であれば、まず、状態が「未評価」の特徴があるかどうかを確認する。そして、状態が「未評価」の特徴が存在しない場合、選択済み集合更新部12は、暫定一位データD17に記録された評価対象集合X、補正済み評価値corrected_eval(X)およびコストcost(X)で選択済み集合データD8を更新し、暫定一位データD17を削除する。また、選択済み集合更新部12は、特徴候補データD7の各特徴の状態を以下のように更新する。
I.選択済み集合データD8に含まれる特徴:状態を「選択済み」にする。
II.状態が「除外」の特徴:そのままにする。
III.その他の状態の特徴:状態を「未評価」にする。
The selected set update unit 12 refers to the mode data D9, the selected set data D8, and the feature candidate data D7, and first checks whether there is a feature whose state is “unevaluated” in the add mode. . Then, when there is no feature whose state is “unevaluated”, the selected set update unit 12 sets the evaluation target set X, the corrected evaluation value corrected_eval (X), and the cost cost (X) recorded in the temporary first-rank data D17. ), The selected set data D8 is updated, and the provisional first data D17 is deleted. In addition, the selected set update unit 12 updates the state of each feature of the feature candidate data D7 as follows.
I. Features included in the selected set data D8: The state is set to “selected”.
II. Features with status “excluded”: Leave as is.
III. Other state characteristics: The state is set to “not evaluated”.

さらに、選択済み集合更新部12は、最良集合データD18を参照し、更新後の選択済み集合データD8の補正済み評価値corrected_eval(X)が、最良集合データD18に記録された補正済み評価値corrected_eval(X)よりも高ければ、選択済み集合データD8の内容で最良集合データD18を更新する。   Further, the selected set update unit 12 refers to the best set data D18, and the corrected evaluation value corrected_eval (X) of the updated selected set data D8 is corrected corrected evaluation value corrected_eval recorded in the best set data D18. If it is higher than (X), the best set data D18 is updated with the contents of the selected set data D8.

図25は、最良集合データD18の一例を示す図である。図25に示すように、最良集合データD18には、その時点で評価が最も高い部分集合である最良集合と、その最良集合の補正済み評価値corrected_eval(X)およびコストcost(X)が記録されている。なお、最良集合データD18が存在しない場合、選択済み集合更新部12は、最良集合データD18を新規に生成し、選択済み集合データD8に記録されている内容を最良集合データD18に記録する。   FIG. 25 is a diagram illustrating an example of the best set data D18. As shown in FIG. 25, in the best set data D18, the best set that is the subset with the highest evaluation at that time, the corrected evaluation value corrected_eval (X) and the cost cost (X) of the best set are recorded. ing. When the best set data D18 does not exist, the selected set update unit 12 newly generates the best set data D18 and records the contents recorded in the selected set data D8 in the best set data D18.

また、除外モード時であれば、選択済み集合更新部12は、まず、選択済み集合Xsの中に状態が「評価済み」でない特徴があるかどうかを確認する。そして、状態が「評価済み」でない特徴が存在しない場合、選択済み集合更新部12は、選択済み集合データD8と暫定一位データD17を参照し、選択済み集合データD8に存在し暫定一位データD17に存在しない特徴を特定する。そして、その特徴について特徴候補データD7中の状態を「除外」にし、暫定一位データD17を削除する。   In the exclusion mode, the selected set update unit 12 first checks whether there is a feature whose state is not “evaluated” in the selected set Xs. When there is no feature whose state is not “evaluated”, the selected set update unit 12 refers to the selected set data D8 and the provisional first-order data D17, and exists in the selected set data D8 and the provisional first-order data. A feature that does not exist in D17 is specified. Then, the state in the feature candidate data D7 for the feature is set to “excluded”, and the temporary first-order data D17 is deleted.

その後、選択済み集合更新部12は、追加モード時と同様に、選択済み集合データD8、最良集合データD18の更新を行う。また、選択済み集合更新部12は、追加モード時と同様に、上記のI.からIII.に従って特徴候補データD7の各特徴の状態を更新する。   Thereafter, the selected set update unit 12 updates the selected set data D8 and the best set data D18 as in the addition mode. In addition, the selected set update unit 12 performs the above-described I.D. To III. The state of each feature in the feature candidate data D7 is updated according to the above.

終了判定部13は、モードデータD9、選択済み集合データD8および終了条件データD6を参照し、追加モード時であれば、選択済み集合Xに含まれる特徴の個数が終了条件データD6に記録された最大個数に達すると、出力部14に対して最良集合データD18に記録されたデータの出力を指示して、特徴選択装置1の処理を終了させる。 End determining unit 13, mode data D9, with reference to the selected set data D8 and end condition data D6, if additional mode, the number of features included in the selected set X s is recorded in the termination condition data D6 When the maximum number is reached, the output unit 14 is instructed to output the data recorded in the best set data D18, and the process of the feature selection device 1 is terminated.

また、除外モード時であれば、終了判定部13は、除外モードの実行回数をカウントしておき、カウントした除外モードの実行回数が終了条件データD6に記録された除外モード実行の最大回数に達すると、出力部14に対して最良集合データD18に記録されたデータの出力を指示して、特徴選択装置1の処理を終了させる。   In the exclusion mode, the end determination unit 13 counts the number of executions of the exclusion mode, and the counted number of executions of the exclusion mode reaches the maximum number of executions of the exclusion mode recorded in the end condition data D6. Then, the output unit 14 is instructed to output the data recorded in the best set data D18, and the process of the feature selection device 1 is ended.

出力部14は、終了判定部13からの指示に従って、最良集合データD18に記録されたデータを出力する。出力部14によるデータの出力は、例えば、表示装置による表示、外部記憶装置へのデータ格納、外部装置へのデータ送信のいずれかまたは組み合わせにより実施することができる。なお、最良集合データD18に記録したデータ以外を出力する場合には、別途それらを保持しておくように処理を追加すればよい。   The output unit 14 outputs the data recorded in the best set data D18 in accordance with the instruction from the end determination unit 13. Data output by the output unit 14 can be performed by any one or combination of display by a display device, data storage in an external storage device, and data transmission to an external device, for example. When data other than the data recorded in the best set data D18 is output, processing may be added so as to hold them separately.

<動作説明>
次に、本実施例の特徴選択装置1の動作を説明する。本実施例の特徴選択装置1は、まず初めにユーザの入力に応じて各種初期設定を行った後、選択済み集合に特徴を追加する追加モードと、選択済み集合から特徴を除外する除外モードとを切り替えながら処理を行っていく。基本は追加モードで動作するが、上記式(4)で示した制約条件を満たすことができなくなった場合、除外モードに移行する。そして、選択済み集合から一定個数(本実施例では1つ)の特徴が除外されると、また追加モードの処理に移行する。以下、追加モード時の処理と除外モード時の処理とに分けて、それぞれの処理手順の一例をフローチャートに沿って説明する。
<Description of operation>
Next, the operation of the feature selection device 1 of this embodiment will be described. The feature selection apparatus 1 according to the present embodiment first performs various initial settings in accordance with a user input, and then adds an addition mode for adding features to the selected set, and an exclusion mode for excluding features from the selected set. Processing is performed while switching. Basically, it operates in the addition mode, but when it becomes impossible to satisfy the constraint condition shown in the above equation (4), the mode shifts to the exclusion mode. When a certain number of features (one in this embodiment) is excluded from the selected set, the process proceeds to the additional mode. Hereinafter, an example of each processing procedure will be described according to a flowchart, divided into processing in the addition mode and processing in the exclusion mode.

まず、追加モード時の処理手順を説明する。図26−1および図26−2は、追加モード時における特徴選択装置1の処理手順の一例を示すフローチャートである。追加モードは、選択済み集合に特徴を追加するループを繰り返す、本実施例の特徴選択装置1の基本となるモードである。   First, a processing procedure in the addition mode will be described. FIGS. 26A and 26B are flowcharts illustrating an example of a processing procedure of the feature selection device 1 in the addition mode. The addition mode is a mode that is a basis of the feature selection device 1 of the present embodiment, in which a loop for adding features to a selected set is repeated.

ステップS101:追加モードによる処理が開始されると、まず、評価対象集合生成部4が、モードデータD9を確認する。そして、モードデータD9が示す現在のモードが追加モードでれば、次のステップS102に進み、除外モードであれば、後述の除外モードの処理に移行する。   Step S101: When the processing in the addition mode is started, first, the evaluation target set generation unit 4 confirms the mode data D9. If the current mode indicated by the mode data D9 is the addition mode, the process proceeds to the next step S102. If the current mode is the exclusion mode, the process proceeds to the exclusion mode described later.

ステップS102:評価対象集合生成部4は、特徴候補データD7を参照し、状態が「未評価」の特徴があるかどうかを確認する。そして、「未評価」の特徴があれば(ステップS102:Yes)、次のステップS103に進み、「未評価」の特徴がなければ(ステップS102:No)、ステップS115に処理を移行する。   Step S102: The evaluation target set generation unit 4 refers to the feature candidate data D7 and confirms whether or not there is a feature whose state is “not evaluated”. If there is a feature “not evaluated” (step S102: Yes), the process proceeds to the next step S103. If there is no feature “not evaluated” (step S102: No), the process proceeds to step S115.

ステップS103:評価対象集合生成部4は、選択済み集合データD8と特徴候補データD7を参照し、特徴候補データD7に含まれる特徴の中で状態が「未評価」の特徴を選択済み集合に1つ追加した評価対象集合Xを生成する。そして、評価対象集合生成部4は、この評価対象集合Xに含まれる特徴を記録した評価対象集合データD10を生成し、特徴候補データD7の中の追加した特徴の状態を「保留」に更新して、次のステップS104に進む。   Step S103: The evaluation target set generation unit 4 refers to the selected set data D8 and the feature candidate data D7, and among the features included in the feature candidate data D7, the feature whose state is “unevaluated” is set to 1 in the selected set. The evaluation target set X added is generated. Then, the evaluation target set generation unit 4 generates evaluation target set data D10 in which the features included in the evaluation target set X are recorded, and updates the state of the added features in the feature candidate data D7 to “pending”. Then, the process proceeds to the next step S104.

ステップS104:コスト評価部5が、評価対象集合データD10とコスト設定データD2を参照し、ステップS103で生成された評価対象集合Xのコストcost(X)を上記式(3)により算出して、次のステップS105に進む。   Step S104: The cost evaluation unit 5 refers to the evaluation target set data D10 and the cost setting data D2, calculates the cost cost (X) of the evaluation target set X generated in step S103 by the above formula (3), Proceed to the next Step S105.

ステップS105:コスト評価部5は、コスト制約データD5を参照し、上記式(4)により、ステップS104で算出したコストcost(X)が制約条件を満たすか否かを判定する。そして、ステップS104で算出したコストcost(X)が制約条件を満たす場合(ステップS105:Yes)、コスト評価部5は、ステップS104で算出したコストcost(X)を記録したコストデータD11を生成し、ステップS103で状態が「保留」とされた特徴の状態を「評価済み」に更新して、次のステップS106に進む。一方、ステップS104で算出したコストcost(X)が制約条件を満たさない場合は(ステップS105:No)、ステップS103で状態が「保留」とされた特徴の状態を「違反」に更新して、ステップS113に処理を移行する。   Step S105: The cost evaluation unit 5 refers to the cost constraint data D5 and determines whether or not the cost cost (X) calculated in step S104 satisfies the constraint condition according to the above equation (4). If the cost cost (X) calculated in step S104 satisfies the constraint condition (step S105: Yes), the cost evaluation unit 5 generates cost data D11 in which the cost cost (X) calculated in step S104 is recorded. Then, the state of the feature whose state is “pending” in step S103 is updated to “evaluated”, and the process proceeds to the next step S106. On the other hand, when the cost cost (X) calculated in step S104 does not satisfy the constraint condition (step S105: No), the state of the feature whose state is “pending” in step S103 is updated to “violation”. The process proceeds to step S113.

ステップS106:モデル生成部6が、評価対象集合データD10と学習データセット(データセットD1)を参照し、学習データセットに含まれる各サンプルの評価対象集合データD10に含まれる特徴のみを使用した機械学習によりモデルを生成する。そして、モデル生成部6は、生成したモデルのルールやパラメータなどを表すモデルデータD12を生成し、次のステップS107に進む。   Step S106: The model generation unit 6 refers to the evaluation target set data D10 and the learning data set (data set D1), and uses only the features included in the evaluation target set data D10 of each sample included in the learning data set. A model is generated by learning. And the model production | generation part 6 produces | generates the model data D12 showing the rule, parameter, etc. of the produced | generated model, and progresses to the following step S107.

ステップS107:モデル評価部7が、評価対象集合データD10、モデルデータD12および評価用データセット(データセットD1)を参照し、評価用データセットに含まれる各サンプルの評価対象集合データD10に含まれる特徴のみを使用したモデル評価を実施して、上記式(1)および式(2)により、ステップS106で生成されたモデルの評価値(再現率・適合率)を算出する。そして、モデル評価部7は、算出した再現率・適合率を記録した評価値データD13を生成し、次のステップS108に進む。   Step S107: The model evaluation unit 7 refers to the evaluation target set data D10, the model data D12, and the evaluation data set (data set D1), and is included in the evaluation target set data D10 of each sample included in the evaluation data set. Model evaluation using only features is performed, and the evaluation value (reproducibility / matching rate) of the model generated in step S106 is calculated by the above formulas (1) and (2). And the model evaluation part 7 produces | generates the evaluation value data D13 which recorded the calculated reproduction rate and the precision, and progresses to the following step S108.

ステップS108:評価値統合部8が、評価値データD13と目標値データD4を参照し、上記式(8)および式(9)により、再現率達成度および適合率達成度を算出する。また、評価値統合部8は、上記式(10)および式(11)により、変換後再現率達成度および変換後適合率達成度を算出し、上記式(12)により、統合評価値merged_eval(X)を算出する。そして、評価値統合部8は、算出した統合評価値merged_eval(X)を記録した統合評価値データD14を生成し、次のステップS109に進む。   Step S108: The evaluation value integration unit 8 refers to the evaluation value data D13 and the target value data D4, and calculates the achievement rate and the achievement rate of the relevance rate by the above formulas (8) and (9). Further, the evaluation value integration unit 8 calculates the post-conversion recall rate achievement and the post-conversion precision achievement by the above formulas (10) and (11), and the integrated evaluation value merged_eval ( X) is calculated. Then, the evaluation value integration unit 8 generates integrated evaluation value data D14 in which the calculated integrated evaluation value merged_eval (X) is recorded, and the process proceeds to the next step S109.

ステップS109:評価値補正部9が、評価対象集合データD10と補正設定データD3を参照し、上記式(5)により、ステップS103で生成された評価対象集合Xのスコアscore(X)を算出する。また、評価値補正部9は、統合評価値データD14と補正設定データD3を参照し、統合評価値merged_eval(X)とα(score(X))をもとに、上記式(6)および式(7)により、補正済み評価値corrected_eval(X)を算出する。そして、評価値補正部9は、算出した補正済み評価値corrected_eval(X)を記録した補正済み評価値データD15を生成し、次のステップS110に進む。   Step S109: The evaluation value correction unit 9 refers to the evaluation target set data D10 and the correction setting data D3, and calculates the score score (X) of the evaluation target set X generated in step S103 by the above equation (5). . Further, the evaluation value correction unit 9 refers to the integrated evaluation value data D14 and the correction setting data D3, and based on the integrated evaluation values merged_eval (X) and α (score (X)), the above equation (6) and the equation From (7), a corrected evaluation value corrected_eval (X) is calculated. Then, the evaluation value correction unit 9 generates corrected evaluation value data D15 in which the calculated corrected evaluation value corrected_eval (X) is recorded, and proceeds to the next step S110.

ステップS110:除外損失評価部10が、補正済み評価値データD15とコストデータD11を参照し、補正済み評価値corrected_eval(X)、コストcost(X)、除外損失を記録した最終評価データD16を生成し、次のステップS111に進む。なお、追加モードでは、除外損失には任意の値が記録される。   Step S110: The excluded loss evaluation unit 10 refers to the corrected evaluation value data D15 and the cost data D11, and generates final evaluation data D16 in which the corrected evaluation value corrected_eval (X), the cost cost (X), and the exclusion loss are recorded. Then, the process proceeds to the next step S111. In addition, in the addition mode, an arbitrary value is recorded as the exclusion loss.

ステップS111:暫定一位更新部11が、最終評価データD16と暫定一位データD17を参照し、最終評価データD16の方が暫定一位データD17よりも、補正済み評価値corrected_eval(X)が高くなっているか否かを判定する。そして、最終評価データD16に記録された補正済み評価値corrected_eval(X)が暫定一位データD17よりも高ければ(ステップS111:Yes)、次のステップS112に進み、最終評価データD16に記録された補正済み評価値corrected_eval(X)が暫定一位データD17よりも低ければ(ステップS111:No)、ステップS101に戻って以降の処理を繰り返す。   Step S111: The provisional first place update unit 11 refers to the final evaluation data D16 and the provisional first place data D17, and the final evaluation data D16 has a corrected evaluation value corrected_eval (X) higher than the provisional first place data D17. It is determined whether or not. If the corrected evaluation value corrected_eval (X) recorded in the final evaluation data D16 is higher than the temporary first-order data D17 (step S111: Yes), the process proceeds to the next step S112, and is recorded in the final evaluation data D16. If the corrected evaluation value corrected_eval (X) is lower than the temporary first-order data D17 (step S111: No), the process returns to step S101 and the subsequent processing is repeated.

ステップS112:暫定一位更新部11は、評価対象集合データD10に記録された評価対象集合Xと、最終評価データD16に記録された補正済み評価値corrected_eval(X)、コストcost(X)および除外損失とにより、暫定一位データD17を更新する。そして、ステップS101に戻って以降の処理を繰り返す。   Step S112: The temporary first-rank update unit 11 evaluates the evaluation target set X recorded in the evaluation target set data D10, the corrected evaluation value corrected_eval (X), the cost cost (X), and the exclusion recorded in the final evaluation data D16. The provisional first place data D17 is updated according to the loss. And it returns to step S101 and repeats the subsequent processes.

ステップS113:コスト評価部5は、ステップS104で算出したコストcost(X)が制約条件を満たさない場合(ステップS105:No)、制約条件を満たす評価対象集合をもう生成できないかどうかを確認する。すなわち、コスト評価部5は、特徴候補データD7に含まれる特徴の状態が全て「選択済み」、「違反」、「除外」のいずれかとなった場合は、制約条件を満たす評価対象集合を生成できないと判断し(ステップS113:Yes)、次のステップS114に進む。一方、制約条件を満たす評価対象集合を生成できる可能性があれば(ステップS105:No)、ステップS101に戻って以降の処理を繰り返す。   Step S113: If the cost cost (X) calculated in step S104 does not satisfy the constraint condition (No in step S105), the cost evaluation unit 5 checks whether or not an evaluation target set that satisfies the constraint condition can be generated anymore. That is, the cost evaluation unit 5 cannot generate an evaluation target set that satisfies the constraint condition when all of the feature states included in the feature candidate data D7 are “selected”, “violation”, or “exclusion”. (Step S113: Yes), the process proceeds to the next step S114. On the other hand, if there is a possibility that an evaluation target set that satisfies the constraint conditions can be generated (step S105: No), the process returns to step S101 and the subsequent processing is repeated.

ステップS114:コスト評価部5は、制約条件を満たす評価対象集合を生成できないと判断した場合(ステップS105:Yes)、モードデータD9の現在のモードを追加モードから除外モードに更新し、ステップS101に戻って以降の処理を繰り返す。   Step S114: When the cost evaluation unit 5 determines that the evaluation target set that satisfies the constraint condition cannot be generated (step S105: Yes), the current mode of the mode data D9 is updated from the addition mode to the exclusion mode, and the process proceeds to step S101. Return and repeat the subsequent processing.

ステップS115:ステップS102において特徴候補データD7に状態が「未評価」の特徴がないと判定された場合(ステップS102:No)、選択済み集合更新部12が、暫定一位データD17に記録された評価対象集合(X)、補正済み評価値corrected_eval(X)およびコストcost(X)で選択済み集合データD8を更新する。また、選択済み集合更新部12は、暫定一位データD17を削除するとともに、特徴候補データD7の各特徴の状態を上述したように更新し、次のステップS116に進む。   Step S115: When it is determined in step S102 that the feature candidate data D7 does not have a feature whose state is “not evaluated” (step S102: No), the selected set update unit 12 is recorded in the temporary first-rank data D17. The selected set data D8 is updated with the evaluation target set (X), the corrected evaluation value corrected_eval (X), and the cost cost (X). In addition, the selected set update unit 12 deletes the temporary first rank data D17, updates the state of each feature of the feature candidate data D7 as described above, and proceeds to the next step S116.

ステップS116:選択済み集合更新部12は、最良集合データD18を参照し、更新後の選択済み集合データD8の方が最良集合データD18よりも、補正済み評価値corrected_eval(X)が高くなっているか否かを判定する。そして、更新後の選択済み集合データD8に記録された補正済み評価値corrected_eval(X)が最良集合データD18よりも高ければ(ステップS116:Yes)、次のステップS117に進み、更新後の選択済み集合データD8に記録された補正済み評価値corrected_eval(X)が最良集合データD18以下であれば(ステップS116:No)、ステップS118に処理を移行する。   Step S116: The selected set update unit 12 refers to the best set data D18, and whether the updated set value D8 after the update has a corrected evaluation value corrected_eval (X) higher than that of the best set data D18. Determine whether or not. If the corrected evaluation value corrected_eval (X) recorded in the updated selected set data D8 is higher than the best set data D18 (step S116: Yes), the process proceeds to the next step S117, and the updated selected value is selected. If the corrected evaluation value corrected_eval (X) recorded in the set data D8 is equal to or less than the best set data D18 (step S116: No), the process proceeds to step S118.

ステップS117:選択済み集合更新部12は、更新後の選択済み集合データD8に記録されている選択済み特徴、補正済み評価値corrected_eval(X)およびコストcost(X)で最良集合データD18を更新し、次のステップS118に進む。   Step S117: The selected set update unit 12 updates the best set data D18 with the selected feature, the corrected evaluation value corrected_eval (X) and the cost cost (X) recorded in the updated selected set data D8. The process proceeds to the next step S118.

ステップS118:終了判定部13が、選択済み集合データD8と終了条件データD6を参照し、選択済み集合Xに含まれる特徴の個数が終了条件データD6に記録された最大個数に達したか、つまり終了条件を満たすか否かを判定する。そして、終了条件を満たす場合は(ステップS118:Yes)、次のステップS119に進み、終了条件を満たさない場合は(ステップS118:No)、ステップS101に戻って以降の処理を繰り返す。 Step S118: The end determination unit 13 refers to the selected set data D8 and the end condition data D6, and whether the number of features included in the selected set X s reaches the maximum number recorded in the end condition data D6, That is, it is determined whether or not the end condition is satisfied. If the end condition is satisfied (step S118: Yes), the process proceeds to the next step S119. If the end condition is not satisfied (step S118: No), the process returns to step S101 and the subsequent processing is repeated.

ステップS119:出力部14が、最良集合データD18に記録されたデータを出力し、本実施例の特徴選択装置1による一連の処理が終了する。   Step S119: The output unit 14 outputs the data recorded in the best set data D18, and a series of processes by the feature selection device 1 of this embodiment is completed.

次に、除外モード時の処理手順を説明する。図27−1および図27−2は、除外モード時における特徴選択装置1の処理手順の一例を示すフローチャートである。除外モードは、追加モードにおいてどの特徴量を追加してもコストの制約条件が満たせなくなった場合に実行されるモードである。除外モードでは、選択済み特徴集合から特徴を1つ除外する。本実施例では、特徴量を1つ除外した時点で追加モードに戻ることとするが、複数除外するまで除外モードを継続してもよい。以下では、追加モードとは挙動が異なる部分を中心に説明する。   Next, a processing procedure in the exclusion mode will be described. FIGS. 27A and 27B are flowcharts illustrating an example of a processing procedure of the feature selection device 1 in the exclusion mode. The exclusion mode is a mode that is executed when a cost constraint cannot be satisfied no matter which feature amount is added in the addition mode. In the exclusion mode, one feature is excluded from the selected feature set. In this embodiment, the mode returns to the addition mode when one feature amount is excluded, but the exclusion mode may be continued until a plurality of features are excluded. Below, it demonstrates focusing on the part from which a behavior differs from an addition mode.

ステップS201:除外モードによる処理が開始されると、まず、評価対象集合生成部4が、モードデータD9を確認する。そして、モードデータD9が示す現在のモードが除外モードであれば、次のステップS202に進み、追加モードであれば、上述した追加モードの処理に移行する。   Step S201: When processing in the exclusion mode is started, first, the evaluation target set generation unit 4 confirms the mode data D9. If the current mode indicated by the mode data D9 is the exclusion mode, the process proceeds to the next step S202, and if it is the addition mode, the process proceeds to the above-described addition mode.

ステップS202:評価対象集合生成部4は、特徴候補データD7を参照し、状態が「選択済み」の特徴があるかどうかを確認する。そして、「選択済み」の特徴があれば(ステップS202:Yes)、次のステップS203に進み、「選択済み」の特徴がなければ(ステップS202:No)、ステップS211に処理を移行する。   Step S202: The evaluation target set generation unit 4 refers to the feature candidate data D7 and confirms whether or not there is a feature whose state is “selected”. If there is a “selected” feature (step S202: Yes), the process proceeds to the next step S203. If there is no “selected” feature (step S202: No), the process proceeds to step S211.

ステップS203:評価対象集合生成部4は、特徴候補データD7に含まれる特徴の中で状態が「選択済み」の特徴を1つ選択し、その特徴の状態を「保留」に更新する。そして、状態が「選択済み」もしくは「評価済み」の特徴のみからなる集合を生成する。この処理は、選択済み集合から状態を「保留」にした特徴を除外して評価対象集合Xを生成することに該当する。そして、評価対象集合生成部4は、これを記録した評価対象集合データD10を生成する。その後、コスト評価部5が、特徴候補データD7に含まれる特徴の中で、状態が「保留」のものを「評価済み」に更新する。そして、次のステップS204に進む。   Step S203: The evaluation target set generation unit 4 selects one feature whose state is “selected” among the features included in the feature candidate data D7, and updates the state of the feature to “pending”. Then, a set including only features whose states are “selected” or “evaluated” is generated. This process corresponds to generating the evaluation target set X by excluding the feature whose state is “pending” from the selected set. And the evaluation object set production | generation part 4 produces | generates evaluation object set data D10 which recorded this. Thereafter, the cost evaluation unit 5 updates the features included in the feature candidate data D7 with the status “pending” to “evaluated”. Then, the process proceeds to the next step S204.

ステップS204:モデル生成部6が、追加モード時のステップS106と同様にモデルを生成し、生成したモデルのルールやパラメータなどを表すモデルデータD12を生成して、次のステップ205に進む。   Step S204: The model generation unit 6 generates a model in the same manner as in step S106 in the addition mode, generates model data D12 representing rules and parameters of the generated model, and proceeds to the next step 205.

ステップS205:モデル評価部7が、追加モード時のステップS107と同様にモデルの評価値(再現率・適合率)を算出し、算出した再現率・適合率を記録した評価値データD13を生成して、次のステップS206に進む。   Step S205: The model evaluation unit 7 calculates the evaluation value (reproduction rate / relevance rate) of the model similarly to step S107 in the addition mode, and generates evaluation value data D13 in which the calculated reproducibility / relevance rate is recorded. The process proceeds to the next step S206.

ステップS206:評価値統合部8が、追加モード時のステップS108と同様に統合評価値merged_eval(X)を算出し、算出した統合評価値merged_eval(X)を記録した統合評価値データD14を生成して、次のステップS207に進む。   Step S206: The evaluation value integration unit 8 calculates the integrated evaluation value merged_eval (X) as in step S108 in the addition mode, and generates integrated evaluation value data D14 in which the calculated integrated evaluation value merged_eval (X) is recorded. The process proceeds to the next step S207.

ステップS207:評価値補正部9が、追加モード時のステップS109と同様に補正済み評価値corrected_eval(X)を算出し、算出した補正済み評価値corrected_eval(X)を記録した補正済み評価値データD15を生成して、次のステップS208に進む。   Step S207: The evaluation value correction unit 9 calculates the corrected evaluation value corrected_eval (X) in the same manner as in step S109 in the addition mode, and the corrected evaluation value data D15 in which the calculated corrected evaluation value corrected_eval (X) is recorded. And proceed to the next step S208.

ステップS208:除外損失評価部10が、選択済み集合データD8、補正済み評価値データD15およびコストデータD11を参照し、選択済み集合データD8に記録された選択済み集合 Xの補正済み評価値corrected_eval(X)およびコストcost(X)と、補正済み評価値データD15に記録された評価対象集合Xの補正済み評価値corrected_eval(X)およびコストデータD11に記録されたコストcost(X)とを用い、上記式(13)により、除外損失を算出する。そして、除外損失評価部10は、評価対象集合Xの補正済み評価値corrected_eval(X)およびコストcost(X)と、算出した除外損失とを記録した最終評価データD16を生成し、次のステップS209に進む。 Step S208: Exclude loss evaluation unit 10, selected aggregate data D8, with reference to the corrected evaluation value data D15 and cost data D11, corrected evaluation value corrected_eval of the recorded selected set X s to the selected set data D8 (X s ) and cost cost (X s ), corrected evaluation value corrected_eval (X) of the evaluation target set X recorded in the corrected evaluation value data D 15, and cost cost (X) recorded in the cost data D 11 And the exclusion loss is calculated by the above equation (13). Then, the excluded loss evaluation unit 10 generates final evaluation data D16 in which the corrected evaluation value corrected_eval (X) and cost cost (X) of the evaluation target set X and the calculated excluded loss are recorded, and the next step S209 is performed. Proceed to

ステップS209:暫定一位更新部11が、最終評価データD16と暫定一位データD17を参照し、最終評価データD16の方が暫定一位データD17よりも除外損失が小さいか否かを判定する。そして、最終評価データD16に記録された除外損失が暫定一位データD17よりも小さければ(ステップS209:Yes)、次のステップS210に進み、最終評価データD16に記録された除外損失が暫定一位データD17よりも大きければ(ステップS209:No)、ステップS201に戻って以降の処理を繰り返す。   Step S209: The provisional first update unit 11 refers to the final evaluation data D16 and the provisional first data D17, and determines whether or not the final evaluation data D16 has a smaller exclusion loss than the provisional first data D17. If the exclusion loss recorded in the final evaluation data D16 is smaller than the provisional first-order data D17 (step S209: Yes), the process proceeds to the next step S210, and the exclusion loss recorded in the final evaluation data D16 is provisional first-order. If it is larger than the data D17 (step S209: No), the process returns to step S201 and the subsequent processing is repeated.

ステップS210:暫定一位更新部11は、評価対象集合データD10に記録された評価対象集合Xと、最終評価データD16に記録された補正済み評価値corrected_eval(X)、コストcost(X)および除外損失とにより、暫定一位データD17を更新する。そして、ステップS201に戻って以降の処理を繰り返す。   Step S210: The provisional first-order update unit 11 evaluates the evaluation target set X recorded in the evaluation target set data D10, the corrected evaluation value corrected_eval (X), the cost cost (X), and the exclusion recorded in the final evaluation data D16. The provisional first place data D17 is updated according to the loss. And it returns to step S201 and repeats the subsequent processes.

ステップS211:ステップS202において特徴候補データD7に状態が「選択済み」の特徴がないと判定された場合(ステップS202:No)、選択済み集合更新部12が、選択済み集合データD8と暫定一位データD17を参照し、選択済み集合データD8に存在し暫定一位データD17に存在しない特徴を特定して、特徴候補データD7の中のその特徴の状態を「除外」にし、暫定一位データD17を削除する。そして、選択済み集合更新部12は、追加モード時のステップS115と同様に選択済み集合データD8を更新し、特徴候補データD7の各状態を更新して、次のステップS212に進む。   Step S211: When it is determined in step S202 that the feature candidate data D7 does not have a feature whose state is “selected” (step S202: No), the selected set update unit 12 tentatively ranks with the selected set data D8. With reference to the data D17, a feature that exists in the selected set data D8 but does not exist in the temporary first-order data D17 is specified, the state of the feature in the feature candidate data D7 is set to “excluded”, and the temporary first-order data D17 Is deleted. Then, the selected set update unit 12 updates the selected set data D8 in the same manner as in step S115 in the addition mode, updates each state of the feature candidate data D7, and proceeds to the next step S212.

ステップS212:選択済み集合更新部12は、追加モード時のステップS116と同様に、更新後の選択済み集合データD8の方が最良集合データD18よりも、補正済み評価値corrected_eval(X)が高くなっているか否かを判定する。そして、更新後の選択済み集合データD8に記録された補正済み評価値corrected_eval(X)が最良集合データD18よりも高ければ(ステップS212:Yes)、次のステップS213に進み、更新後の選択済み集合データD8に記録された補正済み評価値corrected_eval(X)が最良集合データD18以下であれば(ステップS212:No)、ステップS214に処理を移行する。   Step S212: As in step S116 in the addition mode, the selected set update unit 12 has the corrected evaluation value corrected_eval (X) higher in the updated selected set data D8 than in the best set data D18. It is determined whether or not. If the corrected evaluation value corrected_eval (X) recorded in the updated selected set data D8 is higher than the best set data D18 (step S212: Yes), the process proceeds to the next step S213, and the updated selected value is selected. If the corrected evaluation value corrected_eval (X) recorded in the set data D8 is equal to or less than the best set data D18 (step S212: No), the process proceeds to step S214.

ステップS213:選択済み集合更新部12は、追加モード時のステップS117と同様に、更新後の選択済み集合データD8に記録されている選択済み特徴、補正済み評価値corrected_eval(X)およびコストcost(X)で最良集合データD18を更新し、次のステップS214に進む。   Step S213: As with step S117 in the add mode, the selected set update unit 12 selects the selected feature, the corrected evaluation value corrected_eval (X), and the cost cost (recorded in the updated set data D8 after update. X) updates the best set data D18, and proceeds to the next step S214.

ステップS214:終了判定部13が、終了条件データD6を参照し、除外モードの実行回数が終了条件データD6に記録された最大回数に達したか、つまり終了条件を満たすか否かを判定する。そして、終了条件を満たさない場合は(ステップS214:No)、次のステップS215に進み、終了条件を満たす場合は(ステップS214:Yes)、ステップS216に処理を移行する。   Step S214: The end determination unit 13 refers to the end condition data D6 and determines whether the number of executions of the exclusion mode has reached the maximum number recorded in the end condition data D6, that is, whether the end condition is satisfied. If the end condition is not satisfied (step S214: No), the process proceeds to the next step S215. If the end condition is satisfied (step S214: Yes), the process proceeds to step S216.

ステップS215:終了判定部13は、モードデータD9の現在のモードを除外モードから追加モードに更新し、ステップS201に戻って以降の処理を繰り返す。   Step S215: The end determination unit 13 updates the current mode of the mode data D9 from the exclusion mode to the addition mode, returns to step S201, and repeats the subsequent processing.

ステップS216:出力部14が、最良集合データD18に記録されたデータを出力し、本実施例の特徴選択装置1による一連の処理が終了する。   Step S216: The output unit 14 outputs the data recorded in the best set data D18, and a series of processes by the feature selection device 1 of this embodiment is completed.

<ハードウェア構成>
以上説明した特徴選択装置1の機能は、例えば、一般的なコンピュータのハードウェアとソフトウェア(プログラム)との協働により実現することができる。この場合の特徴選択装置1のハードウェア構成の一例を図28に示す。
<Hardware configuration>
The function of the feature selection device 1 described above can be realized by, for example, cooperation between general computer hardware and software (program). An example of the hardware configuration of the feature selection device 1 in this case is shown in FIG.

本実施例の特徴選択装置1は、例えば図28に示すように、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読み出し専用メモリであるROM(Read Only Memory)102、各種データを書き換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するための媒体駆動装置105、ユーザがCPU101に命令や情報などを入力するためのキーボードやマウスなどの入力装置106、および、処理経過や結果などをユーザに表示するLCD(Liquid Cristal Display)などの表示装置107などを備え、これら各部間で送受信されるデータをバスコントローラ108が調停して動作する。   For example, as shown in FIG. 28, the feature selection device 1 of this embodiment includes a CPU (Central Processing Unit) 101 that performs information processing, a ROM (Read Only Memory) 102 that is a read-only memory that stores BIOS, and various data. RAM (Random Access Memory) 103 that stores data in a rewritable manner, HDD (Hard Disk Drive) 104 that functions as various databases and stores various programs, and uses a storage medium 110 to store information and distribute information to the outside The medium driving device 105 for obtaining information from the outside or the user, the input device 106 such as a keyboard and mouse for the user to input commands and information to the CPU 101, and the LCD for displaying the processing progress and results to the user (Liquid Cristal Display) and other display devices 107, etc. are transmitted and received between these parts The bus controller 108 arbitrates the data and operates.

このような特徴選択装置1では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operation System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、データを読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)などが知られている。これらのOS上で動作するプログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。   In such a feature selection device 1, when the user turns on the power, the CPU 101 activates a program called a loader in the ROM 102, and loads a program for managing the hardware and software of an OS (Operation System) from the HDD 104 into the RAM 103. This OS is started. Such an OS activates a program, reads data, or stores data in accordance with a user operation. As typical OS, Windows (registered trademark), UNIX (registered trademark), and the like are known. Programs that run on these OSs are called application programs. The application program is not limited to one that runs on a predetermined OS, and may be one that causes the OS to execute some of the various processes described below, or constitutes predetermined application software, an OS, or the like. It may be included as part of a group of program files.

特徴選択装置1は、上記アプリケーションプログラムとして、図6に示した機能的な構成要素をそれぞれプロセスとして生成するためのプログラムをHDD104に記憶している。特徴選択装置1のHDD104にインストールされるアプリケーションプログラムは、一般的には、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリなどの各種方式のメディアなどの記憶媒体110に記録されて提供される。また、このプログラムは、例えばネットワークを利用した通信により外部から取り込まれ、HDD104にインストールされてもよい。   The feature selection device 1 stores, in the HDD 104, a program for generating the functional components shown in FIG. Application programs installed in the HDD 104 of the feature selection device 1 are generally of various types such as various optical disks such as CD-ROM and DVD, various magnetic disks such as various magneto-optical disks and flexible disks, and semiconductor memories. The program is provided by being recorded on a storage medium 110 such as a medium. Further, this program may be imported from the outside by communication using a network, for example, and installed in the HDD 104.

以上のようなハードウェア構成を採用する場合、CPU101がOS上で動作する上記プログラムに従って各種の演算処理を実行することにより、例えばRAM103上に図6に示した機能的な構成要素が生成され、コンピュータを特徴選択装置1として機能させることができる。なお、図6に示した機能的な構成要素の一部あるいは全部を、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field-programmable Gate Array)などの専用のハードウェアを用いて実現することもできる。   When the hardware configuration as described above is adopted, the CPU 101 executes various arithmetic processes in accordance with the above-described program operating on the OS, thereby generating the functional components shown in FIG. The computer can function as the feature selection device 1. Note that some or all of the functional components shown in FIG. 6 may be realized by using dedicated hardware such as an application specific integrated circuit (ASIC) or a field-programmable gate array (FPGA). it can.

なお、本実施例では、特徴選択装置1が単体の装置として構成されていることを想定するが、特徴選択装置1は単体の装置として構成されている必要はなく、物理的に分離されてネットワークを介して接続された複数の装置により構成されていてもよい。また、特徴選択装置1は、クラウドシステム上で動作する仮想マシンとして実現されていてもよい。   In this embodiment, it is assumed that the feature selection device 1 is configured as a single device. However, the feature selection device 1 does not have to be configured as a single device, and is physically separated from the network. It may be configured by a plurality of devices connected via the. Further, the feature selection device 1 may be realized as a virtual machine that operates on the cloud system.

<実施形態の効果>
以上、具体的な実施例を挙げながら詳細に説明したように、本実施形態の特徴選択装置は、モデルの性能に関する複数の評価指標の各々について、設定された目標値に対する評価値の達成度を算出する。そして、評価指標ごとの達成度が高く、かつ、評価指標間における達成度のばらつきが少ないほど高評価となる統合評価値を算出し、統合評価値が高くなる部分集合を探索する。これにより、複数の評価指標とその目標値を考慮して、よりユーザが所望する要件を満たすモデルを生成できるようになる。
<Effect of embodiment>
As described above in detail with reference to specific examples, the feature selection device according to the present embodiment indicates the degree of achievement of the evaluation value with respect to the set target value for each of the plurality of evaluation indexes related to the performance of the model. calculate. Then, an integrated evaluation value that is highly evaluated as the achievement level for each evaluation index is high and the variation in the achievement level between evaluation indexes is small, and a subset in which the integrated evaluation value is high is searched. This makes it possible to generate a model that satisfies the requirements desired by the user in consideration of a plurality of evaluation indexes and target values.

また、本実施形態の特徴選択装置は、評価対象集合のコストが上限値以下であるという制約条件を満たしているか否かを判定する。そして、制約条件を満たす評価対象集合が生成できなくなった場合は、選択済み集合から特徴を除外する除外モードに移行する。このとき、特徴を除外したときのコストの低下と補正済み評価値の低下との比率を示す除外損失を算出する。この除外損失を用いることにより、モデルの性能を大きく低下させることなくコストを大幅に低下させることができるように、選択済み集合から除外する特徴を選択することができる。   In addition, the feature selection device according to the present embodiment determines whether or not the constraint that the cost of the evaluation target set is equal to or lower than the upper limit value is satisfied. When an evaluation target set that satisfies the constraint conditions cannot be generated, the mode shifts to an exclusion mode in which features are excluded from the selected set. At this time, an exclusion loss is calculated that indicates the ratio between the reduction in cost when the feature is excluded and the reduction in the corrected evaluation value. By using this exclusion loss, it is possible to select features to be excluded from the selected set so that the cost can be significantly reduced without significantly reducing the performance of the model.

このように、本実施形態ではコストの制約条件をチェックし、制約条件を満たさない場合はなるべくモデルの性能を下げずにコストを低下させるように、選択済み集合を更新することができる。これにより、例えば特徴抽出に要する処理時間の制約など、モデルの性能以外の要素を考慮した特徴選択が可能となる。   As described above, in this embodiment, the cost constraint is checked, and if the constraint is not satisfied, the selected set can be updated so as to reduce the cost without reducing the performance of the model as much as possible. As a result, for example, feature selection considering factors other than model performance, such as a restriction on processing time required for feature extraction, can be performed.

また、本実施形態の特徴選択装置は、評価対象集合に対して定義されるスコアに応じて統合評価値を補正し、補正済み評価値を算出する。そして、補正済み評価値が高くなる部分集合を探索する。これにより、例えば予測対象時刻に対して早い時期に予測を行える特徴集合のほうが高評価となるように設定できるなど、モデルの性能以外の要素を考慮した特徴選択が可能となる。   In addition, the feature selection device of the present embodiment corrects the integrated evaluation value according to the score defined for the evaluation target set, and calculates the corrected evaluation value. Then, a subset with a higher corrected evaluation value is searched. Thereby, for example, it is possible to select a feature considering factors other than the performance of the model, for example, a feature set that can be predicted earlier than the prediction target time can be set to be highly evaluated.

<補足説明>
なお、上述した実施例では、機器の故障が発生するか否かを予測する予測モデルを生成することを想定し、モデルの性能に関する評価指標として再現率と適合率を用いる例を説明した。しかし、生成するモデルの例としては、データを複数のクラスに分類するモデル(識別モデル)もある。識別モデルを生成する場合、モデルに関する評価指標として用いられる再現率は、複数のクラスのうち、評価対象のクラスを設定し、評価対象のクラスごとに、そのクラスに分類されるべきデータが漏れることなく分類されているかを示す。適合率は、評価対象のクラスに分類されたデータのうち正しく分類されているデータの割合を示す。なお、評価対象は、一つのクラスとしてもよい。もしくは、複数のクラスを一度に評価対象としてもよい。また、モデルの評価指標は、これら再現率と適合率に限らず、様々な評価指標を用いることができる。また、使用する評価指標の数も2つに限らず、3つ以上であってもよい。
<Supplementary explanation>
In the above-described embodiment, it is assumed that a prediction model for predicting whether or not a device failure occurs is generated, and the example in which the recall rate and the matching rate are used as the evaluation indexes related to the model performance has been described. However, as an example of a model to be generated, there is a model (identification model) that classifies data into a plurality of classes. When generating an identification model, the recall used as an evaluation index for the model is that a class to be evaluated is set among multiple classes, and for each class to be evaluated, data that should be classified into that class leaks. Indicates whether it is classified. The relevance ratio indicates the proportion of data classified correctly among the data classified into the evaluation target class. The evaluation target may be one class. Alternatively, a plurality of classes may be evaluated at a time. Further, the evaluation index of the model is not limited to the reproduction rate and the matching rate, and various evaluation indexes can be used. Further, the number of evaluation indexes to be used is not limited to two, and may be three or more.

例えば、1つのモデルで複数の出力を得る場合、それぞれの出力に対して要求される正解率が異なる場合がある。具体的には、例えば顔画像から性別や年齢を推定するモデルを考えた場合、性別はある程度厳密に、年齢はラフに推定することが要求される場合がある。このような場合は、それぞれの出力の正解率を複数の評価指標として扱うこともできる。すなわち、それぞれの出力の正解率に対して目標値を設定して、目標値に対する達成度に基づいて統合評価指標を算出してもよい。   For example, when a plurality of outputs are obtained with one model, the accuracy rate required for each output may be different. Specifically, for example, when considering a model for estimating gender and age from a face image, it may be required to estimate the gender strictly to some extent and the age roughly. In such a case, the accuracy rate of each output can be handled as a plurality of evaluation indexes. That is, a target value may be set for each output accuracy rate, and the integrated evaluation index may be calculated based on the degree of achievement of the target value.

また、上述した実施例では、評価対象集合のコストが、その評価対象集合に含まれる特徴を抽出する処理時間に基づいて定義されていた。しかし、評価対象集合に含まれる特徴を抽出する処理時間だけでなく、モデル適用の処理時間も大きく変動するようであれば、モデル適用の処理時間も考慮して評価対象集合のコストを定義してもよい。   In the above-described embodiment, the cost of the evaluation target set is defined based on the processing time for extracting the features included in the evaluation target set. However, if not only the processing time for extracting features included in the evaluation target set but also the model application processing time fluctuates significantly, the cost of the evaluation target set should be defined in consideration of the model application processing time. Also good.

また、上述した実施例では、評価対象集合のコストが上限値以下であるという制約条件を課していたが、この制約条件を無効化することもできる。この制約条件を無効化するには、例えば、初期設定時に設定されるコストの上限値max_costを非常に大きな値とすればよい。制約条件を無効化した場合は、追加モードから除外モードへの移行は生じない。   In the above-described embodiment, the constraint condition that the cost of the evaluation target set is equal to or lower than the upper limit value is imposed. However, this constraint condition can be invalidated. In order to invalidate this restriction condition, for example, the upper limit value max_cost of the cost set at the initial setting may be set to a very large value. When the constraint condition is invalidated, the transition from the addition mode to the exclusion mode does not occur.

また、上述した実施例では、評価対象集合のスコアに応じて統合評価値を補正する構成としていたが、このような補正を行わない構成とすることもできる。例えば、補正設定データにおける全特徴のスコアを同じ値にすれば、評価対象集合のスコアに応じた統合評価値の補正は無効化される。   In the above-described embodiment, the integrated evaluation value is corrected according to the score of the set to be evaluated. However, such a correction may not be performed. For example, if the scores of all the features in the correction setting data are set to the same value, the correction of the integrated evaluation value according to the score of the evaluation target set is invalidated.

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。   As mentioned above, although embodiment of this invention was described, embodiment described here is shown as an example and is not intending limiting the range of invention. The novel embodiments described herein can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. The embodiments and modifications described herein are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

1 特徴選択装置
2 入力受付部
3 初期設定部
4 評価対象集合生成部
5 コスト評価部
6 モデル生成部
7 モデル評価部
8 評価値統合部
9 評価値補正部
10 除外損失評価部
11 暫定一位更新部
12 選択済み集合更新部
13 終了判定部
14 出力部
DESCRIPTION OF SYMBOLS 1 Feature selection apparatus 2 Input reception part 3 Initial setting part 4 Evaluation object set production | generation part 5 Cost evaluation part 6 Model production | generation part 7 Model evaluation part 8 Evaluation value integration part 9 Evaluation value correction part 10 Exclusion loss evaluation part 11 Temporary first place update Unit 12 selected set update unit 13 end determination unit 14 output unit

Claims (8)

特徴集合の部分集合を用いたモデルの生成および評価を繰り返し、評価値が高くなる前記部分集合を探索する特徴選択装置であって、
前記モデルの性能に関する複数の評価指標の各々の評価値を算出するモデル評価部と、
前記複数の評価指標の各々について、設定された目標値に対する前記評価値の達成度を算出し、前記複数の評価指標の各々の前記達成度が高く、かつ、前記複数の評価指標間における前記達成度のばらつきが少ないほど高評価となる統合評価値を算出する評価値統合部と、を備え、
前記統合評価値が高くなる前記部分集合を探索する特徴選択装置。
A feature selection device that repeats generation and evaluation of a model using a subset of a feature set and searches for the subset with a high evaluation value,
A model evaluation unit that calculates an evaluation value of each of a plurality of evaluation indexes related to the performance of the model;
For each of the plurality of evaluation indexes, the degree of achievement of the evaluation value with respect to a set target value is calculated, the degree of achievement of each of the plurality of evaluation indexes is high, and the achievement among the plurality of evaluation indexes An evaluation value integration unit that calculates an integrated evaluation value that becomes higher as the degree of variation is smaller,
A feature selection device that searches for the subset in which the integrated evaluation value is high.
前記モデルはデータを複数のクラスに分類する識別モデルであり、
前記複数の評価指標は、前記複数のクラスのうち一つまたは複数を評価対象とし、前記評価対象のクラスごとに、当該クラスに分類されるべきデータがもれなく分類されているかを示す再現率と、当該評価対象のクラスに分類されたデータのうち正しく分類されている割合を示す適合率とを含む、請求項1に記載の特徴選択装置。
The model is an identification model that classifies data into a plurality of classes,
The plurality of evaluation indicators are subject to evaluation of one or more of the plurality of classes, and for each of the evaluation target classes, a recall indicating whether or not all data to be classified into the class is classified, 2. The feature selection device according to claim 1, further comprising: a matching ratio indicating a correctly classified ratio of the data classified into the evaluation target class.
前記モデルは事象の発生を予測する予測モデルであり、
前記複数の評価指標は、予測の網羅性を示す再現率と、予測の正確性を示す適合率とを含む、請求項1または2に記載の特徴選択装置。
The model is a prediction model for predicting the occurrence of an event,
The feature selection apparatus according to claim 1, wherein the plurality of evaluation indexes include a recall rate indicating the completeness of prediction and a matching rate indicating the accuracy of prediction.
前記特徴集合に含まれる各特徴に、特徴の抽出に要する時間が長いほど大きな値となる第1コストが与えられ、
前記部分集合に含まれる各特徴の前記第1コストに基づいて、前記部分集合のコストである第2コストを算出するコスト評価部をさらに備え、
前記第2コストが設定された上限値以下であるとの制約条件を満たし、かつ、前記統合評価値が高くなる前記部分集合を探索する、請求項1乃至3のいずれか一項に記載の特徴選択装置。
Each feature included in the feature set is given a first cost that increases as the time required for feature extraction increases.
A cost evaluation unit that calculates a second cost that is a cost of the subset based on the first cost of each feature included in the subset;
4. The feature according to claim 1, wherein the subset that satisfies the constraint condition that the second cost is equal to or lower than a set upper limit value and that has a higher integrated evaluation value is searched for. Selection device.
前記部分集合から1つの特徴を除外したときの前記第2コストの低下と前記統合評価値の低下との比率を示す除外損失を、除外する特徴ごとに算出する除外損失評価部をさらに備え、
前記第2コストが前記上限値を超えた場合に、前記除外損失に基づいて前記部分集合から除外する特徴を選択する、請求項4に記載の特徴選択装置。
An exclusion loss evaluation unit that calculates, for each feature to be excluded, an exclusion loss indicating a ratio between a decrease in the second cost and a decrease in the integrated evaluation value when one feature is excluded from the subset;
The feature selection device according to claim 4, wherein when the second cost exceeds the upper limit value, a feature to be excluded from the subset is selected based on the exclusion loss.
前記モデルは事象の発生を予測する予測モデルであり、
前記部分集合に対して前記モデルによる予測結果が得られる時期の早さに応じたスコアを算出し、算出したスコアに基づいて前記統合評価値を補正する評価値補正部をさらに備え、
補正した前記統合評価値が高くなる前記部分集合を探索する、請求項1乃至5のいずれか一項に記載の特徴選択装置。
The model is a prediction model for predicting the occurrence of an event,
A score corresponding to the time when the prediction result by the model is obtained for the subset is calculated, and an evaluation value correction unit that corrects the integrated evaluation value based on the calculated score is further provided.
The feature selection device according to claim 1, wherein the subset in which the corrected integrated evaluation value is increased is searched.
特徴集合の部分集合を用いたモデルの生成および評価を繰り返し、評価値が高くなる前記部分集合を探索する特徴選択方法であって、
前記モデルの性能に関する複数の評価指標の各々の評価値を算出するステップと、
前記複数の評価指標の各々について、設定された目標値に対する前記評価値の達成度を算出し、前記複数の評価指標の各々の前記達成度が高く、かつ、前記複数の評価指標間における前記達成度のばらつきが少ないほど高評価となる統合評価値を算出するステップと、を含み、
前記統合評価値が高くなる前記部分集合を探索する特徴選択方法。
A feature selection method for repeatedly searching for a subset having a high evaluation value by repeatedly generating and evaluating a model using a subset of the feature set,
Calculating an evaluation value of each of a plurality of evaluation indexes related to the performance of the model;
For each of the plurality of evaluation indexes, the degree of achievement of the evaluation value with respect to a set target value is calculated, the degree of achievement of each of the plurality of evaluation indexes is high, and the achievement among the plurality of evaluation indexes A step of calculating an integrated evaluation value that is higher as the degree of variation is smaller,
A feature selection method for searching for the subset in which the integrated evaluation value is high.
コンピュータを、特徴集合の部分集合を用いたモデルの生成および評価を繰り返し、評価値が高くなる前記部分集合を探索する特徴選択装置として機能させるためのプログラムであって、
前記コンピュータに、
前記モデルの性能に関する複数の評価指標の各々の評価値を算出する機能と、
前記複数の評価指標の各々について、設定された目標値に対する前記評価値の達成度を算出し、前記複数の評価指標の各々の前記達成度が高く、かつ、前記複数の評価指標間における前記達成度のばらつきが少ないほど高評価となる統合評価値を算出する機能と、を実現させ、
前記統合評価値が高くなる前記部分集合を探索させるプログラム。
A program for causing a computer to function as a feature selection device that repeatedly generates and evaluates a model using a subset of a feature set and searches for the subset with a high evaluation value,
In the computer,
A function of calculating an evaluation value of each of a plurality of evaluation indexes related to the performance of the model;
For each of the plurality of evaluation indexes, the degree of achievement of the evaluation value with respect to a set target value is calculated, the degree of achievement of each of the plurality of evaluation indexes is high, and the achievement among the plurality of evaluation indexes And a function to calculate an integrated evaluation value that becomes higher as the degree of variation is smaller,
A program for searching for the subset in which the integrated evaluation value increases.
JP2016054517A 2016-03-17 2016-03-17 Feature selection device, feature selection method, and program Active JP6193428B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016054517A JP6193428B1 (en) 2016-03-17 2016-03-17 Feature selection device, feature selection method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016054517A JP6193428B1 (en) 2016-03-17 2016-03-17 Feature selection device, feature selection method, and program

Publications (2)

Publication Number Publication Date
JP6193428B1 true JP6193428B1 (en) 2017-09-06
JP2017167979A JP2017167979A (en) 2017-09-21

Family

ID=59798994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016054517A Active JP6193428B1 (en) 2016-03-17 2016-03-17 Feature selection device, feature selection method, and program

Country Status (1)

Country Link
JP (1) JP6193428B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123308A (en) * 2019-01-30 2020-08-13 鴻富錦精密電子(天津)有限公司 Re-repair substrate detection device, method, and computer-readable storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023281732A1 (en) * 2021-07-09 2023-01-12

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7324927B2 (en) * 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling
GB0517954D0 (en) * 2005-09-02 2005-10-12 Imp College Innovations Ltd Bayesian feature selection
JP5414416B2 (en) * 2008-09-24 2014-02-12 キヤノン株式会社 Information processing apparatus and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123308A (en) * 2019-01-30 2020-08-13 鴻富錦精密電子(天津)有限公司 Re-repair substrate detection device, method, and computer-readable storage medium
US11113165B2 (en) 2019-01-30 2021-09-07 Hongfujin Precision Electronics (Tianjin) Co., Ltd. Method for detecting repair-necessary motherboards and device using the method

Also Published As

Publication number Publication date
JP2017167979A (en) 2017-09-21

Similar Documents

Publication Publication Date Title
CN108475287B (en) Outlier detection for streaming data
JP6555015B2 (en) Machine learning management program, machine learning management apparatus, and machine learning management method
US20170372230A1 (en) Machine learning management method and machine learning management apparatus
US10042912B2 (en) Distributed clustering with outlier detection
US20180018586A1 (en) Apparatus and method for managing machine learning
JP6751376B2 (en) Optimal solution search method, optimal solution search program, and optimal solution search device
WO2021232293A1 (en) Contract recommendation platform
JP2022024102A (en) Method for training search model, method for searching target object and device therefor
Maliah et al. MDP-based cost sensitive classification using decision trees
JP6193428B1 (en) Feature selection device, feature selection method, and program
US20200142951A1 (en) Polymer design device, polymer design method, and non-transitory recording medium
CN112925857A (en) Digital information driven system and method for predicting associations based on predicate type
CN110968802B (en) Analysis method and analysis device for user characteristics and readable storage medium
JP2008158748A (en) Variable selection device and method, and program
US20210256073A1 (en) Edge system, information processing method and computer readable medium
CN111243738B (en) Method, device and equipment for constructing survival analysis model and predicting survival rate
US11372379B2 (en) Computer system and control method
Bach et al. Cost-sensitive feature selection for class imbalance problem
JP2016018230A (en) Control parameter adaptation method and control parameter adaptation assist device
JP6203313B2 (en) Feature selection device, feature selection method, and program
CN113782092B (en) Method and device for generating lifetime prediction model and storage medium
US20220358375A1 (en) Inference of machine learning models
JP2020004057A (en) Selection program, selection method, and selection device
JP6221593B2 (en) Data management method, data management program, and data management apparatus
KR102412843B1 (en) Device and method for extracting sample graph from original graph having properties of original graph

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170809

R151 Written notification of patent or utility model registration

Ref document number: 6193428

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350