JP2022029347A - Feature selection program, device, and method - Google Patents
Feature selection program, device, and method Download PDFInfo
- Publication number
- JP2022029347A JP2022029347A JP2020132646A JP2020132646A JP2022029347A JP 2022029347 A JP2022029347 A JP 2022029347A JP 2020132646 A JP2020132646 A JP 2020132646A JP 2020132646 A JP2020132646 A JP 2020132646A JP 2022029347 A JP2022029347 A JP 2022029347A
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- feature
- shaping
- data set
- selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000012545 processing Methods 0.000 claims abstract description 81
- 238000007493 shaping process Methods 0.000 claims description 184
- 238000010187 selection method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 abstract description 55
- 238000010801 machine learning Methods 0.000 abstract description 10
- 238000012549 training Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 19
- 238000012790 confirmation Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
開示の技術は、特徴量選択プログラム、特徴量選択装置、及び特徴量選択方法に関する。 The disclosed technique relates to a feature amount selection program, a feature amount selection device, and a feature amount selection method.
工場における生産設備等の稼働状況等を示す複数種類のセンサデータを収集し、収集したセンサデータのデータセットを機械学習することにより生成したモデルを用いて、人手をかけずに生産設備等の異常又は正常を検出するシステムの導入が進んでいる。収集したデータセットは、多数の項目を含む場合が多く、データセットをそのまま機械学習に用いた場合、機械学習に時間がかかるという問題がある。また、モデルが複雑になり、モデルを用いた推論時の解釈性が低下する等の問題も生じる。 Using a model generated by collecting multiple types of sensor data indicating the operating status of production equipment in a factory and machine learning the collected sensor data data set, abnormalities in production equipment, etc. without human intervention. Alternatively, the introduction of a system for detecting normality is progressing. The collected data set often contains a large number of items, and if the data set is used as it is for machine learning, there is a problem that machine learning takes time. In addition, the model becomes complicated, and there arises a problem that the interpretability at the time of inference using the model is lowered.
そこで、データセットに含まれる多数の項目から、所定数の項目を、機械学習に用いる学習データに含める特徴量として選択する技術が提案されている。例えば、簡便な方法により入力候補変数から入力変数を絞り込むための指標を提示し、入力変数選択の支援を行う入力変数選択支援装置が提案されている。この装置は、平均値が0であり標準偏差が1となるように標準化されたモデル情報データを用いて、全入力候補変数と出力変数の関係を表す複数の入出力モデルを、モデル原理を異ならせて多形式にわたり生成する。そして、この装置は、各入出力モデルの各入力候補変数に対する出力変数の絶対値である感度を生成する感度生成を各入出力モデルについてそれぞれ行い、各入出力モデルの感度に基づいて入力変数を選択提示する。 Therefore, a technique has been proposed in which a predetermined number of items are selected as feature quantities to be included in the learning data used for machine learning from a large number of items included in the data set. For example, an input variable selection support device has been proposed that supports input variable selection by presenting an index for narrowing down input variables from input candidate variables by a simple method. This device uses model information data standardized so that the mean value is 0 and the standard deviation is 1, and multiple input / output models that represent the relationship between all input candidate variables and output variables can be created using different model principles. Generate over multiple formats. Then, this device performs sensitivity generation for each input / output model to generate the sensitivity which is the absolute value of the output variable for each input candidate variable of each input / output model, and inputs the input variable based on the sensitivity of each input / output model. Select and present.
また、観測対象からのデータ群が取り得る値の範囲である変数を選択する選択装置が提案されている。この装置は、変数を類似性に基づいてクラスタリングし、各クラスターに属する変数の中から特定の代表変数を選択する。そして、この装置は、熟練の管理者や技術者の知見に基づいて、監視すべき変数を指定するラベルを入力デバイスから設定し、ラベル指定表に格納する。 In addition, a selection device that selects a variable that is in the range of values that the data group from the observation target can take has been proposed. This device clusters variables based on similarity and selects a specific representative variable from the variables belonging to each cluster. Then, based on the knowledge of a skilled manager or technician, this device sets a label that specifies a variable to be monitored from the input device and stores it in the label specification table.
また、機械学習されたモデルを使用することなく、データセットのデータの性質に基づいて特徴量を選択する方法も存在する。具体的には、目的変数と説明変数との関係に基づいて特徴量を選択する方法が存在する。又は、多重共線性によるモデル精度の低下を回避するため、説明変数同士で相関の高い項目を削除する方法が存在する。 There is also a method of selecting features based on the nature of the data in the dataset without using a machine-learned model. Specifically, there is a method of selecting a feature amount based on the relationship between the objective variable and the explanatory variable. Alternatively, in order to avoid a decrease in model accuracy due to multicollinearity, there is a method of deleting items having a high correlation between explanatory variables.
従来技術では、特徴量を選択するために、目的変数(出力変数)、すなわち正解データを必要とする。しかしながら、例えば、上述したような機械の異常を検出するシステムでは、機械学習における正解データとなる異常を示す情報が存在しない場合もある。そのため、正解データを必要とする従来技術は適用することができないという問題がある。また、業務上の重要な項目は削除することなく特徴量として選択することが望ましいが、説明変数同士で相関の高い項目を削除する場合、重要な説明変数の方を削除してしまう可能性がある。 In the prior art, an objective variable (output variable), that is, correct answer data is required to select a feature amount. However, for example, in a system for detecting an abnormality in a machine as described above, there may be no information indicating an abnormality that is correct data in machine learning. Therefore, there is a problem that the conventional technique that requires correct answer data cannot be applied. In addition, it is desirable to select important business items as features without deleting them, but when deleting items with high correlation between explanatory variables, there is a possibility that the important explanatory variables will be deleted. be.
一つの側面として、開示の技術は、正解データを必要とすることなく、データセットに含まれる項目から、効果的な機械学習を行うための特徴量を選択することを目的とする。 As one aspect, the disclosed technique aims to select features for effective machine learning from the items contained in the dataset without the need for correct data.
一つの態様として、開示の技術は、複数の特徴量を含み、かつ整形処理が実行されたデータセットと、前記整形処理の履歴と、特定の整形処理において引数となる特定の特徴量が定義された特定情報とを取得する。そして、開示の技術は、取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する。 As one embodiment, the disclosed technique defines a data set containing a plurality of feature quantities and for which shaping processing has been executed, a history of the shaping processing, and a specific feature quantity as an argument in the specific shaping process. Get specific information. Then, the disclosed technique selects a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set based on the acquired history of the shaping process. do.
一つの側面として、正解データを必要とすることなく、データセットに含まれる項目から、効果的な機械学習を行うための特徴量を選択することができる、という効果を有する。 One aspect is that it is possible to select a feature amount for effective machine learning from the items included in the data set without requiring correct answer data.
以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。 Hereinafter, an example of the embodiment according to the disclosed technology will be described with reference to the drawings.
図1に示すように、特徴量選択装置10は、機能的には、整形部11と、取得部12と、抽出部13と、選択部14と、受付部15と、更新部16とを含む。なお、抽出部13及び選択部14は、開示の技術の「選択部」の一例である。
As shown in FIG. 1, the feature
整形部11は、特徴量選択装置10に入力された、整形処理前のデータセットを取得する。図2及び図3に、整形処理前のデータセットの一例を示す。以下では、図2に示すデータセットを「データセットA」、図3に示すデータセットを「データセットB」として説明する。データセットには、複数の項目が含まれ、各データは、各項目についての値を有する。図2に示すように、データセットAには、「X1」、「X2」、「X3」、「X4」、及び「X5」という項目が含まれている。また、図3に示すように、データセットBには、「運転開始日」、「障害発生日」、「X1」、「X2」、及び「X3」という項目が含まれている。
The shaping unit 11 acquires the data set before the shaping process input to the feature
整形部11は、取得した整形処理前のデータセットに対して整形処理を実行する。具体的には、整形部11は、データセットに対する整形処理として実行される関数(以下、「整形処理関数」という)、及び整形処理前のデータセットに含まれる複数の項目のうち、整形処理関数の引数となる項目の指定を受け付ける。そして、整形部11は、指定された項目を引数として、指定された整形処理関数を実行する。 The shaping unit 11 executes the shaping process on the acquired data set before the shaping process. Specifically, the shaping unit 11 is a function executed as a shaping process for the data set (hereinafter referred to as "shaping process function"), and a shaping processing function among a plurality of items included in the data set before the shaping process. Accepts the specification of the item that becomes the argument of. Then, the shaping unit 11 executes the designated shaping processing function with the designated item as an argument.
整形処理関数としては、予め定められた複数種類の整形処理関数を用意しておくことができる。整形処理関数は、例えば、指定された項目の値が数値か否かをチェックする数値型チェック、指定された項目の値が指定された範囲の値であるか否かをチェックする数値型値チェック等である。また、整形処理関数は、例えば、日時型の項目の値を他の書式の日時型の値に変換する日時型変換、指定された2つの日時型の項目の値の差分を所定の日時型の値に変換する日時型差分変換等である。また、整形処理関数は、例えば、指定された項目の値を、異なるカテゴリの値に変換するカテゴリ型変換、指定された項目の値のうち、欠損している値を予測処理等で補完する欠損値補完等である。 As the shaping processing function, a plurality of predetermined types of shaping processing functions can be prepared. The formatting function is, for example, a numerical type check that checks whether the value of the specified item is a numerical value, or a numerical type value check that checks whether the value of the specified item is a value in the specified range. And so on. Further, the formatting function is, for example, a date / time type conversion that converts a value of a date / time type item into a date / time type value of another format, and a difference between the values of two specified date / time type items of a predetermined date / time type. Date and time type difference conversion to convert to a value. Further, the shaping processing function is, for example, a category type conversion that converts the value of the specified item into a value of a different category, a defect that complements the missing value among the values of the specified item by prediction processing, or the like. Value complementation, etc.
例えば、整形部11は、図4に示すような整形処理画面30を表示装置に表示する。図4の例では、整形処理画面30には、整形処理の対象のデータセットのファイル名が表示されるファイル名領域31、整形処理の内容及び実行を指定するための実行領域32、及び整形処理の結果が表示される結果領域33が含まれる。実行領域32には、予め定められた複数種類の整形処理関数が選択可能な状態で、一覧で表示される。また、実行領域32には、一覧から整形処理関数が選択された際に、整形処理関数の引数となる項目を指定するためのテキストボックス、及び整形処理の実行を指示するための実行ボタンが表示される。
For example, the shaping unit 11 displays the
例えば、整形処理の担当者は、対象となるデータセットのファイルを読み込み、整形処理画面30の実行領域32において、一覧から実行する整形処理関数を選択し、引数となる項目をテキストボックスに入力して、実行ボタンを押下する。整形部11は、整形処理画面30で指定された整形処理関数及び引数となる項目の情報を取得し、データセットに対して取得した情報に基づいて整形処理を実行する。そして、整形部11は、整形処理の実行結果を整形処理画面30の結果領域33に表示する。
For example, the person in charge of the shaping process reads the file of the target data set, selects the shaping processing function to be executed from the list in the
図4では、データセットAに対して、数値型チェックの整形処理を実行する例を示している。なお、図4では、チェックマークにより選択された整形処理関数を示している。後述する図6においても同様である。また、引数としては、数値型をチェックする対象の項目として「X1」が指定されている。この例では、項目「X1」の3行目の値が「0..1」となっており、数値ではないことを示す結果が結果領域33に表示されている。なお、この例では、整形部11は、チェック結果に基づいて自動で値を修正してもよいし、担当者による該当の値の修正を受け付けてもよい。図5に、値の修正も含めた整形処理後のデータセットAを示す。
FIG. 4 shows an example of executing the formatting process of the numerical type check for the data set A. Note that FIG. 4 shows the shaping processing function selected by the check mark. The same applies to FIG. 6 described later. Further, as an argument, "X1" is specified as an item for checking the numerical type. In this example, the value in the third row of the item "X1" is "0.1", and the result indicating that it is not a numerical value is displayed in the
図6に、整形処理画面30の他の例を示す。図6では、データセットBに対して、日時型差分変換の整形処理を実行する例を示している。また、引数としては、項目名1に「運転開始日」、項目名2に「障害発生日」、差分変換結果項目名に「稼働期間」、差分結果日時型に「日」がそれぞれ指定されている。これは、運転開始日と障害発生日との差分日数を、稼働期間という項目として追加する整形処理が実行されることを表している。したがって、整形部11は、運転開始日から障害発生日までの期間を日換算で計算した結果を、例えばデータセットの最終列に項目名「稼働期間」として追加する。図7に、整形処理後のデータセットBを示す。
FIG. 6 shows another example of the shaping
整形部11は、データセットに対して実行した整形処理の履歴を、整形処理履歴DB21に記憶する。整形処理履歴DB21には、実行された整形処理関数、及びその引数となった項目が、整形処理履歴データとして記憶される。整形部11は、1つのデータセットに対して、複数の整形処理関数を実行した場合、複数の整形処理履歴データを整形処理履歴DB21に記憶する。
The shaping unit 11 stores the history of the shaping process executed on the data set in the shaping
図8に、データセットAに対する整形処理の履歴を記憶した整形処理履歴DB21の一例を示す。図8に示すように、整形処理履歴DB21には、データセットに対して実行された「整形処理関数」に、その整形処理関数の引数名及び引数となった項目の情報が「引数」として対応付けて記憶される。図8では、図4の整形処理画面30の例で説明した数値型チェックに加え、項目「X3」に対する数値型値チェックの整形処理が実行された例を示している。また、図9に、データセットBに対する整形処理の履歴を記憶した整形処理履歴DB21の一例を示す。図9では、図6の整形処理画面30の例で説明した日時型差分変換の整形処理が実行された例を示している。
FIG. 8 shows an example of the shaping
取得部12は、整形部11から整形処理済みのデータセットを取得する。また、取得部12は、整形処理履歴DB21から、取得した整形処理済みのデータセットについての整形処理履歴DB21を取得する。また、取得部12は、外部の記憶装置に記憶された優先項目DB22を取得する。優先項目DB22には、複数種類ある整形処理関数のうち、特定の整形処理関数において引数となる特定の項目が定義されている。特定の整形処理関数において引数となる特定の項目とは、学習データに含める特徴量として優先的に選択すべき項目(以下、「優先項目」という)である。具体的には、整形処理後にその項目の値を使用することを前提とした整形処理が行われた項目が優先項目として定義される。なお、優先項目DB22に記憶される情報は、開示の技術の「特定情報」の一例である。図10に、優先項目DB22の一例を示す。図10の例では、特定の整形処理を示す「整形処理関数」に、その整形処理関数で引数となる項目のうち、優先項目となる引数が「優先項目対象引数」として対応付けて記憶されている。取得部12は、取得した情報を抽出部13へ受け渡す。
The
抽出部13は、取得部12から受け渡された整形処理履歴DB21に基づいて、整形処理済みのデータセットに含まれる複数の項目から、優先項目DB22で定義された優先項目対象引数に対応する項目を、そのデータセットにおける優先項目として抽出する。
Based on the shaping
具体的には、抽出部13は、図11に示すように、整形処理履歴データとして整形処理履歴DB21に記憶されている整形処理関数をキーとして、優先項目DB22の「整形処理関数」を検索する。抽出部13は、優先項目DB22において、キーとした整形処理関数に一致する「整形処理関数」に対応付けられている「優先項目対象引数」を取得する。そして、抽出部13は、整形処理履歴データから、取得した優先項目対象引数に対応する整形処理関数の実行時に引数となった項目を、優先項目として抽出する。データセットAの例では、図11に示すように、優先項目対象引数として「チェック項目名」が取得され、チェック項目名に対応する項目「X1」が優先項目として抽出される。
Specifically, as shown in FIG. 11, the
抽出部13は、整形処理履歴DB21に記憶されている整形処理履歴データの全てについて上記処理を行う。したがって、整形処理履歴データに含まれる複数の整形処理関数の各々が、優先項目DB22の「整形処理関数」のいずれかと一致する場合、複数の優先項目が抽出されることになる。なお、図11の例では、整形処理履歴データに含まれる整形処理関数「数値型値チェック」は、優先項目DB22に定義されていないため、対応する項目「X3」は優先項目として抽出されない。抽出部13は、抽出した優先項目の情報、及び整形処理済みのデータセットを選択部14へ受け渡す。
The
選択部14は、抽出部13から受け渡された優先項目と、整形処理済みのデータセットに含まれる複数の項目のうち、優先項目以外の他の項目の各々との相関を示す指標を算出する。選択部14は、例えば図12に示すような、優先項目と他の項目との相関を示す相関テーブルを作成する。図12の例では、相関テーブルには、優先項目と他の項目との相関を示す指標として算出された相関係数が格納されている。
The
選択部14は、まず、優先項目を、学習データに含める特徴量として選択する。そして、選択部14は、算出した、優先項目との相関を示す指標が予め定められた閾値より低い他の項目を、学習データに含める特徴量として選択する。優先項目との相関が低い他の項目を選択するのは、機械学習の際に、優先項目との間で多重共線性が生じることを回避するためである。閾値は、予め定めた値としてもよいし、相関テーブルにおいてN番目に小さい指標を閾値としてもよい。後者の場合、N個の他の項目が特徴量として選択されることになる。図12の例において、閾値を0.7とした場合、選択部14は、項目「X1」、「X2」、及び「X5」を特徴量として選択する。選択部14は、データセットに含まれる複数の項目、及び特徴量として選択した項目の情報を受付部15へ受け渡す。
The
受付部15は、データセットに含まれる複数の項目の各々を、特徴量として選択されたか否かを示す情報と共に、例えばモデル設計の担当者に提示する。そして、受付部15は、いずれかの項目に対する、特徴量としての選択の追加又は解除を担当者から受け付ける。
The
例えば、受付部15は、図13に示すような受付画面35を表示装置に表示する。図13の例では、受付画面35には、整形処理後のデータセットのファイル名が表示されるファイル名領域36と、特徴量選択の追加又は解除の受け付け、及び確定を指示するための受付領域37とが含まれる。受付領域37には、複数の項目の各々が、特徴量として選択されているか否かを修正可能な状態で表示される。また、受付領域37には、特徴量の選択を確定する際に押下される確定ボタンが表示される。図13の例では、特徴量として選択されている項目に対応付けてチェックマークが表示されている。
For example, the
担当者は、特徴量の選択を追加する場合には、図13の下段の破線部に示すように、該当の項目にチェックマークを付与する。また、担当者は、特徴量の選択を解除する場合には、該当の項目のチェックマークを取り消す。担当者は、特徴量の選択の修正を終えると、確定ボタンを押下する。これにより、受付部15は、特徴量選択の確定情報を受け付け、出力する。また、受付部15は、特徴量として選択された項目のうち、選択部14により選択された項目以外の項目、すなわち、担当者により特徴量としての選択が追加された項目の情報を更新部16へ受け渡す。図13の例では、特徴量選択の確定情報として、項目「X1」、「X2」、「X3」、及び「X5」が出力され、選択が追加された項目として項目「X3」の情報が更新部16へ受け渡される。
When adding the selection of the feature amount, the person in charge adds a check mark to the corresponding item as shown by the broken line portion in the lower part of FIG. In addition, the person in charge cancels the check mark of the corresponding item when deselecting the feature amount. When the person in charge finishes modifying the selection of the feature amount, he / she presses the confirm button. As a result, the
更新部16は、担当者により選択が追加された項目を引数とする整形処理関数を、優先項目DB22に追加する。具体的には、更新部16は、図14に示すように、追加された項目をキーとして、該当のデータセットについての整形処理履歴データの「引数」を検索し、追加された項目が引数に含まれる整形処理関数を抽出する。更新部16は、抽出した整形処理関数をキーとして、優先項目DB22の「整形処理関数」を検索する。そして、更新部16は、キーとした整形処理関数が優先項目DB22に登録されていない場合、その整形処理関数及び優先項目対象引数を優先項目DB22に追加する。優先項目対象引数は、担当者により選択が追加された項目である。図14の例では、追加された項目「X3」を「チェック項目名」という引数とする整形処理関数「数値型値チェック」が抽出される。そして、更新前の優先項目DB22には、「数値型値チェック」は登録されていないため、「数値型値チェック」及びその優先項目対象引数「チェック項目名」が優先項目DB22に追加される。
The
特徴量選択装置10は、例えば図15に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
The feature
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、特徴量選択装置10として機能させるための特徴量選択プログラム50が記憶される。特徴量選択プログラム50は、整形プロセス51と、取得プロセス52と、抽出プロセス53と、選択プロセス54と、受付プロセス55と、更新プロセス56とを有する。
The
CPU41は、特徴量選択プログラム50を記憶部43から読み出してメモリ42に展開し、特徴量選択プログラム50が有するプロセスを順次実行する。CPU41は、整形プロセス51を実行することで、図1に示す整形部11として動作する。また、CPU41は、取得プロセス52を実行することで、図1に示す取得部12として動作する。また、CPU41は、抽出プロセス53を実行することで、図1に示す抽出部13として動作する。また、CPU41は、選択プロセス54を実行することで、図1に示す選択部14として動作する。また、CPU41は、受付プロセス55を実行することで、図1に示す受付部15として動作する。また、CPU41は、更新プロセス56を実行することで、図1に示す更新部16として動作する。また、CPU41は、各プロセスの実行時に、整形処理履歴DB21及び優先項目DB22の各々をメモリ42に展開する。これにより、特徴量選択プログラム50を実行したコンピュータ40が、特徴量選択装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
The
なお、特徴量選択プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
The function realized by the feature
次に、本実施形態に係る特徴量選択装置10の作用について説明する。学習データに含める特徴量の選択処理が指示されると、特徴量選択装置10において、図16に示す特徴量選択処理が実行される。なお、特徴量選択処理は、開示の技術の特徴量選択方法の一例である。
Next, the operation of the feature
ステップS11で、整形部11が、整形処理前のデータセットを読み込む。 In step S11, the shaping unit 11 reads the data set before the shaping process.
次に、ステップS12で、整形部11が、データセットに対して実行する整形処理関数、及び整形処理関数の引数となる項目の指定を受け付け、読み込んだ整形処理前のデータセットに対して、指定された項目を引数として、指定された整形処理関数を実行する。そして、整形部11が、データセットに対して実行した整形処理関数と、その引数となった項目とを対応付けた整形処理履歴データを、整形処理履歴DB21に記憶する。
Next, in step S12, the shaping unit 11 accepts the specification of the shaping processing function to be executed for the data set and the item to be the argument of the shaping processing function, and specifies the read data set before the shaping process. Executes the specified formatting function with the specified item as an argument. Then, the shaping process history data in which the shaping process function executed for the data set and the item as an argument thereof are associated with each other is stored in the shaping
次に、ステップS13で、取得部12が、整形部11から整形処理済みのデータセットを取得し、整形処理履歴DB21から、取得した整形処理済みのデータセットについての整形処理履歴データを取得し、外部の記憶装置に記憶された優先項目DB22を取得する。そして、取得部12が、取得した情報を抽出部13へ受け渡す。抽出部13は、取得部12から受け渡された整形処理履歴データに基づいて、整形処理済みのデータセットに含まれる複数の項目から、優先項目DB22で定義された優先項目対象引数に対応する項目を、そのデータセットにおける優先項目として抽出する。抽出部13は、抽出した優先項目の情報、及び整形処理済みのデータセットを選択部14へ受け渡す。
Next, in step S13, the
次に、ステップS14で、選択部14が、抽出部13から受け渡された優先項目と、整形処理済みのデータセットに含まれる複数の項目のうち、優先項目以外の他の項目の各々との相関を示す指標(例えば相関係数)を算出する。
Next, in step S14, the
次に、ステップS15で、選択部14が、まず、優先項目を、学習データに含める特徴量として選択する。さらに、選択部14が、算出した相関を示す指標が予め定められた閾値より低い他の項目を、学習データに含める特徴量として選択する。選択部14は、データセットに含まれる複数の項目、及び特徴量として選択した項目の情報を受付部15へ受け渡す。
Next, in step S15, the
次に、ステップS16で、受付部15が、データセットに含まれる複数の項目の各々が、特徴量として選択されているか否かを修正可能な状態で表示した受付画面35を表示装置に表示する。そして、受付部15が、受付画面35を介して、いずれかの項目に対する、特徴量としての選択の追加又は解除、すなわち、特徴量の選択の修正を担当者から受け付ける。
Next, in step S16, the
次に、ステップS17で、受付部15が、受付画面35において確定ボタンが押下された際に特徴量として選択されている項目の情報を受け付け、特徴量選択の確定情報として出力する。また、受付部15が、担当者により特徴量としての選択が追加された項目の情報を更新部16へ受け渡す。
Next, in step S17, the
次に、ステップS18で、更新部16が、担当者により選択が追加された項目を引数とする整形処理関数が優先項目DB22に登録されていない場合には、その整形処理関数及び優先項目対象引数を優先項目DB22に追加する。これにより、優先項目DB22が更新され、特徴量選択処理は終了する。
Next, in step S18, if the shaping processing function having the item to which the selection has been added by the person in charge as an argument is not registered in the
以上説明したように、本実施形態に係る特徴量選択装置は、データセットに対して整形処理を実行すると共に、整形処理の履歴を記憶する。そして、特徴量選択装置は、整形処理の履歴、及び特定の整形処理関数の引数となる特定の項目が優先項目として定義された優先項目DBに基づいて、整形処理済みのデータセットに含まれる複数の項目から、優先項目を抽出し、特徴量として選択する。これにより、正解データを必要とすることなく、データセットに含まれる項目から、効果的な機械学習を行うための特徴量を選択することができる。 As described above, the feature amount selection device according to the present embodiment executes the shaping process on the data set and stores the history of the shaping process. Then, the feature quantity selection device includes a plurality of shaped data sets included in the shaped data set based on the history of the shaping process and the priority item DB in which the specific item as an argument of the specific shaping process function is defined as the priority item. Priority items are extracted from the items of and selected as features. As a result, it is possible to select a feature amount for effective machine learning from the items included in the data set without requiring correct answer data.
また、本実施形態に係る特徴量選択装置は、優先項目との相関が低い他の項目も特徴量として選択する。これにより、多重共線性の発生を回避しつつ、学習データに含める特徴量をさらに選択することができる。なお、優先項目のみで学習データに含める特徴量として数が足りている場合などには、優先項目との相関が低い他の項目も特徴量として選択する処理は必ずしも行う必要はない。 Further, the feature amount selection device according to the present embodiment also selects other items having a low correlation with the priority item as the feature amount. This makes it possible to further select the features to be included in the training data while avoiding the occurrence of multicollinearity. When the number of feature quantities to be included in the learning data is sufficient only for the priority items, it is not always necessary to perform the process of selecting other items having a low correlation with the priority items as the feature quantities.
また、本実施形態に係る特徴量選択装置は、選択した特徴量に対する修正を受け付けて、特徴量の選択を確定させる。これにより、例えば、モデル設計の担当者等の判断を踏まえた特徴量を選択することができる。なお、特徴量選択の修正を受け付けることは必須ではなく、選択部により選択された特徴量を、特徴量選択の確定情報として出力してもよい。 Further, the feature amount selection device according to the present embodiment accepts modifications to the selected feature amount and confirms the selection of the feature amount. Thereby, for example, the feature amount can be selected based on the judgment of the person in charge of model design or the like. It is not essential to accept the modification of the feature amount selection, and the feature amount selected by the selection unit may be output as the confirmation information of the feature amount selection.
また、本実施形態に係る特徴量選択装置は、担当者により特徴量としての選択が追加された項目、及びその項目を引数とする整形処理関数を優先項目DBに追加する。これにより、優先項目DBを業務等の実態に沿って更新することができる。なお、優先項目DBの更新は必須ではない。また、担当者による特徴量としての選択の追加が行われる都度、優先項目DBを更新するのではなく、同一の項目について、選択の追加が所定回数行われた段階で優先項目DBの更新を行うようにしてもよい。 Further, the feature amount selection device according to the present embodiment adds an item to which the person in charge has added selection as a feature amount and a shaping processing function having the item as an argument to the priority item DB. As a result, the priority item DB can be updated according to the actual situation of business and the like. It is not essential to update the priority item DB. Also, instead of updating the priority item DB each time the person in charge adds a selection as a feature amount, the priority item DB is updated when the selection is added a predetermined number of times for the same item. You may do so.
また、上記実施形態では、特徴量選択装置がデータセットに対する整形処理を実行する場合について説明したが、これに限定されない。例えば、外部装置で整形処理が実行されると共に、整形処理履歴データが記憶されていてもよい。この場合、特徴量選択装置から整形部の構成を省き、取得部が、外部装置から整形処理済みのデータセット及び整形処理履歴DBを読み込むようにすればよい。 Further, in the above embodiment, the case where the feature amount selection device executes the shaping process for the data set has been described, but the present invention is not limited to this. For example, the shaping process may be executed by an external device and the shaping process history data may be stored. In this case, the configuration of the shaping unit may be omitted from the feature amount selection device, and the acquisition unit may read the data set having been shaped and the shaping processing history DB from the external device.
また、上記実施形態で例示した整形処理関数は一例である。 Further, the shaping processing function exemplified in the above embodiment is an example.
また、上記実施形態では、特徴量選択プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。 Further, in the above embodiment, the embodiment in which the feature amount selection program is stored (installed) in the storage unit in advance has been described, but the present invention is not limited to this. The program according to the disclosed technology can also be provided in a form stored in a storage medium such as a CD-ROM, a DVD-ROM, or a USB memory.
以上の実施形態に関し、さらに以下の付記を開示する。 The following additional notes are further disclosed with respect to the above embodiments.
(付記1)
複数の特徴量を含み、かつ整形処理が実行されたデータセットと、前記整形処理の履歴と、特定の整形処理において引数となる特定の特徴量が定義された特定情報とを取得し、
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する
ことを含む処理をコンピュータに実行させるための特徴量選択プログラム。
(Appendix 1)
A data set containing a plurality of feature quantities and for which shaping processing has been executed, a history of the shaping processing, and specific information in which a specific feature quantity as an argument in a specific shaping process is defined are acquired.
Based on the acquired history of the shaping process, a computer performs a process including selecting a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set. Feature selection program to be executed by.
(付記2)
前記特定の特徴量に対応する特徴量として選択された第1の特徴量と、前記データセットに含まれる前記複数の特徴量のうち、前記第1の特徴量以外の第2の特徴量の各々との相関を示す指標を算出し、前記第1の特徴量と共に、前記指標が予め定められた閾値より低い前記第2の特徴量を選択する付記1に記載の特徴量選択プログラム。
(Appendix 2)
Each of the first feature amount selected as the feature amount corresponding to the specific feature amount and the second feature amount other than the first feature amount among the plurality of feature amounts included in the data set. The feature amount selection program according to Appendix 1, which calculates an index showing a correlation with and selects the second feature amount whose index is lower than a predetermined threshold value together with the first feature amount.
(付記3)
前記複数の特徴量の各々を、選択されたか否かを示す情報と共にユーザに提示し、いずれかの特徴量に対する選択の追加又は解除を受け付けることをさらに含む処理を前記コンピュータに実行させるための付記1又は付記2に記載の特徴量選択プログラム。
(Appendix 3)
An appendix for presenting each of the plurality of feature quantities to the user together with information indicating whether or not the feature quantity has been selected, and causing the computer to perform a process further including accepting addition or cancellation of selection for any of the feature quantities. The feature amount selection program described in 1 or Appendix 2.
(付記4)
ユーザにより選択の追加が行われた特徴量を引数とする整形処理を、前記特定情報に追加することをさらに含む処理を前記コンピュータに実行させるための付記3に記載の特徴量選択プログラム。
(Appendix 4)
The feature amount selection program according to Appendix 3 for causing the computer to perform a process including adding to the specific information a shaping process using a feature amount to which a selection has been added by a user as an argument.
(付記5)
整形処理前のデータセットに対して整形処理を実行し、前記整形処理の履歴を所定の記憶部に記憶することをさらに含む処理を前記コンピュータに実行させるための付記1~付記4のいずれか1項に記載の特徴量選択プログラム。
(Appendix 5)
Any one of Supplementary note 1 to Supplementary note 4 for executing a shaping process on the data set before the shaping process and further causing the computer to perform a process including storing the history of the shaping process in a predetermined storage unit. Feature selection program described in section.
(付記6)
複数の特徴量を含み、かつ整形処理が実行されたデータセットと、前記整形処理の履歴と、特定の整形処理において引数となる特定の特徴量が定義された特定情報とを取得する取得部と、
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する選択部と、
を含む特徴量選択装置。
(Appendix 6)
A data set that includes a plurality of feature quantities and has been subjected to shaping processing, a history of the shaping processing, and an acquisition unit that acquires specific information in which a specific feature quantity that is an argument in a specific shaping process is defined. ,
A selection unit that selects a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set based on the acquired history of the shaping process.
Feature quantity selection device including.
(付記7)
前記選択部は、前記特定の特徴量に対応する特徴量として選択された第1の特徴量と、前記データセットに含まれる前記複数の特徴量のうち、前記第1の特徴量以外の第2の特徴量の各々との相関を示す指標を算出し、前記第1の特徴量と共に、前記指標が予め定められた閾値より低い前記第2の特徴量を選択する付記6に記載の特徴量選択装置。
(Appendix 7)
The selection unit includes a first feature amount selected as a feature amount corresponding to the specific feature amount, and a second feature amount other than the first feature amount among the plurality of feature amounts included in the data set. The feature amount selection according to Appendix 6, which calculates an index showing the correlation with each of the feature amounts of, and selects the second feature amount whose index is lower than a predetermined threshold value together with the first feature amount. Device.
(付記8)
前記複数の特徴量の各々を、選択されたか否かを示す情報と共にユーザに提示し、いずれかの特徴量に対する選択の追加又は解除を受け付ける受付部をさらに含む付記6又は付記7に記載の特徴量選択装置。
(Appendix 8)
The feature according to Appendix 6 or Appendix 7, further including a reception unit that presents each of the plurality of feature quantities to the user together with information indicating whether or not the feature quantity has been selected, and accepts addition or cancellation of selection for any of the feature quantities. Quantity selection device.
(付記9)
ユーザにより選択の追加が行われた特徴量を引数とする整形処理を、前記特定情報に追加する更新部をさらに含む付記8に記載の特徴量選択装置。
(Appendix 9)
The feature amount selection device according to Appendix 8, further including an update unit for adding a shaping process using a feature amount to which a selection has been made by a user as an argument to the specific information.
(付記10)
整形処理前のデータセットに対して整形処理を実行し、前記整形処理の履歴を所定の記憶部に記憶する整形部をさらに含む付記6~付記9のいずれか1項に記載の特徴量選択装置。
(Appendix 10)
The feature amount selection device according to any one of Supplementary note 6 to Supplementary note 9, which further includes a shaping unit that executes shaping processing on the data set before shaping processing and stores the history of the shaping process in a predetermined storage unit. ..
(付記11)
複数の特徴量を含み、かつ整形処理が実行されたデータセットと、前記整形処理の履歴と、特定の整形処理において引数となる特定の特徴量が定義された特定情報とを取得し、
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する
ことを含む処理をコンピュータが実行する特徴量選択方法。
(Appendix 11)
A data set containing a plurality of feature quantities and for which shaping processing has been executed, a history of the shaping processing, and specific information in which a specific feature quantity as an argument in a specific shaping process is defined are acquired.
Based on the acquired history of the shaping process, a computer performs a process including selecting a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set. Feature selection method to be executed by.
(付記12)
前記特定の特徴量に対応する特徴量として選択された第1の特徴量と、前記データセットに含まれる前記複数の特徴量のうち、前記第1の特徴量以外の第2の特徴量の各々との相関を示す指標を算出し、前記第1の特徴量と共に、前記指標が予め定められた閾値より低い前記第2の特徴量を選択する付記11に記載の特徴量選択方法。
(Appendix 12)
Each of the first feature amount selected as the feature amount corresponding to the specific feature amount and the second feature amount other than the first feature amount among the plurality of feature amounts included in the data set. The feature amount selection method according to Appendix 11, wherein an index showing a correlation with the above is calculated, and the second feature amount whose index is lower than a predetermined threshold is selected together with the first feature amount.
(付記13)
前記複数の特徴量の各々を、選択されたか否かを示す情報と共にユーザに提示し、いずれかの特徴量に対する選択の追加又は解除を受け付けることをさらに含む処理を前記コンピュータが実行する付記11又は付記12に記載の特徴量選択方法。
(Appendix 13)
Appendix 11 or, the computer performs a process including presenting each of the plurality of feature quantities to the user together with information indicating whether or not the feature quantity has been selected, and accepting addition or cancellation of selection for any of the feature quantities. The feature amount selection method according to
(付記14)
ユーザにより選択の追加が行われた特徴量を引数とする整形処理を、前記特定情報に追加することをさらに含む処理を前記コンピュータが実行する付記13に記載の特徴量選択方法。
(Appendix 14)
The feature amount selection method according to
(付記15)
整形処理前のデータセットに対して整形処理を実行し、前記整形処理の履歴を所定の記憶部に記憶することをさらに含む処理を前記コンピュータが実行する付記11~付記14のいずれか1項に記載の特徴量選択方法。
(Appendix 15)
Item 1. Described feature quantity selection method.
(付記16)
複数の特徴量を含み、かつ整形処理が実行されたデータセットと、前記整形処理の履歴と、特定の整形処理において引数となる特定の特徴量が定義された特定情報とを取得し、
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する
ことを含む処理をコンピュータに実行させるための特徴量選択プログラムを記憶した記憶媒体。
(Appendix 16)
A data set containing a plurality of feature quantities and for which shaping processing has been executed, a history of the shaping processing, and specific information in which a specific feature quantity as an argument in a specific shaping process is defined are acquired.
Based on the acquired history of the shaping process, a computer performs a process including selecting a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set. A storage medium that stores a feature selection program to be executed by a computer.
10 特徴量選択装置
11 整形部
12 取得部
13 抽出部
14 選択部
15 受付部
16 更新部
21 整形処理履歴DB
22 優先項目DB
30 整形処理画面
35 受付画面
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 特徴量選択プログラム
10 Feature amount selection device 11
22 Priority item DB
30
42
Claims (7)
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する
ことを含む処理をコンピュータに実行させるための特徴量選択プログラム。 A data set containing a plurality of feature quantities and for which shaping processing has been executed, a history of the shaping processing, and specific information in which a specific feature quantity as an argument in a specific shaping process is defined are acquired.
Based on the acquired history of the shaping process, a computer performs a process including selecting a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set. Feature selection program to be executed by.
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する選択部と、
を含む特徴量選択装置。 A data set that includes a plurality of feature quantities and has been subjected to shaping processing, a history of the shaping processing, and an acquisition unit that acquires specific information in which a specific feature quantity that is an argument in a specific shaping process is defined. ,
A selection unit that selects a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set based on the acquired history of the shaping process.
Feature quantity selection device including.
取得した前記整形処理の履歴に基づいて、前記データセットに含まれる前記複数の特徴量から、前記特定情報で定義された前記特定の特徴量に対応する特徴量を選択する
ことを含む処理をコンピュータが実行する特徴量選択方法。 A data set containing a plurality of feature quantities and for which shaping processing has been executed, a history of the shaping processing, and specific information in which a specific feature quantity as an argument in a specific shaping process is defined are acquired.
Based on the acquired history of the shaping process, a computer performs a process including selecting a feature amount corresponding to the specific feature amount defined in the specific information from the plurality of feature amounts included in the data set. Feature selection method to be executed by.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020132646A JP2022029347A (en) | 2020-08-04 | 2020-08-04 | Feature selection program, device, and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020132646A JP2022029347A (en) | 2020-08-04 | 2020-08-04 | Feature selection program, device, and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022029347A true JP2022029347A (en) | 2022-02-17 |
Family
ID=80271394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020132646A Withdrawn JP2022029347A (en) | 2020-08-04 | 2020-08-04 | Feature selection program, device, and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022029347A (en) |
-
2020
- 2020-08-04 JP JP2020132646A patent/JP2022029347A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3462346A1 (en) | Design support device and design support method | |
CN108228861B (en) | Method and system for performing feature engineering for machine learning | |
JP7257169B2 (en) | data analyzer | |
JP6542612B2 (en) | Test scenario generation support apparatus and test scenario generation support method | |
JP2001060150A (en) | Automatic data processing program generation system, method therefor and computer readable recording medium | |
JP2015162090A (en) | Fault diagnosis method and fault diagnosis apparatus | |
JP2016091417A (en) | Abnormality diagnostic method, abnormality diagnostic apparatus and abnormality diagnostic program | |
JP2019219848A (en) | Source code analysis method and source code analysis device | |
JP2022032230A (en) | Field data monitoring device, field data monitoring method, and field data display device | |
JP2019125198A (en) | Analysis model creation system, programming device, and analysis model creation method | |
JP2022029347A (en) | Feature selection program, device, and method | |
JP7246957B2 (en) | Data analysis device and data analysis method | |
JP6502816B2 (en) | Planning support system and planning support method | |
JPWO2009011057A1 (en) | Application analysis program, application analysis method, and application analysis apparatus | |
CN116266188A (en) | Information extraction device, information extraction method, and storage medium | |
JP4899544B2 (en) | Program analysis method, program, and program analysis apparatus | |
JP7457392B2 (en) | Document processing method, document processing program, and information processing device | |
JP4308113B2 (en) | Data analysis apparatus and method, and program | |
JP6775740B1 (en) | Design support device, design support method and design support program | |
JP6157375B2 (en) | Operation procedure flow update device, method and program | |
JP6852002B2 (en) | Data search method, data search device and program | |
CN109019217B (en) | Elevator control software field debugging system | |
JP2022002029A (en) | Data analysis system, data analysis method, and data analysis program | |
US20220317869A1 (en) | Storage medium, screen generation assisting apparatus, and generation assisting method | |
JP4738041B2 (en) | Conversion rule correction program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230511 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20240129 |