JP7068085B2

JP7068085B2 - 特徴量生成装置および特徴量生成方法

Info

Publication number: JP7068085B2
Application number: JP2018137210A
Authority: JP
Inventors: 淳一平山; 進芹田; 文也工藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2022-05-16
Anticipated expiration: 2038-07-20
Also published as: JP2020013511A

Description

本発明は特徴量生成装置および特徴量生成方法に関し、例えば目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成装置および特徴量生成方法に適用して好適なものである。

近年、ビッグデータと呼ばれる大量のデータを分析し、今まで人が勘と経験で行ってきた意思決定を支援するシステムの開発が急速に発展してきている。これらのデータ分析は、テーブル形式のデータに対して行われることが多い。例えば、ある目的変数を変動させる他の説明変数が何であるかを見つけ出すための相関分析、説明変数群の値から目的変数の値を予測する回帰分析といった機械学習・統計分析を主な手法としている。また、説明変数になんらかの加工を施した変数を新たな説明変数とすることもある。

近年、あるイベントの発生有無を示す説明変数に対し、全ての説明変数の組合せを網羅的に計算した特徴量群を生成し、その中から目的変数に寄与する特徴量を抽出する技術が開示されている（特許文献１参照）。

特開２０１７－１０２９３７号公報

特許文献１に記載の特徴量の計算においては、入力テーブルとして入力された全ての説明変数に対して取り得る全ての組合せを網羅的に計算している。そのため、説明変数の数が多くなるにつれて、計算される特徴量の数が指数関数的に増大（組合せ爆発）する。

説明変数の数＝ｎ、組合せ数＝ｒとした場合、計算される特徴量の数は、ｎＣｒ＋ｎＣ（ｒ－１）＋ｎＣ（ｒ－２）＋・・・＋ｎＣ１となる。例えば、ｎ＝１００、ｒ＝３の場合、特徴量の数は、１６６７５０個となり、計算時間が膨大になる可能性がある。

このような計算時間の膨大は、データ分析者にとって、分析サイクル時間の増大につながっている。また、入力テーブルに入力する説明変数の数を意図的に少なくするような事前作業により、組合せ爆発を回避するなどの作業工数のため、分析コストの増大につながっている。更に、組合せ爆発により、計算機に必要なメモリが膨大になり、計算コストの増大につながっている。

本発明は以上の点を考慮してなされたもので、目的変数に対する相関の大きい特徴量を生成するための計算量を削減し得る特徴量生成装置等を提案しようとするものである。

かかる課題を解決するため本発明においては、例えば、目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、前記目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成部を備え、前記特徴量生成部は、前記複数の説明変数から生成し得る複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成するようにした。

上記構成では、複数の特徴量からしきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成するので、目的変数に対する相関の大きい特徴量を生成するための計算量を削減することができる。

本発明によれば、目的変数に対する相関の大きい特徴量を適切に生成することができる。

第１の実施の形態による特徴量選択システムに係る構成の一例を示す図である。第１の実施の形態による特徴量抽出を説明するためのデータの一例を示す図である。第１の実施の形態による特徴量抽出を説明するためのデータの一例を示す図である。第１の実施の形態による特徴量抽出を説明するためのデータの一例を示す図である。第１の実施の形態による特徴量選択システムの全体フローを説明するための図である。第１の実施の形態による特徴量生成部の処理の流れを説明するための模式図である。第１の実施の形態による特徴量生成部が実行する処理に係るフローチャートの一例を示す図である。第１の実施の形態による散布図の一例を示す図である。第１の実施の形態による散布図の一例を示す図である。第１の実施の形態による散布図の一例を示す図である。第１の実施の形態による相関がなるべく大きくなるときの移動先の点群の考え方について補足するための図である。第１の実施の形態による相関見込み値の計算処理に係るフローチャートの一例を示す図である。第１の実施の形態による移動境界直線の計算処理に係るフローチャートの一例を示す図である。第１の実施の形態による移動境界直線のパラメータの定め方の例を示す図である。

以下図面について、本発明の一実施の形態を詳述する。

本実施の形態に示す技術は、データ分析技術およびデータマイニング技術に関するものである。例えば、テーブル形式で蓄積されたデータに対して、目的変数に関連のある説明変数を抽出する技術に関する。特に、相関分析を用いることで、ユーザが指定した目的変数に対する相関の大きい特徴量（説明変数の組合せ）を抽出する特徴量抽出に関する。

本実施の形態によれば、例えば、説明変数同士の組合せからなる特徴量を計算する際に、より少ない時間で、目的変数に対する相関の高い特徴量を抽出することができる。また、本実施の形態によれば、例えば、目的変数に対する相関の高い特徴量を抽出する際に、より少ない特徴量の計算回数で、同様の抽出結果を得ることができる。

以下では、便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下では、要素の数等（個数、数値、量、範囲等を含む。）に言及する場合、特に明示した場合、原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。

（１）第１の実施の形態
図１において、１は全体として第１の実施の形態による特徴量選択システムを示す。

特徴量選択システム１は、目的変数に関連のある特徴量を生成して抽出するシステムであり、特徴量選択装置１００と、記憶装置１１０と、プリンタ１２０とを含んで構成される。特徴量選択装置１００と、記憶装置１１０と、プリンタ１２０とは、ネットワーク１３０を介して通信可能に接続されている。

特徴量選択装置１００は、目的変数に関連のある特徴量を生成する処理などを行う特徴量生成装置の一例であり、ノートパソコン、サーバ装置などである。特徴量選択装置１００は、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、出力装置１０４、入力装置１０５、通信装置１０６などを含んで構成される。ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、出力装置１０４、入力装置１０５、および通信装置１０６は、内部バス１０７を介して接続されている。

特徴量選択装置１００の機能（後述の特徴量生成部５１０、相関係数計算部５２０、特徴量抽出部５３０など）は、例えば、ＣＰＵ１０１がＲＯＭ１０２に格納されたプログラムをＲＡＭ１０３に読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、特徴量選択装置１００の機能の一部は、特徴量選択装置１００と通信可能な他のコンピュータにより実現されてもよい。

出力装置１０４は、例えばディスプレイであり、各種の情報（例えば、特徴量選択装置１００で選択された特徴量）を出力する。入力装置１０５は、キーボード、ポインティングデバイスなどであり、各種の情報（例えば、後述のユーザ設定５４０）を入力する。通信装置１０６は、例えば、ＮＩＣ（Network Interface Card）から構成され、記憶装置１１０、プリンタ１２０との通信時における制御を行う。

記憶装置１１０は、例えば、ストレージ装置であり、各種のデータを格納するＤＢ（database）１１１を備える。ＤＢ１１１には、例えば、本実施の形態に係るデータを格納する入力テーブルが格納される。なお、入力テーブルについては、図２～図４を用いて説明する。

プリンタ１２０は、各種の情報（例えば、特徴量選択装置１００で選択された特徴量）を紙などの媒体に印刷する。

なお、図１では、特徴量選択装置１００で選択された特徴量を出力する出力先の例として、出力装置１０４およびプリンタ１２０を示したが、これらに限られるものではない。例えば、出力先としては、特徴量選択装置１００と通信可能な他のコンピュータであってもよいし、特徴量を利用するソフトウェアであってもよい。

図２～図４は、特徴量抽出を説明するためのデータの一例（入力テーブル、特徴量テーブル、相関テーブル、特徴量抽出結果など）を示す図である。なお、以下では、入力テーブルは、記憶装置１１０のＤＢ１１１に記憶され、特徴量テーブル、相関テーブル、および特徴量抽出結果は、特徴量選択装置１００のＲＡＭ１０３に記憶される場合を例に挙げて説明するが、これに限られるものではない。本実施の形態に係るデータは、任意の記憶装置に記憶可能である。

図２に示すように、入力テーブル２１０は、目的変数のカラム（例えば、売上高２１１）と、説明変数のカラム（例えば、イベントＡ２１２～イベントＮ２１４）とを含んで構成される。

目的変数の値は、任意の実数である。説明変数の値は、ある事象が起きたか起きなかったかを示す「０」または「１」の論理値である。

相関テーブル２２０は、入力テーブル２１０の全ての説明変数に対して、目的変数との相関（寄与度）を計算した値（相関係数）を格納するテーブルである。相関係数は、基本的には、単位が無く、「－１」から「１」の間の実数値をとり、相関係数が正のときは２つの確率変数には、正の相関があることを示し、相関係数が負のときは２つの確率変数には、負の相関があることを示す。

相関テーブル２２０に格納された相関係数Ｒのうち、所定のしきい値（例えば、後述の相関係数目標値ＴＨ＿Ｒ）以上の相関係数Ｒを持つ特徴量が特徴量抽出結果２３０として出力される。

図２に示す例では、イベントＢ２１３が特徴量抽出結果２３０として出力され、これは、イベントＢ２１３が起きた場合に、目的変数である「売上高」が増えることを示す分析結果となる。

また、図３に示すように、説明変数群に対して、複数の説明変数の論理積をとった値を新たな特徴量として生成し、生成した特徴量に対して相関分析を実施することもある。

図２と図３との処理の違いは、主に、入力テーブル３１０から特徴量テーブル３２０が生成されることである。なお、その後、特徴量テーブル３２０に基づいて相関テーブル３３０が生成され、特徴量抽出結果３４０が出力される。

特徴量テーブル３２０には、入力テーブル３１０の説明変数群に対して、１つ以上の説明変数の論理積による組合せを求めた特徴量が含まれる。例えば、入力テーブル３１０の説明変数であるイベントＡ３１１とイベントＢ３１２との論理積による組合せをとった値は、特徴量テーブル３２０のイベント｛Ａ，Ｂ｝３２１になり、イベントＡ３１１とイベントＢ３１２とが同時に起こったことを示す特徴量｛Ａ，Ｂ｝になっている。

さらに図３に示す特徴量をあるイベントが発生したか発生しなかったかを示す「０」または「１」の論理値ではなく、あるイベントが発生する確率（発生確率）を示す値に置き換え、一般化して考えることもできる。

説明変数および特徴量については、図３に示す入力テーブル３１０と特徴量テーブル３２０とでは論理値のみしか扱っていなかったが、図４に示す入力テーブル４１０と特徴量テーブル４２０とでは、発生確率（「０」～「１」）を扱う。なお、確率であるため、特徴量同士の論理積による組合せは、それぞれの確率値の積で計算できる。

特徴量選択システム１には、図２～図４の何れの入力テーブル２１０，３１０，４１０にも適用可能であるが、以下では、図４に示す入力テーブル４１０を用いた場合を例に挙げて、特徴量選択システム１に係る処理を説明する。

図５は、特徴量選択システム１の全体フローを説明するための図である。図５に示すように、特徴量選択システム１における入力データは、入力テーブル４１０およびユーザ設定５４０である。また、出力データは、特徴量抽出結果４４０である。さらに、中間データとして特徴量テーブル４２０と相関テーブル４３０とがある。なお、入力テーブル４１０、特徴量テーブル４２０、相関テーブル４３０、および特徴量抽出結果４４０については、上述した入力テーブル３１０、特徴量テーブル３２０、相関テーブル３３０、および特徴量抽出結果３４０と同様である。

ユーザ設定５４０には、最大組合せ数Ｎと、相関係数目標値ＴＨ_Ｒとが含まれる。最大組合せ数Ｎは、最大いくつの説明変数の組合せからなる特徴量を計算するかを示す。相関係数目標値ＴＨ_Ｒは、計算された特徴量のうち目的変数に対する相関係数がいくつ以上の特徴量を抽出するかを示す。最大組合せ数Ｎおよび相関係数目標値ＴＨ_Ｒは、分析を始める前にユーザが事前設定する値である。

特徴量生成部５１０は、入力テーブル４１０に含まれる説明変数から、特徴量テーブル４２０を生成する。例えば、特徴量生成部５１０は、目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、目的変数との相関係数がしきい値（例えば、相関係数目標値ＴＨ＿Ｒ）以上になる特徴量を生成する。

相関係数計算部５２０は、特徴量テーブル４２０に含まれる全ての特徴量に対して、目的変数との相関係数を計算し、相関テーブル４３０に出力する。

特徴量抽出部５３０は、相関テーブル４３０に含まれる特徴量のうち、相関係数がユーザ設定５４０に含まれる相関係数目標値ＴＨ＿Ｒ以上の特徴量を抽出し、特徴量抽出結果４４０とする。

従来の方法では、特徴量生成部５１０において、最大組合せ数Ｎ以下の説明変数の特徴量を全て網羅的に計算していたため、組合せ爆発により計算量が膨大になるといった問題がある。

本実施の形態における特徴量選択システム１は、かかる問題を解決するための構成として、特徴量生成部５１０を採用する。特徴量生成部５１０が実行する処理について図６および図７を用いて説明する。

図６は、特徴量生成部５１０の処理の流れを説明するための模式図である。図７は、特徴量生成部５１０の特徴量生成処理に係るフローチャートの一例を示す図である。

図６に示すように、特徴量生成部５１０は、一度に全ての組合せを網羅計算せずに、１組合せ、２組合せ、３組合せ、・・・、と段階的に組合せ数を増やしながら、特徴量を生成（計算）することを特徴とする。

まず、特徴量生成部５１０は、入力テーブル４１０に含まれる全ての説明変数を１組合せリストＦ＿１（１組合せリスト６１０）とする。図６の例では、イベントＡ～イベントＥの発生確率を示す特徴量が該当する。

次に、特徴量生成部５１０は、１組合せリスト６１０に含まれる全ての特徴量に対して、他の任意の特徴量と組合せを取った際に、目的変数との間で取り得る相関係数が、ユーザ設定５４０に含まれる相関係数目標値ＴＨ＿Ｒ以上になるか否かを判定する。また、特徴量生成部５１０は、判定結果が相関係数目標値ＴＨ＿Ｒ未満のものを除去し、除去の結果残った１組合せリスト６１０内の特徴量を、１組合せ候補リストＣ＿１（１組合せ候補リスト６２０）に格納する。なお、図６に示す例では、特徴量生成部５１０は、１組合せリスト６１０から１組合せ候補リスト６２０を生成する際、イベントＢの特徴量｛Ｂ｝、イベントＥの特徴量｛Ｅ｝を除去している。

次に、特徴量生成部５１０は、１組合せ候補リスト６２０に含まれる特徴量同士の全ての組合せを作り、２組合せリストＦ＿２（２組合せリスト６３０）に格納する。１組合せ候補リスト６２０から２組合せリスト６３０を生成する際、１組合せ候補リスト６２０の３つの特徴量｛Ａ｝，｛Ｃ｝，｛Ｄ｝から２つを取り出した組合せである２組合せリスト６３０として特徴量｛Ａ，Ｃ｝，｛Ａ，Ｄ｝，｛Ｃ，Ｄ｝を作っている。例えば、特徴量｛Ａ，Ｃ｝は、イベントＡとイベントＣとが同時に起こったことを示している。

次に、特徴量生成部５１０は、１組合せ候補リスト６２０から２組合せリスト６３０を生成する場合と同様に、２組合せリスト６３０に含まれる全ての特徴量に対して、他の任意の特徴量と組合せを取った際に、目的変数との間で取り得る相関係数が、相関係数目標値ＴＨ＿Ｒ以上になるか否かを判定する。特徴量生成部５１０は、判定結果が相関係数目標値ＴＨ＿Ｒ未満の特徴量を除去し、除去の結果残った２組合せリスト６３０内の特徴量を、２組合せ候補リストＣ＿２（２組合せ候補リスト６４０）に格納する。なお、図６に示す例では、特徴量生成部５１０は、２組合せリスト６３０から２組合せ候補リスト６４０を生成する際、特徴量｛Ａ，Ｃ｝を除去している。

次に、特徴量生成部５１０は、２組合せ候補リスト６４０と１組合せ候補リスト６２０とに含まれる特徴量の全て組合せを計算し、計算の結果できた３組合せの特徴量を、３組合せリストＦ＿３（３組合せリスト６５０）に格納する。特徴量生成部５１０は、３組合せリスト６５０を生成する際、２組合せ候補リスト６４０の特徴量｛Ａ，Ｄ｝，｛Ｃ，Ｄ｝と１組合せ候補リスト６２０の特徴量｛Ａ｝，｛Ｃ｝，｛Ｄ｝とから、それぞれ１つずつ特徴量を取り出し、論理積の組合せをとった、３組合せリスト６５０の特徴量｛Ａ，Ｃ，Ｄ｝を生成している。

最後に、特徴量生成部５１０は、１組合せリスト６１０、２組合せリスト６３０、３組合せリスト６５０の和集合を取った全組合せリストＦ＿ＡＬＬ（全組合せリスト６６０）の特徴量｛Ａ｝，｛Ｂ｝，｛Ｃ｝，｛Ｄ｝，｛Ｅ｝，｛Ａ，Ｃ｝，｛Ａ，Ｄ｝，｛Ｃ，Ｄ｝，｛Ａ，Ｃ，Ｄ｝を特徴量生成結果として出力する。

このように、特徴量生成部５１０が段階的に組合せを生成し、次の組合せの計算に進む際、特徴量候補を判定することで枝刈りする構成について述べたが、本実施の形態は、これに限られるものではない。例えば、特徴量生成部５１０は、全ての段階で枝刈りをすることなく、所定の段階から進む際に枝刈り（例えば、１組合せリストＦ＿１のみから不要なものを枝刈り、２組合せリストＦ＿２のみから不要なものを枝刈り、１組合せリストＦ＿２と３組合せリストＦ＿３から不要なものを枝刈り等）するようにしてもよい。

つまり、特徴量生成部（例えば、特徴量生成部５１０）は、上記複数の説明変数から生成し得る複数の特徴量（例えば、１組合せリスト６１０の複数の特徴量、２組合せリスト６３０の複数の特徴量など）の各々について、一の特徴量（例えば、特徴量｛Ａ｝）と上記一の特徴量とは異なる任意の他の特徴量（例えば、特徴量｛＊｝）との組合せを取ったときの特徴量（例えば、特徴量｛Ａ，＊｝）と上記目的変数との間で取り得る相関係数が上記しきい値（例えば、相関係数目標値ＴＨ＿Ｒ）以上になるか否かを判定し、上記複数の特徴量から上記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せ（例えば、１組合せ候補リスト６２０と１組合せ候補リスト６２０との全組合せ、２組合せ候補リスト６４０と１組合せ候補リスト６２０との全組合せなど）を取った特徴量を新たな特徴量（例えば、２組合せリスト６３０、３組合せリスト６５０）として生成することを特徴とする。

上記構成では、一の特徴量の状態を見て、他の特徴量との組合せの相関係数がしきい値を超えるかを事前に判定し、複数の特徴量からしきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成するので、例えば、目的変数に対する相関の大きい特徴量を生成するための計算量を削減することができる。

図７を用いて特徴量生成部５１０が実行する処理について説明する。本フローチャートにおいて、ｋは、現在着目している組合せ数を示すものである。

まず、特徴量生成部５１０は、ｋ＝１としてｋを初期化する（ステップＳ７０１）。

ステップＳ７０２では、特徴量生成部５１０は、入力テーブル４１０の全ての説明変数を１組合せリストＦ＿１に登録する。

ステップＳ７０３では、特徴量生成部５１０は、現在着目している組合せ数ｋが、ユーザ設定５４０の最大組合せ数Ｎに達しているか否かを判定する。特徴量生成部５１０は、達していないと判定した場合、ステップＳ７０４に処理を移し、達していると判定した場合、ステップＳ７０８に処理を移す。

ステップＳ７０４では、特徴量生成部５１０は、ｋ組合せリストＦ＿ｋに含まれる全ての特徴量に対して、相関見込み値Ｒ＿ｍａｘを計算する。ここでは、特徴量生成部５１０は、実際に特徴量を組合せる前に、組合せ後の相関係数の上限値（例えば、相関見込み値Ｒ＿ｍａｘ）を計算している。なお、相関見込み値Ｒ＿ｍａｘの概念および計算方法については後述する。

ステップＳ７０５では、特徴量生成部５１０は、計算した相関見込み値Ｒ＿ｍａｘがユーザ設定５４０の相関係数目標値ＴＨ＿Ｒ以上であるか否かを判定する。特徴量生成部５１０は、相関見込み値Ｒ＿ｍａｘが相関係数目標値ＴＨ＿Ｒ以上の特徴量を、ｋ組合せリストＦ＿ｋから、ｋ組合せ候補リストＣ＿ｋにコピーする。

ステップＳ７０６では、特徴量生成部５１０は、１組合せ候補リストＣ＿１に含まれる特徴量と、現在着目しているｋ組合せ候補リストＣ＿ｋに含まれる特徴量との全ての組合せ（リストの直積）を計算し、計算結果を（ｋ＋１）組合せリストＦ＿（ｋ＋１）に登録する。このとき、特徴量生成部５１０は、組合せ数が（ｋ＋１）の特徴量を（ｋ＋１）組合せリストＦ＿（ｋ＋１）に登録し、組合せ数が（ｋ＋１）未満の特徴量については、（ｋ＋１）組合せリストＦ＿（ｋ＋１）に登録しない。

例えば、１組合せ候補リストＣ＿１の特徴量が｛Ａ｝，｛Ｄ｝，｛Ｅ｝であり、ｋ組合せ候補リストＣ＿ｋ（ここでは、ｋ＝２の場合を例に挙げて説明する。）の特徴量が｛Ａ，Ｂ｝，｛Ａ，Ｄ｝，｛Ｄ，Ｅ｝である場合、１組合せ候補リストＣ＿１と２組合せ候補リストＣ＿２の直積を計算すると、
Ｆ＿（３）
＝［｛Ａ，Ａ，Ｂ｝，｛Ａ，Ａ，Ｄ｝，｛Ａ，Ｄ，Ｅ｝，｛Ｄ，Ａ，Ｂ｝，｛Ｄ，Ａ，Ｄ｝，｛Ｄ，Ｄ，Ｅ｝，｛Ｅ，Ａ，Ｂ｝，｛Ｅ，Ａ，Ｄ｝，｛Ｅ，Ｄ，Ｅ｝］
＝［｛Ａ，Ｂ｝，｛Ａ，Ｄ｝，｛Ａ，Ｄ，Ｅ｝，｛Ａ，Ｄ，Ｂ｝，｛Ａ，Ｄ｝，｛Ｄ，Ｅ｝，｛Ａ，Ｂ，Ｅ｝，｛Ａ，Ｄ，Ｅ｝，｛Ｄ，Ｅ｝］
＝［｛Ａ，Ｂ｝，｛Ａ，Ｄ｝，｛Ｄ，Ｅ｝，｛Ａ，Ｂ，Ｅ｝，｛Ａ，Ｄ，Ｅ｝］
となる。組合せ数が「３」未満の特徴量は、登録しないため（１組合せ数、２組合せ数については登録しているため）、Ｆ＿（３）=［｛Ａ，Ｂ，Ｅ｝，｛Ａ，Ｄ，Ｅ｝］となる。

ステップＳ７０７では、特徴量生成部５１０は、現在着目している組合せ数ｋをｋ＋１として、１つインクリメントし、ステップＳ７０３に処理を移す。なお、ステップＳ７０３では、特徴量生成部５１０は、組合せ数ｋ＝最大組合せ数Ｎとなっている場合、ステップＳ７０８に処理を移す。

ステップＳ７０８では、特徴量生成部５１０は、これまで計算した組合せリストＦ＿１～Ｆ＿Ｎの和集合を求め、特徴量生成結果Ｆ＿ＡＬＬとして出力する。

このように、特徴量生成部（例えば、特徴量生成部５１０）は、説明変数の組合せ数がＮ（Ｎ≧２の整数）の特徴量を生成する際、説明変数の組合せ数がｋ（１≦ｋ<Ｎの整数）の複数の特徴量の各々について、一の特徴量と上記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と上記目的変数との間で取り得る相関係数（例えば、相関見込み値Ｒ＿ｍａｘ）が上記しきい値以上になるか否かを判定し、上記複数の特徴量から上記しきい値未満の特徴量を除去し、除去して残った説明変数の組合せ数が「１」の特徴量と除去して残った組合せ数がｋの特徴量との組合せを取った特徴量を説明変数の組合せ数がｋ＋１の新たな特徴量として生成する処理を、説明変数の組合せ数がＮの特徴量を生成するまでｋが１から順に繰り返すことを特徴とする。

かかる処理によれば、組合せ数を段階的に増やして特徴量を生成する際に、以降の段階でどのように組合せてもしきい値を超えない特徴量が事前に枝刈りされるので、効率よく特徴量を生成することができる。

次に、相関見込み値Ｒ＿ｍａｘの計算方法について説明する。図８および図９を用いて、相関見込み値Ｒ＿ｍａｘの計算ポイントについて説明する。

図８は、特徴量の発生確率を横軸ｘに、目的変数の値を縦軸ｙにとった散布図の一例を示す図である。図８に示す散布図は、特徴量テーブル４２０に示す特徴量ごとに生成され、特徴量の各レコードの値が、散布図上の点群の１点１点に対応する。散布図における点（ｙｉ，ｘｉ）は、ｉ番目のレコードに対応する点を示す。ｙｉは、任意の実数であり、ｘｉは、「０．０」～「１．０」の値である。

図８では、特徴量｛Ａ｝が存在し、さらに特徴量｛Ａ｝と他の任意の特徴量と組み合わせを取ることでできる特徴量｛Ａ，＊｝があることを考える。

グラフ８１０は、組合せ前の特徴量｛Ａ｝における点群（ｙｉ，ｘｉ）を示す。グラフ８２０は、組合せ後の特徴量｛Ａ，＊｝における点群（ｙｉ，ｘｉ^＊）を示す。本特徴量選択システム１では、特徴量同士の論理積を取ることによる組合せ生成を考えているため、ＡかつＢが同時に起こる確率は、ＡまたはＢがそれぞれ起こる確率よりも小さくなる。言い換えれば、ある特徴量｛Ａ｝と特徴量｛Ｂ｝とを組合せた特徴量｛Ａ，Ｂ｝の発生確率は、特徴量｛Ａ｝の単独の発生確率よりも小さな値となり、かつ、特徴量｛Ｂ｝の単独の発生確率よりも小さな値となる。

図８に示す散布図においては、組合せ後のグラフ８２０の点群（ｙｉ，ｘｉ^＊）は、組合せ前のグラフ８１０の点群（ｙｉ，ｘｉ）よりも、ｘ軸の小さな方向にしか存在せず、ｙ軸方向には変化がない。すなわち、０≦ｘｉ^＊≦ｘｉ、と表すことができる。この性質を用いて、組合せ前の特徴量｛Ａ｝に対する点群（ｙｉ，ｘｉ）から、他の任意の特徴量との組合せをとることで作った特徴量｛Ａ，＊｝に対する点群（ｙｉ，ｘｉ^＊）における、目的変数ｙｉと特徴量の発生確率ｘｉ^＊との相関係数Ｒ（ｙｉ，ｘｉ^＊）を考え、この相関係数Ｒ（ｙｉ，ｘｉ^＊）が取り得る大きな値を見積もることを考える。

図９は、図８同様に、特徴量の発生確率を横軸ｘに、目的変数の値を縦軸ｙにとった散布図の一例を示す図である。

ここで、グラフ９１０のような組合せ前のある特徴量｛Ａ｝に対する点群（ｙｉ，ｘｉ）があり、点群（ｙｉ，ｘｉ）の発生確率ｘｉを０≦ｘｉ^＊≦ｘｉの条件で移動させた際に、相関係数Ｒ（ｙｉ，ｘｉ^＊）がなるべく大きくなる移動パターンを考えると、例えば、グラフ９２０に示すような、ある移動境界直線ｙ＝ａｘ＋ｂへの移動が考えられる。

より具体的には、移動前の点群（ｙｉ，ｘｉ）を、移動境界直線ｙ＝ａｘ＋ｂを境として、グラフ上の右側（ｘ軸の大きい側）にある場合には、移動境界直線上に移動し、グラフ９２０上の左側（ｘ軸の小さい側）にある場合には、移動しない。また、ｘ＜０の範囲には移動できず、既にｘｉ＝０の点は、動かないことになる。数式で表せば、以下のようになる。
（数式１）
if yi ＞ b and xi ≦ (yi - b) ÷ a then xi^＊ = xi
if yi ＞ b and xi ＞ (yi - b) ÷ a then xi^＊ = (yi - b) ÷ a
if yi ≦ b then xi^＊ = 0

すなわち、本特徴量選択システム１では、例えば（数式１）を用いて、移動前の点群（ｙｉ，ｘｉ）から、移動後の点群（ｙｉ，ｘｉ^＊）が取り得る相関係数のなるべく大きな値を見積もることで、図７のステップＳ７０４、ステップＳ７０５に示すように、組合せ前のある特徴量｛Ａ｝を、ある任意の特徴量と組み合わせた際の特徴量｛Ａ，＊｝と、目的変数との相関係数である相関見込み値Ｒ＿ｍａｘが、目標値ＴＨ＿Ｒを超え得るか否かを事前に判断することができる。

また、以上の説明は、ある特徴量における目的変数と発生確率との相関係数にて、正の相関係数の大きい値を見積もる方法であるが、図１０のように、正相関の場合と同様の手順で（数式１）の代わりに（数式２）を用いて、負の相関係数の大きい値を見積もることができる。
（数式２）
if yi ＜ b and xi ≦ (yi - b) ÷ a then xi^＊ = xi
if yi ＜ b and xi ＞ (yi - b) ÷ a then xi^＊ = (yi - b) ÷ a
if yi ≧ b then xi^＊ = 0

なお、グラフ１０１０は、組合せ前の特徴量｛Ａ｝における点群（ｙｉ，ｘｉ）を示すグラフである。グラフ１０２０は、組合せ後の特徴量｛Ａ，＊｝における点群（ｙｉ，ｘｉ^＊）を示すグラフである。

図１１は、相関がなるべく大きくなるときの移動先の点群（ｙｉ，ｘｉ^＊）の考え方について補足するための図である。

ここで、グラフ１１１０のように点群（ｙｉ，ｘｉ）が散布しており、ｙｉの平均ｍｅａｎ（ｙｉ）とｘｉの平均ｍｅａｎ（ｘｉ）にて分割される４つの象限Ｉ～ＩＶがある状態を考える。また、ｘｉの平均ｍｅａｎ（ｘｉ）は、ある程度小さな状態を想定する。

図１１に示す一般的な相関係数の計算式１１２０に基づいて、グラフ１１１０の状態から正の相関がなるべく大きくなる状態を考えると、象限Ｉおよび象限ＩＩＩに点がなるべく多く存在し、象限ＩＩおよび象限ＩＶに点がなるべく少なく存在する状態となる。さらに、象限Ｉおよび象限ＩＩＩの点は、なるべく傾きの大きい直線に近い状態に並んでいる状態となる。一方、前述のように移動前の点群（ｙｉ，ｘｉ）と移動後の点群（ｙｉ，ｘｉ^＊）には、０≦ｘｉ^＊≦ｘｉの関係があり、これらを整理すると、各象限Ｉ～ＩＶにおいて、移動後の点群（ｙｉ，ｘｉ^＊）の相関がなるべく大きくなる状態は、例えば、下記のように整理できる（グラフ１１３０に図示）。

象限Ｉ：各点がなるべく傾きの大きい直線に近い状態に並ぶ。
象限ＩＩ：点が存在しない（すべて象限ＩＩＩに移動）。
象限ＩＩＩ：各点がなるべく傾きの大きい直線に近い状態に並ぶ。ただし、ｘｉ^＊＜０にはならないため、ｘｉ^＊＝０で下げ止まる。
象限ＩＶ：点がなるべく存在しない。ただし、移動前にｘｉ＝０に存在する点が移動できないのでそのまま存在する。

上記の性質より、正相関がなるべく大きくなるための点群（ｙｉ，ｘｉ）から（ｙｉ，ｘｉ^＊）の移動パターンとしては、例えば、点（ｙｉの平均，ｘｉの平均）を通り、かつ、傾きのなるべく大きい移動境界直線ｙ＝ａｘ＋ｂを考え、この移動境界直線に沿うように点群が移動した状態と考えることができる。

ただし、移動パターンは、点（ｙｉの平均，ｘｉの平均）を通る移動境界直線に限られるものではない。例えば、図１４に示すように移動境界直線を求めてもよいし、他の方法により移動境界直線を求めてもよい。また、移動パターンは、直線に限られるものではなく、曲線であってもよい。

また、上述の実施の形態においては、相関がなるべく大きくなるように点群（ｙｉ，ｘｉ）を移動するために移動境界直線を算出する場合について述べたが、本実施の形態は、これに限られるものではない。例えば、特徴量生成部５１０は、移動境界直線を算出することなく点群（ｙｉ，ｘｉ）を移動してもよい。上記の性質によると、より広義には、特徴量生成部５１０は、相関がなるべく大きくなるように、点群（ｙｉ，ｘｉ）において、ｙｉは、変更することなく、所定の値ｍ（例えば、０＜ｍ≦平均ｍｅａｎ（ｘｉ））より大きいｘｉを所定の値ｍに移動（例えば、平均ｍｅａｎ（ｘｉ）より大きいｘｉを平均ｍｅａｎ（ｘｉ）に移動）するようにしてもよい。

つまり、特徴量生成部（例えば、特徴量生成部５１０）は、上記複数の特徴量から上記しきい値未満の特徴量を除去する際、上記目的変数の値と上記一の特徴量の値とを示す点群に基づいて、上記一の特徴量と上記他の特徴量との組合せを取ったときの特徴量と上記目的変数との間で取り得る相関係数が十分に大きくなるように、上記目的変数の値を変更することなく上記一の特徴量の値を変更することで上記点群を移動し、移動した点群と上記目的変数との相関係数である相関見込み値を計算し、計算した相関見込み値が上記しきい値以上であるか否かを判定することを特徴とする。

かかる構成によれば、一の特徴量と他の特徴量との組合せを取ったときの特徴量と目的変数との間で取り得る相関係数を十分に大きくすることができる。

図１２は、相関見込み値Ｒ＿ｍａｘの計算処理に係るフローチャートの一例を示す図である。

ステップＳ１２０１では、特徴量生成部５１０は、相関見込み値Ｒ＿ｍａｘの計算対象の特徴量における目的変数と発生確率との点群Ｄ＝（ｙｉ，ｘｉ）を生成する。

ステップＳ１２０２では、特徴量生成部５１０は、点群Ｄに基づいて、移動境界直線ｙ＝ａｘ＋ｂを計算する。移動境界直線のパラメータａおよびｂの定め方の例については、図１３および図１４を用いて後述する。

ステップＳ１２０３では、特徴量生成部５１０は、現在の点群Ｄ＝（ｙｉ，ｘｉ）から、移動先の点群Ｄ^＊＝（ｙｉ，ｘｉ^＊）を（数式１）または（数式２）を用いて計算する。

ステップＳ１２０４では、特徴量生成部５１０は、移動先の点群Ｄ^＊における目的変数ｙｉと発生確率ｘｉ^＊との相関係数を、計算対象の特徴量の相関見込み値Ｒ＿ｍａｘとし、計算処理を終了する。なお、特徴量生成部５１０と相関係数計算部５２０とは、同じ計算式（例えば、図１１に示す計算式１１２０）を用いて相関係数を算出する。

次に、移動境界直線ｙ＝ａｘ＋ｂのパラメータである傾きａおよび切片ｂの計算例について、図１３および図１４を用いて説明する。

図１３は、移動境界直線の計算処理に係るフローチャートの一例を示す図である。

ステップＳ１３０１では、特徴量生成部５１０は、点αを求める。特徴量生成部５１０は、正相関の相関見込み値Ｒ＿ｍａｘを計算する場合、ｙｉの最大値を用いてα＝（ｍａｘ（ｙｉ），Δｘ）とし、負相関の相関見込み値Ｒ＿ｍａｘを計算する場合、ｙｉの最小値を用いてα＝（ｍｉｎ（ｙｉ），Δｘ）とする。Δｘは、非常に小さな値とし、例えば、Δｘ＝０．０００１などを与える。グラフ１１１０で説明したように、点αは、移動境界直線の傾きがある程度十分に大きくなるように配置する点である。

図１４は、正相関の相関見込み値Ｒ＿ｍａｘを計算する場合の例を示す。グラフ１４１０では、点αを図示している。

ステップＳ１３０２では、特徴量生成部５１０は、点βの候補群｛βｎ｝を計算する。点βは、移動境界直線の切片ｂとなる値である。特徴量生成部５１０は、正相関の相関見込み値Ｒ＿ｍａｘを計算する場合、ｙｉの平均ｍｅａｎ（ｙｉ）からｙｉの最小値ｍｉｎ（ｙｉ）の間をｎ刻みに当分割した点とする。負相関の相関見込み値Ｒ＿ｍａｘを計算する場合、ｙｉの最大値ｍａｘ（ｙｉ）からｙｉの平均ｍｅａｎ（ｙｉ）の間をｎ刻みに当分割した点とする。

グラフ１４２０では、ｍｅａｎ（ｙｉ）からｍｉｎ（ｙｉ）の間を５分割した｛β１～β５｝が点βの候補として図示している。

ステップＳ１３０３では、特徴量生成部５１０は、２点（点αと点βの候補群｛βｎ｝の各々）を通る直線を求め、移動境界直線候補｛Ｌｎ｝とする。

ステップＳ１３０４では、特徴量生成部５１０は、点群Ｄ＝（ｙｉ，ｘｉ）を、それぞれの移動境界直線候補｛Ｌｎ｝に沿って移動した、移動先の点群候補｛Ｄｎ｝を計算する。移動境界直線候補｛Ｌｎ｝とそれらに対応した移動先の点群候補｛Ｄｎ｝が計算される。

グラフ１４３０の例では、Ｌ１およびＤ１について計算した移動境界直線候補Ｌ１を図示している。

ステップＳ１３０５では、特徴量生成部５１０は、各移動先の点群候補｛Ｄｎ｝の相関係数の絶対値が最大となるときの、対応する移動境界直線候補Ｌｎを移動境界直線Ｌと決定する。

グラフ１４４０では、移動境界直線候補Ｌ１が移動境界直線Ｌとして決定されていることが示されている。

このように、特徴量生成部（例えば、特徴量生成部５１０）は、上記目的変数の値（例えば、売上高の値）と上記一の特徴量の値（例えば、特徴量｛Ａ｝の発生確率）とを示す点群（例えば、（ｙｉ，ｘｉ））に基づいて、上記一の特徴量と上記他の特徴量との組合せを取ったときの特徴量（例えば、特徴量｛Ａ，＊｝）と上記目的変数との間で取り得る相関係数（例えば、相関見込み値Ｒ＿ｍａｘ）が十分に大きくなる（例えば、上限となる）ための上記点群の移動パターンを示す移動境界直線を計算し、計算した移動境界直線（例えば、移動境界直線Ｌ）に基づいて上記点群を移動することを特徴とする。

かかる構成によれば、例えば、上限により近い相関係数を算出でき、枝切りの精度を高めることができるので、より適切に特徴量を生成することができる。

［本実施の形態の効果］
本特徴量選択システム１によれば、より少ない計算時間で、目的変数に対する相関の高い特徴量を抽出することで、データ分析者の分析サイクルの短縮が可能になる。

また、本特徴量選択システム１によれば、特徴量の計算時の組合せ爆発を回避することで、データ分析者の不要な事前作業を軽減できる。

また、本特徴量選択システム１によれば、より少ない計算回数および特徴量候補で、目的変数に対する相関の高い特徴量を抽出することで、メモリなどの計算コストを低減できる。

（２）他の実施の形態
なお上述実施の形態においては、本発明を特徴量選択システム１に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、方法、プログラム、記憶媒体などに広く適用することができる。

また上述の実施の形態においては、特徴量選択装置１００について図１に示す構成を例に挙げて述べたが、本発明はこれに限らず、特徴量選択装置１００は、例えば、通信装置１０６などを備えていなくてもよいし、ＨＤＤ（Hard Disk Drive）などの他の装置を備えていてもよい。

また上述の実施の形態においては、入力テーブルが記憶装置１１０（ＤＢ１１１）に設けられる場合について述べたが、本発明はこれに限らず、入力テーブルが特徴量選択装置１００の記憶装置（ＲＡＭ１０３、ＨＤＤ等）に設けられるようにしてもよい。

また上述の実施の形態においては、最大組合せ数Ｎは、ユーザにより設定される場合について述べたが、本発明はこれに限らず、最大組合せ数Ｎは、入力テーブルを参照してカラムの数を特徴量選択装置１００が自動で設定するようにしてもよい。

また上述の実施の形態においては、説明の便宜上、ＸＸテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、ＸＸ情報などと表現してもよい。

また、上記の説明において各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。

上述した構成によれば、目的変数に対する相関の大きい特徴量を適切に生成することができる。

１……特徴量選択システム、１００……特徴量選択装置。

Claims

目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、前記目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成部を備え、
前記特徴量生成部は、
前記複数の説明変数から生成し得る複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成する、
ことを特徴とする特徴量生成装置。
前記特徴量生成部は、説明変数の組合せ数がＮ（Ｎ≧２の整数）の特徴量を生成する際、説明変数の組合せ数がｋ（１≦ｋ<Ｎの整数）の複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った説明変数の組合せ数が「１」の特徴量と除去して残った組合せ数がｋの特徴量との組合せを取った特徴量を説明変数の組合せ数がｋ＋１の新たな特徴量として生成する処理を、説明変数の組合せ数がＮの特徴量を生成するまでｋが１から順に繰り返す、
ことを特徴とする請求項１に記載の特徴量生成装置。
前記特徴量生成部は、前記複数の特徴量から前記しきい値未満の特徴量を除去する際、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるように、前記目的変数の値を変更することなく前記一の特徴量の値を変更することで前記点群を移動し、移動した点群と前記目的変数との相関係数である相関見込み値を計算し、計算した相関見込み値が前記しきい値以上であるか否かを判定する、
ことを特徴とする請求項１に記載の特徴量生成装置。
前記特徴量生成部は、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるための前記点群の移動パターンを示す移動境界直線を計算し、計算した移動境界直線に基づいて前記点群を移動する、
ことを特徴とする請求項３に記載の特徴量生成装置。
目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、前記目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成方法であって、
特徴量生成部が、
前記複数の説明変数から生成し得る複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成する、
ことを特徴とする特徴量生成方法。
前記特徴量生成部が、説明変数の組合せ数がＮ（Ｎ≧２の整数）の特徴量を生成する際、説明変数の組合せ数がｋ（１≦ｋ<Ｎの整数）の複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った説明変数の組合せ数が「１」の特徴量と除去して残った組合せ数がｋの特徴量との組合せを取った特徴量を説明変数の組合せ数がｋ＋１の新たな特徴量として生成する処理を、説明変数の組合せ数がＮの特徴量を生成するまでｋが１から順に繰り返す、
ことを特徴とする請求項５に記載の特徴量生成方法。
前記特徴量生成部が、前記複数の特徴量から前記しきい値未満の特徴量を除去する際、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるように、前記目的変数の値を変更することなく前記一の特徴量の値を変更することで前記点群を移動し、移動した点群と前記目的変数との相関係数である相関見込み値を計算し、計算した相関見込み値が前記しきい値以上であるか否かを判定する、
ことを特徴とする請求項５に記載の特徴量生成方法。
前記特徴量生成部が、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるための前記点群の移動パターンを示す移動境界直線を計算し、計算した移動境界直線に基づいて前記点群を移動する、
ことを特徴とする請求項７に記載の特徴量生成方法。