JP7068085B2 - 特徴量生成装置および特徴量生成方法 - Google Patents

特徴量生成装置および特徴量生成方法 Download PDF

Info

Publication number
JP7068085B2
JP7068085B2 JP2018137210A JP2018137210A JP7068085B2 JP 7068085 B2 JP7068085 B2 JP 7068085B2 JP 2018137210 A JP2018137210 A JP 2018137210A JP 2018137210 A JP2018137210 A JP 2018137210A JP 7068085 B2 JP7068085 B2 JP 7068085B2
Authority
JP
Japan
Prior art keywords
feature amount
feature
value
objective variable
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018137210A
Other languages
English (en)
Other versions
JP2020013511A (ja
Inventor
淳一 平山
進 芹田
文也 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018137210A priority Critical patent/JP7068085B2/ja
Publication of JP2020013511A publication Critical patent/JP2020013511A/ja
Application granted granted Critical
Publication of JP7068085B2 publication Critical patent/JP7068085B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明は特徴量生成装置および特徴量生成方法に関し、例えば目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成装置および特徴量生成方法に適用して好適なものである。
近年、ビッグデータと呼ばれる大量のデータを分析し、今まで人が勘と経験で行ってきた意思決定を支援するシステムの開発が急速に発展してきている。これらのデータ分析は、テーブル形式のデータに対して行われることが多い。例えば、ある目的変数を変動させる他の説明変数が何であるかを見つけ出すための相関分析、説明変数群の値から目的変数の値を予測する回帰分析といった機械学習・統計分析を主な手法としている。また、説明変数になんらかの加工を施した変数を新たな説明変数とすることもある。
近年、あるイベントの発生有無を示す説明変数に対し、全ての説明変数の組合せを網羅的に計算した特徴量群を生成し、その中から目的変数に寄与する特徴量を抽出する技術が開示されている(特許文献1参照)。
特開2017-102937号公報
特許文献1に記載の特徴量の計算においては、入力テーブルとして入力された全ての説明変数に対して取り得る全ての組合せを網羅的に計算している。そのため、説明変数の数が多くなるにつれて、計算される特徴量の数が指数関数的に増大(組合せ爆発)する。
説明変数の数=n、組合せ数=rとした場合、計算される特徴量の数は、nCr+nC(r-1)+nC(r-2)+・・・+nC1となる。例えば、n=100、r=3の場合、特徴量の数は、166750個となり、計算時間が膨大になる可能性がある。
このような計算時間の膨大は、データ分析者にとって、分析サイクル時間の増大につながっている。また、入力テーブルに入力する説明変数の数を意図的に少なくするような事前作業により、組合せ爆発を回避するなどの作業工数のため、分析コストの増大につながっている。更に、組合せ爆発により、計算機に必要なメモリが膨大になり、計算コストの増大につながっている。
本発明は以上の点を考慮してなされたもので、目的変数に対する相関の大きい特徴量を生成するための計算量を削減し得る特徴量生成装置等を提案しようとするものである。
かかる課題を解決するため本発明においては、例えば、目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、前記目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成部を備え、前記特徴量生成部は、前記複数の説明変数から生成し得る複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成するようにした。
上記構成では、複数の特徴量からしきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成するので、目的変数に対する相関の大きい特徴量を生成するための計算量を削減することができる。
本発明によれば、目的変数に対する相関の大きい特徴量を適切に生成することができる。
第1の実施の形態による特徴量選択システムに係る構成の一例を示す図である。 第1の実施の形態による特徴量抽出を説明するためのデータの一例を示す図である。 第1の実施の形態による特徴量抽出を説明するためのデータの一例を示す図である。 第1の実施の形態による特徴量抽出を説明するためのデータの一例を示す図である。 第1の実施の形態による特徴量選択システムの全体フローを説明するための図である。 第1の実施の形態による特徴量生成部の処理の流れを説明するための模式図である。 第1の実施の形態による特徴量生成部が実行する処理に係るフローチャートの一例を示す図である。 第1の実施の形態による散布図の一例を示す図である。 第1の実施の形態による散布図の一例を示す図である。 第1の実施の形態による散布図の一例を示す図である。 第1の実施の形態による相関がなるべく大きくなるときの移動先の点群の考え方について補足するための図である。 第1の実施の形態による相関見込み値の計算処理に係るフローチャートの一例を示す図である。 第1の実施の形態による移動境界直線の計算処理に係るフローチャートの一例を示す図である。 第1の実施の形態による移動境界直線のパラメータの定め方の例を示す図である。
以下図面について、本発明の一実施の形態を詳述する。
本実施の形態に示す技術は、データ分析技術およびデータマイニング技術に関するものである。例えば、テーブル形式で蓄積されたデータに対して、目的変数に関連のある説明変数を抽出する技術に関する。特に、相関分析を用いることで、ユーザが指定した目的変数に対する相関の大きい特徴量(説明変数の組合せ)を抽出する特徴量抽出に関する。
本実施の形態によれば、例えば、説明変数同士の組合せからなる特徴量を計算する際に、より少ない時間で、目的変数に対する相関の高い特徴量を抽出することができる。また、本実施の形態によれば、例えば、目的変数に対する相関の高い特徴量を抽出する際に、より少ない特徴量の計算回数で、同様の抽出結果を得ることができる。
以下では、便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらは互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。また、以下では、要素の数等(個数、数値、量、範囲等を含む。)に言及する場合、特に明示した場合、原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
(1)第1の実施の形態
図1において、1は全体として第1の実施の形態による特徴量選択システムを示す。
特徴量選択システム1は、目的変数に関連のある特徴量を生成して抽出するシステムであり、特徴量選択装置100と、記憶装置110と、プリンタ120とを含んで構成される。特徴量選択装置100と、記憶装置110と、プリンタ120とは、ネットワーク130を介して通信可能に接続されている。
特徴量選択装置100は、目的変数に関連のある特徴量を生成する処理などを行う特徴量生成装置の一例であり、ノートパソコン、サーバ装置などである。特徴量選択装置100は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、出力装置104、入力装置105、通信装置106などを含んで構成される。CPU101、ROM102、RAM103、出力装置104、入力装置105、および通信装置106は、内部バス107を介して接続されている。
特徴量選択装置100の機能(後述の特徴量生成部510、相関係数計算部520、特徴量抽出部530など)は、例えば、CPU101がROM102に格納されたプログラムをRAM103に読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、特徴量選択装置100の機能の一部は、特徴量選択装置100と通信可能な他のコンピュータにより実現されてもよい。
出力装置104は、例えばディスプレイであり、各種の情報(例えば、特徴量選択装置100で選択された特徴量)を出力する。入力装置105は、キーボード、ポインティングデバイスなどであり、各種の情報(例えば、後述のユーザ設定540)を入力する。通信装置106は、例えば、NIC(Network Interface Card)から構成され、記憶装置110、プリンタ120との通信時における制御を行う。
記憶装置110は、例えば、ストレージ装置であり、各種のデータを格納するDB(database)111を備える。DB111には、例えば、本実施の形態に係るデータを格納する入力テーブルが格納される。なお、入力テーブルについては、図2~図4を用いて説明する。
プリンタ120は、各種の情報(例えば、特徴量選択装置100で選択された特徴量)を紙などの媒体に印刷する。
なお、図1では、特徴量選択装置100で選択された特徴量を出力する出力先の例として、出力装置104およびプリンタ120を示したが、これらに限られるものではない。例えば、出力先としては、特徴量選択装置100と通信可能な他のコンピュータであってもよいし、特徴量を利用するソフトウェアであってもよい。
図2~図4は、特徴量抽出を説明するためのデータの一例(入力テーブル、特徴量テーブル、相関テーブル、特徴量抽出結果など)を示す図である。なお、以下では、入力テーブルは、記憶装置110のDB111に記憶され、特徴量テーブル、相関テーブル、および特徴量抽出結果は、特徴量選択装置100のRAM103に記憶される場合を例に挙げて説明するが、これに限られるものではない。本実施の形態に係るデータは、任意の記憶装置に記憶可能である。
図2に示すように、入力テーブル210は、目的変数のカラム(例えば、売上高211)と、説明変数のカラム(例えば、イベントA212~イベントN214)とを含んで構成される。
目的変数の値は、任意の実数である。説明変数の値は、ある事象が起きたか起きなかったかを示す「0」または「1」の論理値である。
相関テーブル220は、入力テーブル210の全ての説明変数に対して、目的変数との相関(寄与度)を計算した値(相関係数)を格納するテーブルである。相関係数は、基本的には、単位が無く、「-1」から「1」の間の実数値をとり、相関係数が正のときは2つの確率変数には、正の相関があることを示し、相関係数が負のときは2つの確率変数には、負の相関があることを示す。
相関テーブル220に格納された相関係数Rのうち、所定のしきい値(例えば、後述の相関係数目標値TH_R)以上の相関係数Rを持つ特徴量が特徴量抽出結果230として出力される。
図2に示す例では、イベントB213が特徴量抽出結果230として出力され、これは、イベントB213が起きた場合に、目的変数である「売上高」が増えることを示す分析結果となる。
また、図3に示すように、説明変数群に対して、複数の説明変数の論理積をとった値を新たな特徴量として生成し、生成した特徴量に対して相関分析を実施することもある。
図2と図3との処理の違いは、主に、入力テーブル310から特徴量テーブル320が生成されることである。なお、その後、特徴量テーブル320に基づいて相関テーブル330が生成され、特徴量抽出結果340が出力される。
特徴量テーブル320には、入力テーブル310の説明変数群に対して、1つ以上の説明変数の論理積による組合せを求めた特徴量が含まれる。例えば、入力テーブル310の説明変数であるイベントA311とイベントB312との論理積による組合せをとった値は、特徴量テーブル320のイベント{A,B}321になり、イベントA311とイベントB312とが同時に起こったことを示す特徴量{A,B}になっている。
さらに図3に示す特徴量をあるイベントが発生したか発生しなかったかを示す「0」または「1」の論理値ではなく、あるイベントが発生する確率(発生確率)を示す値に置き換え、一般化して考えることもできる。
説明変数および特徴量については、図3に示す入力テーブル310と特徴量テーブル320とでは論理値のみしか扱っていなかったが、図4に示す入力テーブル410と特徴量テーブル420とでは、発生確率(「0」~「1」)を扱う。なお、確率であるため、特徴量同士の論理積による組合せは、それぞれの確率値の積で計算できる。
特徴量選択システム1には、図2~図4の何れの入力テーブル210,310,410にも適用可能であるが、以下では、図4に示す入力テーブル410を用いた場合を例に挙げて、特徴量選択システム1に係る処理を説明する。
図5は、特徴量選択システム1の全体フローを説明するための図である。図5に示すように、特徴量選択システム1における入力データは、入力テーブル410およびユーザ設定540である。また、出力データは、特徴量抽出結果440である。さらに、中間データとして特徴量テーブル420と相関テーブル430とがある。なお、入力テーブル410、特徴量テーブル420、相関テーブル430、および特徴量抽出結果440については、上述した入力テーブル310、特徴量テーブル320、相関テーブル330、および特徴量抽出結果340と同様である。
ユーザ設定540には、最大組合せ数Nと、相関係数目標値TH_Rとが含まれる。最大組合せ数Nは、最大いくつの説明変数の組合せからなる特徴量を計算するかを示す。相関係数目標値TH_Rは、計算された特徴量のうち目的変数に対する相関係数がいくつ以上の特徴量を抽出するかを示す。最大組合せ数Nおよび相関係数目標値TH_Rは、分析を始める前にユーザが事前設定する値である。
特徴量生成部510は、入力テーブル410に含まれる説明変数から、特徴量テーブル420を生成する。例えば、特徴量生成部510は、目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、目的変数との相関係数がしきい値(例えば、相関係数目標値TH_R)以上になる特徴量を生成する。
相関係数計算部520は、特徴量テーブル420に含まれる全ての特徴量に対して、目的変数との相関係数を計算し、相関テーブル430に出力する。
特徴量抽出部530は、相関テーブル430に含まれる特徴量のうち、相関係数がユーザ設定540に含まれる相関係数目標値TH_R以上の特徴量を抽出し、特徴量抽出結果440とする。
従来の方法では、特徴量生成部510において、最大組合せ数N以下の説明変数の特徴量を全て網羅的に計算していたため、組合せ爆発により計算量が膨大になるといった問題がある。
本実施の形態における特徴量選択システム1は、かかる問題を解決するための構成として、特徴量生成部510を採用する。特徴量生成部510が実行する処理について図6および図7を用いて説明する。
図6は、特徴量生成部510の処理の流れを説明するための模式図である。図7は、特徴量生成部510の特徴量生成処理に係るフローチャートの一例を示す図である。
図6に示すように、特徴量生成部510は、一度に全ての組合せを網羅計算せずに、1組合せ、2組合せ、3組合せ、・・・、と段階的に組合せ数を増やしながら、特徴量を生成(計算)することを特徴とする。
まず、特徴量生成部510は、入力テーブル410に含まれる全ての説明変数を1組合せリストF_1(1組合せリスト610)とする。図6の例では、イベントA~イベントEの発生確率を示す特徴量が該当する。
次に、特徴量生成部510は、1組合せリスト610に含まれる全ての特徴量に対して、他の任意の特徴量と組合せを取った際に、目的変数との間で取り得る相関係数が、ユーザ設定540に含まれる相関係数目標値TH_R以上になるか否かを判定する。また、特徴量生成部510は、判定結果が相関係数目標値TH_R未満のものを除去し、除去の結果残った1組合せリスト610内の特徴量を、1組合せ候補リストC_1(1組合せ候補リスト620)に格納する。なお、図6に示す例では、特徴量生成部510は、1組合せリスト610から1組合せ候補リスト620を生成する際、イベントBの特徴量{B}、イベントEの特徴量{E}を除去している。
次に、特徴量生成部510は、1組合せ候補リスト620に含まれる特徴量同士の全ての組合せを作り、2組合せリストF_2(2組合せリスト630)に格納する。1組合せ候補リスト620から2組合せリスト630を生成する際、1組合せ候補リスト620の3つの特徴量{A},{C},{D}から2つを取り出した組合せである2組合せリスト630として特徴量{A,C},{A,D},{C,D}を作っている。例えば、特徴量{A,C}は、イベントAとイベントCとが同時に起こったことを示している。
次に、特徴量生成部510は、1組合せ候補リスト620から2組合せリスト630を生成する場合と同様に、2組合せリスト630に含まれる全ての特徴量に対して、他の任意の特徴量と組合せを取った際に、目的変数との間で取り得る相関係数が、相関係数目標値TH_R以上になるか否かを判定する。特徴量生成部510は、判定結果が相関係数目標値TH_R未満の特徴量を除去し、除去の結果残った2組合せリスト630内の特徴量を、2組合せ候補リストC_2(2組合せ候補リスト640)に格納する。なお、図6に示す例では、特徴量生成部510は、2組合せリスト630から2組合せ候補リスト640を生成する際、特徴量{A,C}を除去している。
次に、特徴量生成部510は、2組合せ候補リスト640と1組合せ候補リスト620とに含まれる特徴量の全て組合せを計算し、計算の結果できた3組合せの特徴量を、3組合せリストF_3(3組合せリスト650)に格納する。特徴量生成部510は、3組合せリスト650を生成する際、2組合せ候補リスト640の特徴量{A,D},{C,D}と1組合せ候補リスト620の特徴量{A},{C},{D}とから、それぞれ1つずつ特徴量を取り出し、論理積の組合せをとった、3組合せリスト650の特徴量{A,C,D}を生成している。
最後に、特徴量生成部510は、1組合せリスト610、2組合せリスト630、3組合せリスト650の和集合を取った全組合せリストF_ALL(全組合せリスト660)の特徴量{A},{B},{C},{D},{E},{A,C},{A,D},{C,D},{A,C,D}を特徴量生成結果として出力する。
このように、特徴量生成部510が段階的に組合せを生成し、次の組合せの計算に進む際、特徴量候補を判定することで枝刈りする構成について述べたが、本実施の形態は、これに限られるものではない。例えば、特徴量生成部510は、全ての段階で枝刈りをすることなく、所定の段階から進む際に枝刈り(例えば、1組合せリストF_1のみから不要なものを枝刈り、2組合せリストF_2のみから不要なものを枝刈り、1組合せリストF_2と3組合せリストF_3から不要なものを枝刈り等)するようにしてもよい。
つまり、特徴量生成部(例えば、特徴量生成部510)は、上記複数の説明変数から生成し得る複数の特徴量(例えば、1組合せリスト610の複数の特徴量、2組合せリスト630の複数の特徴量など)の各々について、一の特徴量(例えば、特徴量{A})と上記一の特徴量とは異なる任意の他の特徴量(例えば、特徴量{*})との組合せを取ったときの特徴量(例えば、特徴量{A,*})と上記目的変数との間で取り得る相関係数が上記しきい値(例えば、相関係数目標値TH_R)以上になるか否かを判定し、上記複数の特徴量から上記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せ(例えば、1組合せ候補リスト620と1組合せ候補リスト620との全組合せ、2組合せ候補リスト640と1組合せ候補リスト620との全組合せなど)を取った特徴量を新たな特徴量(例えば、2組合せリスト630、3組合せリスト650)として生成することを特徴とする。
上記構成では、一の特徴量の状態を見て、他の特徴量との組合せの相関係数がしきい値を超えるかを事前に判定し、複数の特徴量からしきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成するので、例えば、目的変数に対する相関の大きい特徴量を生成するための計算量を削減することができる。
図7を用いて特徴量生成部510が実行する処理について説明する。本フローチャートにおいて、kは、現在着目している組合せ数を示すものである。
まず、特徴量生成部510は、k=1としてkを初期化する(ステップS701)。
ステップS702では、特徴量生成部510は、入力テーブル410の全ての説明変数を1組合せリストF_1に登録する。
ステップS703では、特徴量生成部510は、現在着目している組合せ数kが、ユーザ設定540の最大組合せ数Nに達しているか否かを判定する。特徴量生成部510は、達していないと判定した場合、ステップS704に処理を移し、達していると判定した場合、ステップS708に処理を移す。
ステップS704では、特徴量生成部510は、k組合せリストF_kに含まれる全ての特徴量に対して、相関見込み値R_maxを計算する。ここでは、特徴量生成部510は、実際に特徴量を組合せる前に、組合せ後の相関係数の上限値(例えば、相関見込み値R_max)を計算している。なお、相関見込み値R_maxの概念および計算方法については後述する。
ステップS705では、特徴量生成部510は、計算した相関見込み値R_maxがユーザ設定540の相関係数目標値TH_R以上であるか否かを判定する。特徴量生成部510は、相関見込み値R_maxが相関係数目標値TH_R以上の特徴量を、k組合せリストF_kから、k組合せ候補リストC_kにコピーする。
ステップS706では、特徴量生成部510は、1組合せ候補リストC_1に含まれる特徴量と、現在着目しているk組合せ候補リストC_kに含まれる特徴量との全ての組合せ(リストの直積)を計算し、計算結果を(k+1)組合せリストF_(k+1)に登録する。このとき、特徴量生成部510は、組合せ数が(k+1)の特徴量を(k+1)組合せリストF_(k+1)に登録し、組合せ数が(k+1)未満の特徴量については、(k+1)組合せリストF_(k+1)に登録しない。
例えば、1組合せ候補リストC_1の特徴量が{A},{D},{E}であり、k組合せ候補リストC_k(ここでは、k=2の場合を例に挙げて説明する。)の特徴量が{A,B},{A,D},{D,E}である場合、1組合せ候補リストC_1と2組合せ候補リストC_2の直積を計算すると、
F_(3)
=[{A,A,B},{A,A,D},{A,D,E},{D,A,B},{D,A,D},{D,D,E},{E,A,B},{E,A,D},{E,D,E}]
=[{A,B},{A,D},{A,D,E},{A,D,B},{A,D},{D,E},{A,B,E},{A,D,E},{D,E}]
=[{A,B},{A,D},{D,E},{A,B,E},{A,D,E}]
となる。組合せ数が「3」未満の特徴量は、登録しないため(1組合せ数、2組合せ数については登録しているため)、F_(3)=[{A,B,E},{A,D,E}]となる。
ステップS707では、特徴量生成部510は、現在着目している組合せ数kをk+1として、1つインクリメントし、ステップS703に処理を移す。なお、ステップS703では、特徴量生成部510は、組合せ数k=最大組合せ数Nとなっている場合、ステップS708に処理を移す。
ステップS708では、特徴量生成部510は、これまで計算した組合せリストF_1~F_Nの和集合を求め、特徴量生成結果F_ALLとして出力する。
このように、特徴量生成部(例えば、特徴量生成部510)は、説明変数の組合せ数がN(N≧2の整数)の特徴量を生成する際、説明変数の組合せ数がk(1≦k<Nの整数)の複数の特徴量の各々について、一の特徴量と上記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と上記目的変数との間で取り得る相関係数(例えば、相関見込み値R_max)が上記しきい値以上になるか否かを判定し、上記複数の特徴量から上記しきい値未満の特徴量を除去し、除去して残った説明変数の組合せ数が「1」の特徴量と除去して残った組合せ数がkの特徴量との組合せを取った特徴量を説明変数の組合せ数がk+1の新たな特徴量として生成する処理を、説明変数の組合せ数がNの特徴量を生成するまでkが1から順に繰り返すことを特徴とする。
かかる処理によれば、組合せ数を段階的に増やして特徴量を生成する際に、以降の段階でどのように組合せてもしきい値を超えない特徴量が事前に枝刈りされるので、効率よく特徴量を生成することができる。
次に、相関見込み値R_maxの計算方法について説明する。図8および図9を用いて、相関見込み値R_maxの計算ポイントについて説明する。
図8は、特徴量の発生確率を横軸xに、目的変数の値を縦軸yにとった散布図の一例を示す図である。図8に示す散布図は、特徴量テーブル420に示す特徴量ごとに生成され、特徴量の各レコードの値が、散布図上の点群の1点1点に対応する。散布図における点(yi,xi)は、i番目のレコードに対応する点を示す。yiは、任意の実数であり、xiは、「0.0」~「1.0」の値である。
図8では、特徴量{A}が存在し、さらに特徴量{A}と他の任意の特徴量と組み合わせを取ることでできる特徴量{A,*}があることを考える。
グラフ810は、組合せ前の特徴量{A}における点群(yi,xi)を示す。グラフ820は、組合せ後の特徴量{A,*}における点群(yi,xi)を示す。本特徴量選択システム1では、特徴量同士の論理積を取ることによる組合せ生成を考えているため、AかつBが同時に起こる確率は、AまたはBがそれぞれ起こる確率よりも小さくなる。言い換えれば、ある特徴量{A}と特徴量{B}とを組合せた特徴量{A,B}の発生確率は、特徴量{A}の単独の発生確率よりも小さな値となり、かつ、特徴量{B}の単独の発生確率よりも小さな値となる。
図8に示す散布図においては、組合せ後のグラフ820の点群(yi,xi)は、組合せ前のグラフ810の点群(yi,xi)よりも、x軸の小さな方向にしか存在せず、y軸方向には変化がない。すなわち、0≦xi≦xi、と表すことができる。この性質を用いて、組合せ前の特徴量{A}に対する点群(yi,xi)から、他の任意の特徴量との組合せをとることで作った特徴量{A,*}に対する点群(yi,xi)における、目的変数yiと特徴量の発生確率xiとの相関係数R(yi,xi)を考え、この相関係数R(yi,xi)が取り得る大きな値を見積もることを考える。
図9は、図8同様に、特徴量の発生確率を横軸xに、目的変数の値を縦軸yにとった散布図の一例を示す図である。
ここで、グラフ910のような組合せ前のある特徴量{A}に対する点群(yi,xi)があり、点群(yi,xi)の発生確率xiを0≦xi≦xiの条件で移動させた際に、相関係数R(yi,xi)がなるべく大きくなる移動パターンを考えると、例えば、グラフ920に示すような、ある移動境界直線y=ax+bへの移動が考えられる。
より具体的には、移動前の点群(yi,xi)を、移動境界直線y=ax+bを境として、グラフ上の右側(x軸の大きい側)にある場合には、移動境界直線上に移動し、グラフ920上の左側(x軸の小さい側)にある場合には、移動しない。また、x<0の範囲には移動できず、既にxi=0の点は、動かないことになる。数式で表せば、以下のようになる。
(数式1)
if yi > b and xi ≦ (yi - b) ÷ a then xi = xi
if yi > b and xi > (yi - b) ÷ a then xi = (yi - b) ÷ a
if yi ≦ b then xi = 0
すなわち、本特徴量選択システム1では、例えば(数式1)を用いて、移動前の点群(yi,xi)から、移動後の点群(yi,xi)が取り得る相関係数のなるべく大きな値を見積もることで、図7のステップS704、ステップS705に示すように、組合せ前のある特徴量{A}を、ある任意の特徴量と組み合わせた際の特徴量{A,*}と、目的変数との相関係数である相関見込み値R_maxが、目標値TH_Rを超え得るか否かを事前に判断することができる。
また、以上の説明は、ある特徴量における目的変数と発生確率との相関係数にて、正の相関係数の大きい値を見積もる方法であるが、図10のように、正相関の場合と同様の手順で(数式1)の代わりに(数式2)を用いて、負の相関係数の大きい値を見積もることができる。
(数式2)
if yi < b and xi ≦ (yi - b) ÷ a then xi = xi
if yi < b and xi > (yi - b) ÷ a then xi = (yi - b) ÷ a
if yi ≧ b then xi = 0
なお、グラフ1010は、組合せ前の特徴量{A}における点群(yi,xi)を示すグラフである。グラフ1020は、組合せ後の特徴量{A,*}における点群(yi,xi)を示すグラフである。
図11は、相関がなるべく大きくなるときの移動先の点群(yi,xi)の考え方について補足するための図である。
ここで、グラフ1110のように点群(yi,xi)が散布しており、yiの平均mean(yi)とxiの平均mean(xi)にて分割される4つの象限I~IVがある状態を考える。また、xiの平均mean(xi)は、ある程度小さな状態を想定する。
図11に示す一般的な相関係数の計算式1120に基づいて、グラフ1110の状態から正の相関がなるべく大きくなる状態を考えると、象限Iおよび象限IIIに点がなるべく多く存在し、象限IIおよび象限IVに点がなるべく少なく存在する状態となる。さらに、象限Iおよび象限IIIの点は、なるべく傾きの大きい直線に近い状態に並んでいる状態となる。一方、前述のように移動前の点群(yi,xi)と移動後の点群(yi,xi)には、0≦xi≦xiの関係があり、これらを整理すると、各象限I~IVにおいて、移動後の点群(yi,xi)の相関がなるべく大きくなる状態は、例えば、下記のように整理できる(グラフ1130に図示)。
象限I :各点がなるべく傾きの大きい直線に近い状態に並ぶ。
象限II :点が存在しない(すべて象限IIIに移動)。
象限III:各点がなるべく傾きの大きい直線に近い状態に並ぶ。ただし、xi<0にはならないため、xi=0で下げ止まる。
象限IV :点がなるべく存在しない。ただし、移動前にxi=0に存在する点が移動できないのでそのまま存在する。
上記の性質より、正相関がなるべく大きくなるための点群(yi,xi)から(yi,xi)の移動パターンとしては、例えば、点(yiの平均,xiの平均)を通り、かつ、傾きのなるべく大きい移動境界直線y=ax+bを考え、この移動境界直線に沿うように点群が移動した状態と考えることができる。
ただし、移動パターンは、点(yiの平均,xiの平均)を通る移動境界直線に限られるものではない。例えば、図14に示すように移動境界直線を求めてもよいし、他の方法により移動境界直線を求めてもよい。また、移動パターンは、直線に限られるものではなく、曲線であってもよい。
また、上述の実施の形態においては、相関がなるべく大きくなるように点群(yi,xi)を移動するために移動境界直線を算出する場合について述べたが、本実施の形態は、これに限られるものではない。例えば、特徴量生成部510は、移動境界直線を算出することなく点群(yi,xi)を移動してもよい。上記の性質によると、より広義には、特徴量生成部510は、相関がなるべく大きくなるように、点群(yi,xi)において、yiは、変更することなく、所定の値m(例えば、0<m≦平均mean(xi))より大きいxiを所定の値mに移動(例えば、平均mean(xi)より大きいxiを平均mean(xi)に移動)するようにしてもよい。
つまり、特徴量生成部(例えば、特徴量生成部510)は、上記複数の特徴量から上記しきい値未満の特徴量を除去する際、上記目的変数の値と上記一の特徴量の値とを示す点群に基づいて、上記一の特徴量と上記他の特徴量との組合せを取ったときの特徴量と上記目的変数との間で取り得る相関係数が十分に大きくなるように、上記目的変数の値を変更することなく上記一の特徴量の値を変更することで上記点群を移動し、移動した点群と上記目的変数との相関係数である相関見込み値を計算し、計算した相関見込み値が上記しきい値以上であるか否かを判定することを特徴とする。
かかる構成によれば、一の特徴量と他の特徴量との組合せを取ったときの特徴量と目的変数との間で取り得る相関係数を十分に大きくすることができる。
図12は、相関見込み値R_maxの計算処理に係るフローチャートの一例を示す図である。
ステップS1201では、特徴量生成部510は、相関見込み値R_maxの計算対象の特徴量における目的変数と発生確率との点群D=(yi,xi)を生成する。
ステップS1202では、特徴量生成部510は、点群Dに基づいて、移動境界直線y=ax+bを計算する。移動境界直線のパラメータaおよびbの定め方の例については、図13および図14を用いて後述する。
ステップS1203では、特徴量生成部510は、現在の点群D=(yi,xi)から、移動先の点群D=(yi,xi)を(数式1)または(数式2)を用いて計算する。
ステップS1204では、特徴量生成部510は、移動先の点群Dにおける目的変数yiと発生確率xiとの相関係数を、計算対象の特徴量の相関見込み値R_maxとし、計算処理を終了する。なお、特徴量生成部510と相関係数計算部520とは、同じ計算式(例えば、図11に示す計算式1120)を用いて相関係数を算出する。
次に、移動境界直線y=ax+bのパラメータである傾きaおよび切片bの計算例について、図13および図14を用いて説明する。
図13は、移動境界直線の計算処理に係るフローチャートの一例を示す図である。
ステップS1301では、特徴量生成部510は、点αを求める。特徴量生成部510は、正相関の相関見込み値R_maxを計算する場合、yiの最大値を用いてα=(max(yi),Δx)とし、負相関の相関見込み値R_maxを計算する場合、yiの最小値を用いてα=(min(yi),Δx)とする。Δxは、非常に小さな値とし、例えば、Δx=0.0001などを与える。グラフ1110で説明したように、点αは、移動境界直線の傾きがある程度十分に大きくなるように配置する点である。
図14は、正相関の相関見込み値R_maxを計算する場合の例を示す。グラフ1410では、点αを図示している。
ステップS1302では、特徴量生成部510は、点βの候補群{βn}を計算する。点βは、移動境界直線の切片bとなる値である。特徴量生成部510は、正相関の相関見込み値R_maxを計算する場合、yiの平均mean(yi)からyiの最小値min(yi)の間をn刻みに当分割した点とする。負相関の相関見込み値R_maxを計算する場合、yiの最大値max(yi)からyiの平均mean(yi)の間をn刻みに当分割した点とする。
グラフ1420では、mean(yi)からmin(yi)の間を5分割した{β1~β5}が点βの候補として図示している。
ステップS1303では、特徴量生成部510は、2点(点αと点βの候補群{βn}の各々)を通る直線を求め、移動境界直線候補{Ln}とする。
ステップS1304では、特徴量生成部510は、点群D=(yi,xi)を、それぞれの移動境界直線候補{Ln}に沿って移動した、移動先の点群候補{Dn}を計算する。移動境界直線候補{Ln}とそれらに対応した移動先の点群候補{Dn}が計算される。
グラフ1430の例では、L1およびD1について計算した移動境界直線候補L1を図示している。
ステップS1305では、特徴量生成部510は、各移動先の点群候補{Dn}の相関係数の絶対値が最大となるときの、対応する移動境界直線候補Lnを移動境界直線Lと決定する。
グラフ1440では、移動境界直線候補L1が移動境界直線Lとして決定されていることが示されている。
このように、特徴量生成部(例えば、特徴量生成部510)は、上記目的変数の値(例えば、売上高の値)と上記一の特徴量の値(例えば、特徴量{A}の発生確率)とを示す点群(例えば、(yi,xi))に基づいて、上記一の特徴量と上記他の特徴量との組合せを取ったときの特徴量(例えば、特徴量{A,*})と上記目的変数との間で取り得る相関係数(例えば、相関見込み値R_max)が十分に大きくなる(例えば、上限となる)ための上記点群の移動パターンを示す移動境界直線を計算し、計算した移動境界直線(例えば、移動境界直線L)に基づいて上記点群を移動することを特徴とする。
かかる構成によれば、例えば、上限により近い相関係数を算出でき、枝切りの精度を高めることができるので、より適切に特徴量を生成することができる。
[本実施の形態の効果]
本特徴量選択システム1によれば、より少ない計算時間で、目的変数に対する相関の高い特徴量を抽出することで、データ分析者の分析サイクルの短縮が可能になる。
また、本特徴量選択システム1によれば、特徴量の計算時の組合せ爆発を回避することで、データ分析者の不要な事前作業を軽減できる。
また、本特徴量選択システム1によれば、より少ない計算回数および特徴量候補で、目的変数に対する相関の高い特徴量を抽出することで、メモリなどの計算コストを低減できる。
(2)他の実施の形態
なお上述実施の形態においては、本発明を特徴量選択システム1に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、方法、プログラム、記憶媒体などに広く適用することができる。
また上述の実施の形態においては、特徴量選択装置100について図1に示す構成を例に挙げて述べたが、本発明はこれに限らず、特徴量選択装置100は、例えば、通信装置106などを備えていなくてもよいし、HDD(Hard Disk Drive)などの他の装置を備えていてもよい。
また上述の実施の形態においては、入力テーブルが記憶装置110(DB111)に設けられる場合について述べたが、本発明はこれに限らず、入力テーブルが特徴量選択装置100の記憶装置(RAM103、HDD等)に設けられるようにしてもよい。
また上述の実施の形態においては、最大組合せ数Nは、ユーザにより設定される場合について述べたが、本発明はこれに限らず、最大組合せ数Nは、入力テーブルを参照してカラムの数を特徴量選択装置100が自動で設定するようにしてもよい。
また上述の実施の形態においては、説明の便宜上、XXテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、XX情報などと表現してもよい。
また、上記の説明において各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
上述した構成によれば、目的変数に対する相関の大きい特徴量を適切に生成することができる。
1……特徴量選択システム、100……特徴量選択装置。

Claims (8)

  1. 目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、前記目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成部を備え、
    前記特徴量生成部は、
    前記複数の説明変数から生成し得る複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成する、
    ことを特徴とする特徴量生成装置。
  2. 前記特徴量生成部は、説明変数の組合せ数がN(N≧2の整数)の特徴量を生成する際、説明変数の組合せ数がk(1≦k<Nの整数)の複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った説明変数の組合せ数が「1」の特徴量と除去して残った組合せ数がkの特徴量との組合せを取った特徴量を説明変数の組合せ数がk+1の新たな特徴量として生成する処理を、説明変数の組合せ数がNの特徴量を生成するまでkが1から順に繰り返す、
    ことを特徴とする請求項1に記載の特徴量生成装置。
  3. 前記特徴量生成部は、前記複数の特徴量から前記しきい値未満の特徴量を除去する際、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるように、前記目的変数の値を変更することなく前記一の特徴量の値を変更することで前記点群を移動し、移動した点群と前記目的変数との相関係数である相関見込み値を計算し、計算した相関見込み値が前記しきい値以上であるか否かを判定する、
    ことを特徴とする請求項1に記載の特徴量生成装置。
  4. 前記特徴量生成部は、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるための前記点群の移動パターンを示す移動境界直線を計算し、計算した移動境界直線に基づいて前記点群を移動する、
    ことを特徴とする請求項3に記載の特徴量生成装置。
  5. 目的変数に係る複数の説明変数において組合せを取って特徴量を生成する際、前記目的変数との相関係数がしきい値以上になる特徴量を生成する特徴量生成方法であって、
    特徴量生成部が、
    前記複数の説明変数から生成し得る複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った特徴量同士の組合せを取った特徴量を新たな特徴量として生成する、
    ことを特徴とする特徴量生成方法。
  6. 前記特徴量生成部が、説明変数の組合せ数がN(N≧2の整数)の特徴量を生成する際、説明変数の組合せ数がk(1≦k<Nの整数)の複数の特徴量の各々について、一の特徴量と前記一の特徴量とは異なる任意の他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が前記しきい値以上になるか否かを判定し、前記複数の特徴量から前記しきい値未満の特徴量を除去し、除去して残った説明変数の組合せ数が「1」の特徴量と除去して残った組合せ数がkの特徴量との組合せを取った特徴量を説明変数の組合せ数がk+1の新たな特徴量として生成する処理を、説明変数の組合せ数がNの特徴量を生成するまでkが1から順に繰り返す、
    ことを特徴とする請求項5に記載の特徴量生成方法。
  7. 前記特徴量生成部が、前記複数の特徴量から前記しきい値未満の特徴量を除去する際、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるように、前記目的変数の値を変更することなく前記一の特徴量の値を変更することで前記点群を移動し、移動した点群と前記目的変数との相関係数である相関見込み値を計算し、計算した相関見込み値が前記しきい値以上であるか否かを判定する、
    ことを特徴とする請求項5に記載の特徴量生成方法。
  8. 前記特徴量生成部が、前記目的変数の値と前記一の特徴量の値とを示す点群に基づいて、前記一の特徴量と前記他の特徴量との組合せを取ったときの特徴量と前記目的変数との間で取り得る相関係数が十分に大きくなるための前記点群の移動パターンを示す移動境界直線を計算し、計算した移動境界直線に基づいて前記点群を移動する、
    ことを特徴とする請求項7に記載の特徴量生成方法。
JP2018137210A 2018-07-20 2018-07-20 特徴量生成装置および特徴量生成方法 Active JP7068085B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018137210A JP7068085B2 (ja) 2018-07-20 2018-07-20 特徴量生成装置および特徴量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018137210A JP7068085B2 (ja) 2018-07-20 2018-07-20 特徴量生成装置および特徴量生成方法

Publications (2)

Publication Number Publication Date
JP2020013511A JP2020013511A (ja) 2020-01-23
JP7068085B2 true JP7068085B2 (ja) 2022-05-16

Family

ID=69169939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018137210A Active JP7068085B2 (ja) 2018-07-20 2018-07-20 特徴量生成装置および特徴量生成方法

Country Status (1)

Country Link
JP (1) JP7068085B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7565719B2 (ja) 2020-07-14 2024-10-11 三菱重工業株式会社 解析装置、解析方法及びプログラム
JP7500358B2 (ja) * 2020-09-07 2024-06-17 キオクシア株式会社 情報処理装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031442A (ja) 2004-07-16 2006-02-02 Toshiba Corp 空間データ分析装置、空間データ分析方法及び空間データ分析プログラム
WO2017203601A1 (ja) 2016-05-24 2017-11-30 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793284A (ja) * 1993-09-28 1995-04-07 Mitsubishi Electric Corp 特性値予測装置及び特性値予測方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031442A (ja) 2004-07-16 2006-02-02 Toshiba Corp 空間データ分析装置、空間データ分析方法及び空間データ分析プログラム
WO2017203601A1 (ja) 2016-05-24 2017-11-30 三井情報株式会社 情報処理装置、情報処理方法、情報処理システム及びプログラム

Also Published As

Publication number Publication date
JP2020013511A (ja) 2020-01-23

Similar Documents

Publication Publication Date Title
JP5011830B2 (ja) データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
US9727308B2 (en) Sorting multiple records of data using ranges of key values
US20190087744A1 (en) Automatic Selection of Variables for a Machine-Learning Model
US20070208707A1 (en) Document data analysis apparatus, method of document data analysis, computer readable medium and computer data signal
RU2716553C1 (ru) Устройство создания сигнатуры, способ создания сигнатуры, носитель записи, в котором записана программа создания сигнатуры, и система определения программного обеспечения
JP7068085B2 (ja) 特徴量生成装置および特徴量生成方法
Joly et al. Machine learning enabled adaptive optimization of a transonic compressor rotor with precompression
JP2009163615A (ja) 共クラスタリング装置、共クラスタリング方法、共クラスタリングプログラム、および、そのプログラムを記録した記録媒体
Schowe Feature selection for high-dimensional data with RapidMiner
Seijo-Pardo et al. Using data complexity measures for thresholding in feature selection rankers
JP2009129323A (ja) 同義語抽出装置
CN112597284A (zh) 公司名称的匹配方法、装置、计算机设备及存储介质
JP5163472B2 (ja) パラメタ空間を分割してモデル化する設計支援装置、方法、及びプログラム
JP2017045080A (ja) 業務フロー仕様再生方法
CN116235158A (zh) 实施自动化特征工程的系统和方法
JP7274434B2 (ja) 流用設計支援システム及び流用設計支援方法
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
JP5210224B2 (ja) アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体
WO2017129943A1 (en) Methods and systems for physical placement control
JP7151515B2 (ja) ソート方法、ソートプログラム及びソート装置
JP7292235B2 (ja) 分析支援装置及び分析支援方法
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium
WO2014168199A1 (ja) 論理演算方法および情報処理装置
KR20200015300A (ko) 신경망 피처 벡터 결정 장치 및 방법
Joo et al. Under sampling adaboosting shapelet transformation for time series feature extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220428

R150 Certificate of patent or registration of utility model

Ref document number: 7068085

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150