JP2020057261A - 重回帰分析装置及び重回帰分析方法 - Google Patents

重回帰分析装置及び重回帰分析方法 Download PDF

Info

Publication number
JP2020057261A
JP2020057261A JP2018188305A JP2018188305A JP2020057261A JP 2020057261 A JP2020057261 A JP 2020057261A JP 2018188305 A JP2018188305 A JP 2018188305A JP 2018188305 A JP2018188305 A JP 2018188305A JP 2020057261 A JP2020057261 A JP 2020057261A
Authority
JP
Japan
Prior art keywords
multiple regression
regression analysis
explanatory
stratified
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018188305A
Other languages
English (en)
Other versions
JP7056497B2 (ja
Inventor
隆浩 坪内
Takahiro Tsubouchi
隆浩 坪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018188305A priority Critical patent/JP7056497B2/ja
Priority to US16/536,378 priority patent/US11790277B2/en
Priority to CN201910920553.1A priority patent/CN110990778B/zh
Publication of JP2020057261A publication Critical patent/JP2020057261A/ja
Application granted granted Critical
Publication of JP7056497B2 publication Critical patent/JP7056497B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)

Abstract

【課題】精度よく重回帰分析を行うことが可能な重回帰分析装置を提供する。【解決手段】重回帰分析装置100は、判定部118、分割部120、分析部122及び回帰式取得部124を有する。判定部118は、複数の説明変数のうち、複数のデータセットの層別化を行う際のパラメータとして有効な説明変数を、層別説明変数として判定する。分割部120は、層別説明変数を用いて、複数のデータセットを層別に分割する。分析部122は、分割された複数のデータセットのグループそれぞれに対して重回帰分析を行う。回帰式取得部124は、重回帰分析の結果が統合された統合重回帰式を取得する。【選択図】図2

Description

本発明は、重回帰分析装置及び重回帰分析方法に関し、特に、複数の説明変数と目的変数とから構成される複数のデータセットについて重回帰分析を行う重回帰分析装置及び重回帰分析方法に関する。
特許文献1は、少なくとも2種類の説明変数から、時系列データの目的変数を予測する重回帰分析装置を開示する。特許文献1にかかる重回帰分析装置では、これらの説明変数だけではなく、さらに既存の説明変数から派生して得られる微分演算を施したデータを新たな微分説明変数として加える。これにより、特許文献1にかかる技術では、重回帰分析の枠組みをそのまま使用したままで、時系列データの目的変数の予測精度を向上させることができる。
特開2016−031714号公報
特許文献1にかかる技術では、新たな微分説明変数が加わることにより、重回帰分析に用いられる説明変数が増加する。このように、説明変数が増加すると、扱う特徴量(次元)が多すぎて効率よく回帰できないため、汎化性能の低下(所謂「次元の呪い」)を招くおそれがある。したがって、説明変数が多い場合であっても、精度よく重回帰分析を行うことが望まれる。
本発明は、精度よく重回帰分析を行うことが可能な重回帰分析装置及び重回帰分析方法を提供するものである。
本発明にかかる重回帰分析装置は、複数の説明変数と目的変数とから構成される複数のデータセットについて重回帰分析を行う重回帰分析装置であって、前記複数の説明変数のうち、前記複数のデータセットの層別化を行う際のパラメータとして有効な説明変数を、層別説明変数として判定する判定部と、前記層別説明変数を用いて、前記複数のデータセットを層別に分割する分割部と、分割された前記複数のデータセットのグループそれぞれに対して重回帰分析を行う分析部と、前記重回帰分析の結果が統合された統合重回帰式を取得する取得部とを有する。
また、本発明にかかる重回帰分析方法は、複数の説明変数と目的変数とから構成される複数のデータセットについて重回帰分析を行う重回帰分析方法であって、前記複数の説明変数のうち、前記複数のデータセットの層別化を行う際のパラメータとして有効な説明変数を、層別説明変数として判定し、前記層別説明変数を用いて、前記複数のデータセットを層別に分割し、分割された前記複数のデータセットのグループそれぞれに対して重回帰分析を行い、前記重回帰分析の結果が統合された統合重回帰式を取得する。
本発明は、複数のデータセットに対して自動的に層別化を行い、層別化されたデータセットのグループそれぞれに対して重回帰分析を行って、これらの結果が統合された統合重回帰式を取得するように構成されている。このように、層別化されたデータセットのグループそれぞれに対して別個に重回帰分析を行うことにより、精度よく重回帰分析を行うことが可能となる。
また、好ましくは、前記複数の説明変数それぞれの目的変数に対する寄与率を算出する算出部と、前記複数の説明変数のうち、算出された前記寄与率が上位である、予め定められた条件を満たす数の前記説明変数を抽出する抽出部とをさらに有し、前記判定部は、前記抽出された前記説明変数から、前記層別説明変数を判定する。
本発明は、予め寄与率が高い説明変数に絞り込んだ後で層別説明変数を判定するように構成されている。これにより、層別説明変数の判定対象となる説明変数の数を削減できるので、層別説明変数の判定速度を向上させることが可能となる。
また、好ましくは、前記算出部は、非線形回帰手法を用いて前記寄与率を算出する。
本発明のように、非線形回帰手法を用いて寄与率を算出することで、効率的に、有効な層別説明変数を判定することが可能となる。
また、好ましくは、前記算出部は、ランダムフォレストを用いて前記寄与率を算出する。
本発明は、このように構成されていることによって、層別説明変数の判定速度をさらに向上させることが可能となる。
また、好ましくは、前記判定部は、前記層別説明変数の候補が複数ある場合に、各候補のうち、単回帰分析を行ったときの決定係数が最も低いものを、前記層別説明変数と判定する。
本発明は、このように構成されていることによって、非線形回帰に有利な説明変数を層別説明変数と判定できる。したがって、層別説明変数の判定精度つまり重回帰分析の精度をさらに向上させることが可能となる。
本発明によれば、精度よく重回帰分析を行うことが可能な重回帰分析装置及び重回帰分析方法を提供できる。
実施の形態1にかかる分析システムを示す図である。 実施の形態1にかかる重回帰分析装置の構成を示す図である。 層別説明変数を説明するための図である。 層別説明変数を説明するための図である。 実施の形態1にかかる重回帰分析装置によって実行される重回帰分析方法を示すフローチャートである。 実施の形態1にかかるデータ取得部によって取得されるデータセットを例示する図である。 ランダムフォレストによる回帰分析で用いられた決定木を例示する図である。 実施の形態1にかかる説明変数の抽出処理の詳細を示すフローチャートである。 説明変数を寄与率の高いものから順に並べた状態を例示する図である。 実施の形態1にかかる判定部によって行われる層別説明変数を判定する方法を示すフローチャートである。 実施の形態1にかかる判定部によって行われる層別説明変数を判定する方法を示すフローチャートである。 層別説明変数の判定の具体例を説明するための図である。 実施の形態1にかかる分割部によって行われるデータセットの分割処理を示す図である。 図5に示したS160〜S182の処理の具体例を説明するための図である。 実施の形態1にかかる、統合重回帰式を用いた重回帰分析の結果を例示する図である。 実施の形態2にかかる判定部によって行われる層別説明変数を判定する方法を示すフローチャートである。 実施の形態2にかかる分割部によって行われるデータセットの分割処理を示す図である。 実施の形態2にかかる分割部によって層別に分割されたデータセットを例示する図である。
(実施の形態1)
以下、図面を参照して本発明の実施の形態について説明する。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
図1は、実施の形態1にかかる分析システム1を示す図である。分析システム1は、複数のセンサ20と、重回帰分析装置100とを有する。センサ20と、重回帰分析装置100とは、有線又は無線のネットワーク2を介して通信可能に接続され得る。分析システム1は、例えば、車両に搭載され得るが、これに限定されない。
複数のセンサ20は、それぞれ、分析システム1の評価対象に関する様々な状態を検出する。分析システム1が車両に搭載される場合、センサ20は、車両における様々な状態(物理量)を検出する。例えば、分析システム1がエンジンのベンチ評価の際に排気系の触媒に関する分析を行う場合、センサ20は、触媒の様々な材料条件における、触媒の排気ガスNOx濃度、アクセル開度、ガソリン供給量、触媒の流入ガス温度、触媒の流入ガス濃度、触媒温度等を検出する。また、例えば、分析システム1がリチウムイオン電池のベンチ評価に関する分析を行う場合、センサ20は、リチウムイオン電池の様々な材料条件における、電池出力、電流、電流変化量、過去一定時間内での連続充電(放電)量、電池の温度、充電量等を検出する。
重回帰分析装置100は、複数の説明変数と目的変数とから構成される複数のデータセットについて重回帰分析を行う。データセットについては図6を用いて後述する。重回帰分析装置100は、センサ20によって検出された状態のいずれかを目的変数とし、他の状態を説明変数として、重回帰分析を行う。上記の例では、分析システム1がエンジンのベンチ評価の際に排気系の触媒に関する分析を行う場合、触媒の排気ガスNOx濃度を目的変数とし、アクセル開度、ガソリン供給量、触媒の流入ガス温度、触媒の流入ガス濃度及び触媒温度等を説明変数とする。また、分析システム1がリチウム電池のベンチ評価に関する分析を行う場合、電池出力を目的変数とし、電流、電流変化量、過去一定時間内での連続充電(放電)量、電池の温度及び充電量等を説明変数とする。
ここで、実施の形態1にかかる重回帰分析装置100は、複数の説明変数のうち、複数のデータセットの層別化(領域区分)を行う際のパラメータとして有効な説明変数を、層別説明変数として判定する。層別説明変数については後述する。重回帰分析装置100は、層別説明変数を用いて、複数のデータセットを層別に分割する。
また、重回帰分析装置100は、分割された複数のデータセットのグループそれぞれに対して重回帰分析を行う。さらに、重回帰分析装置100は、重回帰分析の結果が統合された統合重回帰式を取得する。これにより、実施の形態1にかかる重回帰分析装置100は、層別化を自動的に行い、層別化された複数のデータセットのグループそれぞれについて重回帰分析を行うので、説明変数が多い場合であっても、精度よく重回帰分析を行うことが可能となる。詳しくは後述する。
図2は、実施の形態1にかかる重回帰分析装置100の構成を示す図である。重回帰分析装置100は、主要なハードウェア構成として、制御部102と、記憶部104と、通信部106と、インタフェース部108(IF;Interface)とを有する。制御部102、記憶部104、通信部106及びインタフェース部108は、データバスなどを介して相互に接続されている。
制御部102は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部102は、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部104は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部104は、例えばROM(Read Only Memory)又はRAM(Random Access Memory)等である。記憶部104は、制御部102によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部104は、処理データ等を一時的に記憶するための機能を有する。記憶部104は、データベースを含み得る。
通信部106は、センサ20等の他の装置とネットワーク2を介して通信を行うために必要な処理を行う。通信部106は、通信ポート、ルータ、ファイアウォール等を含み得る。インタフェース部108(IF;Interface)は、例えばユーザインタフェース(UI)である。インタフェース部108は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。インタフェース部108は、ユーザ(オペレータ)によるデータの入力の操作を受け付け、ユーザに対して情報を出力する。
また、重回帰分析装置100は、データ取得部112、寄与率算出部114、抽出部116、判定部118、分割部120、分析部122、回帰式取得部124及び結果表示部126(以下、これらを「各構成要素」と称する)を有する。データ取得部112、寄与率算出部114、抽出部116及び判定部118は、それぞれ、データ取得手段、寄与率算出手段、抽出手段及び判定手段として機能する。また、分割部120、分析部122、回帰式取得部124及び結果表示部126は、それぞれ、データ取得手段、寄与率算出手段、抽出手段、判定手段、分割手段、分析手段、回帰式取得手段及び結果表示手段として機能する。
なお、各構成要素は、例えば、制御部102の制御によって、プログラムを実行させることによって実現できる。より具体的には、各構成要素は、記憶部104に格納されたプログラムを、制御部102が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。また、各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。以上のことは、後述する他の実施の形態においても同様である。なお、各構成要素の具体的な機能については後述するが、以下に、各構成要素の機能の概要について説明する。
データ取得部112は、複数のデータセットを取得する。寄与率算出部114は、データセットを構成する複数の説明変数それぞれの目的変数に対する寄与率を算出する。抽出部116は、複数の説明変数のうち、寄与率算出部114によって算出された寄与率が上位である、予め定められた条件を満たす数の説明変数を抽出する。
判定部118は、抽出部116によって抽出された、寄与率が上位の説明変数から、複数のデータセットの層別化を行う際のパラメータとして有効な説明変数を、層別説明変数として判定する。分割部120は、層別説明変数を用いて、複数のデータセットを層別に分割する。ここで、「層別説明変数」とは、この層別説明変数のある閾値を境として複数のデータセットを分割する(振り分ける)と、複数のデータセットが層別に分割されるような説明変数である。
図3及び図4は、層別説明変数を説明するための図である。図3及び図4の例において、各データセットは、目的変数をyとし、説明変数をX1〜XMとして構成されているとする。ここで、「M」は2以上の整数であり、説明変数の数を示す。また、図3及び図4の例において、中抜きの丸(白丸)のそれぞれは、データセットを示す。
図3は、縦軸と目的変数yとし、横軸を説明変数Xk1とした場合のデータセットの分布図である。このとき、説明変数Xk1が閾値Xth1よりも小さいデータセットの目的変数yの値は、全て、y1よりも小さい。そして、説明変数Xk1が閾値Xth1よりも大きいデータセットの目的変数yの値は、全て、y1よりも大きい。言い換えると、目的変数yがy1よりも小さいデータセットの説明変数Xk1の値は、全て、Xth1よりも小さく、目的変数yがy1よりも大きいデータセットの説明変数Xk1の値は、全て、Xth1よりも大きい。このように、説明変数Xk1における閾値Xth1によって、データセットが、層別に区分される。したがって、説明変数Xk1は、複数のデータセットの層別化を行う際のパラメータとして有効であるので、層別説明変数となり得る。
図4は、縦軸と目的変数yとし、横軸を説明変数Xk2とした場合のデータセットの分布図である。このとき、説明変数Xk2が閾値Xth2よりも小さいデータセットの目的変数yの値は、全てy1よりも小さいわけではなく、矢印A1で示すデータセットのように、y1よりも大きいものもある。そして、説明変数Xk2が閾値Xth2よりも大きいデータセットの目的変数yの値は、全てy1よりも大きいわけではなく、矢印A2で示すデータセットのように、y1よりも小さいものもある。言い換えると、目的変数yがy1よりも小さいデータセットの説明変数Xk2の値は、全てXth2よりも小さいわけではなく、目的変数yがy1よりも大きいデータセットの説明変数Xk2の値は、全てXth2よりも大きいわけではない。つまり、あるデータセットにおける目的変数(及び説明変数)が、階層(区分)を跨いでしまっている。このように、説明変数Xk2における閾値Xth2では、データセットは、層別に区分されない。したがって、説明変数Xk2は、層別説明変数とするのに有効でない。
分析部122(図2)は、分割部120によって分割された複数のデータセットのグループそれぞれに対して、独立して重回帰分析を行う。回帰式取得部124は、重回帰分析の結果が統合された統合重回帰式を取得する。統合重回帰式については後述する。結果表示部126は、統合重回帰式を用いて重回帰分析を行った結果を表示する。
図5は、実施の形態1にかかる重回帰分析装置100によって実行される重回帰分析方法を示すフローチャートである。まず、データ取得部112は、N個のデータセットを取得する(ステップS102)。具体的には、データ取得部112は、複数のセンサ20から検出された状態を示す値を取得する。データ取得部112は、評価対象のある材料条件等において、複数のセンサ20から検出された状態のいずれかを目的変数とし、他の状態を説明変数として、1つのデータセットを取得する。そして、データ取得部112は、他の材料条件においても同様にして、1つのデータセットを取得する。このようにして、データ取得部112は、N個のデータセットを取得する。なお、データセットを構成する目的変数及び説明変数は、センサ20によって検出されることに限定されない。
図6は、実施の形態1にかかるデータ取得部112によって取得されるデータセットを例示する図である。図6に例示したデータセットの数Nは26(N=26)である。また、それぞれのデータセットは、目的変数yと、318個(M=318)の説明変数X001〜X318とから構成される。ここで、図6の例では、データセット#1〜#26の順序は、目的変数yの小さいものから順(目的変数yの昇順)に配置したものである。
次に、寄与率算出部114は、M個全ての説明変数の、目的変数yに対する寄与率(重要度)を算出する(ステップS104)。具体的には、寄与率算出部114は、機械学習のアルゴリズムを用いて、寄与率を算出する。さらに具体的には、寄与率算出部114は、機械学習のうち、非線形回帰手法を用いて、寄与率を算出する。非線形回帰手法には、例えば、ランダムフォレスト、サポートベクトル回帰又は多項ロジスティック回帰等がある。ここで、非線形回帰手法のうち、ランダムフォレストを用いると、他の手法よりも寄与率の算出速度が速い。したがって、以下、ランダムフォレストを用いる例について説明する。
寄与率算出部114は、複数のデータセットに対して、各説明変数を条件分岐に用いたランダムフォレストを用いて、目的変数yの回帰分析を行う。なお、本実施の形態では、このランダムフォレストを用いた回帰分析の結果自体を、目的変数yの回帰に用いるわけではなく、後述するように、説明変数の寄与率(重要度)の算出のみに用いる。寄与率算出部114は、このランダムフォレストを用いた回帰分析の際に生成された決定木の、第1分岐に採用された説明変数それぞれの数をカウントする。
図7は、ランダムフォレストによる回帰分析で用いられた決定木を例示する図である。決定木Tree_1では、説明変数X002が第1分岐に採用されている。この場合、寄与率算出部114は、説明変数X002の第1分岐採用回数をインクリメントする。また、決定木Tree_2では、説明変数X132が第1分岐に採用されている。この場合、寄与率算出部114は、説明変数X132の第1分岐採用回数をインクリメントする。
このようにして、全ての決定木Tree_1〜Tree_Tについて、各説明変数の第1分岐採用回数をカウントする。これにより、寄与率算出部114は、各説明変数Xkの第1分岐採用回数Nkを算出する。なお、Tは、決定木の数である。そして、寄与率算出部114は、各説明変数Xkの寄与率εkを、εk=Nk/T*100[%]により算出する。寄与率算出部114は、M個の説明変数それぞれについて、寄与率を算出する。なお、寄与率算出部114は、他の方法を用いて、寄与率を算出してもよい。
次に、抽出部116は、S104の処理で算出された寄与率が上位である説明変数を抽出する(ステップS110)。具体的には、図8に示す方法によって、予め定められた条件を満たす数の説明変数を抽出する。
図8は、実施の形態1にかかる説明変数の抽出処理の詳細を示すフローチャートである。まず、抽出部116は、上位のものから寄与率を加算し、その寄与率の和が予め定められた閾値Th1を超える説明変数の数M1を算出する(ステップS112)。例えば、Th1=80[%]であるが、Th1は、これに限定されない。次に、抽出部116は、M1がN−1(つまり「データセット数」−1)よりも大きいか否かを判定する(ステップS114)。M1がN−1よりも大きい場合(S114のYES)、抽出部116は、寄与率の高い方から(N−1)個の説明変数を抽出する(ステップS116)。一方、M1がN−1よりも大きくない場合(S114のNO)、抽出部116は、寄与率の高い方からM1個の説明変数を抽出する(ステップS118)。なお、本実施の形態では、抽出される説明変数の数の上限を(N−1)個としたが、この上限はなくてもよい。
図9は、説明変数を寄与率の高いものから順に並べた状態を例示する図である。図9の例では、S104の処理において、ランダムフォレストの決定木の数を10万本(T=100000)としている。例えば、説明変数X002の第1分岐採用回数は3905回であり、したがって、寄与率は3.9%である。図9の例では、寄与率が高い説明変数は、高いものから順に、X002,X132,X133,・・・である。そして、図9の例では、M1>N−1であったので、抽出部116は、寄与率が高いN−1個(つまり25個)の説明変数を抽出する。
次に、判定部118は、S110で抽出された、寄与率が上位である説明変数から、層別説明変数を判定する(図5のステップS120)。具体的には、判定部118は、図10及び図11に示すフローチャートで示す方法で、層別説明変数を判定する。
図10及び図11は、実施の形態1にかかる判定部118によって行われる層別説明変数を判定する方法を示すフローチャートである。まず、判定部118は、N個のデータセットを目的変数yの昇順に配置する(ステップS122)。具体的には、判定部118は、図6に示すように、N個のデータセットを目的変数yの昇順に配置するが、図6とは異なり、これらのデータセットは、S110の処理で抽出された説明変数で構成される。
判定部118は、後述するS126の処理でN個のデータセットを分割するときに用いる分割数nの初期値を、n=N/2(但しNが奇数の場合は繰り上げ)とする(ステップS124)。つまり、分割数nの初期値は、データセット数Nの中間値である。図6の例ではN=26であるので、分割数nの初期値は13である。なお、分割数nの初期値をデータセット数Nの中間値とするのは、層別に分割されたデータセットそれぞれの数にできるだけ偏りがないようにするためである。なお、データセットそれぞれの数に偏りがあると、データセット数が少ない方を用いて適切に重回帰分析を行うことができないおそれがある。
次に、判定部118は、分割数nでデータセットを分割する(ステップS126)。具体的には、判定部118は、N個のデータセットを、目的変数yが小さいものからn個のデータセットと、目的変数yの大きな(N−n)個のデータセットとに分割する。ここで、S110の処理で抽出された任意の説明変数をXkとする。
次に、判定部118は、目的変数yの小さなn個のデータセット(LOWデータセット)について、ある説明変数Xkの最大値LOWmax及び最小値LOWminを取得する(ステップS130)。同様に、判定部118は、目的変数の大きな(N−n)個のデータセット(HIGHデータセット)について、説明変数Xkの最大値HIGHmax及び最小値HIGHminを取得する(ステップS132)。なお、LOWmax及びLOWminは、それぞれ、LOWデータセットを構成するデータセットのうちのいずれかの説明変数Xkの値である。同様に、HIGHmax及びHIGHminは、それぞれ、HIGHデータセットを構成するデータセットのうちのいずれかの説明変数Xkの値である。
次に、判定部118は、右上がりの層別条件「HIGHmin−LOWmax>0且つLOWmin−HIGHmax<0」、又は、右下がりの層別条件「HIGHmin−LOWmax<0且つLOWmin−HIGHmax>0」を満たすか否かを判定する(ステップS134)。ここで、右上がりの層別条件とは、図3に例示したように、目的変数yが小さい階層(区分)では、全てのデータセットの説明変数Xkが、ある閾値Xth以下であり、目的変数yが大きい階層(区分)では、全てのデータセットの説明変数Xkが、閾値Xthよりも大きいことである。したがって、図3に例示したように、データセットは、右上の領域と左下の領域とに区分(層別化)される。一方、右上がりの層別条件を満たさない場合、例えば、図4に例示したように、データセットは、右上の領域と左下の領域とに区分(層別化)されない。また、右下がりの層別条件とは、図14に例示するように、目的変数yが小さい階層(区分)では、全てのデータセットの説明変数Xkが、ある閾値Xthより大きく、目的変数yが大きい階層(区分)では、全てのデータセットの説明変数Xkが、閾値Xth以下であることである。
右上がりの層別条件又は右下がりの層別条件を満たす場合(S134のYES)、判定部118は、説明変数Xkを層別説明変数の候補であると判定する(ステップS136)。一方、右上がりの層別条件又は右下がりの層別条件を満たさない場合(S134のNO)、判定部118は、説明変数Xkを層別説明変数の候補でないと判定する(ステップS138)。そして、判定部118は、S110の処理で抽出された全ての説明変数Xkについて、S130〜S138の処理を行う(ステップS140)。
次に、判定部118は、層別説明変数の候補の数が0であるか否かを判定する(ステップS142)。層別説明変数の候補数が0である場合(S142のYES)、分割数nの数を1インクリメント及び1デクリメントする(ステップS144)。これにより、中間値(初期値)の前後(大きい方及び小さい方)に2つの分割数nが生成される。例えば、分割数nが13であった場合、n=14及びn=12とする。なお、S144の2回目以降の処理では、前回の処理でインクリメントされた方の分割数(例えばn=14)がさらにインクリメントされ、前回の処理でデクリメントされた方の分割数(例えばn=12)がさらにデクリメントされる。つまり、S144が繰り返されるにつれて、2つの分割数nは、データセット数Nの中間値(初期値)から離れていく。
そして、判定部118は、大きい方(インクリメントされた方)の分割数nがN*0.7よりも大きくなったか否か、又は、小さい方(デクリメントされた方)の分割数nがN*0.3よりも小さくなったか否かを判定する(ステップS146)。大きい方の分割数nがN*0.7よりも大きくなった、又は、小さい方の分割数nがN*0.3よりも小さくなった場合(S146のYES)、判定部118は、層別説明変数の判定処理を終了する。そして、図5のS160以降の処理は行われない。このように、層別説明変数の判定処理の回数(分割数のインクリメント及びデクリメント)に限度を設けるのは、以下の理由による。すなわち、分割数nがデータセット数Nの中間値とあまりにかけ離れると、S160の処理でデータセットを分割したときに一方のグループにデータセットが偏ってしまい、他方のグループのデータセット数が少なくなってしまう。これにより、S180の処理で他方のグループについて適切に重回帰分析を行うことが困難となるからである。
一方、大きい方の分割数nがN*0.7よりも大きくなっておらず、小さい方の分割数nがN*0.3よりも小さくなっていない場合(S146のNO)、処理はS126に戻る。そして、判定部118は、大きい方の分割数n(例えばN=14)及び小さい方の分割数n(例えばn=12)それぞれについて、S126〜S142の処理を行う。
一方、候補数が0でない場合(S142のNO)、判定部118は、単回帰分析の決定係数Rが最も低い説明変数を、層別説明変数Xsと判定する(ステップS148)。なお、候補数が1個である場合、判定部118は、その1個の候補である説明変数を、層別説明変数Xsと判定する。ここで、説明変数Xkについての単回帰分析とは、1つの説明変数Xkを説明変数とし、目的変数yを目的変数とした回帰分析である。なお、「単回帰分析の決定係数Rが低い説明変数」とは、線形回帰に不利であることを意味する、このように、この説明変数Xkが、線形回帰に不利であるにも関わらず、S110の処理で寄与率が高いと判定されたということは、非線形回帰、つまり、層別に有効である可能性が高い。したがって、この説明変数Xkが、層別説明変数Xsと判定される。しかしながら、層別説明変数が後述する線形回帰に使えないわけではないことに、留意されたい。なお、非線形回帰と層別との関係については後述する。
図12は、層別説明変数の判定の具体例を説明するための図である。図12に示した例には、分割数n=16である場合の、説明変数X002,X132,X133の判定結果が示されている。
説明変数X002について、HIGHデータセットの説明変数Xkの最小値HIGHmin(2.576)とLOWデータセットの説明変数Xkの最大値LOWmax(42.438)との差は、−39.9064(<0)である。また、LOWデータセットの説明変数Xkの最小値LOWmin(15.772)とHIGHデータセットの説明変数Xkの最大値HIGHmax(15.750)との差は、0.02215(>0)である。したがって、判定部118は、説明変数X002について、右下がりの層別条件を満たすと判定する。
説明変数X132について、HIGHデータセットの説明変数Xkの最小値HIGHmin(−12.095)とLOWデータセットの説明変数Xkの最大値LOWmax(−12.189)との差は、0.0937(>0)である。また、LOWデータセットの説明変数Xkの最小値LOWmin(−13.076)とHIGHデータセットの説明変数Xkの最大値HIGHmax(−11.555)との差は、−1.521(<0)である。したがって、判定部118は、説明変数X132について、右上がりの層別条件を満たすと判定する。
説明変数X133について、HIGHデータセットの説明変数Xkの最小値HIGHmin(11.555)とLOWデータセットの説明変数Xkの最大値LOWmax(13.076)との差は、−1.521(<0)である。また、LOWデータセットの説明変数Xkの最小値LOWmin(12.189)とHIGHデータセットの説明変数Xkの最大値HIGHmax(12.095)との差は、0.0937(>0)である。したがって、判定部118は、説明変数X133について、右下がりの層別条件を満たすと判定する。
ここで、説明変数X022,X132,X133の単回帰分析の決定係数Rは、それぞれ、0.576、0.577、0.571である。したがって、決定係数Rの最も低い説明変数はX133であるので、説明変数X133が、層別説明変数と判定される。
次に、分割部120は、S120の処理で判定された層別説明変数Xsを用いて、複数のデータセットを、層別に分割する(図5のステップS160)。具体的には、分割部120は、後述するように、層別説明変数Xsのある閾値に対する大小によって、N個のデータセットを、2つのグループに分割する。
図13は、実施の形態1にかかる分割部120によって行われるデータセットの分割処理を示す図である。まず、分割部120は、S120の処理で判定された層別説明変数XsのS130及びS132(図10)における結果を取得する(ステップS162)。図12の例では、分割数n=16における、層別説明変数X133のLOWmax、LOWmin、HIGHmax及びHIGHminが取得される。次に、分割部120は、層別説明変数XsがS134の処理で右上がりの層別条件を満たしたか否かを判定する(ステップS164)。層別説明変数Xsが右上がりの層別条件を満たした場合(S164のYES)、分割部120は、閾値Xthを、LOWmax及びHIGHminの平均、つまり、Xth=(LOWmax+HIGHmin)/2とする(ステップS166)。
一方、層別説明変数Xsが右下がりの層別条件を満たした場合(S164のNO)、分割部120は、閾値Xthを、LOWmin及びHIGHmaxの平均、つまり、Xth=(LOWmin+HIGHmax)/2とする(ステップS168)。なお、Xthは、厳密に、LOWmax及びHIGHminの平均値又はLOWmin及びHIGHmaxの平均値でなくてもよく、これらの平均値の近似値であってもよい。つまり、Xthは、LOWmaxとHIGHminとの間の値(S166)、又は、LOWminとHIGHmaxとの間の値(S168)であってもよい。つまり、LOWmax<Xth<HIGHmin(S166)、又は、HIGHmax<Xth<LOWmin(S168)であればよい。
次に、分割部120は、層別説明変数Xs及び閾値Xthを用いて、データセットを分割する分割する(ステップS170)。具体的には、Xs>Xthのグループ#1と、Xs≦Xthのグループ#2に、データセットを分割(分類)する。これにより、複数のデータセットは、層別に分割される。図12の例では、層別説明変数X133について、閾値Xth=12.1と決定される。そして、X133の値が12.1よりも大きなデータセットについてはグループ#1に振り分けられ(分類され)、X133の値が12.1以下のデータセットについてはグループ#2に振り分けられる(分類される)。このとき、図12の例では右下がりの層別条件が満たされているので、目的変数yの小さなn個のデータセットが全てグループ#1に分類され、目的変数yの大きな(N−n)個のデータセットが全てグループ#2に分類される。
次に、分析部122は、層別に分割された複数のデータセットのグループそれぞれに対して、重回帰分析を行う(図5のステップS180)。具体的には、分析部122は、グループ#1のデータセットを用いて重回帰分析を行う。同様に、分析部122は、グループ#2のデータセットを用いて重回帰分析を行う。このとき、分析部122は、グループ#1についての重回帰分析と、グループ#2についての重回帰分析とを、互いに独立して行う。
さらに具体的には、分析部122は、グループ#1について、重回帰式f=x1111+x1212+・・・+x1p1p+bを算出する。また、分析部122は、グループ#2について、重回帰式f=x2121+x2222+・・・+x2q2q+bを算出する。ここで、xijは説明変数のいずれかであり、aijはxijの係数であり、bは切片である。また、pは、グループ#1にかかる重回帰分析で使用される説明変数の数である。また、qは、グループ#2にかかる重回帰分析で使用される説明変数の数である。
ここで、各グループのデータセットそれぞれの目的変数y及び説明変数Xkを重回帰式に当てはめることによって得られる係数aij及び切片bの連立方程式を解くことで、重回帰式の各係数及び切片が算出され得る。そして、係数及び切片を解くことを可能とするためには、データセット数(連立方程式の方程式の数)が、係数及び切片の合計以上となる必要がある。したがって、分析部122は、各グループについて重回帰分析を行う際に、説明変数Xkの数を、(各グループを構成するデータセット数)−1に絞り込む。図12の例では、グループ#1のデータセット数は16個であるので、分析部122は、グループ#1についての重回帰分析を行う際に、説明変数Xkの数を15個に絞り込む。同様に、グループ#2のデータセット数は10個であるので、分析部122は、グループ#2についての重回帰分析を行う際に、説明変数Xkの数を9個に絞り込む。なお、説明変数Xkの絞り込みの際には、S104の処理で算出された寄与率の高いものから順に、重回帰分析に用いる説明変数Xkを選択してもよい。あるいは、S110の処理で抽出された説明変数Xkから、重回帰分析に用いる説明変数Xkを選択してもよい。この場合、S110の処理で抽出された説明変数Xkのうち、単回帰分析の決定係数Rが高いものを、重回帰分析に用いる説明変数Xkとして選択してもよい。
次に、回帰式取得部124は、S180の結果を用いて、統合重回帰式を取得する(ステップS182)。具体的には、回帰式取得部124は、以下の式(1)により、2個の重回帰式f,fを統合して、統合重回帰式を取得する。ここで、Yは、目的変数の予測値を示す。
Figure 2020057261
図14は、図5に示したS160〜S182の処理の具体例を説明するための図である。図14は、図12の例についての処理の具体例を示す。まず、S160の処理において、N=26個のデータセットが、グループ#1(白丸で示す)とグループ#2(黒丸で示す)とに分割される。このとき、上述したように、層別説明変数Xs(X133)の閾値Xth(=12.1)で、N=26個のデータセットが、グループ#1(16個)とグループ#2(10個)とに、層別に分割されることとなる。そして、S180の処理において、グループ#1及びグループ#2それぞれについて、重回帰分析#1及び重回帰分析#2が行われる。
ここで、重回帰分析#1の結果、重回帰式f=X056*2.405+X079*(−0.77)+X150*20.454+X305*(−0.042)+X306*0.026+6.203が得られる。また、重回帰分析#2の結果、重回帰式f=X051*(−0.511)+X056*21.903+X090*192.249+X147*(−53.719)+X195*186.77−106.245が得られる。そして、S182の処理によって、重回帰式fと重回帰式fとが式(1)で示すように統合された、統合重回帰式が取得される。つまり、目的変数の予測値Yは、X133>12.1のときは重回帰式fに従い、X133≦12.1のときは、重回帰式fに従う。
次に、結果表示部126は、統合重回帰式を用いた重回帰分析の結果を表示する(ステップS184)。具体的には、図15に例示するように、結果表示部126は、インタフェース部108を制御して、ユーザに視認可能に、重回帰分析の結果を表示する。
図15は、実施の形態1にかかる、統合重回帰式を用いた重回帰分析の結果を例示する図である。図15において、横軸は目的変数の予測値Yを示し、縦軸は、目的変数の実際値yを示す。ここで、直線は、Y=yを示す。図15に示すように、グループ#1の各データセット(白丸で示す)は、y=y1よりも小さい領域で、Y=yの近傍に分布している。また、グループ#2の各データセット(黒丸で示す)は、y=y1よりも大きな領域で、Y=yの近傍に分布している。そして、この統合重回帰式を用いた重回帰分析の精度として、決定係数Rが表示されている。ここで、R=0.9826であることから、統合重回帰式を用いた重回帰分析の精度は、比較的良好であるといえる。
上述したように、本実施の形態にかかる重回帰分析装置100は、複数のデータセットに対して自動的に層別化を行い、層別化されたデータセットのグループそれぞれに対して重回帰分析を行って、これらの結果が統合された統合重回帰式を取得する。このように、層別化されたデータセットのグループそれぞれに対して別個に重回帰分析を行うことにより、説明変数が多い場合であっても、精度よく重回帰分析を行うことが可能となる。したがって、説明変数が多い場合であっても、推定式の汎化性能低下(次元の呪い)を招くことを抑制することができる。
また、実施の形態1のS104〜S110(図5)の処理のように予め寄与率が高い説明変数に絞り込んだ後で層別説明変数を判定することにより、層別説明変数の判定対象となる説明変数の数を削減できる。したがって、層別説明変数の判定速度を向上させることが可能となる。
また、非線形回帰手法を用いて寄与率を算出することで、以下に説明するように、効率的に、有効な層別説明変数を判定することが可能となる。層別とは、ある説明変数のある値(閾値)を境に、データセットの目的変数yの線形性が異なる場合に、その説明変数の閾値を境にグループ分けすることである。したがって、その層別にグループ分けするための説明変数(層別説明変数)は、式(1)からも、目的変数に対して不連続性つまり非線形性を有する。したがって、層別説明変数の判定対象となる説明変数は、非線形回帰手法を用いて算出された寄与率の高いものとすることで、効率的に、有効な層別説明変数を判定することが可能となる。言い換えると、非線形回帰手法を用いると、層別に有効な説明変数の寄与率を高くするように、寄与率を算出することができる。さらに、上述したように、非線形回帰手法のうちランダムフォレストを用いると、寄与率の算出速度が速いので、ランダムフォレストを用いて説明変数の寄与率を算出することで、層別説明変数の判定速度をさらに向上させることが可能となる。
なお、Ridge、Lasso又はElastic Net等の線形回帰手法のみを用いた回帰手法では、層別(領域区分)に有効な説明変数の重要性を把握できないおそれがある。一方、非線形回帰手法では、層別(領域区分)に有効な説明変数の重要性を把握できるが、各説明変数の線形的な影響傾向を得ることが困難である。したがって、非線形回帰手法では、各説明変数の変化に伴う目的変数の変化を人間が直観的に把握することが難しい。
これに対し、本実施の形態にかかる重回帰分析装置100は、非線形回帰手法を用いて層別に有効な説明変数を判定してデータセットの層別化を行い、層別化されたデータセットのグループそれぞれについて、線形回帰(重回帰分析)を行う。したがって、本実施の形態にかかる重回帰分析装置100を用いることによって、上述した線形回帰手法及び非線形回帰手法の問題点を解決することができる。
(実施の形態2)
次に、実施の形態2について説明する。実施の形態2においては、複数の層別説明変数が判定される点で、実施の形態1と異なる。なお、実施の形態2にかかる重回帰分析装置100の構成については、図2に示したものと実質的に同様であるので、説明を省略する。また、重回帰分析装置100によって実行される重回帰分析方法については、図5に示したものと、一部を除き、実質的に同様である。以下、実施の形態2にかかる処理のうち、実施の形態1にかかる処理と異なる処理(S120及びS160)について説明する。なお、以下の説明では、2個の層別説明変数が判定される例が示されている。
図16は、実施の形態2にかかる判定部118によって行われる層別説明変数を判定する方法を示すフローチャートである。なお、図16は、図10に示した処理の後段の処理が示されている。つまり、実施の形態2にかかる判定部118は、図10及び図16に示した処理を行う。
判定部118は、S110の処理で抽出された全ての説明変数Xkについて、S130〜S138の処理を行う(ステップS240)。次に、判定部118は、層別説明変数の候補数が0であるか否かを判定する(ステップS242)。層別説明変数の候補数が0である場合(S242のYES)、判定部118は、S144及びS146の処理(図11)を行う。
一方、層別説明変数の候補数が0でない場合(S242のNO)、判定部118は、層別説明変数の候補数が2以上であるか否かを判定する(ステップS244)。層別説明変数の候補数が2以上である場合(S244のYES)、判定部118は、単回帰分析の決定係数Rが低い2個の説明変数を、層別説明変数Xsと判定する(ステップS248)。なお、層別説明変数の候補数が2個である場合、判定部118は、その2個の候補である説明変数Xkを、層別説明変数Xsと判定する。これにより、2個の層別説明変数Xs1,Xs2が判定される。
一方、層別説明変数の候補数が2以上でない、つまり候補数が1個である場合(S244のNO)、判定部118は、その1個の候補である説明変数Xkを、層別説明変数Xsと判定する(ステップS250)。そして、判定部118は、図11、図10及び図16に記載されたS144〜S240の処理を繰り返す。その後、判定部118は、層別説明変数の候補の数が0であるか否かを判定する(ステップS252)。候補数が0である場合(S252のYES)、判定部118は、S144及びS146の処理(図11)を行う。一方、候補数が0でない場合(S252のNO)、判定部118は、単回帰分析の決定係数Rが最も低い説明変数を、もう1つの層別説明変数Xsと判定する(ステップS254)。これにより、S250の処理で判定されたものと合わせて、2個の層別説明変数Xs1,Xs2が判定される。
図17は、実施の形態2にかかる分割部120によって行われるデータセットの分割処理を示す図である。分割部120は、S120の処理で判定された層別説明変数Xs1,Xs2それぞれのS130及びS132における結果を取得する(ステップS262)。次に、分割部120は、層別説明変数Xs1,Xs2それぞれについて、図13に示したS164〜S168の処理を行い、閾値Xth1,Xth2を算出する(ステップS264)。ここで、閾値Xth1は層別説明変数Xs1における閾値であり、閾値Xth2は層別説明変数Xs2における閾値である。
次に、分割部120は、層別説明変数Xs1,Xs2及びそれぞれの閾値Xth1,Xth2を用いて、データセットを分割する(ステップS266)。具体的には、分割部120は、Xs1>Xth1且つXs2>Xth2のデータセットをグループ#1に振り分ける。また、分割部120は、Xs1≦Xth1且つXs2>Xth2のデータセットをグループ#2に振り分ける。また、分割部120は、Xs1>Xth1且つXs2≦Xth2のデータセットをグループ#3に振り分ける。また、分割部120は、Xs1≦Xth1且つXs2≦Xth2のデータセットをグループ#4に振り分ける。このように、データセットは、4つ(=2)のグループに振り分けられる。
図18は、実施の形態2にかかる分割部120によって層別に分割されたデータセットを例示する図である。図18の例において、データセット数を200個(N=200)とする。グループ#1には、60個のデータセットが振り分けられている。グループ#2には、40個のデータセットが振り分けられている。グループ#3には、50個のデータセットが振り分けられている。グループ#4には、50個のデータセットが振り分けられている。このように、データセット数が比較的多い場合には、層別説明変数が複数であっても、層別に分割されたデータセットの数は、重回帰分析を行うのに十分であり得る。
そして、分析部122は、グループ#1〜#4それぞれについて重回帰分析を行い、4個の重回帰式を得る(図5のS180)。回帰式取得部124は、式(1)と同様の方法によって4個の重回帰式を統合することで、統合重回帰式を取得する(図5のS182)。そして、結果表示部126は、統合重回帰式を用いた重回帰分析の結果を表示する(図5のS184)。
なお、上述した実施の形態2では、層別説明変数が2個の場合について説明したが、層別説明変数が3個判定される場合も、同様の処理が行われる。層別説明変数が3個の場合、図16において、S244の処理を、層別説明変数の候補数が3以上であるか否かの判定に置き換え、S248の処理を、単回帰分析の決定係数Rが低い3個の説明変数を、層別説明変数Xsと判定する処理に置き換える。また、層別説明変数の候補数が3以上でない場合、判定部118は、1又は2個の説明変数を層別説明変数Xsと判定し(S250の処理に対応)、残りの層別説明変数を、図16に示す処理と同様の処理によって判定する。そして、分割部120は、図17に示す処理と同様の処理を行って、8つ(=2)のグループに、データセットを振り分ける。そして、分析部122は、8つのグループそれぞれについて重回帰分析を行い、8個の重回帰式を得る(図5のS180)。回帰式取得部124は、式(1)と同様の方法によって8個の重回帰式を統合することで、統合重回帰式を取得する(図5のS182)。そして、結果表示部126は、統合重回帰式を用いた重回帰分析の結果を表示する(図5のS184)。
実施の形態2で説明したように、層別説明変数は1個に限られず、複数であってもよい。これにより、データセットが、より細かく層別に分割され得るので、実施の形態1と比較して、さらに精度よく重回帰分析を行うことが可能となり得る。なお、データセット数が少ない場合、層別に分割された各グループのデータセット数が、重回帰分析を行うのに必要な数に満たないことがあり得る。したがって、層別説明変数を複数とすること、つまり、4層別又は8層別等に分割することは、データセット数がある程度多い場合に有効であり得る。
(変形例)
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述したフローチャートにおいて、複数の処理の順序は、適宜、変更可能である。また、上述したフローチャートにおいて、複数の処理のうちの1つは、省略されてもよい。
例えば、図5に示したS104〜S110の処理はなくてもよい。つまり、S104〜S110の処理のようにして予め寄与率が高いものに処理対象の説明変数を絞り込んだ後で層別説明変数を判定する必要はない。この場合、S140(図11)における「全ての説明変数Xk」とは、S110の処理で抽出された説明変数(図9の例では25個の説明変数)ではなく、データセットを構成する全ての説明変数(図6の例では318個の説明変数)であってもよい。なお、実施の形態1のS104〜S110の処理を行うことにより、上述したように、層別説明変数の判定速度を向上させることが可能となる。
また、上述した実施の形態においては、S104の処理で、非線形回帰手法を用いて寄与率を算出するとしたが、このような構成に限られない。つまり、説明変数の寄与率の算出の際に、非線形回帰手法を用いなくてもよい。しかしながら、非線形回帰手法を用いて寄与率を算出することで、上述したように、効率的に、有効な層別説明変数を判定することが可能となる。
また、上述した実施の形態においては、S182の処理において1つの統合重回帰式を取得するとしたが、このような構成に限られない。複数の統合重回帰式を取得し、複数の統合重回帰式のうち決定係数が最も高いものを、実際の回帰分析に用いるものとして選択してもよい。具体的には、図16に示したように複数の層別説明変数を判定し、それぞれの層別説明変数を用いて、複数のデータセットを2つ又は4つのグループに層別に分割する。例えば、2個の層別説明変数Xs1,Xs2を用いる場合は、3組のグループ(層別説明変数Xs1を用いた2つのグループ、層別説明変数Xs2を用いた2つのグループ、及び、層別説明変数Xs1,Xs2を用いた4つのグループ)が生成される。このようにして、各組に対応する複数の統合重回帰式が取得される。これにより、より回帰分析の精度の高い統合重回帰式を、実際の解析に用いる統合重回帰式として選択することが可能となる。
また、上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1・・・分析システム、20・・・センサ、100・・・重回帰分析装置、102・・・制御部、104・・・記憶部、106・・・通信部、108・・・インタフェース部、112・・・データ取得部、114・・・寄与率算出部、116・・・抽出部、118・・・判定部、120・・・分割部、122・・・分析部、124・・・回帰式取得部、126・・・結果表示部

Claims (6)

  1. 複数の説明変数と目的変数とから構成される複数のデータセットについて重回帰分析を行う重回帰分析装置であって、
    前記複数の説明変数のうち、前記複数のデータセットの層別化を行う際のパラメータとして有効な説明変数を、層別説明変数として判定する判定部と、
    前記層別説明変数を用いて、前記複数のデータセットを層別に分割する分割部と、
    分割された前記複数のデータセットのグループそれぞれに対して重回帰分析を行う分析部と、
    前記重回帰分析の結果が統合された統合重回帰式を取得する取得部と
    を有する重回帰分析装置。
  2. 前記複数の説明変数それぞれの目的変数に対する寄与率を算出する算出部と、
    前記複数の説明変数のうち、算出された前記寄与率が上位である、予め定められた条件を満たす数の前記説明変数を抽出する抽出部と
    をさらに有し、
    前記判定部は、前記抽出された前記説明変数から、前記層別説明変数を判定する
    請求項1に記載の重回帰分析装置。
  3. 前記算出部は、非線形回帰手法を用いて前記寄与率を算出する
    請求項2に記載の重回帰分析装置。
  4. 前記算出部は、ランダムフォレストを用いて前記寄与率を算出する
    請求項3に記載の重回帰分析装置。
  5. 前記判定部は、前記層別説明変数の候補が複数ある場合に、各候補のうち、単回帰分析を行ったときの決定係数が最も低いものを、前記層別説明変数と判定する
    請求項3又は4に記載の重回帰分析装置。
  6. 複数の説明変数と目的変数とから構成される複数のデータセットについて重回帰分析を行う重回帰分析方法であって、
    前記複数の説明変数のうち、前記複数のデータセットの層別化を行う際のパラメータとして有効な説明変数を、層別説明変数として判定し、
    前記層別説明変数を用いて、前記複数のデータセットを層別に分割し、
    分割された前記複数のデータセットのグループそれぞれに対して重回帰分析を行い、
    前記重回帰分析の結果が統合された統合重回帰式を取得する
    重回帰分析方法。
JP2018188305A 2018-10-03 2018-10-03 重回帰分析装置及び重回帰分析方法 Active JP7056497B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018188305A JP7056497B2 (ja) 2018-10-03 2018-10-03 重回帰分析装置及び重回帰分析方法
US16/536,378 US11790277B2 (en) 2018-10-03 2019-08-09 Multiple regression analysis apparatus and multiple regression analysis method
CN201910920553.1A CN110990778B (zh) 2018-10-03 2019-09-27 多元回归分析装置和多元回归分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018188305A JP7056497B2 (ja) 2018-10-03 2018-10-03 重回帰分析装置及び重回帰分析方法

Publications (2)

Publication Number Publication Date
JP2020057261A true JP2020057261A (ja) 2020-04-09
JP7056497B2 JP7056497B2 (ja) 2022-04-19

Family

ID=70051696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188305A Active JP7056497B2 (ja) 2018-10-03 2018-10-03 重回帰分析装置及び重回帰分析方法

Country Status (3)

Country Link
US (1) US11790277B2 (ja)
JP (1) JP7056497B2 (ja)
CN (1) CN110990778B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229648A1 (ja) * 2020-05-11 2021-11-18 日本電気株式会社 数式モデル生成システム、数式モデル生成方法および数式モデル生成プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1075218A (ja) * 1996-08-29 1998-03-17 Y R P Ido Tsushin Kiban Gijutsu Kenkyusho:Kk データ群の特性境界識別方法及び装置
US20070022392A1 (en) * 2005-07-22 2007-01-25 Carelli John A Jr Multi-variable polynomial modeling techniques for use in integrated circuit design
JP2014235481A (ja) * 2013-05-31 2014-12-15 Jfeスチール株式会社 影響因子抽出方法およびプログラム
JP2017123088A (ja) * 2016-01-08 2017-07-13 安川情報システム株式会社 決定木学習アルゴリズムを用いた予測プログラム、装置及び方法
JP2018116545A (ja) * 2017-01-19 2018-07-26 オムロン株式会社 予測モデル作成装置、生産設備監視システム、及び生産設備監視方法
JP2019533242A (ja) * 2016-09-26 2019-11-14 ハーマン インターナショナル インダストリーズ インコーポレイテッド 自動車保証の不正の予測のためのシステム及び方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249957A1 (en) * 2005-03-07 2008-10-09 Hiroaki Masuyama Stock Portfolio Selection Device, Stock Portfolio Selection Method and Medium Storing Stock Portfolio Selection Program
JP5011830B2 (ja) * 2006-06-09 2012-08-29 富士通セミコンダクター株式会社 データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
JP5071475B2 (ja) * 2007-03-27 2012-11-14 富士通株式会社 重回帰分析による予測モデルの作成方法、作成装置、作成プログラム
JP5166138B2 (ja) * 2008-07-02 2013-03-21 パナソニック株式会社 半導体装置の製造方法および半導体装置の製造装置
EP2323081A1 (en) * 2008-08-05 2011-05-18 Fujitsu Limited Method of creating estimation model by means of multiple regression analysis, creation system and creation program
JP5297272B2 (ja) * 2009-06-11 2013-09-25 株式会社日立製作所 装置異常監視方法及びシステム
JP5570008B2 (ja) * 2010-03-23 2014-08-13 インターナショナル・ビジネス・マシーンズ・コーポレーション カーネル回帰システム、方法及びプログラム
JP5348291B2 (ja) * 2012-03-15 2013-11-20 Jfeスチール株式会社 構造体を構成する部品形状の最適化解析装置
EP3118750A4 (en) * 2014-03-14 2017-11-08 Nec Corporation Factor analysis device, factor analysis method, and factor analysis program
JP6216294B2 (ja) 2014-07-30 2017-10-18 日本電信電話株式会社 重回帰分析装置および重回帰分析方法
CN105634787B (zh) * 2014-11-26 2018-12-07 华为技术有限公司 网络关键指标的评估方法、预测方法及装置和系统
WO2019035073A2 (en) * 2017-08-18 2019-02-21 Abbott Diabetes Care Inc. SYSTEMS, DEVICES AND METHODS RELATING TO INDIVIDUALIZED CALIBRATION AND / OR MANUFACTURING OF MEDICAL DEVICES
US10741066B2 (en) * 2017-12-28 2020-08-11 CLR Analytics Inc. System and method for single-loop vehicle speed estimation using inductive loop signature data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1075218A (ja) * 1996-08-29 1998-03-17 Y R P Ido Tsushin Kiban Gijutsu Kenkyusho:Kk データ群の特性境界識別方法及び装置
US20070022392A1 (en) * 2005-07-22 2007-01-25 Carelli John A Jr Multi-variable polynomial modeling techniques for use in integrated circuit design
JP2014235481A (ja) * 2013-05-31 2014-12-15 Jfeスチール株式会社 影響因子抽出方法およびプログラム
JP2017123088A (ja) * 2016-01-08 2017-07-13 安川情報システム株式会社 決定木学習アルゴリズムを用いた予測プログラム、装置及び方法
JP2019533242A (ja) * 2016-09-26 2019-11-14 ハーマン インターナショナル インダストリーズ インコーポレイテッド 自動車保証の不正の予測のためのシステム及び方法
JP2018116545A (ja) * 2017-01-19 2018-07-26 オムロン株式会社 予測モデル作成装置、生産設備監視システム、及び生産設備監視方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021229648A1 (ja) * 2020-05-11 2021-11-18 日本電気株式会社 数式モデル生成システム、数式モデル生成方法および数式モデル生成プログラム
JP7491371B2 (ja) 2020-05-11 2024-05-28 日本電気株式会社 数式モデル生成システム、数式モデル生成方法および数式モデル生成プログラム

Also Published As

Publication number Publication date
US20200111029A1 (en) 2020-04-09
US11790277B2 (en) 2023-10-17
JP7056497B2 (ja) 2022-04-19
CN110990778B (zh) 2024-01-30
CN110990778A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
Monaco et al. flowAI: automatic and interactive anomaly discerning tools for flow cytometry data
US20070022065A1 (en) Clustering apparatus, clustering method and program
CN106919957B (zh) 处理数据的方法及装置
Di Nunzio A study of an automatic stopping strategy for technologically assisted medical reviews
CN109656366A (zh) 一种情感状态识别方法、装置、计算机设备及存储介质
Chen et al. Inferring selection intensity and allele age from multilocus haplotype structure
CN108416381B (zh) 一种面向三维点集的多密度聚类方法
JP2021002354A (ja) 表示制御装置、表示制御方法及び表示制御プログラム
Killick et al. Package ‘changepoint’
JP7056497B2 (ja) 重回帰分析装置及び重回帰分析方法
JP6943242B2 (ja) 分析装置、分析方法、およびプログラム
Murcio et al. Urban transfer entropy across scales
Melgar-García et al. High-content screening images streaming analysis using the strigen methodology
JP7491371B2 (ja) 数式モデル生成システム、数式モデル生成方法および数式モデル生成プログラム
US20170363670A1 (en) Noise spectrum analysis for electronic device
CN105733921A (zh) 下一代测序分析系统及其下一代测序分析方法
CN112529112B (zh) 一种矿物识别的方法和装置
CN107665291A (zh) 一种基于云计算平台Spark的变异检测方法
CN107908915A (zh) 预测隧道挤压变形的建模及分析方法、设备和存储介质
CN114446393A (zh) 用于预测肝癌特征类型的方法、电子设备和计算机存储介质
KR102105032B1 (ko) 시스템의 다중 성능 최적화를 위한 효율적인 파레토 집합 선택 방법
CN113850418A (zh) 时间序列中异常数据的检测方法和装置
JP2017091083A (ja) 情報処理装置、情報処理方法、およびプログラム
CN109766520A (zh) 一种基于大数据的多元线性回归分析方法及系统
US9760403B2 (en) Information processing system and method for distributing load over hardware processing and software processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220321

R151 Written notification of patent or utility model registration

Ref document number: 7056497

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151