JP6586184B2 - データ分析支援装置、及びデータ分析支援方法 - Google Patents
データ分析支援装置、及びデータ分析支援方法 Download PDFInfo
- Publication number
- JP6586184B2 JP6586184B2 JP2018045187A JP2018045187A JP6586184B2 JP 6586184 B2 JP6586184 B2 JP 6586184B2 JP 2018045187 A JP2018045187 A JP 2018045187A JP 2018045187 A JP2018045187 A JP 2018045187A JP 6586184 B2 JP6586184 B2 JP 6586184B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- series
- record
- analysis
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007405 data analysis Methods 0.000 title claims description 89
- 238000000034 method Methods 0.000 title claims description 49
- 238000004458 analytical method Methods 0.000 claims description 132
- 238000012545 processing Methods 0.000 claims description 46
- 238000004220 aggregation Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 28
- 230000002776 aggregation Effects 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 8
- 230000010365 information processing Effects 0.000 claims description 7
- 238000005314 correlation function Methods 0.000 claims description 5
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 description 27
- 235000019580 granularity Nutrition 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 238000007781 pre-processing Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、データ分析支援装置、及びデータ分析支援方法に関する。
特許文献1には、「最新データと過去の複数時点の時系列データとを同一表内に共存させることを可能にする」、「時系列表定義手段は、終了時点および開始時点が定義された有効期間インデックスと、終了時点の定義を含むユニークインデックスとを生成する。時系列表更新手段は、最新データの挿入/更新/削除指示に対して、保有時点の値に基づく時系列データの作成およびそれの時系列表への挿入を調整した上で最新データの挿入/更新/削除を行い、ユニークインデックスおよび有効期間インデックスを更新する。時系列表検索手段は、検索指示に対して、検索時点を考慮して「特定の時点の表内データだけを選択するための条件」を検索条件に追加し、ユニークインデックスおよび有効期間インデックスを利用して当該検索条件によって時系列表を検索する。」と記載されている。
近年、企業等の組織において蓄積されてきたビッグデータ等のデータを積極的に活用するためのシステムの開発が活発に進められている。データ分析の対象となる、例えば産業ビッグデータ等のデータは、時間的な順序性を有するデータ(以下、時系列データと称する。)や空間的な順序性を有するデータ(以下、空間データと称する。)等、連続して観測される値が相関する構造を持つデータ(以下、系列データと称する。)であることが多い。昨今、業績やKPI(Key Performance Indicator)等の予測モデルの精度向上を目
的として、こうした系列データを用いたより高度なデータ分析技術が求められるようになってきている。
的として、こうした系列データを用いたより高度なデータ分析技術が求められるようになってきている。
データ分析に際し、分析者は、様々な情報を含む大量のデータについて、説明変数の変化量の算出や時間的に遅れて影響を与える因子の抽出等を行うために系列特徴量を抽出する必要がある。しかし分析対象として与えられる系列データは系列特徴量の抽出に適した構造(テーブル形式)になっていないことが多く、分析者は大量のデータについてデータ加工等の前処理を行う必要があり作業負荷が大きいという課題がある。
特許文献1では、最新データと過去の複数時点の時系列データとを同一表内に共存させることを目的とした技術について記載されている。しかし特許文献1には、系列特徴量を抽出するために必要とされる前処理の効率を改善する観点に基づく仕組みについては何も開示されていない。
本発明は、こうした背景に鑑みてなされたもので、系列データの分析に際して行われる前処理を支援するデータ分析支援装置、及びデータ分析支援方法を提供することを目的とする。
上記目的を達成するための本発明のうちの一つは、データ分析支援装置であって、プロセッサ及び記憶装置を有する情報処理装置であり、目的変数の値と、前記目的変数の系列
を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶する記憶部、前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定する分析用レコード特定部、所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成する分析用系列データ生成部、を備える。
を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶する記憶部、前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定する分析用レコード特定部、所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成する分析用系列データ生成部、を備える。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、系列データの分析に際して行われるデータ加工等の前処理を支援することができる。
以下、実施形態につき図面を参照しつつ説明する。以下の説明において、同一又は類似する構成に同一の符号を付して重複した説明を省略することがある。
図1に一実施形態として説明するデータ分析支援装置10の概略的な構成(同図の実線部分)を示している。データ分析支援装置10は、分析対象となるデータの収集、収集したデータの管理、ETL処理(データの抽出(Extarct)、データの加工(Transform)、データのロード(Load))、分析処理、可視化処理等を行い、データ分析に際して必要となる各種の処理や作業を支援する。
データ分析支援装置10は、例えば、Webコンテンツを利用するユーザのトラッキング情報(アクセス履歴、行動履歴等)、小売業等におけるPOS(Point Of Sale)シス
テムから取得される情報、マーケッティングリサーチのための情報、工場IoT(Internet of Things)において製造装置やセンサから取得される制御情報やログ情報、金融業における取引情報、物流業における輸送情報等の様々な情報のデータ分析に用いられる。尚、本実施形態において、データ分析支援装置10が分析対象とするデータは、時間的な順序性を有するデータ(以下、時系列データと称する。)や空間的な順序性を有するデータ(以下、空間系列データと称する。)等、連続して観測される値が相関する構造を持つデ
ータ(以下、系列データと称する。)であるものとする。
テムから取得される情報、マーケッティングリサーチのための情報、工場IoT(Internet of Things)において製造装置やセンサから取得される制御情報やログ情報、金融業における取引情報、物流業における輸送情報等の様々な情報のデータ分析に用いられる。尚、本実施形態において、データ分析支援装置10が分析対象とするデータは、時間的な順序性を有するデータ(以下、時系列データと称する。)や空間的な順序性を有するデータ(以下、空間系列データと称する。)等、連続して観測される値が相関する構造を持つデ
ータ(以下、系列データと称する。)であるものとする。
同図に示すように、データ分析支援装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備えており、情報処理装置(コンピュータ)として機能する。尚、データ分析支援装置10は、例えば、クラウドシステムにより提供されるクラウドサーバ(Cloud Server)のような仮想的な情報処理資源を用いて実現されるものであってもよい。またデータ分析支援装置10は、例えば、互いに協調して動作する、通信可能に接続された複数の情報処理装置によって実現されるものであってもよい。
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)を用いて構成されている。主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)(SRAM(Static Random Access Memory)、NVRAM(Non Volatile RAM)
、マスクROM(Mask Read Only Memory)、PROM(Programmable ROM)等)、RA
M(Random Access Memory)(DRAM(Dynamic Random Access Memory)等)等である。補助記憶装置13は、ハードディスクドライブ(Hard Disk Drive)、フラッシュメモ
リ(Flash Memory)、SSD(Solid State Drive)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)等である。補助記憶装置13に格納されて
いるプログラムやデータは、随時、主記憶装置12に読み込まれる。
、マスクROM(Mask Read Only Memory)、PROM(Programmable ROM)等)、RA
M(Random Access Memory)(DRAM(Dynamic Random Access Memory)等)等である。補助記憶装置13は、ハードディスクドライブ(Hard Disk Drive)、フラッシュメモ
リ(Flash Memory)、SSD(Solid State Drive)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)等である。補助記憶装置13に格納されて
いるプログラムやデータは、随時、主記憶装置12に読み込まれる。
入力装置14は、ユーザから情報の入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置15は、ユーザに情報を提供するユーザインタフェースであり、例えば、各種情報を可視化する表示装置(LCD(Liquid Crystal Display)、グラフィックカード等)や音声出力装置(スピーカ)、印字装置等である。通信装置16は、通信ネットワーク50を介して他の装置と通信する通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール等である。
データ分析支援装置10は、例えば、通信ネットワーク5を介してサーバ装置20と通信可能に接続する。通信ネットワーク5は、例えば、インターネットや専用回線等である。サーバ装置20は、例えば、Webサーバ、APIサーバ(Application Programming Interface)、SNSサーバ(SNS:Social Network Service)、オープンデータサーバ、
店舗等に設置されているPOSサーバ、工場等に設置されているエッジサーバやセンササーバである。データ分析支援装置10は、サーバ装置20から、分析対象のデータを、例えば、データ転送、ダウンロード、アップロード、スクレイピング等の方法で取得する。尚、データ分析支援装置10は、上記以外の方法で系列データを取得してもよい。例えば、入力装置14を介して分析対象となるデータを取得してもよい。
店舗等に設置されているPOSサーバ、工場等に設置されているエッジサーバやセンササーバである。データ分析支援装置10は、サーバ装置20から、分析対象のデータを、例えば、データ転送、ダウンロード、アップロード、スクレイピング等の方法で取得する。尚、データ分析支援装置10は、上記以外の方法で系列データを取得してもよい。例えば、入力装置14を介して分析対象となるデータを取得してもよい。
データ分析支援装置10は、取得した系列データについて分析処理(分類、検索、分析、機械学習等)を行い、系列データの特徴量(以下、系列特徴量と称する。)の抽出、業績やKPI(Key Performance Indicator)向上に関与する因子の特定、目的変数の予測
等を行う。系列データの具体例として、例えば、各種ログ情報(工場の運用ログ情報、製造設備の制御ログ情報や稼働ログ情報、ATM(Automatic Teller Machine)の運用ログ情報、商品の製造状況ログ、在庫状況管理ログ等)、社会動向関する時系列データ(政府等の情報発信機関が提供する統計情報、SNS(Social Networking Service)の記事、
ニュース記事等)等がある。
等を行う。系列データの具体例として、例えば、各種ログ情報(工場の運用ログ情報、製造設備の制御ログ情報や稼働ログ情報、ATM(Automatic Teller Machine)の運用ログ情報、商品の製造状況ログ、在庫状況管理ログ等)、社会動向関する時系列データ(政府等の情報発信機関が提供する統計情報、SNS(Social Networking Service)の記事、
ニュース記事等)等がある。
図2にデータ分析支援装置10が備える主な機能(ソフトウェア構成)を示している。
同図に示すように、データ分析支援装置10は、データ取得部105、分析用系列データ生成部110、データ分析部150、及び記憶部180の各機能を備える。これらの機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより実現される。尚、データ分析支援装置10は、上記の機能に加えて、例えば、オペレーティングシステム、ファイルシステム、デバイスドライバ、DBMS(DataBase Management System)等の他の機能を備えていてもよい。データ分析支援装置10は、系列データを含む各種の情報(データ)を、例えば、データベースのテーブルやファイルとして記憶する。
同図に示すように、データ分析支援装置10は、データ取得部105、分析用系列データ生成部110、データ分析部150、及び記憶部180の各機能を備える。これらの機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより実現される。尚、データ分析支援装置10は、上記の機能に加えて、例えば、オペレーティングシステム、ファイルシステム、デバイスドライバ、DBMS(DataBase Management System)等の他の機能を備えていてもよい。データ分析支援装置10は、系列データを含む各種の情報(データ)を、例えば、データベースのテーブルやファイルとして記憶する。
記憶部180は、系列データ181、項目情報182、集約後データ183、分析用レコード特定情報184、分析用系列データ185、系列特徴量186、予測モデル187、残差予測モデル188、及び結合モデル189を記憶する。尚、これらのデータのうち、少なくとも、系列データ181、集約後データ183、及び分析用系列データ185は、いずれも構造化されたデータとしてデータベースのテーブルに管理されるものとする。
図3に系列データ181の一例を示す。例示する系列データ181は、工場の生産ラインにおけるログ情報と生産された製品に関する評価値の情報とを含む。同図に示すように、系列データ181は、製造単位ID1811、日時t11812、生産経過評価値y1813、時刻t21814、及び各種制御パラメータ1815の各項目(カラムやフィールドとも称される。)を有する複数のレコードで構成される。
上記項目のうち、製造単位ID1811には、レコード群の単位(ロットや製造装置の稼働サイクル等)を区別する識別子である製造単位IDが設定される。日時t11812には、生産経過評価値y1813が取得された時刻(タイムスタンプ)が設定される。生産経過評価値y1813には、生産経過の評価値が設定される。時刻t21814には、各種制御パラメータが製造装置等の制御対象に設定された時刻が設定される。各種制御パラメータ1815には、材料の混合比等の製造時に設定された各種制御パラメータ(x1,x2,・・・,xn)が設定される。
系列データ181は、データ分析部150が行う分析処理において目的変数の値が設定される項目と、上記目的変数の系列を特定する情報(以下、目的変数系列特定情報と称する。)が設定される項目と、上記分析処理において説明変数の値が設定される項目と、上記説明変数の系列を特定する情報(以下、説明変数系列特定情報と称する。)が設定される項目と、を含む。
図2に示す項目情報182は、系列データ181のいずれの項目が上記の各項目(目的変数の値が設定される項目、目的変数系列特定情報が設定される項目、説明変数の値が設定される項目、説明変数系列特定情報が設定される項目)に相当するかを示す情報を含む。データ分析支援装置10は、例えば、入力装置14や出力装置15を用いて構成されるユーザインタフェースを介して項目情報182を取得する。
図4に項目情報182の一例を示す。例示する項目情報182は、属性情報1821と項目名1822とを対応づけた複数のレコードを含む。属性情報1821には、系列データ181の項目の属性を示す情報(以下、属性情報と称する。)が設定される。項目名1822には、系列データ181の項目名が設定される。
図2に戻り、前述した機能のうち、分析用系列データ生成部110は、系列データ181の分析に際して用いるレコード(以下、分析用レコードと称する。)を系列データ181に追加したデータである分析用系列データ185を生成する。分析用レコードは、例えば、目的変数の値に関連する、当該目的変数の過去の系列や説明変数の系列の範囲を対応
づける(紐づける)という観点に基づき生成される。同図に示すように、分析用系列データ生成部110は、集約処理部120、分析用レコード特定部130、及びレコード追加部140の各機能を含む。
づける(紐づける)という観点に基づき生成される。同図に示すように、分析用系列データ生成部110は、集約処理部120、分析用レコード特定部130、及びレコード追加部140の各機能を含む。
このうち集約処理部120は、ダミー変数化部121、集約演算部122、及び集約項目追加部123を含む。集約処理部120は、系列データ181について後述する集約処理を行うことにより集約後データ183を生成する。
分析用レコード特定部130は、相関係数算出部131及び有意性検定部132を含む。分析用レコード特定部130は、例えば、データ分析に際し系列データ181の所定の目的変数の値に影響を与える系列の範囲に属する系列データ181のレコードを分析用レコードとして特定する。具体的には、分析用レコード特定部130は、系列データ181の所定のレコードに含まれている情報と系列データ181の他のレコードに含まれている情報との間の相関関数の相関係数を求め、求めた相関係数の有意性を検定し、検定の結果に基づき分析用レコードを特定する。上記の相関関数は、例えば、自己相関係関数又は偏自己相関関数である。分析用レコード特定部130は、系列データ181において分析用レコードを特定する情報を分析用レコード特定情報184として生成する。尚、系列データ181に複数の説明変数が含まれており、所定の目的変数の値に影響を与える説明変数の系列の範囲が複数存在する場合、分析用レコード特定部130は、所定の目的変数の値に影響を与える複数の説明変数ごとに分析用レコードを特定する。
図5に分析用レコード特定情報184の一例を示す。同図に示すように、分析用レコード特定情報184には、系列データ181の項目名1841と、当該項目名1841の値に基づき分析用レコードの範囲を特定する情報である範囲特定情報1842とを対応づけた情報を含む。範囲特定情報1842には、系列データ181において、分析用レコードの生成に用いるレコードの範囲を特定する情報(系列データ181のレコード番号指定による範囲特定情報や系列データ181の時刻が設定される項目の時間区間指定による範囲特定情報(τstart〜τend等)が設定される。
図2に戻り、分析用系列データ生成部110のレコード追加部140は、分析用レコードを系列データ181に追加して分析用系列データ185を生成する。尚、分析用系列データ生成部110は、分析用系列データ185を、系列データ181のテーブルを直接編集することにより生成してもよいし、系列データ181のテーブルとは異なるテーブルとして生成してもよい。
図6に分析用系列データ185の一例を示す。同図に示す分析用系列データ185は、図3の系列データ181と、図4の項目情報182と、図5の分析用レコード特定情報184とに基づき生成される。同図に示すように、この分析用系列データ185は、製造単位ID1851、日時t11852、生産経過評価値y1853、日時t1’1854、及び各種制御パラメータ1855の各項目を有する複数のレコードで構成される。
上記項目のうち、製造単位ID1851、日時t11852、及び生産経過評価値y1853の各項目は、夫々、図3の製造単位ID1811、日時t11812、生産経過評価値y1813と同様である。日時t1’1854には、図3の日時t11812と時刻t21814とに基づき特定される日時が設定される。各種制御パラメータ1855には、前述した各種制御パラメータの値や各種制御パラメータの値を集約した値(各種制御パラメータの日毎の平均値等)が設定される。
図6において、太線枠fで囲んだ3つのレコードのうち上から2行分のレコードは、分析用レコード特定部130により特定され、レコード追加部140により追加された分析
用レコードであり、図3の系列データ181について図6の太線枠fの3つ目のレコードの目的変数の値「生産経過評価値y=6」について追加されたレコードである。追加され
た2つの上記分析用レコードは、図6の太線枠fの3つ目のレコードの目的変数の値「生産経過評価値y=6」に、夫々、図3において日時t11812が「2017/12/05」に基づ
く内容のレコードと日時t11812が「2017/12/07」に基づく内容のレコードとを対応づけたものになっている。
用レコードであり、図3の系列データ181について図6の太線枠fの3つ目のレコードの目的変数の値「生産経過評価値y=6」について追加されたレコードである。追加され
た2つの上記分析用レコードは、図6の太線枠fの3つ目のレコードの目的変数の値「生産経過評価値y=6」に、夫々、図3において日時t11812が「2017/12/05」に基づ
く内容のレコードと日時t11812が「2017/12/07」に基づく内容のレコードとを対応づけたものになっている。
尚、図6の例では分析用レコードの範囲を、項目情報182の連続単位として指定されている製造単位ID1811が同一の範囲に限定している。また図3において日時t1(符号1812)が「2017/12/07」のレコードは2つ存在し、目的変数である生産経過評価値y1813の系列の粒度(値が収集された単位であり、本例では値の取得時間間隔である「日」。)と説明変数である各種制御パラメータ1815の系列の粒度(値が収集された単位であり、本例では値の取得時間間隔である「分」)とが異なるため、太線枠fで囲んだ3つのレコードのうち2つ目のレコードについては上記2つのレコードを集約した内容(尚、x1、x2については値が同値であるのでそのままの値を採用し、xnについては各レコードの値の平均値(同図ではAve(xn)と表記)としている)になっている。尚、各種制御パラメータ1815のxnのタイムスタンプであった時刻t21814の項目は、データ分析に際して不要であるため分析用系列データ185からは除外されている。
ここで系列データ181が、図3に示す内容であった場合、同図において目的変数である生産経過評価値y1853が「6」のレコードに着目すると、従来のデータ分析では、
説明変数として当該レコードの各種制御パラメータ1815の値である「x1=12.2」、「x2=D」、「xn=7」等が用いられるのみであった。しかし実際には、当該レコードよりも過去のレコードの説明変数の値やその変化率等が目的変数に影響を与えていることもある。対して本実施形態のデータ分析支援装置10は、図6に示すように、系列データ181に所定の目的変数の値に対応づけた分析用レコードを追加した分析用系列データ185を生成し、分析用系列データ185に基づきデータ分析を行うので、実際に目的変数に影響を与えている説明変数の値や変化率を考慮した上で系列特徴量の抽出等が行われるため、精度よくデータ分析を行うことができる。尚、以上では、目的変数に影響を与える可能性のある因子が説明変数である場合を例示したが、着目しているレコードの目的変数に影響を与える因子が当該目的変数の過去の値である場合もある。その場合、データ分析支援装置10は、着目しているレコードの目的変数の値に影響を与える可能性のある当該目的変数の過去の値を含むレコードに基づき分析用レコードを生成する。
説明変数として当該レコードの各種制御パラメータ1815の値である「x1=12.2」、「x2=D」、「xn=7」等が用いられるのみであった。しかし実際には、当該レコードよりも過去のレコードの説明変数の値やその変化率等が目的変数に影響を与えていることもある。対して本実施形態のデータ分析支援装置10は、図6に示すように、系列データ181に所定の目的変数の値に対応づけた分析用レコードを追加した分析用系列データ185を生成し、分析用系列データ185に基づきデータ分析を行うので、実際に目的変数に影響を与えている説明変数の値や変化率を考慮した上で系列特徴量の抽出等が行われるため、精度よくデータ分析を行うことができる。尚、以上では、目的変数に影響を与える可能性のある因子が説明変数である場合を例示したが、着目しているレコードの目的変数に影響を与える因子が当該目的変数の過去の値である場合もある。その場合、データ分析支援装置10は、着目しているレコードの目的変数の値に影響を与える可能性のある当該目的変数の過去の値を含むレコードに基づき分析用レコードを生成する。
図2に戻り、前述した機能のうち、データ分析部150は、分析用系列データ生成部110が生成した分析用系列データ185に基づきデータ分析を行う。同図に示すように、データ分析部150は、系列特徴量生成部151及びモデリング部160を含む。系列特徴量生成部151は、分析用系列データ185に基づき系列特徴量186を生成する。系列特徴量生成部151の詳細については後述する。モデリング部160は、系列特徴量186に基づき予測モデル187、残差予測モデル188、及び結合モデル189を生成する。同図に示すように、モデリング部160は、予測モデル生成部161、再帰モデリング部162、及び結合モデル生成部163を含む。モデリング部160の詳細については後述する。
図7は、分析用系列データ生成部110が行う処理(以下、分析用系列データ生成処理S700と称する。)を説明するフローチャートである。以下、同図とともに分析用系列データ生成処理S700について説明する。
まず分析用系列データ生成部110は、記憶部180から系列データ181と項目情報
182とを取得する(S711)。
182とを取得する(S711)。
続いて、分析用系列データ生成部110は、系列データ181について項目情報182で指定される目的変数の系列の粒度と説明変数の系列の粒度とが一致するか否かを判定する(S712)。分析用系列データ生成部110が、粒度が一致しないと判定した場合(S712:NO)、処理はS713に進む。分析用系列データ生成部110が、粒度が一致すると判定した場合(S712:YES)、処理はS715に進む。
S713では、分析用系列データ生成部110は、目的変数と説明変数とは「時系列」の粒度が異なるか否か(粒度が異なる原因がデータの得られた時系列の違いに因るものか否か)を判定する。分析用系列データ生成部110が、目的変数と説明変数とは時系列以外の粒度が異なると判定した場合(S713:NO)、系列データ181を集約するため処理はS714に進む。分析用系列データ生成部110が、目的変数と説明変数は時系列の粒度が異なると判定した場合(S713:YES)、系列データ181を集約する必要が無いため、処理はS715に進む。
図8は目的変数と説明変数の「時系列」の粒度が異なる系列データ181の例である。同図に示すように、例示する系列データ181は、ID811、時刻ty812、y813、時刻tx1814、及び各種パラメータ815の各項目を有する複数のレコードで構成される。ID811には、製造単位等の関連するレコード群の識別子が設定される。時刻ty812には目的変数であるy813の値が取得された時刻が設定される。y813には目的変数の値が設定される。時刻tx1814には説明変数の一つであるx1が取得された時刻が設定される。各種パラメータ815には、説明変数である各種パラメータ(x1,x2,・・・,xn)の値が設定される。同図に示すように、この例では、ID811の値が「1」である3つのレコードの目的変数の時系列の粒度(時刻ty812の粒度)と、説明変数の時系列の粒度(時刻tx1814)とが異なっている。本例のように目的変数と説明変数の「時系列」の粒度が異なる場合、分析用レコードの特定には支障がないため系列データ181の集約は行わない。
図7に戻り、S714では、集約処理部120が、系列データ181について目的変数と説明変数の時系列以外の粒度を一致させる処理(以下、集約処理S714と称する。)を行う。
図9は、図7の集約処理S714を説明するフローチャートである。以下、同図とともに集約処理S714について説明する。
まず集約処理部120は、記憶部180から系列データ181と項目情報182とを取得する(S911)。
続いて、集約処理部120は、系列データ181において、項目情報182で説明変数とされている項目の値が数値であるか否かを判定する(S912)。集約処理部120が項目情報182で説明変数とされている項目の値が数値であると判定した場合(S912:YES)、処理はS914に進む。集約処理部120が項目情報182で説明変数とされている項目の値が数値でないと判定した場合(S912:NO)、説明変数をダミー変数に変換するため処理はS913に進む。
S913では、ダミー変数化部121が、数値でないと判定した説明変数をダミー変数に変換する。図6の例では、ダミー変数化部121は、変数「xn」を、平均値を格納する変数「Ave(xn)」に変換している。尚、上記の平均値の他、例えば、他の種類の代表値(加算値、分散値、カウント値、最大値、最小値等)を格納する変数をダミー変数
としてもよい。図3の系列データ181と図4の項目情報182の場合、説明変数は各種制御パラメータ1815であり、各種制御パラメータ1815は、複数の変数(x1,x2,・・・,xn)を含む。そのため、集約処理部120は、変数毎に個別に値が数値であるか否かを判定し、この場合、各変数についてS912〜S913の処理が行われる。
としてもよい。図3の系列データ181と図4の項目情報182の場合、説明変数は各種制御パラメータ1815であり、各種制御パラメータ1815は、複数の変数(x1,x2,・・・,xn)を含む。そのため、集約処理部120は、変数毎に個別に値が数値であるか否かを判定し、この場合、各変数についてS912〜S913の処理が行われる。
S914では、集約演算部122が、説明変数について集約のために必要な演算(例えば、複数のレコードの夫々の説明変数の平均値の算出や、複数のレコードにおける所定の説明変数の出現数の算出等)を行う。
S915では、集約項目追加部123が、集約演算部122が求めた結果を格納する項目(集約項目)を系列データ181に追加して集約後データ183を生成する。
図10に、目的変数と説明変数の時系列以外の粒度が異なる系列データ181と、当該系列データ181について集約処理S714を行うことにより生成される集約後データ183の例を示す。
同図に示すように、例示する系列データ181は、IDy1011、時刻ty1012、y1013、IDx1014、各種パラメータ1015の各項目を有する複数のレコードで構成される。
IDy1011には、目的変数について関連するレコード群の識別子が設定される。時刻ty1012には目的変数であるy1013が取得された時刻が設定される。y1013には目的変数の値が設定される。IDx1014には説明変数について関連するレコード群の識別子が設定される。各種パラメータ1015には説明変数である各種パラメータ(x1,x2,・・・,xn)の値が設定される。
同図に示すように、この例では、目的変数であるIDy1011の系列の粒度と、説明変数であるIDx1014の系列の粒度とが異なっている。そこで目的変数の系列の粒度と説明変数の系列の粒度とを一致させるため、集約処理部120は、説明変数x1を説明変数x1の平均値が設定されるダミー変数「Ave(x1)」に変換し、また説明変数xnを説明変数xnにおける値「A」の出現回数が設定されるダミー変数「xn(A)」に変換している。
図7に戻り、続いて、S715では、分析用レコード特定部130が、系列データ181又は集約後データ183と項目情報182とに基づき、分析用レコードを特定する処理(以下、分析用レコード特定処理S715と称する。)を行い、分析用レコード特定情報184を生成する。
図11は、分析用レコード特定処理S715を説明するフローチャートである。以下、同図とともに分析用レコード特定処理S715について説明する。
まず分析用レコード特定部130は、記憶部180から系列データ181又は集約後データ183と項目情報182とを取得する(S1111)。
続いて、相関係数算出部131が、系列データ181又は集約後データ183について、説明変数と目的変数の間の関係を示す相関関数(例えば、自己相関関数や偏自己相関数)の相関係数(例えば、自己相関係数や偏自己相関係数)を求める(S1112)。
続いて、有意性検定部132が、S1112で求めた相関係数の有意性を検定し、検定した結果に基づき分析用レコード特定情報184を生成する(S1113)。例えば、相
関係数算出部131は、系列を一つずつずらした(Lagをとった)際の偏相関係数を求め(
S1112)、そのうち有意に相関するLagを抽出し、抽出したLagに基づき分析用レコード特定情報184を生成する(S1113)。
関係数算出部131は、系列を一つずつずらした(Lagをとった)際の偏相関係数を求め(
S1112)、そのうち有意に相関するLagを抽出し、抽出したLagに基づき分析用レコード特定情報184を生成する(S1113)。
尚、分析用レコードを特定する方法は以上の方法に限られない。例えば、赤池情報量基準を用いてモデルの複雑さと予測精度のトレードオフを評価することにより目的変数に影響する説明変数の範囲を特定し、特定した結果に基づき分析用レコード特定情報184を生成するようにしてもよい。
図7に戻り、S716では、レコード追加部140が、系列データ181又は集約後データ183と、分析用レコード特定情報184とに基づき分析用レコードを生成し、生成した分析用レコードを系列データ181に追加することにより分析用系列データ185を生成する(S716)。
図12は、以上の分析用系列データ生成処理S700により、系列データ181に分析用レコード特定情報184で特定される分析用レコードを追加して分析用系列データ185を生成する様子を説明する図である。同図に示すように、例示する系列データ181は、ID1211、時刻ty1212、y1213、及び各種パラメータ1215の各項目を有する複数のレコードで構成される。ID1211には、レコード群の単位を区別する識別子が設定される。時刻ty1212には目的変数であるy1213の値が取得された時刻が設定される。y1213には目的変数の値が設定される。各種パラメータ1215には、説明変数である各種パラメータ(x1,x2,・・・,xn)の値が設定される。
同図に示す分析用系列データ185は、同図に記載される系列データ181に基づき生成されるデータである。同図に示すように、分析用系列データ185は、ID1211、時刻ty1212、y1213、時刻tx11214、各種パラメータ1215の各項目を有する複数のレコードで構成される。ID1211、時刻ty1212、y1213、及び各種パラメータ1215の各項目については系列データ181と同様である。時刻tx11214には説明変数の一つである「x1」が取得された時刻が設定される。この例では、例えば、系列データ181の目的変数であるy1213の「2」という値について、分析用系列データ185の1〜3行目の3つのレコードが分析用レコードとして追加されている。また例えば、系列データ181の目的変数であるy1213の「4」という値について、分析用系列データ185の5行目のレコードが分析用レコードとして追加されている。
尚、分析用系列データ185は、目的変数に影響を与えるとされたデータを含む分析用レコードを含むために冗長な内容のデータとなるが、分析用系列データ185のデータ構造(テーブル形式)は、例えば、機械学習等の一般的な分析アルゴリズムが要求するデータ構造(テーブル形式)に適合するため、分析用系列データ185をそのまま、もしくは最小限の前処理を行うことで、容易かつ迅速に分析処理を進めることができる。
以上に説明したように、本実施形態のデータ分析支援装置10によれば、分析用系列データ生成部110が分析用系列データ生成処理S700を実行することにより、系列データ181に分析用レコードを追加した分析用系列データ185が自動的に生成される。そのため、例えば、分析者は系列データ181と項目情報182をデータ分析支援装置10に入力するだけで、容易かつ迅速にデータ分析に必要なデータを得ることができ、分析作業を効率よく行うことができる。
尚、以上では、系列データ181に分析用レコードを追加して分析用系列データ185を生成しているが、分析用系列データ185を生成せずに、分析用系列データ生成部11
0が、分析用レコード特定情報184や分析用レコードのみを生成して記憶しておき、例えば、データ分析に際して必要になった時点で系列データ181と分析用レコード特定情報184又は分析用レコードとを用いて分析用系列データ185の全部又は一部を生成するようにしてもよい。これにより記憶資源(主記憶装置12や補助記憶装置13)の有効利用を図ることができる。
0が、分析用レコード特定情報184や分析用レコードのみを生成して記憶しておき、例えば、データ分析に際して必要になった時点で系列データ181と分析用レコード特定情報184又は分析用レコードとを用いて分析用系列データ185の全部又は一部を生成するようにしてもよい。これにより記憶資源(主記憶装置12や補助記憶装置13)の有効利用を図ることができる。
前述したようにデータ分析支援装置10は、分析用系列データ185を用いてデータ分析を行うデータ分析部150を備えている。以下、データ分析部150が行う処理について説明する。
図13は、データ分析部150が行う処理(以下、データ分析処理S1300と称する。)を説明するフローチャートである。以下、同図とともにデータ分析処理S1300について説明する。
まずデータ分析部150が、記憶部180から項目情報182と分析用系列データ185とを取得する(S1311)。
続いて、系列特徴量生成部151が、項目情報182と分析用系列データ185とに基づき系列特徴量を生成する(S1312)。尚、系列特徴量生成部151は、例えば、代表値(各レコードの所定項目の値の差分(一次微分、二次微分)、各レコードの所定項目の値の累積値、各レコードの所定項目の値の平均値、所定区間のレコードの最大値等)を算出する方法、フーリエ変換等により基底変換を行う方法等により系列特徴量を生成する。
続いて、モデリング部160の予測モデル生成部161が、系列特徴量186を入力として、目的変数を説明する予測モデル187を生成する(S1313)。予測モデル187の生成は、例えば、機械学習の様々なモデリング手法を用いて行うことができる。例えば、予測モデル187の生成手法として、目的変数が連続数値である場合は、線形重回帰分析、SVR(Support Vector Regression)、ランダムフォレスト(Random Forest Regression)、GP(Gaussian Process)によるものが、また例えば、クラス分類であれば、Logistic回帰、SVM(Support Vector Machine)によるものがある。また時系列分析に特化
した予測モデルの生成手法として、ARIMA(Autoregressive Integrated Moving Average)によるものがある。
した予測モデルの生成手法として、ARIMA(Autoregressive Integrated Moving Average)によるものがある。
続いて、モデリング部160の再帰モデリング部162が、S1313で生成した予測モデル187に基づく予測値と、S1311で取得した分析用系列データ185の目的変数の予測値とを比較し、両者の差(以下、残差と称する。)を求め(S1314)、残差が予め設定された閾値以上であるか否かを判定する。上記閾値は、例えば、分析用系列データ185の目的変数のノイズレベルに設定される。再帰モデリング部162が、残差が閾値以上であると判定した場合(S1315:YES)、処理はS1313に戻り、予測モデル生成部161は残差を入力(目的変数)として残差予測モデル188を生成する。再帰モデリング部162は、S1313〜S1315の処理を1ループ以上、再帰的に繰り返し実行し、再帰モデリング部162が、残差が閾値未満であると判定すると(S1315:NO)、処理はS1316に進む。
S1316では、モデリング部160の結合モデル生成部163が、S1313〜S1315のループ毎に生成した、予測モデル187と一つ以上の残差予測モデル188とを結合することにより結合モデル189を生成する。尚、結合モデル189を生成する方法としては、例えば、予測モデル187と一つ以上の残差予測モデル188とを線形結合したものを結合モデル189とする方法、予測モデル187と一つ以上の残差予測モデル188とを掛け合わせて結合モデル189とする方法等がある。
以上のように、本実施形態のデータ分析支援装置10によれば、分析用系列データ185を自動的に生成することができるとともに、生成された分析用系列データ185について、自動的に系列特徴量、予測モデル、及び結合モデルを生成することができる。そのため、例えば、系列データ181の前処理やデータ分析に関して高度な専門知識は要求されず、例えば、列データの加工に関する専門知識の少ない者がデータ分析を行う場合でも、精度の高いデータ分析を容易かつ迅速に効率よく行うことができる。また分析工程の大半を占めるとされるデータ加工等の前処理に要する時間を大幅に短縮することができる。
以上、本発明について実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、また
はICカード、SDカード、DVD等の記録媒体に置くことができる。
はICカード、SDカード、DVD等の記録媒体に置くことができる。
また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
また以上に説明したデータ分析支援装置10の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、データ分析支援装置10が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
また前述した各種データベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
10 データ分析支援装置、110 分析用系列データ生成部、120 集約処理部、121 ダミー変数化部、122 集約演算部、123 集約項目追加部、130 分析用レコード特定部、131 相関係数算出部、132 有意性検定部、140 レコード追加部、150 データ分析部、151 系列特徴量生成部、160 モデリング部、161 予測モデル生成部、162 再帰モデリング部、163 結合モデル生成部、180
記憶部、181 系列データ、182 項目情報、183 集約後データ、184 分析用レコード特定情報、185 分析用系列データ、186 系列特徴量、187 予測モデル、188 残差予測モデル、189 結合モデル、S700 分析用系列データ生成処理、S714 集約処理、S715 分析用レコード特定処理、S1300 データ分析処理
記憶部、181 系列データ、182 項目情報、183 集約後データ、184 分析用レコード特定情報、185 分析用系列データ、186 系列特徴量、187 予測モデル、188 残差予測モデル、189 結合モデル、S700 分析用系列データ生成処理、S714 集約処理、S715 分析用レコード特定処理、S1300 データ分析処理
Claims (15)
- プロセッサ及び記憶装置を有する情報処理装置であり、
目的変数の値と、前記目的変数の系列を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶する記憶部、
前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定する分析用レコード特定部、
所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成する分析用系列データ生成部、
を備える、データ分析支援装置。 - 請求項1に記載のデータ分析支援装置であって、
前記系列データにおける前記説明変数の系列の粒度が前記系列データにおける前記目的変数の系列の粒度よりも細かい場合、前記系列データについて前記説明変数の値を集約したデータである集約後データを生成する集約処理部を更に備え、
前記分析用系列データ生成部は、前記集約後データに基づき前記分析用レコードを特定する、
データ分析支援装置。 - 請求項1に記載のデータ分析支援装置であって、
前記分析用レコード特定部は、前記所定のレコードに含まれている情報と前記系列データの他のレコードに含まれている情報との間の相関関数の相関係数に基づき、前記分析用レコードを特定する、
データ分析支援装置。 - 請求項3に記載のデータ分析支援装置であって、
前記相関関数は、自己相関係関数又は偏自己相関関数である、
データ分析支援装置。 - 請求項3に記載のデータ分析支援装置であって、
前記分析用レコード特定部は、前記相関係数の有意性を検定し、前記検定の結果に基づき前記分析用レコードを特定する、
データ分析支援装置。 - 請求項1乃至5のいずれか一項に記載のデータ分析支援装置であって、
前記追加レコードは、当該追加レコードの前記目的変数の値に対応づけられている前記目的変数系列特定情報又は当該追加レコードの前記説明変数の値に対応づけられている前記説明変数系列特定情報を含む、
データ分析支援装置。 - 請求項1乃至5のいずれか一項に記載のデータ分析支援装置であって、
前記系列データは時系列データである、
データ分析支援装置。 - 請求項7に記載のデータ分析支援装置であって、
前記目的変数系列特定情報は、前記目的変数が取得された時刻を示す情報であり、
前記説明変数系列特定情報は、前記説明変数が取得された時刻を示す情報である、
データ分析支援装置。 - 請求項1乃至5のいずれか一項に記載のデータ分析支援装置であって、
前記系列データについて、前記目的変数の値が設定される項目、前記目的変数系列特定情報が設定される項目、前記説明変数の値が設定される項目、前記説明変数系列特定情報が設定される項目、を特定する情報を受け付けるユーザインタフェース、
を更に備える、データ分析支援装置。 - 請求項1乃至5のいずれか一項に記載のデータ分析支援装置であって、
前記分析用系列データに基づき系列特徴量を生成する系列特徴量生成部、
を更に備える、データ分析支援装置。 - 請求項10に記載のデータ分析支援装置であって、
前記系列特徴量に基づき前記目的変数の予測モデルを生成する予測モデル生成処理を実行する予測モデル生成部、
を更に備える、データ分析支援装置。 - 請求項11に記載のデータ分析支援装置であって、
前記予測モデルに基づく予測値と前記系列データの前記目的変数の値との差である残差を算出する残差算出処理と、前記残差を前記目的変数に設定することにより行われる前記予測モデル生成処理とを、前記残差が予め設定された閾値以下になるまで再帰的に実行することにより残差を予測するモデルである残差予測モデルを生成する再帰モデリング部、
を更に備える、データ分析支援装置。 - 請求項12に記載のデータ分析支援装置であって、
生成された前記予測モデルと複数の前記残差予測モデルとを組み合わせたモデルである結合モデルを生成する結合モデル生成部、
を更に備える、データ分析支援装置。 - プロセッサ及び記憶装置を有する情報処理装置が、
目的変数の値と、前記目的変数の系列を特定する情報である目的変数系列特定情報と、説明変数の値と、前記説明変数の系列を特定する情報である説明変数系列特定情報とが対応づけられた複数のレコードを含むテーブル形式のデータである系列データを記憶するステップと、
前記目的変数の分析に際して前記目的変数に影響を与える可能性のある、前記目的変数の値又は前記説明変数の値を含んだ前記レコードである分析用レコードを特定するステップと、
所定の前記レコードの前記目的変数の値に、特定した前記分析用レコードの前記目的変数の値又は前記説明変数の値を対応づけたレコードである追加レコードを生成し、生成した前記追加レコードを前記系列データに追加したデータである分析用系列データを生成するステップと、
を実行する、データ分析支援方法。 - 請求項14に記載のデータ分析支援方法であって、
前記情報処理装置が、
前記系列データにおける前記説明変数の系列の粒度が前記系列データにおける前記目的変数の系列の粒度よりも細かい場合、前記系列データについて前記説明変数の値を集約したデータである集約後データを生成するステップと、
前記集約後データに基づき前記分析用レコードを特定するステップと、
を更に実行する、データ分析支援方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018045187A JP6586184B2 (ja) | 2018-03-13 | 2018-03-13 | データ分析支援装置、及びデータ分析支援方法 |
US16/125,840 US11182364B2 (en) | 2018-03-13 | 2018-09-10 | Data analysis support apparatus and data analysis support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018045187A JP6586184B2 (ja) | 2018-03-13 | 2018-03-13 | データ分析支援装置、及びデータ分析支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159760A JP2019159760A (ja) | 2019-09-19 |
JP6586184B2 true JP6586184B2 (ja) | 2019-10-02 |
Family
ID=67905690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018045187A Expired - Fee Related JP6586184B2 (ja) | 2018-03-13 | 2018-03-13 | データ分析支援装置、及びデータ分析支援方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11182364B2 (ja) |
JP (1) | JP6586184B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11573962B2 (en) * | 2018-10-19 | 2023-02-07 | Oracle International Corporation | Dynamic performance tuning based on implied data characteristics |
JP7057761B2 (ja) * | 2019-02-06 | 2022-04-20 | 株式会社日立製作所 | 計算機システム及び情報の提示方法 |
JP7400819B2 (ja) * | 2019-06-26 | 2023-12-19 | 日本電信電話株式会社 | 予測装置、予測方法、及び予測プログラム |
US12008441B2 (en) | 2020-07-24 | 2024-06-11 | Optum Services (Ireland) Limited | Categorical input machine learning models |
US12033087B2 (en) | 2020-07-24 | 2024-07-09 | Optum Services (Ireland) Limited | Categorical input machine learning models |
US20220027769A1 (en) * | 2020-07-24 | 2022-01-27 | Optum Services (Ireland) Limited | Categorical input machine learning models |
WO2023105808A1 (ja) * | 2021-12-10 | 2023-06-15 | 株式会社日立製作所 | リコメンデーション支援装置およびリコメンデーション支援方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000066933A (ja) | 1998-08-18 | 2000-03-03 | Nec Corp | 時系列データ管理方式 |
JP4481663B2 (ja) | 2004-01-15 | 2010-06-16 | キヤノン株式会社 | 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム |
JP5838557B2 (ja) | 2010-07-05 | 2016-01-06 | ソニー株式会社 | 生体情報処理方法および装置、並びに記録媒体 |
JP6222202B2 (ja) | 2010-07-05 | 2017-11-01 | ソニー株式会社 | 生体情報処理方法および装置、並びに記録媒体 |
JP2014030164A (ja) | 2012-03-13 | 2014-02-13 | Canon Inc | 動画像情報処理方法及び装置、動画像パターン識別方法及び装置 |
US20130243077A1 (en) | 2012-03-13 | 2013-09-19 | Canon Kabushiki Kaisha | Method and apparatus for processing moving image information, and method and apparatus for identifying moving image pattern |
US9330119B2 (en) * | 2013-04-11 | 2016-05-03 | Oracle International Corporation | Knowledge intensive data management system for business process and case management |
JP2015158757A (ja) * | 2014-02-24 | 2015-09-03 | 三菱電機株式会社 | データ活用装置 |
US10496927B2 (en) * | 2014-05-23 | 2019-12-03 | DataRobot, Inc. | Systems for time-series predictive data analytics, and related methods and apparatus |
US9418339B1 (en) * | 2015-01-26 | 2016-08-16 | Sas Institute, Inc. | Systems and methods for time series analysis techniques utilizing count data sets |
EP3314751B1 (en) * | 2015-06-23 | 2020-09-02 | Qatar Foundation for Education, Science and Community Development | Method of forecasting for solar-based power systems |
US10726354B2 (en) * | 2016-01-29 | 2020-07-28 | Splunk Inc. | Concurrently forecasting multiple time series |
JP6742894B2 (ja) * | 2016-06-09 | 2020-08-19 | 株式会社日立製作所 | データ予測システムおよびデータ予測方法 |
US10671445B2 (en) * | 2017-12-04 | 2020-06-02 | Cisco Technology, Inc. | Cost-optimal cluster configuration analytics package |
US20190197413A1 (en) * | 2017-12-27 | 2019-06-27 | Elasticsearch B.V. | Forecasting for Resource Allocation |
-
2018
- 2018-03-13 JP JP2018045187A patent/JP6586184B2/ja not_active Expired - Fee Related
- 2018-09-10 US US16/125,840 patent/US11182364B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190286724A1 (en) | 2019-09-19 |
JP2019159760A (ja) | 2019-09-19 |
US11182364B2 (en) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6586184B2 (ja) | データ分析支援装置、及びデータ分析支援方法 | |
Wang et al. | Industrial big data analytics: challenges, methodologies, and applications | |
CN111401777B (zh) | 企业风险的评估方法、装置、终端设备及存储介质 | |
JP5919825B2 (ja) | データ処理方法、分散処理システムおよびプログラム | |
EP3686756A1 (en) | Method and apparatus for grouping data records | |
US20160004757A1 (en) | Data management method, data management device and storage medium | |
WO2008042784A2 (en) | Comparing taxonomies | |
CN107180064A (zh) | 一种物流信息处理方法、装置及物流信息系统 | |
US20150339600A1 (en) | Method and system for analysing data | |
CN113704599A (zh) | 营销转化用户的预测方法、装置及计算机设备 | |
JP2015106340A (ja) | 情報処理装置及び情報処理プログラム | |
Tutica et al. | Invoice deduction classification using LGBM prediction model | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
US10346616B2 (en) | Systems and methods for data loss prevention | |
US11868363B2 (en) | Method and system for persisting data | |
CN117971947A (zh) | 一种基于用户端多源数据贯通与业务融合的系统及方法 | |
CN107016028B (zh) | 数据处理方法及其设备 | |
US10296496B2 (en) | Data editing device and data editing method | |
CN112199395A (zh) | 一种人工智能分析方法及系统 | |
CN113689020A (zh) | 业务信息预测方法、装置、计算机设备和存储介质 | |
CN108345622A (zh) | 基于语义模型框架的模型检索方法和装置 | |
CN115660756A (zh) | 一种电商商品的价格监测方法、装置、设备和介质 | |
WO2007089378A2 (en) | Apparatus and method for forecasting control chart data | |
JP2016532949A (ja) | 従来の予測子の将来的変化を予測するためにある期間にわたって精選され、分析されたデータシグナルから重大変化属性を導出するためのシステム及び方法 | |
US8374897B2 (en) | Apparatus and method for forecasting qualitative assessments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6586184 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |