JP7469730B2 - データ分析方法選択装置、方法及びプログラム - Google Patents
データ分析方法選択装置、方法及びプログラム Download PDFInfo
- Publication number
- JP7469730B2 JP7469730B2 JP2023500142A JP2023500142A JP7469730B2 JP 7469730 B2 JP7469730 B2 JP 7469730B2 JP 2023500142 A JP2023500142 A JP 2023500142A JP 2023500142 A JP2023500142 A JP 2023500142A JP 7469730 B2 JP7469730 B2 JP 7469730B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis method
- data
- time series
- series data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 57
- 238000007405 data analysis Methods 0.000 title claims description 43
- 238000004458 analytical method Methods 0.000 claims description 173
- 238000011156 evaluation Methods 0.000 claims description 70
- 238000000605 extraction Methods 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 235000004789 Rosa xanthina Nutrition 0.000 description 2
- 241000109329 Rosa xanthina Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、データ分析方法選択装置、方法及びプログラムに関する。
データの集合を分析・評価するのに、データサイエンティスト(Data Scientist、以降DS)のサポートを受ける場合がある。DSは、さまざまな意向決定の局面において、データに基づいて合理的な判断を行えるように意向決定者をサポートする職務を行う。
DSは、各分野に精通した専門家ではあるが、ノウハウを持たない分野もある。よって、DSにノウハウのない場合は、適切なデータ分析ができない。
一方、データ分析装置としては、時系列データ等のデータ集合に規則性を求め、各データの時間的変化量を示す指標値を算出し、時系列データをグラフ化するものが例えば特許文献1に開示されている。
しかしながら、特許文献1に開示された技術は、求めた上記の指標値に従った順番で複数の時系列データをグラフ化したものを並べて表示するものである。よって、表示されたグラフが利用者の求めるもので無い場合もある。つまり、分析結果に利用者のフィードバックが効かないという課題がある。
このように従来は、完全な分析方法は存在しないという前提に基づいて複数の分析方法の結果を利用者に提示し、利用者がより良い分析方法を選択するという仕組みが存在しなかった。
本発明は、この課題を鑑みてなされたものであり、ノウハウが無いような場合においても適切な分析手法を利用者のフィードバックを効かせて絞り込み、適切なデータ分析が選択できるデータ分析方法選択装置、方法及びプログラムを提供することを目的とする。
本発明の一態様に係るデータ分析方法選択装置は、2つの時系列データをそれぞれ記録した集合を複数含むデータ集合と、前記2つの時系列データの関係性を表す評価値を前記集合ごとに異なる分析方法で求める分析部と、前記分析方法に対応させて前記評価値の変化の傾向が異なる前記集合の組合せを抽出する組合せ抽出部と、前記組合せ抽出部で抽出された前記組合せのそれぞれについて、前記評価値の良否で前記分析方法をグループに分類し、該分類した結果を前記集合に対応させて記録する分析方法グループ化部と、前記組合せ抽出部が抽出した前記組合せのそれぞれの前記集合の時系列データを利用者に提示し、どちらの前記集合の時系列データが似ているかを利用者に問合せる問合せ部と、前記利用者の回答で似ていると判定された前記集合の前記評価値が良い方の前記グループに属する前記分析方法のスコアを加点するスコア化部と、前記組合せ抽出部、前記分析方法グループ化部、前記問合せ部、及び前記スコア化部のそれぞれの処理を繰り返し、前記スコアが所定値になる前記分析方法を選択する分析方法選択部とを備えることを要旨とする。
また、本発明の一態様に係るデータ分析方法選択方法は、上記のデータ分析方法選択装置が行う方法であって、分析部は、2つの時系列データの関係性を表す評価値を前記時系列データがそれぞれ記録された集合ごとに異なる分析方法で求める分析ステップと、組合せ抽出部は、前記分析方法に対応させて前記評価値の変化の傾向が異なる前記集合の組合せを抽出する組合せ抽出ステップと、分析方法グループ化部は、前記組合せ抽出ステップで抽出された前記組合せのそれぞれについて、前記評価値の良否で前記分析方法をグループに分類し、該分類した結果を前記集合に対応させて記録する分析方法グループ化ステップと、問合せ部は、前記組合せ抽出部が抽出した前記組合せのそれぞれの前記集合の時系列データを利用者に提示し、どちらの前記集合の時系列データが似ているかを利用者に問合せる問合せステップと、スコア化部は、前記利用者の回答で似ていると判定された前記集合の前記評価値が良い方の前記グループに属する前記分析方法のスコアを加点するスコア化ステップと、前記組合せ抽出ステップ、前記分析方法グループ化ステップ、前記問合せステップ、及び前記スコア化ステップのそれぞれの処理を繰り返し、前記スコアが所定値になる前記分析方法を選択する分析方法選択部とを行うことを要旨とする。
また、本発明の一態様に係るプログラムは、上記のデータ分析方法選択装置としてコンピュータを機能させるためのプログラムであることを要旨とする。
本発明によれば、ノウハウが無いような場合においても適切な分析手法を利用者のフィードバックを効かせて絞り込み、適切なデータ分析方法を選択できるデータ分析方法選択装置、方法及びプログラムを提供することができる。
以下、本発明の実施形態について図面を用いて説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1は、本発明の実施形態に係るデータ分析方法選択装置の構成例を示す図である。図1に示すデータ分析方法選択装置100は、適切な分析手法を利用者のフィードバックを効かせて絞り込み、適切なデータ分析方法を選択するものである。
データ分析方法選択装置100は、データ集合10、分析部20、評価値テーブル30、組合せ抽出部40、分析方法グループ化部50、問合せ部60、スコア化部70、スコアテーブル80、及び分析方法選択部90を備える。データ分析方法選択装置100は、例えば、ROM、RAM、CPU等からなるコンピュータで実現することができる。その場合、各機能構成部の処理内容はプログラムによって記述される。
データ集合10は、2つの時系列データをそれぞれ記録した集合A,B,C,D,…を複数含む。集合Aは、例えば、切り花(バラ)と情報通信関係費のそれぞれの物価指数の推移を記録したものである。集合Bは、例えば、下着と授業料の物価指数の推移を記録したものである。
分析部20は、2つの時系列データの関係性を表す評価値を集合A,B,…ごとに異なる分析方法で求める。分析方法は、例えばDSの頭の中にある複数の分析方法のことである。
図2は、データ集合の時系列データと、該時系列データを異なる分析方法で分析して求めた評価値の例を示す図である。図2(a)は、切り花(バラ)と情報通信関係費のそれぞれの物価指数の時系列データを示す。図2(b)は、例えば4つの分析方法(1)~(4)のそれぞれで分析した評価値を示す。
評価値は、例えば集合Aの2つの時系列データが似ていれば値が小さくなる数値である。評価値の具体的な計算方法については後述する。
図2(c)は、下着(ブラジャー)と大学授業料(国立)のそれぞれの物価指数の時系列データを示す。図2(d)は、図2(c)に示す2つの時系列データを分析方法(1)~(4)のそれぞれで分析した評価値を示す。
評価値テーブル30は、集合A,B,…ごとに異なる分析方法で分析して求めた評価値のテーブルである。評価値デーブル30は、行を集合A,B,…ごと、列を分析方法ごとに記録した表である。
図3は、評価値テーブル30の例を示す図である。表の各行が集合A,B,…に対応し、各列が分析方法に対応する。なお、図3の集合A,Bの評価値は、説明の都合により図2の集合A,Bと異なる。
集合Aの分析方法(1)の評価値は0.09、途中省略、分析方法(4)の評価値は-0.02である。分析方法は(1)~(4)の4種類に限られない。
組合せ抽出部40は、分析方法に対応させて評価値の変化の傾向が異なる集合の組合せを抽出する。組合せ抽出部40は、例えば集合Aと集合Bの組合せを抽出する。
評価値の変化の傾向が異なるとは、図3の集合AとBに示すように、分析方法(1)~(4)の評価値が例えば逆転している様な場合である。集合Aは、分析方法(1)の評価値が大きく、分析方法(2)~(3)の評価値が大きい。
一方、集合Bは、分析方法(1)の評価値が小さく、分析方法(2)~(3)の評価値が大きい。この例の場合、組合せ抽出部40は、集合Aと集合Bの組合せを抽出する。
このように組合せ抽出部40は、評価値の傾向が反対、及び評価値の差の大きな集合の組合せを抽出する。
分析方法グループ化部50は、組合せ抽出部40で抽出され組合せのそれぞれについて、評価値の良否で分類方法をグループに分類し、該分類した結果を集合に対応させて記録する。評価値の良否とは、良を2つの時系列データが似ている場合の例えば小さい数値の評価値、否を2つの時系列データが似ている場合の例えば大きな数値の評価値とする。
図3に示す集合Aの場合は、分析方法(1)を「否」、分析方法(2)~(4)を「良」にグループ分けする。図3に示す集合Bの場合は、分析方法(1)を「良」、分析方法(2)~(4)を「否」にグループ分けする。
なお、図3に示す評価値テーブルでは、分析方法の良否が陽として表されていない。良否は、例えば表のマス目に対応させた良否フラグで表わす様にしてもよい。
問合せ部60は、組合せ抽出部40が抽出した組合せのそれぞれの集合の時系列データを利用者に提示し、どちらの集合の時系列データが似ているかを利用者に問い合わせる。問い合わせは、図示を省略している操作パネル等に、例えば「集合Aと集合Bのどちらが似ていますか?」等を表示して行う。
スコア化部70は、利用者の回答で似ていると判定された集合の評価値が良い方のグループに属する分析方法のスコアを加点する。利用者の回答は、例えばタッチパネルで構成される操作パネル(図示せず)に利用者がタッチすることで行われる。
利用者の回答は、一方の集合の時系列データが似ている、他方の集合のデータ集合が似ている、及び分からない、の何れかである。これにより利用者(人)の感性を適切に取り込むことができる。
図2に示した例において、利用者が集合Aの2つの時系列データの方が、集合Bよりも似ていると回答したと仮定する。この場合、スコア化部70は、集合Aの分析方法(1)にスコア1を加点する。
図4は、スコア化部70がスコアを加点した結果を記録したスコアテーブルの例を示す図である。図4に示す例は、集合A-Bの組合せを7回利用者に問い合わせた場合を示す。また、集合C-Dの組合せを33回利用者に問い合わせた場合を示す。なお、集合A-Bにおいて7回の利用者は、それぞれ異なる人である。
集合Aは、図3に示したように分析方法(1)を「否」、分析方法(2)~(4)を「良」にグループ分けしているので、集合Aの方が似ていると判定された場合に分析方法の(2)~(4)マス目にスコア1が加点される。
なお、利用者は、分析方法(1)~(4)について関知しない。分析方法(1)~(4)及びそれぞれに対応する評価値は、データ分析方法選択装置100の内部の情報であり表に出ない。複数の分析方法及びそれぞれの評価値はブラックボックス化されている。
分析方法選択部90は、組合せ抽出部40、分析方法グループ化部50、問合せ部60、及びスコア化部70のそれぞれの処理を繰り返し、スコアが所定値になる分析方法を選択する。
分析方法選択部90の作用によって、問合せ部60は複数のデータ集合10の組合せを利用者に提示する。利用者に提示するデータ集合10の組合せの数PNは、データ集合10を構成する集合の数をNとすると次式で表せる。
例えば集合の数をA,B,Cの3つとすると、データ集合10の組合せは、A-B、B-C、C-Aの3つである。N=100とするとPN=4900である。
図5は、N=3とした場合の分析方法選択部90の作用を説明するための図である。なお、集合A,B,Cの評価値の変化の傾向は、それぞれ異なるものとして説明する。
問合せ部60は、最初に組合せA-Bのどちらの時系列データが似ているかを利用者に問い合わせる。例えば集合Aの方が似ていると回答した場合、図5に示すように分析方法(2)~(3)が評価値の良いグループに分類されているので、スコア化部70は分析方法(2)~(3)のそれぞれにスコア1を加点する。
この場合、図4に示す集合A-Bの行の方法(2)~(4)のそれぞれが加点され+1になる。図4の表記は異なっている。
次に、問合せ部60は、組合せB-Cのどちらの時系列データが似ているかを利用者に問い合わせる。例えば集合Bの方が似ていると回答した場合、図5に示すように分析方法(1)(3)(4)のグループの評価値が良いので、スコア化部70は分析方法(1)(3)(4)のそれぞれにスコア1を加点する。
次に、問合せ部60は、組合せC-Aのどちらの時系列データが似ているかを利用者に問い合わせる。例えば集合Cの方が似ていると回答した場合、図5に示すように分析方法(2)(3)(4)のグループの評価値が良いので、スコア化部70は分析方法(2)(3)(4)のそれぞれにスコア1を加点する。
以上の処理の結果、スコアテーブルにおける各分析方法(1)~(4)のスコアは、分析方法(3)のスコアが3ポイントとなり最も多くなる。この場合、分析方法選択部90は分析方法(3)を選択する。
実際は、利用者に提示するデータ集合10の組合せの数PNはもっと多数であり、分析方法を選択する所定値ももっと大きな数値になる。
以上説明したように、本実施形態に係るデータ分析方法選択装置100は、2つの時系列データをそれぞれ記録した集合A,B,…を複数含むデータ集合10と、2つの時系列データの関係性を表す評価値を集合A,B,…ごとに異なる分析方法で求める分析部20と、分析方法に対応させて評価値の変化の傾向が異なる集合A,B,…の組合せを抽出する組合せ抽出部40と、組合せ抽出部40で抽出された組合せ(A-B等)のそれぞれについて、評価値の良否で分析方法をグループに分類し、該分類した結果を集合に対応させて記録する分析方法グループ化部50と、組合せ抽出部40が抽出した組合せのそれぞれの集合(A-B等)の時系列データを利用者に提示し、どちらの集合A,Bの時系列データが似ているかを利用者に問合せる問合せ部60と、利用者の回答で似ていると判定された集合の評価値が良い方のグループに属する分析方法のスコアを加点するスコア化部70と、組合せ抽出部40、分析方法グループ化部50、問合せ部60、及びスコア化部70のそれぞれの処理を繰り返し、スコアが所定値になる分析方法を選択する分析方法選択部90とを備える。これにより、ノウハウが無いような場合においても適切な分析手法を利用者のフィードバックを効かせて絞り込み、適切なデータ分析方法を選択できるデータ分析方法選択装置を提供することができる。
本実施形態は、2つの時系列データの関係に着目し、その関係性を数値化し、利用者に2つの時系列データを画像化して提示して利用者の回答をフィードバックする。その結果、複数の分析方法から人(利用者)の感覚に近い分析方法を選択することができる。したがって、利用者に専門的な知識が無くても最適な分析方法の選択を可能にする。
つまり、本実施形態は、完全な分析方法は存在しないという前提に基づいて複数の分析方法の結果を利用者に提示し、利用者がより良い分析方法を選択するという仕組みを提供する。なお、分析方法を提示される利用者(後述する被験者)と、本実施形態に係るデータ分析方法選択装置100を利用する利用者とは基本的には別である。データ分析方法選択装置100を利用する人の方が多くなる。また、分析方法を提示される利用者は一人であってもよいし、複数であっても構わない。
なお、分析方法を提示される利用者が一人の場合、スコア化部70が加点するスコアは1である。また、データ分析方法選択装置100を利用する利用者が変わっても、ある一組の時系列データを分析する分析方法は最適なものが一つ選択される。
次に分析方法の具体例について説明する。
(分析方法(1))
図6は、分析方法(1)を説明するための図である。図6は、2つの物価指数の時系列データを示す。図6の横軸は時間、縦軸は物価指数である。
図6は、分析方法(1)を説明するための図である。図6は、2つの物価指数の時系列データを示す。図6の横軸は時間、縦軸は物価指数である。
分析方法(1)は、一点鎖線と実線で示す比較する2つの物価指数について、2つの時系列データの対応するデータの差分の累積値を、該累積したデータ数で除算する。なお、差分については符号付でもよいし、絶対値で扱ってもよい。なお、図6において破線で示すように、一方にしかデータがない場合は加算しない。
この分析方法(1)は、比較する2つの物価指数データの数が多く、季節変動のような時間ごとの変動が少ないものに好適である。
(分析方法(2))
図7は、分析方法(2)を説明するための図である。図7の横軸と縦軸の関係は図6と同じである。
図7は、分析方法(2)を説明するための図である。図7の横軸と縦軸の関係は図6と同じである。
分析方法(2)は、2つの時系列データのそれぞれの変化量を求め、該変化量の差分の累積値を該累積したデータ数で除算する。図7に示す時間5の差分は2-(-2)=4である。分析方法(1)と同様に、一方にしかデータがない場合は加算しない。
この分析方法(2)は、比較する2つの物価指数データの個数が多く、差分の絶対値は大きく且つ変動の形が似ているものに好適である。
(分析方法(3))
図8は、分析方法(3)を説明するための図である。図7の横軸と縦軸の関係は図6と同じである。
図8は、分析方法(3)を説明するための図である。図7の横軸と縦軸の関係は図6と同じである。
分析方法(3)の計算方法は、上記の分析方法(2)と基本的に同じである。ただし、2つの時系列データの一方のデータしか無い場合は、他方の時系列データの変化量を該時系列データの変化量の平均値で補間する点である。なお、両方共にデータが無い区間については補間を行わない。
この分析方法(3)は、分析方法(2)と比べて、比較する2つの時系列データの一方にデータの無い区間が多いものに好適である。
(分析方法(4))
図9は、分析方法(4)を説明するための図である。図7の横軸と縦軸の関係は図6と同じである。
図9は、分析方法(4)を説明するための図である。図7の横軸と縦軸の関係は図6と同じである。
分析方法(3)の計算方法は、上記の分析方法(2)と基本的に同じである。ただし、上記の平均値は、時系列データが無くなる直前の複数の変化量の平均値である。平均するデータの個数及び平均時の重みづけについては変更してもよい。
この分析方法(4)は、上記の分析方法(1)が不適な季節変動の大きな時系列データの比較に好適である。
(データ分析方法選択方法)
図10は、本実施形態に係るデータ分析方法選択装置100が行うデータ分析方法選択方法の処理手順を示すフローチャートである。
図10は、本実施形態に係るデータ分析方法選択装置100が行うデータ分析方法選択方法の処理手順を示すフローチャートである。
データ分析方法選択装置100は、2つの時系列データをそれぞれ記録した集合A,B,…を複数含むデータ集合10を備える。データ集合10は予め用意される。集合…は適宜追加される。
データ分析方法選択装置100の分析部20は、2つの時系列データの関係性を表す評価値を集合A,B,…ごとに異なる分析方法(例えば上記の(1)~(4))で算出する(ステップS1)。
組合せ抽出部40は、分析方法に対応させて評価値の変化の傾向が異なる集合の組合せを抽出する(ステップS2)。集合の組合せは、例えば、A-B、B-C、C-A等である。
分析方法グループ化部50は、組合せ抽出部40で抽出された集合の組合せのそれぞれについて、評価値の良否で分析方法をグループに分類し、該分類した結果を集合に対応させて記録する(ステップS3)。
問合せ部60は、組合せ抽出部40が抽出した組合せのそれぞれの集合の時系列データを利用者に提示し、どちらの集合の時系列データが似ているかを利用者に問い合わせる(ステップS4)。
利用者は、どちらの集合の時系列データが似ているかを回答する(ステップS5)。回答は、例えば操作パネル(図示せず)等を利用者がタッチすることで行う。
スコア化部70は、利用者の回答で似ていると判定された集合の評価値が良い方のグループに属する分析方法のスコアを加点する。例えば、集合Aの時系列データの方が似ていると判定された場合は、スコアテーブル(図4)の集合の例えばA-Bの方法(1)にスコアを加点する(ステップS6)。また、集合Bの時系列データの方が似ていると判定された場合は、スコアテーブル(図4)の集合の例えばA-Bの方法(2)(3)(4)にスコアを加点する(ステップS7)。
分析方法選択部90は、組合せ抽出ステップ(ステップS2)、分析方法グループ化ステップ(ステップS3)、問合せステップ(ステップS4)、及びスコア化ステップ(ステップS5)のそれぞれの処理を繰り返し、スコアが所定値になる分析方法を選択する(ステプS8のYES)。なお、集合が追加された場合、処理の繰り返しは分析部20の処理(ステップS2)から繰り返す。
データ分析方法選択装置100は、図8に示す汎用的なコンピュータシステムで実現することができる。例えば、CPU90、メモリ91、ストレージ92、通信部93、入力部94、及び出力部95を備える汎用的なコンピュータシテムにおいて、CPU90がメモリ91上にロードされた所定のプログラムを実行することにより、データ分析方法選択装置100の各機能が実現される。所定のプログラムは、HDD、SSD、USBメモリ、CD-ROM、DVD-ROM、MOなどのコンピュータ読取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。
(評価実験)
本実施形態に係るデータ分析方法選択装置100で得られる効果を確認する目的で評価実験を行った。
本実施形態に係るデータ分析方法選択装置100で得られる効果を確認する目的で評価実験を行った。
評価実験には、総省統計局が提供している消費者物価指数(品目別価格指数)から時系列データ380項目を使用した。380項目を組み合わせた約7万2千個の集合を用いて、評価値の算出方法が異なる分析方法の中から、最も適した分析方法を選択する実験を行った。
分析方法は、上記の分析方法(1)~(4)の4つを用いた。集合の選択は、分析方法1種類につき20回実施した。その事前評価の結果、分析方法(1)が最も被験者(利用者(人))の感覚に合うことが分かった。
その後、被験者4人に対して、ランダムに抽出した集合の10組について同様の評価を行った。その結果を表1に示す。
表1に示すように、事前の評価で分析方法(1)が最も被験者に合うと判定された分析方法(1)の一致率が平均値89%と最も高く、データ分析方法選択装置100を用いることで、比較的少ない試行回数で分析方法が選択できることが分かった。
本実施形態によれば、2つのデータの集合の時系列データの関係性に着目し、その関係性を数値化するだけでなく、視覚化して利用者に提示し、利用者から回答を得ることで複数の分析方法の中から人の感覚に近い分析方法を選択することができる。
つまり、DSと異なりノウハウのない利用者であっても適切なデータ分析方法を選択することが可能になる。
なお、上記の実施例では、分析方法を(1)~(4)の4種類で説明したが、本発明はこの例に限定されない。分析方法はn個(nは自然数)であってもよい。また、分析方法は上記の実施例に限定されない。また、集合A,Bは、物価指数の時系列データを例に示したが、他の時系列データであっても構わない。
このように本発明はここでは記載していない様々な実施形態等を含むことは勿論である。したがって、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
10:データ集合
20:分析部
30:評価値テーブル
40:組合せ抽出部
50:分析方法グループ化部
60:問合せ部
70:スコア化部
80:スコアテーブル
90:分析方法選択部
100:データ分析方法選択装置
A,B,C,D:集合
20:分析部
30:評価値テーブル
40:組合せ抽出部
50:分析方法グループ化部
60:問合せ部
70:スコア化部
80:スコアテーブル
90:分析方法選択部
100:データ分析方法選択装置
A,B,C,D:集合
Claims (8)
- 2つの時系列データをそれぞれ記録した集合を複数含むデータ集合と、
前記2つの時系列データの関係性を表す評価値を前記集合ごとに異なる分析方法で求める分析部と、
前記分析方法に対応させて前記評価値の変化の傾向が異なる前記集合の組合せを抽出する組合せ抽出部と、
前記組合せ抽出部で抽出された前記組合せのそれぞれについて、前記評価値の良否で前記分析方法をグループに分類し、該分類した結果を前記集合に対応させて記録する分析方法グループ化部と、
前記組合せ抽出部が抽出した前記組合せのそれぞれの前記集合の時系列データを利用者に提示し、どちらの前記集合の時系列データが似ているかを利用者に問合せる問合せ部と、
前記利用者の回答で似ていると判定された前記集合の前記評価値が良い方の前記グループに属する前記分析方法のスコアを加点するスコア化部と、
前記組合せ抽出部、前記分析方法グループ化部、前記問合せ部、及び前記スコア化部のそれぞれの処理を繰り返し、前記スコアが所定値になる前記分析方法を選択する分析方法選択部と
を備えるデータ分析方法選択装置。 - 前記利用者の回答は、
一方の前記時系列データが似ている、他方の前記時系列データが似ている、及び分からない、の何れかである
請求項1に記載のデータ分析方法選択装置。 - 前記分析方法の1つは、
前記2つの時系列データの対応するデータの差分を累積した累積値を、該累積したデータ数で除算する
請求項1又は2に記載のデータ分析方法選択装置。 - 前記分析方法の1つは、
前記2つの時系列データのそれぞれの変化量を求め、該変化量の差分を累積した累積値を該累積したデータ数で除算する
請求項1又は2に記載のデータ分析方法選択装置。 - 前記分析方法の1つは、
前記2つの時系列データの一方しか無い場合は、他方の前記時系列データの前記変化量を該時系列データの前記変化量の平均値で補間する
請求項4に記載のデータ分析方法選択装置。 - 前記平均値は、
前記時系列データが無くなる直前の複数の前記変化量の平均値である
請求項5に記載のデータ分析方法選択装置。 - 分析部は、2つの時系列データの関係性を表す評価値を前記時系列データがそれぞれ記録された集合ごとに異なる分析方法で求める分析ステップと、
組合せ抽出部は、前記分析方法に対応させて前記評価値の変化の傾向が異なる前記集合の組合せを抽出する組合せ抽出ステップと、
分析方法グループ化部は、前記組合せ抽出ステップで抽出された前記組合せのそれぞれについて、前記評価値の良否で前記分析方法をグループに分類し、該分類した結果を前記集合に対応させて記録する分析方法グループ化ステップと、
問合せ部は、前記組合せ抽出部が抽出した前記組合せのそれぞれの前記集合の時系列データを利用者に提示し、どちらの前記集合の時系列データが似ているかを利用者に問合せる問合せステップと、
スコア化部は、前記利用者の回答で似ていると判定された前記集合の前記評価値が良い方の前記グループに属する前記分析方法のスコアを加点するスコア化ステップと、
前記組合せ抽出ステップ、前記分析方法グループ化ステップ、前記問合せステップ、及び前記スコア化ステップのそれぞれの処理を繰り返し、前記スコアが所定値になる前記分析方法を選択する分析方法選択部と
を行うデータ分析方法選択方法。 - 請求項1乃至6の何れかに記載のデータ分析方法選択装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/005698 WO2022176014A1 (ja) | 2021-02-16 | 2021-02-16 | データ分析方法選択装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022176014A1 JPWO2022176014A1 (ja) | 2022-08-25 |
JP7469730B2 true JP7469730B2 (ja) | 2024-04-17 |
Family
ID=82931231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023500142A Active JP7469730B2 (ja) | 2021-02-16 | 2021-02-16 | データ分析方法選択装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240119117A1 (ja) |
JP (1) | JP7469730B2 (ja) |
WO (1) | WO2022176014A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157896A (ja) | 2003-11-27 | 2005-06-16 | Mitsubishi Electric Corp | データ分析支援システム |
JP2010205218A (ja) | 2009-03-06 | 2010-09-16 | Dainippon Printing Co Ltd | データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム |
WO2017168967A1 (ja) | 2016-03-28 | 2017-10-05 | 三菱電機株式会社 | データ分析手法候補決定装置 |
JP2019105953A (ja) | 2017-12-12 | 2019-06-27 | 株式会社日立製作所 | データ分析システム、及びデータ分析方法 |
WO2019187012A1 (ja) | 2018-03-30 | 2019-10-03 | 三菱電機株式会社 | 学習処理装置、データ分析装置、分析手法選択方法、及び分析手法選択プログラム |
JP2020170371A (ja) | 2019-04-04 | 2020-10-15 | 三菱電機株式会社 | データ分析装置、データ分析方法及びデータ分析プログラム |
-
2021
- 2021-02-16 US US18/277,003 patent/US20240119117A1/en active Pending
- 2021-02-16 WO PCT/JP2021/005698 patent/WO2022176014A1/ja active Application Filing
- 2021-02-16 JP JP2023500142A patent/JP7469730B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157896A (ja) | 2003-11-27 | 2005-06-16 | Mitsubishi Electric Corp | データ分析支援システム |
JP2010205218A (ja) | 2009-03-06 | 2010-09-16 | Dainippon Printing Co Ltd | データ分析支援装置、データ分析支援システム、データ分析支援方法、及びプログラム |
WO2017168967A1 (ja) | 2016-03-28 | 2017-10-05 | 三菱電機株式会社 | データ分析手法候補決定装置 |
JP2019105953A (ja) | 2017-12-12 | 2019-06-27 | 株式会社日立製作所 | データ分析システム、及びデータ分析方法 |
WO2019187012A1 (ja) | 2018-03-30 | 2019-10-03 | 三菱電機株式会社 | 学習処理装置、データ分析装置、分析手法選択方法、及び分析手法選択プログラム |
JP2020170371A (ja) | 2019-04-04 | 2020-10-15 | 三菱電機株式会社 | データ分析装置、データ分析方法及びデータ分析プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2022176014A1 (ja) | 2022-08-25 |
JPWO2022176014A1 (ja) | 2022-08-25 |
US20240119117A1 (en) | 2024-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868310B (zh) | 一种数据处理方法、装置及电子设备 | |
CN102841946B (zh) | 商品数据检索排序及商品推荐方法和系统 | |
Delicado | Dimensionality reduction when data are density functions | |
JP4388301B2 (ja) | 画像検索装置、画像検索方法、画像検索プログラム及びそのプログラムを記録した記録媒体 | |
CN106127546A (zh) | 一种基于智慧社区大数据的商品推荐方法 | |
US20030063779A1 (en) | System for visual preference determination and predictive product selection | |
Valentin et al. | Projective mapping & sorting tasks | |
CN111291243A (zh) | 一种人物事件的时空信息不确定性的可视化推理方法 | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
JP6696568B2 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
JP2008293310A (ja) | 消費者の嗜好動向を分析する方法、システムおよびプログラム | |
Chessa | MARS: A method for defining products and linking barcodes of item relaunches | |
Keim et al. | Visualization | |
CN107688647A (zh) | 一种基于协同过滤的学习复习题库推荐方法 | |
JP7469730B2 (ja) | データ分析方法選択装置、方法及びプログラム | |
CN110737796B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
Kumar et al. | Cuisine prediction based on ingredients using tree boosting algorithms | |
CN109446235B (zh) | 多维高效用序列模式处理方法、装置和计算机设备 | |
JP5271821B2 (ja) | 調査装置及びコンピュータプログラム | |
KR101632537B1 (ko) | 기술적 파급효과 분석 방법 | |
Marinov et al. | Comparative analysis of existing similarity measures used for content-based image retrieval | |
Zhao et al. | Mavis: machine learning aided multi-model framework for time series visual analytics | |
JP2020160709A (ja) | 特徴抽出支援システム、方法、およびプログラム | |
Matsuda et al. | Joint analysis of static and dynamic importance in the eye-tracking records of web page readers | |
JP5078960B2 (ja) | テキスト処理装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7469730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |