JP6300572B2 - データ分析プログラム、及びデータ分析装置 - Google Patents
データ分析プログラム、及びデータ分析装置 Download PDFInfo
- Publication number
- JP6300572B2 JP6300572B2 JP2014037302A JP2014037302A JP6300572B2 JP 6300572 B2 JP6300572 B2 JP 6300572B2 JP 2014037302 A JP2014037302 A JP 2014037302A JP 2014037302 A JP2014037302 A JP 2014037302A JP 6300572 B2 JP6300572 B2 JP 6300572B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- value
- potential
- neighborhood
- objective variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title description 10
- 238000000034 method Methods 0.000 claims description 111
- 230000008569 process Effects 0.000 claims description 101
- 238000012545 processing Methods 0.000 claims description 96
- 238000011156 evaluation Methods 0.000 claims description 79
- 238000013075 data extraction Methods 0.000 claims description 71
- 238000004458 analytical method Methods 0.000 claims description 45
- 238000012854 evaluation process Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 24
- 238000011157 data evaluation Methods 0.000 description 13
- 238000000342 Monte Carlo simulation Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Landscapes
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
また、前記近傍データ抽出処理を前記類似データ抽出処理に先立って実行させると良い。
(第1の実施の形態)
図1は、本実施の形態によるデータ分析システムの一構成例を示す機能ブロック図である。図1に示すように、本実施の形態によるデータ分析システムは、分析対象となる目的変数と説明変数のデータを保存した分析データベース11と、分析手段を備えて処理を実行する分析サーバ12と、分析設定値の入力や分析結果の出力を行うクライアント端末13とがネットワーク接続可能に構成されている。
ここでは、地域ごとの金融データを分析する例について説明したが、会社毎などの組織単位の販売実績データ、研究機関毎の論文発表、特許出願などの研究実績データなど種々のデータ分析に用いることができ、検体毎の疾病治癒実績データなどに用いることができ、本発明は、データの種別を限定するものではない。
局所近接データ抽出手段16では、個別データ毎に、局所近接データを出力する。
ポテンシャル評価手段15では、個別データ毎に、ポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値を出力する。
第2の実施の形態について、第1の実施の形態にならって説明する。図1から図6までは、第1の実施の形態と同様に参照できる。尚、図1の局所近接データ抽出手段16を有していない。
初めに、全データの目的変数値DO[x][j](1≦x≦ND)の標準偏差σと、近傍データの目的変数値DO[x][j](D[x]∈近傍データ)の標準偏差σ’を算出する(ステップ901a)。ただし、評価する目的変数O[j]のインデックス値j(1≦j≦NOのいずれかの値)は、事前に設定されているものとする。
上位説明変数組合せ削除処理707aでは、説明変数の組合せEに対して、上位に存在する説明変数の組合せを削除する。
ポテンシャル評価手段15では、個別データ毎に、ポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値を出力する。
12…分析サーバ
13…クライアント端末
14…近傍類似データ抽出手段
15…ポテンシャル評価手段
16…局所近接データ抽出手段
21…目的変数テーブル
31…説明変数テーブル
Claims (16)
- 標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、
前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データを抽出する近傍データ抽出処理と、
前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍データかつ類似データであると判定された近傍類似データと類似度とを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラム。 - さらに、
前記全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が前記近傍データの目的変数値の標準偏差以下となる確率を、前記類似度として算出する類似度の算出処理を、コンピュータに実行させるための請求項1に記載のデータ分析プログラム。 - さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データと前記類似度との組と、を出力する出力処理を、コンピュータに実行させるための請求項1又は2に記載のデータ分析プログラム。
- 前記標本データ毎に、
前記近傍類似データに基づいた計量距離を用いて、前記標本データの周囲に存在するデータを抽出する局所近傍データ抽出処理を、コンピュータに実行させるための請求項1から3までのいずれか1項に記載のデータ分析プログラム。 - さらに、
前記近傍類似データに基づいた前記計量距離として、前記説明変数の組合せ毎の前記近傍類似データが各クラスタであり、前記近傍類似データの説明変数値が前記クラスタのデータであり、前記近傍類似データと組になっている前記類似度を単調減少関数で変換した値が前記クラスタの重みである、クラスタ構造に基づいた計量距離を用いる局所近傍データ抽出処理を、コンピュータに実行させるための請求項4に記載のデータ分析プログラム。 - さらに、前記局所近傍データ抽出処理の結果得られた前記局所近傍データを出力する出力処理を、コンピュータに実行させるための請求項4又は5に記載のデータ分析プログラム。
- 前記標本データ毎に、
前記局所近傍データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うことを特徴とする請求項4から6までのいずれか1項に記載のデータ分析プログラム。 - 前記標本データ毎に、
前記局所近傍データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うことを特徴とする請求項4から7までのいずれか1項に記載のデータ分析プログラム。 - 前記標本データ毎に、
前記局所近傍データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うことを特徴とする請求項4から8までのいずれか1項に記載のデータ分析プログラム。 - 標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、
前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理と、
前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍類似データを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラム。 - さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データの組と、を出力する出力処理を、コンピュータに実行させるための請求項10に記載のデータ分析プログラム。
- 前記近傍データ抽出処理を前記類似データ抽出処理に先立って実行することを特徴とする請求項10又は11に記載のデータ分析プログラム。
- 前記標本データ毎に、
前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うことを特徴とする請求項10から12までのいずれか1項に記載のデータ分析プログラム。 - 前記標本データ毎に、
前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うことを特徴とする請求項10から13までのいずれか1項に記載のデータ分析プログラム。 - 前記標本データ毎に、
前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うことを特徴とする請求項10から14までのいずれか1項に記載のデータ分析プログラム。 - 標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、
前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理部と、
前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍類似データを抽出する類似データ抽出処理部と
を有することを特徴とするデータ分析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014037302A JP6300572B2 (ja) | 2013-08-30 | 2014-02-27 | データ分析プログラム、及びデータ分析装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013179467 | 2013-08-30 | ||
JP2013179467 | 2013-08-30 | ||
JP2014037302A JP6300572B2 (ja) | 2013-08-30 | 2014-02-27 | データ分析プログラム、及びデータ分析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064856A JP2015064856A (ja) | 2015-04-09 |
JP6300572B2 true JP6300572B2 (ja) | 2018-03-28 |
Family
ID=52832656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014037302A Active JP6300572B2 (ja) | 2013-08-30 | 2014-02-27 | データ分析プログラム、及びデータ分析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6300572B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6740157B2 (ja) * | 2017-03-13 | 2020-08-12 | 株式会社東芝 | 解析装置、解析方法、及び、プログラム |
CN113743539B (zh) * | 2021-11-03 | 2022-02-08 | 南京云问网络技术有限公司 | 一种基于深度学习的表格检索方法 |
CN116011403B (zh) * | 2023-03-27 | 2023-10-03 | 莱芜职业技术学院 | 一种用于计算机数据存储的重复数据识别方法 |
-
2014
- 2014-02-27 JP JP2014037302A patent/JP6300572B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015064856A (ja) | 2015-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734233B2 (en) | Method for classifying an unmanaged dataset | |
US9965531B2 (en) | Data storage extract, transform and load operations for entity and time-based record generation | |
JP6028103B2 (ja) | データ管理方法、データ管理装置及び記憶媒体 | |
CN108133418A (zh) | 实时信用风险管理系统 | |
JP6414363B2 (ja) | 予測システム、方法およびプログラム | |
JP6059122B2 (ja) | 顧客データ解析システム | |
US10255300B1 (en) | Automatically extracting profile feature attribute data from event data | |
JP6311851B2 (ja) | 共クラスタリングシステム、方法およびプログラム | |
JP6837411B2 (ja) | 販売促進装置、販売促進方法及び販売促進プログラム | |
JP7428927B2 (ja) | ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置 | |
WO2018186090A1 (ja) | モデル変数候補生成装置および方法 | |
JP6300572B2 (ja) | データ分析プログラム、及びデータ分析装置 | |
WO2017203672A1 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
JP7065718B2 (ja) | 判断支援装置および判断支援方法 | |
Ashraf et al. | Feature selection techniques on thyroid, hepatitis, and breast cancer datasets | |
JP2006215737A (ja) | 新規クラスター分析方法 | |
Trivedi et al. | Prediction of polarities of online hotel reviews: an improved stacked decision tree (ISD) approach | |
US10325212B1 (en) | Predictive intelligent softbots on the cloud | |
Midha et al. | A survey on classification techniques in data mining | |
Silva et al. | A categorical clustering of publishers for mobile performance marketing | |
Jun | A technology forecasting method using text mining and visual apriori algorithm | |
JP5506629B2 (ja) | 準頻出構造パターンマイニング装置と頻出構造パターンマイニング装置とそれらの方法、及びプログラム | |
JP6243314B2 (ja) | 分析装置、分析方法、及び分析プログラム | |
JP6393411B2 (ja) | データ分析支援システム及びデータ分析支援方法 | |
Kaur | Customer segmentation using clustering algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20150225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171004 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20171212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180112 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20180123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6300572 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |