JP7172616B2 - データ解析装置、方法、及びプログラム - Google Patents
データ解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP7172616B2 JP7172616B2 JP2019003817A JP2019003817A JP7172616B2 JP 7172616 B2 JP7172616 B2 JP 7172616B2 JP 2019003817 A JP2019003817 A JP 2019003817A JP 2019003817 A JP2019003817 A JP 2019003817A JP 7172616 B2 JP7172616 B2 JP 7172616B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- variable
- output
- value
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 86
- 238000007405 data analysis Methods 0.000 title claims description 50
- 238000009826 distribution Methods 0.000 claims description 96
- 238000012417 linear regression Methods 0.000 claims description 24
- 230000001143 conditioned effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 239000000203 mixture Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Medical Informatics (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
図7において、縦軸は単位時間当たりの通過人数を示し、横軸は時刻を示す。
また、カーネルを用いたアプローチをとることにより、線形回帰よりも多様なデータを入力として扱うことができる。
さらに、線形回帰では必要となる特徴量の設計を行う必要がなく、精度の良い推定を行うことができる。
図1において、縦軸は単位時間当たりの通過人数を示し、横軸は時刻を示す。
図2において、縦軸は単位時間当たりの通過人数を示し、横軸は時刻を示す。
出力変数として正確な値が分かるs個の入出力データと、出力変数の正確な値は分からず、値のとる範囲が分かるt個の入出力データの組として表されるデータD、つまり、
ここでは、上述の1つ目のアルゴリズム、すなわち、潜在変数を用いたガウス過程による方法について述べる。この方法では、出力変数yの生成過程として、以下に示すようなモデルを考える。
この方法では、上述の式(3)の切断正規分布に従う乱数Q個の乱数生成値
この方法では、切断正規分布を正規分布で近似することで予測分布を構成する。例えば、変分近似とモーメントマッチングを用いる場合、まず変分近似によって式(3)の多次元の切断正規分布を近似することにより、各次元で独立な切断正規分布を得ることができる。
2つ目のアルゴリズムとして、2つの回帰分析を用いた方法について述べる。まず、2つのガウス過程を用いた方法の線形回帰版である、はさみこみ線形回帰手法について述べる。このはさみこみ線形回帰手法も本実施形態により新たに提案する方法である。
ある入力xdの区間値
入力変数と区間値の上界の入出力関係を定める関数fu、入力変数と区間値の下界の入出力関係を定める関数flと書く。fu、flがそれぞれガウス過程に従うとする。よって任意の部分集合
本手法は、上述の[2-2.はさみこみガウス回帰]の方法とほぼ同様であるが、スカラー値も長さゼロの区間値として扱うことでより単純に手法を構築することもできる。表記の簡単化のため、ここでは、出力変数のスカラー値と区間値の上界をまとめてyu、出力変数のスカラー値と区間値の下界をまとめてylと書く。すなわち、
本実施形態では、潜在変数を導入した1つの目のアプローチを実施する場合におけるデータ解析装置について説明する。なお、潜在変数の推定には、上述の[1-1.乱数を生成する方法]、及び、[1-2.正規分布による近似を利用する方法]のいずれかの方法が適用される。
図3に示すように、本実施形態に係るデータ解析装置10Aは、データ処理部12と、潜在変数推定部14と、予測部16と、記録部18と、入出力部20と、を備えている。
本実施形態では、2つの回帰分析を用いた2つ目のアプローチを実施する場合におけるデータ解析装置について説明する。なお、出力変数の予測には、上述の[2-1.はさみこみ線形回帰]、[2-2.はさみこみガウス回帰]、及び[2-3.はさみこみガウス回帰(スカラー値を区間値として扱う場合)]のいずれかの方法が適用される。
図5に示すように、本実施形態に係るデータ解析装置10Bは、データ処理部12と、予測部22と、記録部24と、入出力部26と、を備えている。
12 データ処理部
14 潜在変数推定部
16、22 予測部
18、24 記録部
20、26 入出力部
30 外部装置
Claims (7)
- 出力変数の値が与えられた複数の第1入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第2入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
前記第2入出力データの各々について、前記区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定する潜在変数推定部であって、
前記第1入出力データの入力変数間の類似度を表すカーネル関数、前記第1入出力データの入力変数と前記第2入出力データの入力変数との間の類似度を表すカーネル関数、前記第2入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、前記潜在変数として、乱数を生成する潜在変数推定部と、
を備え、
前記予測部は、前記第1入出力データの各々の前記出力変数の値及び前記第2入出力データの各々の前記潜在変数が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。 - 出力変数の値が与えられた複数の第1入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第2入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
前記第1入出力データの入力変数間の類似度を表すカーネル関数、前記第1入出力データの入力変数と前記第2入出力データの入力変数との間の類似度を表すカーネル関数、前記第2入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記第2入出力データの各々の前記区間値内の値の生成確率の切断正規分布に基づいて、前記第2入出力データの各々の前記出力変数の値の平均及び分散を推定する潜在変数推定部と、
を備え、
前記予測部は、前記第2入出力データの各々の前記出力変数の値の平均及び分散から得られる正規分布に基づいて、前記第2入出力データの各々の前記出力変数の値の正規分布を用いて表される、前記第1入出力データの各々の出力変数の値及び前記第2入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。 - 出力変数の値が与えられた複数の第1入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第2入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
を備え、
前記予測部は、
前記第2入出力データの入力変数間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第2入出力データの入力変数間の類似度を表す、前記区間値の下限値についてのカーネル関数とに基づいて、
前記第1入出力データの各々の出力変数の値及び前記第2入出力データの各々の前記区間値が与えられたもとでの前記未知の入力変数の潜在的な区間値の事後確率と、
前記未知の入力変数の潜在的な区間値の事後確率が与えられたもとでの前記未知の入力変数に対する出力変数の値の事後確率と
を用いて表される、前記第1入出力データの各々の出力変数の値及び前記第2入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。 - 出力変数の値が与えられた複数の第1入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第2入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部と、
を備え、
前記予測部は、
前記第1入出力データの各々の出力変数の値を、前記第1入出力データの各々の出力変数の区間値の上限値及び下限値とし、
前記未知の入力変数と、前記第1入出力データ及び前記第2入出力データの入力変数の各々との間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第1入出力データ及び前記第2入出力データの入力変数間の類似度を表す、前記区間値の上限値についてのカーネル関数と、前記第1入出力データ及び前記第2入出力データの各々の出力変数の区間値の上限値と、を用いて表される平均、
前記未知の入力変数と、前記第1入出力データ及び前記第2入出力データの入力変数の各々との間の類似度を表す、前記区間値の下限値についてのカーネル関数と、前記第1入出力データ及び前記第2入出力データの入力変数間の類似度を表す、前記区間値の下限値についてのカーネル関数と、前記第1入出力データ及び前記第2入出力データの各々の出力変数の区間値の下限値と、を用いて表される平均と、から求められる平均、及び
前記第1入出力データ及び前記第2入出力データの入力変数間の類似度を表すカーネル関数を用いて表される分散
を用いて表される正規分布で表される、前記第1入出力データの各々の出力変数の値及び前記第2入出力データの各々の前記区間値で条件付けられた値が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析装置。 - 出力変数の値が与えられた複数の第1入出力データと、前記出力変数の値が範囲を表す区間値として与えられた複数の第2入出力データとの組で表されるデータを取得する処理を行うデータ処理部と、
出力変数の値が未知の入力変数及び前記データに基づいて、線形回帰を用いて、前記未知の入力変数に対する出力変数の値を予測する予測部であって、
前記第1入出力データ及び前記第2入出力データに基づいて推定される、入力変数と出力変数の区間値の上限値との関係を表わす線形回帰のパラメタ、入力変数と出力変数の区間値の下限値との関係を表わす線形回帰のパラメタ、区間値の上限値と下限値との各々の重みパラメタ、及び分散パラメタに基づいて、
前記未知の入力変数から、前記区間値の上限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、前記未知の入力変数から、前記区間値の下限値との関係を表わす線形回帰のパラメタを用いて計算される平均と、前記重みパラメタとから求められる平均、及び
前記重みパラメタと前記分散パラメタを用いて表される分散
を用いて表される正規分布で表される、前記未知の入力変数の出力変数の事後確率を表す予測分布に従って、前記未知の入力変数に対する出力変数の値を予測する予測部と、
を備えたデータ解析装置。 - データ処理部が、出力変数の値が与えられた複数の第1入出力データと、出力変数の値が範囲を表す区間値として与えられた複数の第2入出力データとの組で表されるデータを取得する処理を行うステップと、
予測部が、出力変数の値が未知の入力変数及び前記データに基づいて、ガウス過程を用いて、前記未知の入力変数に対する出力変数の値を予測するステップと、
潜在変数推定部が、前記第2入出力データの各々について、前記区間値として与えられた出力変数の真の値の推定値を表す潜在変数を推定するステップであって、
前記第1入出力データの入力変数間の類似度を表すカーネル関数、前記第1入出力データの入力変数と前記第2入出力データの入力変数との間の類似度を表すカーネル関数、前記第2入出力データの入力変数間の類似度を表すカーネル関数、及び前記区間値を用いて表される、前記区間値で条件付けられた潜在変数の生成確率の切断正規分布に従って、前記潜在変数として、乱数を生成するステップと、
を含み、
前記予測するステップは、前記第1入出力データの各々の前記出力変数の値及び前記第2入出力データの各々の前記潜在変数が与えられたもとでの前記未知の入力変数の出力変数の事後確率を表すガウス分布を用いて表される予測分布に従って、前記未知の入力変数に対する出力変数の値を予測するデータ解析方法。 - コンピュータを、請求項1~5のいずれか1項に記載のデータ解析装置が備える各部として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019003817A JP7172616B2 (ja) | 2019-01-11 | 2019-01-11 | データ解析装置、方法、及びプログラム |
PCT/JP2020/000124 WO2020145252A1 (ja) | 2019-01-11 | 2020-01-07 | データ解析装置、方法、及びプログラム |
US17/421,693 US20220092455A1 (en) | 2019-01-11 | 2020-01-07 | Data analysis device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019003817A JP7172616B2 (ja) | 2019-01-11 | 2019-01-11 | データ解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020113079A JP2020113079A (ja) | 2020-07-27 |
JP7172616B2 true JP7172616B2 (ja) | 2022-11-16 |
Family
ID=71520481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019003817A Active JP7172616B2 (ja) | 2019-01-11 | 2019-01-11 | データ解析装置、方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220092455A1 (ja) |
JP (1) | JP7172616B2 (ja) |
WO (1) | WO2020145252A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216576B (zh) * | 2023-10-26 | 2024-03-29 | 山东省地质矿产勘查开发局第六地质大队(山东省第六地质矿产勘查院) | 一种基于高斯混合聚类分析的石墨金矿找矿方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013224698A1 (de) * | 2013-12-03 | 2015-06-03 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Ermitteln eines datenbasierten Funktionsmodells |
-
2019
- 2019-01-11 JP JP2019003817A patent/JP7172616B2/ja active Active
-
2020
- 2020-01-07 WO PCT/JP2020/000124 patent/WO2020145252A1/ja active Application Filing
- 2020-01-07 US US17/421,693 patent/US20220092455A1/en active Pending
Non-Patent Citations (1)
Title |
---|
鹿島 久嗣,目的変数が範囲で与えられる回帰問題に対するEM法,一般社団法人人工知能学会 研究会 DMSM:データマイニングと統計数理研究会(第5回),日本,一般社団法人人工知能学会,2007年10月06日,pp.204-212 |
Also Published As
Publication number | Publication date |
---|---|
JP2020113079A (ja) | 2020-07-27 |
US20220092455A1 (en) | 2022-03-24 |
WO2020145252A1 (ja) | 2020-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Botev et al. | Practical Gauss-Newton optimisation for deep learning | |
Kartal Koc et al. | Model selection in multivariate adaptive regression splines (MARS) using information complexity as the fitness function | |
Yu et al. | L 2-norm multiple kernel learning and its application to biomedical data fusion | |
JP6483667B2 (ja) | ベイズの最適化を実施するためのシステムおよび方法 | |
Zanger | Quantitative error estimates for a least-squares Monte Carlo algorithm for American option pricing | |
Peng et al. | Surrogate modeling immersed probability density evolution method for structural reliability analysis in high dimensions | |
Paananen et al. | Implicitly adaptive importance sampling | |
Takeuchi et al. | Nonparametric conditional density estimation using piecewise-linear solution path of kernel quantile regression | |
US11551093B2 (en) | Resource-aware training for neural networks | |
US20210300390A1 (en) | Efficient computational inference using gaussian processes | |
JP7172616B2 (ja) | データ解析装置、方法、及びプログラム | |
Wang et al. | A multilevel simulation optimization approach for quantile functions | |
Bonilla et al. | Generic inference in latent Gaussian process models | |
Bonilla et al. | Generic inference in latent Gaussian process models | |
Hirt et al. | Scalable bayesian learning for state space models using variational inference with smc samplers | |
King et al. | Warped dynamic linear models for time series of counts | |
Zhan et al. | Neural networks for geospatial data | |
CA3119351C (en) | Extending finite rank deep kernel learning to forecasting over long time horizons | |
Koc et al. | Restructuring forward step of MARS algorithm using a new knot selection procedure based on a mapping approach | |
WO2021052609A1 (en) | Efficient computational inference | |
Atkins et al. | Proximal methods for sparse optimal scoring and discriminant analysis | |
Virani et al. | Learning context-aware measurement models | |
CA3117168A1 (en) | System and method for neural time series preprocessing | |
Wang et al. | A variational inference-based heteroscedastic Gaussian process approach for simulation metamodeling | |
Valizadeh et al. | Flexible cholesky garch model with time dependent coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210507 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7172616 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |