JP7107926B2 - 予測データ分析のためのシステムおよび関連する方法および装置 - Google Patents
予測データ分析のためのシステムおよび関連する方法および装置 Download PDFInfo
- Publication number
- JP7107926B2 JP7107926B2 JP2019520991A JP2019520991A JP7107926B2 JP 7107926 B2 JP7107926 B2 JP 7107926B2 JP 2019520991 A JP2019520991 A JP 2019520991A JP 2019520991 A JP2019520991 A JP 2019520991A JP 7107926 B2 JP7107926 B2 JP 7107926B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- model
- time
- predictive
- modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 1128
- 238000007405 data analysis Methods 0.000 title description 2
- 238000012549 training Methods 0.000 claims description 355
- 238000012360 testing method Methods 0.000 claims description 291
- 238000010200 validation analysis Methods 0.000 claims description 60
- 238000007781 pre-processing Methods 0.000 claims description 28
- 238000012795 verification Methods 0.000 claims description 17
- 230000001747 exhibiting effect Effects 0.000 claims description 11
- 238000005192 partition Methods 0.000 description 189
- 238000012545 processing Methods 0.000 description 112
- 230000000875 corresponding effect Effects 0.000 description 84
- 230000009471 action Effects 0.000 description 74
- 238000002790 cross-validation Methods 0.000 description 50
- 238000011156 evaluation Methods 0.000 description 47
- 230000006870 function Effects 0.000 description 43
- 230000003993 interaction Effects 0.000 description 42
- 230000008569 process Effects 0.000 description 40
- 238000010801 machine learning Methods 0.000 description 38
- 238000004422 calculation algorithm Methods 0.000 description 37
- 238000013468 resource allocation Methods 0.000 description 36
- 238000013459 approach Methods 0.000 description 34
- 239000000203 mixture Substances 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 30
- 238000002156 mixing Methods 0.000 description 30
- 238000003860 storage Methods 0.000 description 26
- 230000004044 response Effects 0.000 description 23
- 230000008901 benefit Effects 0.000 description 20
- 239000000523 sample Substances 0.000 description 18
- 230000008859 change Effects 0.000 description 16
- 230000002123 temporal effect Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 13
- 239000000470 constituent Substances 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 12
- 238000012805 post-processing Methods 0.000 description 12
- 238000007637 random forest analysis Methods 0.000 description 11
- 238000000714 time series forecasting Methods 0.000 description 11
- 239000000654 additive Substances 0.000 description 10
- 230000000996 additive effect Effects 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 10
- 230000035945 sensitivity Effects 0.000 description 10
- 230000004931 aggregating effect Effects 0.000 description 9
- 230000002596 correlated effect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000001965 increasing effect Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 230000009467 reduction Effects 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 238000012913 prioritisation Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000011068 loading method Methods 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 230000036961 partial effect Effects 0.000 description 6
- 230000001932 seasonal effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000009897 systematic effect Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 238000010206 sensitivity analysis Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000003339 best practice Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- JLYFCTQDENRSOL-VIFPVBQESA-N dimethenamid-P Chemical compound COC[C@H](C)N(C(=O)CCl)C=1C(C)=CSC=1C JLYFCTQDENRSOL-VIFPVBQESA-N 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 240000005020 Acaciella glauca Species 0.000 description 1
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- XOJVVFBFDXDTEG-UHFFFAOYSA-N Norphytane Natural products CC(C)CCCC(C)CCCC(C)CCCC(C)C XOJVVFBFDXDTEG-UHFFFAOYSA-N 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013474 audit trail Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000011511 automated evaluation Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012517 data analytics Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 239000010437 gem Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010237 hybrid technique Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000013105 post hoc analysis Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 235000003499 redwood Nutrition 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5044—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
- G06Q10/06375—Prediction of business process outcome or impact based on a proposed change
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は、2016年10月21日に出願され、“Systems and Techniques for Determining the Predictive Value of a Feature”と題された米国特許出願第15/331,797号(代理人管理番号DRB-001C1CP)、2016年10月21日に出願され、“Systems and Techniques for Predictive Data Analytics”と題された米国仮特許出願第62/411,526号(代理人管理番号DRB-002PR)に関連しており、これらの各々は、特許法によって許容される最大限の範囲で本明細書中に参照により援用される。
本発明は、例えば、以下を提供する。
(項目1)
予測モデル化方法であって、前記予測モデル化方法は、
予測モデル化プロシージャを実施することを含み、前記予測モデル化プロシージャを実施することは、
(a)1つまたは複数のデータセットを含む時系列データを取得することであって、各データセットは、複数の観察を含み、各観察は、(1)前記観察と関連付けられる時間のインジケーションと、(2)1つまたは複数の変数の個別の値とを含む、ことと、
(b)前記時系列データの時間間隔を判定することと、
(c)前記変数のうちの1つまたは複数のものを標的として識別し、ゼロまたはそれよりも多い他の変数を特徴として識別することと、
(d)前記時系列データによって表される予測問題と関連付けられる予想範囲およびスキップ範囲を判定することであって、前記予想範囲は、前記標的の値が予測される周期の持続時間を示し、前記スキップ範囲は、前記予想範囲内の最古の予測と関連付けられる時間と、前記予想範囲内の予測が基づく最新の観察と関連付けられる時間との間の時間的遅延を示す、ことと、
(e)前記時系列データから訓練データを生成することであって、前記訓練データは、前記データセットのうちの少なくとも1つの観察の第1のサブセットを含み、前記観察の第1のサブセットは、前記観察の訓練入力および訓練出力集合を含み、前記訓練入力および訓練出力集合内の前記観察と関連付けられる時間は、それぞれ、訓練入力時間範囲および訓練出力時間範囲に対応し、前記スキップ範囲は、前記訓練出力時間範囲の開始から前記訓練入力時間範囲の終了を分離し、前記訓練出力時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(f)前記時系列データから試験データを生成することであって、前記試験データは、前記データセットのうちの少なくとも1つの観察の第2のサブセットを含み、前記観察の第2のサブセットは、前記観察の試験入力および試験検証集合を含み、前記試験入力および試験検証集合内の前記観察と関連付けられる時間は、それぞれ、試験入力時間範囲および試験検証時間範囲に対応し、前記スキップ範囲は、前記試験検証時間範囲の開始から前記試験入力時間範囲の終了を分離し、前記試験検証時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(g)予測モデルを前記訓練データに適合させることと、
(h)前記試験データに前記適合モデルを試験することと
を含む、予測モデル化方法。
(項目2)
前記時系列データの時間間隔は、少なくとも部分的に、前記データセットのうちの少なくとも1つに含まれる前記観察の少なくともサブセットと関連付けられる時間に基づいて判定される、項目1に記載の方法。
(項目3)
前記時系列データの時間間隔を判定することは、
前記データセット毎に、前記データセットの個別の時間間隔を判定することと、
前記データセットの時間間隔が一様であることを判定することと、
前記時系列データの時間間隔を前記データセットの時間間隔に設定することと
を含む、項目2に記載の方法。
(項目4)
前記データセットの時間間隔を判定することは、
前記データセットに含まれる一対またはそれよりも多い連続観察に関して、前記連続観察の間の個別の時間周期を判定することと、
前記連続対の観察の間の時間周期が一様であることを判定することと、
前記データセットの時間間隔を前記連続対の観察の間の時間周期に設定することと
を含む、項目3に記載の方法。
(項目5)
前記時系列データの時間間隔を判定することは、
前記データセット毎に、前記データセットの個別の時間間隔を判定することと、
前記データセットのうちの少なくとも2つの時間間隔が異なることを判定することと
を含み、
前記時系列データの時間間隔は、少なくとも部分的に、(1)前記データセットのそれぞれに含まれる前記観察の個別の割合、および/または(2)前記データセットのそれぞれの個別の時間間隔に基づいて、判定される、項目2に記載の方法。
(項目6)
前記データセットの個別の時間間隔を判定することは、
前記データセットに含まれる各対の連続観察の間の個別の時間周期を判定すること
を含み、
複数対の連続観察の間の前記時間周期が複数の非一様な持続時間を呈する場合、前記データセットの時間間隔は、少なくとも部分的に、(1)前記非一様な持続時間のそれぞれを呈する前記複数対の連続観察の個別の割合、および/または(2)前記時間周期の持続時間に基づいて、判定され、
前記複数対の連続観察の間の前記時間周期が一様な持続時間である場合、前記データセットの時間間隔は、前記時間周期のそれぞれの持続時間である、項目5に記載の方法。
(項目7)
前記時系列データの時間間隔は、前記データセットのそれぞれの個別の時間間隔の整数の倍数である最短の時間間隔である、項目5に記載の方法。
(項目8)
データセット毎に、前記データセットの時間間隔が前記時系列データの時間間隔よりも短い場合、前記データセットの観察をダウンサンプリングし、それによって、前記データセットの時間間隔を前記時系列データの時間間隔に変換することをさらに含む、項目7に記載の方法。
(項目9)
前記データセットの観察をダウンサンプリングすることは、前記データセットに対応する時間周期内の前記時系列データの時間間隔のインスタンス毎に、
前記時系列データの時間間隔の個別のインスタンスに対応する時間と関連付けられる前記データセット内の全ての観察を識別することと、
前記識別された観察を集約し、集約観察を生成することと、
前記データセット内の前記識別された観察を前記集約観察と置換することと
を含む、項目8に記載の方法。
(項目10)
前記時系列データの時間間隔のインスタンスに対応する前記識別された観察の数は、前記時系列データの時間間隔と前記データセットの時間間隔との間の比率に等しい、項目9に記載の方法。
(項目11)
前記識別された観察を集約することは、(1)前記識別された観察のうちの最古のものに含まれる対応する変数値、(2)前記識別された観察のうちの最新のものに含まれる対応する変数値、(3)前記識別された観察に含まれる対応する変数値の最大値、(4)前記識別された観察に含まれる対応する変数値の最小値、(5)前記識別された観察に含まれる対応する変数値の平均、または(6)前記識別された観察に含まれる対応する変数値の関数の値に、前記集約観察の中の各変数の値を設定することを含む、項目9に記載の方法。
(項目12)
前記時系列データの時間間隔は、前記データセットの時間間隔から成る群から選択される、項目5に記載の方法。
(項目13)
前記データセットは、第1の時間間隔を呈する第1のデータセットと、前記第1の時間間隔を上回る第2の時間間隔を呈する第2のデータセットとを含み、前記第2の時間間隔は、前記時系列データの時間間隔として選択され、前記方法はさらに、
前記第1のデータセットの観察をダウンサンプリングし、それによって、前記第1のデータセットの時間間隔を前記時系列データの時間間隔に変換すること
を含む、項目12に記載の方法。
(項目14)
前記時系列データの時間間隔は、前記データセットの時間間隔のそれぞれと異なる、項目5に記載の方法。
(項目15)
少なくとも前記時系列データの観察の群は、第1の変数の個別の値を含み、前記方法はさらに、前記予測モデルを前記訓練データに適合させ、前記試験データに前記適合モデルを試験することに先立って、
前記第1の変数の値が時間値を備えることを判定することと、
前記群の中の観察毎に、第2の変数の個別の値を生成することであって、前記第2の変数の値は、前記第1の変数の時間値と参照時間値との間のオフセットを備える、ことと、
前記第2の変数の値を前記群の中の個別の観察に追加することと
を含む、項目1に記載の方法。
(項目16)
前記群の中の前記観察から前記第1の変数の値を除去することをさらに含む、項目15に記載の方法。
(項目17)
前記参照時間は、イベントの日付を備える、項目15に記載の方法。
(項目18)
前記イベントは、出生、結婚、学校からの卒業、雇用主に対する雇用の開始、または特定の地位での仕事の開始を備える、項目17に記載の方法。
(項目19)
前記変数は、第1の変数と、第2の変数とを含み、前記方法はさらに、
前記第1および第2の変数の値の変化が、前記第1の変数の値の変化と前記第2の変数の値の相関変化との間の時間的遅延を伴って、相関することを判定することと、
グラフィカルユーザインターフェースを介して、前記第1の変数の値の変化と前記第2の変数の値の相関変化との間の前記時間的遅延の持続時間を示す、グラフィカルコンテンツを表示することと
を含む、項目1に記載の方法。
(項目20)
前記予想範囲は、少なくとも部分的に、(1)前記時系列データの時間間隔、(2)前記時系列データ内の観察の数、(3)前記時系列データに対応する時間周期、および/または(4)マイクロ秒、ミリ秒、秒、分、時間、日、週、月、四半期、季節、年、10年、世紀、および1,000年から成る群から選択される、自然時間周期に基づいて、判定される、項目1に記載の方法。
(項目21)
前記予想範囲は、前記時系列データの時間間隔の整数の倍数である、項目20に記載の方法。
(項目22)
前記予想範囲内の連続予測と関連付けられる時間の間の時間周期は、前記時系列データの時間間隔に等しい、項目21に記載の方法。
(項目23)
前記スキップ範囲は、少なくとも部分的に、前記時系列データの収集における待ち時間、前記時系列データの通信における待ち時間、前記時系列データを分析する際の待ち時間、前記時系列データの分析の通信における待ち時間、および/または前記時系列データの分析に基づいてアクションを実装することの待ち時間に基づいて判定される、項目1に記載の方法。
(項目24)
少なくとも部分的に、前記時系列データに含まれる観察の総数、経時的な前記変数のうちの少なくとも1つの値の変動の量、前記変数のうちの少なくとも1つの値の季節変動の量、複数の時間周期にわたる前記変数のうちの少なくとも1つの値の変動の一貫性、および/または前記予想範囲の持続時間に基づいて、前記訓練入力時間範囲の持続時間を判定することをさらに含む、項目1に記載の方法。
(項目25)
前記予測モデルを前記訓練データに適合させることは、前記予測モデルを、前記訓練入力時間範囲の一部に対応する前記訓練データのサブセットに適合させることを含み、前記訓練入力時間範囲の一部は、前記訓練入力時間範囲の開始時間に続く時間に開始し、前記訓練入力時間範囲の終了時間に終了する、項目24に記載の方法。
(項目26)
前記訓練入力時間範囲の一部の持続時間は、前記予想範囲の持続時間の整数の倍数である、項目25に記載の方法。
(項目27)
前記予測モデルを前記訓練データに適合させることに先立って、前記訓練データをダウンサンプリングすることをさらに含む、項目1に記載の方法。
(項目28)
前記訓練データをダウンサンプリングすることは、前記訓練データから、前記データセットのうちの少なくとも1つから取得される全ての観察を除去することを含む、項目27に記載の方法。
(項目29)
前記訓練データをダウンサンプリングすることは、
前記訓練データのダウンサンプリングされた時間間隔を前記時系列データの時間間隔の整数の倍数に設定することと、
前記訓練データのダウンサンプリングされた時間間隔のインスタンス毎に、
前記訓練データのダウンサンプリングされた時間間隔の個別のインスタンスに対応する時間と関連付けられる、前記訓練データ内の全ての観察を識別することと、
前記識別された観察を集約し、集約観察を生成することと、
前記訓練データ内の前記識別された観察を前記集約観察と置換することと
を含む、項目27に記載の方法。
(項目30)
前記試験データに前記適合モデルを試験することに先立って、前記試験データをダウンサンプリングすることをさらに含む、項目1に記載の方法。
(項目31)
前記予測モデルの交差検証を実施することをさらに含む、項目1に記載の方法。
(項目32)
前記訓練データは、第1の訓練データであり、前記試験データは、第1の試験データであり、前記適合モデルは、第1の適合モデルであり、前記予測モデルの交差検証を実施することは、
(i)前記時系列データから第2の訓練データおよび第2の試験データを生成することであって、前記第2の訓練データは、前記データセットのうちの少なくとも1つの観察の第3のサブセットを含み、前記第2の試験データは、前記データセットのうちの少なくとも1つの観察の第4のサブセットを含む、ことと、
(j)前記予測モデルを前記第2の訓練データに適合させ、第2の適合モデルを取得することと、
(k)前記第2の試験データに前記第2の適合モデルを試験することと
を含む、項目31に記載の方法。
(項目33)
前記観察の第1のサブセットは、訓練時間の第1の範囲を網羅するスライド訓練ウィンドウに対応し、前記第1のサブセットに含まれる各観察は、前記訓練時間の第1の範囲内の時間と関連付けられ、前記観察の第3のサブセットは、訓練時間の第2の範囲を網羅する前記スライド訓練ウィンドウに対応し、前記第3のサブセットに含まれる各観察は、前記訓練時間の第2の範囲内の時間と関連付けられ、前記訓練時間の第1の範囲内の最早時間は、前記訓練時間の第2の範囲内の最早時間よりも早い、項目32に記載の方法。
(項目34)
前記観察の第2のサブセットは、試験時間の第1の範囲を網羅するスライド試験ウィンドウに対応し、前記第2のサブセットに含まれる各観察は、前記試験時間の第1の範囲内の時間と関連付けられ、前記観察の第4のサブセットは、試験時間の第2の範囲を網羅する前記スライド試験ウィンドウに対応し、前記第4のサブセットに含まれる各観察は、前記試験時間の第2の範囲内の時間と関連付けられ、前記試験時間の第1の範囲内の最早時間は、前記試験時間の第2の範囲内の最早時間よりも早い、項目33に記載の方法。
(項目35)
前記第1の試験時間範囲は、前記第2の訓練時間範囲に部分的に重複する、項目34に記載の方法。
(項目36)
前記第2の試験時間範囲は、前記第1の訓練時間範囲のいかなる部分にも重複せず、前記第2の訓練時間範囲のいかなる部分にも重複しない、項目35に記載の方法。
(項目37)
少なくとも第1のパーティションと第2のパーティションとを含む複数のパーティションに前記時系列データを分割することをさらに含む、項目32に記載の方法。
(項目38)
複数のパーティションに前記時系列データを分割することは、前記データセットのそれぞれを対応するパーティションに割り当てることを含む、項目37に記載の方法。
(項目39)
複数のパーティションに前記時系列データを分割することは、前記時系列データを時間的に分割することを含む、項目37に記載の方法。
(項目40)
前記パーティションはそれぞれ、前記時系列データと関連付けられる時間周期の個別の部分に対応し、前記時系列データに含まれる各観察は、前記観察と関連付けられる時間に合致する前記時間周期の一部に対応する、前記パーティションに割り当てられる、項目39に記載の方法。
(項目41)
前記第1の訓練データは、前記時系列データの第1のパーティションに含まれる前記観察のサブセットを備え、
前記第1の試験データは、前記第1のパーティションを除く前記時系列データの全てのパーティションに含まれる前記観察の個別のサブセットを備え、
前記第2の訓練データは、前記時系列データの第2のパーティションに含まれる前記観察のサブセットを備え、
前記第2の試験データは、前記第2のパーティションを除く前記時系列データの全てのパーティションに含まれる前記観察の個別のサブセットを備える、
項目37に記載の方法。
(項目42)
前記時系列データの第1のパーティションは、前記第1および第2の訓練データと、前記第1および第2の試験データとを含み、前記時系列データの第2のパーティションは、ホールドアウトデータを含み、前記方法はさらに、
前記ホールドアウトデータに前記第1および第2の適合モデルを試験すること
を含む、項目32に記載の方法。
(項目43)
いかなる予測モデルも前記ホールドアウトデータに適合されない、項目42に記載の方法。
(項目44)
前記予測モデルのネスト化交差検証を実施することをさらに含む、項目1に記載の方法。
(項目45)
前記予測モデルのネスト化交差検証を実施することは、
少なくとも前記時系列データの第1のパーティションと前記時系列データの第2のパーティションとを含む第1の複数のパーティションに前記時系列データを分割することと、
少なくとも前記時系列データの第1のパーティションの第1のパーティションと前記時系列データの第1のパーティションの第2のパーティションとを含む前記時系列データの第1のパーティションの複数のパーティションに前記時系列データの第1のパーティションを分割することと
を含み、
前記訓練データは、前記時系列データの第1のパーティションの第1のパーティションを備え、前記試験データは、少なくとも、前記時系列データの第1のパーティションの第1のパーティション以外の前記時系列データの第1のパーティションの複数のパーティションを備える、
項目44に記載の方法。
(項目46)
前記訓練データは、第1の訓練データであり、前記試験データは、第1の試験データであり、前記適合モデルは、第1の適合モデルであり、前記予測モデルのネスト化交差検証を実施することはさらに、
(i)前記時系列データの第1のパーティションから、第2の訓練データおよび第2の試験データを生成することであって、前記第2の訓練データは、前記時系列データの第1のパーティションの第2のパーティションを備え、前記第2の試験データは、少なくとも、前記時系列データの第1のパーティションの第2のパーティション以外の前記データセットの第1のパーティションの複数のパーティションを備える、ことと、
(j)前記予測モデルを前記第2の訓練データに適合させ、第2の適合モデルを取得することと、
(k)前記第2の試験データに前記第2の適合モデルを試験することと
を含む、項目45に記載の方法。
(項目47)
前記ネスト化交差検証を実施することはさらに、
前記時系列データの第2のパーティションに前記第1の適合モデルおよび前記第2の適合モデルを試験することと、
前記時系列データの第2のパーティションに前記第1および第2の適合モデルを試験することの結果に基づいて、前記第1の適合モデルを前記第2の適合モデルと比較することと
を含む、項目46に記載の方法。
(項目48)
前記適合モデルに関して、前記時系列データの前記特徴のうちの1つまたは複数のもののモデル特有の予測値を判定することをさらに含む、項目1に記載の方法。
(項目49)
少なくとも部分的に前記特徴のモデル特有の予測値に基づいて、前記時系列データから特徴を取り除くこと、前記時系列データ内の2つまたはそれよりも多い特徴から導出された特徴を作成し、前記導出された特徴を前記時系列データに追加すること、前記予測モデルを別の予測モデルと混合すること、および/または前記予測問題のための予測モデル化プロシージャの好適性を評価するプロセス中にリソースを割り付けることから成る群から選択される、少なくとも1つのアクションを実施することをさらに含む、項目48に記載の方法。
(項目50)
少なくとも部分的に、前記予測問題の特性および/または前記個別の予測モデル化プロシージャの属性に基づいて、前記予測問題のための複数の予測モデル化プロシージャの好適性を判定することと、
前記予測問題のための選択されたモデル化プロシージャの判定された好適性に基づいて、前記複数の予測モデル化プロシージャから1つまたは複数の予測モデル化プロシージャを選択することと、
前記1つまたは複数の予測モデル化プロシージャを実施することと
をさらに含む、項目1に記載の方法。
(項目51)
前記1つまたは複数の予測モデル化プロシージャを実施することは、
命令を複数の処理ノードに伝送することであって、前記命令は、前記選択されたモデル化プロシージャの実行のために前記処理ノードのリソースを割り付けるリソース割付スケジュールを備え、前記リソース割付スケジュールは、少なくとも部分的に、前記予測問題のための前記選択されたモデル化プロシージャの好適性に基づく、ことと、
前記リソース割付スケジュールに従った前記複数の処理ノードによる前記選択されたモデル化プロシージャの実行の結果を受信することであって、前記結果は、前記選択されたモデル化プロシージャによって生成される予測モデル、および/または前記予測問題と関連付けられる時系列データのための生成されたモデルのスコアを含む、ことと、
前記生成されたモデルから、少なくとも部分的に前記選択された予測モデルのスコアに基づいて、前記予測問題のための予測モデルを選択することと
を含む、項目50に記載の方法。
(項目52)
前記適合モデルを別の適合モデルと混合することによって、混合予測モデルを生成することをさらに含む、項目1に記載の方法。
(項目53)
前記方法はさらに、前記適合モデルを展開することを含む、項目1に記載の方法。
(項目54)
前記時系列データは、第1の時系列データであり、前記適合モデルを展開することは、前記予測問題の1つまたは複数のインスタンスを表す第2の時系列データに前記適合モデルを適用することによって、1つまたは複数の予測を生成することを含み、前記第1の時系列データは、前記第2の時系列データを含まない、項目53に記載の方法。
(項目55)
前記時系列データは、第1の時系列データであり、前記適合モデルを展開することは、少なくとも部分的に第2の時系列データに基づいて、前記適合モデルをリフレッシュすることを含む、項目53に記載の方法。
(項目56)
前記適合モデルは、第1の適合モデルであり、少なくとも部分的に前記第2の時系列データに基づいて、前記適合モデルをリフレッシュすることは、
前記第2の時系列データに前記予測モデル化プロシージャを実施し、第2の適合モデルを生成することと、
前記第1の適合モデルおよび前記第2の適合モデルを混合し、リフレッシュされた予測モデルを生成することと
を含む、項目55に記載の方法。
(項目57)
少なくとも部分的に前記第2の時系列データに基づいて、前記適合モデルをリフレッシュすることは、前記第1の時系列データの少なくとも一部と、前記第2の時系列データの少なくとも一部とを備える第3の時系列データに前記予測モデル化プロシージャを実施し、リフレッシュされた予測モデルを生成することを含む、項目55に記載の方法。
(項目58)
前記適合モデルは、1つまたは複数のサーバに展開され、他の適合モデルもまた、前記1つまたは複数のサーバに展開され、前記適合モデルおよび前記他の適合モデルへの予測要求は、少なくとも部分的に、(1)予測を生成するために前記適合モデルのそれぞれによって使用される時間量の推定値、および/または(2)前記適合モデル毎の予測要求が受信される頻度の推定値に基づいて、前記サーバの間に割り付けられる、項目53に記載の方法。
(項目59)
各予測要求は、個別のスレッドに割り当てられ、各予測要求は、関連付けられる待ち時間感度値を有し、特定のサーバ上で実行するスレッドの数は、少なくとも部分的に、前記特定のサーバ上で実行するスレッドの待ち時間感度値に基づいて、判定される、項目58に記載の方法。
(項目60)
前記時系列データに含まれる前記特徴のうちの2つまたはそれよりも多いものの相互作用強度を示す、測定基準の値を判定することと、
前記測定基準の値が閾値を超える場合、前記2つまたはそれよりも多い特徴の値に基づいて、新しい特徴の時系列値を生成し、前記新しい特徴を前記時系列データに追加することと
をさらに含む、項目1に記載の方法。
(項目61)
前記時系列データの時間分解能を判定することをさらに含む、項目1に記載の方法。
(項目62)
前記標的は、ユーザ入力に基づいて識別される、項目1に記載の方法。
(項目63)
予測モデル化装置であって、
予測モデル化プロシージャを符号化する機械実行可能モジュールを記憶するように構成されるメモリであって、前記予測モデル化プロシージャは、少なくとも1つの前処理タスクと、少なくとも1つのモデル適合タスクとを含む、複数のタスクを含む、メモリと、
前記機械実行可能モジュールを実行するように構成される少なくとも1つのプロセッサであって、前記機械実行可能モジュールを実行することは、前記装置に、前記予測モデル化プロシージャを実施させ、前記予測モデル化プロシージャを実施させることは、
前記前処理タスクを実施することであって、前記前処理タスクを実施することは、
(a)1つまたは複数のデータセットを含む時系列データを取得することであって、各データセットは、複数の観察を含み、各観察は、(1)前記観察と関連付けられる時間のインジケーションと、(2)1つまたは複数の変数の個別の値とを含む、ことと、
(b)前記時系列データの時間間隔を判定することと、
(c)前記変数のうちの1つまたは複数のものを標的として識別し、ゼロまたはそれよりも多い他の変数を特徴として識別することと、
(d)前記時系列データによって表される予測問題と関連付けられる予想範囲およびスキップ範囲を判定することであって、前記予想範囲は、前記標的の値が予測される周期の持続時間を示し、前記スキップ範囲は、前記予想範囲内の最古の予測と関連付けられる時間と、前記予想範囲内の予測が基づく最新の観察と関連付けられる時間との間の時間的遅延を示す、ことと
を含む、ことと、
前記モデル適合タスクを実施することであって、前記モデル適合タスクを実施することは、
(e)前記時系列データから訓練データを生成することであって、前記訓練データは、前記データセットのうちの少なくとも1つの観察の第1のサブセットを含み、前記観察の第1のサブセットは、前記観察の訓練入力および訓練出力集合を含み、前記訓練入力および訓練出力集合内の前記観察と関連付けられる時間は、それぞれ、訓練入力時間範囲および訓練出力時間範囲に対応し、前記スキップ範囲は、前記訓練出力時間範囲の開始から前記訓練入力時間範囲の終了を分離し、前記訓練出力時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(f)前記時系列データから試験データを生成することであって、前記試験データは、前記データセットのうちの少なくとも1つの観察の第2のサブセットを含み、前記観察の第2のサブセットは、前記観察の試験入力および試験検証集合を含み、前記試験入力および試験検証集合内の前記観察と関連付けられる時間は、それぞれ、試験入力時間範囲および試験検証時間範囲に対応し、前記スキップ範囲は、前記試験検証時間範囲の開始から前記試験入力時間範囲の終了を分離し、前記試験検証時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(g)予測モデルを前記訓練データに適合させることと、
(h)前記試験データに前記適合モデルを試験することと
を含む、ことと
を含む、プロセッサと
を備える、装置。
(項目64)
前記機械実行可能モジュールは、前記タスク間の依存性を表す有向グラフを含む、項目63に記載の方法。
(項目65)
コンピュータ実装予測モデル化方法であって、前記コンピュータ実装予測モデル化方法は、
(a)複数の予測モデル化プロシージャを実施することであって、前記予測モデル化プロシージャはそれぞれ、予測モデルと関連付けられ、各モデル化プロシージャを実施することは、前記関連付けられる予測モデルを、初期予測問題を表す初期データセットに適合させることを含む、ことと、
(b)前記適合予測モデルのそれぞれの第1の個別の精度スコアを判定することであって、各適合モデルの前記第1の精度スコアは、前記適合モデルが前記初期予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(c)前記初期データセットに含まれる個別の観察を横断して特徴の値をシャッフルし、それによって、修正された予測問題を表す修正されたデータセットを生成することと、
(d)前記適合予測モデルのそれぞれの第2の個別の精度スコアを判定することであって、各適合モデルの前記第2の精度スコアは、前記適合モデルが前記修正された予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(e)前記適合モデル毎に前記特徴の個別のモデル特有の予測値を判定することであって、前記適合モデル毎の前記特徴のモデル特有の予測値は、前記適合モデルの第1および第2の精度スコアに基づく、ことと
を含む、コンピュータ実装予測モデル化方法。
(項目66)
前記複数の予測モデル化プロシージャを実施することに先立って、前記初期データセットの特性、前記初期予測問題の特性、および/または前記特徴の特性に基づいて、前記予測問題のための前記複数の予測モデル化プロシージャを選択することをさらに含む、項目65に記載の方法。
(項目67)
前記複数の予測モデル化プロシージャは、ランダムフォレストモデル化プロシージャ、一般化付加モデル化プロシージャ、およびサポートベクターマシンモデル化プロシージャから成る群から選択される、2つまたはそれよりも多いモデル化プロシージャを備える、項目65に記載の方法。
(項目68)
前記複数の予測モデル化プロシージャは、第1のモデル化プロシージャ族から選択される第1のモデル化プロシージャと、第2のモデル化プロシージャ族から選択される第2のモデル化プロシージャとを備える、項目65に記載の方法。
(項目69)
前記予測モデルの第2の精度スコアを判定することに先立って、前記修正された予測問題を表す前記修正されたデータセットに前記予測モデルを再適合させることをさらに含む、項目65に記載の方法。
(項目70)
特定の適合モデルのための前記特徴の判定されたモデル特有の予測値は、前記特定の適合モデルの第1の精度スコアと第2の精度スコアとの間の差異が増加すると増加する、項目65に記載の方法。
(項目71)
特定の適合モデルのための前記特徴の判定されたモデル特有の予測値は、前記特定の適合モデルの第1の精度スコアに対する前記特定の適合モデルの第1の精度スコアと第2の精度スコアとの間の割合差を備える、項目65に記載の方法。
(項目72)
前記特徴のモデル特有の予測値に基づいて、前記特徴のモデル非依存性予測値を判定することをさらに含む、項目65に記載の方法。
(項目73)
前記特徴のモデル非依存性予測値を判定することは、前記特徴のモデル特有の予測値の中心および/または拡散の統計的測定値を計算することを含む、項目72に記載の方法。
(項目74)
前記特徴のモデル非依存性予測値を判定することは、前記モデル特有の予測値の中心の統計的測定値を計算することを含み、前記中心の統計的測定値は、前記モデル特有の予測値の平均値、中央値、および最頻値から成る群から選択される、項目72に記載の方法。
(項目75)
前記特徴のモデル非依存性予測値を判定することは、前記モデル特有の予測値の拡散の統計的測定値を計算することを含み、前記拡散の統計的測定値は、前記モデル特有の予測値の範囲、分散、および標準偏差から成る群から選択される、項目72に記載の方法。
(項目76)
前記特徴のモデル非依存性予測値を判定することは、前記特徴のモデル特有の予測値の組み合せを計算することを含む、項目72に記載の方法。
(項目77)
前記モデル特有の予測値の組み合せを計算することは、前記モデル特有の予測値の加重組み合せを計算することを含む、項目76に記載の方法。
(項目78)
前記モデル特有の予測値の加重組み合せを計算することは、個別の加重を前記モデル特有の予測値に割り当てることを含み、特定の適合予測モデルに対応する特定のモデル特有の予測値に割り当てられる前記加重は、前記適合予測モデルの第1の精度スコアが増加すると増加する、項目77に記載の方法。
(項目79)
前記特徴は、第1の特徴であり、前記方法はさらに、
(c1)前記初期データセットに含まれる個別の観察を横断して第2の特徴の値をシャッフルし、それによって、第2の修正された予測問題を表す、第2の修正されたデータセットを生成することと、
(d1)前記適合予測モデルのそれぞれの第3の個別の精度スコアを判定することであって、各適合モデルの前記第3の精度スコアは、前記適合モデルが前記第2の修正された予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(e1)前記適合モデル毎に前記第2の特徴の個別のモデル特有の予測値を判定することであって、前記適合モデル毎の前記第2の特徴のモデル特有の予測値は、前記適合モデルの第1および第3の精度スコアに基づく、ことと
を含む、項目65に記載の方法。
(項目80)
前記特徴は、第1の特徴であり、前記初期データセットは、前記第1の特徴と、複数の第2の特徴とを含み、前記方法はさらに、前記第2の特徴毎にステップ(c)、(d)、および(e)を実施することによって、前記初期データセットの第2の特徴のモデル特有の予測値を判定することを含む、項目65に記載の方法。
(項目81)
グラフィカルユーザインターフェースを介して、前記初期データセットの第1および第2の特徴、ならびに前記第1および第2の特徴のモデル特有の予測値を識別する、グラフィカルコンテンツを表示することをさらに含む、項目80に記載の方法。
(項目82)
前記モデル化プロシージャは、特定の予測モデルと関連付けられる特定のモデル化プロシージャを含む第1のモデル化プロシージャであり、前記第1および第2の特徴のモデル特有の予測値は、前記特定の予測モデルに特有である前記第1および第2の特徴の特定のモデル特有の予測値を含み、前記方法はさらに、(a1)前記特定の予測モデルと関連付けられる前記特定のモデル化プロシージャを含む複数の第2の予測モデル化プロシージャを実施することを含む、項目80に記載の方法。
(項目83)
前記特定の予測モデル化プロシージャを実施することは、前記第1の特徴および前記第2の特徴の特定のモデル特有の予測値に基づいて、前記初期データセットに特徴工学を実施することを含む、項目82に記載の方法。
(項目84)
特徴工学を実施することは、低いモデル特有の予測値を有する前記特定の特徴に基づいて、前記初期データセットから特定の特徴を除去することを含む、項目83に記載の方法。
(項目85)
閾値よりも低い前記特定の特徴のモデル特有の予測値に基づいて、および/または前記初期データセットの前記第1ならびに第2の特徴の特定のモデル特有の予測値の規定パーセンタイル内である前記特定の特徴のモデル特有の予測値に基づいて、前記特定の特徴のモデル特有の予測値が低いことを判定することをさらに含む、項目84に記載の方法。
(項目86)
特徴工学を実施することは、
高いモデル特有の予測値を有する前記初期データセットの2つまたはそれよりも多い特定の特徴に基づいて、導出された特徴を生成することと、
前記導出された特徴を前記初期データセットに追加し、それによって、第2の初期データセットを生成することと
を含む、項目83に記載の方法。
(項目87)
閾値よりも高い前記特定の特徴のモデル特有の予測値に基づいて、および/または前記初期データセットの前記第1ならびに第2の特徴の特定のモデル特有の予測値の規定パーセンタイル内である前記特定の特徴のモデル特有の予測値に基づいて、前記特定の特徴のモデル特有の予測値が高いことを判定することをさらに含む、項目86に記載の方法。
(項目88)
前記特定の予測モデル化プロシージャを実施することはさらに、前記特定の予測モデルを前記第2の初期データセットに適合させることを含み、前記方法はさらに、
前記適合された特定の予測モデルの第1の精度スコアを判定することであって、前記適合された特定のモデルの第1の精度スコアは、前記適合された特定のモデルが前記初期予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
前記第2の初期データセットに含まれる個別の観察を横断して前記第1の特徴の値をシャッフルし、それによって、第2の修正された予測問題を表す、第2の修正されたデータセットを生成することと、
前記適合された特定の予測モデルの第2の精度スコアを判定することであって、前記適合された特定のモデルの第2の精度スコアは、前記適合モデルが前記第2の修正された予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
前記適合された特定のモデルのための前記第1の特徴の第2のモデル特有の予測値を判定することであって、前記適合された特定のモデルのための前記第1の特徴の第2のモデル特有の予測値は、前記適合された特定のモデルの第1および第2の精度スコアに基づく、ことと
を含む、項目86に記載の方法。
(項目89)
前記複数の第2のモデル化プロシージャを実施することに先立って、
前記初期予測問題のための前記選択されたモデル化プロシージャの好適性に基づいて、前記第2のモデル化プロシージャを選択すること
をさらに含み、
前記初期予測問題のための前記特定の予測モデル化プロシージャの好適性は、少なくとも部分的に、前記特定の予測モデル化プロシージャのための高いモデル特有の予測値を有する前記初期データセットの1つまたは複数の特定の特徴の特性に基づいて、判定される、
項目82に記載の方法。
(項目90)
命令を複数の処理ノードに伝送することであって、前記命令は、前記第2のモデル化プロシージャの実行のために前記処理ノードのリソースを割り付けるリソース割付スケジュールを備え、前記リソース割付スケジュールは、少なくとも部分的に、前記初期予測問題のための前記第2のモデル化プロシージャの好適性に基づく、ことと、
前記リソース割付スケジュールに従った前記複数の処理ノードによる前記第2のモデル化プロシージャの実行の結果を受信することであって、前記結果は、前記第2のモデル化プロシージャによって生成される予測モデル、および/または前記初期予測問題と関連付けられるデータのための生成されたモデルのスコアを含む、ことと、
前記生成されたモデルから、少なくとも部分的に前記選択された予測モデルのスコアに基づいて、前記初期予測問題のための予測モデルを選択することと
をさらに含む、項目89に記載の方法。
(項目91)
前記生成された予測モデルのうちの2つまたはそれよりも多いものを組み合わせることによって、混合予測モデルを生成することと、
前記混合予測モデルを評価することと
をさらに含む、項目89に記載の方法。
(項目92)
前記修正された予測問題のための前記特徴の予測値は、閾値予測値未満である、項目65に記載の方法。
(項目93)
予測モデル化装置であって、
プロセッサ実行可能命令を記憶するように構成されるメモリと、
前記プロセッサ実行可能命令を実行するように構成されるプロセッサであって、前記プロセッサ実行可能命令を実行することは、前記装置に、
(a)複数の予測モデル化プロシージャを実施することであって、前記予測モデル化プロシージャはそれぞれ、予測モデルと関連付けられ、各モデル化プロシージャを実施することは、前記関連付けられる予測モデルを、初期予測問題を表す初期データセットに適合させることを含む、ことと、
(b)前記適合予測モデルのそれぞれの第1の個別の精度スコアを判定することであって、各適合モデルの前記第1の精度スコアは、前記適合モデルが前記初期予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(c)前記初期データセットに含まれる個別の観察を横断して特徴の値をシャッフルし、それによって、修正された予測問題を表す、修正されたデータセットを生成することと、
(d)前記適合予測モデルのそれぞれの第2の個別の精度スコアを判定することであって、各適合モデルの前記第2の精度スコアは、前記適合モデルが前記修正された予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(e)前記適合モデル毎に前記特徴の個別のモデル特有の予測値を判定することであって、前記適合モデル毎の前記特徴のモデル特有の予測値は、前記適合モデルの第1および第2の精度スコアに基づく、ことと
を含むステップを実施させる、プロセッサと
を備える、装置。
(項目94)
製造品であって、前記製造品は、その上に記憶されたコンピュータ可読命令を有し、前記コンピュータ可読命令は、プロセッサによって実行されると、前記プロセッサに、
(a)複数の予測モデル化プロシージャを実施することであって、前記予測モデル化プロシージャはそれぞれ、予測モデルと関連付けられ、各モデル化プロシージャを実施することは、初期予測問題を表す初期データセットに前記関連付けられる予測モデルを適合させることを含む、ことと、
(b)前記適合予測モデルのそれぞれの第1の個別の精度スコアを判定することであって、各適合モデルの前記第1の精度スコアは、前記適合モデルが前記初期予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(c)前記初期データセットに含まれる個別の観察を横断して特徴の値をシャッフルし、それによって、修正された予測問題を表す修正されたデータセットを生成することと、
(d)前記適合予測モデルのそれぞれの第2の個別の精度スコアを判定することであって、各適合モデルの前記第2の精度スコアは、前記適合モデルが前記修正された予測問題の1つまたは複数の成果を予測する精度を表す、ことと、
(e)前記適合モデル毎に前記特徴の個別のモデル特有の予測値を判定することであって、前記適合モデル毎の前記特徴のモデル特有の予測値は、前記適合モデルの第1および第2の精度スコアに基づく、ことと
を含む動作を実施させる、製造品。
(項目95)
予測モデル化方法であって、前記予測モデル化方法は、
適合一次予測モデルを取得することであって、前記一次予測モデルは、1つまたは複数の第1の入力変数の値に基づいて、予測問題の1つまたは複数の出力変数の値を予測するように構成される、ことと、
前記適合一次モデルに二次予測モデル化プロシージャを実施することであって、前記二次モデル化プロシージャは、二次予測モデルと関連付けられ、前記適合一次モデルに前記二次予測モデル化プロシージャを実施することは、
複数の二次観察を含む、二次入力データを生成することであって、各二次観察は、1つまたは複数の第2の入力変数の個別の観察値と、前記出力変数の予測値とを含み、前記二次入力データを生成することは、二次観察毎に、前記第2の入力変数の個別の観察値および前記第1の入力変数の対応する観察値を取得することと、前記第1の入力変数の対応する観察値に前記一次予測モデルを適用し、前記出力変数の個別の予測値を生成することとを含む、ことと、
前記二次入力データから二次訓練データおよび二次試験データを生成することと、
前記二次予測モデルを前記二次訓練データに適合させることによって、前記適合一次モデルの適合二次予測モデルを生成することと、
前記二次試験データに前記適合一次モデルの適合二次予測モデルを試験することと
を含む、ことと
を含む、予測モデル化方法。
(項目96)
前記適合一次モデルを取得することは、前記一次予測モデルと関連付けられる一次予測モデル化プロシージャを実施することを含み、前記一次予測モデル化プロシージャを実施することは、
複数の一次観察を含む一次入力データを取得することであって、各一次観察は、前記第1の入力変数の個別の観察値と、前記出力変数の対応する観察値とを含む、ことと、
前記一次入力データから、一次訓練データおよび一次試験データを生成することと、
前記一次予測モデルを前記一次訓練データに適合させることと、
前記試験データに前記適合一次予測モデルを試験することと
を含む、項目95に記載の方法。
(項目97)
前記適合一次モデルを取得することは、2つの適合予測モデルを混合することを含む、項目95に記載の方法。
(項目98)
前記適合一次モデルを取得することは、
少なくとも部分的に、前記予測問題の特性および/または前記個別の一次予測モデル化プロシージャの属性に基づいて、前記予測問題のための複数の一次予測モデル化プロシージャの好適性を判定することと、
前記予測問題のための選択されたモデル化プロシージャの判定された好適性に基づいて、前記複数の一次予測モデル化プロシージャから1つまたは複数の予測モデル化プロシージャを選択することと、
前記1つまたは複数の予測モデル化プロシージャを実施することと
を含む、項目95に記載の方法。
(項目99)
前記1つまたは複数の予測モデル化プロシージャを実施することは、
命令を複数の処理ノードに伝送することであって、前記命令は、前記選択されたモデル化プロシージャの実行のために前記処理ノードのリソースを割り付けるリソース割付スケジュールを備え、前記リソース割付スケジュールは、少なくとも部分的に、前記予測問題のための前記選択されたモデル化プロシージャの好適性に基づく、ことと、
前記リソース割付スケジュールに従った前記複数の処理ノードによる前記選択されたモデル化プロシージャの実行の結果を受信することであって、前記結果は、前記選択されたモデル化プロシージャによって生成される予測モデルを含む、ことと、
前記生成されたモデルから前記適合一次モデルを選択することと
を含む、項目98に記載の方法。
(項目100)
前記二次予測モデルは、RuleFitモデルおよび一般化付加モデルから成る群から選択される、項目95に記載の方法。
(項目101)
前記二次モデルの交差検証を実施することをさらに含み、前記二次入力データは、少なくとも1つのデータセットを備え、前記二次訓練データを生成することは、前記データセットの第1のサブセットを取得することを含み、前記二次試験データを生成することは、前記データセットの第2のサブセットを取得することを含む、項目95に記載の方法。
(項目102)
前記二次訓練データは、第1の二次訓練データであり、前記二次試験データは、第1の二次試験データであり、前記適合二次モデルは、第1の適合二次モデルであり、前記二次モデルの交差検証を実施することは、
(a)前記二次入力データから第2の二次訓練データおよび第2の二次試験データを生成することであって、前記第2の二次訓練データは、前記データセットの第3のサブセットを含み、前記第2の二次試験データは、前記データセットの第4のサブセットを含む、ことと、
(b)前記二次予測モデルを前記第2の二次訓練データに適合させ、第2の適合二次予測モデルを取得することと、
(c)前記第2の二次試験データに前記第2の適合二次予測モデルを試験することと
を含む、項目101に記載の方法。
(項目103)
少なくとも第1のパーティションと第2のパーティションとを含む複数のパーティションに前記データセットを分割することをさらに含む、項目102に記載の方法。
(項目104)
複数のパーティションに前記データセットを分割することは、前記データセット内の各観察を個別のパーティションに無作為に割り当てることを含む、項目103に記載の方法。
(項目105)
前記第1の二次訓練データは、前記データセットの第1のパーティションを備え、
前記第1の二次試験データは、前記第1のパーティションを除く前記データセットの全てのパーティションを備え、
前記第2の二次訓練データは、前記データセットの第2のパーティションを備え、
前記第2の二次試験データは、前記第2のパーティションを除く前記データセットの全てのパーティションを備える、
項目104に記載の方法。
(項目106)
前記第1の二次訓練データは、前記データセットの第1のパーティションのサブセットを備え、
前記第1の二次試験データは、前記第1のパーティションを除く前記データセットの全てのパーティションの個別のサブセットを備え、
前記第2の二次訓練データは、前記データセットの第2のパーティションのサブセットを備え、
前記第2の二次試験データは、前記第2のパーティションを除く前記データセットの全てのパーティションの個別のサブセットを備える、
項目104に記載の方法。
(項目107)
前記二次入力データは、第1のパーティションと、第2のパーティションとを備え、
前記データセットは、前記二次入力データの第1のパーティションを備え、
前記方法はさらに、前記二次入力データの第2のパーティションを備えるホールドアウトデータに、前記第1および第2の適合二次モデルを試験することを含む、
項目102に記載の方法。
(項目108)
いかなる予測モデルも前記ホールドアウトデータに適合されない、項目107に記載の方法。
(項目109)
前記二次予測モデル化プロシージャを実施することはさらに、前記二次予測モデルのネスト化交差検証を実施することを含む、項目95に記載の方法。
(項目110)
前記二次入力データは、少なくとも1つのデータセットを備え、
前記二次予測モデルのネスト化交差検証を実施することは、
少なくとも前記データセットの第1のパーティションと前記データセットの第2のパーティションとを含む前記データセットの第1の複数のパーティションに前記データセットを分割することと、
少なくとも前記データセットの第1のパーティションの第1のパーティションと前記データセットの第1のパーティションの第2のパーティションとを含む前記データセットの第1のパーティションの複数のパーティションに前記データセットの第1のパーティションを分割することと
を含み、
前記二次訓練データは、前記データセットの第1のパーティションの第1のパーティションを備え、
前記二次試験データは、前記データセットの第1のパーティションの第1のパーティションを除く前記データセットの第1のパーティションの全てのパーティションを備える、
項目109に記載の方法。
(項目111)
前記二次訓練データは、第1の二次訓練データであり、前記二次試験データは、第1の二次試験データであり、前記適合二次モデルは、第1の適合二次モデルであり、前記二次予測モデルのネスト化交差検証を実施することはさらに、
(a)前記データセットの第1のパーティションから、第2の二次訓練データおよび第2の二次試験データを生成することであって、前記第2の二次訓練データは、前記データセットの第1のパーティションの第2のパーティションを備え、前記第2の二次試験データは、前記データセットの第1のパーティションの第2のパーティション以外の前記データセットの第1のパーティションの複数のパーティションを備える、ことと、
(b)前記二次予測モデルを前記第2の二次訓練データに適合させ、第2の二次適合予測モデルを取得することと、
(c)前記第2の二次試験データに前記第2の二次適合モデルを試験することと
を含む、項目110に記載の方法。
(項目112)
前記ネスト化交差検証を実施することはさらに、
前記データセットの第2のパーティションに前記第1の適合二次モデルおよび前記第2の適合二次モデルを試験することと、
前記データセットの第2のパーティションに前記第1および第2の適合二次モデルを試験することの結果に基づいて、前記第1の適合二次モデルを前記第2の適合二次モデルと比較することと
を含む、項目111に記載の方法。
(項目113)
前記適合予測モデルのそれぞれの精度スコアを判定することをさらに含み、各適合モデルの前記精度スコアは、前記適合モデルが1つまたは複数の予測問題の成果を予測する精度を表す、項目95に記載の方法。
(項目114)
前記適合一次モデルの精度スコアと前記適合二次モデルの精度スコアとの間の相違を判定することをさらに含む、項目113に記載の方法。
(項目115)
前記適合二次モデルの精度スコアは、前記適合一次モデルの精度スコアを超える、項目114に記載の方法。
(項目116)
1つまたは複数の予測問題の成果を予測するために前記適合予測モデルのそれぞれによって使用される、計算リソースの量を判定することをさらに含む、項目95に記載の方法。
(項目117)
前記適合一次モデルによって使用される前記計算リソースの量と前記適合二次モデルによって使用される前記計算リソースの量との間の相違を判定することをさらに含む、項目116に記載の方法。
(項目118)
前記適合二次モデルによって使用される前記計算リソースの量は、前記適合一次モデルによって使用される前記計算リソースの量未満である、項目117に記載の方法。
(項目119)
前記適合二次モデルを展開することをさらに含む、項目95に記載の方法。
(項目120)
前記適合二次モデルを展開することは、前記予測問題のインスタンスを表す他のデータに前記適合二次モデルを適用することによって、複数の予測を生成することを含み、前記二次入力データは、前記他のデータを含まない、項目119に記載の方法。
(項目121)
前記適合二次モデルは、1つまたは複数の条件付き規則のセットを備え、前記1つまたは複数の条件付き規則のセットは、1つまたは複数の機械実行可能if-then文のセットを備える、項目119に記載の方法。
(項目122)
前記二次入力データは、第1の二次入力データであり、前記適合二次モデルを展開することはさらに、少なくとも部分的に第2の二次入力データに基づいて、前記適合二次モデルをリフレッシュすることを含む、項目119に記載の方法。
(項目123)
前記適合二次モデルは、第1の適合二次モデルであり、少なくとも部分的に前記第2の二次入力データに基づいて、前記適合二次モデルをリフレッシュすることは、
前記第2の二次入力データから、第2の二次訓練データおよび第2の二次試験データを生成することと、
前記二次予測モデルを前記第2の二次訓練データに適合させることによって、前記適合一次モデルの第2の適合二次モデルを生成することと、
前記第2の二次試験データに前記一次モデルの前記第2の適合二次モデルを試験することと、
前記第1の適合二次モデルおよび前記第2の適合二次モデルを混合し、リフレッシュされた二次予測モデルを生成することと
を含む、項目122に記載の方法。
(項目124)
前記適合二次モデルは、第1の適合二次モデルであり、少なくとも部分的に前記第2の二次入力データに基づいて、前記適合二次モデルをリフレッシュすることは、
前記第1の二次入力データの少なくとも一部と、前記第2の二次入力データの少なくとも一部とを備える、第3の二次入力データを生成することと、
前記第3の二次入力データから、第3の二次訓練データおよび第3の二次試験データを生成することと、
前記二次予測モデルを前記第3の二次訓練データに適合させることによって、前記適合一次モデルの第2の適合二次モデルを生成することと、
前記第3の二次試験データに前記一次モデルの前記第2の適合二次モデルを試験することと
を含む、項目122に記載の方法。
(項目125)
前記第1の入力変数は、前記第2の入力変数である、項目95に記載の方法。
(項目126)
前記第1の入力変数および前記第2の入力変数は両方とも、特定の入力変数を含む、項目95に記載の方法。
(項目127)
前記第1の入力変数のうちのいずれも、前記第2の入力変数に含まれない、項目95に記載の方法。
(項目128)
前記二次モデル化プロシージャは、複数の二次モデル化プロシージャのうちの1つであり、前記二次予測モデルは、複数の第2の予測モデルのうちの1つであり、前記方法は、前記適合一次モデルに前記複数の二次モデル化プロシージャを実施し、それによって、前記適合一次モデルの複数の適合二次モデルを生成することを含む、項目95に記載の方法。
(項目129)
前記適合二次予測モデルのそれぞれの精度スコアを判定することをさらに含み、各適合二次モデルの前記精度スコアは、前記適合二次モデルが1つまたは複数の予測問題の成果を予測する精度を表す、項目128に記載の方法。
(項目130)
前記精度スコアのうちのいずれが最高であるかを判定することと、
前記最高精度スコアを伴う前記適合二次モデルを展開することと
をさらに含む、項目129に記載の方法。
(項目131)
予測モデル化装置であって、
二次予測モデルと関連付けられる二次予測モデル化プロシージャを符号化する機械実行可能モジュールを記憶するように構成されるメモリであって、前記二次予測モデル化プロシージャは、少なくとも1つの前処理タスクと、少なくとも1つのモデル適合タスクとを含む、複数のタスクを含む、メモリと、
前記機械実行可能モジュールを実行するように構成される少なくとも1つのプロセッサであって、前記機械実行可能モジュールを実行することは、前記装置に、前記二次予測モデル化プロシージャを適合一次予測モデルに実施させ、前記二次予測モデル化プロシージャを適合一次予測モデルに実施させることは、
前記適合一次予測モデルを取得することを含む前記前処理タスクを実施することであって、前記一次予測モデルは、1つまたは複数の第1の入力変数の値に基づいて、予測問題の1つまたは複数の出力変数の値を予測するように構成される、ことと、
前記モデル適合タスクを実施することであって、前記モデル適合タスクを実施することは、
複数の二次観察を含む二次入力データを生成することであって、各二次観察は、1つまたは複数の第2の入力変数の個別の観察値と、前記出力変数の予測値とを含み、前記二次入力データを生成することは、二次観察毎に、前記第2の入力変数の個別の観察値および前記第1の入力変数の対応する観察値を取得することと、前記第1の入力変数の対応する観察値に前記一次予測モデルを適用し、前記出力変数の個別の予測値を生成することとを含む、ことと、
前記二次入力データから二次訓練データおよび二次試験データを生成することと、
前記二次予測モデルを前記二次訓練データに適合させることによって、前記適合一次モデルの適合二次予測モデルを生成することと、
前記二次試験データに前記適合一次モデルの適合二次予測モデルを試験することと
を含む、ことと
を含む、プロセッサと
を備える、装置。
図1を参照すると、いくつかの実施形態では、予測モデル化システム100は、予測モデル化探索エンジン110と、ユーザインターフェース120と、予測モデル化技法のライブラリ130と、予測モデル展開エンジン140とを含む。探索エンジン110は、規定予測問題に好適な予測モデル化ソリューションを生成するように、予測モデル化検索空間を効率的に探索する(例えば、前処理ステップ、モデル化アルゴリズム、および後処理ステップの潜在的組み合わせ)ための検索技法(または「モデル化方法」)を実装してもよい。検索技法は、どの予測モデル化技法が予測問題のための好適な解決策を提供する可能性が高いかという初期評価を含んでもよい。いくつかの実施形態では、検索技法は、(例えば、データセットの増加する部分を使用する)検索空間の漸進的評価と、(例えば、一貫した測定基準を使用する)予測問題のための異なるモデル化ソリューションの好適性の一貫した比較とを含む。いくつかの実施形態では、検索技法は、以前の検索の結果に基づいて適応し、経時的に検索技法の有効性を向上させることができる。
予測モデル化技法のライブラリ130は、完全予測モデル化技法を符号化する機械実行可能テンプレートを含む。いくつかの実施形態では、機械実行可能テンプレートは、1つまたはそれを上回る予測モデル化アルゴリズムと、アルゴリズムとともに使用するために好適なゼロまたはそれを上回る前処理ステップと、アルゴリズムとともに使用するために好適なゼロまたはそれを上回る後処理ステップとを含む。アルゴリズム、前処理ステップ、および/または後処理ステップは、パラメータ化されてもよい。機械実行可能テンプレートは、データセットによって表される予測問題のための潜在的予測モデル化ソリューションを生成するように、データセットに適用されてもよい。
図3は、いくつかの実施形態による、予測問題のための予測モデルを選択するための方法300のフローチャートである。いくつかの実施形態では、方法300は、モデル化方法ライブラリ212の中のモデル化方法に対応してもよい。
図1に戻って、ユーザインターフェース120は、予測モデル化空間の検索を監視および/または誘導するためのツールを提供してもよい。これらのツールは、(例えば、データセットの中の問題のある変数を強調表示すること、データセットの中の変数の間の関係を識別すること等によって)予測問題のデータセットについての洞察、および/または検索の結果についての洞察を提供してもよい。いくつかの実施形態では、データ分析者は、例えば、モデル化ソリューションを評価して比較するために使用される測定基準を規定することによって、好適なモデル化ソリューションを認識するための基準を特定することによって等、検索を誘導するためにインターフェースを使用してもよい。したがって、ユーザインターフェースは、独自の生産性を向上させるために、および/または探索エンジン110の性能を向上させるために、分析者によって使用されてもよい。いくつかの実施形態では、ユーザインターフェース120は、リアルタイムで検索の結果を提示し、リアルタイムで(例えば、検索の範囲、または異なるモデル化ソリューションの評価の間のリソースの割付を調節するように)ユーザが検索を誘導することを可能にする。いくつかの実施形態では、ユーザインターフェース120は、同一の予測問題および/または関連予測問題に取り組む複数のデータ分析者の労力を調整するためのツールを提供する。
モデル展開エンジン140は、動作環境内で予測モデルを展開するためのツールを提供する。いくつかの実施形態では、モデル展開エンジン140は、展開された予測モデルの性能を監視し、性能データが展開されたモデルの性能を正確に反映するように、展開されたモデルを生成したモデル化技法と関連付けられる性能メタデータを更新する。
予測モデル化システム100は、任意の技能レベルで分析者の生産性を有意に向上させ、および/または所与の量のリソースを用いて達成可能な予測モデルの精度を有意に増加させてもよい。プロシージャを自動化することにより、作業負荷を低減させることができ、プロセスを体系化することにより、一貫性を強化して、分析者が一意の洞察を生成することにより多くの時間を費やすことを可能にすることができる。3つの共通シナリオ、すなわち、成果を予想すること、性質を予測すること、および測定を推論することが、これらの利点を例証する。
図5を参照すると、いくつかの実施形態では、予測モデル化システム500(例えば、予測モデル化システム100の実施形態)は、少なくとも1つのクライアントコンピュータ510と、少なくとも1つのサーバ550と、1つまたはそれを上回る処理ノード570とを含む。例証的構成は、例示的目的のためにすぎず、任意の数のクライアント510および/またはサーバ550があり得ることが意図される。
いくつかの実施形態では、予測モデル化システム100は、tの前の時間におけるXの観察、随意に、tの前の時間における他の予測因子変数Pの観察を考慮すると、時間t、随意に、t+1、…、t+iにおける標的Xの値を予測し得る、時系列モデルを含む。いくつかの実施形態では、予測モデル化システム100は、過去の観察を分割して、監視下の学習モデルを訓練し、その性能を測定し、精度を改良する。いくつかの実施形態では、時系列モデルは、有用な時間関連予測特徴を提供し、例えば、異なる遅延における標的の前の値を予測する。いくつかの実施形態では、予測モデル化システム100は、時間が前進し、新しい観察が到着すると、そのような観察の中の新しい情報の量およびモデルを再適合させることの費用を考慮して、時系列モデルをリフレッシュする。
時系列モデル化技法のいくつかの実施形態
普遍的特徴重要性
データセットの1つまたはそれを上回る特徴の予測値を判定するための技法のいくつかの実施形態
二次モデル
二次モデル化技法のいくつかの実施形態
テキスト言語条件付け
相互作用強度
予測性能増進
性能増進
ユーザインターフェース(UI)増進
本明細書で提供される実施例は、別個のコンピュータ上に常駐するものとしてモジュール、または別個のコンピュータによって行われるものとして動作を説明した場合があるが、これらの構成要素の機能性は、単一のコンピュータ上で、または分散型様式において任意の多数のコンピュータ上で実装され得ることを理解されたい。
本明細書で使用される表現法および用語は、説明の目的のためであり、限定的と見なされるべきではない。
均等物
Claims (4)
- 予測モデル化装置によって行われる予測モデル化方法であって、前記予測モデル化方法は、
前記予測モデル化装置が、予測モデル化プロシージャを実施することを含み、前記予測モデル化プロシージャを実施することは、
(a)1つまたは複数のデータセットを含む時系列データを取得することであって、各データセットは、複数の観察を含み、各観察は、(1)前記観察と関連付けられる時間のインジケーションと、(2)1つまたは複数の変数の個別の値とを含む、ことと、
(b)少なくとも部分的に、前記データセットのうちの少なくとも1つに含まれる前記観察の少なくともサブセットと関連付けられる時間に基づいて前記時系列データの時間間隔を判定することであって、前記時系列データの時間間隔を判定することは、前記データセット毎に、前記データセットの個別の時間間隔を判定することと、前記データセットのうちの少なくとも2つの前記時間間隔が異なることを判定することとを含み、前記時系列データの時間間隔は、前記データセットのそれぞれの個別の時間間隔の整数の倍数である最短の時間間隔であり、前記時系列データの時間間隔は、さらに、少なくとも部分的に、(1)前記データセットのそれぞれに含まれる前記複数の観察の前記データセットの前記それぞれに対する個別の比率、および/または(2)前記データセットのそれぞれの個別の時間間隔に基づいて、判定される、ことと、
(c)データセット毎に、前記データセットの時間間隔が前記時系列データの時間間隔よりも短い場合、前記データセットの前記観察をダウンサンプリングし、それによって、前記データセットの時間間隔を前記時系列データの時間間隔に変換することと、
(d)前記時系列データと関連付けられるメタデータに基づいて、および/または、ユーザ入力に基づいて、前記変数のうちの1つまたは複数のものを標的として識別し、ゼロまたはそれよりも多い他の変数を特徴として識別することと、
(e)前記時系列データによって表される前記予測問題と関連付けられる予想範囲およびスキップ範囲を判定することであって、前記予想範囲は、前記標的の値が予測される周期の持続時間を示し、前記スキップ範囲は、前記予想範囲内の最古の予測と関連付けられる時間と、前記予想範囲内の予測が基づく最新の観察と関連付けられる時間との間の時間的遅延を示す、ことと、
(f)前記時系列データから訓練データを生成することであって、前記訓練データは、前記データセットのうちの少なくとも1つの前記観察の第1のサブセットを含み、前記観察の前記第1のサブセットは、前記観察の訓練入力集合および訓練出力集合を含み、前記訓練入力集合および訓練出力集合内の前記観察と関連付けられる時間は、それぞれ、訓練入力時間範囲および訓練出力時間範囲に対応し、前記スキップ範囲は、前記訓練出力時間範囲の開始から前記訓練入力時間範囲の終了を分離し、前記訓練出力時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(g)前記時系列データから試験データを生成することであって、前記試験データは、前記データセットのうちの少なくとも1つの前記観察の第2のサブセットを含み、前記観察の前記第2のサブセットは、前記観察の試験入力集合および試験検証集合を含み、前記試験入力集合および試験検証集合内の前記観察と関連付けられる時間は、それぞれ、試験入力時間範囲および試験検証時間範囲に対応し、前記スキップ範囲は、前記試験検証時間範囲の開始から前記試験入力時間範囲の終了を分離し、前記試験検証時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(h)予測モデルを前記訓練データに適合させることと、
(i)前記試験データ上で前記適合モデルを試験することと
を含む、予測モデル化方法。 - 予測モデル化装置によって行われる予測モデル化方法であって、前記予測モデル化方法は、
前記予測モデル化装置が、予測モデル化プロシージャを実施することを含み、前記予測モデル化プロシージャを実施することは、
(a)1つまたは複数のデータセットを含む時系列データを取得することであって、前記1つまたは複数のデータセットは、第1の時間間隔を呈する第1のデータセットと、前記第1の時間間隔を上回る第2の時間間隔を呈する第2のデータセットとを含み、各データセットは、複数の観察を含み、各観察は、(1)前記観察と関連付けられる時間のインジケーションと、(2)1つまたは複数の変数の個別の値とを含む、ことと、
(b)少なくとも部分的に、前記データセットのうちの少なくとも1つに含まれる前記観察の少なくともサブセットと関連付けられる時間に基づいて前記時系列データの時間間隔を判定することであって、前記時系列データの時間間隔を判定することは、前記データセット毎に、前記データセットの個別の時間間隔を判定することと、前記データセットのうちの少なくとも2つの前記時間間隔が異なることを判定することとを含み、前記時系列データの時間間隔は、前記データセットの時間間隔から成る群から選択され、前記時系列データの時間間隔は、さらに、少なくとも部分的に、(1)前記データセットのそれぞれに含まれる前記複数の観察の前記データセットの前記それぞれに対する個別の比率、および/または(2)前記データセットのそれぞれの個別の時間間隔に基づいて、判定され、前記第2の時間間隔は、前記時系列データの時間間隔として選択される、ことと、
(c)前記第1のデータセットの前記観察をダウンサンプリングし、それによって、前記第1のデータセットの時間間隔を前記時系列データの時間間隔に変換することと、
(d)前記時系列データと関連付けられるメタデータに基づいて、および/または、ユーザ入力に基づいて、前記変数のうちの1つまたは複数のものを標的として識別し、ゼロまたはそれよりも多い他の変数を特徴として識別することと、
(e)前記時系列データによって表される前記予測問題と関連付けられる予想範囲およびスキップ範囲を判定することであって、前記予想範囲は、前記標的の値が予測される周期の持続時間を示し、前記スキップ範囲は、前記予想範囲内の最古の予測と関連付けられる時間と、前記予想範囲内の予測が基づく最新の観察と関連付けられる時間との間の時間的遅延を示す、ことと、
(f)前記時系列データから訓練データを生成することであって、前記訓練データは、前記データセットのうちの少なくとも1つの前記観察の第1のサブセットを含み、前記観察の前記第1のサブセットは、前記観察の訓練入力集合および訓練出力集合を含み、前記訓練入力集合および訓練出力集合内の前記観察と関連付けられる時間は、それぞれ、訓練入力時間範囲および訓練出力時間範囲に対応し、前記スキップ範囲は、前記訓練出力時間範囲の開始から前記訓練入力時間範囲の終了を分離し、前記訓練出力時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(g)前記時系列データから試験データを生成することであって、前記試験データは、前記データセットのうちの少なくとも1つの前記観察の第2のサブセットを含み、前記観察の前記第2のサブセットは、前記観察の試験入力集合および試験検証集合を含み、前記試験入力集合および試験検証集合内の前記観察と関連付けられる時間は、それぞれ、試験入力時間範囲および試験検証時間範囲に対応し、前記スキップ範囲は、前記試験検証時間範囲の開始から前記試験入力時間範囲の終了を分離し、前記試験検証時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(h)予測モデルを前記訓練データに適合させることと、
(i)前記試験データ上で前記適合モデルを試験することと
を含む、予測モデル化方法。 - 予測モデル化装置であって、
予測モデル化プロシージャを符号化する機械実行可能モジュールを記憶するように構成されるメモリであって、前記予測モデル化プロシージャは、少なくとも1つの前処理タスクと、少なくとも1つのモデル適合タスクとを含む、複数のタスクを含む、メモリと、
前記機械実行可能モジュールを実行するように構成される少なくとも1つのプロセッサであって、前記機械実行可能モジュールを実行することは、前記装置に、前記予測モデル化プロシージャを実施することを行わせ、前記予測モデル化プロシージャを実施することは、
前記前処理タスクを実施することであって、前記前処理タスクを実施することは、
(a)1つまたは複数のデータセットを含む時系列データを取得することであって、各データセットは、複数の観察を含み、各観察は、(1)前記観察と関連付けられる時間のインジケーションと、(2)1つまたは複数の変数の個別の値とを含む、ことと、
(b)前記時系列データの時間間隔を判定することと、
(c)データセット毎に、前記データセットの時間間隔が前記時系列データの時間間隔よりも短い場合、前記データセットの前記観察をダウンサンプリングし、それによって、前記データセットの時間間隔を前記時系列データの時間間隔に変換することと、
(d)前記時系列データと関連付けられるメタデータに基づいて、および/または、ユーザ入力に基づいて、前記変数のうちの1つまたは複数のものを標的として識別し、ゼロまたはそれよりも多い他の変数を特徴として識別することと、
(e)前記時系列データによって表される前記予測問題と関連付けられる予想範囲およびスキップ範囲を判定することであって、前記予想範囲は、前記標的の値が予測される周期の持続時間を示し、前記スキップ範囲は、前記予想範囲内の最古の予測と関連付けられる時間と、前記予想範囲内の予測が基づく最新の観察と関連付けられる時間との間の時間的遅延を示す、ことと
を含む、ことと、
前記モデル適合タスクを実施することであって、前記モデル適合タスクを実施することは、
(f)前記時系列データから訓練データを生成することであって、前記訓練データは、前記データセットのうちの少なくとも1つの前記観察の第1のサブセットを含み、前記観察の前記第1のサブセットは、前記観察の訓練入力集合および訓練出力集合を含み、前記訓練入力集合および訓練出力集合内の前記観察と関連付けられる時間は、それぞれ、訓練入力時間範囲および訓練出力時間範囲に対応し、前記スキップ範囲は、前記訓練出力時間範囲の開始から前記訓練入力時間範囲の終了を分離し、前記訓練出力時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(g)前記時系列データから試験データを生成することであって、前記試験データは、前記データセットのうちの少なくとも1つの前記観察の第2のサブセットを含み、前記観察の前記第2のサブセットは、前記観察の試験入力集合および試験検証集合を含み、前記試験入力集合および試験検証集合内の前記観察と関連付けられる時間は、それぞれ、試験入力時間範囲および試験検証時間範囲に対応し、前記スキップ範囲は、前記試験検証時間範囲の開始から前記試験入力時間範囲の終了を分離し、前記試験検証時間範囲の持続時間は、少なくとも前記予想範囲と同程度に長い、ことと、
(h)予測モデルを前記訓練データに適合させることと、
(i)前記試験データ上で前記適合モデルを試験することと
を含む、ことと
を含む、プロセッサと
を備える、装置。 - 前記機械実行可能モジュールは、前記タスク間の依存性を表す有向グラフを含む、請求項3に記載の予測モデル化装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662411526P | 2016-10-21 | 2016-10-21 | |
US15/331,797 US10366346B2 (en) | 2014-05-23 | 2016-10-21 | Systems and techniques for determining the predictive value of a feature |
US15/331,797 | 2016-10-21 | ||
US62/411,526 | 2016-10-21 | ||
PCT/US2017/057763 WO2018075995A1 (en) | 2016-10-21 | 2017-10-21 | Systems for predictive data analytics, and related methods and apparatus |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020176551A Division JP2021012734A (ja) | 2016-10-21 | 2020-10-21 | 予測データ分析のためのシステムおよび関連する方法および装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019537125A JP2019537125A (ja) | 2019-12-19 |
JP2019537125A5 JP2019537125A5 (ja) | 2020-12-03 |
JP7107926B2 true JP7107926B2 (ja) | 2022-07-27 |
Family
ID=60421839
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019520991A Active JP7107926B2 (ja) | 2016-10-21 | 2017-10-21 | 予測データ分析のためのシステムおよび関連する方法および装置 |
JP2020176551A Pending JP2021012734A (ja) | 2016-10-21 | 2020-10-21 | 予測データ分析のためのシステムおよび関連する方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020176551A Pending JP2021012734A (ja) | 2016-10-21 | 2020-10-21 | 予測データ分析のためのシステムおよび関連する方法および装置 |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP3529755A1 (ja) |
JP (2) | JP7107926B2 (ja) |
KR (1) | KR102448694B1 (ja) |
AU (1) | AU2017345796A1 (ja) |
GB (2) | GB2606674B (ja) |
SG (1) | SG10202104185UA (ja) |
WO (1) | WO2018075995A1 (ja) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018009546A1 (en) | 2016-07-07 | 2018-01-11 | Aspen Technology, Inc. | Computer system and method for the dynamic construction and online deployment of an operation-centric first-principles process model for predictive analytics |
US10425353B1 (en) | 2017-01-27 | 2019-09-24 | Triangle Ip, Inc. | Machine learning temporal allocator |
CN110495121B (zh) | 2017-04-03 | 2022-08-09 | 瑞典爱立信有限公司 | 针对具有可变处理时间的节点的harq处理 |
US20210027182A1 (en) * | 2018-03-21 | 2021-01-28 | Visa International Service Association | Automated machine learning systems and methods |
GB201805302D0 (en) * | 2018-03-29 | 2018-05-16 | Benevolentai Tech Limited | Ensemble Model Creation And Selection |
US11157837B2 (en) | 2018-08-02 | 2021-10-26 | Sas Institute Inc. | Advanced detection of rare events and corresponding interactive graphical user interface |
US11816686B2 (en) * | 2018-10-02 | 2023-11-14 | Mercari, Inc. | Determining sellability score and cancellability score |
US11068942B2 (en) * | 2018-10-19 | 2021-07-20 | Cerebri AI Inc. | Customer journey management engine |
US20200161002A1 (en) * | 2018-11-21 | 2020-05-21 | International Business Machines Corporation | Predicting an occurrence of a symptom in a patient |
US20200184366A1 (en) * | 2018-12-06 | 2020-06-11 | Fujitsu Limited | Scheduling task graph operations |
US11568286B2 (en) * | 2019-01-31 | 2023-01-31 | Fair Isaac Corporation | Providing insights about a dynamic machine learning model |
US11429873B2 (en) * | 2019-03-15 | 2022-08-30 | International Business Machines Corporation | System for automatic deduction and use of prediction model structure for a sequential process dataset |
US11853032B2 (en) | 2019-05-09 | 2023-12-26 | Aspentech Corporation | Combining machine learning with domain knowledge and first principles for modeling in the process industries |
US20200387818A1 (en) * | 2019-06-07 | 2020-12-10 | Aspen Technology, Inc. | Asset Optimization Using Integrated Modeling, Optimization, and Artificial Intelligence |
CN110310048B (zh) * | 2019-07-10 | 2023-07-04 | 云南电网有限责任公司电力科学研究院 | 一种配网规划全过程评估方法及装置 |
US11782401B2 (en) | 2019-08-02 | 2023-10-10 | Aspentech Corporation | Apparatus and methods to build deep learning controller using non-invasive closed loop exploration |
CN110443420B (zh) * | 2019-08-05 | 2023-05-09 | 山东农业大学 | 一种基于机器学习的作物产量预测方法 |
US11068758B1 (en) * | 2019-08-14 | 2021-07-20 | Compellon Incorporated | Polarity semantics engine analytics platform |
US11568187B2 (en) | 2019-08-16 | 2023-01-31 | Fair Isaac Corporation | Managing missing values in datasets for machine learning models |
KR102634916B1 (ko) * | 2019-08-29 | 2024-02-06 | 주식회사 엘지에너지솔루션 | 온도 추정 모델 결정 방법 및 장치, 온도 추정 모델이 적용된 배터리 관리 시스템 |
WO2021054905A1 (en) * | 2019-09-19 | 2021-03-25 | Bi̇lkav Eği̇ti̇m Danişmanlik Anoni̇m Şi̇rketi̇ | A machine learning based prediction system and method |
JP6966655B2 (ja) * | 2019-09-30 | 2021-11-17 | 株式会社日立情報通信エンジニアリング | 状態予測システム |
WO2021075954A1 (en) * | 2019-10-14 | 2021-04-22 | Malayan Banking Berhad | Due-diligence for risk mitigation |
KR102152957B1 (ko) * | 2019-10-18 | 2020-09-07 | (의료)길의료재단 | 심박 변이도(hrv)에 기초한 기타 불안장애로부터 공황장애 감별 방법 및 그 장치 |
WO2021076760A1 (en) | 2019-10-18 | 2021-04-22 | Aspen Technology, Inc. | System and methods for automated model development from plant historical data for advanced process control |
KR102204958B1 (ko) * | 2019-10-28 | 2021-01-20 | 삼성에스디에스 주식회사 | 의료 검사 결과 데이터의 처리 방법 |
US11568367B2 (en) * | 2019-11-07 | 2023-01-31 | Zebel Group, Inc. | Automated parameterized modeling and scoring intelligence system |
CN112783890B (zh) * | 2019-11-08 | 2024-05-07 | 珠海金山办公软件有限公司 | 一种生成数据透视表行的方法及装置 |
KR102153834B1 (ko) * | 2019-11-25 | 2020-09-09 | 티아이테크놀로지 주식회사 | 확정치 및 추정치 기반의 데이터 정량화 방법 |
CN111008705B (zh) * | 2019-12-06 | 2024-02-13 | 东软集团股份有限公司 | 一种搜索方法、装置及设备 |
KR102235588B1 (ko) * | 2019-12-09 | 2021-04-02 | 한국로봇융합연구원 | 다중 계층을 포함하는 인공지능 모델의 계층별 추론 분류 성능 평가 방법 및 평가 장치 |
KR102328640B1 (ko) * | 2019-12-17 | 2021-11-18 | 충북대학교 산학협력단 | 교육종단연구 데이터를 처리하는 장치 및 방법 |
CN113052582B (zh) * | 2019-12-27 | 2024-03-22 | 中移动信息技术有限公司 | 一种账单校验的方法、装置、设备及计算机存储介质 |
US20210217514A1 (en) * | 2020-01-13 | 2021-07-15 | Skygen USA, LLC | Systems, methods, and media for generating peer group driven operational recommendations |
CN113535829B (zh) * | 2020-04-17 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 排序模型的训练方法、装置、电子设备及存储介质 |
US11231967B2 (en) * | 2020-04-20 | 2022-01-25 | Stratum, Llc | Dynamically allocating and managing cloud workers |
KR102352036B1 (ko) * | 2020-04-28 | 2022-01-18 | 이진행 | 확률적 경사 하강법을 이용한 변수 선택 장치 및 방법 |
JP6963062B1 (ja) * | 2020-06-22 | 2021-11-05 | 株式会社Yamato | 情報処理装置及び情報処理方法 |
KR102386782B1 (ko) * | 2020-08-24 | 2022-04-14 | 강원대학교산학협력단 | 로지스틱 회귀를 이용한 아크신호 검출방법 |
US11494285B1 (en) * | 2020-09-30 | 2022-11-08 | Amazon Technologies, Inc. | Static code analysis tool and configuration selection via codebase analysis |
CN116348870A (zh) * | 2020-10-13 | 2023-06-27 | 日立数据管理有限公司 | 用于行为倾向的表示特征空间中的自适应多模型方法 |
CN114372569A (zh) * | 2020-10-14 | 2022-04-19 | 新智数字科技有限公司 | 数据测量方法、装置、电子设备和计算机可读介质 |
CN112395336B (zh) * | 2020-11-27 | 2024-03-19 | 北京卫星环境工程研究所 | 一种长时间序列数据管理和可视化方法 |
CN112699113B (zh) * | 2021-01-12 | 2022-08-05 | 上海交通大学 | 时序数据流驱动的工业制造流程运行监测系统 |
CN112765891B (zh) * | 2021-01-27 | 2023-11-10 | 辽宁工程技术大学 | 一种矿井火灾致灾因子最大值的预测方法 |
KR102560263B1 (ko) * | 2021-02-03 | 2023-07-28 | 주식회사 크로커스 | 모드 분해와 신경망을 이용한 전력 예측 장치 |
US11630446B2 (en) | 2021-02-16 | 2023-04-18 | Aspentech Corporation | Reluctant first principles models |
KR102290494B1 (ko) * | 2021-03-10 | 2021-08-17 | 주식회사 코루제약 | 히알루론산을 함유하여 피부의 볼륨과 탄력성 유지에 적합한 효과를 나타내는 필러 조성물을 제조하는 방법 |
CN113076339B (zh) * | 2021-03-18 | 2024-08-20 | 北京沃东天骏信息技术有限公司 | 一种数据缓存方法、装置、设备及存储介质 |
US20240186011A1 (en) * | 2021-05-26 | 2024-06-06 | Boe Technology Group Co., Ltd. | Method and device for disease risk prediction, storage medium and electronic device |
US20230059565A1 (en) * | 2021-08-18 | 2023-02-23 | The Boston Consulting Group, Inc. | Demand forecasting engine in a data analytics system |
US20230064692A1 (en) * | 2021-08-20 | 2023-03-02 | Mediatek Inc. | Network Space Search for Pareto-Efficient Spaces |
KR102414821B1 (ko) * | 2021-11-02 | 2022-06-30 | 주식회사 에이젠글로벌 | 금융 서비스를 위한 인공지능 모델 생성 방법 및 이러한 방법을 수행하는 장치 |
KR102413588B1 (ko) * | 2021-11-15 | 2022-06-27 | 주식회사 테스트웍스 | 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램 |
KR102697492B1 (ko) * | 2021-11-19 | 2024-08-22 | 세종대학교산학협력단 | 머신러닝과 stl을 적용한 우편 접수량 예측 방법 및 시스템 |
KR102635894B1 (ko) * | 2021-12-29 | 2024-02-08 | 한국남동발전 주식회사 | 스마트 발전 연료 가격 예측 시스템 및 방법 |
KR102681777B1 (ko) * | 2022-01-25 | 2024-07-05 | 주식회사 디섹 | 인공지능 기반 선박용 hvac 용량 추정 시스템 및 방법 |
CN114677022B (zh) * | 2022-03-31 | 2023-09-15 | 南通电力设计院有限公司 | 一种多元融合能源分布式管理的方法及系统 |
CN114896880B (zh) * | 2022-05-10 | 2024-09-24 | 上海应用技术大学 | 磨矿生产过程工艺数据序列关联分析方法及工艺优化方法 |
GB2622606A (en) * | 2022-09-22 | 2024-03-27 | Nokia Technologies Oy | Capability reporting for multi-model artificial intelligence/machine learning user equipment features |
KR102481814B1 (ko) * | 2022-09-23 | 2022-12-28 | 전남대학교산학협력단 | 샘플 크기가 작고 불균형한 분포를 가진 임상 데이터에서 예측을 위한 통계적학습 프레임워크 |
WO2024219776A1 (ko) * | 2023-04-20 | 2024-10-24 | 재단법인대구경북과학기술원 | 광학 방법으로 측정된 혈류 신호를 이용한 인공지능 기반 질병 진단 장치 및 그 방법 |
CN116582702B (zh) * | 2023-07-11 | 2023-09-15 | 成都工业职业技术学院 | 一种基于大数据的网络视频播放量预测方法、系统及介质 |
CN118365040A (zh) * | 2024-04-17 | 2024-07-19 | 青海省创业发展孵化器有限公司 | 一种园区企业孵化管理方法及系统 |
CN118411005B (zh) * | 2024-07-03 | 2024-09-03 | 宇祺智能装备有限公司 | 基于数据融合的应急指挥调度系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015179778A1 (en) | 2014-05-23 | 2015-11-26 | Datarobot | Systems and techniques for predictive data analytics |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3214876B2 (ja) * | 1991-09-19 | 2001-10-02 | 株式会社日立製作所 | ニューラルネットワークの構成方法およびニューラルネットワーク構築支援システム |
US7448037B2 (en) * | 2004-01-13 | 2008-11-04 | International Business Machines Corporation | Method and data processing system having dynamic profile-directed feedback at runtime |
US20050192937A1 (en) * | 2004-02-26 | 2005-09-01 | International Business Machines Corporation | Dynamic query optimization |
KR101279343B1 (ko) * | 2005-09-13 | 2013-07-04 | 프리스케일 세미컨덕터, 인크. | 멀티-스레딩된 프로세서 구조 |
CN100547553C (zh) * | 2007-12-07 | 2009-10-07 | 华中科技大学 | 基于仿真网格的仿真场景自动部署方法 |
US8656404B2 (en) * | 2008-10-16 | 2014-02-18 | Palo Alto Research Center Incorporated | Statistical packing of resource requirements in data centers |
US8498887B2 (en) * | 2008-11-24 | 2013-07-30 | International Business Machines Corporation | Estimating project size |
JP5382436B2 (ja) * | 2009-08-03 | 2014-01-08 | ソニー株式会社 | データ処理装置、データ処理方法、およびプログラム |
US9037717B2 (en) * | 2009-09-21 | 2015-05-19 | International Business Machines Corporation | Virtual machine demand estimation |
US8443376B2 (en) * | 2010-06-01 | 2013-05-14 | Microsoft Corporation | Hypervisor scheduler |
US20120151479A1 (en) * | 2010-12-10 | 2012-06-14 | Salesforce.Com, Inc. | Horizontal splitting of tasks within a homogenous pool of virtual machines |
JP5421949B2 (ja) * | 2011-03-23 | 2014-02-19 | 株式会社デンソーアイティーラボラトリ | 交通量予測装置、交通量予測方法およびプログラム |
US8370280B1 (en) * | 2011-07-14 | 2013-02-05 | Google Inc. | Combining predictive models in predictive analytical modeling |
TWI451336B (zh) * | 2011-12-20 | 2014-09-01 | Univ Nat Cheng Kung | 預測模型之建模樣本的篩選方法及其電腦程式產品 |
KR101369261B1 (ko) * | 2012-02-10 | 2014-03-06 | 서울대학교산학협력단 | 스마트 단말을 이용한 사용자의 이동 경로 실시간 예측 방법 및 그 시스템 |
US8943252B2 (en) * | 2012-08-16 | 2015-01-27 | Microsoft Corporation | Latency sensitive software interrupt and thread scheduling |
CN104281492A (zh) * | 2013-07-08 | 2015-01-14 | 无锡南理工科技发展有限公司 | 一种异构环境下的Hadoop任务公平调度方法 |
US9697469B2 (en) * | 2014-08-13 | 2017-07-04 | Andrew McMahon | Method and system for generating and aggregating models based on disparate data from insurance, financial services, and public industries |
US10031785B2 (en) * | 2015-04-10 | 2018-07-24 | International Business Machines Corporation | Predictive computing resource allocation for distributed environments |
-
2017
- 2017-10-21 WO PCT/US2017/057763 patent/WO2018075995A1/en unknown
- 2017-10-21 EP EP17801798.4A patent/EP3529755A1/en not_active Withdrawn
- 2017-10-21 JP JP2019520991A patent/JP7107926B2/ja active Active
- 2017-10-21 GB GB2211852.5A patent/GB2606674B/en not_active Expired - Fee Related
- 2017-10-21 GB GB1907147.1A patent/GB2571651B/en not_active Expired - Fee Related
- 2017-10-21 KR KR1020197014598A patent/KR102448694B1/ko active IP Right Grant
- 2017-10-21 AU AU2017345796A patent/AU2017345796A1/en not_active Abandoned
- 2017-10-21 SG SG10202104185UA patent/SG10202104185UA/en unknown
-
2020
- 2020-10-21 JP JP2020176551A patent/JP2021012734A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015179778A1 (en) | 2014-05-23 | 2015-11-26 | Datarobot | Systems and techniques for predictive data analytics |
Also Published As
Publication number | Publication date |
---|---|
GB201907147D0 (en) | 2019-07-03 |
KR20190108559A (ko) | 2019-09-24 |
SG10202104185UA (en) | 2021-06-29 |
GB2571651B (en) | 2022-09-21 |
GB2606674A (en) | 2022-11-16 |
AU2017345796A1 (en) | 2019-05-23 |
GB2571651A (en) | 2019-09-04 |
EP3529755A1 (en) | 2019-08-28 |
GB202211852D0 (en) | 2022-09-28 |
KR102448694B1 (ko) | 2022-09-28 |
GB2606674B (en) | 2023-06-28 |
JP2019537125A (ja) | 2019-12-19 |
JP2021012734A (ja) | 2021-02-04 |
WO2018075995A1 (en) | 2018-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7107926B2 (ja) | 予測データ分析のためのシステムおよび関連する方法および装置 | |
US11922329B2 (en) | Systems for second-order predictive data analytics, and related methods and apparatus | |
US10496927B2 (en) | Systems for time-series predictive data analytics, and related methods and apparatus | |
US20210326782A1 (en) | Systems and techniques for predictive data analytics | |
US10366346B2 (en) | Systems and techniques for determining the predictive value of a feature | |
US20220076164A1 (en) | Automated feature engineering for machine learning models | |
US20220199266A1 (en) | Systems and methods for using machine learning with epidemiological modeling | |
US20230091610A1 (en) | Systems and methods of generating and validating time-series features using machine learning | |
US20240193481A1 (en) | Methods and systems for identification and visualization of bias and fairness for machine learning models | |
US12050762B2 (en) | Methods and systems for integrated design and execution of machine learning models | |
US20230065870A1 (en) | Systems and methods of multimodal clustering using machine learning | |
Strickland | Data analytics using open-source tools | |
US20230051833A1 (en) | Systems and methods for using machine learning with epidemiological modeling | |
US20230206610A1 (en) | Methods and systems for visual representation of model performance | |
Mishra | Principle & Practices Of Data Analytics | |
Mohanty et al. | Big Data Analytics Methodology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201021 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210531 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211101 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220411 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220411 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220426 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7107926 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |