CN113302634B - 学习和预测关键短语以及生成预测的系统、介质和方法 - Google Patents

学习和预测关键短语以及生成预测的系统、介质和方法 Download PDF

Info

Publication number
CN113302634B
CN113302634B CN201980088654.5A CN201980088654A CN113302634B CN 113302634 B CN113302634 B CN 113302634B CN 201980088654 A CN201980088654 A CN 201980088654A CN 113302634 B CN113302634 B CN 113302634B
Authority
CN
China
Prior art keywords
optimal
time series
keywords
series data
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980088654.5A
Other languages
English (en)
Other versions
CN113302634A (zh
Inventor
V·A·阿尔度洛夫
A·加马拉马达卡
T-C·卢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HRL Laboratories LLC
Original Assignee
HRL Laboratories LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HRL Laboratories LLC filed Critical HRL Laboratories LLC
Publication of CN113302634A publication Critical patent/CN113302634A/zh
Application granted granted Critical
Publication of CN113302634B publication Critical patent/CN113302634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)

Abstract

学习和预测关键短语以及生成预测的系统、介质和方法。描述了一种学习和预测关键短语的系统。该系统基于历史预测问题的数据集、所述历史预测问题针对关注量的相关联的时间序列数据以及相关联的关键字集合来学习。该系统学习在给定相关联的关键字集合和预测关注量的最优关键字集合的情况下要采取的最优动作策略。在给定新的预测问题的情况下,系统从新的预测问题中提取初始关键字集合,所述初始关键字集合被扰动以生成最优预测关键短语集合。提取最优预测关键短语集合的关键短语时间序列数据,以用于生成针对关注值的将来值的预测。预测可以用于诸如在线广告之类的各种目的。

Description

学习和预测关键短语以及生成预测的系统、介质和方法
相关申请的交叉引用
本申请要求于2019年2月11日提交的美国临时申请No.62/804,016的权益,并且是该申请No.62/804,016的非临时专利申请,其全部内容通过引用并入本文。
本申请还是于2019年3月7日提交的美国临时申请No.62/815,304的非临时专利申请,其全部内容通过引用并入本文。
技术领域
本发明涉及一种学习关键短语的系统,并且更具体地,涉及一种在时间序列预测(time-series forecasting)中选择最优预测符(optimalpredictor)的系统。
背景技术
时间序列预测是分析师和决策制定者利用可用信息来了解关注值的技术。例如,金融政策制定者必须结合并能够准确地预测资源的价值,以便分配关税和税款,同时避免损害长期经济。结果,这样的政策制定者需要构建准确的预测模型来预测关注值。研究人员已经尝试设计用于生成这种预测的各种技术。作为示例,贝叶斯结构时间序列(BSTS)模型已经显示出利用来自搜索引擎和社交媒体的关键短语趋势数据来有效地预测经济指标(indicator),诸如失业(参见并入的参考文献列表,参考文献1至4)、疾病传播(参见参考文献5至6)和民事动乱的发生(参见参考文献7至8)。虽然这种研究表明模型可以用关键短语来预测经济指标,但是发现传统上这些关键短语需要专家领域知识,并且它们通常不能在具有类似或相关主题的后续预测问题中直接重复使用。
此外,当前时间序列预测模型专注于使用大特征集合,其会被输入模型大小任意约束(参见参考文献1至3)。它们依赖于极大关键短语集和一次性(1-shot)相关测试,这有时会产生虚假预测符。这些模型寻求对历史数据的模型拟合最大化,但是它们的预测能力没有扩展到相同类型的将来数据,或者扩展到语境相似的数据。结果,需要人为干预和主观决策来对特定模型所使用的关键短语进行过滤。
即使可以使用现有模型使搜索自动化,但通常不可能产生非常大的特征集合的计数(例如,英语语言中的每一个两个字的短语),并且因此初始特征选择步骤必须相对积极。相关地,通过搜索界面进行交互意味着没有简单的方式来检索对象,例如在文档语料库中出现至少20次的所有字的集合,或者用于计算术语频率-逆文档频率(tf-idf)的输入(参见参考文献9)。
过去的工作通常专注于预测与美国有关的经济序列,这仅是出于经济和社会媒体数据的可用性的原因。然而,最近的工作已经表明,即使对于相当小的经济体,居民的在线搜索(即,Google Trends数据)也可以成功地用于宏观经济预测(参见参考文献3)。
因此,持续需要一种在预测中学习最优预测符的系统,该系统客观地优化了语境内的预测符选择策略,以更有效地构建可推广模型并选择用于准确预测的指标。
发明内容
本发明涉及一种学习和预测关键短语的系统。在一个方面,该系统包括存储器和一个或更多个处理器。所述存储器是非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得在执行所述指令时,所述一个或更多个处理器执行若干操作,诸如接收具有历史预测问题的数据集、所述历史预测问题针对关注量的相关联的时间序列数据以及相关联的关键字集合;将所述数据集按时间分块为用于系统训练的时间片段;从所述历史预测问题内的文本中提取语境向量;学习在给定所述相关联的关键字集合、所提取的语境向量和外部文本语料库的情况下要采取的最优动作策略,以便产生预测所述关注量的最优关键字集合;以及基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作。
在另一方面,学习所述最优动作策略是使用MCTS、值网络和策略网络来执行的。
在又一方面,所述最优动作包括对所述关键字集合中的关键字进行扩展、删除或修改中的至少一者。
此外,所述存储器还包括用于使所述一个或更多个处理器执行以下操作的指令:从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,以生成最优预测关键短语集合;检索所述最优预测关键短语集合的关键短语时间序列数据;基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合BSTS模型,以生成针对关注值的将来值的预测;以及提供所述将来值的预测,以供显示给系统操作员或供进一步处理。
另外,在学习要采取的最优动作策略时,BSTS模型执行奖励函数以确定针对给定最优动作的奖励,在所述针对给定最优动作的奖励中,采取动作的奖励是基于从使用与所述相关联的关键字集合中的关键字相关联的所述时间序列数据获得的、所述BSTS模型的预测误差的减小。
在另一方面,所述新的预测问题涉及特定产品类型的可能销售额。在这方面,所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额增加,并且通过因特网推送与特定产品类型有关的特定产品的广告并将所述广告显示给所述社交媒体网络的用户。
最后,本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,所述指令可由具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。
附图说明
根据本发明的各个方面的以下详细描述,结合参考以下附图,本发明的目的、特征和优点将变得显而易见,其中:
图1是描绘根据本发明的各种实施方式的系统的组件的框图;
图2是实施本发明的一个方面的计算机程序产品的图示;
图3是来自MATRICS网站的屏幕截图的图示,其描绘了关键字投票,其中用户在机器和用户生成的关键短语两者上投票;
图4是描绘根据本发明的各种实施方式的在使用和不使用前三个关键字的GoogleTrends数据的情况下,消费者价格指数(CPI)和对应的机器生成预测的百分比变化的图表;
图5是描绘根据本发明的各种实施方式的接收历史预测数据作为输入的训练系统的流程图;
图6是描绘根据本发明的各种实施方式的测试系统的流程图;
图7是描绘根据本发明的各种实施方式的使用蒙特卡罗树搜索(MCTS)和神经网络的动作选择处理的流程图;
图8是描绘表示训练的每代的系统误差的学习曲线的图表;以及
图9是描绘根据各种实施方式的广告平台的控制的框图。
具体实施方式
本发明涉及一种学习关键短语的系统,并且更具体地,涉及一种在时间序列预测中选择最优预测符的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。对于本领域技术人员而言,各种修改以及在不同应用中的多种用途将显而易见,并且本文限定的一般原理可以被应用于广泛的方面。因此,本发明并非旨在限于所呈现的方面,而是与符合本文所公开的原理和新颖特征的最广范围相一致。
在下面的详细描述中,阐述了许多具体细节以便提供对本发明的更透彻理解。然而,对本领域技术人员而言将显而易见的是,本发明可以在不必限于这些具体细节的情况下来实践。在其他情况下,公知结构和设备以框图形式示出,而非详细示出,以避免模糊本发明。
请读者关注与本说明书同时提交并且与本说明书一起开放以供公众查阅的所有文件和文档,并且所有这些文件和文档的内容通过引用并入本文。除非另有明确说明,否则本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的另选特征来代替。因此,除非另有明确说明,否则所公开的各个特征仅是一系列的等同或相似特征中的一个示例。
在详细描述本发明之前,首先提供参考文献列表。接下来,提供本发明各个主要方面的描述。随后,为读者提供了对本发明的一般理解的介绍。最后,提供本发明各个实施方式的具体细节,以使得能够理解具体方面。
(1)并入的参考文献列表
贯穿本申请引用以下参考文献。为清楚和方便起见,本文中为读者列出这些参考文献作为集中式资源。以下参考文献通过引用并入于此,如同在本文中充分阐述一样。这些参考文献通过参照如下对应文献参考编号而在本申请中加以引用:
1.Choi,Hyunyoung,and Hal Varian."Predicting the present with GoogleTrends."Economic Record 88(2012):2-9.
2.Scott,Steven L.,and Hal R.Varian."Predicting the present withBayesian structural time series."International Journal of MathematicalModelling and Numerical Optimisation 5.1-2(2014):4-23.
3.Pavlicek,Jaroslav,and Ladislav Kristoufek."Nowcasting unemploymentrates with google searches:Evidence from the visegrad group countries."PloSone 10.5(2015):e0127084.
4.Scott,Steven L.,and Hal R.Varian."Bayesian variable selection fornowcasting economic time series."Economic analysis of the digitaleconomy.University of Chicago Press,2015.119-135.
5.Duygu Balcan et al.,Modeling the spatial spread of infectiousdiseases:The GLobal Epidemic and Mobility computational model,Journal ofComputational Science,Volume 1,Issue 3,2010,Pages 132-145.
6.Dugas AF,Jalalpour M,Gel Y,Levin S,Torcaso F,et al.(2013)InfluenzaForecasting with Google Flu Trends.PLOS ONE 8(2):e56176.
7.Ramakrishnan,Naren et al.'Beating the News'with EMBERS:ForecastingCivil Unrest Using Open Source Indicators Proceedings ofthe 20thACMSIGKDDInternational Conference on Knowledge Discovery and Data Mining,2014.
8.Compton,Ryan,et al."Using publicly visible social media to builddetailed forecasts ofcivil unrest."Security informatics 3.1(2014):4.
9.Gentzkow,Matthew,Bryan T.Kelly,and Matt Taddy.Text asdata.No.w23276.National Bureau ofEconomic Research,2017.
10.Kishimoto A and Müller M.,From Deep Blue to Monte Carlo:!An Updateon Game Tree Research.In Tutorials forAAAI(2014).
11.Lanctot,M.,Winands,M.H.M.,Pepels,T.&Sturtevant,N.R.,Monte Carlotree search with heuristic evaluations using implicit minimax backups.In IEEEConference on Computational Intelligence and Games,1–8(2014).
12.Silver,David et al.Mastering the game ofGo with deep neuralnetworks and tree search.In Nature volume 529,pages 484–489(28January 2016).
13.Diederik P.Kingma and Jimmy Ba,Adam:AMethod for StochasticOptimization.In International Conference on Learning Representations(2015).
14.SpaCy Python Library,found at https://spacy.io/,taken 2018.
(2)主要方面
本发明的各种实施方式包括三个“主要”方面。第一个主要方面是学习预测关键短语的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是利用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光学存储设备(例如,光盘(CD)或数字通用盘(DVD))或磁存储设备(例如,软盘或磁带)之类的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其他非限制性示例包括:硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下面进行更详细描述。
图1中提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面,本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,所述指令使计算机系统100进行特定动作并展现特定行为,如本文所描述的。
计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。
计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪速存储器等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口,诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其他电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。
在一个方面,计算机系统100可以包括与地址/数据总线102联接的输入设备112,其中,输入设备112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入设备112是字母数字输入设备(诸如键盘),其可以包括字母数字键和/或功能键。另选地,输入设备112可以是除字母数字输入设备之外的其他输入设备。在一方面,计算机系统100可以包括与地址/数据总线102联接的光标控制设备114,其中,光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面,光标控制设备114是利用诸如鼠标器、轨迹球、轨迹板、光学跟踪设备或触摸屏的设备来实现的。尽管前述如此,但在一方面,诸如响应于使用与输入设备112相关联的特殊键和键序列命令,光标控制设备114经由来自输入设备112的输入而被引导和/或启用。在另选方面,光标控制设备114被配置成通过话音命令管理或引导。
在一方面,计算机系统100还可以包括一个或更多个可选计算机可用数据存储设备,诸如与地址/数据总线102联接的存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面,存储设备116是诸如磁盘驱动器或光盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储设备。依据一个方面,显示设备118与地址/数据总线102联接,其中,显示设备118被配置成显示视频和/或图形。在一方面,显示设备118可以包括:阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器,或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其他显示设备。
本文所呈现的计算机系统100是根据一方面的示例计算环境。然而,计算机系统100的非限制示例并不严格限于作为计算机系统。例如,一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外,还可以实现其他计算系统。实际上,本技术的精神和范围不限于任何单一数据处理环境。因此,在一方面,使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外,一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,诸如,在该计算环境中,任务由通过通信网络链接的远程处理设备执行,或者诸如,在该计算环境中,各种程序模块位于包括存储器-存储设备的本地和远程计算机存储介质中。
图2中描绘了具体实施本发明的计算机程序产品(即,存储设备)的示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而,如先前提到的,该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何,这些指令被编码在非暂时性计算机可读介质上。
(3)介绍
本公开提供了一种在时间序列预测中选择最优预测符的基于强化学习(RL)的系统。时间序列预测是分析师和决策制定者利用可用信息来了解关注值的技术。因此,这样的分析师需要构建准确的预测模型来预测关注值。该处理的第一步是识别可用于其预测能力的可用指标。这需要大量的领域知识和经验来找到最优的指标集合。本公开的方法概述了通过利用先前成功的预测模型来从初始集合中最优地选择预测指标的语境感知方法。
本方法的独特方面在于将该问题表述(formulation)为学习问题,该学习问题具有来源于预测误差的明确的奖励结构和实现准确预测所需的模型大小。具体地,对该表述的激励(motivating)是期望有效地搜索关键短语,然后该关键短语可用于查询开源数据以生成预测时间序列。例如,贝叶斯结构时间序列(BSTS)模型已经显示出利用来自搜索引擎和社交媒体的关键短语趋势数据来有效地预测经济指标,诸如失业(参见参考文献1至4)、疾病传播(参见参考文献5至6)和民事动乱的发生(参见参考文献7至8),但是发现传统上这些关键短语需要专家领域知识,并且它们通常不能在具有类似或相关主题的后续预测问题中直接重复使用。本公开所提供的RL方法模拟在示例预测上对关键短语进行包括、丢弃和扩展的处理,然后利用此经验来学习迭代策略,该迭代策略将使得系统能够以关键字的朴素或随机集合开始,其能够干扰最优集合;因此克服了新的预测问题的“冷启动问题”。该策略以语境感知为条件,并且因此可以用于识别与语义语境(而不是关注的特定量)广泛相关的全局最优关键短语。具体地,本公开的RL表述允许系统利用嵌入在所呈现的问题(例如关注的国家、主题)中的期望的预测和重用信息上的已知先验来代替用潜在指标饱和模型然后任意地定义模型大小。
此外,当前时间序列预测模型专注于使用由输入模型大小任意约束的大的特征集合(参见参考文献1至3)。现有的模型依赖于极大的关键短语集和1-shot相关测试,其有时会产生虚假预测符。这些模型寻求对历史数据的模型拟合最大化,但是它们的预测能力没有扩展到相同类型的将来数据,或者扩展到语境相似的数据。结果,并且如上所述,需要人为干预和主观决策来对特定模型所使用的关键短语进行过滤。通过学习这些关系,本公开的系统减轻了与人类干预和规则构建相关联的成本,并且阐明了人们所忽视的否则错过关系(otherwise missed relationship)。
过去的工作仅仅依靠从业者利用领域知识和任意决策来确定数据的良好指标。随后,现有模型通常是超参数化的,并且由专家使用主观确定的模型大小和对指标“包含”分数的计算来约束到较小的集合。本公开所提供的方法将允许利用现有的自然语言处理工具(NLP)来对该处理进行流水线化,这是通过构造“朴素的”字集合和语境表示来实现的,其可以被扰动到最优的预测符集合中以及因此最优的模型大小中。此外,一旦被训练,与使用从Google Correlate提取的前100个字(参见参考文献2)的先前工作相比,由RL系统学习的策略和值函数减小了BSTS模型的大小(并因此减小了计算资源)。
在详细描述该系统之前,下面提供了可用于向该系统提供输入的平台的描述。具体地,使用MATRICS系统测试本发明,MATRICS系统是为混合预测构建的在线平台(如上所述)。在2019年3月7日提交的美国临时申请No.62/815,304中描述了MATRICS系统,其全部内容通过引用并入本文。MATRICS系统的目的是开发和测试混合人机地缘政治预测系统(hybridhuman-machine geopolitical forecasting systems)并识别从根本上提高地缘政治预测的准确性和及时性的方法。预测问题被列入若干一般类别,例如政治、自然科学和健康/疾病,时间序列预测对于经济学相关问题是最有用的。
在MATRICS系统内,超过一千个用户具有提交与每个个体预测问题(IFP)有关的关键字并对其进行投票的能力。图3中示出了这种MATRICS界面300的示例,其描绘了示例IFP302和允许用户对相关关键字投票的关键字投票框304。还描绘了关键字建议框306,在关键字建议框306处,用户可以上载或以其他方式建议用于投票的关键字。因此,在MATRICS系统内,用户具有提交与每个IFP 302有关的关键字并对其进行投票的能力。然后使用前3个赞成票(up-voted)的关键字来提取Google Trends时间序列,将其用作关注量的回归预测符。示例结果在图4中示出。图4示出了尼日尔(Niger)的消费者价格指数(CPI)400的月度变化百分比以及使用和不使用前3个关键字的Google Trends数据情况下对应的机器生成的预测。将模型生成值与观测(实际)值进行比较。
本方法呈现了一种从初始集合中最优地选择预测指标的语境感知方法。系统接着将预测指标提供给系统操作者和/或其它系统用于进一步处理和使用。如所属领域的技术人员所理解的,存在其中可实施本公开的若干应用。具体细节如下。
(4)各种实施方式的具体细节
如上所述,本公开提供了一种用于在时间序列预测中选择最优预测符(诸如关键短语)的基于强化学习(RL)的系统。本公开的系统包括至少两个处理流管线:训练系统(如图5所示)和预测系统(如图6所示)。被标记为“输入”500的框来自上述MATRICS系统,然而实际上该信息可以来自任何其它源。参照图5中所示的训练系统501,在MATRICS中,智能社区(intelligence community)提供的历史预测问题502被自动解析并被指派给历史数据可用的N个“规范类别(canonical categories)”中的1个。预测问题502还使用任何合适的解析器来自动解析关键短语、实体和值,解析器的示例包括结合SpaCy的命名实体提取(参见参考文献14)的解析器。该关键短语的集合由MATRICS系统的用户提供的那些关键字来扩展512。系统从诸如Google和Twitter等之类的源收集关键短语的开源趋势数据。然后从存储先前刮过(scraped)的开放源值的数据库访问与“规范类别”相关联的历史时间序列数据504。历史时间序列数据504用作关注值,而关键短语趋势数据用作本系统的输入。这在系统中通过语境向量明确地表示,该语境向量是从问题502文本中(经由语境提取508)提取的,并且历史时间序列数据504(经由时间分块506)被分块到更小的窗口中,以便增加训练集合的大小。时间分块506的原因是增加训练集合的大小。设想存在数据的历史时间序列,并且用户期望使用数据的历史时间序列来训练预测模型。将在系统上训练的时间的“块”应该近似对应于期望要由系统提供的预测的时间范围(horizon)。例如,如果人们关注训练系统以预测下一金融季度的公司收益,则用户可以利用包含按季度时间分辨率的若干年数据的块来训练系统。
在以下部分中进一步详细描述语境提取508和强化学习(RL)系统510。
(4.1)语境提取
语境(context)提取508是将特定预测问题表示为在其中发现已知因素的组合的过程。例如,在预测天气时,地理位置和一年中的时间是影响哪些指标为温度和湿度的预测提供信息的语境。这允许系统将获得的关于其他地区和一年中的时间的了解推广到以前未见的地区/一年中的时间组合。
出于MATRICS系统的目的,语境可以是系统中已知实体(entities)的表示。目前,由训练系统501利用的系统来解析输入的问题、标识的实体(诸如地理名称(例如国家、海洋、地区))和经济值(例如股票指数)。系统501还将问题分类为更一般的主题类别,并确定问题是否遵循收集特定数据的预定模板。最后,训练系统501还标识进行预测的时间窗口。
所提取的分类值(categorical values)全部共享与预测对这些问题的解决的任务相关的信息。系统接受这些语境与关键短语集合一起作为输入,并确定与关键短语相关联的信号是否可能是预测性的。因此,这些分类可以被实现为嵌入层的一部分,该嵌入层被传递到在下述学习系统中训练的必要神经网络中。
(4.2)学习系统
强化学习(RL)系统510利用对关键字进行扩展或将关键字从集合中移除得到的值。在此语境中,通过采用使用先前关键字集合的贝叶斯结构时间序列(BSTS)模型并将其BSTS误差与由新关键字集合产生的误差进行比较来测量值或值网络516。下文提供关于RL系统510的附加细节。
(4.3)蒙特卡罗树搜索
RL系统510对扩展、保持或删除哪些字进行决策。在关键字集合上穷尽地搜索动作的最优选择的所有组合是难以处理的,因此使用伪随机搜索算法——蒙特卡罗树搜索514(参见参考文献11)。蒙特卡罗树搜索(MCTS)514是一种随机采样方法,其模拟决策制定处理直其收敛于最终状态,或直到达到最大前瞻深度(look-ahead depth)。最大前瞻深度是指在退出之前将被模拟的预定步数。MCTS 514在状态-动作对上贪婪地处理样本,然后随机地(stochastically)选择探索新动作。通过运行多个MCTS 514迭代,RL系统510收集与当前状态相关联的动作上的近似奖励值。
所采样的动作和结果奖励用于训练2个神经网络:将(状态、语境)对与所预测(projected)的奖励相关联的值网络(value network),以及将(状态、语境、动作)三元组与所预测的奖励相关联的策略网络(policy network)。值网络学习如何评估给定的关键短语集合是否为针对给定语境的良好集合,并且策略网络学习确定关键短语的特定扰动(添加/删除短语)是否将影响系统的整体性能。
随着可能的指标集合的增长,穷尽地搜索给定模型的所有可能的包含空间是指数增长问题。作为代替并且如上所述,实现了搜索的伪随机启发式方法。MCTS 514处理模拟迭代并评估各个指标集合的值,对启发式函数(heuristic function)进行评估以估计非终止(terminal)状态的值和终止状态的真实奖励。在运行仿真时,MCTS 514收集所探索的将来状态的值统计,然后这些统计被用于执行动作(参见参考文献11)。这种动作的示例包括扩展、保持或删除关键短语的决策。
包括MCTS的树搜索的先前实现需要专家知识和手工启发式函数,以加速对树的状态的搜索(参见参考文献10)。本公开提供的方法利用搜索问题的重新表述作为状态动作学习问题,优化BSTS模型预测的均方误差(MSE)。这允许RL系统510迭代地拟合函数逼近器(特别是神经网络),该函数逼近器从由MCTS514模拟生成的值数据中学习启发式值。
在训练期间,如果仿真到达终止状态,则将利用真实奖励函数来处理。在强化学习中,奖励函数是算法通过一系列动作寻求最大化的东西。在这种情况下,采取动作(例如,从集合中删除关键短语)的奖励基于BSTS模型的预测误差的变化,该BSTS模型使用与具有和不具有该删除的关键短语的关键短语集合相对应的Google Trends时间序列数据。在运行时间期间,使用近似函数(在这种情况下是神经网络518)。然后,将这些值反向传播到在该特定模拟期间做出的决策上,并且下一次模拟开始,所述下一次模拟现在具有基于先前探索的动作状态对的先验偏差(priorbias)。与给定状态的动作相关联的先验被用作模拟期间采样动作的分布。强化学习的目的是学习对于给定“状态”(关键字的当前集合)的“最优”(奖励最大化)动作是什么。先验通过将给定状态中的每个动作与其产生奖励的可能性相关联来捕获该信息。该信息可用作采样/选择最优动作的分布。
如图5所示,如果/当系统选择动作“扩展”520来扩展关键短语集合时,系统使用它可以选择以扩展该集合的字集合522。该字集合522(在本例中如在框中所写的)来自外部新闻语料库的前10,000个短语+来自所有先前看到的IFP的所有关键字。
(4.4)用于状态语境值近似的神经网络
为每个新的IFP和语境来计算BSTS模型MSE需要频繁地重新计算值。时间成本可以通过预处理各个语境的状态值来解决;然而,这在存储器中爆发地非常快,并且仍然需要极大的冗余量。作为替代并且如图7所示(注意,图7提供了关于在图5和图6的“强化(策略)学习”框510中发生的情况的进一步细节),系统通过学习2个函数近似(以下式1-式2)来继续,其分别通过θ和φ参数化,如下:
π(κ,x,a|θ)≈ρ((κ×a),c) 式1
v(κ,c|φ)≈ρ(k,c) 式2
式1被实现用于“策略网络”700,并且在给定状态-语境对(κ,c)下评估采取动作a706的预期将来奖励。此外,式2针对“值网络”702来实现,并且在给定状态-语境对(k,c)下评估预期奖励。一个函数近似指标(k)的当前集合的长期奖励(ρ),而另一个函数预测添加新指标或从该集合中移除指标的值。在参考文献12中描述了与值网络702和策略网络700结合的MCTS的通用训练过程。应当注意,虽然MCTS是现有技术,但是其在本发明中应用的用途(包括所限定的动作空间、状态、输入/输出等)是独特的,如来自另选通用文本语料库的关键字集合的“扩展”的概念,以及使用BSTS模型以基于预测准确性来计算奖励。
这些值被记录在状态动作查找表702中,状态动作查找表702表示在给定状态704下采取特定动作的近似长期奖励。在训练迭代期间,使用从其采样动作的分布,以便鼓励探索和避免次优策略的早期收敛。所选择的(采样的)动作是从查找表702出来的动作“a”706,并且结果状态是(kt+1,c)708。
(4.5)将MCTS与神经网络(NN)组合
训练处理通过收集动作空间上的统计来执行MCTS 514过程。
迭代期间:
1.如果当前状态(指标集合)是终止T,则使用奖励函数进行评估,然后反向传播。
2.如果正在探索的状态以前没有被访问过,并且不是终止,则使用当前策略网络来计算该状态中的动作的先验,并且使用值网络来评估当前状态以预测其“下游”奖励。
3.否则,(使用下面的算法1)明确地近似下游值(Q(k,c,a))并且选择最佳的 并且对(κ×a)执行递归搜索。
提供算法1如下:
/>
为了进一步理解,在算法1中最左边对齐的“if”、“elseif”和“else”对应于上面列出的迭代步骤中的序号1、2和3。在更新Q(kt,a'i)的“else”步骤中提供Q的更新。在参考文献12中描述了与值网络702和策略网络700结合的MCTS的通用训练过程。应当注意,虽然MCTS是现有技术,但是其在本公开中应用的用途(包括限定的动作空间、状态、输入/输出等)是独特的,如来自另选通用文本语料库的关键字集合的“扩展”,以及使用BSTS模型以基于预测准确性来计算奖励。MCTS算法的这种修改的使用学习Q,当前状态至后续动作之间的最优映射(策略)。
在计算了所有迭代之后,计算Q(κ,c,·),并且然后从分布D=softmax(Q(κ,c,·))中对动作进行采样,其中·表示“在所有动作a上”。这用于收集训练示例,直到达到终止状态。然后,通过使用随机梯度法ADAM来评估真实的最终长期奖励来更新参数θ和φ(参见参考文献13)。
在测试期间并且如图6所示,以相同的方式执行MCTS 514处理以收集动作空间上的Q-值统计;然而,该处理仅使用值网络v并且没有明确地计算奖励。然后,选择具有最大Q-值的动作,而不是随机地对动作进行采样。如上所述,动作是当前关键字集合的(扩展、删除、…)中的一者。测试系统不是像在训练中那样随机对动作进行采样来探索动作空间,而是选择由值网络提供的最优动作,这比使用BSTS显式地计算奖励更快,但是应当仍然对应于使用显式奖励计算来计算的最优动作。这些变化也使测试决策比训练处理得多。
同样如图6所示,如果给出新的预测问题600以及(经由语境提取508)自动提取的语境向量,则RL系统510能够生成最优预测关键短语集合602(即,大多数预测字集合)用于测试回归预测符。如以上关于测试程序所述的那样来标识最优预测关键短语集合602。更具体地,测试系统601包括BSTS预测模块604。使用预测字集合602的Google Trends时间序列值作为回归输入,BSTS预测模块604在历史时间序列数据上拟合BSTS模型。所拟合的BSTS模型被用于预测关注的时间序列的将来值(例如,油价或消费者价格指数),并且该预测然后被显示606给操作员或以其他方式提供给其他系统和操作以用于进一步处理。
(4.6)实验数据集合
为了验证模型拟合改进可以合理地用作强化学习中的奖励函数,进行了少量样本的测试实验。五个预定信号用于表示趋势数据。这些信号将是由BSTS模型进行回归的信号。信号包括:常数、线性、平方多项式曲线、没有频率调整的正弦曲线以及具有10x频率的正弦曲线。对于四个语境,使用随机选择的权重来线性组合输入信号,以构造具有高斯白噪声注入的值信号,并且使用针对语境的单向量来表示。最终的语境被构造为仅仅是恒定信号,在这种情况下,包括除了恒定输入之外的任何信号将损害系统的性能。
状态向量表示将输入信号包括到BSTS模型拟合中,而动作表示将词扩展、包括和移除到该状态。输入信号的扩展遵循预定的关系图。目的是学习对于每个语境从给定状态进行扩展和删除的最优集合。
在将系统初始化为随机初始条件的情况下,使用模拟多个回合(episodes)的整个时期(epochs)来训练系统。然后,在迭代的每个步骤期间,智能体(agent)运行多个MCTS迭代,收集当前状态的动作空间上的值统计,然后它将从动作概率与其计算值相关的动作中随机采样。在使用神经网络的当前迭代运行若干回合之后,使用在回合上收集的奖励来更新神经网络的参数。
在训练时期结束时,在五个构造的语境的每一者中评估系统的性能。在评估期间,系统以相同的初始条件进行初始化:包括恒定的单个信号。
该实验类似于关键字及其对应的趋势数据可用于预测期望预测的处理。BSTS模型拟合和模型大小的误差均影响大小性能。所展示的语境类似于具有关注使用可用的关键字集合及其相应的趋势数据进行预测的经济指标。传统上,可以用所有可用的关键短语来拟合模型;然而,对于许多非线性信号(大多数是零星(sporadic)的信号),将潜在地选择在期望指标的真实性质方面不提供信息的错误信号。本方法允许系统操作者对于输入更具选择性,因为输入选择处理被推广到所观测的语境而不是特定的预测。此外,通过关于模型大小进行惩罚,经学习的系统将仅在语境预测的改进超过包含成本的情况下添加新的输入信号。
图8示出了系统的每个训练时期的每个语境的性能,并且展示了它们相应的学习曲线。可以观察到,即使初始条件最初对于单个语境是好的,并且看起来系统是忘记的,在下一个时期中,学习权重被充分地更新以改进最终状态性能。重要的是,系统的分数还学习对恒定输出语境不执行任何动作,如所观察到的对于该情况是分数0。这些结果表明,模型拟合改进可以很好地用作强化学习中的奖励函数。
(4.7)示例实现
如本领域的技术人员可了解的,存在可以实施本文中所描述的系统和方法的若干实际应用。例如,机器辅助预测为政府决策制定者和分析者提供了信息性决策辅助,从而允许提高时间序列预测的速度和准确性。其它应用包括销售和市场,即预测销售和其它金融/经济时间序列数据、客户兴趣和广告活动的人口覆盖率。
该系统产生的最优关键字集合必须与某种类型的预测相关联,因为它们是否预测关注的时间序列(即油价等)是用于确定奖励函数的,并因此是“最优的”时候。一个示例应用是运营商试图基于个人或用户使用的关键字来预测他们将购买的特定产品的量。基于预测量的另一动作可以是任何自动购买,例如自动股票交易商、杂货订单等。
如图9所示,系统100可用于控制生成广告并将广告推送到相关方的广告平台900。例如,如果系统100确定预测关键字集合指示关注特定产品类型,则系统100可使广告平台900通过因特网向已使用预测关键字的那些用户推送广告以供在用户设备(屏幕等)上显示。例如,系统100可以与作为广告平台900工作的社交媒体网络(例如,等)接口。当社交媒体网络上的用户使用相关的预测性关键字时,系统100使得广告平台在用户的账号上显示与特定产品类型有关的特定产品的广告。
最后,虽然已经根据多个实施方式对本发明进行了说明,但本领域普通技术人员应当容易地认识到,本发明可以在其他环境中具有其他应用。应注意,可以有许多实施方式和实现。此外,所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外,“用于……的装置”的任何用语旨在引发要素和权利要求的装置加功能的解读,而未特别使用“用于……的装置”用语的任何要素不应被解读为装置加功能要素,即使权利要求以其他方式包括了“装置”一词。此外,虽然已经按特定顺序陈述了特定方法步骤,但这些方法步骤可以按任何期望的顺序进行,并且落入本发明的范围内。

Claims (21)

1.一种学习和预测关键短语的系统,所述系统包括:
存储器和一个或更多个处理器,所述存储器是非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:
接收具有历史预测问题的数据集、所述历史预测问题针对关注量的相关联的时间序列数据以及相关联的关键字集合;
将所述数据集按时间分块为用于系统训练的时间片段;
从所述历史预测问题内的文本中提取语境向量;
学习在给定所述相关联的关键字集合、所提取的语境向量和外部文本语料库的情况下要采取的最优动作策略,以便产生预测所述关注量的最优关键字集合;以及
基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作;
从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;
基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,以生成最优预测关键短语集合;
其中,所述新的预测问题涉及特定产品类型的可能销售额,并且所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额将增加,并且
通过因特网推送与所述特定产品类型有关的特定产品的广告,并将所述广告显示给所述社交媒体网络的用户。
2.根据权利要求1所述的系统,其中,学习所述最优动作策略是使用蒙特卡罗树搜索、值网络和策略网络来执行的。
3.根据权利要求2所述的系统,其中,所述最优动作包括对所述关键字集合中的关键字进行扩展、删除或修改中的至少一者。
4.根据权利要求3所述的系统,所述系统还包括以下操作:
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理。
5.根据权利要求4所述的系统,其中,在学习要采取的最优动作策略时,贝叶斯结构时间序列模型执行奖励函数以确定针对给定最优动作的奖励,在所述针对给定最优动作的奖励中,采取动作的奖励是基于从使用与所述相关联的关键字集合中的关键字相关联的所述时间序列数据获得的、所述贝叶斯结构时间序列模型的预测误差的减小。
6.根据权利要求1所述的系统,所述系统还包括以下操作:
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理。
7.根据权利要求1所述的系统,其中,所述最优动作包括对所述关键字集合中的关键字进行扩展、删除或修改中的至少一者。
8.根据权利要求1所述的系统,其中,在学习要采取的最优动作策略时,贝叶斯结构时间序列模型执行奖励函数以确定针对给定最优动作的奖励,在所述针对给定最优动作的奖励中,采取动作的奖励是基于从使用与所述相关联的关键字集合中的关键字相关联的所述时间序列数据获得的、所述贝叶斯结构时间序列模型的预测误差的减小。
9.一种学习和预测关键短语的非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得在一个或更多个处理器执行所述指令时,所述一个或更多个处理器执行以下操作:
接收具有历史预测问题的数据集、所述历史预测问题针对关注量的相关联的时间序列数据以及相关联的关键字集合;
将所述数据集按时间分块为用于系统训练的时间片段;
从所述历史预测问题内的文本中提取语境向量;
学习在给定所述相关联的关键字集合、所提取的语境向量和外部文本语料库的情况下要采取的最优动作策略,以便产生预测所述关注量的最优关键字集合;以及
基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作;
从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;
基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,以生成最优预测关键短语集合;
其中,所述新的预测问题涉及特定产品类型的可能销售额,并且所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额将增加,并且
通过因特网推送与所述特定产品类型有关的特定产品的广告,并将所述广告显示给所述社交媒体网络的用户。
10.根据权利要求9所述的非暂时性计算机可读介质,所述非暂时性计算机可读介质还包括以下操作:
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理。
11.根据权利要求9所述的非暂时性计算机可读介质,其中,学习所述最优动作策略是使用蒙特卡罗树搜索、值网络和策略网络来执行的。
12.根据权利要求9所述的非暂时性计算机可读介质,其中,所述最优动作包括对所述关键字集合中的关键字进行扩展、删除或修改中的至少一者。
13.根据权利要求9所述的非暂时性计算机可读介质,其中,在学习要采取的最优动作策略时,贝叶斯结构时间序列模型执行奖励函数以确定针对给定最优动作的奖励,在所述针对给定最优动作的奖励中,采取动作的奖励是基于从使用与所述相关联的关键字集合中的关键字相关联的所述时间序列数据获得的、所述贝叶斯结构时间序列模型的预测误差的减小。
14.一种学习和预测关键短语的计算机实现的方法,所述方法包括以下动作:
使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令,使得在执行时,所述一个或更多个处理器执行以下操作:
接收具有历史预测问题的数据集、所述历史预测问题针对关注量的相关联的时间序列数据以及相关联的关键字集合;
将所述数据集按时间分块为用于系统训练的时间片段;
从所述历史预测问题内的文本中提取语境向量;
学习在给定所述相关联的关键字集合、所提取的语境向量和外部文本语料库的情况下要采取的最优动作策略,以便产生预测所述关注量的最优关键字集合;以及
基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作;
从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;
基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,以生成最优预测关键短语集合;
其中,所述新的预测问题涉及特定产品类型的可能销售额,并且所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额将增加,并且
通过因特网推送与所述特定产品类型有关的特定产品的广告,并将所述广告显示给所述社交媒体网络的用户。
15.根据权利要求14所述的方法,所述方法还包括以下操作:
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理。
16.根据权利要求14所述的方法,其中,学习所述最优动作策略是使用蒙特卡罗树搜索、值网络和策略网络来执行的。
17.根据权利要求14所述的方法,其中,所述最优动作包括对所述关键字集合中的关键字进行扩展、删除或修改中的至少一者。
18.根据权利要求14所述的方法,其中,在学习要采取的最优动作策略时,贝叶斯结构时间序列模型执行奖励函数以确定针对给定最优动作的奖励,在所述针对给定最优动作的奖励中,采取动作的奖励是基于从使用与所述相关联的关键字集合中的关键字相关联的所述时间序列数据获得的、所述贝叶斯结构时间序列模型的预测误差的减小。
19.一种生成预测的系统,所述系统包括:
存储器和一个或更多个处理器,所述存储器是非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:
学习用于产生预测关注量的最优关键字集合的最优动作策略,并且基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作;
从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;
基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,以生成最优预测关键短语集合;
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理;
其中,所述新的预测问题涉及特定产品类型的可能销售额,并且所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额将增加,并且
通过因特网推送与所述特定产品类型有关的特定产品的广告,并将所述广告显示给所述社交媒体网络的用户。
20.一种生成预测的非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得在一个或更多个处理器执行所述指令时,所述一个或更多个处理器执行以下操作:
学习用于产生预测关注量的最优关键字集合的最优动作策略,并且基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作;
从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;
基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,以生成最优预测关键短语集合;
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理;
其中,所述新的预测问题涉及特定产品类型的可能销售额,并且所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额将增加,并且
通过因特网推送与所述特定产品类型有关的特定产品的广告,并将所述广告显示给所述社交媒体网络的用户。
21.一种生成预测的计算机实现的方法,所述方法包括以下动作:
使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令,使得在执行时,所述一个或更多个处理器执行以下操作:
学习用于产生预测关注量的最优关键字集合的最优动作策略,并且基于所述最优动作策略生成经训练的值网络,所述经训练的值网络能够工作用于针对与个体预测问题有关的任何关键字集合确定最优动作;
从新的预测问题和相关联的历史时间序列数据中提取语境向量和初始关键字集合;
基于所述经训练的值网络,执行所述最优动作来扰动所述初始关键字集合,
以生成最优预测关键短语集合;
取回所述最优预测关键短语集合的关键短语时间序列数据;
基于使用所述关键短语时间序列数据在所述历史时间序列数据上拟合贝叶斯结构时间序列模型,生成针对关注值的将来值的预测;以及
提供所述将来值的预测,以供显示给系统操作员或供进一步处理;
其中,所述新的预测问题涉及特定产品类型的可能销售额,并且所述系统涉及识别与所述特定产品类型的销售额相关联的所述最优预测关键短语集合,使得当社交媒体网络上的用户使用所述最优预测关键短语集合内的字时,预测所述特定产品类型的销售额将增加,并且
通过因特网推送与所述特定产品类型有关的特定产品的广告,并将所述广告显示给所述社交媒体网络的用户。
CN201980088654.5A 2019-02-11 2019-12-11 学习和预测关键短语以及生成预测的系统、介质和方法 Active CN113302634B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962804016P 2019-02-11 2019-02-11
US62/804,016 2019-02-11
US201962815304P 2019-03-07 2019-03-07
US62/815,304 2019-03-07
PCT/US2019/065694 WO2020167371A1 (en) 2019-02-11 2019-12-11 System and method for learning contextually aware predictive key phrases

Publications (2)

Publication Number Publication Date
CN113302634A CN113302634A (zh) 2021-08-24
CN113302634B true CN113302634B (zh) 2024-05-24

Family

ID=69024728

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980093798.XA Pending CN113614757A (zh) 2019-02-11 2019-12-09 用于事件的人机混合预测的系统和方法
CN201980088654.5A Active CN113302634B (zh) 2019-02-11 2019-12-11 学习和预测关键短语以及生成预测的系统、介质和方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201980093798.XA Pending CN113614757A (zh) 2019-02-11 2019-12-09 用于事件的人机混合预测的系统和方法

Country Status (4)

Country Link
US (3) US11625562B2 (zh)
EP (2) EP3903257A1 (zh)
CN (2) CN113614757A (zh)
WO (2) WO2020167366A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3903257A1 (en) * 2019-02-11 2021-11-03 HRL Laboratories, LLC System and method for human-machine hybrid prediction of events
WO2020197601A1 (en) * 2019-03-26 2020-10-01 Hrl Laboratories, Llc Systems and methods for forecast alerts with programmable human-machine hybrid ensemble learning
US11475329B2 (en) * 2019-04-03 2022-10-18 RELX Inc. Systems and methods for adaptive training of a machine learning system processing textual data
JP2022553373A (ja) * 2019-10-23 2022-12-22 シービーアールイー インコーポレイテッド 不動産ソリューションを予測するシステム及び方法
US11948560B1 (en) 2019-11-07 2024-04-02 Kino High Coursey Method for AI language self-improvement agent using language modeling and tree search techniques
US11645479B1 (en) 2019-11-07 2023-05-09 Kino High Coursey Method for AI language self-improvement agent using language modeling and tree search techniques
US11556737B2 (en) 2019-12-04 2023-01-17 At&T Intellectual Property I, L.P. System, method, and platform for auto machine learning via optimal hybrid AI formulation from crowd
TWI725662B (zh) * 2019-12-13 2021-04-21 國立交通大學 自動化調整回合制遊戲強度之方法
RU2757264C2 (ru) * 2019-12-24 2021-10-12 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для обработки пользовательского разговорного речевого фрагмента
CN111611369B (zh) * 2020-05-22 2023-06-20 腾讯科技(深圳)有限公司 基于人工智能的交互方法和相关装置
US11562388B2 (en) * 2020-07-17 2023-01-24 Sap Se Machine learned models for items with time-shifts
US11468869B2 (en) 2020-08-18 2022-10-11 Micron Technology, Inc. Image location based on perceived interest and display position
US11657083B2 (en) 2020-08-18 2023-05-23 Micron Technology, Inc. Image location based on perceived interest
WO2022064679A1 (ja) * 2020-09-28 2022-03-31 日本電気株式会社 予測装置、予測方法、及び、記録媒体
US11416507B2 (en) * 2020-10-26 2022-08-16 Sap Se Integration of timeseries data and time dependent semantic data
US20220164744A1 (en) * 2020-11-20 2022-05-26 International Business Machines Corporation Demand forecasting of service requests volume
US11451842B2 (en) * 2020-12-02 2022-09-20 SimpleBet, Inc. Method and system for self-correcting match states
US11917154B2 (en) * 2020-12-29 2024-02-27 Tencent America LLC End-to-end neural compression with deep reinforcement learning
US11295347B1 (en) * 2021-01-30 2022-04-05 Walmart Apollo, Llc Systems and methods for forecasting campaign parameters using machine learning architectures and techniques
US11977466B1 (en) * 2021-02-05 2024-05-07 Riverbed Technology Llc Using machine learning to predict infrastructure health
US11294929B1 (en) 2021-06-09 2022-04-05 Aeec Smart water data analytics
TW202311961A (zh) * 2021-09-02 2023-03-16 遠傳電信股份有限公司 應用程式異常偵測方法及其系統
CN117313709B (zh) * 2023-11-29 2024-03-29 中国科学技术大学 一种基于统计信息和预训练语言模型的生成文本检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104995650A (zh) * 2011-12-27 2015-10-21 汤姆森路透社全球资源公司 用于使用源于社交媒体的数据和情绪分析来生成复合索引的方法及系统
CN106355446A (zh) * 2016-08-31 2017-01-25 镇江乐游网络科技有限公司 一种网络和手机游戏的广告推荐系统
WO2017106559A1 (en) * 2015-12-19 2017-06-22 Prevedere, Inc. Systems and methods for forecasting based upon time series data
US9953080B1 (en) * 2013-04-05 2018-04-24 Hrl Laboratories, Llc Social media data mining for early detection of newsworthy civil unrest events
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法
CN108475387A (zh) * 2016-02-09 2018-08-31 赫尔实验室有限公司 使用社交媒体数据利用个性化激励增加选择共享
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804396B2 (en) * 2001-03-28 2004-10-12 Honda Giken Kogyo Kabushiki Kaisha Gesture recognition system
US8359226B2 (en) * 2006-01-20 2013-01-22 International Business Machines Corporation System and method for marketing mix optimization for brand equity management
CN101075303A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 一种预测新业务潜在用户的数据挖掘模型
US8484069B2 (en) * 2008-06-30 2013-07-09 International Business Machines Corporation Forecasting discovery costs based on complex and incomplete facts
EP2353108A4 (en) * 2008-11-04 2018-01-03 Strossle International AB Method and system for analyzing text
US8583584B2 (en) * 2009-10-20 2013-11-12 Google Inc. Method and system for using web analytics data for detecting anomalies
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
US20130096892A1 (en) * 2011-10-17 2013-04-18 Alfred H. Essa Systems and methods for monitoring and predicting user performance
US9047423B2 (en) * 2012-01-12 2015-06-02 International Business Machines Corporation Monte-Carlo planning using contextual information
AU2013257529B2 (en) * 2012-11-23 2016-11-17 Solar Analytics Pty Ltd Monitoring system
US20170308678A1 (en) 2014-02-19 2017-10-26 Hrl Laboratories, Llc Disease prediction system using open source data
US10346752B2 (en) * 2014-04-17 2019-07-09 International Business Machines Corporation Correcting existing predictive model outputs with social media features over multiple time scales
CN106462923A (zh) * 2014-05-28 2017-02-22 惠普发展公司,有限责任合伙企业 预测社会、经济和学习成果
US20160005055A1 (en) * 2014-07-01 2016-01-07 Siar SARFERAZ Generic time series forecasting
US9630318B2 (en) * 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US11295217B2 (en) * 2016-01-14 2022-04-05 Uptake Technologies, Inc. Localized temporal model forecasting
US20170300939A1 (en) * 2016-04-19 2017-10-19 Anto Chittilappilly Optimizing promotional offer mixes using predictive modeling
US20170316324A1 (en) * 2016-04-27 2017-11-02 Virginia Polytechnic Institute And State University Computerized Event-Forecasting System and User Interface
US11288584B2 (en) * 2016-06-23 2022-03-29 Tata Consultancy Services Limited Systems and methods for predicting gender and age of users based on social media data
US10372132B2 (en) * 2016-12-12 2019-08-06 Apple Inc. Guidance of autonomous vehicles in destination vicinities using intent signals
EP3903257A1 (en) * 2019-02-11 2021-11-03 HRL Laboratories, LLC System and method for human-machine hybrid prediction of events

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104995650A (zh) * 2011-12-27 2015-10-21 汤姆森路透社全球资源公司 用于使用源于社交媒体的数据和情绪分析来生成复合索引的方法及系统
US9953080B1 (en) * 2013-04-05 2018-04-24 Hrl Laboratories, Llc Social media data mining for early detection of newsworthy civil unrest events
WO2017106559A1 (en) * 2015-12-19 2017-06-22 Prevedere, Inc. Systems and methods for forecasting based upon time series data
EP3391252A1 (en) * 2015-12-19 2018-10-24 Prevedere, Inc. Systems and methods for forecasting based upon time series data
CN108475387A (zh) * 2016-02-09 2018-08-31 赫尔实验室有限公司 使用社交媒体数据利用个性化激励增加选择共享
CN106355446A (zh) * 2016-08-31 2017-01-25 镇江乐游网络科技有限公司 一种网络和手机游戏的广告推荐系统
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Also Published As

Publication number Publication date
EP3924905A1 (en) 2021-12-22
US20200258120A1 (en) 2020-08-13
CN113614757A (zh) 2021-11-05
EP3903257A1 (en) 2021-11-03
US11645590B2 (en) 2023-05-09
US20220261603A1 (en) 2022-08-18
US11361200B2 (en) 2022-06-14
CN113302634A (zh) 2021-08-24
US20200257943A1 (en) 2020-08-13
WO2020167371A1 (en) 2020-08-20
US11625562B2 (en) 2023-04-11
WO2020167366A1 (en) 2020-08-20

Similar Documents

Publication Publication Date Title
CN113302634B (zh) 学习和预测关键短语以及生成预测的系统、介质和方法
Yan et al. Data mining in the construction industry: Present status, opportunities, and future trends
Battle et al. Characterizing exploratory visual analysis: A literature review and evaluation of analytic provenance in tableau
US8583568B2 (en) Systems and methods for detection of satisficing in surveys
Ghazal et al. Application of knowledge discovery in database (KDD) techniques in cost overrun of construction projects
US8538915B2 (en) Unified numerical and semantic analytics system for decision support
US20120323558A1 (en) Method and apparatus for creating a predicting model
Akerkar et al. Intelligent techniques for data science
Burhanuddin et al. Analysis of mobile service providers performance using naive bayes data mining technique
Sui Hierarchical text topic modeling with applications in social media-enabled cyber maintenance decision analysis and quality hypothesis generation
Yung et al. A quality framework for statistical algorithms
Stødle et al. Data‐driven predictive modeling in risk assessment: Challenges and directions for proper uncertainty representation
Carvalho et al. Analysing the importance of variables for sewer failure prediction
Neumann et al. Government websites as data: a methodological pipeline with application to the websites of municipalities in the United States
CN117112866A (zh) 基于图表示学习的社交网络节点迁移可视化方法及系统
Joseph et al. Arab Spring: from newspaper
Samir et al. Improving bug assignment and developer allocation in software engineering through interpretable machine learning models
Poornima et al. Prediction of water consumption using machine learning algorithm
Antonio et al. Data mining and predictive analytics for e-tourism
US20230030341A1 (en) Dynamic user interface and machine learning tools for generating digital content and multivariate testing recommendations
CN112948681A (zh) 一种融合多维度特征的时间序列数据推荐方法
Liu Apache spark machine learning blueprints
Sürer et al. Discovering interpretable structure in longitudinal predictors via coefficient trees
Lee Seeing the whole elephant: integrated advanced data analytics in support of RWE for the development and use of innovative pharmaceuticals
US11907241B2 (en) Data recommender using lineage to propagate value indicators

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant