CN115718740A - 用于稀疏时间序列数据集的数据插补的方法和装置 - Google Patents

用于稀疏时间序列数据集的数据插补的方法和装置 Download PDF

Info

Publication number
CN115718740A
CN115718740A CN202210167689.1A CN202210167689A CN115718740A CN 115718740 A CN115718740 A CN 115718740A CN 202210167689 A CN202210167689 A CN 202210167689A CN 115718740 A CN115718740 A CN 115718740A
Authority
CN
China
Prior art keywords
data
value
predicted
extremum
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210167689.1A
Other languages
English (en)
Inventor
A·查特吉
S·保罗
V·S·阿格尼斯瓦兰
U·杜塔
Y·亚达夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Walmart Inc
Original Assignee
Wal Mart Stores Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wal Mart Stores Inc filed Critical Wal Mart Stores Inc
Publication of CN115718740A publication Critical patent/CN115718740A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施例涉及用于稀疏时间序列数据集的数据插补的方法和装置。在各种示例中,系统可以获得第一时间序列数据集,该第一时间序列数据集包括多个数据元素。每个数据元素可以包括值数据(value data)和对应的时间数据。基于第一时间序列数据集,系统可以生成第二数据集和第三数据集。第二数据集可以指示具有缺失值数据的一个或多个数据元素,并且第三数据集可以包括极值数据(extremeness data)。极值数据可以指示多个数据元素中的每个数据元素的极值得分。附加地,基于第一时间序列数据集、第二数据集和第三数据集,系统可以实现操作集,该操作集针对一个或多个数据元素中的、缺失值数据的每个数据元素来生成替代值数据。

Description

用于稀疏时间序列数据集的数据插补的方法和装置
相关申请的交叉引用
本申请要求于2021年8月24日提交的印度临时专利申请202141038261的优先权,上述优先权申请的全部内容通过引用并入本文。
技术领域
本公开总体上涉及用于具有稀疏度的数据资产的数据插补的装置和方法。
背景技术
资源的分配对于组织的生存能力和利润产生是重要的。在电子商务环境中,诸如人员之类的资源的分配会极大地影响零售业务的效率,以及顾客对零售业务的体验。例如,在顾客下订单之后,顾客必须等待接收订单或使项(item)可拾取的时间越长,顾客的体验变得负面的机会就越大。在各种示例中,零售企业分配资源的能力可以取决于零售企业预测由零售企业提供的产品的需求的能力。然而,需求预测仅与需求预测所基于的数据一样好。在许多情况下,用于预测需求的数据可能具有稀疏度或具有缺失值。具有高稀疏水平的数据可能是由于次优的手动数据收集过程或自动数据收集系统中的技术故障所致。这种数据稀疏性可能显著地损害下游需求预测应用的性能。
在各种示例中,数据插补系统可以预测或确定从基础真实数据集中缺失的值。传统上,这种数据插补系统基于数据可平滑或缺少极端事件或观察的假设。这样,此类的数据插补系统在预测从包括周期性、频繁或多个极端数据事件的基础真实数据集中丢失的值时将是高度不准确的。
发明内容
本文描述的实施例针对输入从包括周期、频繁或多个极端事件的所获得的基础真实时间序列数据中丢失的值或数据。如本文所描述的,极端事件包括一个或多个极端数据元素或值。本文描述的装置和方法可以应用于包括具有更类似高斯分布的多个极端事件或不频繁极端事件的基础真实数据。此外,本文描述的装置和方法可以应用于数据预测应用,例如需求预测应用。
根据各种实施例,示例性系统可以在任何合适的硬件或硬件和软件中实现,诸如在任何合适的计算设备中。在一些实施例中,该系统包括一个或多个处理器和存储指令的存储器资源。在这样的实施例中,一个或多个处理器执行指令使一个或多个处理器获得第一时间序列数据集。在一些实现中,第一时间序列数据集包括多个数据元素,并且每个数据元素包括值数据和对应的时间数据。此外,一个或多个处理器执行指令使一个或多个处理器基于第一时间序列数据集生成第二数据集和第三数据集。在各种实现中,第二数据集可以指示多个数据元素中的缺失值数据的一个或多个数据元素,并且第三数据集可以包括指示针对多个数据元素中的每个数据元素的极值得分的极值数据。此外,一个或多个处理器执行指令使一个或多个处理器基于第一时间序列数据集、第二数据集和第三数据集,实现针对一个或多个数据元素中的、缺失值数据的每个数据元素来生成替代值数据的操作集。
在一些实施例中,提供了一种方法,该方法包括获得第一时间序列数据集。在一些实现中,第一时间序列数据集包括多个数据元素,并且每个数据元素包括值数据和对应的时间数据。此外,该方法包括基于第一时间序列数据集生成第二数据集和第三数据集。在各种示例中,第二数据集可以指示针对多个数据元素中缺失值数据的一个或多个数据元素,并且第三数据集可以包括指示多个数据元素中的每个数据元素的极值得分的极值数据。此外,该方法包括,基于第一时间序列数据集、第二数据集和第三数据集,实现针对一个或多个数据元素中的、缺失值数据的每个数据元素来生成替代值数据的操作集。
在其它实施例中,一种非瞬态计算机可读介质,具有存储在其上的指令,其中指令在由至少一个或多个处理器执行时使计算设备获得第一时间序列数据集。在一些实现中,第一时间序列数据集包括多个数据元素,并且每个数据元素包括值数据和对应的时间数据。此外,一个或多个处理器执行指令使计算设备基于第一时间序列数据集生成第二数据集和第三数据集。在各种实现中,第二数据集可以指示多个数据元素中的缺失值数据的一个或多个数据元素,并且第三数据集可以包括指示多个数据元素中的每个数据元素的极值得分的极值数据。此外,一个或多个处理器执行指令使计算设备基于第一时间序列数据集、第二数据集和第三数据集,实现针对一个或多个数据元素中的、缺失值数据的每个数据元素来生成替代值数据的操作集。
附图说明
通过以下对示例性实施例的详细描述,本公开的特征和优点将被更充分地公开或变得显而易见。示例性实施例的详细描述将与附图一起考虑,在附图中相同的附图标记表示相同的部件,并且其中:
图1是包括数据插补计算设备的示例数据预测系统的框图;
图2示出了根据一些实施例的图1的示例性数据插补计算设备的框图;
图3是示出根据一些实施例的图1的数据插补计算设备的各个部分的示例的框图;
图4是根据一些实施例的递归神经网络(RNN)的单元的示例架构;
图5A示出了根据一些实施例的RNN的示例性前向层;
图5B示出了根据一些实施例的RNN的示例后向层;
图6示出了可以由图1的数据插补计算设备执行的示例方法;
图7示出了可以由图1的数据插补计算设备执行的另一示例方法;以及
图8示出了可以由图1的数据插补计算设备执行的又一示例方法。
具体实施方式
优选实施例的描述意在结合附图来阅读,附图应被视为这些公开的整个书面描述的一部分。具体实施例通过示例方式在附图中展示并且将在本文中详细描述,同时本发明容许各种修改和替代形式。通过以下结合附图对这些示例性实施例的详细描述,所要求保护的主题的目的和优点将变得更加明显。
然而,应当理解,本公开不旨在限于所公开的特定形式。相反,本公开覆盖落入这些示例性实施例的精神和范围内的所有修改、等同物和替换。术语“耦合”、“耦合的”、“可操作地耦合”、“可操作地连接”等应广义地理解为是指机械地、电地、有线地、无线地或以其他方式将设备或组件连接在一起,使得该连接允许相关设备或组件根据该关系的意图彼此操作(例如,通信)。
图1示出了示例性数据预测系统100的框图,该系统包括通过通信网络108可操作地耦合的数据插补计算设备102(例如服务器,诸如应用服务器)、web服务器104、数据预测计算设备106、数据库116、多个顾客计算设备110、112、114和零售商计算设备118。数据插补计算设备102、web服务器104、多个顾客计算设备110、112、114和零售商计算设备118各自可以是包括任何硬件或硬件和软件组合的任何合适的计算设备,以用于处理和操控信息。例如,各自可包括一个或多个处理器、一个或多个现场可编程门阵列(FPGA)、一个或多个专用集成电路(ASIC)、一个或多个状态机、数字电路或任何其它合适的电路。此外,各自都可以向通信网络108发送数据和从通信网络108接收数据。
在一些示例中,数据插补计算设备102可以是计算机、工作站、膝上型计算机、服务器(诸如基于云的服务器)、或任何其他合适的设备。在一些示例中,多个顾客计算设备110、112、114和零售商计算设备118中的每一个可以是蜂窝电话、智能电话、平板电脑、个人助理设备、语音助理设备、数字助理、膝上型计算机、计算机或任何其他合适的设备。在一些示例中,数据插补计算设备102和零售商计算设备118由零售商的用户操作,并且多个顾客计算设备112、114由该零售商的顾客操作。
尽管图1示出了三个顾客计算设备110、112、114,但是数据预测系统100可以包括任何数量的顾客计算设备110、112、114。类似地,数据预测系统100可以包括任何数量的数据插补计算设备102、web服务器104和数据库116。
在一些示例中,web服务器104托管一个或多个网页,诸如零售商的网站。web服务器104可以将与顾客在网站上购买的订单相关的购买数据传输到零售商计算设备118。web服务器104还可以向零售商计算设备118发送搜索请求。搜索请求可以标识由顾客提供的搜索查询。响应于搜索请求,零售商计算设备118可以执行机器学习模型(例如,算法)以确定搜索结果。机器学习模型可以是任何合适的机器学习模型,诸如基于决策树、线性回归、逻辑回归、支持向量机(SVM)、K-均值、或诸如神经网络的深度学习模型。机器学习模型可以利用由零售商计算设备118选择和调整的超参数来执行。零售商计算设备118然后可以将搜索结果发送到web服务器104。web服务器104可以向顾客显示网站上的搜索结果。例如,可以响应于顾客输入的搜索查询在搜索结果网页上显示搜索结果。
第一顾客计算设备110、第二顾客计算设备112和第N顾客计算设备114可以通过通信网络108与web服务器104通信。例如,多个顾客计算设备110、112、114中的每一个可用于查看、访问由web服务器104托管的网站并与之交互。在一些示例中,web服务器104托管允许购买物品(item)的零售商的网站。网站还可以允许顾客通过例如搜索栏来搜索网站上的项。操作多个顾客计算设备110、112、114之一的顾客可访问网站,并通过将一个或多个项输入到搜索栏来执行对网站上的项的搜索。作为响应,网站可以返回标识一个或多个项的搜索结果,如上面和这里进一步描述的。网站可允许操作者将一个或多个项添加到在线购物车,并允许顾客对购物车进行“结帐”以购买物品。
数据插补计算设备102还可用于通过通信网络108与数据库116通信。例如,数据插补计算设备102可将数据存储到数据库116并从数据库116读取数据。数据库116可以是远程存储设备,诸如基于云的服务器、盘(例如,硬盘)、另一应用服务器上的存储设备、联网计算机、或任何合适的远程存储装置。虽然示出为远离数据插补计算设备102,但是在一些示例中,数据库116可以是本地存储设备,诸如硬盘驱动器、非易失性存储器或USB棒。
在一些示例中,数据库116存储从web服务器104接收的订单数据。订单数据可包括标识由顾客(例如,经由顾客计算设备110、112和114)在诸如网站等电子商务平台上购买的一个或多个物品的数据。另外,订单数据可以包括标识何时购买一个或多个物品中的每一个的时间和/或日期(例如,相应的时间戳)的数据。此外,订单数据可以包括识别收取位置的数据。在一些示例中,收取位置可以是特定商店。在这样的示例中,订单数据可以包括指示该特定商店作为收取位置的商店标识符。另外,在这样的示例中,订单数据可以包括标识一个或多个物品中的每一个何时准备好或期望在该特定收取位置收取的时间和/或日期(例如,相应的时间戳)的数据。
在各种实现方式中,数据库116可以包括聚合订单数据。在这种实现中,订单数据可以被聚合以指示预期要在特定时间在特定商店处拾取的订单的总数目。例如,聚合订单数据可以指示准备好在2021年7月15日拾取100,000个项。在各种示例中,聚合订单数据可以是时间序列数据,其中聚合订单数据的多个数据元素中的每个数据元素可以包括表示订单总量的值,用于特定商店的商店标识符,以及对应的时间元素或时间戳(例如,特定时间和日期,或用于拾取的特定日期)。
在一些实现中,数据库116可以包括预处理数据。预处理可以包括具有稀疏性级别的每个时间序列数据集的缺失值指示符数据集和极值(extremeness)指示符数据集。在一些实现中,缺失值指示符数据集可以包括数据,该数据指示特定时间序列数据集的哪些数据元素是缺失的数据/值。附加地,缺失值指示符数据集可以由数据插补计算设备102生成,因为数据插补计算设备102预处理时间序列数据集以确定时间序列数据集中的哪些数据元素是缺失的数据/值。在其他实现中,极值指示符数据集可以包括极值数据。极值数据可以指示针对时间序列数据集的每个数据元素的极值得分。附加地,极值指示符数据集可由数据插补计算设备102生成,因为数据插补计算设备102处理时间序列数据集以确定针对时间序列数据集的每个数据元素的极值得分是缺失的数据/值。
在其他实现中,数据库116可以包括重构数据。重构数据可以包括在数据插补计算设备102实现一个或多个数据重构操作时生成的数据。如下所述,在一些实现中,数据插补计算设备102可以实现一个或多个数据重构操作以确定并生成替代数据(substitutedata)来替换时间序列数据的缺失数据。附加地,在这种实现中,数据插补计算设备102可以在实现一个或多个数据重构操作时利用预处理数据来确定和生成替代数据。在一些示例中,重构数据可以包括与所确定的预测输出值和/或对应的极值得分相关联的数据。
在一些实现中,数据库116可以存储一个或多个机器学习模型,该机器学习模型在由数据预测计算设备执行时,使数据预测计算设备106能确定/预测特定商店在未来时间的需求水平或订单量。在一些实现中,数据预测计算设备106可以基于聚合订单数据或重构订单数据进行将来的确定或预测。
通信网络108可以是
Figure BDA0003517166820000071
网络,诸如
Figure BDA0003517166820000072
网络的蜂窝网络,
Figure BDA0003517166820000073
网络,卫星网络,无线局域网(LAN),利用射频(RF)通信协议的网络,近场通信(NFC)网络,连接多个无线LAN的无线城域网(MAN),广域网(WAN)或任何其他合适的网络。通信网络108可以提供对例如互联网的接入。
数据插补计算设备102可以实现一个或多个数据重构操作或过程以利用替代数据来替换缺失数据。在一些实现中,特定商店的聚合订单数据可以具有一些稀疏水平或缺失数据。在这种实现中,可以由数据插补计算设备102生成的聚合订单数据可以是时间序列数据集。例如,时间序列聚合订单数据集可以包括多个数据元素x0、x1、x2、x3、x4…xt,其中x是特定商店准备好或期望于在t=时间元素或时间戳时被拾取的总订单量或聚合订单量。此外,时间序列聚合订单数据集可以具有一个或多个具有丢失数据/值的数据元素。例如,在前面的示例之后,x2,x3可以具有标识t=2、3处的订单卷缺失数据。附加地,数据插补计算设备102可以实现一个或多个数据重构操作以确定替代数据/值来替换缺失数据/值,并且生成包括代替缺失数据的、替代数据的重构时间序列数据集。在一些示例中,数据插补计算设备102可以使用时间序列聚合订单数据集的原始数据来实现一个或多个数据重构操作。
在一些实现中,数据插补计算设备102可以使用原始时间序列聚合订单数据集来实现一个或多个预处理操作或过程。附加地,数据插补计算设备102可以实现一个或多个预处理操作以提取或生成可以在一个或多个数据重构操作中被利用的附加信息或数据。在这种实现中,数据插补计算设备102可以处理并确定从原始时间序列聚合订单数据集中缺失的数据。附加地,数据插补计算设备102可以生成第二数据集(例如,m1、m2、……、mn),这指示缺失数据的时间序列聚合订单数据集中的一个或多个数据元素。在一些示例中,第二数据集可以包括缺失数据/值指示符,以指示时间序列聚合订单数据集的哪些数据元素是缺失的数据/值。例如,示例时间序列聚合订单数据集包括数据元素x1,x2,x3,x4,其中x3是指示t=3处的聚合订单卷的缺失数据。数据插补计算设备102可以处理时间序列聚合订单数据集以确定哪些数据元素是缺失数据,并且生成指示哪些数据元素是缺失数据的第二数据集。在该示例中,“0”可以表示或指示时间序列聚合订单数据集的哪些数据元素是缺失的数据/值,而“1”可以表示或指示时间序列聚合订单数据集的哪些数据元素具有数据/值。这样,对应的第二数据集可以包括数据元素m1、m2、m3和m4,其中m1、m2和m4都具有数据值“1”,而m3具有数据值“0”。
在各种实现中,基于原始时间序列聚合订单数据集,数据插补计算设备102可以实现一个或多个预处理操作以确定原始时间序列聚合订单数据集的哪些数据元素是“极值的(extreme)”或离群(outlier)的。附加地,数据插补计算设备102可以生成包括极值数据的第三组数据(例如,v1、v2、……、vn)。极值数据可以包括与原始时间序列数据中的每个数据元素相关联的极值指示符或得分。在一些实现中,数据插补计算设备102可以基于常态阈值来确定时间序列聚合订单数据集的每个数据元素的极值得分。在这种实现中,常态阈值可以基于时间序列聚合阶数据集的平均值的标准偏差。
在一些实现中,数据插补计算设备102可以使用原始时间序列聚合订单数据集,第二数据集和第三数据集来实现一个或多个数据重构操作。附加地,数据插补计算设备102可以重构原始时间序列数据集(例如,时间序列聚集订单数据)或生成重构的时间序列数据集,该重构的时间序列数据集包括原始时间序列数据集的数据元素和替代数据或值。在一些示例中,基于替代值,数据插补计算设备102可以生成具有替代值的新的或替代的数据元素,以利用缺失的数据/值替换相应的数据元素。在其他示例中,数据插补计算设备102可以将所生成的替代值添加到具有缺失数据/值的对应数据元素。
数据预测计算设备106可以利用(多个)重构的时间序列数据集来训练机器学习模型(例如,算法)。经训练的机器学习模型可以生成用于商店的订单量预测或需求预测。在各种实现中,数据预测计算设备106可以将经训练的机器学习模型应用于重构的时间序列数据集以生成特定商店的订单卷预测。机器学习模型可以是任何合适的机器学习模型,诸如基于决策树,线性回归,逻辑回归,支持向量机(SVM),K-means的机器学习模型,或诸如神经网络的深度学习模型。机器学习模型可以利用由数据预测计算设备106选择和调整的超参数来执行。附加地,数据预测计算设备106可以向零售方计算设备118提供(多个)商店的订货量预测。零售商计算设备118然后可以基于该(多个)商店的订单量预测来实现用于向该商店分配资源的一个或多个操作。
图2示出了图1的示例数据插补计算设备102的框图。数据插补计算设备102可以包括一个或多个处理器202,工作存储器204,一个或多个输入/输出设备206,指令存储器208,收发器212,一个或多个通信端口214,以及显示器216,都可操作地耦合到一个或多个数据总线210。数据总线210允许各种设备之间的通信。数据总线210可以包括有线或者无线通信信道。
处理器202可以包括一个或多个不同的处理器,每个处理器具有一个或多个核。每个不同的处理器可以具有相同或不同的结构。处理器202可以包括一个或多个中央处理单元(CPU),一个或多个图形处理单元(GPU),专用集成电路(ASIC),数字信号处理器(DSP)等。
指令存储器208可以存储可由处理器202访问(例如,读取)和执行的指令。例如,指令存储器208可以是非瞬态计算机可读存储介质,诸如只读存储器(ROM),电可擦除可编程只读存储器(EEPROM),闪存,可移动盘,CD-ROM,任何非易失性存储器或任何其它合适的存储器。处理器202可以被配置为通过执行存储在指令存储器208上的实施该功能或操作的代码来执行特定功能或操作。例如,处理器202可以被配置为执行存储在指令存储器208中的代码,以执行这里公开的任何功能,方法或操作中的一项或多项。
附加地,处理器202可以将数据存储到工作存储器204并从工作存储器204读取数据。例如,处理器202可以将一组工作指令存储到工作存储器204,诸如从指令存储器208加载的指令。处理器202还可以使用工作存储器204来存储在数据插补计算设备102的操作期间创建的动态数据。工作存储器204可以是随机存取存储器(RAM),例如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM),或任何其它合适的存储器。
输入/输出设备206可以包括允许数据输入或输出的任何合适的设备。例如,输入/输出设备206可以包括键盘,触摸板,鼠标,触笔,触摸屏,物理按钮,扬声器,麦克风或任何其他合适的输入或输出设备中的一项或多项。
(多个)通信端口214可以包括例如串行端口,诸如通用异步接收器/发送器(UART)连接,通用串行总线(USB)连接,或任何其他合适的通信端口或连接。在一些示例中,(多个)通信端口214允许对指令存储器208中的可执行指令进行编程。在一些示例中,(多个)通信端口214允许诸如交互数据,产品数据和/或关键字搜索数据等数据的传送(例如,上传或下载)。
显示器216可以显示用户界面218。用户界面218可以使用户能与数据插补计算设备102交互。例如,用户界面218可以是零售方的应用程序的用户界面,其允许顾客查看零售方的网站并与之交互。在一些示例中,用户可以通过接合输入/输出设备206来与用户界面218交互。在一些示例中,显示器216可以是触摸屏,其中用户界面218被显示在触摸屏上。
收发器212允许与诸如图1的通信网络108的网络通信。例如,如果图1的通信网络108是蜂窝网络,则收发器212被配置为允许与蜂窝网络通信。在一些示例中,基于数据插补计算设备102将在其中操作的通信网络108的类型来选择收发器212。处理器202可操作以经由收发器212从网络(诸如图1的通信网络108)接收数据或向其发送数据。
数据插补
图3是图示了图1的数据插补计算设备的各个部分的示例的框图。如图3所示,数据插补计算设备102可以包括预处理引擎302和数据重构引擎306。在一些示例中,预处理引擎302和数据重构引擎306中的一项或多项可以用硬件来实现。在其它示例中,预处理引擎302和数据重构引擎306中的一项或多项可以被实现为由诸如图2的处理器202等一个或多个处理器可执行的、维护在诸如图2的指令存储器208等有形的非瞬态存储器中的可执行程序。
附加地,在各种实现中,图3的数据库116可以存储订单数据310,聚合订单数据311,预处理数据312,重构数据313和重构订单数据314。订单数据310可以包括标识由客户(例如,经由客户计算设备110,112和114)在诸如网站等电子商务平台上购买的一个或多个订单的数据。附加地,订单数据310可以包括标识何时购买一个或多个物品中的每一个的时间和/或日期(例如,对应的时间戳)的数据。附加地,订单数据310可以包括标识拾取位置的数据。在一些示例中,拾取位置可以是特定商店。在这些示例中,订单数据310可以包括指示该特定商店作为拾取位置的商店标识符。附加地,在这种示例中,订单数据310可以包括标识一个或多个项中的每一个项准备好或被预期在该特定拾取位置处被拾取时的时间和/或日期(例如,对应的时间戳)的数据。
聚合订单数据311包括经聚合的订单数据310。在一些实现中,聚合订单数据311可以包括指示被期望在特定时间在特定商店处拾取的订单的总数目的数据。在各种示例中,聚合订单数据可以是时间序列数据。在这种示例中,聚合订单数据可以包括多个数据元素。附加地,多个数据元素中的每个数据元素可以包括表示订单总量的值或值数据,针对特定商店的商店标识符,以及对应的时间元素或时间戳(例如,特定时间和日期,或用于拾取的特定日期,或在该数据元素中表示的订单准备好用于拾取时)。在聚集订单数据311是时间序列数据(例如,时间序列聚集订单数据311)的示例中,聚集订单数据311可以包括第一数据元素,该第一数据元素指示在2021年7月15日在商店A准备好或预期准备好拾取100,000个项;第二数据元素指示95,000个项的第二数据元素在2021年7月16日准备好或预期准备好在商店A拾取,第三数据元素指示103,000个项的在2021年7月17日准备好或预期准备好在商店A拾取。
在各种实现中,聚合订单数据311可能具有缺失的数据/值。在这种实现中,数据插补计算设备102可以实现一个或多个数据重构操作或过程以利用替代数据替换缺失数据。在各种示例中,数据插补计算设备102可以生成包括替代数据的经重构的订单数据314。在一些示例中,经重构的订单数据314可以包括聚合订单数据311的数据元素和替代数据元素,该替代数据元素包括替代数据来代替聚合订单数据311中的、具有(多个)缺失数据/值的数据元素。在其它示例中,经重构的订单数据314可以包括聚合订单数据311的数据元素、以及被添加到聚合订单数据311的具有缺失数据/元素的、对应数据元素中的每一项的替代数据。
在各种实现中,数据库116存储标识和表征一个或多个机器学习模型的机器学习数据320。在各种实现中,数据预测计算设备106可以利用聚合订单数据311和机器学习数据320的机器学习模型来确定和生成针对特定商店的(多个)订单量预测。然而,在聚集订单数据311具有缺失的数据的示例中,数据预测计算设备106可以利用对应的重构的订单数据314和机器学习数据320的机器学习模型来确定并生成针对特定商店的(多个)订单量预测。
在一些实现中,特定商店的聚集订单数据311可以是时间序列数据集。例如,时间序列数据集可以包括多个数据元素x0、x1、x2、x3、x4、……、xt,其中x=在t=时间的特定商店的聚合订单卷。附加地,时间序列聚合订单数据311可以具有某种水平的稀疏性或缺失数据。例如,在前面的例子之后,x2、x3可以具有标识t=2,3处的订单卷缺失的数据。在这样的实现中,数据插补计算设备102可以利用时间序列聚合订单数据311来确定和生成替代数据/值,并且生成包括替代数据/值来代替缺失数据的重构的时间序列聚合订单数据311(或重构的命令数据314)。
预处理数据312可以包括缺失值指示符数据315和极值指示符数据316。在一些实现中,缺失值指示符数据315可以包括指示特定时间序列数据集的哪些数据元素是缺失数据/值的数据。附加地,丢失值指示符数据315可由预处理引擎302产生,因为预处理引擎302处理时间序列数据集(诸如时间序列聚合订单数据311)以确定时间序列数据集中的哪些数据元素是丢失的数据/值。在其它实现中,极值指示符数据316可以包括极值数据。极值数据可以指示时间序列数据集的每个数据元素的极值得分。附加地,极值指示符数据316可以由预处理引擎302产生,因为预处理引擎302处理时间序列数据集(诸如时间序列聚集订单数据311),以确定针对时间序列数据集的每个数据元素的极值得分是缺失的数据/值。
重构数据313可以包括在一个或多个数据重构操作的实现期间生成的数据。如下所述,在一些实现中,数据重构引擎306可以实现一个或多个数据重构操作以确定并生成替代数据来替换时间序列数据的缺失数据,诸如时间序列聚合订单数据311。附加地,在这样的实现中,数据重构引擎306可以在实现一个或多个数据重构操作时利用预处理数据来确定和生成替代数据。在一些示例中,重构数据313可以包括与所确定的预测输出值和/或相应的极值分数相关联的数据。
预处理引擎302可以实现一个或多个预预处理操作以处理具有(多个)缺失数据/值的时间序列聚合订单数据311,以确定并产生用于由数据重构引擎306实现的数据重构过程的附加信息。在一些实现中,预处理引擎302可以实现一个或多个预处理操作以处理和确定从时间序列聚合订单数据311中缺失的数据。附加地,预处理引擎302可以生成第二数据集(例如,m1、m2、……、mn)或缺失值指示符数据315,该第二数据集(例如,m1、m2、……、mn)或缺失值指示符数据315指示作为(多个)缺失数据/值的聚合订单数据311的一个或多个数据元素。在一些示例中,第二数据集可以包括缺失数据/值指示符,以指示时间序列聚合订单数据311集中的哪些数据元素是缺失的数据/值。例如,示例时间序列聚合订单数据311包括数据元素x1、x2、x3、x4,其中x3是指示t=3处的聚合订单量的缺失数据。预处理引擎302可以处理聚合订单数据311以确定哪些数据元素是缺失数据,并生成指示哪些数据元素是缺失数据的第二组数据。例如,“0”可以表示或指示原始时间序列数据的哪些数据元素是缺失数据/值,而“1”可以表示或指示原始时间序列数据的哪些数据元素具有数据/值。这样,与示例时间序列聚合订单数据311相对应的第二数据集可以包括数据元素m1、m2、m3和m4,其中m1,m2和m4都具有数据值“1”,而m3具有数据值“0”。
在一些实现中,预处理引擎302可以实现一个或多个预处理操作以处理和确定时间序列聚合订单数据311的哪些数据元素是“极值的”或离群值。此外,预处理引擎302可以生成包括极值数据的第三组数据(例如,v1、v2、……、vn)或极值指示符数据316。极值数据可以包括与时间序列聚合订单数据311的每个数据元素相关联的极值指示符或得分。在各种实现中,预处理引擎302可以通过基于时间序列聚合订单数据311的平均值的标准偏差确定常态阈值,来确定时间序列聚合订单数据311的每个数据元素的极值得分。例如,极值得分vt可以被定义如下:
Figure BDA0003517166820000151
其中ε1=μ-2σ;以及
ε2=μ+2σ.
数据重建引擎306可以实现一个或多个数据重建操作以确定并生成替代数据以替换时间序列聚合订单数据311的缺失数据。在一些实现中,数据重建引擎306可以利用数据重建过程中的原始时间序列聚合订单数据311。附加地,数据重构引擎306还可以利用指示时间序列聚合订单数据311的哪些数据元素是(多个)缺失的数据/值的对应第二数据集,以及包括极值数据的对应的第三数据集。
在一些实现中,数据重建引擎306可以在一个或多个数据重建操作的实现中利用递归神经网络(RNN)。在这样的实现中,数据重构引擎306可以利用两个分离的双向长短期存储器(LSTM)网络来确定和生成具有丢失数据/值的时间序列聚合命令数据311的丢失数据/值。图4示出了RNN的小区的示例性体系结构。如图4所示,RNN单元420可以具有循环层(例如406、416)和回归层(408、422)。RNN单元420可以通过处理原始时间序列数据的数据元素的输入值402(例如,时间序列聚合订单数据311的数据元素的值或值数据)和输入极值得分404(例如,时间序列聚合订单数据311的数据元素的对应极值得分)来确定预测输出值410和对应的预测极值分数415。给定原始时间序列数据(例如,时间序列聚合订单数据311)中的可能缺失值,使用“补码输入值404”(例如,xc t)代替输入值402。类似地,当输入极值得分404(vc t)缺失时,使用“补码输入值414”(例如,vc t)。这样,RNN单元420可以根据以下等式确定预测输出值410和对应的预测极值得分415。
Figure BDA0003517166820000161
Figure BDA0003517166820000162
Figure BDA0003517166820000163
Figure BDA0003517166820000164
Figure BDA0003517166820000165
Figure BDA0003517166820000166
Figure BDA0003517166820000167
Figure BDA0003517166820000168
Figure BDA0003517166820000169
其中:
等式(2)表示回归层(regression layer)408;
等式(5)表示递归层(recurrent layer)406;
等式(6)表示回归层418;
等式(9)表示递归层416;
Figure BDA00035171668200001610
指示级联操作;
Figure BDA0003517166820000171
以及
Figure BDA0003517166820000172
在一些实现中,数据重构引擎306可以利用两个单独的双向长短期存储器(LSTM)网络来确定并且生成具有缺失数据/值的时间序列聚合命令数据311的缺失数据/值。在这样的实现中,双向LSTM网络可以利用具有已知数据/值的时间序列聚合命令数据311的数据元素来确定具有缺失数据/值的时间序列聚合命令数据311的数据元素的替代数据/值。另外,双向LSTM网络可以实现前向层和后向层,以确定前向层和后向层之间的预测值/数据之间的任何差异。
图5A图示了RNN的示例前向层。如图5A所示,时间序列聚合订单数据311包括数据元素x1 502、x2 511、x3 521和x4 531,并且数据元素x2 511和x3 521具有缺失数据/值。另外,图5A中的每个RNN单元(例如,RNN单元501、510、520和530)可以具有与结合图4图示和讨论的RNN单元类似的架构和配置。此外,假设x2 511和x3 521具有缺失数据/值,则x2 511和x3 521也不具有对应的预测极值得分,而x1 502和x4 531具有相应的预测极值得分。如图5所图示,在前向层中,RNN单元501可以利用等式2至等式10并基于x1 502和对应的v1 505来确定预测输出值504和相应的预测极值得分507。附加地,预测输出值504和对应的预测极值分数507可以是RNN单元510的输入数据。这样,RNN单元510可以利用等式2至等式10并基于预测输出值504和预测极值得分507来确定预测输出值513和对应的预测极值得分516。此外,预测输出值513和对应的预测极值得分516可以是RNN单元520的输入数据。这样,RNN单元520可以利用等式2至10并基于预测输出值513和预测极值得分516来确定预测输出值523和对应的预测极值得分526。此外,预测输出值523和对应的预测极值得分526可以是RNN单元530的输入数据。这样,RNN单元530可以利用等式2至等式10并基于预测输出值523和预测极值得分526来确定预测输出值533和对应的预测极值得分536。
图5B图示了RNN的示例后向层。在图5A的示例之后,图5B图示了在后向层中,RNN单元530可以利用等式2至等式10并基于x4 531和对应的v4 534来确定预测输出值551和对应的预测极值得分552。此外,预测输出值551和对应的预测极值得分552可以是RNN单元520的输入数据。这样,RNN单元520可以利用等式2至等式10并基于预测输出值551和预测极值得分552来确定预测输出值553和对应的预测极值得分554。此外,预测输出值553和对应的预测极值得分554可以是RNN单元510的输入数据。这样,RNN单元510可以利用等式2至等式10并基于预测输出值553和预测极值得分554来确定预测输出值555和对应的预测极值得分556。此外,预测输出值555和对应的预测极值得分556可以是RNN单元501的输入数据。这样,RNN单元501可以利用等式2至等式10并基于预测输出值555和预测极值得分556来确定预测输出值557和对应的预测极值得分558。
在一些实现中,在前向层中确定的预测输出值和对应的预测极值得分与在后向层中确定的对应的预测输出值和对应的极值得分相比可以具有值/得分的差异。例如,预测输出值513和对应的预测极值得分516可以具有与预测输出值555和对应的预测极值得分556不同的值/得分。数据重构引擎306可以基于这样的数据元素的预测值/得分(例如,预测输出值513和对应的预测极值得分516,以及预测输出值555和对应的预测极值得分556)和与在后向层中确定的值/得分相比在前向层中确定的值/得分之间确定的差异或损失,来确定具有缺失数据/值的数据元素的经调整的预测输出值。另外,可以通过评估具有已知数据/值的原始时间序列数据(例如,时间序列聚合订单数据311)的数据元素的预测输出值和对应的预测极值得分来确定差异或损失。例如,在图5A和图5B的示例之后,数据重构引擎306可以利用x1和x4的预测输出值和对应的预测极值得分来确定差异或损失。另外,数据重构引擎306可以根据下面的等式确定差异或损失。
Figure BDA0003517166820000181
其中损耗函数根据以下等式确定。
Figure BDA0003517166820000191
Figure BDA0003517166820000192
Figure BDA0003517166820000193
如上所述,等式12表示xt(例如,预测输出值504、预测输出值557、预测输出值533和预测输出值551)和vt(例如,对应的预测极值得分507、对应的预测极值得分558、对应的预测极值得分536和对应的预测极值得分552)的观察值的前向和后向估计之间的差异。另外,等式13表示vt中的观察值的极值得分的预测误差(例如,对应的预测极值得分507、对应的预测极值得分558、对应的预测极值得分536和对应的预测极值得分552)。此外,等式14表示xt中的观察值(例如,预测输出值504、预测输出值557、预测输出值533和预测输出值551)的总预测误差。
在一些实现中,原始时间序列数据集的数据元素的经调整的预测输出值(例如,时间序列聚合订单数据311)可以被用作原始时间序列数据集的数据元素中缺失数据/值的数据元素的替代数据。在这样的实现中,数据插补计算设备102可以生成重构的时间序列数据集。另外,重构的时间序列数据集可以至少包括具有已知数据/值和替代数据/值的原始时间序列数据集的数据元素。在一些示例中,基于替代值或数据,数据重构引擎306可生成具有(多个)替代值或数据的新的或替代的(多个)数据元素。另外,数据重构引擎306可以生成重构的时间序列数据集,该重构的时间序列数据集包括具有已知数据/值的原始时间序列数据集的数据元素,以及替换原始时间序列数据集的具有(多个)缺失数据/值的(多个)对应数据元素的(多个)替代数据元素。例如,原始时间序列数据集的第二数据元素和原始时间序列数据集的第五数据元素可能具有缺失的数据/值。另外,数据重构引擎306可实现一个或多个数据重构操作以生成第一替代数据/值以替换第二数据元素的缺失数据/值,以及生成第二替代数据/值以替换第五数据元素的缺失数据/值。此外,数据重构引擎306可以生成具有第一替代数据/值的第一替代数据元素和具有第二替代数据值的第二替代数据元素。这样,数据重构引擎306生成重构的时间序列数据集,其包括具有已知数据/值的原始时间序列数据集的数据元素以及第一替代数据元素和第二替代数据元素。
在其他示例中,数据插补计算设备102可以将所生成的替代值/数据添加到原始时间序列数据集的具有缺失数据/值的对应数据元素。例如,原始时间序列数据集的第一数据元素可以具有缺失的数据/值。另外,数据重构引擎306可实现一个或多个数据重构操作以生成替代数据/值以替换第一数据元素的缺失数据/值。此外,数据重构引擎306可以生成具有原始时间序列的数据元素的重构时间序列数据,包括具有缺失数据/值的第一数据元素。此外,数据重构引擎306可以将生成的替代数据/值添加到包括在重构的时间序列数据中的原始时间序列的第一数据元素。由数据重构引擎306生成的每个重构的时间序列数据集可以被存储在数据库116中(例如,重构的订单数据314)。重构的订单数据314可以包括由数据重构引擎306生成的每个重构的时间序列数据集的数据。
在各种实现中,数据预测计算设备106可以利用存储在数据库116中的重构的时间序列数据集来训练机器学习模型(例如,算法)。经训练的机器学习模型可以生成商店的订单量预测或需求预测。在各种实现中,数据预测计算设备106可以将经训练的机器学习模型应用于重构的时间序列数据集以生成特定存储的订单量预测。机器学习模型可以是任何合适的机器学习模型,诸如基于决策树、线性回归、逻辑回归、支持向量机(SVM)、K均值、或诸如神经网络的深度学习模型。机器学习模型可以利用由数据预测计算设备106选择和调整的超参数来执行。
方法学
图6图示了可由数据插补计算设备102执行的示例方法。图7图示了可由数据插补计算设备102执行的另一示例方法。图8图示了可由数据插补计算设备102执行的另一示例方法。在描述图6、图7和图8的示例方法时,出于图示用于执行所描述的步骤或子步骤的适当组件的目的,参考图1、图3和图5的元件。
参考图6的示例方法600,数据插补计算设备102可以获得第一时间序列数据集(602)。在一些示例中,第一时间序列数据集可包括如本文中所述的聚合订单数据(如,时间序列聚合订单数据311)。另外,第一时间序列数据集可以包括多个数据元素。多个数据元素中的每个数据元素可以包括值数据和对应的时间数据。例如,值数据可以指示在特定时间和/或日期和位置(例如,特定商店)可用于收取的总订单量或金额,而时间数据可以指示特定时间和/或日期。在一些示例中,数据元素可包括诸如收取位置的附加数据。在这样的示例中,收取位置可以是由商店标识符表示的特定商店。
基于第一时间序列数据集,数据插补计算设备102可以生成指示具有缺失值数据的一个或多个数据元素的第二数据集和包括极值数据的第三数据集(604)。在一些示例中,极值数据可以指示多个数据元素中的每个数据元素的极值得分。在其它示例中,预处理引擎302可基于第一时间序列数据集(例如聚合订单数据311)确定并产生第二数据集和第三数据集。另外,基于第一时间序列数据集、第二数据集和第三数据集,数据插补计算设备可以实现一个或多个重构操作,以针对一个或多个数据元素中的、缺失值数据的每个数据元素生成替代值数据(606)。在一些示例中,数据重构引擎306可以利用第一时间序列数据集(诸如聚合订单数据311)、第二数据集和第三数据集来实现一个或多个重构操作,以针对一个或多个数据元素中的、缺失值数据的每个数据元素生成替代值数据。
在各种实现中,一个或多个数据重构操作用于确定和生成原始时间序列数据集的具有(多个)缺失数据/值的数据元素的替代数据/值,诸如聚合订单数据311。参考图7的示例方法700,一个或多个数据重构操作包括:数据插补计算设备102获得第一时间序列数据集、第二数据集和第三数据集(702)。在一些示例中,第一时间序列数据集包括多个数据元素,多个数据元素至少包括第一数据元素和第二数据元素。另外,第一数据元素至少包括第一值数据,第二数据元素至少包括第二值数据。在其他示例中,第二数据集指示至少一个数据元素缺失值数据。在又一示例中,第三数据集包括极值数据。极值数据可以至少指示与多个数据元素的第一数据元素相关联的第一极值得分和与多个数据元素的第二数据元素相关联的第二极值得分。
附加地,所述一个或多个重构操作包括:基于第一数据元素和第一极值得分,由数据插补计算设备102确定针对缺失值数据的至少一个数据元素的第一预测输出值、以及针对缺失值数据的该至少一个数据元素的对应的第一预测极值得分(704)。在一些实现中,数据重构引擎306可以利用RNN来确定并生成时间序列聚合订单数据311的数据元素的替代数据/值。另外,如图4,图5A和图5B所示,每个RNN单元420可以利用等式2至等式10来确定缺失值数据的至少一个数据元素的第一预测输出值,以及缺失值数据的该至少一个数据元素对应的第一预测极值得分。
附加地,所述一个或多个重构操作包括:基于第一预测输出值和对应的第一预测极值得分,由数据插补计算设备102确定第二预测输出值和对应的第二预测极值得分(706)。在一些实现中,数据重构引擎306可以利用RNN来确定并生成时间序列聚合订单数据311的数据元素的替代数据/值。另外,如图4,图5A和图5B所示,每个RNN单元420可以利用等式2至等式10来确定第二预测输出值和对应的第二预测极值得分。
附加地,一个或多个重构操作包括:基于第二预测输出值和对应的第二预测极值得分,由数据插补计算设备102确定第三预测输出值和对应的第三预测极值得分(708)。在一些实现中,数据重构引擎306可以利用RNN来确定并生成时间序列聚合订单数据311的数据元素的替代数据/值。另外,如图4,图5A和图5B所图示,每个RNN单元420可以利用等式2至等式10来确定第三预测输出值和对应的第三预测极值得分。
附加地,一个或多个重构操作包括:基于第二数据元素和第二极值得分,由数据插补计算设备102确定至少一个数据元素缺失值数据的第四预测输出值,以及至少一个数据元素缺失值数据的对应的第三预测极值得分(710)。在一些实现中,数据重构引擎306可以利用RNN来确定并生成时间序列聚合订单数据311的数据元素的替代数据/值。另外,如图4,图5A和图5B所图示,每个RNN单元420可以利用等式2至等式10来确定至少一个数据元素缺失值数据的第四预测输出值,以及至少一个数据元素缺失值数据的对应的第四预测极值得分。
附加地,一个或多个重构操作包括:基于第四预测输出值和对应的第四预测极值得分,由数据插补计算设备102确定第五预测输出值和对应的第五预测极值得分(712)。在一些实现中,数据重构引擎306可以利用RNN来确定并生成时间序列聚合订单数据311的数据元素的替代数据/值。另外,如图4,图5A和图5B所示,每个RNN单元420可以利用等式2至等式10来确定第五预测输出值和对应的第五预测极值得分。
附加地,一个或多个重构操作包括:基于第五预测输出值和对应的第五预测极值得分,由数据插补计算设备102确定第六预测输出值和对应的第六预测极值得分(714)。在一些实现中,数据重构引擎306可以利用RNN来确定并生成时间序列聚合订单数据311的数据元素的替代数据/值。另外,如图4,图5A和图5B所示,每个RNN单元420可以利用等式2至等式10来确定第六预测输出值和对应的第六预测极值得分。
图8的示例性方法800图示了用于确定和生成原始时间序列数据集的具有(多个)缺失数据/值的数据元素(诸如聚合订单数据311)的替代数据/值的附加数据重构操作。参考图8的示例方法800,一个或多个数据重构操作包括由数据插补计算设备102至少基于第一预测输出值、第三预测输出值、第四预测输出值和第六预测输出值来确定差异值(802)。在一些示例中,差异值可以进一步至少基于第一预测的极值得分、第三预测的极值得分、第四预测的极值得分和第六预测的极值得分。在各种实现中。在其他示例中,数据重构引擎306可以根据等式11至等式14来确定差异值或损失值。
另外,所述一个或多个重构操作包括:由数据插补计算设备102基于所述差异值、所述第二预测输出值和对应的第二预测极值得分、以及第五预测输出值和对应的第五预测极值得分,来确定具有缺失数据/值的所述至少一个数据元素的经调整的预测值(804)。在一些示例中,数据重构引擎306可以基于差异值、第二预测输出值和对应的第二预测极值得分、以及第五预测输出值和对应的第五预测极值得分,来确定具有缺失数据/值的至少一个数据元素的经调整的预测值。
此外,至少基于经调整的预测值,数据插补计算设备102可以针对具有缺失值数据的至少一个数据元素生成替代值数据(806)。在一些示例中,数据重构引擎306可以至少基于调整后的预测值针对具有缺失值数据的至少一个数据元素来生成替代值数据。此外,数据插补计算设备102可以生成包括第一数据元素、第二数据元素和替代值数据的重构的时间序列数据集。在一些示例中,数据重构引擎306可以利用替代值数据生成新的或替代的数据元素,以利用重构的时间序列数据集中的缺失数据/值替换至少一个数据元素。在其他示例中,数据重构引擎306可以生成具有原始时间序列数据集的数据元素的重构时间序列数据集,包括具有缺失数据/值的至少一个数据元素。另外,数据重构引擎306可将替代值数据添加到具有缺失数据/值的至少一个数据元素以替换缺失数据/值。
尽管以上描述的方法是参考所图示的流程图,但将了解,执行与方法相关联的动作的许多其它方式可以被使用。例如,操作中的一些操作的订单可以被改变,并且所描述的操作中的一些操作可以是可选的。
此外,本文中所描述的方法和系统可以至少部分地以计算机实现的过程和用于实践这些过程的设备的形式来实施。所公开的方法还可以至少部分地以利用计算机程序代码编码的有形的,非瞬态机器可读存储介质的形式来实施。例如,该方法的步骤可以以硬件,由处理器执行的可执行指令(例如,软件)或两者的组合来实施。介质可以包括例如RAM、ROM、CD-ROM、DVD-ROM、BD-ROM、硬盘驱动器、闪存或任何其它非瞬态机器可读存储介质。当计算机程序代码被加载到计算机中并由计算机执行时,计算机变成用于实践该方法的装置。该方法还可以至少部分地以计算机的形式来实施,计算机程序代码被加载计算机中或在所述计算机中被执行,使得所述计算机成为用于实践该方法的专用计算机。当在通用处理器上实现时,计算机程序代码段配置处理器以创建特定的逻辑电路。备选地,该方法可以至少部分地实施在用于执行该方法的专用集成电路中。
本公开中所使用的术语模型包括使用机器学习创建的数据模型。机器学习可以包括在有监督或无监督的设置中训练模型。机器学习可以包括可以被训练以学习各组数据之间的关系的模型。机器学习模型可以基于一组算法,这些算法被设计成通过使用多个处理层对数据中的抽象进行建模。处理层可以由非线性变换组成。模型可以包括例如人工智能、神经网络、深度卷积和递归神经网络。这种神经网络可以由可训练滤波器、变换、投影、散列、合并和正则化的级别组成。该模型可以被用于大规模关系识别任务。可以通过使用本领域普通技术人员已知的各种开放源和专有机器学习工具来创建模型。
提供前述内容是为了说明,解释和描述这些公开的实施例。对这些实施例的修改和调适对于本领域的技术人员是显然的,并且可以在不脱离这些公开内容的范围或精神的情况下作出所述修改和调适。

Claims (20)

1.一种系统,包括:
一个或多个处理器;以及
存储器资源,存储指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器:
获得第一时间序列数据集,所述第一时间序列数据集包括多个数据元素,每个数据元素包括值数据和对应的时间数据;
基于所述第一时间序列数据集,生成第二数据集和第三数据集,所述第二数据集指示所述多个数据元素中的缺失值数据的一个或多个数据元素,所述第三数据集包括指示针对所述多个数据元素中的每个数据元素的极值得分的极值数据;以及
基于所述第一时间序列数据集、所述第二数据集和所述第三数据集,实现针对所述一个或多个数据元素中的、缺失值数据的每个数据元素来生成替代值数据的操作集。
2.根据权利要求1所述的系统,其中所述一个或多个处理器执行所述指令以进一步:
对于所述多个数据元素中的缺失值数据的每个数据元素,利用对应的所述替代值数据来替换所述数据元素。
3.根据权利要求1所述的系统,其中实现所述操作集包括利用递归神经网络(RNN)。
4.根据权利要求3所述的系统,其中所述RNN可以包括两个单独的双向长短期存储器网络。
5.根据权利要求1所述的系统,其中针对所述一个或多个数据元素中的、缺失值数据的每个数据元素生成所述替代值数据的所述操作集包括:
在前向层中,基于所述第一时间序列数据集和所述第三数据集来确定第一预测输出值集和第一预测极值得分集。
6.根据权利要求5所述的系统,其中所述第一时间序列数据集的所述多个数据元素至少包括第一数据元素和第二数据元素,并且所述第三数据集的所述极值数据至少包括与所述第一数据元素相关联的第一极值值和与所述第二数据元素相关联的第二极值值。
7.根据权利要求6所述的系统,其中确定所述第一预测输出值集和所述第一预测极值得分集包括:
基于所述第一数据元素和所述第一极值值,确定针对缺失值数据的至少一个数据元素的第一预测输出值、以及针对缺失值数据的所述至少一个数据元素的对应的第一预测极值值。
8.根据权利要求7所述的系统,其中确定所述第一预测输出值集和所述第一预测极值得分集还包括:
基于所述第一预测输出值和对应的所述第一预测极值值,确定针对缺失值数据的至少另一数据元素的第二预测输出值和对应的第二预测极值值。
9.根据权利要求5所述的系统,其中针对所述一个或多个数据元素中的、缺失值数据的每个数据元素生成所述替代值数据的所述操作集包括:
在后向层中,基于所述第一时间序列数据集和所述第三数据集来确定第二预测输出值集和第二预测极值得分集。
10.根据权利要求9所述的系统,其中针对所述一个或多个数据元素中的、缺失值数据的每个数据元素生成所述替代值数据的所述操作集还包括:
至少基于所述第一预测输出值集、所述第一预测极值得分集、所述第二预测输出值集和所述第二预测极值得分集,来生成差异数据。
11.一种计算机实现的方法,包括:
获得第一时间序列数据集,所述第一时间序列数据集包括多个数据元素,每个数据元素包括值数据和对应的时间数据;
基于所述第一时间序列数据集,生成第二数据集和第三数据集,所述第二数据集指示具有缺失值数据的一个或多个数据元素,所述第三数据集包括指示针对所述多个数据元素中的每个数据元素的极值得分的极值数据;以及
基于所述第一时间序列数据集、所述第二数据集和所述第三数据集,实现一个或多个操作以针对所述一个或多个数据元素中的、缺失值数据的每个数据元素生成替代值数据。
12.根据权利要求11所述的计算机实现的方法,还包括:
对于所述多个数据元素中的缺失值数据的每个数据元素,利用对应的所述替换值数据来替换所述数据元素。
13.根据权利要求11所述的计算机实现的方法,其中实现所述操作集包括在实现所述操作集时利用递归神经网络(RNN)。
14.根据权利要求13所述的计算机实现的方法,其中所述RNN可以包括两个单独的双向长短期存储器网络。
15.根据权利要求11所述的计算机实现的方法,其中针对所述一个或多个数据元素中的、缺失值数据的每个数据元素生成所述替代值数据集包括:
在前向层中,基于所述第一时间序列数据集和所述第三数据集来确定第一预测输出值集和第一预测极值得分集。
16.根据权利要求15所述的计算机实现的方法,其中所述第一时间序列数据集的所述多个数据元素至少包括第一数据元素和第二数据元素,并且所述第三数据集的所述极值数据至少包括与所述第一数据元素相关联的第一极值值和与所述第二数据元素相关联的第二极值值。
17.根据权利要求16所述的计算机实现的方法,其中确定所述第一预测输出值集和所述第一预测极值得分集包括:
基于所述第一数据元素和所述第一极值,确定针对缺失值数据的至少一个数据元素的第一预测输出值以及针对缺失值数据的所述至少一个数据元素的对应第一预测极值。
18.根据权利要求17所述的计算机实现的方法,其中确定所述第一预测输出值集和所述第一预测极值得分集还包括:
基于所述第一预测输出值和对应的所述第一预测极值值,确定针对缺失值数据的至少另一数据元素的第二预测输出值和对应的第二预测极值值。
19.根据权利要求15所述的计算机实现的方法,其中针对所述一个或多个数据元素中的、缺失值数据的每个数据元素生成所述替代值数据的操作集包括:
在后向层中,基于所述第一时间序列数据集和所述第三数据集来确定第二预测输出值集和第二预测极值得分集;以及
至少基于所述第一预测输出值集、所述第一预测极值得分集、所述第二预测输出值集和所述第二预测极值得分集,来生成差异数据。
20.一种非瞬态计算机可读介质,其上存储有指令,其中所述指令在由一个或多个处理器执行时使计算设备:
获得第一时间序列数据集,所述第一时间序列数据集包括多个数据元素,每个数据元素包括值数据和对应的时间数据;
基于所述第一时间序列数据集,生成第二数据集和第三数据集,所述第二数据集指示具有缺失值数据的一个或多个数据元素,所述第三数据集包括指示所述多个数据元素中的每个数据元素的极值得分的极值数据;以及
基于所述第一时间序列数据集、所述第二数据集和所述第三数据集,实现一个或多个操作以针对所述一个或多个数据元素中的、缺失值数据的每个数据元素来生成替代值数据。
CN202210167689.1A 2021-08-24 2022-02-23 用于稀疏时间序列数据集的数据插补的方法和装置 Pending CN115718740A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN202141038261 2021-08-24
IN202141038261 2021-08-24

Publications (1)

Publication Number Publication Date
CN115718740A true CN115718740A (zh) 2023-02-28

Family

ID=85253738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210167689.1A Pending CN115718740A (zh) 2021-08-24 2022-02-23 用于稀疏时间序列数据集的数据插补的方法和装置

Country Status (2)

Country Link
US (1) US20230076149A1 (zh)
CN (1) CN115718740A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4246376A1 (en) * 2022-03-16 2023-09-20 Tata Consultancy Services Limited Methods and systems for time-series prediction under missing data using joint impute and learn technique

Also Published As

Publication number Publication date
US20230076149A1 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
US20210248651A1 (en) Recommendation model training method, recommendation method, apparatus, and computer-readable medium
WO2019015631A1 (zh) 生成机器学习样本的组合特征的方法及系统
CN111553759A (zh) 一种产品信息推送方法、装置、设备及存储介质
CN103502899B (zh) 动态预测建模平台
US11157972B2 (en) Document term recognition and analytics
US9064212B2 (en) Automatic event categorization for event ticket network systems
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
US11928616B2 (en) Method and system for hierarchical forecasting
CN110188910A (zh) 利用机器学习模型提供在线预测服务的方法及系统
CN111080360B (zh) 行为预测方法、模型训练方法、装置、服务器及存储介质
CN111797927A (zh) 用于确定机器学习样本的重要特征的方法及系统
CN113610240A (zh) 利用嵌套机器学习模型来执行预测的方法及系统
CN114298323A (zh) 生成机器学习样本的组合特征的方法及系统
CN114663198A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN115718740A (zh) 用于稀疏时间序列数据集的数据插补的方法和装置
CN112991026A (zh) 一种商品推荐方法、系统、设备及计算机可读存储介质
CN114580791B (zh) 膨化机工作状态识别方法、装置、计算机设备、存储介质
CN111275062A (zh) 模型训练方法、装置、服务器及计算机可读存储介质
US20220121999A1 (en) Federated ensemble learning from decentralized data with incremental and decremental updates
CN112862570A (zh) 商显产业链交易推荐方法、装置、设备、存储介质及系统
CN113743440A (zh) 一种信息处理方法及装置、存储介质
US11928128B2 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
US11822564B1 (en) Graphical user interface enabling interactive visualizations using a meta-database constructed from autonomously scanned disparate and heterogeneous sources
US20230368013A1 (en) Accelerated model training from disparate and heterogeneous sources using a meta-database
US11900365B1 (en) Predicting attributes for recipients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication