CN113988165A - 数据采集方法、装置、电子设备和存储介质 - Google Patents
数据采集方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113988165A CN113988165A CN202111232979.1A CN202111232979A CN113988165A CN 113988165 A CN113988165 A CN 113988165A CN 202111232979 A CN202111232979 A CN 202111232979A CN 113988165 A CN113988165 A CN 113988165A
- Authority
- CN
- China
- Prior art keywords
- sample
- sample set
- samples
- data
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000005070 sampling Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims 4
- 238000012549 training Methods 0.000 abstract description 26
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据采集方法、装置、电子设备和存储介质,该数据采集方法包括:根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;根据原始样本集中的每个样本对应的数据产生时间将原始样本集中的样本分类;获取为分类得到的每类样本集设置的样本采集策略;按照样本采集策略从对应类别的样本集中采集样本,得到目标样本集。目标样本集用于模型训练,可以提高模型训练效率、提高训练出的模型的预测准确度。
Description
技术领域
本发明涉及计算机技术,尤其涉及一种数据采集方法、装置、电子设备和存储介质。
背景技术
近年来,物流市场规模随着经济增长不断扩大,物流网络也进入了规模化、高增长阶段,物流网络中涉及大量仓库,仓库的物品需求量预测对仓库的精细化运营起着重要的作用。
现有的仓库的物品需求量预测通常是通过训练机器学习模型实现的,在实现本发明的过程中,发明人发现,现有技术中,在训练用于预测仓库的物品需求量的机器学习模型时,通常是基于仓库的全部历史数据进行的,基于全部历史数据进行模型训练,对所有历史数据一视同仁,没有考虑不同时间产生的历史数据对需求量预测所产生的不同影响,导致训练效率低、训练出的模型预测准确度也不够。
发明内容
本发明实施例提供一种数据采集方法、装置、电子设备和存储介质,所采集的数据用于模型训练,能够提高模型训练效率、提高训练出的模型的预测准确度。
第一方面,本发明实施例提供一种数据采集方法,包括:
根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;
根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类;
获取为分类得到的每类样本集设置的样本采集策略;
按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
第二方面,本发明实施例提供一种数据采集装置,所述装置包括:
样本构建模块,用于根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;
样本分类模块,用于根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类;
策略获取模块,用于获取为分类得到的每类样本集设置的样本采集策略;
样本采集模块,用于按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一所述的数据采集方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据采集方法。
本发明实施例中,可以根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;根据原始样本集中的每个样本对应的数据产生时间将原始样本集中的样本分类;获取为分类得到的每类样本集设置的样本采集策略;按照样本采集策略从对应类别的样本集中采集样本,得到目标样本集。即本发明实施例中,可以利用目标样本集进行模型训练,用于模型训练的目标样本集相当于是从原始样本集中采集样本得到的,目标样本集是原始样本集的一个子集,因而减少了模型训练所使用的样本的数量,提高了模型训练效率;另外,在采集样本时,会根据每个样本对应的数据产生时间对原始样本集中的样本分类,针对分类得到的不同类别的样本集,采用不同的样本采集策略采集样本,考虑了不同时间产生的历史数据对需求量预测所产生的不同影响,提高了训练出的模型的预测准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的数据采集方法的一个流程示意图。
图2是本发明实施例提供的数据采集方法的另一流程示意图。
图3是本发明实施例提供的对样本聚类的一个效果示意图。
图4是本发明实施例提供的数据采集装置的一个结构示意图。
图5是本发明实施例提供的电子设备的一个结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的数据采集方法的一个流程示意图,该方法可以由本发明实施例提供的数据采集装置来执行,该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中,该装置可以集成在电子设备中,电子设备比如可以是服务器、计算机等。以下实施例将以该装置集成在电子设备中为例进行说明,参考图1,该方法具体可以包括如下步骤:
步骤101,根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集。
示例地,目标仓库可以是物流网络中的任意一个仓库,目标仓库中的物品可以包括一种或多种,不同种类的物品可以通过物品标识信息区分,物品标识信息比如可以是库存量单位(Stock Keeping Unit,SKU)。具体地,该物品可以包括但不限于:电器、服饰、食品、书籍等。目标仓库的物品的历史需求量特征数据,可以包括目标仓库在过去产生的所有的物品需求量特征数据(比如建库以来产生的所有的物品需求量特征数据),也可以包括目标仓库在过去某段时间产生的物品需求量特征数据(比如过去3年、过去5年产生的物品需求量特征数据),该物品需求量特征数据可以是订单量数据、销量数据等。
具体实现中,可以从目标仓库的物品的历史需求量特征数据中整理出目标仓库过去每天的需求量特征数据,整理之后可以对目标仓库过去每天的需求量特征数据进行预处理,该预处理可以包括清理异常数据、缺失数据等,然后根据预处理之后的数据构建样本集。具体地,可以根据目标仓库过去一天的需求量特征数据构建一个样本,遍历目标仓库过去每天的需求量特征数据,得到一个样本集合,该样本集合即为原始样本集,原始样本集中通常包括大量样本。在一个具体的实施例中,原始样本集的每个样本中,可以包括如下数据:数据产生时间(比如可以是年、月、日的格式)、物品标识信息(比如SKU)、订单量(也可以是销量)等。
步骤102,根据原始样本集中的每个样本对应的数据产生时间将原始样本集中的样本分类。
比如,可以根据数据产生时间对需求量预测所产生的不同影响将原始样本集中的样本分类。由于随着时间的不同,目标仓库中存放的物品的种类、品类等可能发生变化,这些变化直接影响到目标仓库物品的未来需求量。通常来说,产生时间比较近的数据,相对于产生时间比较久远的数据,对目标仓库物品的未来需求量预测应该有更大的影响。
在一个具体的实施例中,可以按照如下方式将原始样本集中的样本分为两类:将原始样本集中对应的数据产生时间属于预设时间集合的样本分类为第一样本集,将原始样本集中除第一样本集之外的样本分类为第二样本集。
其中,预设时间集合可以包括法定节假日(比如端午节、劳动节、中秋节等)、促销日、纪念日(比如开业周年纪念日)等特殊时间构成的时间集合,即可以将特殊时间产生的数据构成的样本划归为第一样本集,将正常时间产生的数据构成的样本划归为第二样本集,第一样本集和第二样本集中均可以包括大量的样本。相对来说,相比于正常时间产生的数据构成的样本,特殊时间产生的数据构成的样本对需求量预测所产生影响更大。当然,实际应用中,还可以根据数据产生时间对需求量预测所产生的不同影响采用其他方式将原始样本集中的样本分类,此处不做具体限定。
步骤103,获取为分类得到的每类样本集设置的样本采集策略。
具体实现中,可以为不同类别的样本集设置不同的样本采集策略,以实现区别采样,提高采样质量。比如,可以设置基于聚类算法的样本采集策略、基于权重衰减算法的样本采集策略等。所谓基于聚类算法的样本采集策略,可以是通过聚类找出能形成簇的样本,以过滤掉噪声点样本、孤立点样本等低质量的样本,从而得到高质量的样本。所谓基于权重衰减算法的样本采集策略,可以是按照某种衰减算法计算得到不同数据产生时间产生的样本的采样权重,按照采样权重采集样本;其中,采样权重可以理解为样本被采集到的概率;比如权重衰减算法可以设计为数据产生时间距离当前时间越近的样本,采样权重越大,数据产生时间距离当前时间越远的样本,采样权重越小;因为相对于数据产生时间比较久远的样本,近期产生的样本应当对需求量预测有更大的影响,通过权重设置可以对不同时间产生的样本区别对待,提高采集到的样本的质量。
示例地,本发明实施例提及的聚类算法比如可以包括密度聚类(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)算法、K均值(K-Means)聚类算法、最大期望(Expectation Maximization,EM)聚类算法等;本发明实施例提及的权重衰减算法比如可以包括指数衰减算法、线性衰减算法等。
步骤104,按照样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
即可以按照每类样本集对应的样本采集策略,从对应类别的样本集中采集样本,将采集到的样本合并,从而得到目标样本集。
示例地,比如当将原始样本集分类为第一样本集和第二样本集,为第一样本集设置的样本采集策略为第一样本采集策略、为第二样本集设置的样本采集策略为第二样本采集策略时,可以按照第一样本采集策略从第一样本集采集样本,得到第一样本子集,按照第二样本采集策略从第二样本集采集样本,得到第二样本子集,合并第一样本子集和第二样本子集,得到目标样本集。
本发明实施例中,可以根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;根据原始样本集中的每个样本对应的数据产生时间将原始样本集中的样本分类;获取为分类得到的每类样本集设置的样本采集策略;按照样本采集策略从对应类别的样本集中采集样本,得到目标样本集。即本发明实施例中,可以利用目标样本集进行模型训练,用于模型训练的目标样本集相当于是从原始样本集中采集样本得到的,目标样本集是原始样本集的一个子集,因而减少了模型训练所使用的样本的数量,提高了模型训练效率;另外,在采集样本时,会根据每个样本对应的数据产生时间对原始样本集中的样本分类,针对分类得到的不同类别的样本集,采用不同的样本采集策略采集样本,考虑了不同时间产生的历史数据对需求量预测所产生的不同影响,提高了训练出的模型的预测准确度。
下面进一步说明本发明实施例提供的数据采集方法,本实施例以将原始样本集中的样本分为两类,共设置两种样本采集策略采集样本构建目标样本集为例进行说明,如图2所示,具体可以包括如下步骤:
步骤201,根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集。
具体地,可以从目标仓库的物品的历史需求量特征数据中整理出目标仓库过去每天的需求量特征数据,整理之后可以对目标仓库过去每天的需求量特征数据进行预处理,该预处理可以包括清理异常数据、缺失数据等,然后根据预处理之后的数据构建样本集。具体地,可以根据目标仓库过去一天的需求量特征数据构建一个样本,遍历目标仓库过去每天的需求量特征数据,得到一个样本集合,该样本集合即为原始样本集,原始样本集中通常包括大量样本。在一个具体的实施例中,原始样本集的每个样本中,可以包括如下数据:数据产生时间(比如可以是年、月、日的格式)、物品标识信息(比如SKU)、订单量(也可以是销量)等。
步骤202,将原始样本集中对应的数据产生时间属于预设时间集合的样本分类为第一样本集,将原始样本集中除第一样本集之外的样本分类为第二样本集。
示例地,预设时间集合可以包括法定节假日(比如端午节、劳动节、中秋节等)、促销日、纪念日(比如开业周年纪念日)等特殊时间构成的时间集合,即可以将特殊时间产生的数据构成的样本划归为第一样本集,将正常时间产生的数据构成的样本划归为第二样本集。
针对第一样本集,可以执行步骤203、204,从而得到第一样本子集;针对第二样本集,可以执行步骤205、206、207,从而得到第二样本子集。
步骤203,获取设置的聚类半径和聚类密度最小值。
具体地,可以将第一样本集中的每个样本看作一个点,从而将样本的聚类问题转换成点的密度聚类问题,在点的密度聚类中,需要两个预先设置好的参数:聚类半径Ε和聚类密度最小值MinPts,聚类密度最小值MinPts指的是簇中要求的最小包含点数(样本数),如果两个点之间的距离小于或等于聚类半径Ε,那么这两个点是同一类的,将被聚类到同一个簇中,聚类半径Ε和聚类密度最小值MinPts可根据实际需求或实验数据设置。
步骤204,基于聚类半径和聚类密度最小值对第一样本集聚类,得到样本簇,将样本簇作为第一样本子集。
密度聚类中涉及以下几个定义:
Ε邻域:给定对象半径为Ε内的区域称为该对象的Ε邻域;
核心对象:如果给定对象Ε邻域内的样本点数大于等于MinPts,则称该对象为核心对象;
直接密度可达:对于样本集合D,如果样本点q在p的Ε邻域内,并且p为核心对象,那么对象q从对象p直接密度可达;
密度可达:对于样本集合D,给定一串样本点p1,p2…pn,p=p1,q=pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达;
密度相连:存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联。
可以发现,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的,密度相连是对称关系。聚类的目的是找到密度相连对象的最大集合,具体在本发明实施例中,即找到能形成簇的点,从而过滤掉噪声点。具体的聚类方法可以如下:
任选一个未被访问(unvisited)的点开始,找出与其距离在聚类半径Ε之内(包括E)的所有附近点;
如果附近点的数量≥MinPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展;
如果附近点的数量<MinPts,则该点暂时被标记作为噪声点;
如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点,直到所有点都归入了某个簇或标记为噪声点,将归入簇的点对应的样本划归为第一样本子集。实际应用中,第一样本集对应的点聚类之后,可能形成多个簇,可以根据实际需要选取所有簇或部分簇,将选取的簇中的点对应的样本划归为第一样本子集
在一个具体的实施例中,比如对第一样本集对应的点的聚类结果可如图3所示,图3中在圆圈内的点可以认为是归入了簇中的点,在圆圈内的点可以认为是噪声点,则可以将圆圈内的点对应的样本划归为第一样本子集。
以上描述的聚类方法即基于DBSCAN算法的聚类方法,DBSCAN算法与其他聚类算法相比,具有如下优点:不需要事先知道要形成的簇的数量,可以发现任意形状的簇,能够识别出噪声点。因而,具体实现中,可以优选基于DBSCAN算法的聚类方法,当然实际应用中,还可以选取其他算法的聚类方法,此处不做具体限定。
步骤205,将第二样本集中的每个样本对应的数据产生时间输入指数衰减模型,得到第二样本集中的每个样本的采样权重衰减系数。
具体地,可以计算第二样本集中的每个样本对应的数据产生时间与当前时间之间的时间距离,将该时间距离输入指数衰减模型,得到第二样本集中的每个样本的采样权重衰减系数。其中,时间距离越大,对应样本的采样权重衰减系数越大。
示例地,指数衰减模型可以如下:
N(t)=N0e-γt
其中,N(t)表示样本的采样权重衰减系数,N0为第一预设参数,γ为第二预设参数,N0、γ可以采用最大似然估计算法拟合得到,t为样本对应的数据产生时间(可以用时间距离表示)。
步骤206,根据第二样本集中的每个样本的采样权重衰减系数确定第二样本集中的每个样本的采样权重。
示例地,可以根据第二样本集中的每个样本的默认采样权重和对应的采样权重衰减系数确定第二样本集中的每个样本的采样权重,第二样本集中的每个样本的默认采样权重可以相同,比如可以均为1。例如,可以将第二样本集中的每个样本的默认采样权重和对应的采样权重衰减系数相乘,从而得到第二样本集中的每个样本的采样权重。
步骤207,根据第二样本集中的每个样本的采样权重从第二样本集采集样本,得到第二样本子集。
步骤208,合并第一样本子集和第二样本子集,得到目标样本集。
示例地,目标样本集可以用于训练基于特征的时序预测算法模型,时序预测算法模型用于预测目标仓库的物品的未来需求量,未来需求量可以是目标仓库的物品在未来某段时间的订单量或销量。时序预测算法是一种回归预测方法,属于定量预测,其基本原理是:一方面承认事物发展的延续性,运用过去的时间序列数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到由于偶然因素影响而产生的随机性,为了消除随机波动产生的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。
本发明实施例中,可以将目标样本集用于模型训练,用于模型训练的目标样本集相当于是从原始样本集中采集样本得到的,目标样本集是原始样本集的一个子集,因而减少了模型训练所使用的样本的数量,提高了模型训练效率;另外,在采集样本时,会根据每个样本对应的数据产生时间对原始样本集中的样本分类,针对分类得到的不同类别的样本集,采用不同的样本采集策略采集样本,考虑了不同时间产生的历史数据对需求量预测所产生的不同影响,提高了训练出的模型的预测准确度。
需要说明的是,本实施例仅以将原始样本集中的样本分为两类并设置两种样本采集策略采集样本构建目标样本集为例进行说明,实际应用中,还可以将原始样本集中的样本划分为更多类别并设置更多的样本采集策略采集样本以构建目标样本集,此处不做具体限定。
图4是本发明是实施例提供的数据采集装置的一个结构图,该装置适用于执行本发明实施例提供的数据采集方法。如图4所示,该装置具体可以包括:
样本构建模块401,用于根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;
样本分类模块402,用于根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类;
策略获取模块403,用于获取为分类得到的每类样本集设置的样本采集策略;
样本采集模块404,用于按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
一实施例中,所述目标样本集用于训练基于特征的时序预测算法模型,所述时序预测算法模型用于预测所述目标仓库的物品的未来需求量。
一实施例中,样本分类模块402具体用于:
将所述原始样本集中对应的数据产生时间属于预设时间集合的样本分类为第一样本集;
将所述原始样本集中除所述第一样本集之外的样本分类为第二样本集。
一实施例中,策略获取模块403具体用于:
获取为所述第一样本集设置的第一样本采集策略,所述第一样本采集策略为基于密度聚类算法的样本采集策略;
获取为所述第二样本集设置的第二样本采集策略,所述第二样本采集策略为基于指数衰减算法的样本采集策略。
一实施例中,样本采集模块404具体用于:
按照所述第一样本采集策略从所述第一样本集采集样本,得到第一样本子集;
按照所述第二样本采集策略从所述第二样本集采集样本,得到第二样本子集;
合并所述第一样本子集和所述第二样本子集,得到所述目标样本集。
一实施例中,样本采集模块404按照所述第一样本采集策略从所述第一样本集采集样本,得到第一样本子集,包括:
获取设置的聚类半径和聚类密度最小值;
基于所述聚类半径和所述聚类密度最小值对所述第一样本集聚类,得到样本簇,将所述样本簇作为所述第一样本子集。
一实施例中,样本采集模块404按照所述第二样本采集策略从所述第二样本集采集样本,得到第二样本子集,包括:
将所述第二样本集中的每个样本对应的数据产生时间输入指数衰减模型,得到所述第二样本集中的每个样本的采样权重衰减系数;
根据所述第二样本集中的每个样本的采样权重衰减系数确定所述第二样本集中的每个样本的采样权重;
根据所述第二样本集中的每个样本的采样权重从所述第二样本集采集样本,得到所述第二样本子集。
一实施例中,所述指数衰减模型如下:
N(t)=N0e-γt
其中,N(t)表示样本的采样权重衰减系数,N0为第一预设参数,γ为第二预设参数,t为样本对应的数据产生时间。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例的装置,可以根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;根据原始样本集中的每个样本对应的数据产生时间将原始样本集中的样本分类;获取为分类得到的每类样本集设置的样本采集策略;按照样本采集策略从对应类别的样本集中采集样本,得到目标样本集。即本发明实施例中,可以利用目标样本集进行模型训练,用于模型训练的目标样本集相当于是从原始样本集中采集样本得到的,目标样本集是原始样本集的一个子集,因而减少了模型训练所使用的样本的数量,提高了模型训练效率;另外,在采集样本时,会根据每个样本对应的数据产生时间对原始样本集中的样本分类,针对分类得到的不同类别的样本集,采用不同的样本采集策略采集样本,考虑了不同时间产生的历史数据对需求量预测所产生的不同影响,提高了训练出的模型的预测准确度。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例提供的数据采集方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的数据采集方法。
下面参考图5,其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括样本构建模块、样本分类模块、策略获取模块和样本采集模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类;获取为分类得到的每类样本集设置的样本采集策略;按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
根据本发明实施例的技术方案,可以根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;根据原始样本集中的每个样本对应的数据产生时间将原始样本集中的样本分类;获取为分类得到的每类样本集设置的样本采集策略;按照样本采集策略从对应类别的样本集中采集样本,得到用于训练需求量预测模型的目标样本集,需求量预测模型用于预测目标仓库的物品的未来需求量。即本发明实施例中,用于模型训练的目标样本集相当于是从原始样本集中采集样本得到的,目标样本集是原始样本集的一个子集,因而减少了模型训练所使用的样本的数量,提高了模型训练效率;另外,在采集样本时,会根据每个样本对应的数据产生时间对原始样本集中的样本分类,针对分类得到的不同类别的样本集,采用不同的样本采集策略采集样本,考虑了不同时间产生的历史数据对需求量预测所产生的不同影响,提高了训练出的模型的预测准确度。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (11)
1.一种数据采集方法,其特征在于,包括:
根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;
根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类;
获取为分类得到的每类样本集设置的样本采集策略;
按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
2.根据权利要求1所述的数据采集方法,其特征在于,所述目标样本集用于训练基于特征的时序预测算法模型,所述时序预测算法模型用于预测所述目标仓库的物品的未来需求量。
3.根据权利要求1所述的数据采集方法,其特征在于,所述根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类,包括:
将所述原始样本集中对应的数据产生时间属于预设时间集合的样本分类为第一样本集;
将所述原始样本集中除所述第一样本集之外的样本分类为第二样本集。
4.根据权利要求3所述的数据采集方法,其特征在于,所述获取为分类得到的每类样本集设置的样本采集策略,包括:
获取为所述第一样本集设置的第一样本采集策略,所述第一样本采集策略为基于密度聚类算法的样本采集策略;
获取为所述第二样本集设置的第二样本采集策略,所述第二样本采集策略为基于指数衰减算法的样本采集策略。
5.根据权利要求4所述的数据采集方法,其特征在于,所述按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集,包括:
按照所述第一样本采集策略从所述第一样本集采集样本,得到第一样本子集;
按照所述第二样本采集策略从所述第二样本集采集样本,得到第二样本子集;
合并所述第一样本子集和所述第二样本子集,得到所述目标样本集。
6.根据权利要求5所述的数据采集方法,其特征在于,所述按照所述第一样本采集策略从所述第一样本集采集样本,得到第一样本子集,包括:
获取设置的聚类半径和聚类密度最小值;
基于所述聚类半径和所述聚类密度最小值对所述第一样本集聚类,得到样本簇,将所述样本簇作为所述第一样本子集。
7.根据权利要求5所述的数据采集方法,其特征在于,所述按照所述第二样本采集策略从所述第二样本集采集样本,得到第二样本子集,包括:
将所述第二样本集中的每个样本对应的数据产生时间输入指数衰减模型,得到所述第二样本集中的每个样本的采样权重衰减系数;
根据所述第二样本集中的每个样本的采样权重衰减系数确定所述第二样本集中的每个样本的采样权重;
根据所述第二样本集中的每个样本的采样权重从所述第二样本集采集样本,得到所述第二样本子集。
8.根据权利要求7所述的数据采集方法,其特征在于,所述指数衰减模型如下:
N(t)=N0e-γt
其中,N(t)表示样本的采样权重衰减系数,N0为第一预设参数,γ为第二预设参数,t为样本对应的数据产生时间。
9.一种数据采集装置,其特征在于,包括:
样本构建模块,用于根据目标仓库的物品的历史需求量特征数据构建样本,得到原始样本集;
样本分类模块,用于根据所述原始样本集中的每个样本对应的数据产生时间将所述原始样本集中的样本分类;
策略获取模块,用于获取为分类得到的每类样本集设置的样本采集策略;
样本采集模块,用于按照所述样本采集策略从对应类别的样本集中采集样本,得到目标样本集。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一所述的数据采集方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任一所述的数据采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111232979.1A CN113988165A (zh) | 2021-10-22 | 2021-10-22 | 数据采集方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111232979.1A CN113988165A (zh) | 2021-10-22 | 2021-10-22 | 数据采集方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988165A true CN113988165A (zh) | 2022-01-28 |
Family
ID=79740380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111232979.1A Pending CN113988165A (zh) | 2021-10-22 | 2021-10-22 | 数据采集方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988165A (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190156253A1 (en) * | 2017-11-22 | 2019-05-23 | United Parcel Service Of America, Inc. | Automatically generating volume forecasts for different hierarchical levels via machine learning models |
CN110009062A (zh) * | 2019-04-18 | 2019-07-12 | 成都四方伟业软件股份有限公司 | 分类模型训练方法及装置 |
CN110020741A (zh) * | 2018-12-25 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据预测的方法、装置和电子设备 |
CN110400005A (zh) * | 2019-06-28 | 2019-11-01 | 阿里巴巴集团控股有限公司 | 业务指标的时间序列预测方法、装置及设备 |
US20200026967A1 (en) * | 2018-07-23 | 2020-01-23 | International Business Machines Corporation | Sparse mri data collection and classification using machine learning |
CN110738508A (zh) * | 2018-07-19 | 2020-01-31 | 北京京东尚科信息技术有限公司 | 一种数据分析方法和装置 |
CN110942450A (zh) * | 2019-11-19 | 2020-03-31 | 武汉大学 | 一种基于深度学习的多生产流水线实时缺陷检测方法 |
US20200285890A1 (en) * | 2019-03-05 | 2020-09-10 | Memorial Sloan Kettering Cancer Center | Systems and methods for image classification using visual dictionaries |
CN111881948A (zh) * | 2020-07-10 | 2020-11-03 | 马上消费金融股份有限公司 | 神经网络模型的训练方法及装置、数据的分类方法及装置 |
CN113420887A (zh) * | 2021-06-22 | 2021-09-21 | 平安资产管理有限责任公司 | 预测模型构建方法、装置、计算机设备及可读存储介质 |
CN114048927A (zh) * | 2022-01-11 | 2022-02-15 | 北京京东振世信息技术有限公司 | 需求量预测方法、装置、电子设备和存储介质 |
CN114049162A (zh) * | 2022-01-11 | 2022-02-15 | 北京京东振世信息技术有限公司 | 模型训练方法、需求量预测方法、装置、设备和存储介质 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
CN117392484A (zh) * | 2023-12-06 | 2024-01-12 | 深圳市宗匠科技有限公司 | 一种模型训练方法、装置、设备及存储介质 |
CN117788115A (zh) * | 2023-12-28 | 2024-03-29 | 深圳市晨北科技有限公司 | 一种物品需求信息确定方法、装置、设备及存储介质 |
-
2021
- 2021-10-22 CN CN202111232979.1A patent/CN113988165A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190156253A1 (en) * | 2017-11-22 | 2019-05-23 | United Parcel Service Of America, Inc. | Automatically generating volume forecasts for different hierarchical levels via machine learning models |
CN110738508A (zh) * | 2018-07-19 | 2020-01-31 | 北京京东尚科信息技术有限公司 | 一种数据分析方法和装置 |
US20200026967A1 (en) * | 2018-07-23 | 2020-01-23 | International Business Machines Corporation | Sparse mri data collection and classification using machine learning |
CN110020741A (zh) * | 2018-12-25 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据预测的方法、装置和电子设备 |
US20200285890A1 (en) * | 2019-03-05 | 2020-09-10 | Memorial Sloan Kettering Cancer Center | Systems and methods for image classification using visual dictionaries |
CN110009062A (zh) * | 2019-04-18 | 2019-07-12 | 成都四方伟业软件股份有限公司 | 分类模型训练方法及装置 |
CN110400005A (zh) * | 2019-06-28 | 2019-11-01 | 阿里巴巴集团控股有限公司 | 业务指标的时间序列预测方法、装置及设备 |
CN110942450A (zh) * | 2019-11-19 | 2020-03-31 | 武汉大学 | 一种基于深度学习的多生产流水线实时缺陷检测方法 |
CN111881948A (zh) * | 2020-07-10 | 2020-11-03 | 马上消费金融股份有限公司 | 神经网络模型的训练方法及装置、数据的分类方法及装置 |
CN113420887A (zh) * | 2021-06-22 | 2021-09-21 | 平安资产管理有限责任公司 | 预测模型构建方法、装置、计算机设备及可读存储介质 |
CN114048927A (zh) * | 2022-01-11 | 2022-02-15 | 北京京东振世信息技术有限公司 | 需求量预测方法、装置、电子设备和存储介质 |
CN114049162A (zh) * | 2022-01-11 | 2022-02-15 | 北京京东振世信息技术有限公司 | 模型训练方法、需求量预测方法、装置、设备和存储介质 |
CN116705337A (zh) * | 2023-08-07 | 2023-09-05 | 山东第一医科大学第一附属医院(山东省千佛山医院) | 一种健康数据采集及智能分析方法 |
CN117392484A (zh) * | 2023-12-06 | 2024-01-12 | 深圳市宗匠科技有限公司 | 一种模型训练方法、装置、设备及存储介质 |
CN117788115A (zh) * | 2023-12-28 | 2024-03-29 | 深圳市晨北科技有限公司 | 一种物品需求信息确定方法、装置、设备及存储介质 |
Non-Patent Citations (9)
Title |
---|
MACHAKA P.等: "Modelling DDoS Attacks in IoT Networks Using Machine Learning", EMERGING TECHNOLOGIES FOR DEVELOPING COUNTRIES: 5TH EAI INTERNATIONAL CONFERENCE, AFRICATEK 2022, 31 December 2023 (2023-12-31) * |
SBRANA GIACOMO等: "Optimal hierarchical EWMA forecasting", INTERNATIONAL JOURNAL OF FORECASTING, vol. 40, no. 2, 19 April 2024 (2024-04-19) * |
张颖;李鹏;邬益川;: "基于模糊最近邻聚类学习算法的海水藻类繁殖状态预测", 东南大学学报(自然科学版), no. 1, 20 September 2011 (2011-09-20) * |
杨兴国;郭勇;马厚雪;: "基于DSP的取样数字式平均器的设计与实现", 微计算机信息, no. 05, 20 February 2007 (2007-02-20) * |
林青轩;郭强;邓春燕;王雅静;刘建国: "基于孤立森林采样策略的企业异常用水模式检测", 复杂系统与复杂性科学, no. 003, 31 December 2020 (2020-12-31) * |
田明光;翟旭;江颖洁;田保鹏;刘晓晨;: "基于K均值聚类及高斯过程回归集成的铅酸电池荷电状态预测", 软件, no. 01, 15 January 2018 (2018-01-15) * |
郁雪;李敏强;: "一种结合有效降维和K-means聚类的协同过滤推荐模型", 计算机应用研究, no. 10, 15 October 2009 (2009-10-15) * |
陈;高光;李一平;王珂;逢勇;: "太湖水体中悬浮物的静沉降特征", 湖泊科学, no. 05, 6 September 2006 (2006-09-06) * |
韦乾龙;唐文虎;江昌旭;钱瞳;李维维;郑杰辉: "基于改进强化学习算法的主动配电网在线等值建模", 广东电力, no. 011, 31 December 2021 (2021-12-31) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8812543B2 (en) | Methods and systems for mining association rules | |
CN108629413A (zh) | 神经网络模型训练、交易行为风险识别方法及装置 | |
CN110889545A (zh) | 一种电力负荷预测方法、装置及可读存储介质 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
CN110147389A (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN110046245A (zh) | 一种数据监控方法及装置、一种计算设备及存储介质 | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
CN113537850A (zh) | 仓储优化方法、装置、计算机设备和存储介质 | |
CN115358481A (zh) | 一种企业外迁预警识别的方法、系统及装置 | |
CN105786810B (zh) | 类目映射关系的建立方法与装置 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN112070126A (zh) | 一种物联网数据挖掘方法 | |
CN116883065A (zh) | 商户风险预测方法及装置 | |
Vieira et al. | An Enhanced Seasonal-Hybrid ESD technique for robust anomaly detection on time series | |
CN110458383B (zh) | 需求处理服务化的实现方法、装置及计算机设备、存储介质 | |
Kanwal et al. | An attribute weight estimation using particle swarm optimization and machine learning approaches for customer churn prediction | |
CN113988165A (zh) | 数据采集方法、装置、电子设备和存储介质 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN111798237B (zh) | 基于应用日志的异常交易诊断方法及系统 | |
CN110472680B (zh) | 目标分类方法、装置和计算机可读存储介质 | |
CN112906723A (zh) | 一种特征选择的方法和装置 | |
da Silva et al. | Automated machine learning for time series prediction | |
CN115269948B (zh) | 支持时空数据智能尺度变换的变尺度数据分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |