CN110968564A - 一种数据处理方法及数据状态预测模型的训练方法 - Google Patents
一种数据处理方法及数据状态预测模型的训练方法 Download PDFInfo
- Publication number
- CN110968564A CN110968564A CN201811140049.1A CN201811140049A CN110968564A CN 110968564 A CN110968564 A CN 110968564A CN 201811140049 A CN201811140049 A CN 201811140049A CN 110968564 A CN110968564 A CN 110968564A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- static
- feature vector
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法、数据状态预测模型的训练方法、数据处理装置、计算设备及介质,数据处理方法包括:提取待处理的数据的混合特征,混合特征包括静态特征和动态特征;根据该混合特征,形成待处理的数据的特征向量集;将该特征向量集输入到预先训练好的数据状态预测模型中,以预测该数据对应的状态;若该状态指示该数据为冷数据,则将该数据进行迁移。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种数据处理方法、数据状态预测模型的训练方法、数据处理装置、计算设备及介质。
背景技术
追求存储成本和系统性能的平衡是DBMS(Database Management System,数据库管理系统)设计的核心目标之一。在一个数据库管理系统中,数据有冷热之分,频繁被访问的数据称为热数据(hot data),与之相对的,访问不频繁甚至在一段时间内都不被访问数据归为冷数据(cold data)。
传统数据库将所有数据都存储在同一种存储介质中,并且通过LRU(Leastrecently used最近最少使用)和caching(缓存)提高访问效率。现代很多数据库采用混合存储架构,从memory(内存)、NVM(Non-Volatile Memory,非易失存储器)、SSD(Solid StateDrives,固态硬盘)再到HDD(Hard Disk Drive,硬盘驱动器),每一层的存储介质都对应着不同的存储成本。
为了将系统性能保持在高水位,同时最大程度上节省存储成本,可考虑根据数据冷热将其存储在不同的存储介质上,因此,如何对数据冷热进行精确预测尤为重要。微软公司为数据库引擎Hekaton设计的冷数据管理系统Siberia,采用Exponential Smoothing(指数平滑)的方法预测数据冷热,并采用Backward(后向)扫描算法,从后往前扫描计算出在每个时间区段中每个数据的访问上限下限区间,根据访问下限可以过滤出在当前时间点前K热度的数据。但Siberia系统只能获得最热的K个数据而不能得到所有的热数据,在其测试数据中,部分场景的损失率可高达25%,且不是一个针对电商场景的模型。
发明内容
为此,本发明提供一种数据处理方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种数据处理方法,该方法包括如下步骤:首先,提取待处理的数据的混合特征,混合特征包括静态特征和动态特征;根据混合特征,形成待处理的数据的特征向量集;将特征向量集输入到预先训练好的数据状态预测模型中,以预测该数据对应的状态;若该状态指示该数据为冷数据,则将该数据进行迁移。
可选地,在根据本发明的数据处理方法中,提取待处理的数据的混合特征,包括:获取待处理的数据的多个数据字段;从多个数据字段中筛选出满足预设的筛选规则的数据字段,将筛选出的一个或多个数据字段作为该数据的静态特征。
可选地,在根据本发明的数据处理方法中,筛选规则包括至少以下一项:对连续型的数据字段,若数据字段的值变化连续和/或值分布合理,则确定数据字段可作为该数据的静态特征;对离散型的数据字段,若数据字段的值指示数据字段对应的状态属性正常,则确定数据字段可作为该数据的静态特征。
可选地,在根据本发明的数据处理方法中,动态特征包括预定时段内对数据的访问次数。
可选地,在根据本发明的数据处理方法中,访问次数包括对数据进行选择操作的次数和更新操作的次数。
可选地,在根据本发明的数据处理方法中,根据混合特征,形成待处理的数据的特征向量集,包括:对混合特征中的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的静态特征向量;若静态特征的值为数值类型,则根据静态特征的值形成对应的静态特征向量;基于混合特征中的动态特征的值形成对应的动态特征向量;组合各静态特征向量和动态特征向量,以形成该数据的特征向量集。
可选地,在根据本发明的数据处理方法中,对静态特征的值进行编码处理,包括:通过独热码和/或词嵌入的编码方式,对静态特征的值进行编码处理。
可选地,在根据本发明的数据处理方法中,数据状态预测模型基于预先获取的训练数据集合进行模型训练,以便数据状态预测模型的输出指示输入特征向量集对应数据的状态。
可选地,在根据本发明的数据处理方法中,训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和训练特征向量集对应数据的真实状态,基于预先获取的训练数据集合进行模型训练,包括:对训练数据集合中的各条训练数据,将训练数据中的训练特征向量集作为输入,输入到数据状态预测模型,以得到数据状态预测模型输出的、训练特征向量集对应数据的预测状态;基于训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整数据状态预测模型的参数。
可选地,在根据本发明的数据处理方法中,还包括预先获取训练数据集合,预先获取训练数据集合,包括:对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期;对数据操作日志中各数据,基于数据的混合特征形成对应的训练特征向量集;根据数据的生命周期,确定数据的真实状态是热数据状态还是冷数据状态;关联数据的训练特征向量集和真实状态,形成对应的训练数据;汇集数据操作日志中各数据对应的训练数据,以生成训练数据集合。
可选地,在根据本发明的数据处理方法中,对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期,包括:对数据操作日志进行解析,以获取数据操作日志中各数据的多个数据字段;对数据操作日志中各数据,基于数据的多个数据字段,确定数据的一个或多个静态特征;统计预定时段内对数据的访问次数,将访问次数作为数据的动态特征;计算数据进行插入操作和最后一次访问操作的时间间隔,作为数据的生命周期。
可选地,在根据本发明的数据处理方法中,基于数据的混合特征形成对应的训练特征向量集,包括:对数据的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的训练静态特征向量;若静态特征的值为数值类型,则根据静态特征的值形成对应的训练静态特征向量;基于数据的动态特征的值形成对应的训练动态特征向量;组合各训练静态特征向量和训练动态特征向量,以形成数据的训练特征向量集。
可选地,在根据本发明的数据处理方法中,数据操作日志包括电子商务流水业务场景下数据的操作日志。
可选地,在根据本发明的数据处理方法中,静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。
根据本发明的又一个方面,提供一种数据状态预测模型的训练方法,该方法包括如下步骤:首先,获取训练数据集合,训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和该训练特征向量集对应数据的真实状态;然后,基于训练数据集合进行模型训练,以便数据状态预测模型的输出指示输入特征向量集对应数据的状态。
可选地,在根据本发明的数据状态预测模型的训练方法中,基于训练数据集合进行模型训练,包括:对训练数据集合中的各条训练数据,将训练数据中的训练特征向量集作为输入,输入到数据状态预测模型,以得到数据状态预测模型输出的、训练特征向量集对应数据的预测状态;基于训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整数据状态预测模型的参数。
可选地,在根据本发明的数据状态预测模型的训练方法中,获取训练数据集合,包括:对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期;对数据操作日志中各数据,基于数据的混合特征形成对应的训练特征向量集;根据数据的生命周期,确定数据的真实状态是热数据状态还是冷数据状态;关联数据的训练特征向量集和真实状态,形成对应的训练数据;汇集数据操作日志中各数据对应的训练数据,以生成训练数据集合。
可选地,在根据本发明的数据状态预测模型的训练方法中,对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期,包括:对数据操作日志进行解析,以获取数据操作日志中各数据的多个数据字段;对数据操作日志中各数据,基于数据的多个数据字段,确定数据的一个或多个静态特征;统计预定时段内对数据的访问次数,将访问次数作为数据的动态特征;计算数据进行插入操作和最后一次访问操作的时间间隔,作为数据的生命周期。
可选地,在根据本发明的数据状态预测模型的训练方法中,基于数据的混合特征形成对应的训练特征向量集,包括:对该数据的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的训练静态特征向量;若静态特征的值为数值类型,则根据静态特征的值形成对应的训练静态特征向量;基于数据的动态特征的值形成对应的训练动态特征向量;组合各训练静态特征向量和训练动态特征向量,以形成该数据的训练特征向量集。
可选地,在根据本发明的数据状态预测模型的训练方法中,数据操作日志包括电子商务流水业务场景下数据的操作日志。
可选地,在根据本发明的数据状态预测模型的训练方法中,静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。
根据本发明的又一个方面,提供一种数据处理装置,该装置包括提取模块、形成模块、预测模块和迁移模块。其中,提取模块适于提取待处理的数据的混合特征,混合特征包括静态特征和动态特征;形成模块适于根据该混合特征,形成待处理的数据的特征向量集;预测模块适于将特征向量集输入到预先训练好的数据状态预测模型中,以预测该数据对应的状态;迁移模块适于在该状态指示数据为冷数据时,则将该数据进行迁移。
根据本发明的又一个方面,提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的数据处理方法和/或数据状态预测模型的训练方法的指令。
根据本发明的又一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行根据本发明的数据处理方法和/或数据状态预测模型的训练方法。
根据本发明的数据处理方案,首先提取待处理的数据的混合特征,并基于该混合特征形成对应的特征向量集,将特征向量集输入到预先训练好的数据状态预测模型中,以预测该数据的状态,若该状态指示该数据为冷数据,则将该数据进行迁移,最大程度节省存储成本,保持系统性能处于高水位。
其中,混合特征包括静态特征和动态特征,将静态特征和动态特征结合不但可以体现数据的本征特性,还可以体现数据的动态访问特性,很大提高了数据状态预测模型的训练速度和预测的准确度。而且,模型根据电商流水数据进行训练得到,具有很强的针对性,基于上述方案,可以实时预测出至少95%的冷热数据。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的结构框图;
图2示出了根据本发明的一个实施例的数据处理流程的示意图;
图3示出了根据本发明的一个实施例的数据状态预测模型的训练方法300的流程图;
图4示出了根据本发明的一个实施例的获取训练数据集合方法400的流程图;
图5示出了根据本发明的一个实施例的训练数据生成流程的示意图;
图6示出了根据本发明的一个实施例的数据处理方法600的流程图;以及
图7示出了根据本发明的一个实施例的数据处理装置700的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的计算设备100的结构框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在一些实施例中,计算设备100被实现为数据库服务器,并被配置为执行根据本发明的数据状态预测模型的训练方法300和/或数据处理方法600。其中,计算设备100的程序122中包含用于执行根据本发明的、数据状态预测模型的训练方法300和/或数据处理方法600的多条程序指令,而数据124还可以存储相应的配置信息等。
图2示出了根据本发明的一个实施例的数据处理流程的示意图。如图2所示,在对如数据库中所存储的数据进行处理时,首先获取待处理的数据,并提取待处理的数据的混合特征。其中,混合特征包括静态特征和动态特征,在提取静态特征时,先获取待处理的数据的多个数据字段,再从多个数据字段中筛选出满足预设的筛选规则的数据字段,将筛选出的一个或多个数据字段作为该数据的静态特征,在提取动态特征时,则是获取预定时段内对数据的访问次数作为该数据的动态特征。
在完成混合特征的提取后,对其进行向量化处理。在该实施方式中,对混合特征中的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的静态特征向量;若静态特征的值为数值类型,则根据静态特征的值形成对应的静态特征向量。对混合特征中的动态特征,基于动态特征的值形成对应的动态特征向量。进而,组合各静态特征向量和动态特征向量,以形成数据的特征向量集。
接下来,将该特征向量集输入到预先训练好的数据状态预测模型中,以预测待处理的数据对应的状态。若该状态指示该数据为冷数据,则将所该数据进行迁移,若该状态指示该数据为热数据,则不执行进行迁移操作,可根据该数据的具体情况,如生命周期、数据属性等,将该数据转移至合适的存储介质上进行存储。通常情况下,热数据可使用如DRAM(Dynamic Random Access Memory,动态随机存取存储器)、NVM(Non-Volatile Memory,非易失存储器)等访问速度比较块的存储介质来存储,而冷数据对应的存储介质则采用如SSD(Solid State Drives,固态硬盘)、HDD(Hard Disk Drive,硬盘驱动器)等读写速度相对没有那么快的存储介质来存储。那么,当需要对预测出为冷数据的数据进行迁移时,将该数据从其当前的存储介质(一般是热数据对应的存储介质,如DRAM、NVM)迁移到适于冷数据的存储介质,如HDD。
根据本发明的一个实施例,上述用于状态预测的数据状态预测模型,基于预先获取的训练数据集合进行模型训练,以便数据状态预测模型的输出指示输入特征向量集对应数据的状态。为便于理解,以下先对数据状态预测模型的结构和训练过程进行说明。
数据状态预测模型通常可采用GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法实现,GBDT算法是一种基于迭代所构造的决策树算法,GBDT由很多回归树构成,每一棵新回归树都是建立在之前迭代的强分类器的损失函数梯度降低的方向。
GBDT算法中的所有决策树都是回归树,而非分类树。这是因为该算法的每颗树学习的是之前所有树结论之和的残差,这个残差就是一个累加预测值后能得到真实值,通过将每次预测出的结果与目标值的残差作为下一次学习的目标。基于回归树所得到的数值进行加减是有意义的,这是区别于分类树的一个显著特征。
Gradient Boosting(梯度提升)其实是一个框架而非一个具体的算法,其基本思想为沿着梯度方向,构造一系列的弱分类器函数,并以一定权重组合起来,形成最终决策的强分类器。每一次的计算都是为了减少上一次的残差,为了消除残差,可以在残差减少的梯度方向建立一个新的模型,所以说,每一个新模型的建立都为了使得之前的模型残差向梯度方向上减少,用来优化的损失函数。
当GBDT算法应用于分类时,其损失函数一般有对数损失函数和指数损失函数两种,当GBDT算法应用于回归时,其常用损失函数包括均方差、绝对损失、Huber损失和分位数损失。在该实施方式中,GBDT算法是用于分类,即对待处理的数据是属于热数据还是冷数据进行二分类处理,因此采用前者的损失函数。
使用Logistic变换后,GBDT算法的主要步骤如下:
1.给定一个初始值;
2.建立M棵决策树(迭代M次);
3.对函数估计值进行Logistic变换;
4.对于K个分类进行下面的操作:
(4-1)求得残差减少的负梯度方向;
(4-2)根据每一个样本点,与其残差减少的梯度方向,得到一棵由J个叶子节点组成的决策树;
(4-3)当决策树建立完成后,计算每一个叶子节点的增益(这个增益在预测的时候使用),每个增益的组成其实也是一个K维的向量,表示在决策树预测的过程中,如果某一个样本点掉入了这个叶子节点,则其对应的K个分类的值是多少;
(4-4)将当前得到的决策树与之前的那些决策树合并起来,作为新的一个模型。
对第一棵树,可以初始化每个样本在每个分类上的估计值都为0,计算Logistic变换,计算残差向量,作为当前树的回归的目标,对每个叶子节点,利用落到该叶子节点的所有样本的残差向量,计算增益,更新每一个样本的估计值。因此,又可以对估计值进行Logistic变换,利用样本的目标值计算残差向量,开始训练第二棵树。
当然,数据状态预测模型不仅可以基于如上GBDT算法来构造,还可以通过深度神经网络(Deep Neural Networks,DNN)、循环神经网络(Recurrent Neural Network,RNN)、逻辑回归((Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)等模型进行实现。对使用哪种算法或模型构建数据状态预测模型,本发明并不限制,可根据实际应用场景、网络训练情况、系统配置和性能要求等进行选择,并对所选定方式中的模型构建过程和相应参数适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
那么,在确定了数据状态预测模型的结构后,需要对其进行训练以便应用。图3示出了根据本发明的一个实施例的数据状态预测模型的训练方法300的流程图。如图3所示,方法300始于步骤S310。在步骤S310中,获取训练数据集合,训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和训练特征向量集对应数据的真实状态。通过训练数据集合,可以训练数据状态预测模型,以便数据状态预测模型可预测出与训练数据集合相对应的待处理的数据的状态。因此,训练数据集合对数据状态预测模型而言,具有至关重要的意义。
图4示出了根据本发明的一个实施例的获取训练数据集合方法400的流程图。如图4所示,方法400始于步骤S410。在步骤S410中,对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期。在该实施方式中,可通过如下方式来解析数据操作日志,以提取各数据的混合特征和生命周期。
首先,对数据操作日志进行解析,以获取数据操作日志中各数据的多个数据字段。其中,数据操作日志包括电子商务流水业务场景下数据的操作日志,数据操作日志可基于对从关系型数据库(不限于分布式)中获得的SQL(Structured Query Language,结构化查询语言)日志进行过滤操作而得到。随后,对数据操作日志中各数据,基于数据的多个数据字段,确定数据的一个或多个静态特征。从多个数据字段中确定静态特征,是基于预设的筛选规则来完成的。
对连续型和离散型的数据字段,筛选规则所表现出来的形式是不同的。对连续型的数据字段,若数据字段的值变化连续和/或值分布合理,则确定数据字段可作为该数据的静态特征;对离散型的数据字段,若数据字段的值指示数据字段对应的状态属性正常,则确定数据字段可作为该数据的静态特征。连续型的数据字段,其字段值一般是数值,通常表征的是商品价格、收货金额等,而离散型的数据字段,其字段值一般是非数值,如字符等,通常表征的是各种状态、类型,如物流状态、订单类型等。
根据上述筛选规则对数据的多个数据字段进行筛选后,得到了一个或多个静态特征。静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。其中,价格调整额度表示卖家修改价格时对单商品的价格调整,确认收货金额表示已经确认收货的金额,均为连续型的数据字段,且其值为数值类型,而物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型为离散型的数据字段。进一步的,物流状态、子业务类型和业务类型的值,通常不是数值类型,而是字符类型,但是否为子订单、是否为父订单和是否受促销引导的值,由于表征出布尔常量的特性,通常可以数值类型(1或0)来表示,1表示是子订单、是父订单、排除是因促销活动引导而产生的销量,0表示不是子订单、不是父订单、不排除是因促销活动引导而产生的销量。当然,静态特征所包括的内容并不限于此,本发明也不限制,可根据数据的属性、来源、具体需求等对静态特征包括的内容相适应调整。
接下来,统计预定时段内对数据的访问次数,将访问次数作为数据的动态特征。在该实施方式中,预定时段为6小时,数据的动态特征即为每6小时内数据的访问次数,访问次数包括对数据进行选择操作(SELECT)的次数和更新操作(UPDATE)的次数。
最后,计算数据进行插入操作(INSERT)和最后一次访问操作(包括选择操作和更新操作)的时间间隔,作为数据的生命周期。在提取出数据操作日志中各数据的混合特征和生命周期后,执行步骤S420,对数据操作日志中各数据,基于数据的混合特征形成对应的训练特征向量集。具体的,对数据的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的训练静态特征向量;若静态特征的值为数值类型,则根据静态特征的值形成对应的训练静态特征向量。基于数据的动态特征的值形成对应的训练动态特征向量,组合各训练静态特征向量和训练动态特征向量,以形成数据的训练特征向量集。
根据本发明的一个实施例,对值为非数值类型的静态特征进行编码处理时,可通过独热码和/或词嵌入的编码方式来实现。独热码,即one-hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。词嵌入,即wordembedding,是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。物流状态对应有三个非数值类型的值,分别为A、B和C,则可采用三位独热码进行编码,以001表示物流状态A,010表示物流状态B,100表示物流状态C。基于此,物流状态这一静态特征,所对应的训练静态特征向量为{001,010,100}。价格调整额度对应有一个数值类型的值,为5,则对应的训练静态特征向量为{5}。当然,物流状态也可采用词嵌入来进行编码,考虑到词嵌入为现有成熟技术,此处编码过程则不再赘述。此外,具体采用何种编码方式来对值为非数值类型的静态特征进行编码处理,可根据实际情况来灵活选择,本发明对此不做限制。
对动态特征而言,在该实施方式中,可获取预设采集时间内的动态特征的值,以形成对应的训练动态特征向量。优选的,预设采集时间为2天,即获取2天内每6小时对数据进行选择操作的次数和更新操作的次数,总共可得到8个选择操作的次数(分别是8、5、10、2、6、7、1、3)和8个更新操作的次数(分别是9、11、7、4、5、7、8、2)。基于此,训练动态特征向量为{8,5,10,2,6,7,1,3,9,11,7,4,5,7,8,2}。将上述2个训练静态特征向量和训练动态特征向量进行组合,形成训练特征向量集,表示为{001,010,100,5,8,5,10,2,6,7,1,3,9,11,7,4,5,7,8,2}。
在步骤S430中,根据数据的生命周期,确定数据的真实状态是热数据状态还是冷数据状态。根据本发明的一个实施例,若数据的生命周期超过预设的生命时长阈值,则确定数据的真实状态是冷数据状态,即该数据为冷数据;若数据的生命周期未超过预设的生命时长阈值,则确定数据的真实状态是热数据状态,即该数据为热数据。生命时长阈值的预设值,可基于数据类型、数据库管理系统的配置、性能要求等进行适当调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
接下来,执行步骤S440,关联数据的训练特征向量集和真实状态,形成对应的训练数据。图5示出了根据本发明的一个实施例的训练数据生成流程的示意图。如图5所示,对数据操作日志进行解析处理,以获取数据操作日志中各数据的多个数据字段、预定时段内对数据的访问次数、数据进行插入操作的操作时间和最后一次访问操作的操作时间。对数据操作日志中各数据,基于数据的多个数据字段,从多个数据字段中筛选出满足预设的筛选规则的数据字段,将筛选出的一个或多个数据字段作为该数据的静态特征。将预定时段内对数据的访问次数作为该数据的动态特征,基于数据进行插入操作的操作时间和最后一次访问操作的操作时间,计算两次操作的时间间隔,作为数据的生命周期。
对数据的静态特征和动态特征分别进行向量化处理,即,对数据的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的训练静态特征向量,若静态特征的值为数值类型,则根据静态特征的值形成对应的训练静态特征向量,基于数据的动态特征的值形成对应的训练动态特征向量。此后,组合各训练静态特征向量和训练动态特征向量,以形成数据的训练特征向量集。
基于数据的生命周期对数据的状态进行标签化处理,即根据数据的生命周期,确定数据的真实状态是热数据状态还是冷数据状态。最后,关联数据的训练特征向量集和真实状态,形成对应的训练数据。
最后,在步骤S450中,汇集数据操作日志中各数据对应的训练数据,以生成训练数据集合。在获取到训练数据集合后,执行方法300中的步骤S320,基于训练数据集合进行模型训练,以便数据状态预测模型的输出指示输入特征向量集对应数据的状态。根据本发明的一个实施例,若数据状态预测模型是基于如GBDT算法一类的决策树算法构建的模型,则可参照此类算法的模型训练方式进行数据状态预测模型的训练。简单来说,根据一个指标,分裂训练数据集合为多个子集合。这一过程不断地在产生的子集合里重复递归进行,即递归分割。当一个训练子集的指标都相同时,递归停止,此时训练完成。
根据本发明的又一个实施例,若数据状态预测模型是基于如深度神经网络一类的神经网络模型而生成的,则可通过如下方式进行模型训练。首先,对训练数据集合中的各条训练数据,将训练数据中的训练特征向量集作为输入,输入到数据状态预测模型,以得到数据状态预测模型输出的、训练特征向量集对应数据的预测状态,然后,基于训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整数据状态预测模型的参数。在该实施方式中,可使用反向传播算法等算法调整数据状态预测模型的参数。需要说明的是,数据状态预测模型并不限于上述训练方法来进行训练,根据模型自身的结构和特性,可采用相适应的训练方法,对此本发明并不限制。
在完成数据状态预测模型的构建和训练后,即可基于数据状态预测模型进行数据的状态预测。图6示出了根据本发明的一个实施例的数据处理方法600的流程图。
如图6所示,方法600始于步骤S610。在步骤S610中,提取待处理的数据的混合特征,混合特征包括静态特征和动态特征。根据本发明的一个实施例,可通过如下方式提取待处理的数据的混合特征。首先,获取待处理的数据的多个数据字段,再从多个数据字段中筛选出满足预设的筛选规则的数据字段,将筛选出的一个或多个数据字段作为该数据的静态特征。其中,筛选规则包括至少以下一项:对连续型的数据字段,若数据字段的值变化连续和/或值分布合理,则确定数据字段可作为该数据的静态特征;对离散型的数据字段,若数据字段的值指示数据字段对应的状态属性正常,则确定数据字段可作为该数据的静态特征。
在该实施方式中,待处理的数据为电商流水数据,以D表示,则对数据D而言,其包括5个数据字段,分别是价格调整额度、子业务类型、价格上限、价格下限和抵扣额度。其中,价格调整额度、价格上限、价格下限和抵扣额度均为连续型的数据字段,子业务类型为离散型的数据字段。价格调整额度这一数据字段的值变化连续,则确定价格调整额度为数据D的静态特征。价格上限、价格下限和抵扣额度这三个数据字段,值变化不连续且值分布不合理,因此不可以作为数据D的静态特征。此外,子业务类型这一数据字段的值为S1和S2,指示子业务类型对应的状态属性正常,则确定子业务类型为数据D的静态特征。
动态特征包括预定时段内对数据的访问次数,访问次数包括对数据进行选择操作的次数和更新操作的次数。优选的,预定时段为6小时,则数据D的动态特征包括每6小时内对数据D进行选择操作(SELECT)的次数和更新操作(UPDATE)的次数。
随后,进入步骤S620,根据混合特征,形成待处理的数据的特征向量集。根据本发明的一个实施例,可通过如下方式形成特征向量集。首先,对混合特征中的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的静态特征向量,若静态特征的值为数值类型,则根据静态特征的值形成对应的静态特征向量。然后,基于混合特征中的动态特征的值形成对应的动态特征向量,再组合各静态特征向量和动态特征向量,以形成该数据的特征向量集。
在该实施方式中,可通过独热码和/或词嵌入的编码方式,对值为非数值类型的静态特征进行编码处理。数据D的静态特征中,子业务类型的值S1和S2为非数值类型,此处使用两位独热码对其编码,以01表示子业务类型S1,10表示子业务类型S2。那么,对于子业务类型这一静态特征,所对应的静态特征向量为{01,10}。价格调整额度对应有两个数值类型的值,分别为7和9,则对应的静态特征向量为{7,9}。
对数据D的动态特征而言,获取预设采集时间内的动态特征的值,以形成对应的动态特征向量。预设采集时间优选为2天,即获取2天内每6小时对数据进行选择操作的次数和更新操作的次数,总共可得到8个选择操作的次数(分别是3、5、8、1、2、9、11、5)和8个更新操作的次数(分别是2、7、3、10、8、3、5、6)。基于此,数据D对应的动态特征向量为{3,5,8,1,2,9,11,5,2,7,3,10,8,3,5,6}。将上述2个静态特征向量和动态特征向量进行组合,所形成的特征向量集表示为:{01,10,7,9,3,5,8,1,2,9,11,5,2,7,3,10,8,3,5,6}。
接下来,在步骤S630中,将特征向量集输入到预先训练好的数据状态预测模型中,以预测该数据对应的状态。根据本发明的一个实施例,数据状态预测模型基于预先获取的训练数据集合进行模型训练,以便数据状态预测模型的输出指示输入特征向量集对应数据的状态。在该实施方式中,训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和训练特征向量集对应数据的真实状态。在进行模型训练时,对训练数据集合中的各条训练数据,将训练数据中的训练特征向量集作为输入,输入到数据状态预测模型,以得到数据状态预测模型输出的、训练特征向量集对应数据的预测状态,基于训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整数据状态预测模型的参数。
用于训练数据状态预测模型的训练数据集合需要预先生成,根据本发明的一个实施例,可通过如下方式预先获取训练数据集合。首先,对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期。具体的,先对数据操作日志进行解析,以获取数据操作日志中各数据的多个数据字段,对数据操作日志中各数据,基于数据的多个数据字段,确定数据的一个或多个静态特征,再统计预定时段内对数据的访问次数,将访问次数作为数据的动态特征,计算数据进行插入操作和最后一次访问操作的时间间隔,作为数据的生命周期。其中,数据操作日志包括电子商务流水业务场景下数据的操作日志,静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。当然,静态特征所包括的内容并不限于此,本发明也不限制,可根据数据的属性、来源、具体需求等对静态特征包括的内容相适应调整。
然后,对数据操作日志中各数据,基于数据的混合特征形成对应的训练特征向量集。具体的,对数据的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的训练静态特征向量,若静态特征的值为数值类型,则根据静态特征的值形成对应的训练静态特征向量,基于数据的动态特征的值形成对应的训练动态特征向量,组合各训练静态特征向量和训练动态特征向量,以形成数据的训练特征向量集。
进而,根据数据的生命周期,确定数据的真实状态是热数据状态还是冷数据状态,关联数据的训练特征向量集和真实状态,形成对应的训练数据,最后汇集数据操作日志中各数据对应的训练数据,以生成训练数据集合。
在该实施方式中,在将步骤S620中形成的数据D的特征向量集作为输入,输入到预先训练好的数据状态预测模型中,得到数据状态预测模型输出的、数据D对应的状态为冷数据状态。
最后,执行步骤S640,若该状态指示该数据为冷数据,则将该数据进行迁移。根据本发明的一个实施例,数据D对应的状态为冷数据状态,指示数据D为冷数据,则将数据D进行迁移。在该实施方式中,数据D之前存储于NVM中,由于NVM是适于热数据存储的存储介质,则将数据D从NVM迁移到适于冷数据存储的存储介质,如HDD中。需要说明的是,在迁移冷数据时,可根据当前冷热数据的存储情况,对实际迁移位置进行适应性调整,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
图7示出了根据本发明的一个实施例的数据处理装置700的示意图。如图7所示,数据处理装置700包括提取模块710、形成模块720、预测模块730和迁移模块740。
提取模块710适于提取待处理的数据的混合特征,混合特征包括静态特征和动态特征。根据本发明的一个实施例,提取模块710进一步适于获取待处理的数据的多个数据字段,从多个数据字段中筛选出满足预设的筛选规则的数据字段,将筛选出的一个或多个数据字段作为该数据的静态特征。
在该实施方式中,筛选规则包括至少以下一项:对连续型的数据字段,若数据字段的值变化连续和/或值分布合理,则确定数据字段可作为该数据的静态特征,对离散型的数据字段,若数据字段的值指示数据字段对应的状态属性正常,则确定数据字段可作为该数据的静态特征。动态特征包括预定时段内对数据的访问次数,访问次数包括对数据进行选择操作的次数和更新操作的次数。
形成模块720适于根据该混合特征,形成待处理的数据的特征向量集。根据本发明的一个实施例,形成模块720进一步适于对混合特征中的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的静态特征向量,若静态特征的值为数值类型,则根据静态特征的值形成对应的静态特征向量,基于混合特征中的动态特征的值形成对应的动态特征向量,组合各静态特征向量和动态特征向量,以形成该数据的特征向量集。在该实施方式中,形成模块720进一步适于通过独热码和/或词嵌入的编码方式,对静态特征的值进行编码处理。
预测模块730适于将特征向量集输入到预先训练好的数据状态预测模型中,以预测该数据对应的状态。根据本发明的一个实施例,数据状态预测模型基于预先获取的训练数据集合进行模型训练,以便数据状态预测模型的输出指示输入特征向量集对应数据的状态。训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和训练特征向量集对应数据的真实状态,预测模块730还适于基于预先获取的训练数据集合进行模型训练,具体的,对训练数据集合中的各条训练数据,将训练数据中的训练特征向量集作为输入,输入到数据状态预测模型,以得到数据状态预测模型输出的、训练特征向量集对应数据的预测状态,基于训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整数据状态预测模型的参数。
根据本发明的一个实施例,预测模块730还适于预先获取训练数据集合,进一步适于对数据操作日志进行解析,根据解析结果提取数据操作日志中各数据的混合特征和生命周期,对数据操作日志中各数据,基于数据的混合特征形成对应的训练特征向量集,根据数据的生命周期,确定数据的真实状态是热数据状态还是冷数据状态,关联数据的训练特征向量集和真实状态,形成对应的训练数据,汇集数据操作日志中各数据对应的训练数据,以生成训练数据集合。其中,数据操作日志包括电子商务流水业务场景下数据的操作日志,静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。
在该实施方式中,预测模块730进一步适于对数据操作日志进行解析,以获取数据操作日志中各数据的多个数据字段,对数据操作日志中各数据,基于数据的多个数据字段,确定数据的一个或多个静态特征,统计预定时段内对数据的访问次数,将访问次数作为数据的动态特征,计算数据进行插入操作和最后一次访问操作的时间间隔,作为数据的生命周期。预测模块730进一步适于对数据的各静态特征,若静态特征的值为非数值类型,则对静态特征的值进行编码处理,以生成对应的训练静态特征向量,若静态特征的值为数值类型,则根据静态特征的值形成对应的训练静态特征向量,基于数据的动态特征的值形成对应的训练动态特征向量,组合各训练静态特征向量和训练动态特征向量,以形成数据的训练特征向量集。
迁移模块740适于在该状态指示数据为冷数据时,则将该数据进行迁移。
关于数据处理的具体步骤以及实施例,在基于图2~6的描述中已经详细公开,此处不再赘述。
现有的数据处理方法,在对数据的状态进行预测时,部分场景的损失率较高,且预测准确率难以满足要求,对电商流水日志缺乏针对性。根据本发明实施例的数据处理的技术方案,先提取待处理的数据的混合特征,以形成对应的特征向量集,将特征向量集输入到数据状态预测模型进行状态预测,若该状态指示该数据为冷数据,则将该数据进行迁移,最大程度节省存储成本,保持系统性能处于高水位。其中,混合特征包括静态特征和动态特征,将静态特征和动态特征结合不但可以体现数据的本征特性,还可以体现数据的动态访问特性,很大提高了模型的训练程度和预测的准确度。而且,模型根据电商流水数据进行训练得到,具有很强的针对性,基于上述方案,可以实时预测出至少95%的冷热数据。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的数据处理方法和/或数据状态预测模型的训练方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (24)
1.一种数据处理方法,包括:
提取待处理的数据的混合特征,所述混合特征包括静态特征和动态特征;
根据所述混合特征,形成待处理的数据的特征向量集;
将所述特征向量集输入到预先训练好的数据状态预测模型中,以预测所述数据对应的状态;
若所述状态指示所述数据为冷数据,则将所述数据进行迁移。
2.如权利要求1所述的方法,其中,所述提取待处理的数据的混合特征,包括:
获取待处理的数据的多个数据字段;
从所述多个数据字段中筛选出满足预设的筛选规则的数据字段,将筛选出的一个或多个数据字段作为所述数据的静态特征。
3.如权利要求2所述的方法,其中,所述筛选规则包括至少以下一项:
对连续型的数据字段,若所述数据字段的值变化连续和/或值分布合理,则确定所述数据字段可作为所述数据的静态特征;
对离散型的数据字段,若所述数据字段的值指示所述数据字段对应的状态属性正常,则确定所述数据字段可作为所述数据的静态特征。
4.如权利要求1所述的方法,其中,所述动态特征包括预定时段内对数据的访问次数。
5.如权利要求4所述的方法,其中,所述访问次数包括对数据进行选择操作的次数和更新操作的次数。
6.如权利要求1所述的方法,所述根据所述混合特征,形成待处理的数据的特征向量集,包括:
对所述混合特征中的各静态特征,若所述静态特征的值为非数值类型,则对所述静态特征的值进行编码处理,以生成对应的静态特征向量;
若所述静态特征的值为数值类型,则根据所述静态特征的值形成对应的静态特征向量;
基于所述混合特征中的动态特征的值形成对应的动态特征向量;
组合各静态特征向量和所述动态特征向量,以形成所述数据的特征向量集。
7.如权利要求6所述的方法,所述对所述静态特征的值进行编码处理,包括:
通过独热码和/或词嵌入的编码方式,对所述静态特征的值进行编码处理。
8.如权利要求1所述的方法,其中,所述数据状态预测模型基于预先获取的训练数据集合进行模型训练,以便所述数据状态预测模型的输出指示输入特征向量集对应数据的状态。
9.如权利要求8所述的方法,其中,所述训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和所述训练特征向量集对应数据的真实状态,所述基于预先获取的训练数据集合进行模型训练,包括:
对所述训练数据集合中的各条训练数据,将所述训练数据中的训练特征向量集作为输入,输入到所述数据状态预测模型,以得到所述数据状态预测模型输出的、所述训练特征向量集对应数据的预测状态;
基于所述训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整所述数据状态预测模型的参数。
10.如权利要求8或9所述的方法,其中,还包括预先获取训练数据集合,所述预先获取训练数据集合,包括:
对数据操作日志进行解析,根据解析结果提取所述数据操作日志中各数据的混合特征和生命周期;
对所述数据操作日志中各数据,基于所述数据的混合特征形成对应的训练特征向量集;
根据所述数据的生命周期,确定所述数据的真实状态是热数据状态还是冷数据状态;
关联所述数据的训练特征向量集和真实状态,形成对应的训练数据;
汇集所述数据操作日志中各数据对应的训练数据,以生成训练数据集合。
11.如权利要求10所述的方法,其中,所述对数据操作日志进行解析,根据解析结果提取所述数据操作日志中各数据的混合特征和生命周期,包括:
对数据操作日志进行解析,以获取所述数据操作日志中各数据的多个数据字段;
对所述数据操作日志中各数据,基于所述数据的多个数据字段,确定所述数据的一个或多个静态特征;
统计预定时段内对所述数据的访问次数,将所述访问次数作为所述数据的动态特征;
计算所述数据进行插入操作和最后一次访问操作的时间间隔,作为所述数据的生命周期。
12.如权利要求11所述的方法,其中,基于所述数据的混合特征形成对应的训练特征向量集,包括:
对所述数据的各静态特征,若所述静态特征的值为非数值类型,则对所述静态特征的值进行编码处理,以生成对应的训练静态特征向量;
若所述静态特征的值为数值类型,则根据所述静态特征的值形成对应的训练静态特征向量;
基于所述数据的动态特征的值形成对应的训练动态特征向量;
组合各训练静态特征向量和所述训练动态特征向量,以形成所述数据的训练特征向量集。
13.如权利要求10所述的方法,其中,所述数据操作日志包括电子商务流水业务场景下数据的操作日志。
14.如权利要求13所述的方法,其中,所述静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。
15.一种数据状态预测模型的训练方法,包括:
获取训练数据集合,所述训练数据集合包括多条训练数据,每条训练数据包括训练特征向量集和所述训练特征向量集对应数据的真实状态;
基于所述训练数据集合进行模型训练,以便所述数据状态预测模型的输出指示输入特征向量集对应数据的状态。
16.如权利要求15所述的方法,其中,所述基于所述训练数据集合进行模型训练,包括:
对所述训练数据集合中的各条训练数据,将所述训练数据中的训练特征向量集作为输入,输入到所述数据状态预测模型,以得到所述数据状态预测模型输出的、所述训练特征向量集对应数据的预测状态;
基于所述训练数据中的训练特征向量集对应数据的预测状态和真实状态,调整所述数据状态预测模型的参数。
17.如权利要求15或16所述的方法,其中,所述获取训练数据集合,包括:
对数据操作日志进行解析,根据解析结果提取所述数据操作日志中各数据的混合特征和生命周期;
对所述数据操作日志中各数据,基于所述数据的混合特征形成对应的训练特征向量集;
根据所述数据的生命周期,确定所述数据的真实状态是热数据状态还是冷数据状态;
关联所述数据的训练特征向量集和真实状态,形成对应的训练数据;
汇集所述数据操作日志中各数据对应的训练数据,以生成训练数据集合。
18.如权利要求17所述的方法,其中,所述对数据操作日志进行解析,根据解析结果提取所述数据操作日志中各数据的混合特征和生命周期,包括:
对数据操作日志进行解析,以获取所述数据操作日志中各数据的多个数据字段;
对所述数据操作日志中各数据,基于所述数据的多个数据字段,确定所述数据的一个或多个静态特征;
统计预定时段内对所述数据的访问次数,将所述访问次数作为所述数据的动态特征;
计算所述数据进行插入操作和最后一次访问操作的时间间隔,作为所述数据的生命周期。
19.如权利要求18所述的方法,其中,基于所述数据的混合特征形成对应的训练特征向量集,包括:
对所述数据的各静态特征,若所述静态特征的值为非数值类型,则对所述静态特征的值进行编码处理,以生成对应的训练静态特征向量;
若所述静态特征的值为数值类型,则根据所述静态特征的值形成对应的训练静态特征向量;
基于所述数据的动态特征的值形成对应的训练动态特征向量;
组合各训练静态特征向量和所述训练动态特征向量,以形成所述数据的训练特征向量集。
20.如权利要求17所述的方法,其中,所述数据操作日志包括电子商务流水业务场景下数据的操作日志。
21.如权利要求20所述的方法,其中,所述静态特征包括价格调整额度、物流状态、子业务类型、是否为子订单、是否为父订单、是否受促销引导、业务类型、确认收货金额中至少一项。
22.一种数据处理装置,包括:
提取模块,适于提取待处理的数据的混合特征,所述混合特征包括静态特征和动态特征;
形成模块,适于根据所述混合特征,形成待处理的数据的特征向量集;
预测模块,适于将所述特征向量集输入到预先训练好的数据状态预测模型中,以预测所述数据对应的状态;
迁移模块,适于在所述状态指示所述数据为冷数据时,则将所述数据进行迁移。
23.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-21所述的方法中的任一方法的指令。
24.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-21所述的方法中的任一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811140049.1A CN110968564B (zh) | 2018-09-28 | 2018-09-28 | 一种数据处理方法及数据状态预测模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811140049.1A CN110968564B (zh) | 2018-09-28 | 2018-09-28 | 一种数据处理方法及数据状态预测模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968564A true CN110968564A (zh) | 2020-04-07 |
CN110968564B CN110968564B (zh) | 2023-04-25 |
Family
ID=70026920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811140049.1A Active CN110968564B (zh) | 2018-09-28 | 2018-09-28 | 一种数据处理方法及数据状态预测模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968564B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815250A (zh) * | 2020-09-11 | 2020-10-23 | 北京福佑多多信息技术有限公司 | 用于物流的货物状态识别方法、装置及二分类建模方法 |
CN111930512A (zh) * | 2020-08-27 | 2020-11-13 | 山东有人信息技术有限公司 | 一种提高边缘采集效率的优化分组方法及系统 |
CN113435109A (zh) * | 2021-06-04 | 2021-09-24 | 衢州学院 | 一种混合ssd的性能与寿命的优化方法 |
US11714964B2 (en) * | 2020-03-13 | 2023-08-01 | Canon Medical Systems Corporation | Text processing method and apparatus |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336844A (zh) * | 2013-07-22 | 2013-10-02 | 广西师范大学 | 大数据rd分割方法 |
US20140089257A1 (en) * | 2012-09-24 | 2014-03-27 | International Business Machines Corporation | Increased database performance via migration of data to faster storage |
CN106528608A (zh) * | 2016-09-27 | 2017-03-22 | 中国电力科学研究院 | 一种云架构下的电网gis数据冷热存储方法和系统 |
US20180013772A1 (en) * | 2016-07-05 | 2018-01-11 | Webroot Inc. | Automatic Inline Detection based on Static Data |
CN107888616A (zh) * | 2017-12-06 | 2018-04-06 | 北京知道创宇信息技术有限公司 | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 |
US20180157655A1 (en) * | 2016-12-02 | 2018-06-07 | International Business Machines Corporation | Data migration using a migration data placement tool between storage systems based on data access |
CN108241725A (zh) * | 2017-05-24 | 2018-07-03 | 新华三大数据技术有限公司 | 一种数据热度统计系统和方法 |
-
2018
- 2018-09-28 CN CN201811140049.1A patent/CN110968564B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140089257A1 (en) * | 2012-09-24 | 2014-03-27 | International Business Machines Corporation | Increased database performance via migration of data to faster storage |
CN103336844A (zh) * | 2013-07-22 | 2013-10-02 | 广西师范大学 | 大数据rd分割方法 |
US20180013772A1 (en) * | 2016-07-05 | 2018-01-11 | Webroot Inc. | Automatic Inline Detection based on Static Data |
CN106528608A (zh) * | 2016-09-27 | 2017-03-22 | 中国电力科学研究院 | 一种云架构下的电网gis数据冷热存储方法和系统 |
US20180157655A1 (en) * | 2016-12-02 | 2018-06-07 | International Business Machines Corporation | Data migration using a migration data placement tool between storage systems based on data access |
CN108241725A (zh) * | 2017-05-24 | 2018-07-03 | 新华三大数据技术有限公司 | 一种数据热度统计系统和方法 |
CN107888616A (zh) * | 2017-12-06 | 2018-04-06 | 北京知道创宇信息技术有限公司 | 基于URI的分类模型的构建方法和Webshell攻击网站的检测方法 |
Non-Patent Citations (2)
Title |
---|
程学旗: ""大数据系统和分析技术综述"" * |
黄彬;杜晨杰;: "固态盘热数据识别算法研究" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11714964B2 (en) * | 2020-03-13 | 2023-08-01 | Canon Medical Systems Corporation | Text processing method and apparatus |
CN111930512A (zh) * | 2020-08-27 | 2020-11-13 | 山东有人信息技术有限公司 | 一种提高边缘采集效率的优化分组方法及系统 |
CN111930512B (zh) * | 2020-08-27 | 2022-07-19 | 山东有人物联网股份有限公司 | 一种提高边缘采集效率的优化分组方法及系统 |
CN111815250A (zh) * | 2020-09-11 | 2020-10-23 | 北京福佑多多信息技术有限公司 | 用于物流的货物状态识别方法、装置及二分类建模方法 |
CN113435109A (zh) * | 2021-06-04 | 2021-09-24 | 衢州学院 | 一种混合ssd的性能与寿命的优化方法 |
CN113435109B (zh) * | 2021-06-04 | 2024-01-30 | 衢州学院 | 一种混合ssd的性能与寿命的优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110968564B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968564B (zh) | 一种数据处理方法及数据状态预测模型的训练方法 | |
CN105389349A (zh) | 词典更新方法及装置 | |
CN109948036A (zh) | 一种分词词项权重的计算方法和装置 | |
CN104679646B (zh) | 一种用于检测sql代码缺陷的方法和装置 | |
WO2016107354A1 (zh) | 提供用户个性化资源消息推送的方法和装置 | |
CN108491226B (zh) | 基于集群缩放的Spark配置参数自动调优方法 | |
CN110706015B (zh) | 一种面向广告点击率预测的特征选取方法 | |
CN111176578B (zh) | 一种对象聚合方法、装置、设备及可读存储介质 | |
Bernhard et al. | Clickstream prediction using sequential stream mining techniques with Markov chains | |
US20230161947A1 (en) | Mathematical models of graphical user interfaces | |
US20220343146A1 (en) | Method and system for temporal graph neural network acceleration | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN103324641B (zh) | 信息记录推荐方法和装置 | |
CN110674397B (zh) | 年龄点预测模型的训练方法及装置、设备与可读介质 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN106776757B (zh) | 用户完成网银操作的指示方法及装置 | |
CN103995828A (zh) | 一种云存储日志数据分析方法 | |
CN107133321B (zh) | 页面的搜索特性的分析方法和分析装置 | |
CN105162643A (zh) | 流量预估的方法、装置及计算设备 | |
CN110532389B (zh) | 一种文本聚类方法、装置和计算设备 | |
CN110851708B (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN112732766B (zh) | 一种数据排序方法、装置、电子设备及存储介质 | |
CN114266653A (zh) | 集成学习的客户贷款风险预估方法 | |
CN108229572B (zh) | 一种参数寻优方法及计算设备 | |
CN118245227B (zh) | 一种基于时间窗内决策树的计算集群任务调度与负载均衡方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230717 Address after: Room 1-2-A06, Yungu Park, No. 1008 Dengcai Street, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province Patentee after: Aliyun Computing Co.,Ltd. Address before: Grand Cayman capital building, a mailbox four / 847 Patentee before: ALIBABA GROUP HOLDING Ltd. |