CN117828323A - 特征预测方法、装置和存储介质 - Google Patents
特征预测方法、装置和存储介质 Download PDFInfo
- Publication number
- CN117828323A CN117828323A CN202211193322.3A CN202211193322A CN117828323A CN 117828323 A CN117828323 A CN 117828323A CN 202211193322 A CN202211193322 A CN 202211193322A CN 117828323 A CN117828323 A CN 117828323A
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- unit time
- prediction
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 146
- 238000010276 construction Methods 0.000 claims description 292
- 238000012549 training Methods 0.000 claims description 81
- 230000004927 fusion Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 37
- 230000006399 behavior Effects 0.000 claims description 36
- 230000036961 partial effect Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000010926 purge Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 206010047289 Ventricular extrasystoles Diseases 0.000 description 8
- 238000005129 volume perturbation calorimetry Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- JXLYSJRDGCGARV-WWYNWVTFSA-N Vinblastine Natural products O=C(O[C@H]1[C@](O)(C(=O)OC)[C@@H]2N(C)c3c(cc(c(OC)c3)[C@]3(C(=O)OC)c4[nH]c5c(c4CCN4C[C@](O)(CC)C[C@H](C3)C4)cccc5)[C@@]32[C@H]2[C@@]1(CC)C=CCN2CC3)C JXLYSJRDGCGARV-WWYNWVTFSA-N 0.000 description 3
- 241000863480 Vinca Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 229960003048 vinblastine Drugs 0.000 description 3
- JXLYSJRDGCGARV-XQKSVPLYSA-N vincaleukoblastine Chemical compound C([C@@H](C[C@]1(C(=O)OC)C=2C(=CC3=C([C@]45[C@H]([C@@]([C@H](OC(C)=O)[C@]6(CC)C=CCN([C@H]56)CC4)(O)C(=O)OC)N3C)C=2)OC)C[C@@](C2)(O)CC)N2CCC2=C1NC1=CC=CC=C21 JXLYSJRDGCGARV-XQKSVPLYSA-N 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种特征预测方法、装置和存储介质。该方法包括:获取待预测对象的历史数据以及预测单位时间,历史数据包括:待预测对象的类别特征以及类别特征对应的历史序列特征,历史序列特征表示针对类别特征的待预测对象在多个历史单位时间下采集的历史行为数据;根据历史数据以及预测单位时间进行特征预测,得到目标序列特征,目标特征序列表示类别特征的待预测对象在预测单位时间内的预测行为数据。根据本申请实施例,能够提高特征预测的便捷性和效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种特征预测方法、装置和存储介质。
背景技术
随着互联网技术的发展,特征预测技术在金融、工业、零售和医疗等领域有着广泛的应用场景。而由于不同数据源之间的业务含义不同、差异太大,传统的特征预测方式通常需要专业的技术人员基于业务逻辑和先验知识,手动构造新的特征,或利用公开的特征构造工具,来构造新的特征,再利用构造出的特征进行特征预测;但这些方式的特征预测过程较为繁琐,特征预测效率较低,需要技术人员具有丰富的经验知识,对于普通用户来说门槛较高。
发明内容
有鉴于此,提出了一种特征预测方法、装置和存储介质。
第一方面,本申请的实施例提供了一种特征预测方法,该方法包括:获取待预测对象的历史数据以及预测单位时间,所述历史数据包括:待预测对象的类别特征以及所述类别特征对应的历史序列特征,所述历史序列特征表示针对所述类别特征的待预测对象在多个历史单位时间下采集的历史行为数据;根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,所述目标特征序列表示所述类别特征的待预测对象在所述预测单位时间内的预测行为数据。
根据本申请实施例,能够在获取到待预测对象的历史数据以及预测单位时间后,直接根据历史数据与预测单位时间自动化地预测出用户所需的目标序列特征,这样用户只需提供历史数据以及预测单位时间,无需具有专业的特征构造经验及相关知识,即可得到待预测对象的预测行为数据,从而降低用户门槛,提高特征预测的便捷性和效率。
根据第一方面,在所述特征预测方法的第一种可能的实现方式中,所述根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,包括:基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征,所述构造序列特征表征从所述预测单位时间向过去数至少一个历史单位时间内的历史行为数据的序列特征;通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
根据本申请实施例,通过基于预测单位时间和历史数据中的历史序列特征进行特征构造,能够实现自动化与标准化地构造出所需的构造序列特征,有利于提高特征预测效率;再通过特征预测模型根据待预测对象的类别特征以及构造序列特征进行特征预测,能够实现综合利用有效且丰富的特征信息(也即构造序列特征所表征的序列信息与类别特征所表征的类别信息),预测出更精准的目标序列特征,有利于得到理想的预测效果。
根据第一方面的第一种可能的实现方式,所述基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征,包括以下至少一种:基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,得到构造序列特征;基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;基于从预测单位时间向过去数第n个历史单位时间后,再从所述第n个历史单位时间向过去数m个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;其中,i、j、n、m均为正整数,所述统计特征包括以下至少一种:总和、最大值、最小值、平均值、标准差、方差、中位数。
根据本申请实施例,通过构造出的各种构造序列特征,可以进一步捕获历史序列特征的内在规律,为模型预测提供丰富的序列信息,从而提高模型预测精度。
根据第一方面,在所述特征预测方法的第二种可能的实现方式中,所述方法还包括:基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征;其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:通过特征预测模型根据所述类别特征、所述构造序列特征以及所述构造时间特征进行特征预测,得到所述目标序列特征。
据本申请实施例,能够基于历史单位时间与预测单位时间,构造出表征时间信息的构造时间特征,从而在利用特征预测模型进行特征预测时,不仅可以利用类别信息与序列信息,还可以结合时间信息,输出更精准的目标序列特征。
根据第一方面的第二种可能的实现方式,所述基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征,包括以下至少一种:确定从预测单位时间向过去数第x个历史单位时间的日期特征,作为构造时间特征,所述日期特征包括以下至少一种:节假日、星期、工作日以及自定义节日,x为正整数;确定预测单位时间所属的日期特征,作为构造时间特征;确定预测单位时间对应的自定义时间特征,作为构造时间特征,所述自定义时间特征包括以下至少一种:预测单位时间属于预设周期内的第几个单位时间、预测单位时间是否属于节假日、预测单位时间距离最近节假日的天数、从预测单位时间向未来数y天内节假日的天数和,y为正整数。
根据本申请实施例,通过构造出各种构造时间特征,能够为模型预测提供各种丰富的时间信息,从而提高模型预测精度。
根据第一方面,在所述特征预测方法的第三种可能的实现方式中,在所述类别特征是字符串类型的情况下,在获取待预测对象的历史数据之后,所述方法还包括:对所述类别特征进行编码处理,得到数值型的类别特征;其中,所述编码处理包括以下至少一种:数字编码、独热编码、二进制编码。
根据本申请实施例,能够使特征预测模型利用数值型的类别特征所表征的类别信息,有效输出精准的预测结果。
根据第一方面,在所述特征预测方法的第四种可能的实现方式中,不同的待预测对象对应不同的特征预测模型,所述方法还包括:响应于接收到针对特征预测模型的选择指令,确定所述选择指令所指示的特征预测模型;其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:通过所述选择指令所指示的特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
根据本申请实施例,能够使用户基于不同待预测对象选择所需的特征预测模型,并通过选中的特征预测模型进行特征预测,满足用户针对各种待预测对象的特征预测需求。
根据第一方面,在所述特征预测方法的第五种可能的实现方式中,所述特征预测模型的训练过程包括:获取样本对象的样本历史数据,所述样本历史数据包括:多个样本类别特征以及不同样本类别特征对应的样本历史序列特征,所述样本历史序列特征表示针对所述样本类别特征的样本对象在多个样本历史单位时间下采集的历史行为数据;根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,所述业务逻辑用于指示所述样本预测单位时间的目标时间单位;基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,所述样本特征池包括:多个样本类别特征以及多个样本类别特征各自对应的样本构造序列特征和/或样本构造时间特征;利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型。
根据本申请实施例,通过根据预设的业务逻辑以及样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征,能够得到满足各种业务逻辑所需的样本预测单位时间内的样本目标序列特征,并通过基于样本历史数据以及样本预测单位时间构造出表征序列信息的样本构造序列特征和/或表征时间信息的样本构造时间特征,并结合表征类别信息的样本类别特征,来训练基模型,能够提升基模型的性能,得到精度更高与泛化性更好的特征预测模型。
根据第一方面的第五种可能的实现方式,所述根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,包括:在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位相匹配的情况下,将所述样本历史单位时间作为样本预测单位时间,并将所述样本历史序列特征作为样本目标序列特征;或,在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位不匹配的情况下,根据所述目标时间单位以及所述样本历史单位时间,确定样本预测单位时间,并根据所述样本历史序列特征以及所述样本预测单位时间,确定样本目标序列特征。
根据本申请实施例,能够构造出符合各种业务逻辑的样本预测单位时间内的样本目标序列特征,从而可以利用样本目标序列特征训练出满足各种业务逻辑需求的特征预测模型。
根据第一方面的第五种可能的实现方式,所述基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,包括:基于所述样本预测单位时间与所述样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征;和/或,基于所述样本历史单位时间与所述样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征。
根据本申请实施例,通过构造出表征序列信息的样本构造序列特征和/或表征时间信息的样本构造时间特征,这样在基模型的训练过程中,能够使基模型学习到丰富的类别信息、序列信息和/或时间信息,有利于提高训练后得到的特征预测模型的精度和泛化性。
根据第一方面的第五种可能的实现方式,所述样本特征池中的多个样本类别特征各自对应多个样本构造序列特征和/或多个样本构造时间特征,所述利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型,包括:基于预设的特征抽取方式,从所述样本特征池中抽取出至少两个特征子集,每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征;利用所述至少两个特征子集以及所述至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型;将所述至少两个训练后的基模型进行融合,得到所述特征预测模型。
根据本申请实施例,通过从样本特征池中抽取至少两个特征子集,并利用至少两个特征子集以及对应的样本目标序列特征,训练至少两个基模型,有利于使各个基模型分别重点学习部分的特征信息(如部分类别信息、部分序列信息、部分时间信息),再将至少两个训练后的基模型进行融合,可以提高融合后的特征预测模型的性能,得到精度更高和泛化性更好的特征预测模型。
可选地,在所述至少两个基模型的训练过程中,采用图网络模型学习所述至少两个基模型之间的关联关系以及所述至少两个基模型各自对应的融合权重,所述将所述至少两个训练后的基模型进行融合,得到特征预测模型,包括:基于所述图网络模型学习的所述至少两个基模型之间的关联关系以及各自对应的融合权重,融合所述至少两个训练后的基模型,得到所述特征预测模型。
根据本申请实施例,能够利用图网络模型学习的关联关系以及各自对应的融合权重,有效地实现基模型融合,有利于提升融合后得到的特征预测模型的精度和泛化性。
第二方面,本申请的实施例提供了一种特征预测装置,该装置包括:获取模块,用于获取待预测对象的历史数据以及预测单位时间,所述历史数据包括:待预测对象的类别特征以及所述类别特征对应的历史序列特征,所述历史序列特征表示针对所述类别特征的待预测对象在多个历史单位时间下采集的历史行为数据;预测模块,用于根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,所述目标特征序列表示所述类别特征的待预测对象在所述预测单位时间内的预测行为数据。
根据第二方面,在所述特征预测装置的第一种可能的实现方式中,所述预测模块,包括:序列特征构造子模块,用于基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征;特征预测子模块,用于通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
根据第二方面的第一种可能的实现方式中,所述基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征,包括以下至少一种:基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,得到构造序列特征;基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;基于从预测单位时间向过去数第n个历史单位时间后,再从所述第n个历史单位时间向过去数m个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;其中,i、j、n、m均为正整数,所述统计特征包括以下至少一种:总和、最大值、最小值、平均值、标准差、方差、中位数。
根据第二方面,在所述特征预测装置的第二种可能的实现方式中,所述装置还包括:时间特征构造模块,用于基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征;其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:通过特征预测模型根据所述类别特征、所述构造序列特征以及所述构造时间特征进行特征预测,得到所述目标序列特征。
根据第二方面的第二种可能的实现方式,所述基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征,包括以下至少一种:确定从预测单位时间向过去数第x个历史单位时间的日期特征,作为构造时间特征,所述日期特征包括以下至少一种:节假日、星期、工作日以及自定义节日,x为正整数;确定预测单位时间所属的日期特征,作为构造时间特征;确定预测单位时间对应的自定义时间特征,作为构造时间特征,所述自定义时间特征包括以下至少一种:预测单位时间属于预设周期内的第几个单位时间、预测单位时间是否属于节假日、预测单位时间距离最近节假日的天数、从预测单位时间向未来数y天内节假日的天数和,y为正整数。
根据第二方面,在所述特征预测装置的第三种可能的实现方式中,在所述类别特征是字符串类型的情况下,所述装置还包括:编码模块,用于对所述类别特征进行编码处理,得到数值型的类别特征;其中,所述编码处理包括以下至少一种:数字编码、独热编码、二进制编码。
根据第二方面,在所述特征预测装置的第四种可能的实现方式中,不同的待预测对象对应不同的特征预测模型,所述装置还包括:选择模块,用于响应于接收到针对特征预测模型的选择指令,确定所述选择指令所指示的特征预测模型;其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:通过所述选择指令所指示的特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
根据第二方面,在所述特征预测装置的第五种可能的实现方式中,所述特征预测模型的训练过程包括:获取样本对象的样本历史数据,所述样本历史数据包括:多个样本类别特征以及不同样本类别特征对应的样本历史序列特征,所述样本历史序列特征表示针对所述样本类别特征的样本对象在多个样本历史单位时间下采集的历史行为数据;根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,所述业务逻辑用于指示所述样本预测单位时间的目标时间单位;基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,所述样本特征池包括:多个样本类别特征以及多个样本类别特征各自对应的样本构造序列特征和/或样本构造时间特征;利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型。
根据第二方面的第五种可能的实现方式,所述根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,包括:在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位相匹配的情况下,将所述样本历史单位时间作为样本预测单位时间,并将所述样本历史序列特征作为样本目标序列特征;或,在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位不匹配的情况下,根据所述目标时间单位以及所述样本历史单位时间,确定样本预测单位时间,并根据所述样本历史序列特征以及所述样本预测单位时间,确定样本目标序列特征。
根据第二方面的第五种可能的实现方式,所述基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,包括:基于所述样本预测单位时间与所述样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征;和/或,基于所述样本历史单位时间与所述样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征。
根据第二方面的第五种可能的实现方式,所述样本特征池中的多个样本类别特征各自对应多个样本构造序列特征和/或多个样本构造时间特征,所述利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型,包括:基于预设的特征抽取方式,从所述样本特征池中抽取出至少两个特征子集,每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征;利用所述至少两个特征子集以及所述至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型;将所述至少两个训练后的基模型进行融合,得到所述特征预测模型。
可选地,在所述至少两个基模型的训练过程中,采用图网络模型学习所述至少两个基模型之间的关联关系以及所述至少两个基模型各自对应的融合权重,所述将所述至少两个训练后的基模型进行融合,得到特征预测模型,包括:基于所述图网络模型学习的所述至少两个基模型之间的关联关系以及各自对应的融合权重,融合所述至少两个训练后的基模型,得到所述特征预测模型。
第三方面,一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器;所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的特征预测方法。
第四方面,本申请的实施例提供了一种包含指令的计算机程序产品,当所述指令被计算设备集群运行时,使得所述计算设备集群执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的特征预测方法。
第五方面,本申请的实施例提供了一种计算机可读存储介质,包括计算机程序指令,当所述计算机程序指令由计算设备集群执行时,所述计算设备集群执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的特征预测方法。
本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
图1(a)和图1(b)示出根据本申请一实施例的应用场景的示意图。
图2示出根据本申请一实施例的特征预测方法的流程图。
图3示出根据本申请一实施例的模型训练过程的流程图。
图4示出根据本公开一实施例的特征抽取过程的示意图。
图5示出根据本申请一实施例的模型训练系统的示意图。
图6示出根据本申请一实施例的模型训练过程的流程图。
图7示出根据本申请一实施例的特征预测装置的结构图。
图8示出根据本申请一实施例的计算设备100的结构图。
图9示出根据本申请一实施例的计算设备集群的结构图。
图10示出根据本申请一实施例的计算设备集群中的一个或多个计算设备通过网络连接的示意图。
具体实施方式
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
(1)时序数据(Time Series data,也称时间序列数据)是指按照时间排序的序列数据,一般可以通过按照预设的时间间隔采样得到,可以反应数据随时间变化的情况。时序数据的特征预测任务是指基于时序数据本身蕴含的规律对未来的观测值进行预测。
(2)特征工程(Feature Engineering)是指基于已有的数据及领域知识,构建出来能更好地表现业务逻辑的特征输入到模型里,用以提升模型的输出精度。在结构化数据任务中,特征工程是重要的一个阶段。
(3)图网络(Graph Neural Network)模型是指以“图论”为基础的神经网络模型,是现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。通常,在图计算中,基本的数据结构表达包括:G=(V,E,D)。其中,V=vertex(顶点或者节点),E=edge(边),D=data(权重)。图结构很好的表达了数据之间的关联性,因此可用抽象图来表示一些复杂的问题,以图论的思想或者以图为基础建立模型来解决问题,比如实体关系、社交网络、计算生物学等。
(4)基模型(Base Model)是指机器学习的模型实体。基模型可以是神经网络、随机森林、Adaboost(一种迭代算法)、支持向量机等模型。其中,神经网络,例如卷积神经网络通常用于处理文本、图像、视频等数据;随机森林、Adaboost、支持向量机等模型主要应用于处理传统的机器学习任务。
如上所述,时序数据的特征预测任务是指基于时序数据本身蕴含的规律对未来的观测值进行预测。目前与时序数据的特征预测任务相关的技术主要包括:特征构造技术和特征预测技术;其中,特征构造技术是特征工程的一个子集,是指基于已有的特征来构造出来新的特征,来进一步提升模型的表现。特征构造技术可以分为手动构造和自动构造,手动构造是基于业务逻辑和先验知识,手动构造出来一些新的特征,但手动构造的效率较低、容易出错、依赖技术人员的经验水平;自动构造是利用一些公开的工具包,如featuretools和tsfresh,构造出新的特征;其中,featuretools是执行自动化特征工程的工具包,其优点是擅长将时间和关系数据集转换为用于机器学习的特征矩阵,主打多个表之间关联,其缺点是使用时较为繁琐,需指定主表及关联深度,构造出的特征种类有限;tsfresh是处理时间序列的关系数据库的特征工程工具,其优点是针对时序自变量,可自动生成大量特征,其缺点是对时间序列的规则性要求较高,若一次性生成大量特征,则需按照特定衍生规则生成特征,过程较为繁琐,特征构造效率较低。由于特征预测任务的业务逻辑多样,不同数据源的业务含义差距较大,因此这些传统的特征构造方式,整体上难以形成一个标准化、自动化的流程,来满足各种复杂业务逻辑下的特征预测需求,依赖技术人员的经验水平,对普通用户来说门槛较高,使得传统的特征预测方式的效率较低、精准度较低,较难获得理想的预测效果。
以及,传统的特征预测方式通常包括指数平滑法、移动平均法、自回归模型和基于时序分解方式等。例如,Prophet工具包就是基于时间序列分解的思路,利用传统机器学习对每个分量分别建模,虽然这些特征预测方式使模型具有简单、易解释的周期性结构,但由于只用到了时序数据本身的序列特征,没有用到表征类别信息、时间信息的相关特征,也没有对序列特征进行进一步构造,使得模型的预测精度较低,预测效果不理想。
有鉴于此,本申请提供了一种特征预测方法,本申请实施例的特征预测方法,能够在获取到待预测对象的历史数据以及预测单位时间后,直接根据历史数据与预测单位时间自动化地预测出用户所需的目标序列特征,这样用户只需提供历史数据以及预测单位时间,无需具有专业的特征构造经验及相关知识,即可得到待预测对象的预测行为数据,从而降低用户门槛,提高特征预测的便捷性和效率;其中,还可以通过基于预测单位时间和历史数据中的历史序列特征进行特征构造,能够实现自动化与标准化地构造出所需的构造序列特征,有利于提高特征预测效率;再通过特征预测模型根据待预测对象的类别特征以及构造序列特征进行特征预测,能够实现综合利用有效且丰富的特征信息(也即构造序列特征所表征的序列信息与类别特征所表征的类别信息),预测出更精准的目标序列特征,有利于得到理想的预测效果。
本申请实施例的特征预测方法,可以适应于销售量、客流量、人口增量等利用历史数据预测未来值的特征预测任务,能够更准确地预测未来时间下的销售量、客流量、人口增量等,下面分别对本申请实施例的特征预测方法的几种应用场景进行简单介绍。图1(a)和图1(b)示出根据本申请一实施例的应用场景的示意图。
其中,图1(a)代表某一种销售量预测场景,如图1(a)所示,本申请实施例的特征预测系统100可以部署于终端设备(例如个人计算机)或服务器上;当用户例如期望利用某商品在某地区的历史一个周内每日的销售量(例如某商品在某地区的8月1日至8月7日中每日的销售量),预测该商品在该地区的未来某一日(例如8月8日)的销售量,那么例如可以采集该商品在该地区的8月1日至8月7日中每日的销售量,也即采集该商品的历史数据,并将该商品的历史数据以及8月8日这一预测单位时间输入至特征预测系统100中;该特征预测系统100可以基于该商品的历史数据以及8月8日这一预测单位时间,构造出一些构造序列特征,例如可以构造从8月8日向过去数第1天的销售量(也即8月7日的销售量)、还可以构造8月1日至8月7日的销售量的总和、8月1日至8月7日的销售量的平均值等;该特征预测系统100还可以构造出一些构造时间特征,例如从8月8日向过去数第7日是“建军节”、8月8日是“周一”等;然后特征预测系统100可以根据该商品的类别特征(例如商品的销售地区、商品的类别编号等)、该些构造序列特征以及构造时间特征进行特征预测,输出该商品在该地区8月8日的预测销售量。
其中,图1(b)代表某一种客流量预测场景,如图1(b)所示,本申请实施例的特征预测系统100可以部署于终端设备(例如个人计算机)或服务器上;当用户例如期望利用某商铺在历史一个月内每日的客流量,预测该商铺在未来某一周内的总客流量,那么用户可以采集该商铺在历史一个月内每日的客流量,也即采集该商铺的历史数据,并将该商铺的历史数据以及“未来某一周”这一预测单位时间输入至特征预测系统100中;该特征预测系统100可以基于该商铺的历史数据以及“未来某一周”这一预测单位时间,构造出一些构造序列特征,例如可以构造历史一个月内每个周的总客流量、历史一个月内每个周的最大客流量、最小客流量等;然后特征预测系统100可以根据该商铺的类别特征(例如该商铺的商铺编号)以及该些构造序列特征进行特征预测,输出该商铺在未来某一周内的总客流量。
需说明的是,本申请实施例的特征预测方法可以应用于各种需进行特征预测任务的业务场景,除了上述销售量预测场景与客流量预测场景,例如还可以应用于预测人口增量、预测车流量等业务场景。应理解的是,不同业务场景中可以采用不同的特征预测模型,不同的特征预测模型可以采用不同的模型结构、不同的模型类型以及不同的样本数据进行训练得到。
本申请的特征预测方法可以通过软件或硬件改造部署在各种终端设备上,本申请涉及的终端设备可以是指具有无线连接功能的设备,无线连接的功能是指可以通过wifi、蓝牙等无线连接方式与其他终端设备进行连接,本申请的终端设备也可以具有有线连接进行通信的功能。本申请的终端设备可以是触屏的、也可以是非触屏的、也可以是没有屏幕的,触屏的可以通过手指、触控笔等在显示屏幕上点击、滑动等方式对终端设备进行控制,非触屏的设备可以连接鼠标、键盘、触控面板等输入设备,通过输入设备对终端设备进行控制,没有屏幕的设备比如说可以是没有屏幕的蓝牙音箱等。
举例来说,本申请的终端设备可以是智能手机、上网本、平板电脑、笔记本电脑、可穿戴电子设备(如智能手环、智能手表等)、TV、虚拟现实设备、音响、电子墨水,等等。
本申请实施例的特征预测方法也可以部署于服务器上,该服务器可以位于云端或本地,可以是实体设备,也可以是虚拟设备,如虚拟机、容器等,具有无线通信功能,其中,无线通信功能可设置于该服务器的芯片(系统)或其他部件或组件。可以是指具有无线连接功能的设备,无线连接的功能是指可以通过Wi-Fi、蓝牙等无线连接方式与其他服务器或终端设备进行连接,本申请的服务器也可以具有有线连接进行通信的功能。例如,本申请的服务器可位于云端,与终端设备进行通信,接收终端设备发送的历史数据,并利用部署于服务器的特征预测方法输出预测的目标时序特征(如预测的客流量、销售量等),并返回给终端设备。
以下通过图2-图6,对本申请实施例提供的特征预测方法进行详细的介绍。
图2示出根据本申请一实施例的特征预测方法的流程图。该方法可以用于上述特征预测系统100,该方法可以由上述终端设备或服务器执行,如图2所示,该方法包括:
步骤S201,获取待预测对象的历史数据以及预测单位时间,历史数据包括:待预测对象的类别特征以及类别特征对应的历史序列特征,历史序列特征表示针对类别特征的待预测对象在多个历史单位时间下采集的历史行为数据。
其中,待预测对象可以理解为需进行特征预测的对象,例如某商品、某商铺等,类别特征可以表征与待预测对象相关的类别信息,例如历史编号、所处地区、性别、季节等,用于区分不同种类的待预测对象。应理解的是,待预测对象可以有多个类别特征,同一类别特征可以包括多个类别信息,例如某件衣服的某一类别特征可以是不同地区(如北京、上海)或不同性别(如男性、女性),也可以不同地区与不同性别的排列组合(如北京的男性、北京的女性、上海的男性、上海的女性);以及,不同的类别特征通常对应不同的历史序列特征,例如某衣服在男性群体中的销售量与在女性群体中的销售量是不同的,或者在北京地区的销售量与在上海地区的销售量是不同的,或者北京地区男性群体中的销售量、北京女性群体中的销售量、上海男性群体中的销售量与上海女性群体中的销售量是不同的。
其中,预测单位时间可以理解为相对于当前时间的未来单位时间,也即用户期望得到该预测单位时间内的预测行为数据(也即预测出的目标序列特征),例如未来的某一天、未来的某一周、未来的某一月等。预测单位时间的时间单位可以取决于业务逻辑,例如,若业务逻辑指示预测未来某一周内的总销售量,那么预测单位时间的时间单位为“周”,若业务逻辑指示预测未来某一日的客流量,则预测单位时间的时间单位为“日”。
其中,历史单位时间可以理解为相对于当前时间的过去单位时间,例如过去的某一天、过去的某一周、过去的某一月等;历史单位时间的时间单位取决于采集行为数据时的采样周期,历史行为数据可以包括表征待预测对象在历史单位时间内的行为的数据,例如历史采集的客流量、销售量、人口增量等,历史行为数据可以包括按照采样周期采集的时序数据,例如按天采样的客流量、按周采样的销售量、按年采样的人口增量等。
表1示出本申请实施例提供的一种历史数据,如表1所示,待预测对象可以为店铺,编号“A”和城市“上海”代表类别特征,也即该类别特征包含“A”和“上海”两个类别信息,2022.1.1至2022.1.7代表历史单位时间,时间单位为“日”,即1天,“914、147、197、198、498、604、167”代表上海的店铺A在2022.1.1至2022.1.7的多个历史单位时间下分别采集的客流量。
表1:店铺A在上海的客流量
由于一般情况下,历史数据中的类别特征可能是字符串组成的集合,如{北京,上海,杭州}、{男,女}、{春,夏,秋,冬}等,这种字符串类型的类别特征通常无法直接被模型所利用,因此可以将字符串类型的类别特征转换成数值型的类别特征。
在一种可能的实现方式中,在类别特征是字符串类型的情况下,在获取待预测对象的历史数据之后,所述方法还包括:对类别特征进行编码处理,得到数值型的类别特征;其中,编码处理包括以下至少一种:数字编码、独热编码、二进制编码。通过该方式,能够使特征预测模型利用数值型的类别特征所表征的类别信息,有效输出精准的预测结果。
其中,在将字符串类型的类别特征转换成数值型的类别特征后,可以同时记录并保存字符串类型的类别特征与数值型的类别特征之间的对应关系,以便于在后续得到预测结果之后,再将数值型的类别特征转换回字符串类型的类别特征;或者可以利用能够进行上述编码处理的编码器对类别特征进行编码处理并记录上述对应关系,这样可以利用该编码器对应的解码器数值型的类别特征转换回字符串类型的类别特征。
应理解的是,若步骤S201获取到的历史数据中的类别特征已是数值型的类别特征,则无需对历史数据中的类别特征进行编码处理;以上数字编码、独热编码、二进制编码等是本申请实施例提供的一些编码方式,本申请实施例不限制编码处理的具体编码方式。
可选地,考虑到不同历史数据可能具有不同数据格式,以及历史数据中还可能存在异常数据,因此在获取到历史数据后,可以先清洗历史数据中的异常数据,并将清洗后的历史数据转换为指定数据格式的历史数据,从而便于标准化地执行后续处理。其中,异常数据的清洗方式例如可以包括:清洗缺省值、清洗格式内容、数据去重、清洗不需要数据等。
步骤S202,根据历史数据以及预测单位时间进行特征预测,得到目标序列特征,目标特征序列表示类别特征的待预测对象在预测单位时间内的预测行为数据。
其中,预测行为数据可以表征待预测对象在预测单位时间内的行为的预测数据,例如某一天的预测客流量、某一天的预测销售量等,如上所述,历史数据中包括类别特征以及类别特征对应的历史序列特征,在一种可能的实现方式中,例如可以将预测单位时间、历史数据中的类别特征以及对应的历史序列特征输入到预测模型中,输出目标序列特征,也即预测模型输出的预测结果也即该类别特征的待预测对象在预测单位时间内的预测行为数据。
举例来说,假设类别特征“上海”被编码为“1”、“A”被编码为11,可以将上述表1示出的上海的店铺A在2022.1.1至2022.1.7日的历史客流量以及类别特征“1”和“11”输入至预测模型中,该预测模型输出的预测结果可以作为上海的店铺A在2022.1.8的预测客流量。应理解,本公开实施例对于预测模型的模型结构、模型类型以及训练方式等不作限制。
根据本申请实施例,能够在获取到待预测对象的历史数据以及预测单位时间后,直接根据历史数据与预测单位时间自动化地预测出用户所需的目标序列特征,这样用户只需提供历史数据以及预测单位时间,无需具有专业的特征构造经验及相关知识,即可得到待预测对象的预测行为数据,从而降低用户门槛,提高特征预测的便捷性和效率。
如上所述,考虑到历史序列特征中隐含的序列信息有限,仅利用历史序列特征中隐含的序列信息可能使得模型预测出的目标序列特征的精度较低,为提高利用模型预测的精度,在一种可能的实现方式中,在步骤S202中,根据历史数据以及预测单位时间进行特征预测,得到目标序列特征,可以包括:
步骤S2021,基于预测单位时间与历史序列特征进行特征构造,得到类别特征对应的构造序列特征,构造序列特征表征从预测单位时间向过去数至少一个历史单位时间内的历史行为数据的序列特征;
步骤S2022,通过特征预测模型根据类别特征以及构造序列特征进行特征预测,得到目标序列特征。
在一种可能的实现方式中,在步骤S2021中,基于预测单位时间与历史序列特征进行特征构造,得到类别特征对应的构造序列特征,包括以下至少一种:
基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,得到构造序列特征;
基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;
基于从预测单位时间向过去数第n个历史单位时间后,再从第n个历史单位时间向过去数m个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;
其中,i、j、n、m均为正整数,统计特征包括以下至少一种:总和、最大值、最小值、平均值、标准差、方差、中位数。
应理解,上述统计特征是本申请实施例提供的一些实现方式,用户可根据业务需求设计各种用于指示历史序列特征内在规律的统计特征,以及i、j、n、m的具体值可以自定义设置。通过构造出的各种构造序列特征,可以进一步捕获历史序列特征的内在规律,为模型预测提供丰富的序列信息,从而提高模型预测精度。
为便于理解上述构造序列特征的构造过程,以表1示出的历史数据,预测2022.1.8的客流量(也即预测单位时间为2022.1.8)为例进行说明如下。
示例性的,从预测单位时间向过去数第i个历史单位时间的历史序列特征中的i可以是至少一个,若假设i∈[1,3],那么基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,所得到的构造序列特征,可以包括:从2022.1.8向过去数第1个历史单位时间的历史序列特征为167(也即2022.1.7的客流量)、从2022.1.8向过去数第2个历史单位时间的历史序列特征为604(也即2022.1.6的客流量)以及从2022.1.8向过去数第3个历史单位时间的历史序列特征为498(也即2022.1.5的客流量)。
示例性的,若设定j为7,统计特征包括总和、标准差、平均值,那么基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征进行特征构造,所得到的构造序列特征,可以包括:从2022.1.8向过去数7个历史单位时间的历史序列特征的总和为2725(也即2022.1.1至2022.1.7的七日销售量的累加值)、从2022.1.8向过去数7个历史单位时间内的历史序列特征的标准差为217(也即2022.1.1至2022.1.7的七日销售量的标准差)、从2022.1.8向过去数7个历史单位时间内的历史序列特征的平均值为389(也即2022.1.1至2022.1.7的七日销售量的平均值)。
示例性的,若设定n为3,m为4,则从2022.1.8向过去数第3个历史单位时间(也即2022.1.5)后,再从第3个历史单位时间(也即2022.1.5)向过去数4个历史单位时间为“2022.1.1、2022.1.2、2022.1.3以及2022.1.4”;并设定统计特征包括最大值、最小值及中位数,则基于从预测单位时间向过去数第n个历史单位时间后,再从第n个历史单位时间向过去数m个历史单位时间内的历史序列特征的统计特征进行特征构造,所得到的构造序列特征,可以包括:2022.1.1、2022.1.2、2022.1.3以及2022.1.4这四日客流量中的最大值为914、最小值为147、中位数为197.5。
基于上述各个示例性的特征构造方式,可以得到表2示出构造序列特征;其中,预设自定义操作shift_{i}代表基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,value_shift_{i}代表通过shift_{i}得到的构造序列特征;rolling_{j}_{T}代表基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征T进行特征构造,value_rolling_{j}_{T}代表通过rolling_{j}_{T}得到的构造序列特征;shift_{n}_rolling_{m}_{T}代表基于从预测单位时间向过去数第n个历史单位时间后,再从第n个历史单位时间向过去数m个历史单位时间内的统计特征T进行特征构造,value_shift_{n}_rolling_{m}_{T}代表通过shift_{n}_rolling_{m}_{T}得到的构造序列特征;其中,T可以取总和sum、最大值max、最小值min、平均值mean、标准差std、方差var、中位数median等。
表2:构造序列特征
如表2所示,value_shift_1此时代表基于从预测单位时间(如2021.1.8)向过去数第1个历史单位时间(如2021.1.7)的历史序列特征(如2021.1.7的客流量)进行特征构造所得到的构造序列特征;value_shift_2此时代表基于从预测单位时间(如2021.1.8)向过去数第3个历史单位时间(如2021.1.6)的历史序列特征(如2021.1.6的客流量)进行特征构造所得到的构造序列特征;value_shift_3此时代表基于从预测单位时间(如2021.1.8)向过去数第3个历史单位时间(如2021.1.5)的历史序列特征(如2021.1.5的客流量)进行特征构造所得到的构造序列特征。
如表2所示,value_rolling_7_sum此时代表基于从预测单位时间(如2021.1.8)向过去数7个历史单位时间(如2021.1.1至2021.1.7)内的历史序列特征的总和(如2021.1.1至2021.1.7的客流量的总和)进行特征构造所得到的构造序列特征;value_rolling_7_mean此时代表基于从预测单位时间(如2021.1.8)向过去数7个历史单位时间(如2021.1.1至2021.1.7)内的历史序列特征的平均值(如2021.1.1至2021.1.7的客流量的平均值)进行特征构造所得到的构造序列特征;value_rolling_7_std此时代表基于从预测单位时间(如2021.1.8)向过去数7个历史单位时间(如2021.1.1至2021.1.7)内的历史序列特征的标准差(如2021.1.1至2021.1.7的客流量的标准差)进行特征构造所得到的构造序列特征。
如表2所示,value_shift_3_rolling_4_min此时代表基于从预测单位时间(如2021.1.8)向过去数第3个历史单位时间(如2021.1.5)后,再从第3个历史单位时间(如2021.1.5)向过去数4个历史单位时间内(如2022.1.1至2022.1.4)内的历史序列特征的最小值(如2022.1.1至2022.1.4的客流量中的最小值)进行特征构造所得到的构造序列特征;value_shift_3_rolling_4_max代表基于从预测单位时间(如2021.1.8)向过去数第3个历史单位时间(如2021.1.5)后,再从第3个历史单位时间(如2021.1.5)向过去数4个历史单位时间内(如2022.1.1至2022.1.4)内的历史序列特征的最大值(如2022.1.1至2022.1.4的客流量中的最大值)进行特征构造所得到的构造序列特征;value_shift_3_rolling_4_median此时代表基于从预测单位时间(如2021.1.8)向过去数第3个历史单位时间(如2021.1.5)后,再从第3个历史单位时间(如2021.1.5)向过去数4个历史单位时间内(如2022.1.1至2022.1.4)内的历史序列特征的中位数(如2022.1.1至2022.1.4的客流量中的中位数)进行特征构造所得到的构造序列特征。
应理解,以上构造序列特征的构造方式是本申请实施例提供的一些可能的实现方式,用户还可以基于不同业务场景下的业务逻辑,自定义的其它种类的序列特征构造方式,以提供更丰富的序列信息。
在一种可能的实现方式中,在步骤S2022中,用户可以选择使用已训练好的特征预测模型进行特征预测,还可以利用样本历史数据训练基模型得到训练后的特征预测模型,并利用训练后得到的特征预测模型进行特征预测。其中,通过特征预测模型根据类别特征以及构造序列特征进行特征预测,得到目标序列特征,可以理解为,将类别特征与构造序列特征(例如表2中的全部或部分构造序列特征)输入至特征预测模型中,得到特征预测模型输出的目标序列特征。例如,假设类别特征“上海”被编码为“1”、“A”被编码为11,那么将表2中示出的构造序列特征以及类别特征“1”和“11”输入至特征预测模型中,若特征预测模型输出的目标序列特征为“136”,则代表特征预测模型预测的上海的店铺A在2022年1月8日的预测客流量为136。
如上所述,特征预测模型可以通过训练基模型得到,基于不同的业务场景,可以采用不同的样本历史数据训练基模型,例如,客流量预测场景与销售量预测场景的样本历史数据是不同,用户可以利用已采集的样本历史数据训练基模型,得到针对不同业务场景的特征预测模型。为行文简洁,特征预测模型的训练过程将在下文中进行阐述。
根据本申请实施例,通过基于预测单位时间和历史数据中的历史序列特征进行特征构造,能够实现自动化与标准化地构造出所需的构造序列特征,有利于提高特征预测效率;再通过特征预测模型根据待预测对象的类别特征以及构造序列特征进行特征预测,能够实现综合利用有效且丰富的特征信息(也即构造序列特征所表征的序列信息与类别特征所表征的类别信息),预测出更精准的目标序列特征,有利于得到理想的预测效果。
考虑到,实际情况中除了类别特征以外、有些时间特征也影响待预测对象的历史行为数据,例如,商铺在节假日的客流量通常高于工作日的客流量,因此可以构造一些时间特征,并将构造的时间特征也引入到特征预测中,从而结合丰富的时间信息来提高模型预测精度。在一种可能的实现方式中,所述方法还包括:基于历史单位时间与预测单位时间进行特征构造,得到类别特征对应的构造时间特征。通过该方式,能够为模型预测提供各种丰富的时间信息,从而提高模型预测精度。
在一种可能的实现方式中,基于历史单位时间与预测单位时间进行特征构造,得到类别特征对应的构造时间特征,包括以下至少一种:
确定从预测单位时间向过去数第x个历史单位时间的日期特征,作为构造时间特征,日期特征包括以下至少一种:节假日、星期、工作日以及自定义节日,x为正整数;
确定预测单位时间所属的日期特征,作为构造时间特征;
确定预测单位时间对应的自定义时间特征,作为构造时间特征,自定义时间特征包括以下至少一种:预测单位时间属于预设周期内的第几个单位时间、预测单位时间是否属于节假日、预测单位时间距离最近节假日的天数、从预测单位时间向未来数y天内节假日的天数和,y为正整数。
可知晓的是,日期特征中的节假日通常包括元旦、春节、清明节、劳动节、端午节、中秋节以及国庆节等有假日的节日;星期包括星期一(又称周一)至星期日(又称周日);工作日则通常代表周一至周五;自定义节日可以理解为一些没有假日的节日,例如双十一、圣诞节、七夕节、情人节等。为便于理解上述构造时间特征的构造过程,以预测单位时间2022.1.8为例进行说明。
示例性的,若确定从预测单位时间2022.1.8向过去数第x个历史单位时间的日期特征,作为构造时间特征,并设定x为7,则从预测单位时间2022.1.8向过去数第7个历史单位时间的时间特征,可以包括:“元旦、星期日”中的至少一种,也即“元旦、星期日”中的至少一种可以作为构造时间特征;若设定x为2,则从预测单位时间2022.1.8向过去数第2个历史单位时间的日期特征,可以包括:“星期四、工作日”中的至少一种,也即“工作日、星期四”中的至少一种可以作为构造时间特征。应理解,x的值可以自定义设置。若确定预测单位时间2022.1.8所属的日期特征,作为构造时间特征,则构造时间特征可以包括“周日”。
示例性的,若确定预测单位时间2022.1.8对应的自定义时间特征,作为构造时间特征,并设定预设周期为一年、y为14天,则构造时间特征可以包括:2022.1.8属于一年的第8日、2022.1.8距离最近节假日(也即元旦)的天数为7、2022.1.8不是节假日、从2022.1.8向未来数14天内节假日的天数和为0。应理解,预设周期可以自定义设置,例如还可以设置为一月、一周等,y的值也可以自定义设置。
应理解,以上构造时间特征的构造方式是本申请实施例提供的一些可能的实现方式,用户还可以基于不同业务场景的业务逻辑,自定义其它种类的时间特征构造方式,以提供更丰富的时间信息,提高模型预测精度。
基于上述构造时间特征,在步骤S2022中,通过特征预测模型根据类别特征以及构造序列特征进行特征预测,得到目标序列特征,包括:通过特征预测模型根据类别特征、构造序列特征以及构造时间特征进行特征预测,得到目标序列特征。通过该方式,能够使特征预测模型综合利用类别特征所表征的类别信息、构造序列特征所表达的序列信息以及构造时间特征所表达的时间信息,得到更精准的目标序列特征。
其中,通过特征预测模型根据类别特征、构造序列特征以及构造时间特征进行特征预测,得到目标序列特征,可以理解为,将类别特征、构造序列特征以及构造时间特征输入至特征预测模型中,特征预测模型输出的预测结果也即为目标序列特征。其中,类别特征是数值型的类别特征,构造序列特征可以是通过上述步骤S2021进行特征构造所得到的特征。
根据本申请实施例,能够基于历史单位时间与预测单位时间,构造出表征时间信息的构造时间特征,从而在利用特征预测模型进行特征预测时,不仅可以利用类别信息与序列信息,还结合时间信息,输出更精准的目标序列特征。
如上所述,用户可以选择使用已训练好的特征预测模型进行特征预测,不同的待预测对象通常对应不同的特征预测模型,考虑到例如应用了本申请实施例的特征预测方法的特征预测系统(如上述特征预测系统100)实际上可以预测不同待预测对象的预测行为数据,因此特征预测系统可以向用户提供可选择的特征预测模型,该些可选择的特征预测模型可以是已经训练好的特征预测模型,这样用户可以基于不同的待预测对象,直接选择所需的特征预测模型进行特征预测,从而满足用户针对各种待预测对象的特征预测需求,提高特征预测效率。
在一种可能的实现方式中,所述方法还包括:响应于接收到针对特征预测模型的选择指令,确定选择指令所指示的特征预测模型;其中,在步骤S2022中,通过特征预测模型根据类别特征以及构造序列特征进行特征预测,得到目标序列特征,包括:通过选择指令所指示的特征预测模型根据类别特征以及构造序列特征进行特征预测,得到目标序列特征。
其中,特征预测系统例如可以向用户提供可选择特征预测模型的交互界面,以便于用户通过交互界面选择特征预测模型,也即用户可以通过特征预测系统提供的交互界面向特征预测系统发出针对特征预测模型的选择指令,选择指令所指示的特征预测模型也即为用户选中的特征预测模型。应理解的是,可供用户选择的特征预测模型可以是已训练好的特征预测模型,以及本申请实施例对于选择指令的触发方式不作限制。
根据本申请实施例,能够使用户基于不同待预测对象选择所需的特征预测模型,并通过选中的特征预测模型进行特征预测,满足用户针对各种待预测对象的特征预测需求。
如上所述,还可以通过训练基模型得到特征预测模型,图3示出根据本申请一实施例的模型训练过程的流程图,如图3所示,上述特征预测模型的训练过程包括:
步骤S301:获取样本对象的样本历史数据,样本历史数据包括:多个样本类别特征以及不同样本类别特征对应的样本历史序列特征,样本历史序列特征表示针对样本类别特征的样本对象在多个样本历史单位时间下采集的历史行为数据。
应理解,样本对象与上述待预测对象可以是同一种对象,为了使训练得到的特征预测模型可以预测各种类别特征的待预测对象在预测单位时间内的预测行为数据,用户可以采集样本对象的多个样本类别特征以及不同样本类别特征对应的样本历史序列特征。
其中,样本类别特征可以表征与样本对象相关的类别信息,同一样本类别特征可以包括多个类别信息;样本历史单位时间可以理解为采集样本历史数据时的过去单位时间,样本历史单位时间的时间单位取决于采集历史行为数据时的采样周期。表3示出本申请实施例提供的一种样本历史数据,如表3所示,“商品编号、价格/元、地级市”三列的具体值可以表示类别特征,也即一条类别特征包含“商品编号、价格/元、地级市”这3个类别信息;“2021.9.31、2021.10.1、2021.10.2、2021.10.3、2021.10.4”代表样本历史单位时间,“18、25、23、20、21”代表“A01-polo短袖A、299、长春市”这一类别特征在“2021.9.31、2021.10.1、2021.10.2、2021.10.3、2021.10.4”内分别采集的销售量,其它数值依次类推。
表3:样本历史数据
应理解的是,基于表3示出的样本历史数据中例如还可能包含各个类别特征在第一天售卖的销售量、最后一天售卖的销售量以及从第一天到最后一天售卖的总销售量等数据,基于这些数据,还可以预先选出部分有代表性的样本类别特征以及对应的样本历史序列特征进行小数据量的模型训练实验。
由于一般情况下,字符串类型的样本类别特征通常无法直接被模型所利用,因此可以将字符串类型的样本类别特征转换成数值型的样本类别特征,例如可以通过对字符串类型的样本类别特征进行编码处理,得到数值型的样本类别特征,其中,编码处理包括以下至少一种:数字编码、独热编码、二进制编码。
其中,在将字符串类型的样本类别特征转换成数值型的样本类别特征后,可以同时记录并保存字符串类型的样本类别特征与数值型的样本类别特征之间对应关系,也即保存该能够基于该对应关系进行编码处理的解编码器,以便于在利用训练后的特征预测模型进行特征预测时,直接利用该解编码器将字符串类型的类别特征转换成数值型的类别特征。
可选地,考虑到不同样本历史数据可能具有不同数据格式,以及样本历史数据中还可能存在异常数据,因此在获取到样本历史数据后,可以先清洗样本历史数据中的异常数据,并将清洗后的样本历史数据转换为指定数据格式的样本历史数据,从而便于执行后续的模型训练处理。其中,异常数据的清洗方式例如可以至少包括:清洗缺省值、清洗格式内容、数据去重、清洗不需要数据等。
步骤S302:根据预设的业务逻辑以及样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征,业务逻辑用于指示样本预测单位时间的目标时间单位。
其中,业务逻辑可以表征各种业务场景的特征预测需求,不同业务场景可能对应不同的业务逻辑。应理解的是,业务逻辑所指示的样本预测单位时间的目标时间单位与样本历史数据中样本历史单位时间的时间单位可能是不匹配的,例如,样本历史数据中的样本历史序列特征是按“日”采集的销售量,也即样本历史单位时间的时间单位是“日”,而业务场景可能是利用过去几十日的每日销售量,预测未来一周的总销售量,那么业务场景下的业务逻辑所指示的目标时间单位为“周”。当然,业务逻辑指示的目标时间单位与样本历史单位时间的时间单位也可能是匹配的,例如,样本历史数据中的样本历史单位时间的时间单位为“日”,业务逻辑所指示的目标时间单位也为“日”。
因此,可以基于业务逻辑指示的目标时间单位与样本历史单位时间的时间单位之间的匹配情况,实现根据预设的业务逻辑以及样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征。其中,样本预测单位时间内的样本目标序列特征,可以理解为期望基模型输出的期望预测结果,样本目标序列特征可以是现实世界中真实产生的序列特征(例如,某商品在某日的真实的销售量),这样可以利用期望模型输出的期望预测结果(也即样本目标序列特征)与模型实际输出的实际预测结果之间的损失,训练基模型直至基模型达到预设性能标准,然后可以将达到预设性能标准的基模型确定为特征预测模型。
在一种可能的实现方式中,根据预设的业务逻辑以及样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征,包括:
在业务逻辑指示的目标时间单位与样本历史单位时间的时间单位相匹配的情况下,将样本历史单位时间作为样本预测单位时间,并将样本历史序列特征作为样本目标序列特征;或,在业务逻辑指示的目标时间单位与样本历史单位时间的时间单位不匹配的情况下,根据目标时间单位以及样本历史单位时间,确定样本预测单位时间,并根据样本历史序列特征以及样本预测单位时间,确定样本目标序列特征。通过该方式,能够构造出符合各种业务逻辑的样本预测单位时间内的样本目标序列特征,从而可以利用样本目标序列特征训练出满足各种业务逻辑需求的特征预测模型。
其中,若样本预测单位时间的目标时间单位与样本历史单位时间的时间单位相匹配,则可以直接将样本历史单位时间作为样本预测单位时间,并将不同样本历史单位时间下的样本历史序列特征作为对应的样本目标序列特征。其中,考虑到样本历史数据的有限性,有些样本历史单位时间若作为样本预测单位时间,可能无法确定出对应的样本构造序列特征,因此可以选取部分样本历史单位时间作为样本预测单位时间。
例如,基于表3示出的样本历史数据,若业务场景是用过去3日内的销售量,预测未来1日内的销售量,也即业务逻辑指示的目标时间单位为“日”,则可以得到表4示出的样本预测单位时间以及样本预测单位时间内的样本目标序列特征;其中,由于表3示出的样本历史数据中缺少2021.9.28至2021.9.30的销售量,因此“2021.9.31、2021.10.1、2021.10.2”这三个样本历史单位时间可能无法构造出对应的样本构造序列特征,因此可以选取“2021.10.3、2021.10.4”作为样本预测单位时间。
表4:样本预测单位时间以及样本目标序列特征
基于表3和表4可知,可以将表3中横向排列的样本历史单位时间转换为表4中纵向排列的样本预测单位时间,以便于基于表4添加样本构造序列特征和/或样本构造时间特征;由于样本预测单位时间的目标时间单位与样本历史单位时间的时间单位为“日”,则直接将不同样本类别特征在各个样本预测单位时间内实际采集的销售量(也即样本历史序列特征)作为样本目标序列特征。
其中,若样本预测单位时间的目标时间单位与样本历史单位时间的时间单位不匹配,则需根据目标时间单位以及样本历史单位时间,确定样本预测单位时间,并根据样本历史序列特征以及样本预测单位时间,确定样本目标序列特征。例如,基于表3示出的样本历史数据,若业务场景为用过去2日销售量预测未来2日内的总销售量,也即业务逻辑指示的目标时间单位为“2日”,可以得到表5示出的样本预测单位时间以及样本预测单位时间内的样本目标序列特征。
表5:样本预测单位时间以及样本目标序列特征
商品编号 | 价格/元 | 地级市 | 样本预测单位时间 | 样本目标序列特征 |
A01-polo短袖A | 299 | 长春市 | 2021.10.2-2021.10.3 | 43 |
A01-polo短袖A | 299 | 长春市 | 2021.10.3-2021.10.4 | 41 |
A01-短裤A | 199 | 长春市 | 2021.10.2-2021.10.3 | 63 |
A01-短裤A | 199 | 长春市 | 2021.10.3-2021.10.4 | 62 |
…… | …… | …… | …… | …… |
A02-牛仔裤A | 499 | 吉林市 | 2021.10.2-2021.10.3 | 50 |
A02-牛仔裤A | 499 | 吉林市 | 2021.10.3-2021.10.4 | 54 |
基于表3和表5可知,由于样本历史单位时间的时间单位为“日”,而样本预测单位时间的目标时间单位为“2日”,且业务场景为用过去2日销售量预测未来2日内的总销售量,且表3示出的样本历史数据中缺少2021.9.29至2021.9.30的销售量,“2021.9.31-2021.10.1、2021.10.1-2021.10.2”可能无法构造对应的样本构造序列特征,因此可以将根据目标时间单位与样本历史单位时间,确定出的“2021.10.2-2021.10.3、2021.10.3-2021.10.4”作为样本预测单位时间,然后根据样本预测单位时间与样本历史序列特征(也即样本历史数据中每日的销售量),计算各个样本预测单位时间对应的两日内销售量总和,得到样本目标序列特征,例如,“A01-polo短袖A、299、长春市”在2021.10.2-2021.10.3的样本目标序列特征为:该“A01-polo短袖A、299、长春市”在2021.10.2的销售量23与在2021.10.3的销售量20之间的和(也即43),其它数值以此类推。
应理解,表4与表5是本申请实施例提供的一些可能实现方式,并不代表本申请实施例的全部实现方式,由于不同业务逻辑可以指示不同的目标时间单位,因此基于不同业务逻辑可以产生不同的样本预测单位时间以及不同的样本目标序列特征。
步骤S303:基于样本历史数据以及样本预测单位时间进行特征构造,得到样本特征池,样本特征池包括:多个样本类别特征以及多个样本类别特征各自对应的样本构造序列特征和/或样本构造时间特征。
其中,可以参照上述本申请实施例中构造序列特征与构造时间特征的特征构造方式,实现样本构造序列特征与样本构造时间特征的特征构造。基于此,在一种可能的实现方式中,基于样本历史数据以及样本预测单位时间进行特征构造,得到样本特征池,包括:基于样本预测单位时间与样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征;和/或,基于样本历史单位时间与样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征。通过该方式,能够构造出表征序列信息的样本构造序列特征和/或表征时间信息的样本构造时间特征,这样在基模型的训练过程中,可以使基模型学习到丰富的类别信息、序列信息和/或时间信息,有利于提高训练后得到的特征预测模型的精度和泛化性。
在一种可能的实现方式中,基于样本预测单位时间与样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征,可以包括以下至少一种:基于从样本预测单位时间向过去数第i个样本历史单位时间的样本历史序列特征进行特征构造,得到样本构造序列特征;基于从样本预测单位时间向过去数j个样本历史单位时间内的样本历史序列特征的统计特征进行特征构造,得到样本构造序列特征;基于从样本预测单位时间向过去数第n个样本历史单位时间后,再从第n个样本历史单位时间向过去数m个样本历史单位时间内的样本历史序列特征的统计特征进行特征构造,得到样本构造序列特征;其中,i、j、n、m均为正整数,统计特征包括以下至少一种:总和、最大值、最小值、平均值、标准差、方差、中位数。
在一种可能的实现方式中,基于样本历史单位时间与样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征,可以包括:确定从样本预测单位时间向过去数第x个样本历史单位时间的日期特征,作为样本构造时间特征,日期特征包括以下至少一种:节假日、星期、工作日以及自定义节日,x为正整数;确定样本预测单位时间所属的日期特征,作为样本构造时间特征;确定样本预测单位时间对应的样本自定义时间特征,作为样本构造时间特征,样本自定义时间特征包括以下至少一种:样本预测单位时间属于预设周期内的第几个单位时间、样本预测单位时间是否属于节假日、样本预测单位时间距离最近节假日的天数、从样本预测单位时间向未来数y天内节假日的天数和,y为正整数。
基于表4示出的样本预测单位时间以及表3示出的样本历史序列特征与样本历史单位时间进行特征构造,例如可以得到表6中示出的样本构造序列特征与样本构造时间特征;基于表5示出的样本预测单位时间以及表3示出的样本历史序列特征进行特征构造,例如可以得到表7中示出的样本构造序列特征。
表6:样本构造序列特征与样本构造时间特征
如表6所示,value_shift_1此时代表基于从样本预测单位时间向过去数第1个样本历史单位时间的样本历史序列特征进行特征构造,所得到的样本构造序列特征,例如“A01-polo短袖A、299、长春市”从2021.10.3向过去数第1个样本历史单位(也即2021.10.2)的样本历史序列特征(也即23),该列其它数值以此类推;value_shift_2此时代表基于从样本预测单位时间向过去数第2个样本历史单位时间的样本历史序列特征进行特征构造,所得到的样本构造序列特征,例如,“A01-polo短袖A、299、长春市”从2021.10.3向过去数第2个样本历史单位(也即2021.10.1)的样本历史序列特征(也即25),该列其它数值以此类推;value_shift_3此时代表基于从样本预测单位时间向过去数第3个样本历史单位时间的样本历史序列特征进行特征构造,所得到的样本构造序列特征,例如,“A01-polo短袖A、299、长春市”从2021.10.3向过去数第3个样本历史单位(也即2021.9.31)的样本历史序列特征(也即18),该列其它数值以此类推。
如表6所示,rolling_3_mean此时代表基于从样本预测单位时间向过去数3个样本历史单位时间内的样本历史序列特征的平均值进行特征构造,value_rolling_3_mean代表通过rolling_3_mean得到的样本构造序列特征,例如,“A01-polo短袖A、299、长春市”从2021.10.4向过去数3个样本历史单位(也即2021.10.1至2021.10.3)内的样本历史序列特征的平均值(也即22.6),该列其它数值以此类推。
如表6所示,shift_1_rolling_2_sum此时代表基于从样本预测单位时间向过去数第1个样本历史单位时间后,再从第1个样本历史单位时间向过去数2个样本历史单位时间内的样本历史序列特征的总和进行特征构造,value_shift_1_rolling_2_sum代表通过shift_1_rolling_2_sum得到的样本构造序列特征,例如,“A01-polo短袖A、299、长春市”从2021.10.4向过去数第1个样本历史单位时间(也即2021.10.3)后,再从2021.10.3向过去数2个样本历史单位时间(也即2021.10.2和2021.10.1)内的样本历史序列特征的总和(也即48),该列其它数值以此类推。
如表6所示,“是否为节假日”代表通过确定样本预测单位时间是否为节假日进行特征构造,例如,样本预测单位时间2021.10.3对应的“是”则代表2021.10.3对应的样本构造时间特征,该列其它构造时间特征以此类推。
表7:样本构造序列特征
如表7所示,rolling_2_sum此时代表基于从样本预测单位时间向过去数2个样本历史单位时间内的样本历史序列特征的总和进行特征构造,value_rolling_2_sum此时代表通过rolling_2_sum得到的构造序列特征,例如,“A01-polo短袖A、299、长春市”从2021.10.2-2021.10.3向过去数2个样本历史单位(也即2021.9.31与2021.10.1)的样本历史序列特征(也即25和18)的总和(也即43),该列其它数值以此类推;rolling_2_mean此时代表基于从样本预测单位时间向过去数2个样本历史单位时间内的样本历史序列特征的平均值进行特征构造,value_rolling_2_mean此时代表通过rolling_2_mean得到的样本构造序列特征,例如“A02-牛仔裤A、499、吉林市”从2021.10.3-2021.10.4向过去数2个样本历史单位(也即2021.10.1与2021.10.2)的样本历史序列特征(也即24和25)的平均值(也即24.5),该列其它数值以此类推。
应理解,表6和表7中除了样本预测单位时间与样本目标序列特征这两列以外的数值可以构成样本特征池,表6和表7中样本类别特征以及样本目标序列特征可以便于定位任一行样本构造序列特征和/或样板构造时间特效的初始来源;表6和表7是本申请实施例提供的一些可能的实现方式,并不代表本申请实施例的全部实现方式,基于不同的业务场景,用户可以自定义各种样本构造序列特征和/或样本构造时间特征,对此本申请实施例不作限制。
步骤S304:利用样本特征池以及样本目标序列特征,训练基模型,得到特征预测模型。
其中,可以将样本特征池中的样本类别特征以及对应的样本构造序列特征和/或样本构造时间特征作为基模型的输入,得到基模型输出的预测结果;再根据基模型输出的预测结果与样本目标序列特征之间的损失,通过反向传播与梯度下降等方式调整基模型的模型参数,直至基模型的模型性能达到预设性能标准,得到特征预测模型;其中,预设性能标准例如可以包括;准确率、精准率等评价指标达到预设阈值等。
应理解,输入至基模型中的样本类别特征是数值型的样本类别特征。示例性的,基于表6中示出的样本类别特征、样本构造序列特征与样本构造时间特征,例如可以将“A01-polo短袖A”编码为“001”、将“A01-短裤A”编码为“002”、将“A02-牛仔裤A”编码为“007”、将“长春市”编码为“11”、将“吉林市”编码为“22”,将表6中的构造时间特征“是”编码为“1”,再去掉表6中的“样本预测单位时间”一列,得到表8示出一种训练过程中样本特征池以及样本目标序列特征采用的数据格式。
表8:样本特征池以及样本目标序列特征
如表8所示,除样本目标序列特征这一列以外的每行特征可以作为基模型的输入,在得到基模型输出的每行特征对应的预测结果后,可以基于每行特征对应的预测结果以及该行特征对应的样本目标序列特征之间的损失,训练基模型,得到特征预测模型。
示例性的,基于表7中示出的样本类别特征与样本构造序列特征,例如可以将“A01-polo短袖A”编码为“001”、将“A01-短裤A”编码为“002”、将“A02-牛仔裤A”编码为“007”、将“长春市”编码为“11”、将“吉林市”编码为“22”,再去掉表7中的“样本预测单位时间”一列,得到表9示出一种训练过程中样本特征池以及样本目标序列特征采用的数据格式。
表9:样本特征池以及样本目标序列特征
/>
如表9所示,除样本目标序列特征这一列以外的每行特征可以作为基模型的输入,在得到基模型输出的每行特征对应的预测结果后,可以基于每行特征对应的预测结果以及该行特征对应的样本目标序列特征之间的损失,训练基模型,得到特征预测模型。
可选地,考虑到有些模型训练可能分为训练阶段与测试阶段,因此可以按照样本预测单位时间、样本类别特征内的样本预测单位时间或随机划分等划分方式,将样本特征池以及对应样本目标序列特征划分为训练集和测试集,例如,可以按照样本预测单位时间,将表6中在2021.10.3下的样本类别特征、样本构造序列特征、样本构造时间特征以及对应的样本目标序列特征划分为训练集,表6中的剩余数据划分为测试集;这样可以在训练阶段利用训练集来训练基模型,以及在测试阶段利用测试集来测试基模型是否达到预设性能标准。
根据本申请实施例,通过根据预设的业务逻辑以及样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征,能够得到满足各种业务逻辑所需的样本预测单位时间内的样本目标序列特征,并通过基于样本历史数据以及样本预测单位时间构造出表征序列信息的样本构造序列特征和/或表征时间信息的样本构造时间特征,并结合表征类别信息的样本类别特征,来训练基模型,能够提升基模型的性能,得到精度更高与泛化性更好的特征预测模型。
考虑到,实际应用中样本历史数据的数据量可能较大,构造出的样本特征池的数据量也较大,若直接采用样本特征池以及对应的样本目标序列特征训练单个基模型,可能存在训练后的单个基模型的性能无法达到预设性能标准的情况。应理解的是,样本特征池中的多个样本类别特征各自可以对应多个样本构造序列特征和/或多个样本构造时间特征,基于此,在一种可能的实现方式中,在步骤S304中,利用样本特征池以及样本目标序列特征,训练基模型,得到特征预测模型,可以包括:
步骤S3041:基于预设的特征抽取方式,从样本特征池中抽取出至少两个特征子集,每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征;
步骤S3042:利用至少两个特征子集以及至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型;
步骤S3043:将至少两个训练后的基模型进行融合,得到特征预测模型。
在步骤S3041中,特征抽取方式可以包括以下至少一种:依据规则对特征进行选择、依据训练结果对特征进行选择、依据预测后特征权重系数进行选择;其中,依据规则对特征进行选择例如可以至少包括:方差选择法、相关系数法、随机选择法;依据训练结果对特征进行选择例如可以至少包括:递归式特征消除法(Recursive Feature Elimination,RFE);依据预测后的特征权重系数进行选择,可以理解为,有些基模型可能会在模型预测过程中给每个特征属性给定一个权重系数,因此可以基于各个特征属性对应的权重系数进行特征选择。
其中,每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征,可以理解为,每个特征子集中可以包括部分样本类别特征以及部分样本类别特征对应的部分样本构造序列特征和/或部分样本构造时间特征,还可以包括部分样本构造序列特征和/或部分样本构造时间特征等。应理解,从样本特征池中抽取出的至少两个特征子集之间可能有重复的特征、也可能有不重复的特征,至少两个特征子集中的总特征种类可以包括样本特征池中全部特征种类。图4示出根据本公开一实施例的特征抽取过程的示意图,如图4所示,若样本特征池中包含“a、b、c、d、e、f”等特征,从该样本特征池中例如可以抽取出“a、b、c、d”、“b、e、f”、“a、b、c、d、e”等特征子集。
在步骤S3042中,可以参照上述步骤S304中训练单个基模型的训练方式,实现利用至少两个特征子集以及至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型,具体的,可以将各个特征子集作为各个基模型的输入,得到各个基模型输出的预测结果,并根据各个基模型输出的预测结果与各个特征子集对应的样本目标序列特征之间的损失,通过反向传播和梯度下降等方式调整各个基模型的模型参数,得到训练后的基模型。应理解,该至少两个基模型的模型种类可以不同,也可以相同,或者说可以采用不同特征子集训练不同的基模型,当然也可以训练相同的基模型,对此本申请实施例不作限制。
在步骤S3043中,可以采用本领域已知的模型融合方式,例如:线性加权融合法、交叉融合法、瀑布融合法等,实现将至少两个训练后的基模型进行融合。其中,将至少两个训练后的基模型进行融合,得到特征预测模型,可以包括:将至少两个训练后的基模型进行融合,得到集成模型;然后测试该集成模型是否达到预设性能标准,在该集成模型达到预设性能标准的情况下,将该集成模型作为特征预测模型;应理解,若该集成模型未达到预设性能标准,则可以重新执行一遍步骤S3041至步骤S3043,直至融合后的集成模型达到预设性能标准,并将达到预设性能标准的集成模型作为特征预测模型。
在一种可能的实现方式中,在步骤S3042至少两个基模型的训练过程中,采用图网络模型学习至少两个基模型之间的关联关系以及至少两个基模型各自对应的融合权重,将至少两个训练后的基模型进行融合,得到特征预测模型,包括:
基于图网络模型学习的至少两个基模型之间的关联关系以及各自对应的融合权重,融合至少两个训练后的基模型,得到特征预测模型。通过该方式,能够利用图网络模型学习的关联关系以及各自对应的融合权重,有效地实现基模型融合,有利于提升融合后得到的特征预测模型的精度和泛化性。
其中,采用图网络模型来学习各个基模型之间的关联关系与对应的融合权重,可以实现更有效的模型集成,具体的,可以将每个基模型作为图网络模型中的节点,随着基模型的增加,图网络模型的图结构会发生变化,图网络模型的图结构可以表征各个基模型之间的关联关系,通过端到端的训练来学习各个基模型之间的关联关系以及对应的融合权重,然后通过学习的关联关系以及对应的融合权重,将这些基模型的输出融合到一起作为集成模型的输出,也即将至少两个训练后的基模型融合为集成模型。
其中,在图网络模型的学习过程中,可以将基模型作为节点加入图网络模型的图结构,然后基于图网络模型集成所有基模型,并通过前向传播计算各个基模型之间的关联关系,再通过反向传播来更新图网络模型中针对各个基模型的融合权重,直至集成模型的性能达到预设性能标准,将达到预设性能标准的集成模型作为特征预测模型。
根据本申请实施例,通过从样本特征池中抽取至少两个特征子集,并利用至少两个特征子集以及对应的样本目标序列特征,训练至少两个基模型,有利于使各个基模型分别重点学习部分的特征信息(如部分类别信息、部分序列信息、部分时间信息),再将至少两个训练后的基模型进行融合,可以提高融合后的特征预测模型的性能,得到精度更高和泛化性更好的特征预测模型。
基于上述步骤S303以及S3041至步骤S3043,本申请实施例还提供一种模型训练系统,图5示出根据本申请一实施例的模型训练系统的示意图,如图5所示,该模型训练系统包括特征构造模块、特征抽取模块、训练与融合模块。
特征构造模块被配置为执行:对字符串类型的样本类别特征进行编码处理,得到数值型的样本类别特征;基于样本历史单位时间基于样本预测单位时间与样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征;基于样本历史单位时间与样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征;其中,数值型的样本类别特征、构造时间特征以及构造序列特征可以构成样本特征池。
特征抽取模块被配置为执行:基于预设的特征抽取方式,从样本特征池中抽取出至少两个特征子集(如图5中的特征子集1、特征子集2、特征子集3),每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征;如上所述,特征抽取方式可以包括以下至少一种:依据规则对特征进行选择、依据训练结果对特征进行选择、依据预测后特征权重系数进行选择等。
训练与融合模块被配置为执行:利用至少两个特征子集(如图5中的特征子集1、特征子集2、特征子集3)以及该至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型(如图5中的基模型1、基模型2、基模型3);将至少两个训练后的基模型进行融合,得到特征预测模型。
根据本申请实施例的模型训练系统,能够利用特征构造模块、特征抽取模块以及训练与融合模块,输出模型性能更优且满足各种业务逻辑需求的特征预测模型。
考虑到,训练单个基模型的速度通常比训练多个基模型再进行融合的速度要快,如果训练单个基模型所得到的特征预测模型能够达到预设性能标准,则无需通过训练至少两个基模型并进行融合来得到特征预测模型,因此可以在训练单个基模型所得到的特征预测模型不能达到预设性能标准的情况下,再采用训练多个基模型并进行融合来得到特征预测模型的方式。图6示出根据本申请一实施例的模型训练过程的流程图,如图6所示,特征预测模型的训练过程,可以包括:
步骤S601:获取样本历史数据D0,样本历史数据D0包括:多个样本类别特征以及不同样本类别特征对应的样本历史序列特征。
步骤S602:清洗样本历史数据D0中的异常数据,得到清洗后的样本历史数据D1;其中,异常数据的清洗方式例如可以包括:清洗缺省值、清洗格式内容、数据去重、清洗不需要数据等。
步骤S603:根据预设的业务逻辑以及样本历史数据D1,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征;其中,可以参照上述步骤S302,实现根据预设的业务逻辑以及样本历史数据D1,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征。
步骤S604:对样本历史数据D1中的字符串类型的样本类别特征进行编码处理,得到数值型的样本类别特征;其中,编码处理包括以下至少一种:数字编码、独热编码、二进制编码。
步骤S605:基于样本历史数据D1以及样本预测单位时间进行特征构造,得到样本特征池D3,样本特征池D3包括:多个样本类别特征以及多个样本类别特征各自对应的样本构造序列特征和/或样本构造时间特征;其中,样本特征池D3中的样本类别特征为数值型的样本类别特征;可以参照上述步骤S303,实现基于样本历史数据D1以及样本预测单位时间进行特征构造,得到样本特征池D3。
步骤S606:从样本特征池D3中选取特征全集Fall(也即样本特征池中全部特征所构成的集合),并与样本目标序列特征构成数据集DFall。
步骤S607:利用数据集DFall训练基模型φ0,或者说利用基模型φ0在数据集DFall上拟合数据,得到训练后的基模型φ0*;其中,可以参照上述步骤S304,实现利用数据集DFall训练基模型φ0,也即利用样本特征池D3以及样本目标序列特征,训练基模型φ0。
步骤S608:测试训练后的基模型φ0*的性能是否达到预设性能标准;其中,预设性能标准例如可以包括;准确率、精准率等评价指标达到预设阈值等。
步骤S609:若训练后的基模型φ0*的性能达到预设性能标准,则将训练后的基模型φ0*作为特征预测模型。
步骤S610:若训练后的基模型φ0*的性能未达到预设性能标准,则基于预设的特征抽取方式,从样本特征池D3中抽取出至少两个特征子集Fi,并与至少两个特征子集Fi各自对应的样本目标序列特征构成至少两个数据子集DFi;其中,可以参照上述步骤S3041,实现基于预设的特征抽取方式,从样本特征池D3中抽取出至少两个特征子集Fi。
步骤S611:利用至少两个数据子集DFi训练至少两个基模型φi,得到至少两个训练后的基模型φi*;其中,可以参照上述步骤S3042,实现利用数据子集DFi训练基模型φi,得到至少两个训练后的基模型φi*,也即利用至少两个特征子集Fi以及至少两个特征子集Fi各自对应的样本目标序列特征分别训练至少两个基模型φi,得到至少两个训练后的基模型φi*
步骤S612:基于至少两个训练后的基模型φi*,更新图网络模型Ω的图结构以及针对各个基模型φi*的融合权重;图结构可以表征各个基模型之间的关联关系,相当于在至少两个基模型的训练过程中,采用图网络模型学习至少两个基模型之间的关联关系以及至少两个基模型各自对应的融合权重。
步骤S613:基于更新后的图结构以及融合权重,融合至少两个训练后的基模型{φi*},得到集成模型{{φi*},Ω};其中,可以参照上述步骤S6043,实现基于更新后的图结构以及融合权重,融合全部训练后的基模型,也即基于图网络模型学习的至少两个基模型之间的关联关系以及各自对应的融合权重,融合至少两个训练后的基模型。
步骤S614:测试集成模型{{φi*},Ω}的性能是否达到预设性能标准;其中,预设性能标准例如可以包括;准确率、精准率等评价指标达到预设阈值等。
步骤S615:若集成模型{{φi*},Ω}的性能达到预设性能标准,则将集成模型{{φi*},Ω}作为特征预测模型;其中,若集成模型{{φi*},Ω}的性能未达到预设性能标准,则重新执行步骤S610至步骤S614。
根据本申请实施例,能够依据模型的性能是否达到预设性能标准,来决定是否直接采用训练后的单个基模型作为特征预测模型,还是利用从样本特征池中抽取的至少两个特征子集训练至少两个基模型,并将至少两个训练后的基模型进行融合来得到特征预测模型,这样可以尽可能快速地得到特征预测模型,并确保特征预测模型的性能达到预设性能标准。
根据上述本申请的各个实施例,能够基于从多种业务场景中整理的共通需求和经验,形成标准化和自动化的特征预测流程,提升特征预测的可复制性,能够集成多种特征构造方式与多种特征抽取方式,将多种特征构造方式与多种特征抽取方式封装,形成特征预测产品,降低用户使用门槛。
图7示出根据本申请一实施例的特征预测装置的结构图。该装置可用于上述特征预测系统100,如图7所示,该装置包括:
获取模块701,用于获取待预测对象的历史数据以及预测单位时间,所述历史数据包括:待预测对象的类别特征以及所述类别特征对应的历史序列特征,所述历史序列特征表示针对所述类别特征的待预测对象在多个历史单位时间下采集的历史行为数据;
预测模块702,用于根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,所述目标特征序列表示所述类别特征的待预测对象在所述预测单位时间内的预测行为数据。
根据本申请实施例,能够在获取到待预测对象的历史数据以及预测单位时间后,直接根据历史数据与预测单位时间自动化地预测出用户所需的目标序列特征,这样用户只需提供历史数据以及预测单位时间,无需具有专业的特征构造经验及相关知识,即可得到待预测对象的预测行为数据,从而降低用户门槛,提高特征预测的便捷性和效率。
可选地,所述预测模块702,包括:序列特征构造子模块,用于基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征;特征预测子模块,用于通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
可选地,所述基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征,包括以下至少一种:基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,得到构造序列特征;基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;基于从预测单位时间向过去数第n个历史单位时间后,再从所述第n个历史单位时间向过去数m个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;其中,i、j、n、m均为正整数,所述统计特征包括以下至少一种:总和、最大值、最小值、平均值、标准差、方差、中位数。
根据本申请实施例,通过构造出的各种构造序列特征,可以进一步捕获历史序列特征的内在规律,为模型预测提供丰富的序列信息,从而提高模型预测精度。
可选地,所述装置还包括:时间特征构造模块,用于基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征;其中,所述预测模块,用于通过特征预测模型根据所述类别特征、所述构造序列特征以及所述构造时间特征进行特征预测,得到所述目标序列特征。
据本申请实施例,能够基于历史单位时间与预测单位时间,构造出表征时间信息的构造时间特征,从而在利用特征预测模型进行特征预测时,不仅可以利用类别信息与序列信息,还可以结合时间信息,输出更精准的目标序列特征。
可选地,所述基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征,包括以下至少一种:确定从预测单位时间向过去数第x个历史单位时间的日期特征,作为构造时间特征,所述日期特征包括以下至少一种:节假日、星期、工作日以及自定义节日,x为正整数;确定预测单位时间所属的日期特征,作为构造时间特征;确定预测单位时间对应的自定义时间特征,作为构造时间特征,所述自定义时间特征包括以下至少一种:预测单位时间属于预设周期内的第几个单位时间、预测单位时间是否属于节假日、预测单位时间距离最近节假日的天数、从预测单位时间向未来数y天内节假日的天数和,y为正整数。
根据本申请实施例,通过构造出各种构造时间特征,能够为模型预测提供各种丰富的时间信息,从而提高模型预测精度。
可选地,在所述类别特征是字符串类型的情况下,所述装置还包括:编码模块,用于对所述类别特征进行编码处理,得到数值型的类别特征;其中,所述编码处理包括以下至少一种:数字编码、独热编码、二进制编码。
根据本申请实施例,能够使特征预测模型利用数值型的类别特征所表征的类别信息,有效输出精准的预测结果。
可选地,不同的待预测对象对应不同的特征预测模型,所述装置还包括:选择模块,用于响应于接收到针对特征预测模型的选择指令,确定所述选择指令所指示的特征预测模型;其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:通过所述选择指令所指示的特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
根据本申请实施例,能够使用户基于不同待预测对象选择所需的特征预测模型,并通过选中的特征预测模型进行特征预测,满足用户针对各种待预测对象的特征预测需求。
可选地,所述特征预测模型的训练过程包括:获取样本对象的样本历史数据,所述样本历史数据包括:多个样本类别特征以及不同样本类别特征对应的样本历史序列特征,所述样本历史序列特征表示针对所述样本类别特征的样本对象在多个样本历史单位时间下采集的历史行为数据;根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,所述业务逻辑用于指示所述样本预测单位时间的目标时间单位;基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,所述样本特征池包括:多个样本类别特征以及多个样本类别特征各自对应的样本构造序列特征和/或样本构造时间特征;利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型。
根据本申请实施例,通过根据预设的业务逻辑以及样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及样本预测单位时间内的样本目标序列特征,能够得到满足各种业务逻辑所需的样本预测单位时间内的样本目标序列特征,并通过基于样本历史数据以及样本预测单位时间构造出表征序列信息的样本构造序列特征和/或表征时间信息的样本构造时间特征,并结合表征类别信息的样本类别特征,来训练基模型,能够提升基模型的性能,得到精度更高与泛化性更好的特征预测模型。
可选地,所述根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,包括:在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位相匹配的情况下,将所述样本历史单位时间作为样本预测单位时间,并将所述样本历史序列特征作为样本目标序列特征;或,在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位不匹配的情况下,根据所述目标时间单位以及所述样本历史单位时间,确定样本预测单位时间,并根据所述样本历史序列特征以及所述样本预测单位时间,确定样本目标序列特征。
根据本申请实施例,能够构造出符合各种业务逻辑的样本预测单位时间内的样本目标序列特征,从而可以利用样本目标序列特征训练出满足各种业务逻辑需求的特征预测模型。
可选地,所述基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,包括:基于所述样本预测单位时间与所述样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征;和/或,基于所述样本历史单位时间与所述样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征。
根据本申请实施例,通过构造出表征序列信息的样本构造序列特征和/或表征时间信息的样本构造时间特征,这样在基模型的训练过程中,能够使基模型学习到丰富的类别信息、序列信息和/或时间信息,有利于提高训练后得到的特征预测模型的精度和泛化性。
可选地,所述样本特征池中的多个样本类别特征各自对应多个样本构造序列特征和/或多个样本构造时间特征,所述利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型,包括:基于预设的特征抽取方式,从所述样本特征池中抽取出至少两个特征子集,每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征;利用所述至少两个特征子集以及所述至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型;将所述至少两个训练后的基模型进行融合,得到所述特征预测模型。
根据本申请实施例,通过从样本特征池中抽取至少两个特征子集,并利用至少两个特征子集以及对应的样本目标序列特征,训练至少两个基模型,有利于使各个基模型分别重点学习部分的特征信息(如部分类别信息、部分序列信息、部分时间信息),再将至少两个训练后的基模型进行融合,可以提高融合后的特征预测模型的性能,得到精度更高和泛化性更好的特征预测模型。
可选地,在所述至少两个基模型的训练过程中,采用图网络模型学习所述至少两个基模型之间的关联关系以及所述至少两个基模型各自对应的融合权重,所述将所述至少两个训练后的基模型进行融合,得到特征预测模型,包括:基于所述图网络模型学习的所述至少两个基模型之间的关联关系以及各自对应的融合权重,融合所述至少两个训练后的基模型,得到所述特征预测模型。
根据本申请实施例,能够利用图网络模型学习的关联关系以及各自对应的融合权重,有效地实现基模型融合,有利于提升融合后得到的特征预测模型的精度和泛化性。
基于上述图7示出的特征预测装置,其中,获取模块以及预测模块均可以通过软件实现,或者可以通过硬件实现。示例性的,接下来以获取模块为例,介绍获取模块的实现方式。类似的,预测模块的实现方式可以参考获取模块的实现方式。
模块作为软件功能单元的一种举例,获取模块可以包括运行在计算实例上的代码。其中,计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地,上述计算实例可以是一台或者多台。例如,获取模块可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中,也可以分布在不同的region中。进一步地,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中,也可以分布在不同的AZ中,每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中,通常一个region可以包括多个AZ。
同样,用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中,也可以分布在多个VPC中。其中,通常一个VPC设置在一个region内,同一region内两个VPC之间,以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关,经通信网关实现VPC之间的互连。
模块作为硬件功能单元的一种举例,获取模块可以包括至少一个计算设备,如服务器等。或者,获取模块也可以是利用专用集成电路(application-specific integratedcircuit,ASIC)实现、或可编程逻辑器件(programmable logic device,PLD)实现的设备等。其中,上述PLD可以是复杂程序逻辑器件(complex programmable logical device,CPLD)、现场可编程门阵列(field-programmable gate array,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合实现。
获取模块包括的多个计算设备可以分布在相同的region中,也可以分布在不同的region中。获取模块包括的多个计算设备可以分布在相同的AZ中,也可以分布在不同的AZ中。同样,获取模块包括的多个计算设备可以分布在同一个VPC中,也可以分布在多个VPC中。其中,所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。
需要说明的是,在其他实施例中,获取模块可以用于执行特征预测方法中的任意步骤,预测模块可以用于执行特征预测方法中的任意步骤,获取模块以及预测模块负责实现的步骤可根据需要指定,通过获取模块以及预测模块分别实现特征预测方法中不同的步骤来实现特征预测装置的全部功能。
本申请还提供一种计算设备100。如图8所示,计算设备100包括:总线102、处理器104、存储器106和通信接口108。处理器104、存储器106和通信接口108之间通过总线102通信。计算设备100可以是服务器或终端设备。应理解,本申请不限定计算设备100中的处理器、存储器的个数。
总线102可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。总线104可包括在计算设备100各个部件(例如,存储器106、处理器104、通信接口108)之间传送信息的通路。
处理器104可以包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器106可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。处理器104还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard diskdrive,HDD)或固态硬盘(solid state drive,SSD)。
存储器106中存储有可执行的程序代码,处理器104执行该可执行的程序代码以分别实现前述获取模块以及预测模块的功能,从而实现特征预测方法。也即,存储器106上存有用于执行特征预测方法的指令。
通信接口103使用例如但不限于网络接口卡、收发器一类的收发模块,来实现计算设备100与其他设备或通信网络之间的通信。
本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是服务器,例如是中心服务器、边缘服务器,或者是本地数据中心中的本地服务器。在一些实施例中,计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。
如图9所示,所述计算设备集群包括至少一个计算设备100。计算设备集群中的一个或多个计算设备100中的存储器106中可以存有相同的用于执行特征预测方法的指令。
在一些可能的实现方式中,该计算设备集群中的一个或多个计算设备100的存储器106中也可以分别存有用于执行特征预测方法的部分指令。换言之,一个或多个计算设备100的组合可以共同执行用于执行特征预测方法的指令。
需要说明的是,计算设备集群中的不同的计算设备100中的存储器106可以存储不同的指令,分别用于执行特征预测装置的部分功能。也即,不同的计算设备100中的存储器106存储的指令可以实现获取模块以及预测模块中的一个或多个模块的功能。
在一些可能的实现方式中,计算设备集群中的一个或多个计算设备可以通过网络连接。其中,所述网络可以是广域网或局域网等等。图10示出了一种可能的实现方式。如图10所示,两个计算设备100A和100B之间通过网络进行连接。具体地,通过各个计算设备中的通信接口与所述网络进行连接。在这一类可能的实现方式中,计算设备100A中的存储器106中存有执行获取模块的功能的指令。同时,计算设备100B中的存储器106中存有执行预测模块的功能的指令。
图10所示的计算设备集群之间的连接方式可以是考虑到本申请提供的特征预测方法需要存储大量的历史数据,因此考虑将预测模块实现的功能交由计算设备100B执行。
应理解,图10中示出的计算设备100A的功能也可以由多个计算设备100完成。同样,计算设备100B的功能也可以由多个计算设备100完成。
本申请实施例还提供了一种包含指令的计算机程序产品。所述计算机程序产品可以是包含指令的,能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当所述计算机程序产品在至少一个计算设备上运行时,使得至少一个计算设备执行特征预测方法。
本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,所述指令指示计算设备执行特征预测方法,或指示计算设备执行特征预测方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。
附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit,专用集成电路))来实现,或者可以用硬件和软件的组合,如固件等来实现。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (16)
1.一种特征预测方法,其特征在于,包括:
获取待预测对象的历史数据以及预测单位时间,所述历史数据包括:待预测对象的类别特征以及所述类别特征对应的历史序列特征,所述历史序列特征表示针对所述类别特征的待预测对象在多个历史单位时间下采集的历史行为数据;
根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,所述目标特征序列表示所述类别特征的待预测对象在所述预测单位时间内的预测行为数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,包括:
基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征,所述构造序列特征表征从所述预测单位时间向过去数至少一个历史单位时间内的历史行为数据的序列特征;
通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述预测单位时间与所述历史序列特征进行特征构造,得到所述类别特征对应的构造序列特征,包括以下至少一种:
基于从预测单位时间向过去数第i个历史单位时间的历史序列特征进行特征构造,得到构造序列特征;
基于从预测单位时间向过去数j个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;
基于从预测单位时间向过去数第n个历史单位时间后,再从所述第n个历史单位时间向过去数m个历史单位时间内的历史序列特征的统计特征进行特征构造,得到构造序列特征;
其中,i、j、n、m均为正整数,所述统计特征包括以下至少一种:总和、最大值、最小值、平均值、标准差、方差、中位数。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征;
其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:
通过特征预测模型根据所述类别特征、所述构造序列特征以及所述构造时间特征进行特征预测,得到所述目标序列特征。
5.根据权利要求4所述的方法,其特征在于,所述基于所述历史单位时间与所述预测单位时间进行特征构造,得到所述类别特征对应的构造时间特征,包括以下至少一种:
确定从预测单位时间向过去数第x个历史单位时间的日期特征,作为构造时间特征,所述日期特征包括以下至少一种:节假日、星期、工作日以及自定义节日,x为正整数;
确定预测单位时间所属的日期特征,作为构造时间特征;
确定预测单位时间对应的自定义时间特征,作为构造时间特征,所述自定义时间特征包括以下至少一种:预测单位时间属于预设周期内的第几个单位时间、预测单位时间是否属于节假日、预测单位时间距离最近节假日的天数、从预测单位时间向未来数y天内节假日的天数和,y为正整数。
6.根据权利要求1所述的方法,其特征在于,在所述类别特征是字符串类型的情况下,在获取待预测对象的历史数据之后,所述方法还包括:
对所述类别特征进行编码处理,得到数值型的类别特征;其中,所述编码处理包括以下至少一种:数字编码、独热编码、二进制编码。
7.根据权利要求2至5任一项所述的方法,其特征在于,不同的待预测对象对应不同的特征预测模型,所述方法还包括:
响应于接收到针对特征预测模型的选择指令,确定所述选择指令所指示的特征预测模型;
其中,所述通过特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征,包括:
通过所述选择指令所指示的特征预测模型根据所述类别特征以及所述构造序列特征进行特征预测,得到目标序列特征。
8.根据权利要求2至5任一项所述的方法,其特征在于,所述特征预测模型的训练过程包括:
获取样本对象的样本历史数据,所述样本历史数据包括:多个样本类别特征以及不同样本类别特征对应的样本历史序列特征,所述样本历史序列特征表示针对所述样本类别特征的样本对象在多个样本历史单位时间下采集的历史行为数据;
根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,所述业务逻辑用于指示所述样本预测单位时间的目标时间单位;
基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,所述样本特征池包括:多个样本类别特征以及多个样本类别特征各自对应的样本构造序列特征和/或样本构造时间特征;
利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型。
9.根据权利要求8所述的方法,其特征在于,所述根据预设的业务逻辑以及所述样本历史数据,确定不同样本类别特征对应的样本预测单位时间以及所述样本预测单位时间内的样本目标序列特征,包括:
在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位相匹配的情况下,将所述样本历史单位时间作为样本预测单位时间,并将所述样本历史序列特征作为样本目标序列特征;或,
在所述业务逻辑指示的目标时间单位与所述样本历史单位时间的时间单位不匹配的情况下,根据所述目标时间单位以及所述样本历史单位时间,确定样本预测单位时间,并根据所述样本历史序列特征以及所述样本预测单位时间,确定样本目标序列特征。
10.根据权利要求8所述的方法,其特征在于,所述基于所述样本历史数据以及所述样本预测单位时间进行特征构造,得到样本特征池,包括:
基于所述样本预测单位时间与所述样本历史序列特征进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造序列特征;和/或,
基于所述样本历史单位时间与所述样本预测单位时间进行特征构造,得到不同样本类别特征在不同样本预测单位时间下的样本构造时间特征。
11.根据权利要求8所述的方法,其特征在于,所述样本特征池中的多个样本类别特征各自对应多个样本构造序列特征和/或多个样本构造时间特征,所述利用所述样本特征池以及所述样本目标序列特征,训练基模型,得到所述特征预测模型,包括:
基于预设的特征抽取方式,从所述样本特征池中抽取出至少两个特征子集,每个特征子集中包括部分样本类别特征、部分样本构造序列特征和/或部分样本构造时间特征;
利用所述至少两个特征子集以及所述至少两个特征子集各自对应的样本目标序列特征分别训练至少两个基模型,得到至少两个训练后的基模型;
将所述至少两个训练后的基模型进行融合,得到所述特征预测模型。
12.根据权利要求11所述的方法,其特征在于,在所述至少两个基模型的训练过程中,采用图网络模型学习所述至少两个基模型之间的关联关系以及所述至少两个基模型各自对应的融合权重,所述将所述至少两个训练后的基模型进行融合,得到特征预测模型,包括:
基于所述图网络模型学习的所述至少两个基模型之间的关联关系以及各自对应的融合权重,融合所述至少两个训练后的基模型,得到所述特征预测模型。
13.一种特征预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测对象的历史数据以及预测单位时间,所述历史数据包括:待预测对象的类别特征以及所述类别特征对应的历史序列特征,所述历史序列特征表示针对所述类别特征的待预测对象在多个历史单位时间下采集的历史行为数据;
预测模块,用于根据所述历史数据以及所述预测单位时间进行特征预测,得到目标序列特征,所述目标特征序列表示所述类别特征的待预测对象在所述预测单位时间内的预测行为数据。
14.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;
所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行如权利要求1至12任一项所述的方法。
15.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备集群运行时,使得所述计算设备集群执行如权利要求的1至12任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机程序指令由计算设备集群执行时,所述计算设备集群执行如权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211193322.3A CN117828323A (zh) | 2022-09-28 | 2022-09-28 | 特征预测方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211193322.3A CN117828323A (zh) | 2022-09-28 | 2022-09-28 | 特征预测方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117828323A true CN117828323A (zh) | 2024-04-05 |
Family
ID=90515907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211193322.3A Pending CN117828323A (zh) | 2022-09-28 | 2022-09-28 | 特征预测方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828323A (zh) |
-
2022
- 2022-09-28 CN CN202211193322.3A patent/CN117828323A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bellini et al. | Risk management with expectiles | |
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN110019616B (zh) | 一种poi现势状态获取方法及其设备、存储介质、服务器 | |
CN108399564B (zh) | 信用评分方法及装置 | |
CN105320724A (zh) | 用于优化用于学习排序的非凸函数的新探索 | |
US20210182680A1 (en) | Processing sequential interaction data | |
WO2018090545A1 (zh) | 融合时间因素的协同过滤方法、装置、服务器和存储介质 | |
CN110971659A (zh) | 推荐消息的推送方法、装置及存储介质 | |
CN110020427B (zh) | 策略确定方法和装置 | |
CN113554175B (zh) | 一种知识图谱构建方法、装置、可读存储介质及终端设备 | |
CN107807997A (zh) | 基于大数据的用户画像构造方法、装置及计算设备 | |
Duan et al. | Sliced full factorial-based Latin hypercube designs as a framework for a batch sequential design algorithm | |
CN111291936B (zh) | 产品生命周期预估模型生成方法、装置及电子设备 | |
CN113424207B (zh) | 高效地训练可理解模型的系统和方法 | |
Almomani et al. | Selecting a good stochastic system for the large number of alternatives | |
CN108595395B (zh) | 一种昵称的生成方法、装置及设备 | |
CN110399382A (zh) | 基于云模型及粗糙集的民航主数据识别方法及系统 | |
CN114925919A (zh) | 业务资源处理方法、装置、计算机设备和存储介质 | |
CN117828323A (zh) | 特征预测方法、装置和存储介质 | |
CN115495663A (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN115048579A (zh) | 物料搜索的方法、装置及设备 | |
CN114519073A (zh) | 一种基于图谱关系挖掘的产品配置推荐方法及系统 | |
CN113591881A (zh) | 基于模型融合的意图识别方法、装置、电子设备及介质 | |
CN112801744B (zh) | 一种活动推荐方法、装置、电子设备和存储介质 | |
CN110555537A (zh) | 多因素多时间点相关的预测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |