CN110704730A

CN110704730A - 基于大数据的产品数据推送方法、系统及计算机设备

Info

Publication number: CN110704730A
Application number: CN201910851471.6A
Authority: CN
Inventors: 金婕
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-01-17
Anticipated expiration: 2039-09-06
Also published as: CN110704730B

Abstract

本发明实施例提供了一种基于大数据的产品数据推送方法，所述方法包括：获取目标对象的对象信息，对象信息动态交易信息；根据每个目标产品信息中的产品购置时间节点，从映射表中获取每个目标产品信息关联的历史系数；将多个目标产品信息以及每个目标产品信息关联的历史系数输入到画像模型中，通过画像模型得到目标对象的预设标签的标签系数；根据标签系数确定所述目标对象的目标对象类别，根据目标对象类别向所述目标对象推送产品数据。本实施例可以精准地评估每个目标对象的预设标签的标签系数以提升产品数据推送效率和推送准确度，从而有效地控制数据发送目的地和减少数据的无效发送频次，以节省通信开销和发送端的数据发送量。

Description

基于大数据的产品数据推送方法、系统及计算机设备

技术领域

本发明实施例涉及计算机数据处理领域，尤其涉及一种基于大数据的产品数据推送方法、系统、计算机设备及计算机可读存储介质。

背景技术

随着人们保险意识逐渐增强，商业保险已经成为当前社会保障体系的重要组成部分。现阶段，商业保险的产品推送手段是：依赖坐席在短时间内精确地捕捉到客户的真实需求，向客户推送合适的保险品种，而这往往高度依赖线上坐席的经验及语言敏感度，大量消耗了坐席资源，以及常常因为坐席的业务能力不足而无法促成交易。面对日益庞大的客户群体，保险商至少有两点需要考虑：1、服务资源必须向高价值客户倾斜；2、必须能够高效率地向不同客户推送合适的保险品种，以满足客户多样化的保障需求并促成保险业务的达成。

因此，有必要提供一种产品数据推送技术，用于精准地评估每个客户的客户价值标签系数以提升产品数据推送效率和推送准确度，从而有效地控制数据发送目的地和减少数据的无效发送频次，以节省通信开销和发送端的数据发送量。

发明内容

有鉴于此，本发明实施例的目的是提供一种基于大数据的产品数据推送方法、系统、计算机设备及计算机可读存储介质，可以提升产品数据推送效率和推送准确度，从而有效地控制数据发送目的地和减少数据的无效发送频次，以节省通信开销和发送端的数据发送量。

为实现上述目的，本发明实施例提供了一种基于大数据的产品数据推送方法，所述方法包括：

获取目标对象的对象信息，所述对象信息动态交易信息，所述动态交易信息包括多个目标产品的多个目标产品信息，每个目标产品信息包括对应目标产品的产品购置时间节点；

根据每个目标产品信息中的产品购置时间节点，从映射表中获取每个目标产品信息关联的历史系数，所述映射表包括各个历史年限所对应的历史系数；

将所述多个目标产品信息以及每个目标产品信息关联的历史系数输入到画像模型中，通过所述画像模型得到所述目标对象的预设标签的标签系数；

根据所述标签系数确定所述目标对象的目标对象类别，根据所述目标对象类别向所述目标对象推送产品数据。

优选地，还包括预先获取所述各个历史年限对应的历史系数：

获取样本数据集，并根据获取的样本数据集构建时间系列；

根据所述时间序列数据生成时间序列数据绘图；

根所述时间序列数据绘图判断所述时间序列是否为平稳时间序列，如果否，则对所述时间序列绘图进行数据处理操作，以将所述时间系列转换为平稳时间序列；

根据所述平稳时间序列计算相关系数ACF以及偏自相关系数PACF，通过相关系数ACF、偏自相关系数PACF进行自回归移动平均模型ARIMA(p，d，q)的p、q参数估计，其中，d代表差分次数，p代表自回归阶数，q代表移动平均阶数；

将所述平稳时间序列的一阶差分化作为输入y_t＝Y_t-Y_t-1，输出ACF图和PACF图，得到ACF第一次穿过上置信区间时的横轴值，以及PACF第一次穿过上置信区间的横轴值，分别对应一阶差分下的p、q的预估值，其中，y_t表示t时刻Y_t的差分；

根据得到参数估计值p、d、q生成ARIMA(p，d，q)，并通过调整不同的参数组合得到ARIMA(autoregressive integrated moving average model)模型，

其中μ表示白噪声序列，表示AR的系数，θ∈[-1，1]是一个斜率系数，y_t-1表示上一时刻预测值，e_t-1表示上一时刻差分值；

将样本数据集输入ARIMA模型，通过ARIMA模型输出资产评估价值；

根据资产评估价值与资产购置价值之间的比值，得到相应的历史系数。

优选地，所述预先获取所述各个历史年限对应的历史系数的步骤包括：

根据预先确定的第一产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

将所述有效样本数据集中各个预测年份、年份当前车辆价值和上年度车辆价值输入到p阶自回归模型公式

对所述p阶自回归模型进行训练以输出各个年份对应的车险系列资产价值y_{车险资产价值}；

其中，p为自回归阶数p、γ_i为自相关系数、μ为常数项和ε_t为误差。

根据预先确定的第二产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

将所述有效样本数据集中各个预测年份、保费金额、产品名称输入到q阶移动平均模型公式

对所述q阶移动平均模型进行训练以得输出各个年份对应的寿险资产价值y_{寿险资产价值}；

其中，q为移动平均阶数、γ_i为自相关系数、μ常数项、θ_i为误差项系数和ε_t为误差。

根据预先确定的第三产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

将所述有效样本数据集中各个信托或证券产品、投资金额和投资时间输入到q阶移动平均模型公式

对所述q阶移动平均模型进行训练输出各个年份对应的投资资产价值y_{投资资产价值}；

根据预先确定的第四产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

将所述有效样本数据集中各个贷款金额、贷款年限、还款进度输入到自回归移动平均模型公式

对所述自回归移动平均模型进行训练以输出各个年份对应的贷款资产价值y_{贷款资产价值}；

其中，p为自回归阶数p、γ_i为自相关系数、ε_t为误差、q为移动平均阶数何和θ_i为误差项系数。

优选地，所述标签系数包括预设标签的评估数值；根据所述标签系数确定所述目标对象的目标对象类别，根据所述目标对象类别向所述目标对象推送产品数据，包括：

将所述目标对象的目标对象类别以及所述目标对象的静态信息输入到迭代决策树模型，通过所述迭代决策树模型输出组合特征，其中，所述静态信息为变动频率低于预设阈值的个体信息；

将所述组合特征输入到产品数据推送模型，以通过所述产品数据推送模型输出与各个待推送产品种类标签的置信度；

通过与各个待推送产品种类标签的置信度，向所述目标对象推送相应的目标产品数据；

为实现上述目的，本发明实施例还提供了一种基于大数据的产品数据推送系统，包括：

第一获取模块，用于获取目标对象的对象信息，所述对象信息动态交易信息，所述动态交易信息包括多个目标产品的多个目标产品信息，每个目标产品信息包括对应目标产品的产品购置时间节点；

第二获取模块，用于根据每个目标产品信息中的产品购置时间节点，从映射表中获取每个目标产品信息关联的历史系数，所述映射表包括各个历史年限所对应的历史系数；

评估模块，用于将所述多个目标产品信息以及每个目标产品信息关联的历史系数输入到画像模型中，通过所述画像模型得到所述目标对象的预设标签的标签系数；

推送模块，用于根据所述标签系数确定所述目标对象的目标对象类别，根据所述目标对象类别向所述目标对象推送产品数据。

为实现上述目的，本发明实施例还提供了一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现如上所述的产品数据推送方法的步骤。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的产品数据推送方法的步骤。

本发明实施例提供的基于大数据的产品数据推送方法、系统、计算机设备及计算机可读存储介质，根据目标对象静态信息、动态交易信息以及动态交易信息的历史系数，来评估标签系数，进而推送产品数据。可以精准地评估每个目标对象的预设标签的标签系数以提升产品数据推送效率和推送准确度，从而有效地控制数据发送目的地和减少数据的无效发送频次，以节省通信开销和发送端的数据发送量。

附图说明

图1为本发明基于大数据的产品数据推送方法实施例一的流程图。

图2为本发明基于大数据的产品数据推送系统实施例二的程序模块示意图。

图3为本发明计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下实施例将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1，示出了本发明实施例一之基于大数据的产品数据推送方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S100，获取目标对象的对象信息。

所述对象信息包括静态信息和动态交易信息，所述动态交易信息包括多个目标产品的多个目标产品信息，每个目标产品信息包括对应目标产品的产品购置时间节点、产品价格节点和产品类别。

所述静态信息，包括但不限于，性别等更新频率较低或不更新的信息。

所述动态交易信息，包括但不限于，目标对象的多个目标产品的多个目标产品信息，每个目标产品信息包括对应目标产品的产品购置时间节点、产品价格节点和产品种类。

所述多个目标产品的多个目标产品数据，可以包括：

保险产品的产品购买数据：获取截至当前时间的所述目标对象购买的所有保险产品的保险数据，其中，当前时间是指当前所对应的时间。当前时间可以是当年。比如，当前时间可以是2018年。例如，通过所述目标对象表示从数据库中获取所述目标对象的购买记录。其中，目标对象标识用于唯一标识目标对象。目标对象标识可以是由数字、字母和符号等字符中的至少一种组成的字符串。保险数据是依据目标对象所购买的保险产品对应生成的数据。保险数据包括目标对象购买保险产品时的行为数据，如所购买保险产品的保险产品标识、购买的时间、购买的金额和保险期限等。

车辆产品的产品购买数据：获取截至当前时间的所有与目标对象名下的所有车辆购买数据，所述车辆购买数据可以来源于登记机构，也可以来源于目标对象或坐席人员在电子表单的相应字段输入的相关数据；

投资理财产品的产品购买数据：获取截至当前时间的所有与目标对象名下的所有投资理财购买数据，所述车辆购买数据可以来源于金融机构或第三方机构(如支付宝等)，也可以来源于目标对象或坐席人员在电子表单的相应字段输入的相关数据。

步骤S102，根据每个目标产品信息中的产品购置时间节点，从映射表中获取每个目标产品信息关联的历史系数，所述映射表包括各个历史年限所对应的历史系数。

所述历史系数用于表示在间隔相应历史年限的不同时间节点以相同价格购买同类商品所体现的价值差异程度。

历史年限	历史系数
		0	1
1	1.1
		2	1.2
...	...
		n	...

示例性的，假设现在是2018年，如果目标对象甲在1998年(间隔20年)消费10万元购买一辆车，目标对象乙在2018年消费10万元购买一辆车，受通货通胀和国内GDP持续增长的影响，目标对象甲在1998年的购买力明显高于目标对象乙在2018年的购买力(能够在1998年购买10万元的车辆，目标对象甲可能是中产以上阶层，在2018年购买10万元的车辆，目标对象乙可能是中产以下阶层)。也就是说，目标对象甲在1998年的客户价值明显高于目标对象乙在2018年的客户价值。因此，在通过动态交易信息评价目标对象甲和目标对象乙的客户价值时，不能静态考虑历史价格，也要考虑到以同一价格在不同时间节点购买同类商品所表现的价值差异程度。

所述历史系数即用于表示这种以同一价格在不同时间节点购买同类商品所表现的价值差异程度。示例性的，目标对象甲在1998年(间隔20年)消费10万元购买一辆车，假设对应的历史系数为5，则相当于预估所述目标对象甲在2018年的标签系数高于所述目标对象乙在2018年的客户价值，且是目标对象乙的客户价值的5倍。

所述历史系数可以通过行业市场数据调研得到，也可以通过历年样本数据通过机器学习算法得到的。

方案一：通过各系列各市场大量的数据调研分析得到相应的年份和历史系数之间关联关系。

方案二：通过机器学习算法训练得出各类产品数据中年份与历史系数之间的关系模型：

步骤(1)，获取多个样本对象的多个数据集，每个样本对象对应一数据集，所述数据集有该样本对象的多条样本对象记录构成，每条样本对象记录对应有预设多个字段的字段数据，如每条样本对象记录可以包括该样本对象在某个时间购买的产品系列、产品类型、产品价格、样本对象年收入等数据；

步骤(2)，基于所述多个数据集对机器学习算法进行训练，以得出年份和历史系数之间的关系模型。

1)车险系列的历史系数规则：

根据车险历年样本数据中的样本对象车型、厂牌、购买价格、购买年份、样本对象年收入等因子通过机器学习算法进行训练，得出车险系列年份与历史系数的关系模型。

示例性的：

a，抽取2015、2016、2017年车险接触样本数据各100000条，取出样本对象车辆价格、厂牌、车型、年份，以及已知的样本对象年收入，对样本数据进行归一化及向量化处理以得到与样本数据对应的样本对象特征数据；

b，根据样本对象年收入反向推算样本对象的车辆资产与样本对象年收入的系数关系，从而分析计算出各年的平均历史系数，如：得出2015年系数1.7067、2016年系数1.5686、2017年系数1.4094；

c，根据样本对象特征数据及各年的平均历史系数，对logistic回归模型进行训练，以得到出车险产品数据中年份与历史系数之间的系数模型。

2)寿险系列的历史系数规则：

根据寿险历年样本数据中的样本对象年龄、购买的保险产品、保费金额、购买年份、购买年限、保额、样本对象年收入等因子通过机器学习算法进行训练，得出寿险系列年份与历史系数的关系模型。

3)贷款系列的历史系数规则：

根据贷款系统历年样本数据中样本对象贷款产品、贷款金额、贷款周期、贷款年份、预授信金额、样本对象年收入等因子通过机器学习算法进行训练，得出贷款系列年份与历史系数的关系模型。

4)投资系列的历史系数规则：

根据投资系列历年样本数据中的样本对象购买投资理财产品、产品金额、产品周期、产品收益、样本对象年收入等因子通过机器学习算法进行训练，得出投资系列年份与历史系数的关系模型。

在示例性的实施例中，历史系数跟年份有关，通过时间序列模型来建立历史系数因子模型。具体如下：可以按照产品数据类别(产险类别、寿险类别、贷款类别、投资类别)分别通过ARIMA、LSTM、随机森林等模型进行训练，分析出不同类别适配的模型算法。对单个样本对象多资产类别的情况，通过多种算法模型分别对不同类别进行建模，再通过模型融合，最终建立年份与历史系数的关系模型。

以下为ARIMA时间序列算法建立年份与历史系数的关系模型。

为了增加预测精准度，将BP算法与ARIMA结合，应用Adam学习方式，利用其误差反向传播算法的优势，得到的预测值会更精确稳定。

示例性的，预先获取所述各个历史年限对应的历史系数，包括：

步骤(1)，获取样本数据集，并根据获取的样本数据集构建时间系列；

步骤(2)，根据所述时间序列数据生成时间序列数据绘图；

步骤(3)，根所述时间序列数据绘图判断所述时间序列是否为平稳时间序列，如果否，则对所述时间序列绘图进行数据处理操作，以将所述时间系列转换为平稳时间序列；

示例性的，可以通过观测数据的均值、方差、自协方差，将不平稳的时间序列进行多项过滤法和d阶差分算法处理，转化为平稳时间序列；

步骤(4)，根据所述平稳时间序列计算相关系数ACF以及偏自相关系数PACF，通过相关系数ACF、偏自相关系数PACF进行自回归移动平均模型ARIMA(p，d，q)的p、q参数估计，其中，d代表差分次数，p代表自回归阶数，q代表移动平均阶数；

步骤(5)，将所述平稳时间序列的一阶差分化作为输入y_t＝Y_t-Y_t-1，输出ACF图和PACF图，得到ACF第一次穿过上置信区间时的横轴值，以及PACF第一次穿过上置信区间的横轴值，分别对应一阶差分下的p、q的预估值，其中，y_t表示t时刻Y_t的差分；

步骤(6)，根据得到参数估计值p、d、q生成ARIMA(p，d，q)，并通过调整不同的参数组合得到ARIMA模型，

其中μ表示白噪声序列，

表示AR的系数，θ∈[-1，1]是一个斜率系数，y_t-1表示上一时刻预测值，e_t-1表示上一时刻差分值；

示例性的，可以通过调整不同的参数组合，分别观察模型结果中输入值、拟合值、RSS累计平方误差；调整参数组合的机器学习过程中结合BP算法Adam学习方式，通过误差均方差函数下降梯度，提升学习速度和收敛速度加快，减低过拟合情况的出现概率，快速选择出拟合度最合适的参数组合；

步骤(7)，将样本数据集输入ARIMA模型，通过ARIMA模型输出资产评估价值；

示例性的，可以通过判断残差序列是否为白噪声序列，对ARIMA模型进行验证操作；

步骤(8)，根据资产评估价值与资产购置价值之间的比值，得到相应的历史系数。

在示例性的实施例中，以车险为例，车险属于更新换代频率快速，车辆价格年年变化，采用自回归模型描述当前值与历史值之间的关系的模型，用变量自身的历史时间数据对自身进行预测。自回归模型首先需要确定一个阶数p，表示用几期的历史值来预测当前值。p阶自回归模型的公式定义为：公式中yt是当前值，μ是常数项，p是阶数，γ_i是自相关系数，ε_t是误差。根据车险业务场景特点，超过8年的数据可参考性比较低，因此产险取最近八年的样本数据。抽取2011年～2019年的样本数据做模型训练，输入预测年份、年份当前车辆价值、上年车辆价值，经过样本训练拟合得到模型阶数p值，相关的系数γ_i，常数项μ，误差ε_t，最后输出车险系列资产价值y_{车险资产价值}。

因此，所述预先获取所述各个历史年限对应的历史系数的步骤包括：

步骤(1)，根据预先确定的第一产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

步骤(2)，将所述有效样本数据集中各个预测年份、年份当前车辆价值和上年度车辆价值输入到p阶自回归模型公式

对所述p阶自回归模型进行训练以输出各个年份对应的车险系列资产价值y_{车险资产价值}。

在示例性的实施例中，以寿险为例，寿险的业务特点跟产险完全不同，寿险产品种类多，保单期限很长，一般一张保单就对应20年，一个样本对象一种产品可能一辈子就购买一次，每年缴费，业务保费变化相对平缓的，可以购买寿险产品的，保费能够在一定比例上体现了样本对象资产，采用移动平均模型可以有效消除预测中的随机波动，q阶移动平均模型公式如下：

公式中y_t是当前值，μ是常数项，q是阶数，ε_t是误差，θ_i是误差项系数，输入产品名称、保费金额、年份，经过样本数据训练拟合得到q值，最后输出寿险资产价值y_{寿险资产价值}。

步骤(1)，根据预先确定的第二产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

步骤(2)，将所述有效样本数据集中各个预测年份、保费金额、产品名称输入到q阶移动平均模型公式

在示例性的实施例中，以投资为例，投资系列寿险系列业务特点有相似之处，产品种类多，都是体现样本对象资产的自由购买力方面的价值，订单期限也属于中长型；不同之处是投资产品的期限大部分在5年左右，投资金额更直接的体现样本对象资产，因此采用跟寿险相同的模型算法移动平均模型MA算法

输入信托或证券产品、投资金额、投资时间，经过样本数据训练拟合得到q值，最后输出投资资产价值y_{投资资产价值}。

步骤(1)，根据预先确定的第三产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

步骤(2)，将所述有效样本数据集中各个信托或证券产品、投资金额和投资时间输入到q阶移动平均模型公式对所述q阶移动平均模型进行训练输出各个年份对应的投资资产价值y_{投资资产价值}；

在示例性的实施例中，以贷款为例，贷款系列的业务特点比较特殊，体现在贷款订单的金额并不是直接体现样本对象资产或者样本对象的购买力，他反而体现的是样本对象的负债，并且贷款的多少无法直接体现样本对象资产价值的高低，不一定贷款多的就是收入少的低价值样本对象，贷款少的就收入高的，反而有些高价值样本对象有大投资应用需要贷款，这类样本对象其实可能是高净值样本对象群，因此判断的误差会产生比较大的波动，采用自回归移动平均模型算法

结合自回归模型和平均移动模型的特点，结合历史贷款关系，加上误差分析，准确判断贷款金额与标签系数的对应关系，输入贷款金额、贷款年限、还款进度，经过样本数据训练拟合得到p、q值，最后输出贷款资产价值y_{贷款资产价值}。

所述预先获取所述各个历史年限对应的历史系数的步骤包括：

步骤(1)，根据预先确定的第四产品类别，确定有效样本数据集，所述有效样本数据集为以当前时间为节点的N年以内的样本数据；

步骤(2)，将所述有效样本数据集中各个贷款金额、贷款年限、还款进度输入到自回归移动平均模型公式对所述自回归移动平均模型进行训练以输出各个年份对应的贷款资产价值y_{贷款资产价值}；

在示例性的实施例中，历史系数可以通过如下公式计算得到：

步骤S104，将所述多个目标产品信息以及每个目标产品信息关联的历史系数输入到画像模型中，通过所述画像模型得到所述目标对象的预设标签的标签系数。

标签系数，可以是客户价值的价值系数。客户价值的价值系数，是指目标对象在整个目标对象生命周期中，与企业的保险交易行为给企业带来的净利润或亏损。换而言之，目标对象终身价值是指目标对象在整个目标对象生命周期中为了享受企业提供的保险产品和保险业务服务而回报给企业的总和。本质上，标签系数具体可以是目标对象在未来可能为企业带来的收益总和。

所述画像模型包括逻辑回归模型，具体的：

Value表示目标对象的预设标签的标签系数；W_k为历史系数；X为目标产品信息，如业务系列、产品类型、产品价格、年份等。

即，根据业务系列不同、年份不同根据历史系数评估当时的实际价值，而不是简单的拿目标对象的产品价格、收入直接计算。相同产品价格随着产品系列不同、购买年份不同体现的价值也不同。

具体的，所述目标对象类别包括第一目标对象类别(高价值目标对象类别)、第二目标对象类别(中高等价值目标对象类别)、...第n目标对象类别(低价值目标对象类别)。

不难理解，当所述目标对象的目标对象类别被确定之后，可根据该目标对象类别指定相应的产品推送策略。

步骤S106，根据所述标签系数确定所述目标对象的目标对象类别，根据所述目标对象类别向所述目标对象推送产品数据。

所述标签系数包括预设标签的评估数值，如目标对象的价值大小。

所述产品推送步骤可以包括步骤(1)～(3)：

(1)，将所述目标对象的目标对象类别以及所述目标对象的静态信息输入到迭代决策树模型，通过所述迭代决策树模型输出组合特征，其中，所述静态信息为变动频率低于预设阈值的个体信息；

迭代决策树模型可以为GBDT(Gradient Boosting Decision Tree，梯度提升决策树)模型，其基于一种迭代的决策树算法，该决策树算法由多棵决策树组成，具体结构为：每一颗树拟合前K棵树的残差，及每一棵树都依赖前一棵树的结果，因此，决策树之间需要保证一定的顺序。这样，通过GBDT模型中的多棵决策树对所述多个样本数据集进行决策分类，从而可以找出所述多个样本数据集中各个特征之间的关联关系，并将具有关联关系的特征进行组合，得到组合特征。

每棵决策树包括根节点、中间节点和叶子节点。根节点和每个中间节点都有对应一个特征项(如年龄)和特征值(如年龄30岁)，如果目标对象的年龄大于30岁，则将该样本分配到该节点的右子节点，否则分到左子节点，下层节点同理，直至该样本落到某叶子节点。根据该样本落在各个决策树上的叶子节点，得到该样本对应的组合特征。

(2)，将所述组合特征输入到产品数据推送模型，以通过所述产品数据推送模型输出与各个待推送产品种类标签的置信度；

所述产品数据推送模型为经过训练的深度神经网络模型。

(3)，通过与各个待推送产品种类标签的置信度，向所述目标对象推送相应的目标产品数据。

进一步的，

(1)预先获取多个样本对象的多个样本数据集，每个样本数据集中包括对应样本对象与多个特征项对应的多个样本特征数据，所述多个样本特征数据包括标签系数、年龄、地址、职业等；

(2)将每个样本数据集中的多个样本特征数据填充到对应的多个字段中，所述多个样本数据集中对应的多个样本特征数据可以构成N个特征列；

在示例性的实施例中，该步骤进一步包括：

将所述多个样本数据集分为数据齐全的第一组样本数据集和数据不齐全的第二组样本数据集；选择第一组样本数据集中的多个样本数据集中的一个或多个多个样本特征数据填充到第二组样本数据集中的空白特征所对应的字段位置处；示例性的，通过所述第一组样本数集中各个样本构建KD树，并将第二组样本数据集中的各个样本对应的样本特征数据输入到最近邻搜索(KD_tree，K-dimension tree)模型中，通过所述KD_tree模型查找到与第二组样本数据集中的各个样本最邻近的目标样本，将该目标样本中与空白特征对应的目标数据填充到相应的字段位置处。该步骤在于确保每个样本特征数据的完整性，以提高训练效果。

(3)对每个特征项对应的特征列进行分析，得到每个特征项的信息值。信息值用于表示相应特征在产品数据推送模型中的预测准确度的影响程度；

(4)将每个样本数据集中的多个特征项对应的多个样本特征输入到迭代决策树模型中，以通过所述迭代决策树模型输出对应于所述多个样本数据集的多个特征组合；

进一步的，所述迭代决策树模型由多个决策树组成，其中，第一颗决策树的根节点为标签系数，后续非叶子节点根据信息值进行配置，比如将信息值最高的特征项配置为与根节点紧邻的非叶子节点。

(5)根据所述多个特征组合对产品数据推送模型进行训练，以得到训练后的产品数据推送模型，所述产品数据推送模型为深度网络神经模型。

不难理解，将决策迭代树的节点设置为标签系数及各个特征项的信息值结合，来输出特征组合，进而训练产品数据推送模型，从而得到更加侧重历史系数的产品数据推送模型，从而进一步提高产品数据推送模型的推送精确度和效率。

实施例二

请继续参阅图2，示出了本发明基于大数据的产品数据推送系统实施例二的程序模块示意图。在本实施例中，产品数据推送系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述产品数据推送方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述产品数据推送系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

第一获取模块200，用于获取目标对象的对象信息，所述对象信息动态交易信息，所述动态交易信息包括多个目标产品的多个目标产品信息，每个目标产品信息包括对应目标产品的产品购置时间节点。

第二获取模块202，用于根据每个目标产品信息中的产品购置时间节点，从映射表中获取每个目标产品信息关联的历史系数，所述映射表包括各个历史年限所对应的历史系数。

评估模块204，用于将所述多个目标产品信息以及每个目标产品信息关联的历史系数输入到画像模型中，通过所述画像模型得到所述目标对象的预设标签的标签系数。

推送模块206，用于根据所述标签系数确定所述目标对象的目标对象类别，根据所述目标对象类别向所述目标对象推送产品数据。

在示例性的实施例中，还包括训练模块208，用于：预先获取所述各个历史年限对应的历史系数：

获取样本数据集，并根据获取的样本数据集构建时间系列；

根据所述时间序列数据生成时间序列数据绘图；

根据得到参数估计值p、d、q生成ARIMA(p，d，q)，并通过调整不同的参数组合得到ARIMA模型，

其中μ表示白噪声序列，

在示例性的实施例中，所述训练模块208，还用于：

在示例性的实施例中，所述训练模块208，还用于：

在示例性的实施例中，所述训练模块208，还用于：

将所述有效样本数据集中各个信托或证券产品、投资金额和投资时间输入到q阶移动平均模型公式对所述q阶移动平均模型进行训练输出各个年份对应的投资资产价值y_{投资资产价值}；

在示例性的实施例中，所述训练模块208，还用于：

在示例性的实施例中，所述标签系数包括预设标签的评估数值；所述推送模块206，还用于：

其中，所述迭代决策树模型由多个决策树组成，其中，第一颗决策树的根节点为标签系数，后续非叶子节点根据信息值的大小进行配置

实施例三

参阅图3，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及产品数据推送系统20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的产品数据推送系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行产品数据推送系统20，以实现实施例一的产品数据推送方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图3仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述产品数据推送系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图2示出了所述实现产品数据推送系统20实施例二的程序模块示意图，该实施例中，所述基于产品数据推送系统20可以被划分为第一获取模块200、第二获取模块202、评估模块204、推送模块206和训练模块208。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述产品数据推送系统20在所述计算机设备2中的执行过程。所述程序模块200-208的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储产品数据推送系统20，被处理器执行时实现实施例一的产品数据推送方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于大数据的产品数据推送方法，其特征在于，所述方法包括：

2.根据权利要求1所述的产品数据推送方法，其特征在于，还包括预先获取所述各个历史年限对应的历史系数：

获取样本数据集，并根据获取的样本数据集构建时间系列；

根据所述时间序列数据生成时间序列数据绘图；

其中μ表示白噪声序列，

表示AR的系数，θ∈[-1,1]是一个斜率系数，y_t-1表示上一时刻预测值，e_t-1表示上一时刻差分值；

3.根据权利要求2所述的产品数据推送方法，其特征在于，所述预先获取所述各个历史年限对应的历史系数的步骤包括：

将所述有效样本数据集中各个预测年份、年份当前车辆价值和上年度车辆价值输入到p阶自回归模型公式对所述p阶自回归模型进行训练以输出各个年份对应的车险系列资产价值y_{车险资产价值}；

4.根据权利要求2所述的产品数据推送方法，其特征在于，所述预先获取所述各个历史年限对应的历史系数的步骤包括：

5.根据权利要求2所述的产品数据推送方法，其特征在于，所述预先获取所述各个历史年限对应的历史系数的步骤包括：

6.根据权利要求2所述的产品数据推送方法，其特征在于，所述预先获取所述各个历史年限对应的历史系数的步骤包括：

7.根据权利要求1所述的产品数据推送方法，其特征在于，所述标签系数包括预设标签的评估数值；根据所述标签系数确定所述目标对象的目标对象类别，根据所述目标对象类别向所述目标对象推送产品数据，包括：

其中，所述迭代决策树模型由多个决策树组成，其中，第一颗决策树的根节点为标签系数，后续非叶子节点根据信息值的大小进行配置。

8.一种基于大数据的产品数据推送系统，其特征在于，包括：

9.一种计算机设备，所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的产品数据推送方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1至7中任一项所述的产品数据推送方法的步骤。