CN110688553A

CN110688553A - 基于数据分析的信息推送方法、装置、计算机设备及存储介质

Info

Publication number: CN110688553A
Application number: CN201910745385.7A
Authority: CN
Inventors: 卢显锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2020-01-14
Anticipated expiration: 2039-08-13
Also published as: WO2021027362A1; CN110688553B

Abstract

本发明实施例公开了一种基于数据分析的信息推送方法、装置、计算机设备及存储介质。本发明应用于智能决策中的预测模型领域。所述方法包括：通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。通过实施本发明实施例的方法可实现提高挖掘潜在的投保用户的准确度，有效地进行广告推送，降低企业获取用户信息的成本。

Description

基于数据分析的信息推送方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于数据分析的信息推送方法、装置、计算机设备及存储介质。

背景技术

随着科技与经济的发展，人们生活水平的日益改善，人们对生活品质的追求越来越高。汽车逐渐成为了人们生活中不可或缺的一部分，汽车保险也同样为汽车和人们的生活提供保障。现有的汽车保险客户通常是通过4S店或者汽车保养店等渠道来了解汽车保险信息进而购买汽车保险的。然而这种获取客户来源的方式比较单一，且通常都是汽车保险的刚需客户，无法获取潜在客户的信息。对于部分网上有投保意愿的客户，通常根据用户的浏览记录来进行挖掘，然而这种挖掘方式的准确度低，成本高，难以辨别出真实有效的潜在用户。

发明内容

本发明实施例提供了一种基于数据分析的信息推送方法、装置、计算机设备及存储介质，旨在解决对于网上有投保意愿的客户挖掘的准确度低的问题。

第一方面，本发明实施例提供了一种基于数据分析的信息推送方法，其包括：通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

第二方面，本发明实施例还提供了一种基于数据分析的信息推送装置，其包括：爬虫单元，用于通过网络爬虫的方式采集用户的行为数据；特征工程单元，用于通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；预测单元，用于将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；推送单元，用于根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序令当被处理器执行时可实现上述方法。

本发明实施例提供了一种基于数据分析的信息推送方法、装置、计算机设备及存储介质。其中，所述方法包括：通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。本发明实施例通过采集用户的行为数据并通过特征工程处理方式对数据进行处理，进而通过潜在用户挖掘模型对行为数据进行预测以挖掘潜在用户，从而对潜在用户进行广告推送，可实现提高挖掘潜在的投保用户的准确度，有效地进行广告推送，降低企业获取用户信息的成本的效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于数据分析的信息推送方法的应用场景示意图；

图2为本发明实施例提供的基于数据分析的信息推送方法的流程示意图；

图3为本发明实施例提供的基于数据分析的信息推送方法的子流程示意图；

图4为本发明实施例提供的基于数据分析的信息推送方法的子流程示意图；

图5为本发明实施例提供的基于数据分析的信息推送方法的子流程示意图；

图6为本发明另一实施例提供的基于数据分析的信息推送方法的流程示意图；

图7为本发明实施例提供的基于数据分析的信息推送装置的示意性框图；

图8为本发明实施例提供的基于数据分析的信息推送装置的具体单元的示意性框图；

图9为本发明另一实施例提供的基于数据分析的信息推送装置的示意性框图；以及

图10为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的基于数据分析的信息推送方法的应用场景示意图。图2为本发明实施例提供的基于数据分析的信息推送方法的示意性流程图。该潜在用户挖掘应用于终端10中，通过终端10与服务器20之间的交互实现。

图2是本发明实施例提供的基于数据分析的信息推送方法的流程示意图。如图所示，该方法包括以下步骤S110-S140。

S110、通过网络爬虫的方式采集用户的行为数据。

在一实施例中，用户的行为数据指的是用户在网络上做出一些行为并由网络记录该行为的数据，例如，用户在淘宝网上搜索交强险。网络爬虫是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。具体地，首先选取部分特定的网页作为起始页，通过网络爬虫的方式从起始页开始爬取网页，爬取结束后对所爬取到的大量网页进行筛选得到目标网页，目标网页是用户会浏览的网页，最后再从目标网页的预设数据库中获取用户浏览目标网页的行为数据。

在一实施例中，如图3所示，所述步骤S110可包括步骤：S111-S113。

S111、通过网络爬虫的方式爬取预设网页。

具体地，网络爬虫指的是一种按照一定的规则，自动地抓取万维网信息的程序，其主要包括采集、存储以及处理三个部分。具体地，首先选择具有代表性的网页的URL作为初始URL开始从服务器中抓取数据，预设网页即为具有代表性的网页，该初始URL是从客户的角度出发，通常客户会通过搜索引擎来搜索汽车保险信息，因此，例如可将百度上搜索交强险的结果页面作为初始URL，也可将淘宝上搜索交强险的结果页面作为初始URL；然后将抓取到的网页存储后进行解析过滤，所抓取到的初始URL中包含有新的URL，解析初始URL对新的URL进行过滤选取与保险相关的URL，例如，关于保险的FAQ常见问题的URL放入等待抓取的URL队列中，其余不相关的URL放弃；最后在待抓取的URL队列中选择下一步要抓取的网页URL，并重复上述过程，直到遍历整个网络时停止。

S112、根据预设网页指数对所爬取的网页进行筛选得到目标网页。

具体地，由于所爬取到的网页中包含大量没有价值的网页，因此需要对所爬取的网页进行进一步地筛选，选取部分有价值的网页作为目标网页，即用户很可能会去浏览的网页，根据预设网页指数对所爬取的网页进行评估筛选得到目标网页。其中，预设网页指数指的是以各大搜索引擎海量网民搜索浏览行为数据为基础的数据分享平台提供的网页指数，网页指数具体是根据网站的浏览数据(浏览量、浏览时长、浏览次数)进行一系列的评估得到的数值，例如，A保险公司的官网，其网页指数为89。获取所爬取的网页的预设网页指数，根据预设网页指数对所爬取的网页进行按照由高到低进行排序，选取排名在前十位的网页作为目标网页，当然可以理解的是，还可以选择其他数量的网页作为目标网页。

S113、根据所述目标网页从预设数据库中获取用户的行为数据。

具体地，预设数据库指的是存储目标网页的数据库，该预设数据库存储与目标网页相关的所有数据。具体地，在筛选得到目标网页后，根据目标网页的URL调用该目标网页的接口，该接口是经目标网页运营方同意后所提供的，通过调用目标网页的接口从预设数据库中获取该目标网页的网页日志，在获取到网页日志后对所获取的网页日志进行解析最终得到用户的行为数据，其中，用户的行为数据包括：用户信息、用户的浏览记录以及用户IP地址等。

S120、通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据。

在一实施例中，特征工程指的是将原始数据转变为模型的目标数据的过程，常用的特征工程方法包括：时间戳处理、分解类别属性、分箱/分区、交叉特征、特征选择、特征缩放以及特征提取。行为数据主要分为两类，一类是数值型的行为数据，例如为车龄、浏览时长以及年收入等，另一类是非数值型的行为数据，例如为收藏、评论、关注以及加入购物车等。具体地，通过分解类别属性的方式将非数值型的行为数据转化为可供模型输入的目标数据，通过特征缩放的方式将数值型的行为数据转化为可供模型输入的目标数据。

在一实施例中，如图4所示，所述步骤S120可包括步骤：S121-S122。

S121、对非数值型的所述行为数据进行独热编码得到目标数据。

具体地，对于非数值型的特征采用分解类别的方式进行特征工程，分解类别属性的方式具体是通过独热编码即one-hot编码的方式对行为数据进行编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如，性别的属性包括男和女，经过独热编码可得到“男”的目标数据为[1,0]，“女”的目标数据为[0,1]，又例如，用户是否收藏该网页，经过独热编码可得到“收藏”的目标数据为[1,0]，“未收藏”的目标数据为[0,1]。

S122、对数值型的所述行为数据根据预设公式进行归一化得到目标数据。

具体地，对于数值型的特征采用特征缩放的方式进行特征工程，由于部分数值型的特征比其他特征拥有高得多的跨度值，例如，年收入和年龄，因此为了避免某些特征与其他特征的大小相差非常悬殊，需要将特征值缩放到相同的范围值内。具体地，采用预设公式来对数值型的目标数据进行归一化，预设公式具体如下：

X′＝(X-minX)/(maxX-minX)

其中，X′为归一化特征值，X为当前用户特征参数，minX为当前用户特征的最小参数，maxX为当前用户特征的最大参数。例如，年收入的最大值为500000，年收入的最小值为60000，当前用户的年收入为100000，那么经过归一化后得到区间在0至1之间的归一化特征值0.09。

S130、将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性。

在一实施例中，潜在用户挖掘模型具体采用梯度提升决策树算法(GradientBoosting Decision Tree)进行构建，梯度提升决策树是一种组合决策树算法，其主要是通过多棵决策树串行在一起，下一棵决策树学习使用上一课决策树的残差，残差由梯度求得，所有的决策树组合在一起即为梯度提升决策树。例如，预测潜在用户，其中特征包括：用户年龄以及用户年收入，A、B、C、D用户的年龄分别为18、26、36以及41，年收入分别为0、30万、10万以及50万，首先第一棵决策树根据年龄标签(以30岁为基准))将用户AB划分到30岁以下一类，将CD划分到30岁以上一类，对ABCD为潜在用户的预测值分别为0.1，0.3，0.6以及0.8，AB类的残差为AB的预测值的平均值与预测值之间的差，因此AB的预测值的平均值为0.2，AB的残差分别为-0.1和0.1；而CD的预测值的平均值为0.7，CD残差分别为-0.1和0.1，那么下一棵决策根据上一棵决策树的残差进行预测，根据年收入标签(以15万为基准)将AC划分到15万以下，BD划分到15万以上，下一棵决策树根据上一棵决策树的残差进行求解，下一颗决策树求得AC的残值均为0，即(-0.1+0.1)/2＝0，BC的残值也均为0，最终所有用户的残差均为0，从而得到ABCD的最终预测值分别为0，0.4，0.5以及0.9，最终预测值是预测值与残差的和。其预测的核心就在于每一棵树学的是之前所有树结论和的残差。潜在用户挖掘模型已预先训练好，通过Spark平台运行该潜在用户挖掘模型对目标数据进行预测，Spark是专为大规模数据处理而设计的快速通用的计算引擎，Spark平台包括算法组件SparkMLlib(Machine Learning Library，机器学习库)，Spark MLlib包括算法库，算法库内设有梯度提升决策树算法，通过Spark MLlib为梯度提升决策树算法提供算法接口，以对目标数据进行预测。

在一实施例中，如图5所示，所述步骤S130可包括步骤：S131-S132。

S131、根据所述目标数据构建目标样本。

具体地，目标样本指的是由目标数据和标签(label)构成的可供模型输入的样本，其中，目标样本分为正样本以及负样本，正样本的标签值为1，负样本的标签值为0。正样本例如为年收入大于等于10万，负样本例如为没有购买车，若客户的年收入为10万那么该目标样本为(0.09，1)，其中，0.09为特征值，1为标签值；若客户没有购买车那么该目标样本为(0，0)。

S132、将所述目标样本输入至梯度提升决策树模型中进行迭代更新输出潜在用户的预测值。

具体地，潜在用户挖掘模型采用的是梯度提升决策树算法，梯度提升决策树算法是通过多轮的迭代，每轮迭代得到一棵决策树，每轮的决策树在上一轮决策树的损失函数基础上拟合得到，最后将所有决策树的结论累加起来得到预测值。具体地，梯度提升决策树算法的公式如下：

F_m(x)＝F_m-1(x)+T(x；θ_m)

L[y,F(x)]＝[y-F(x)]²

其中，F_M(x)表示模型，T(x；θ_m)表示决策树，θ_m为决策树参数，m为决策树个数，L为损失函数，x为样本特征，y为样本标签，样本特征和样本标签组成目标样本，标签值为0或1，i为样本数量，T采用CART决策树，CART决策树是一种典型的二叉决策树，可以进行分类或者回归。具体地，首先初始化决策树即令F₀(x)＝0，然后根据目标样本计算损失函数，接着根据损失函数更新模型，继续迭代模型直到迭代结束从而得到最终模型，最后将模型中的每棵决策树的预测值进行求和平均得到潜在用户的预测值。

S140、根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

在一实施例中，在得到潜在用户的预测值后，将潜在用户的预测值与预设阈值进行比较，若潜在用户的预测值大于预设阈值，则确定该用户为潜在用户；若潜在用户的预测值小于预设阈值，则确定该用户为非潜在用户。例如，预设阈值为0.6，潜在用户的预测值为0.8，那么该用户的预测值大于预设阈值确定该用户为潜在用户。在得到潜在用户后，对该部分潜在用户推送广告，所推送的广告可以是投保信息、汽车保险产品信息以及投保链接等。具体地，将潜在用户名单以及广告链接发送至目标网页的运营方，由运营方根据用户的IP地址在潜在用户登录浏览网页时将广告链接进行推送。

在一实施例中，如图6所示，所述步骤S140之后，还包括步骤：S150-S160。

S150、获取所述广告推送的反馈结果。

在一实施了中，反馈结果指的是潜在用户是否打开了目标网页所推送的广告链接，若用户打开了目标网页所推送的广告链接则为正反馈；若用户未打开目标网页所推送的广告链接则为负反馈。具体地，反馈结果从目标网页中获取，反馈结果以网页日志的形式保存在目标网页运营方的预设数据库中，因此调用接口从目标网页的预设数据库中获取并解析得到网页日志，然后通过正则表达式设置所推送广告链接的URL作为规则字符串，从网页日志中筛选出浏览该广告链接的浏览记录，该浏览记录即为反馈结果。

S160、根据所述反馈结果通过邮件对所述潜在用户挖掘模型提示优化。

在一实施了中，用户挖掘模型是否需要进行优化主要通过转化率来进行判断，转化率指的是浏览了所推送的广告链接的潜在用户数量对所有潜在用户数量的占比，浏览了所推送的广告链接的潜在用户数量越多，转化率就越高。具体地，将实际转化率与期望转化率进行对比，若实际转化率大于期望转化率，说明该潜在用户挖掘模型的转化效果好，不需要对模型进行优化；若实际转化率小于期望转化率，说明该潜在用户挖掘模型的转化效果差，需要对模型进行优化。根据反馈结果生成提示邮件，将提示邮件发送至模型管理人员的邮件地址中，提示模型需要进行优化。

本发明实施例展示了一种基于数据分析的信息推送方法，通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送，可以挖掘潜在的投保用户，有效地进行广告推送，降低企业获取用户信息的成本。

图7是本发明实施例提供的一种基于数据分析的信息推送装置200的示意性框图。如图7所示，对应于以上基于数据分析的信息推送方法，本发明还提供一种基于数据分析的信息推送装置200。该基于数据分析的信息推送装置200包括用于执行上述基于数据分析的信息推送方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图7，该基于数据分析的信息推送装置200包括：爬虫单元210、特征工程单元220、预测单元230以及推送单元240。

爬虫单元210，用于通过网络爬虫的方式采集用户的行为数据。

在一实施例中，用户的行为数据指的是用户在网络上做出一些行为并由网络记录该行为的数据，例如，用户在淘宝网上搜索交强险。网络爬虫是是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。具体地，首先选取部分特定的网页作为起始页，通过网络爬虫的方式从起始页开始爬取网页，爬取结束后对所爬取到的大量网页进行筛选得到目标网页，目标网页是用户会浏览的网页，最后再从目标网页的预设数据库中获取用户浏览目标网页的行为数据。

在一实施例中，如图8所示，所述爬虫单元210包括：爬虫子单元211、筛选单元212以及获取子单元213。

爬虫子单元211，用于通过网络爬虫的方式爬取预设网页。

筛选单元212，用于根据预设网页指数对所爬取的网页进行筛选得到目标网页。

具体地，由于所爬取到的网页中包含大量没有价值的网页，因此需要对所爬取的网页进行进一步地筛选，选取部分有价值的网页作为目标网页，即用户很可能会去浏览的网页，根据预设网页指数对所爬取的网页进行评估筛选得到目标网页。其中，预设网页指数指的是以各大搜索引擎海量网民搜索行为数据为基础的数据分享平台提供的网页指数。获取所爬取的网页的预设网页指数，根据预设网页指数对所爬去的网页进行按照由高到低进行排序，选取排名在前十位的网页作为目标网页，当然可以理解的是，还可以选择其他数量的网页作为目标网页。

获取子单元213，用于根据所述目标网页从预设数据库中获取用户的行为数据。

特征工程单元220，用于通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据。

在一实施例中，如图8所示，所述特征工程单元220包括：编码单元221以及归一化单元222。

编码单元221，用于对非数值型的所述行为数据进行独热编码得到目标数据。

归一化单元222，用于对数值型的所述行为数据根据预设公式进行归一化得到目标数据。

X′＝(X-minX)/(maxX-minX)

预测单元230，用于将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性。

在一实施例中，潜在用户挖掘模型具体采用梯度提升决策树算法(GradientBoosting Decision Tree)进行构建，梯度提升决策树是一种组合决策树算法，其主要是通过多棵决策树串行在一起，下一棵决策树学习使用上一课决策树的残差，残差由梯度求得，所有的决策树组合在一起即为梯度提升决策树。例如，预测潜在用户，其中特征包括：用户年龄以及用户年收入，A、B、C、D用户的年龄分别为18、26、36以及41，年收入分别为0、30万、10万以及50万，首先第一棵决策树根据年龄标签(以30岁为基准))将用户AB划分到30岁以下一类，将CD划分到30岁以上一类，对ABCD为潜在用户的预测值分别为0.1，0.3，0.6以及0.8，AB类的残差为AB的预测值的平均值与预测值之间的差，因此AB的预测值的平均值为0.2，AB的残差分别为-0.1和0.1；而CD的预测值的平均值为0.7，CD残差分别为-0.1和0.1，那么下一棵决策根据上一棵决策树的残差进行预测，根据年收入标签(以15万为基准)将AC划分到15万以下，BD划分到15万以上，下一棵决策树根据上一棵决策树的残差进行求解，下一颗决策树求得AC的残值均为0，即(-0.1+0.1)/2＝0，BC的残值也均为0，最终所有用户的残差均为0，从而得到ABCD的最终预测值分别为0，0.4，0.5以及0.9，最终预测值是预测值与残差的和。其预测的核心就在于每一棵树学的是之前所有树结论和的残差。该潜在用户挖掘模型已预先训练好，通过Spark平台运行该潜在用户挖掘模型对目标数据进行预测，Spark是专为大规模数据处理而设计的快速通用的计算引擎，Spark平台包括算法组件Spark MLlib(Machine Learning Library，机器学习库)，Spark MLlib包括算法库，算法库内设有梯度提升决策树算法，通过Spark MLlib为梯度提升决策树算法提供算法接口，以对目标数据进行预测。

在一实施例中，如图8所示，所述特征工程单元220包括：构建单元231以及预测子单元232。

构建单元231，用于根据所述目标数据构建目标样本。

具体地，目标样本指的是由目标数据和标签(label)构成的可供模型输入的样本，其中，目标样本分为正样本以及负样本，正样本的标签值为1，负样本的标签值为0。正样本例如为年收入大于等于10万，负样本例如为没有购买车，若客户的年收入10万为那么该目标样本为(0.09，1)，若客户没有购买车那么该目标样本为(0，0)。

预测子单元232，用于将所述目标样本输入至梯度提升决策树模型中进行迭代更新输出潜在用户的预测值。

F_m(x)＝F_m-1(x)+T(x；θ_m)

L[y,F(x)]＝[y-F(x)]²

推送单元240，用于根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

在一实施例中，如图9所示，所述基于数据分析的信息推送装置200还包括：获取单元250以及提示单元260。

获取单元250，用于获取所述广告推送的反馈结果。

提示单元260，用于根据所述反馈结果通过邮件对所述潜在用户挖掘模型提示优化。

在一实施了中，用户挖掘模型是否需要进行优化主要通过转化率来进行判断，转化率指的是浏览了所推送的广告链接的潜在用户数量对所有潜在用户数量的占比，浏览了所推送的广告链接的潜在用户数量越多，转化率就越高。具体地，将实际转化率与期望转化率进行对比，若实际转化率大于期望转化率，说明该潜在用户挖掘模型的转化效果好，不需要对模型进行优化；若实际转化率小于期望转化率，说明该潜在用户挖掘模型的转化效果差，需要对模型进行优化。

本发明实施例展示了一种基于数据分析的信息推送装置，通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送，可以挖掘潜在的投保用户，有效地进行广告推送，降低企业获取用户信息的成本。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于数据分析的信息推送装置200和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述基于数据分析的信息推送装置可以实现为一种计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种基于数据分析的信息推送方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种基于数据分析的信息推送方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

在一实施例中，处理器502在实现所述通过网络爬虫的方式采集用户的行为数据步骤时，具体实现如下步骤：通过网络爬虫的方式爬取预设网页；根据预设网页指数对所爬取的网页进行筛选得到目标网页；根据所述目标网页从预设数据库中获取用户的行为数据。

在一实施例中，处理器502在实现所述通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据步骤时，具体实现如下步骤：对非数值型的所述行为数据进行独热编码得到目标数据；对数值型的所述行为数据根据预设公式进行归一化得到目标数据。

在一实施例中，处理器502在实现所述将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性步骤时，具体实现如下步骤：根据所述目标数据构建目标样本；将所述目标样本输入至梯度提升决策树模型中进行迭代更新输出潜在用户的预测值。

在一实施例中，处理器502在实现所述根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送步骤之后，还实现如下步骤：获取所述广告推送的反馈结果；根据所述反馈结果通过邮件对所述潜在用户挖掘模型提示优化。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：通过网络爬虫的方式采集用户的行为数据；通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

在一实施例中，所述处理器在执行所述程序指令而实现所述通过网络爬虫的方式采集用户的行为数据步骤时，具体实现如下步骤：通过网络爬虫的方式爬取预设网页；根据预设网页指数对所爬取的网页进行筛选得到目标网页；根据所述目标网页从预设数据库中获取用户的行为数据。

在一实施例中，所述处理器在执行所述程序指令而实现所述通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据步骤时，具体实现如下步骤：对非数值型的所述行为数据进行独热编码得到目标数据；对数值型的所述行为数据根据预设公式进行归一化得到目标数据。

在一实施例中，所述处理器在执行所述程序指令而实现所述将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性步骤时，具体实现如下步骤：根据所述目标数据构建目标样本；将所述目标样本输入至梯度提升决策树模型中进行迭代更新输出潜在用户的预测值。

在一实施例中，所述处理器在执行所述程序指令而实现所述根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送步骤之后，还实现如下步骤：获取所述广告推送的反馈结果；根据所述反馈结果通过邮件对所述潜在用户挖掘模型提示优化。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于数据分析的信息推送方法，其特征在于，包括：

通过网络爬虫的方式采集用户的行为数据；

通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；

将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；

根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

2.根据权利要求1所述的基于数据分析的信息推送方法，其特征在于，所述通过网络爬虫的方式采集用户的行为数据，包括：

通过网络爬虫的方式爬取预设网页；

根据预设网页指数对所爬取的网页进行筛选得到目标网页；

根据所述目标网页从预设数据库中获取用户的行为数据。

3.根据权利要求1所述的基于数据分析的信息推送方法，其特征在于，所述通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据，包括：

对非数值型的所述行为数据进行独热编码得到目标数据；

对数值型的所述行为数据根据预设公式进行归一化得到目标数据。

4.根据权利要求1所述的基于数据分析的信息推送方法，其特征在于，所述将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性，包括：

根据所述目标数据构建目标样本；

将所述目标样本输入至梯度提升决策树模型中进行迭代更新输出潜在用户的预测值。

5.根据权利要求1所述的基于数据分析的信息推送方法，其特征在于，所述根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送之后，还包括：

获取所述广告推送的反馈结果；

根据所述反馈结果通过邮件对所述潜在用户挖掘模型提示优化。

6.一种基于数据分析的信息推送装置，其特征在于，包括：

爬虫单元，用于通过网络爬虫的方式采集用户的行为数据；

特征工程单元，用于通过独热编码和归一化的方式对所述行为数据进行特征工程处理以得到目标数据；

预测单元，用于将所述目标数据输入至预先训练好的潜在用户挖掘模型中以输出潜在用户预测值，所述潜在用户预测值用于表征所述用户属于潜在用户的可能性；

推送单元，用于根据所述潜在用户预测值与预设阈值进行对比以确定潜在用户并对所述潜在用户进行信息推送。

7.根据权利要求6所述的基于数据分析的信息推送装置，其特征在于，所述特征工程单元包括：

编码单元，用于对非数值型的所述行为数据进行独热编码得到目标数据；

归一化单元，用于对数值型的所述行为数据根据预设公式进行归一化得到目标数据。

8.根据权利要求6所述的基于数据分析的信息推送装置，其特征在于，所述预测单元包括：

构建单元，用于根据所述目标数据构建目标样本；

预测子单元，用于将所述目标样本输入至梯度提升决策树模型中进行迭代更新输出潜在用户的预测值。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-5中任一项所述的方法。