CN111400567B

CN111400567B - 一种基于ai的用户数据的处理方法、装置及系统

Info

Publication number: CN111400567B
Application number: CN202010165215.4A
Authority: CN
Inventors: 顾生宝; 曹宏斌
Original assignee: Beijing Gushan Data Technology Co ltd
Current assignee: Beijing Gushan Data Technology Co ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-06-27
Anticipated expiration: 2040-03-11
Also published as: CN111400567A

Abstract

本申请公开了一种基于AI的用户数据的处理方法、装置及系统，从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。基于AI预测技术对用户进行分类，得到多类用户群体；最后再从第二数据库中获取第二服务数据以为各类用户群体提供第二服务数据。通过对用户数据进行有效的分析与利用，以第一目标数据更新第一数据库，从而扩大用户数据量。通过对用户进行分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。此外，通过流失预测模型能够对用户进行流失预测，从而针对流失的用户针对性的提供服务，进一步避免了用户流失。

Description

一种基于AI的用户数据的处理方法、装置及系统

技术领域

本申请实施例涉及计算机领域，特别涉及一种基于AI的用户数据的处理方法、装置及系统。

背景技术

随着信息技术的蓬勃发展，人工智能以及大数据等新兴技术逐渐应用到各个行业，不论是何种行业，都会存在大量的数据，对于数据的分析与处理是保证各个行业正常运作的基本环节。

不论是哪一种行业，用户数据都是核心数据，对用户数据的分析与处理是保证任何一个行业正常运转的重要环节。目前，各行各业对于用户数据并未进行一定程度上的重视，从而导致不能为用户提供其所需的服务，造成用户体验感差，进而造成用户流失的现象。

因此，如何对用户数据进行科学的分析分类，从而为合适的用户提供合适优质服务，提升用户体验感，从而避免造成用户流失是本领域技术人员需要解决的技术问题。

发明内容

本申请实施例的目的在于提供一种基于AI的用户数据的处理方法、装置及系统，能够对用户数据进行分析分类，从而为用户提供合适优质服务，提升了用户体验感，避免了用户流失。

为实现上述目的，本申请实施例提供了如下技术方案：

第一，本申请实施例提供了一种基于AI的用户数据的处理方法，包括：

以预定义规则获取与第一目标用户对应的第一目标数据；

用于对用户群体进行分类并为各类所述用户群体提供相对应的服务策略的第一步骤，用于预测流失用户的第二步骤，

用于预测外部数据库中用户发生数值交换行为的概率的第三步骤以及用于预测标准数据库中的用户再次发生数值交换行为的概率的第四步骤；

所述第一步骤包括：

以预定义规则获取与第一目标用户对应的第一目标数据；

将所述第一目标数据存储至预先构建的第一数据库以更新所述第一数据库，得到更新后的标准数据库；

从存储有服务数据的第二数据库中获取与所述第一目标数据对应的第一服务数据以为所述第一目标用户提供所述第一服务数据；

对所述标准数据库中的用户数据利用AI预测技术进行分类，得到多类用户群体；

从所述第二数据库中获取与各类所述用户群体对应的第二服务数据以为各类所述用户群体提供第二服务数据；

所述第二步骤包括：

从所述标准数据库中获取存储的所述用户数据；

利用预先训练的流失预测分析模型对所述用户数据进行分析，得到包含流失用户数据的第二分析数据；

针对所述第二分析数据，从所述标准数据库中获取与所述第二分析数据对应的第二目标数据；

以所述第二目标数据为基准数据，从所述第二数据库中获取与所述第二目标数据对应的第三服务数据以为与所述第二目标数据对应的第二目标用户提供所述第三服务数据；

所述第三步骤包括：

从所述第一数据库中获取原始用户数据，并对所述原始用户数据进行画像特征分析，得到第三分析数据；

以所述第三分析数据为基准数据，从外部数据库获取与所述第一目标用户相关的第三目标用户的第三目标数据；

以所述第三分析数据作为训练样本数据，对待训练概率统计模型进行训练，得到训练后的概率统计模型；

对所述用户数据和所述第三目标数据进行画像特征分析，得到第四分析数据；

以所述第四分析数据为测试样本数据，并执行以下步骤：

利用所述训练后的概率统计模型确定与所述第四分析数据对应的用户的第一行为特征；

从所述第二数据库中获取与所述第一行为特征对应的第五服务数据以为与所述第四分析数据对应的用户提供所述第五服务数据；

所述第四步骤包括：

以预定义规则获取与所述第一目标用户对应的第一目标数据，并执行以下步骤：

利用所述训练后的概率统计模型确定与所述第一目标数据对应的用户的第二行为特征；

从所述第二数据库中获取与所述第二行为特征对应的第四服务数据以为与所述第一目标数据对应的用户提供所述第四服务数据。

可选的，所述流失预测分析模型的训练过程具体为：

从所述第一数据库中获取原始用户数据；

依据预设粒度对所述原始用户数据进行结构化处理，得到时间序列的特征数据；

将所述特征数据输入至PCA模型和预先构建的决策树模型，得到特征变量；

将所述特征变量、所述特征数据输入至待训练流失预测分析模型进行训练，得到训练后的所述流失预测模型。

可选的，所述以预定义规则获取与第一目标用户对应的第一目标数据包括：

基于爬虫技术获取目标网站的所述第一目标数据；

和/或从预先建立的云数据库中获取所述第一目标数据，其中，所述云数据库是与第三方共享建立的数据库。

可选的，所述从预先建立的云数据库中获取所述第一目标数据包括：

发送数据访问请求至与所述云数据库对应的第一服务器和与所述第三方对应的第二服务器，其中，所述数据访问请求携带有访问所述云数据库的访问权限信息；

若接收到所述第一服务器发送的允许访问的第一反馈信息和所述第二服务器发送的允许访问的第二反馈信息，则从所述云数据库中获取所述第一目标数据。

可选的，所述以所述第一用户画像特征为基准数据，从外部数据库获取与所述第一目标用户相关的第三目标用户的第三目标数据包括：

以所述第一用户画像特征为基准数据，从所述外部数据库获取与所述第一目标用户相关的预选用户；

对所述预选用户进行画像特征分析，以提取所述预选用户的第二用户画像特征；

将所述第一用户画像特征与所述第二用户画像特征进行匹配，得到匹配相似度；

判断所述匹配相似度是否大于阈值；

若是，则选定所述预选用户为所述第三目标用户，并从所述外部数据库提取与所述第三目标用户对应的第三目标数据；

若否，则进入以所述第一用户画像特征为基准数据，从所述外部数据库获取与所述第一目标用户相关的预选用户的步骤。

可选的，所述对所述标准数据库中的用户数据利用AI预测技术进行分类包括：

基于K-Meams聚类算法对所述标准数据库中的所述用户数据进行聚类，得到多类用户群体。

可选的，所述第一目标数据包括：第一目标用户标识码和/或第一目标用户注册数据和/或所述第一目标用户的交换数据。

第二，本申请实施例公开了一种基于AI的用户数据的处理装置，包括：

用于对用户群体进行分类并为各类所述用户群体提供相对应的服务策略的第一处理模块，

用于预测流失用户的第二处理模块，

用于预测外部数据库中用户发生数值交换行为的概率的第三处理模块以及用于预测标准数据库中的用户再次发生数值交换行为的概率的第四处理模块；

所述第一处理模块包括：

以预定义规则获取与第一目标用户对应的第一目标数据；

所述第二处理模块包括：

从所述标准数据库中获取存储的所述用户数据；

所述第三处理模块包括：

以所述第四分析数据为测试样本数据，并执行以下处理模块：

所述第四处理模块包括：

以预定义规则获取与所述第一目标用户对应的第一目标数据，并执行以下处理模块：

第三，本申请实施例公开了一种基于AI的用户数据的处理系统，包括：

电源、处理器、存储器、存储介质、操作系统、至少一个有线网络接口或无线网络接口、至少一个数据输入输出接口；

所述电源分别与所述处理器、所述存储器和所述存储介质连接，用于供电；

所述处理器分别与所述存储器和所述存储介质连接；

所述存储器用于为第一数据库和第二数据库提供硬件支持；

所述存储介质用于存储计算机操作程序和为所述操作系统提供硬件支持；

所述处理器用于执行所述计算机操作程序时实现权利要求1-12任意一项所述的基于AI的用户数据的处理方法的步骤；

所述有线网络接口、所述无线网络接口和所述数据输入输出接口均用于对接外部设备。

本申请实施例公开的一种基于AI的用户数据的处理方法、装置及系统，首先以预定义规则获取与第一目标用户对应的第一目标数据，然后将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库，从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。基于AI预测技术对用户进行分类，得到多类用户群体；最后再从第二数据库中获取第二服务数据以为各类用户群体提供第二服务数据。通过对用户数据进行有效的分析与利用，以第一目标数据更新第一数据库，从而扩大用户数据量。通过对用户进行分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。此外，通过流失预测模型能够对用户进行流失预测，从而针对流失的用户针对性的提供服务，进一步避免了用户流失。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(a)为本申请第一种实施例公开的一种基于AI的用户数据的处理方法的流程示意图；

图1(b)为本申请第一种实施例公开的一种用户数据库的组成示意图；

图1(c)为消费者双漏斗数据转化系统的模型示意图；

图2为本申请第二种实施例公开的一种基于AI的用户数据的处理装置的结构示意图；

图3为本申请第三种实施例公开的一种基于AI的用户数据的处理系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

目前，对于各个企业，用户数据是其进行正常运作的重要储备资源，应用和扩展用户数据对于企业而言至关重要。目前，各个企业对于用户数据的重视程度并不是很高，对于企业的用户数据的扩展方式也有较大的局限性。由于各个企业对于用户数据的重视程度较低，导致企业不能发展更多的用户和了解用户的实际需求，从而也难以为用户提供其实际所需的服务，导致用户的体验感较低，造成企业的用户流失。

基于此，本申请实施例的目的在于提供一种基于AI的用户数据的处理方法、装置、系统及计算机可读存储介质，能够对用户数据进行有效的分析与利用，通过以预定义规则获取第一目标数据，达到更新第一数据库的目的，从而扩大用户数据量。通过对，能够对用户进行准确的分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。

实施例一

请参见图1(a)，图1(a)为本申请第一种实施例公开的一种基于AI的用户数据的处理方法的流程示意图，在本申请实施例中，用户数据可以为如图1(b)所示的构成，即用户数据包括：企业内部数据库，外部数据库、其它外部数据源、三大运营商以及科大讯飞等。本申请第一种实施例具体包括以下技术内容：

第一步骤S1：对用户群体进行分类并为各类用户群体提供相对应的服务策略(服务数据)。

在本申请的一些实施例中，第一步骤S1包括：

以预定义规则获取与第一目标用户对应的第一目标数据。

具体的，本实施例中，预定义规则可以有以下方式：

第一种，采用爬虫技术爬取企业相关网站或者互联网网站的第一目标数据，企业相关网站可以为与企业官网、与企业进行合作的合作方的网站、与企业的专业项目相关的专业类网站，互联网网站可以为某宝网站、某度网站、电商平台等。具体的，爬虫技术在现有技术中已经属于很常规的技术，本申请实施例在此只是应用爬虫技术，对于其并未作出改进，具体可以参见现有技术。

第二种，从与第三方合作共享构建的云数据库中获取第一目标数据，其中，云数据库为企业与合作方(第三方)共同构建的共享数据库，其中存储有企业的数据以及第三方的用户数据、企业数据等，其中，第三方可以为与企业属于同一行业的相关企业，也可以为与企业属于不同行业的企业。

为了保证云数据库中数据的安全性，作为本申请可选的实施例，从预先建立的云数据库中获取第一目标数据包括：

发送数据访问请求至与云数据库对应的第一服务器和与第三方对应的第二服务器，其中，数据访问请求携带有访问云数据库的访问权限信息。

若接收到第一服务器发送的允许访问的第一反馈信息和第二服务器发送的允许访问的第二反馈信息，则从云数据库中获取第一目标数据。

具体的，第一服务器和第二服务器中都预先存储了允许访问云数据库的访问权限信息，如果数据访问请求中携带的访问权限信息与第一服务器和第二服务器中存储的访问权限信息都成功匹配，则允许访问云数据库。

第三种，从企业的内部存储器中获取已经存储的用户数据。

第四种，通过Look-like模型，从企业的外部渠道获取与企业相关的用户数据。对于Look-like模型其主要是应用企业现有的第一数据库中存储的用户数据，对第一数据库中存储的用户数据进行画像特征分析以从外部数据库中找到与第一数据库中的用户数据相似的用户数据。

为了提高从外部数据库中获取的用户数据的质量，作为本申请可选的实施例，步骤S10包括：

从第一数据库中提取原始用户数据。

对原始用户数据进行画像特征分析，以提取原始用户数据中的第一用户画像特征。

以第一用户画像特征为基准数据，从外部数据库获取与第一目标用户相关的第三目标用户的第一目标数据。

具体的，第一用户画像特征可以为人口基础属性数据、社会属性数据、兴趣属性数据和时间属性数据。

这里第一画像特征数据可以包括以下的部分：

从上面数据中，企业找到自己存储的可以应用到的数据，将这些数据进行进一步的模型分析，进而从外部找到更多类似相似的用户群体。

其中，为了进一步提高从外部数据库中获取的用户数据的质量，作为本申请可选的实施例，以第一用户画像特征为基准数据，从外部数据库获取与第一目标用户相关的第三目标用户的第一目标数据具体包括：

以第一用户画像特征为基准数据，从外部数据库中获取与第一目标用户相关的预选用户。

对预选用户进行画像特征分析，以提取预选用户的第二用户画像特征。

将第一用户画像特征与第二用户画像特征进行匹配，得到匹配相似度。

判断匹配相似度是否大于阈值。

若是，则选定预选用户为第三目标用户，并从外部数据库提取与第三目标用户对应的第一目标数据。

若否，则进入已第一用户画像特征为基准数据，从外部数据库获取与第一目标用户相关的预选用户的步骤。

具体的，外部数据库可以为其他企业的共享数据库、其他行业的共享数据库以及公共数据库等，预选用户为与第一目标用户具有相似特征的用户，如具有共同的兴趣属性数据、或者具有相似的交易行为数据，如购买同一商品等。

匹配相似度指的是第一用户画像特征与第二用户画像特征之间相匹配的契合度，阈值可以根据实际需求设置，对于阈值的大小本申请实施例可选为不低于80％。

若匹配相似度不大于阈值，则进入以第一用户画像特征为基准数据，从外部数据库获取与第一目标用户相关的预选用户的步骤，直至预选用户与第一目标用户的匹配相似度大于阈值。

需要说明的是，对于第一目标数据的获取方式可以是以上四种方式里的任意一种，也可以是以上四种方式的任意组合方式，此外，第一目标数据的获取方式也可以不局限于以上提到的四种方式。

其中，第一目标用户是与企业相关的用户，如与企业进行过交易行为的用户、或浏览过企业网站的用户或者注册过企业网站的用户以及与以上类型的用户存在交集的用户。

第一目标数据或用户数据可以为用户的基本信息数据，如姓名、性别、年龄等、用户浏览的页面数据、用户发生过的交易行为数据、交易类型数据、用户发生的交易金额数据、用于的交易渠道数据、用户的注册信息等，包括注册时间、注册地点等、用户浏览的路径数据、用户分享与企业相关的分享数据等。

作为本申请可选的实施例，第一目标数据包括：第一目标用户的用户标识码和/或第一目标用户注册数据和/或第一目标用户的交换数据。具体的，用户标识码可以为标识用户身份的唯一信息，如姓名等基本信息和用户ID等。注册数据为用户在企业网站上的注册信息，如注册时的手机号码、邮箱等。交换数据为用户进行交易行为的数据，如购买的商品数据、交易的金额、交易的时间和地点等。

将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库。

具体的，第一数据库为企业原始的数据库，原始的数据库中存储有原始的用户数据。

利用设置于第一数据库中的触发器响应于标准数据库。

具体的，在第一数据库中的用户数据发生更新后，触发器便会触发从而提示第一数据库中的用户数据更新。对于触发器的应用原理可以参见现有技术，本申请对于触发器本身并未作出改进。

从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。

具体的，在触发器触发后，便从第二数据库中获取与第一目标数据对应的第一服务数据，第一服务数据可以为用户推送的企业的产品，企业的文化数据等，根据第一目标用户的第一目标数据的种类，为用户推送相对应的服务数据。例如，第一目标用户在企业网站浏览了某电器时，第一目标数据便包含了第一目标用户的ID、第一目标用户浏览的网站和第一目标用户浏览的某电器的数据，此时，从第二数据库中为用户推送与某电器相关的产品或者与某电器相关的详细信息。其中，推送的“某电器相关的产品和与某电器相关的详细信息”便是针对第一目标用户提供的第一服务数据，提升了用户的体验感。

对所述标准数据库中的用户数据利用AI预测技术进行分类，得到多类用户群体。

在本申请的一些实施例中，基于AI预测技术对用户进行分类可以为基于K-Meams聚类算法对标准数据库中的用户数据进行聚类，得到多类用户群体。

对于利用K-Meams对标准数据库中的用户数据进行聚类具体如下：

第一步：整理并清洗企业利用到的消费者数据(用户数据)，包括消费者ID、年龄、居住地、职业、第一次购买时间、最后一次购买时间，最近购买时间差额，购买产品信息、频次、购买金额等信息

第二步：根据以上的特征信息作为输入，输入提前设置好的K-Meams聚类模型，聚类模型原理如下：

其中，C_jt表示聚类中心，X_it表示数据样本，对于上述模型作以下说明：假定给定数据样本X，包含了n个对象X＝{X1,X2,X3,...,Xn}X＝{X1,X2,X3,...,Xn},其中每个对象都具有m个维度的属性。Kmeans算法的目标是将n个对象依据对象间的相似性聚集到指定的k个类簇中，每个对象属于且仅属于一个其到类簇中心距离最小的类簇中。对于Kmeans，首先需要初始化k个聚类中心{C1,C2,C3,...,Ck},1&lt；k≤n{C1,C2,C3,...,Ck},1&lt；k≤n，然后通过计算每一个对象到每一个聚类中心的欧式距离。

依次比较每一个对象到每一个聚类中心的距离，将对象分配到距离最近的聚类中心的类簇中，得到k个类簇{S1,S2,S3,...,Sk}{S1,S2,S3,...,Sk}。

具体的，Kmeans聚类算法本身可以参见现有技术，对于Kmeans聚类算法本身本申请实施例并未作出改进。根据步骤S14中的第一分析数据对标准数据库中的用户数据聚类，将具有相似浏览数据和/或行为特征数据(购买产品信息、购买时间等)的用户聚为一类。企业将自己存储的用户数据进行聚类之后，可以拿这个用户部分的聚类，在外部数据源方找到更多相似的群体用户特征。

从第二数据库中获取与各类用户群体对应的第二服务数据以为各类用户群体提供第二服务数据。

对于企业可以接触到的各类用户，一般可以分为核心用户、企业的有效用户、注册企业但未转化的用户、外部用户几种类型(具体企业实践中，可以有更多不同类的分类，这里的分类更有通用性)。具体的，针对各类用户群体具有不同的服务策略，例如，针对核心用户，提供的第二服务数据包括：企业的最新产品或者企业的最新更新数据；针对有效用户，提供的第二服务数据包括：企业的常规产品数据、企业的最新产品或者企业的最新更新数据；针对企业的外部用户数据，提供的第二服务数据包括：企业的常规产品数据、企业的最新产品数据、企业的最新更新数据、企业的网站数据等；针对注册企业但是未转化的用户,提供的第二服务数据包括：企业的常规产品数据、企业的最新产品数据、企业的最新更新数据。对于第二服务数据的内容，也可以根据聚类得到的用户的种类不同而进行更新增加，本申请实施例在此并不作限定。

步骤S1中，首先以预定义规则获取与第一目标用户对应的第一目标数据，然后将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库，其次，再利用设置于第一数据库中的触发器响应于标准数据库，在响应标准数据库之后，从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。再AI预测技术对用户进行分类，得到多类用户群体；最后再从第二数据库中获取第二服务数据以为各类用户群体提供第二服务数据。通过本方案，能够对用户数据进行有效的分析与利用，通过以预定义规则获取第一目标数据，达到更新第一数据库的目的，从而扩大用户数据量。通过对用户数据的路径可视化分析和/或行为特征分析以及分类，能够对用户进行准确科学的分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。

在步骤S1中，首先以预定义规则获取与第一目标用户对应的第一目标数据，然后将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库，从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。基于AI预测技术对用户进行分类，得到多类用户群体；最后再从第二数据库中获取第二服务数据以为各类用户群体提供第二服务数据。通过对用户数据进行有效的分析与利用，以第一目标数据更新第一数据库，从而扩大用户数据量。通过对用户进行分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。此外，通过流失预测模型能够对用户进行流失预测，从而针对流失的用户针对性的提供服务，进一步避免了用户流失。

第二步骤S2：预测流失用户。

在本申请的一些实施例中，第二步骤S2包括：

从标准数据库中获取存储的用户数据。

利用预先训练的流失预测分析模型对用户数据进行分析，得到包含流失用户数据的第二分析数据。

具体的，本实施例中，利用流失预测分析模型用于对用户数据进行流失分析，第二分析数据为用户数据中的流失用户的流失概率和流失用户的用户数据。即针对每一个用户，对该用户的用户数据利用流失预测模型进行分析，确定该用户的流失情况，预测结果包括两种，即已流失用户和未流失用户。

具体的，为了保证流失预测分析模型对用户的流失概率进行精确地预测，作为本申请可选的实施例，流失预测分析模型的训练过程具体包括：

按照预设时间粒度对需要预测的客户信息历史日志、触点信息等进行结构化处理，得到时间序列的特征数据；

将时间序列特征数据输入至预先构建的决策树、PCA模型中，得到最重要的特征变量。

将业务特征信息：发送的卡券、折扣、消费者的反馈以及业务经验特征输入。

该模型输出为待定预测项目每个客户的购买概率，构建第一个模型。概率基础上，企业还会面临业务经验的输入(比如：不关注经常购买的消费者)，利用LSTM、神经网络估计出潜在客户的触达成本以及机会成本金额。该案例利用AI、运筹学相关领域技术，解决了人为运营的弊端，

通过流失预测分析模型解决了企业依赖原有人为经验，选择消费者进行运营，提出了智能运营的准确率，具有好的通用性。

进一步，在本申请的一些实施例中，当企业业务输入一些限制性条件，例如有限的预算、产品的价格、产品客单价相关属性的时候，为将企业业务输入的限制性调节作为考虑因素，则需要再训练第二个模型。

第二个模型训练过程如下：

首先将时间序列特征数据、业务特征信息、业务经验及预算信息输入；

此处采用随机树森林模型，通过随机数森林模型生成重点的指标，将重点指标输入至构决策树、PCA模型，得到第二个模型。

本发明实施例中，将以上2个模型，采用融合技术，进行模型融合，最终的流失预测分析模型。

针对第二分析数据，从标准数据库中获取与第二分析数据对应的第二目标数据。

具体的，第二数据包括了流失概率和该用户的用户数据，第二目标数据为该用户发生的与企业相关的数据，如购买企业的某类产品或者浏览企业的某网站等相关数据。

以第二目标数据为基准数据，从第二数据库中获取与第二目标数据对应的第三服务数据以为与第二目标数据对应的第二目标用户提供第三服务数据。

第三服务数据包括了为第二目标用户提供的与第二目标用户相关的企业产品推送数据、企业产品评价数据以及企业的其他相关数据，以挽留企业的流失用户。

本申请第二步骤S2，在具有实施例一所具有的技术效果外，能利用预先训练的流失预测分析模型对用户数据进行分析，得到包含流失用户数据的第二分析数据，再针对第二分析数据，为与第二分析数据对应的第二目标用户从第二数据库中提供第三服务数据，为流失用户提供对应的第三服务数据，避免了用户过量流失。

第三步骤S3：预测外部数据库中用户发生数值交换行为的概率。

在本申请的一些实施例中，用户发生数值交换行为指的是用户发生购买行为。

从第一数据库中获取原始用户数据，并对原始用户数据进行画像特征分析，得到第三分析数据。

具体的，本申请实施例中的画像特征分析指的是从原始用户数据中提取人口基础属性数据、社会属性数据、兴趣属性数据、时间属性数据，第三分析数据即包括人口基础属性数据、社会属性数据、兴趣属性数据、时间属性数据。

以所述第三分析数据为基准数据，从外部数据库获取与所述第一目标用户相关的第三目标用户的第三目标数据。

以第三分析数据作为训练样本数据，对待训练概率统计模型进行训练，得到训练后的概率统计模型。

概率统计模型的目的是，统计用户购买企业的产品或者对企业感兴趣的概率，通过人口基础属性数据、社会属性数据、兴趣属性数据、时间属性数据统计用户感兴趣的行业、用户的层次以及用户的消费能力等，从而预测出用户购买该企业的产品的概率。

对用户数据进行画像特征分析，得到第四分析数据，以第四分析数据为测试样本数据。

对用户数据进行画像特征分析可以参见对原始用户数据进行画像特征分析的描述。

利用训练后的概率统计模型确定与第四分析数据对应的用户的第一行为特征。

第四分析数据中包含了标准数据库中所有用户的用户数据，第一行为特征也即包含了标准数据库中每一个用户购买该企业产品的概率。

从所述第二数据库中获取与所述第一行为特征对应的第五服务数据以为与所述第四分析数据对应的用户提供所述第五服务数据。

具体的，在本实例中，采用媒体相关投放检测数据、外部标签数据以及销售类相关数据结合，利用AI预测分析类技能，找到那些标签因素组合可以和销售转化有强相关，进而降低企业利用人工经验的标签组合来进行效果广告的投放。

第一步：Hub集成方式、利用外部数据库。

数据采集部分，提到先给企业搭建自己基础的数据库(第一数据库)，基础的数据库收集大量广告投放检测后的设备相关数据，

设备相关数据具有唯一性，利用这个设备数据和外部第三方数据源(包括三大运营商、科大讯飞等)进行用户画像特性分析。

用户画像特性分析技术在行业已经成熟不具有改善性，具体可以参见现有技术。

该部分解决企业想利用外部数据库变现需要采买并分析数据的弊端，提升企业可以不用采买就可以利用外部第三方数据的遍历，具有好的通用性。

第二步：企业收集了广告投放检测数据，利用用户画像特征分析技术，对接外部更广泛的数据源，充足企业的外部标签体系。

企业根据投放检测数据、外部对家用户画像特征分析，训练概率统计模型，该模型目标是利用内部、外部数据，帮助企业找到那些标签组合和企业销售额有强关联性的用户。

第三步：针对广告投放检测相关的数据，利用随机树森林、Boosting等技术，得出个体学习器1；

第四步：针对外部第三方的外部数据库，利用PCA等技术，得到学习器二；

第五步：利用广告投放检测类数据、外部标签数据、销售相关类数据，利用PCA，神经网络等技术，得到学习器三；

第六步：针对以上的几个部分得到的训练器，进行模型融合得到最终的学习器，从而对用户发生复购的概率进行预测。

在第三步骤S3中，在计算出用户购买该企业产品的概率之后，针对不同的购买概率可以为每个用户提供相对应的服务推送，如企业的产品数据、企业的文化数据以及企业的网站数据等。针对不同的购买概率，第五服务数据可以为以下类型：对于购买概率较高的用户可以推送与用户兴趣属性数据相关的产品数据，对于购买概率较低且兴趣属性较为模糊的用户可以推送企业所有的产品数据以及企业的网站数据等。

第三步骤S3中，能够根据第一行为特征为用户提供相适应的第五服务数据，满足了用户实际所需，进一步提升了用户的体验感。

第四步骤S4：预测标准数据库中的用户再次发生数值交换行为的概率。利用训练后的概率统计模型确定与第一目标数据对应的用户的第二行为特征。

可以在获取到第一目标数据之后，对第一目标数据进行行为特征分析，从而利于训练后的概率统计模型对新采集的用户的用户数据进行购买概率预测，即第二行为特征为与第一目标数据对应的用户的购买该企业产品的概率。

在计算出第一目标用户购买该企业产品的概率之后，针对不同的购买概率可以为每个第一目标用户提供相对应的服务推送，如企业的产品数据、企业的文化数据以及企业的网站数据等。针对不同的购买概率，第四服务数据可以为以下类型：对于购买概率较高的第一目标用户可以推送与用户兴趣属性数据相关的产品数据，对于购买概率较低且兴趣属性较为模糊的第一目标用户可以推送企业所有的产品数据以及企业的网站数据等。

在第四步骤S4中，能够根据与第一目标数据对应的用户的第二行为特征提供相适应的第四服务数据，满足了用户实际所需，进一步提升了用户的体验感。

可以理解的是，对于第一步骤S1、第二步骤S2、第三步骤S3以及第四步骤S4中的各个步骤可以对应于消费者双漏斗数据转化系统，如图1(c)所示的结构。对于图1(c)中的各个数据结构可以参见以上第一步骤S1、第二步骤S2、第三步骤S3以及第四步骤S4的描述，对于相同部分本发明实施例在此不再赘述。

本申请实施例公开的一种基于AI的用户数据的处理方法，首先以预定义规则获取与第一目标用户对应的第一目标数据，然后将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库，从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。基于AI预测技术对用户进行分类，得到多类用户群体；最后再从第二数据库中获取第二服务数据以为各类用户群体提供第二服务数据。通过对用户数据进行有效的分析与利用，以第一目标数据更新第一数据库，从而扩大用户数据量。通过对用户进行分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。此外，通过流失预测模型能够对用户进行流失预测，从而针对流失的用户针对性的提供服务，进一步避免了用户流失。

实施例二

请参见图2，图2为本发明实施例二公开的一种基于AI的用户数据的处理装置的结构示意图，基于AI的用户数据的处理装置包括：

用于对用户群体进行分类并为各类用户群体提供相对应的服务策略的第一处理模块20，

用于预测流失用户的第二处理模块21，

用于预测外部数据库中用户发生数值交换行为的概率的第三处理模块22以及用于预测标准数据库中的用户再次发生数值交换行为的概率的第四处理模块23；

第一处理模块20包括：

以预定义规则获取与第一目标用户对应的第一目标数据；

将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库；

从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据；

对标准数据库中的用户数据利用AI预测技术进行分类，得到多类用户群体；

第二处理模块21包括：

从标准数据库中获取存储的用户数据；

利用预先训练的流失预测分析模型对用户数据进行分析，得到包含流失用户数据的第二分析数据；

针对第二分析数据，从标准数据库中获取与第二分析数据对应的第二目标数据；

第三处理模块22包括：

从第一数据库中获取原始用户数据，并对原始用户数据进行画像特征分析，得到第三分析数据；

以第三分析数据为基准数据，从外部数据库获取与第一目标用户相关的第三目标用户的第三目标数据；

以第三分析数据作为训练样本数据，对待训练概率统计模型进行训练，得到训练后的概率统计模型；

对用户数据和第三目标数据进行画像特征分析，得到第四分析数据；

以第四分析数据为测试样本数据，并执行以下处理模块：

利用训练后的概率统计模型确定与第四分析数据对应的用户的第一行为特征；

从第二数据库中获取与第一行为特征对应的第五服务数据以为与第四分析数据对应的用户提供第五服务数据；

第四处理模块23包括：

以预定义规则获取与第一目标用户对应的第一目标数据，并执行以下处理模块：

利用训练后的概率统计模型确定与第一目标数据对应的用户的第二行为特征。

从第二数据库中获取与第二行为特征对应的第四服务数据以为与第一目标数据对应的用户提供第四服务数据。

本申请实施例公开的一种基于AI的用户数据的处理装置，首先以预定义规则获取与第一目标用户对应的第一目标数据，然后将第一目标数据存储至预先构建的第一数据库以更新第一数据库，得到更新后的标准数据库，从存储有服务数据的第二数据库中获取与第一目标数据对应的第一服务数据以为第一目标用户提供第一服务数据。基于AI预测技术对用户进行分类，得到多类用户群体；最后再从第二数据库中获取第二服务数据以为各类用户群体提供第二服务数据。通过对用户数据进行有效的分析与利用，以第一目标数据更新第一数据库，从而扩大用户数据量。通过对用户进行分类，从而为各类用户群体提供相对应的第二服务数据，满足了用户所需，提升了用户体验感，避免了用户流失。此外，通过流失预测模型能够对用户进行流失预测，从而针对流失的用户针对性的提供服务，进一步避免了用户流失。

实施例三

请参见图3，图3为本申请第三种实施例公开的一种基于AI的用户数据的处理系统的结构示意图，基于AI的用户数据的处理系统7包括：电源70、处理器71、存储器72、存储介质73、操作系统、至少一个有线网络接口或无线网络接口74、至少一个数据输入输出接口75。

电源70分别与处理器71、存储器72和存储介质73连接，用于供电。

处理器71分别与存储器72和存储介质73连接。

存储器72用于为第一数据库和第二数据库提供硬件支持。

存储介质73用于存储计算机操作程序和为操作系统提供硬件支持。

处理器71用于执行计算机操作程序时实现以上任意一个实施例提到的基于AI的用户数据的处理方法。

有线网络接口或无线网络接口74和数据输入输出接口75均用于对接外部设备。

具体的，操作系统74可以为Windows系统、ServerTM操作系统、MAC OS XTM操作系统、UnixTM操作系统、FreeBSDTM操作系统等。存储在存储介质73中的计算机操作程序模块可以包括以上或一个以上模块，如第一获取模块、存储更新模块、响应模块等等，每个模块可以包括对数据分析系统中的一系列指令操作。存储介质73可以为海量存储设备。存储器72和存储介质73可以是短暂存储或持久存储。有线网络接口或无线网络接口74用于与外部设备进行通讯，数据输入输出接口75用于与外部设备进行数据传输。

基于AI的用户数据的处理方法的步骤可以参见以上任意一个实施例的描述，本申请第三种实施例在此不作赘述。

本申请第三种实施例公开的一种基于AI的用户数据的处理系统，由于存储介质中存储有计算机操作程序，其存储器中存储有第一数据库和第二数据库，处理器能够执行计算机操作程序实现以上任意一个实施例提到的基于AI的用户数据的处理方法的步骤。所以本申请公开的实施例具有以上任意一个实施例所具有的有益效果。

需要说明的是，以上各个实施例只列举了本申请实施例作出的改进的部分，对于一种基于AI的用户数据的处理方法、装置及系统的其他未提到的部分，可以参见现有技术，并不代表没有。

应注意的是，在本说明书中，相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上对本申请实施例所提供的一种基于AI的用户数据的处理方法、装置及系统进行了详细介绍。本文中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请实施例原理的前提下，还可以对本申请实施例进行若干改进和修饰，这些改进和修饰也落入本申请实施例权利要求的保护范围内。

Claims

1.一种基于AI的用户数据的处理方法，其特征在于，包括：

用于对用户群体进行分类并为各类所述用户群体提供相对应的服务策略的第一步骤，

用于预测流失用户的第二步骤，

用于预测外部数据库中用户发生购买行为的概率的第三步骤以及用于预测标准数据库中的用户再次发生购买行为的概率的第四步骤；

所述第一步骤包括：

以预定义规则获取与第一目标用户对应的第一目标数据；

所述第二步骤包括：

从所述标准数据库中获取存储的所述用户数据；

所述第三步骤包括：

以所述第四分析数据为测试样本数据，并执行以下步骤：

所述第四步骤包括：

从所述第一数据库中获取所述原始用户数据，并对所述原始用户数据进行画像特征分析，得到第三分析数据；

从所述第二数据库中获取与所述第二行为特征对应的第四服务数据以为与所述第一目标数据对应的用户提供所述第四服务数据；

其中，所述第一目标数据包括：第一目标用户标识码和/或第一目标用户注册数据和/或所述第一目标用户的交换数据；

所述以预定义规则获取与第一目标用户对应的第一目标数据包括：

基于爬虫技术获取目标网站的所述第一目标数据；

和/或从预先建立的云数据库中获取所述第一目标数据，其中，所述云数据库是与第三方共享建立的数据库；并且

所述从预先建立的云数据库中获取所述第一目标数据包括：

2.根据权利要求1所述的基于AI的用户数据的处理方法，其特征在于，所述流失预测分析模型的训练过程具体为：

从所述第一数据库中获取所述原始用户数据；

将所述特征变量、所述特征数据输入至待训练流失预测分析模型进行训练，得到训练后的所述流失预测分析模型。

3.根据权利要求2所述的基于AI的用户数据的处理方法，其特征在于，所述以所述第三分析数据为基准数据，从外部数据库获取与所述第一目标用户相关的第三目标用户的第三目标数据包括：

以所述第三分析数据为基准数据，从所述外部数据库获取与所述第一目标用户相关的预选用户；

将所述第三分析数据与所述第二用户画像特征进行匹配，得到匹配相似度；

判断所述匹配相似度是否大于阈值；

若是，则选定所述预选用户为所述第三目标用户，并从所述外部数据库提取与所述第三目标用户对应的所述第三目标数据；

若否，则进入所述以所述第三分析数据为基准数据，从外部数据库获取与所述第一目标用户相关的第三目标用户的第三目标数据的步骤。

4.根据权利要求1所述的基于AI的用户数据的处理方法，其特征在于，所述对所述标准数据库中的用户数据利用AI预测技术进行分类包括：

5.一种基于AI的用户数据的处理装置，其特征在于，包括：

用于预测流失用户的第二处理模块，

用于预测外部数据库中用户发生购买行为的概率的第三处理模块以及用于预测标准数据库中的用户再次发生购买行为的概率的第四处理模块；

所述第一处理模块包括：

以预定义规则获取与第一目标用户对应的第一目标数据；

所述第二处理模块包括：

从所述标准数据库中获取存储的所述用户数据；

所述第三处理模块包括：

所述第四处理模块包括：

从所述第一数据库中获取所述原始用户数据，并对所述原始用户数据进行画像特征分析，得到所述第三分析数据；

基于爬虫技术获取目标网站的所述第一目标数据；

所述从预先建立的云数据库中获取所述第一目标数据包括：

6.一种基于AI的用户数据的处理系统，其特征在于，包括：电源、处理器、存储器、存储介质、操作系统、至少一个有线网络接口或无线网络接口、至少一个数据输入输出接口；

所述处理器分别与所述存储器和所述存储介质连接；

所述存储器用于为第一数据库和第二数据库提供硬件支持；

所述处理器用于执行所述计算机操作程序时实现权利要求1-4任意一项所述的基于AI的用户数据的处理方法的步骤；