CN111582898A

CN111582898A - 一种数据处理方法、装置、设备及存储介质

Info

Publication number: CN111582898A
Application number: CN201910120032.8A
Authority: CN
Inventors: 董健; 常富洋; 颜水成
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2020-08-25

Abstract

本说明书实施例提供了一种数据处理方法、装置、设备及存储介质。其方法包括：接收目标用户的事件触发消息，其息中携带所述目标用户的标识信息；根据所述目标用户的标识信息，获取目标用户的用户画像；获取预设的由多个行为激励指数划分得到的行为激励指数区间；将用户画像作为增强学习模型的输入，利用增强学习模型分别获取目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值；选择预估行为概率与预估不确定性之和最大的行为激励指数区间中的目标行为激励指数；发送所述目标用户的行为激励指示消息，其中携带表示所述目标行为激励指数的数据。本发明实施例可准确预估行为激励指数。

Description

一种数据处理方法、装置、设备及存储介质

技术领域

本说明书实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

近些年，互联网金融蓬勃发展，互联网金融相对于传统金融机构有着小额、高频等特点。在互联网金融中，可以通过很多促销活动触达用户，例如，理财产品中的优惠券，货代产品中的降低利率、提额等措施。为了提高用户的动支率且降低金融风险，通常针对不同的用户配置不同的促销活动，进行金融行为激励。

目前普遍采用的方式是通过工作人员凭经验进行行为激励的配置，导致其处理效率低。

发明内容

本说明书实施例提供及一种数据处理方法、装置、设备及存储介质，实现智能行为激励指数调整，提高处理效率。

第一方面，本说明书实施例提供一种数据处理方法，包括：

接收目标用户的事件触发消息，所述事件触发消息中携带所述目标用户的标识信息；

根据所述目标用户的标识信息，获取所述目标用户的用户画像；

获取预设的由多个行为激励指数划分得到的行为激励指数区间；

将所述用户画像作为增强学习模型的输入，利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值；

选择预估行为概率与预估不确定性之和最大的行为激励指数区间中的目标行为激励指数，所述目标行为激励指数为最大的所述预估行为概率与预估不确定性之和对应的行为激励指数；

发送所述目标用户的行为激励指示消息，所述行为激励指示消息中携带表示所述目标行为激励指数的数据。

结合第一方面，在本发明实施例第一方面的第一种实现方式中，所述增强学习模型包括线性模型和上下文赌博机，所述利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值，包括：

利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率；

利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值。

结合第一方面的第一种实现方式，在本发明实施例第一方面的第二种实现方式中，所述用户画像中包括第一用户画像特征，所述利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率，包括：

获取所述第一用户画像特征；

将所述第一用户画像特征、每个行为激励指数区间各自的行为激励指数作为输入值，利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率。

结合第一方面的第二种实现方式，在本发明实施例第一方面的第三种实现方式中，所述第一用户画像特征包括以下至少一种：

目标用户所在区域数据，目标用户收入数据，目标用户学历数据。

结合第一方面的第一种实现方式，在本发明实施例第一方面的第四种实现方式中，所述用户画像包括第二用户画像特征，所述利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值，包括：

获取所述第二用户画像特征；

将所述第二用户画像特征、每个行为激励指数区间内各自的行为激励指数作为输入值，利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、

第一方面的第三种实现方式、或第一方面的第四种实现方式，在本发明实施例

第一方面的第五种实现方式中，所述根据所述目标用户的标识信息，获取所述目标用户的用户画像，包括：

根据所述目标用户的标识信息，查找所述目标用户的用户特征数据；

将所述用户特征数据作为用户画像模型的输入值，利用所述用户画像模型获取所述目标用户的用户画像。

结合第一方面的第五种实现方式，在本发明实施例第一方面的第六种实现方式中，所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

第二方面，本发明实施例提供一种数据处理装置，包括：

消息接收模块，用于接收目标用户的事件触发消息，所述事件触发消息中携带所述目标用户的标识信息；

用户画像模块，用于根据所述目标用户的标识信息，获取所述目标用户的用户画像；

激励指数获取模块，用于获取预设的由多个行为激励指数划分得到的行为激励指数区间；

增强学习模块，用于将所述用户画像作为增强学习模型的输入，利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值；

行为激励指数选择模块，用于选择预估行为概率与预估不确定性之和最大的行为激励指数区间中的目标行为激励指数，所述目标行为激励指数为最大的所述预估行为概率与预估不确定性之和对应的行为激励指数；

消息发送模块，用于发送所述目标用户的行为激励指示消息，所述行为激励指示消息中携带表示所述目标行为激励指数的数据。

结合第二方面，在本发明第二方面的第一种实现方式中，所述增强学习模型包括线性模型和上下文赌博机，所述增强学习模块，包括：

线性模型模块，用于利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率；

上下文赌博机模块，用于利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值。

结合第二方面的第一种实现方式，在本发明实施例第二方面的第二种实现方式中，所述用户画像中包括第一用户画像特征，所述线性模型模块，用于：

获取所述第一用户画像特征；

结合第二方面的第二种实现方式，在本发明实施例第二方面的第三种实现方式中，所述第一用户画像特征包括以下至少一种：

结合第二方面的第一种实现方式，在本发明实施例第二方面的第四种实现方式中，所述用户画像包括第二用户画像特征，所述上下文赌博机模块用于：

获取所述第二用户画像特征；

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、或第二方面的第四种实现方式，在本发明实施例第二方面的第五种实现方式中，所述用户画像模块用于：

结合第二方面的第五种实现方式，在本发明实施例第二方面的第六种实现方式中，所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

第三方面，本发明实施例还提供一种计算机设备，包括处理器和存储器：

所述存储器用于存储执行第一方面各个实现方式所述方法的程序，

所述处理器被配置为用于执行所述存储器中存储的程序。

第四方面，本发明实施例还提供一种计算机存储介质，用于储存为上述第三方面所述的计算机设备所用的计算机软件指令。

本说明书实施例有益效果如下：

本发明实施例中，在接收到目标用户的事件触发消息后，为实现对目标用户的行为激励指数进行评估，首先获取目标用户的用户画像，进而利用增强学习算法获得用户画像在不同的行为激励指数区间上的预估行为概率和预估不确定性值，选择二者之和最大时对应的行为激励指数作为目标用户的行为激励指数。从而实现智能化、自动化的行为激励指数调整，提高了处理效率。

附图说明

图1为本发明实施例第一方面的方法适用场景示意图；

图2为本发明实施例第一方面的方法流程图；

图3为本发明实施例第二方面的装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

本说明书实施例可以在图1所示的授信系统上实现。在图1中，用户终端101上安装有授信系统的客户端应用程序，用户调用该客户端应用程序后，用户终端101与服务器102进行通信，并完成相应的任务。例如，为实现本发明实施例提供的方法，客户端应用程序在检测到满足事件触发条件后，通过用户终端101向服务器102发送事件触发消息，服务器102接收到该消息后，根据该消息中携带的目标用户的标识信息，获取目标用户的用户画像，获取预设的由多个行为激励指数划分得到的行为激励指数区间，利用增强学习模型分别获取每个行为激励指数区间对应的预估行为概率和预估不确定性值，选择预估行为概率与预估不确定性之和最大的目标行为激励指数，向用户终端101发送行为激励指示消息，其中携带表示上述目标行为激励指数的数据。

第一方面，本说明书实施例提供一种数据处理方法，请参考图2，包括：

步骤201、接收目标用户的事件触发消息，该事件触发消息中携带目标用户的标识信息。

本发明的目的是确定合适的行为激励指数，以便对用户进行目标行为的行为激励。以授信系统为例，行为激励具体是指向用户发放理财优惠券、打折券等，那么，为配合行为激励措施，可以预先设置多种事件触发条件，本发明实施例对比不作限定。例如，可选的事件触发条件如下：用户调用目标客户端应用程序(APP)，用户安装目标客户端应用程序，用户调用目标客户端应用程序中的目标功能。

本发明实施例中，目标用户的标识信息为用户的身份标识信息，例如，身份证号码、护照号码，当然还可以结合姓名、电话号码等。

可选的，该事件触发消息中还可以携带目标用户所在区域数据、目标用户收入数据、目标用户学历数据等等。

步骤202、根据目标用户的标识信息，获取目标用户的用户画像。

步骤203、获取预设的由多个行为激励指数划分得到的行为激励指数区间。

例如，有a、b、c三个行为激励指数，则划分得到a-b、b-c这两个行为激励指数区间。

本发明实施例中，行为激励指数用于反映行为激励的力度，可选的，还用于反映行为激励的类型。仍以授信系统为例，行为激励指数是对优惠额进行编码后得到的，可选的，还将优惠类型一并进行编码得到行为激励指数。

本发明实施例中，预先配置行为激励指数，可以由人工配置，也可以根据拟合、仿真等方式自动配置。行为激励指数和行为激励指数区间保存在本地数据库中。

本发明实施例中，服务器可以是独立服务器，也可以是云端服务器。若是独立服务器，本地数据库可以是指设置在独立服务器的磁盘存储空间上的数据库，也可以是指分配给该独立服务器的数据库服务器上设置的数据库。若是云端服务器，本地数据库可以是指云服务器上任意节点上设置的数据库。

步骤204、将所述用户画像作为增强学习模型的输入，利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值。

本发明实施例中，对于授信系统中的行为激励，行为概率是指用户执行目标行为的概率，目标行为可以但不仅限于为贷款动支行为。

本发明实施例中，行为概率与行为激励指数成正比。

本发明实施例中，不确定性值越小，表示预估结果越准确。

本步骤中，具体是将用户画像以及每个行为激励区间内连续的行为激励指数作为输入，利用增强学习模型确定该行为激励区间内的预估行为概率最大值，将该预估行为概率最大值对应的行为激励指数为目标行为激励指数，并目标行为激励指数对应的预估不确定性值即为增强学习模型输出的预估不确定性值。

步骤205、选择预估行为概率与预估不确定性之和最大的行为激励指数区间中的目标行为激励指数。

步骤206、发送所述目标用户的行为激励指示消息，所述行为激励指示消息中携带表示所述目标行为激励指数的数据。

本发明实施例提供的方法，在接收到目标用户的事件触发消息后，为实现对目标用户的行为激励指数进行评估，首先获取用户画像，进而利用增强学习模型在不同的行为激励指数区间中分别确定预估行为概率和预估不确定性，选择预估行为概率和预估不确定性之和最大对应的目标行为激励指数。从而实现智能化、自动化的行为激励指数预估，提高了处理效率。

本发明实施例提供的方法中，上述步骤204的实现方式有多种，即可以利用多种增强学习模型实现上述步骤204。优选的，上述增强学习模型包括线性模型和上下文赌博机，相应的，上述步骤204的实现方式如下：利用线性模型分别获取每个行为激励指数区间对应的预估行为概率；利用上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值。

更具体的，将用户画像中的第一用户画像数据以及每个行为激励指数区间的连续行为激励指数作为输入，利用线性模型确定在每个行为激励指数区间中的预估行为激励指数最大值，将该预估行为激励指数最大值作为对应的行为激励指数区间对应的预估事件收益，并利用上下文赌博机确定该预估行为激励指数最大值对应的目标行为激励指数的预估不确定性值，该预估不确定性值即为对应的行为激励指数区间对应的预估不确定性值。

本发明实施例不对线性模型以及上下文赌博机的具体模型结构、训练方法进行限定。

凡使用目标行为对应的样本数据(包括第一用户画像特征、行为激励指数)采用增强学习线性拟合的方式训练得到的线性模型均可用于本发明实施例提供的方法。其中，样本数据越多，训练结果越准确。

凡使用目标行为对应的样本数据(包括第二用户画像特征)训练得到的上下文赌博机均可用于本发明实施例提供的方法。其中，样本数据越多，不确定性越小。

其中，线性模型的运算即求均值，上下文赌博机即求方差。

本发明实施例中，第一用户画像特征包括以下至少一种：目标用户所在区域数据，目标用户收入数据，目标用户学历数据。

其中，目标用户所在区域数据可以是将目标用户所在区域进行编码后得到的编码数据，目标用户所在区域可以但不仅限于是目标用户所在城市；

目标用户收入数据可以但不仅限于是目标用户在预定时间段内的总收入值；

目标用户学历数据可以是将目标用户学历进行编码后得到的编码数据。

本发明实施例中，第二用户画像特征是可以反映目标用户行为状态的数据，本发明不对该数据的选取进行限定。

本发明实施例中，上述利用线性模型分别获取每个行为激励指数区间对应的预估行为概率的实现方式可以是：获取目标用户的第一用户画像特征；将所述第一用户画像特征、每个行为激励指数区间各自的行为激励指数作为输入值，利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率。

本发明实施例中，上述利用上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值，其实现方式可以是：获取所述第二用户画像特征；将所述第二用户画像特征、每个行为激励指数区间内各自的行为激励指数作为输入值，利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值。

在上述任意方法实施例的基础上，上述根据所述目标用户的标识信息，获取所述目标用户的用户画像，其实现方式可以是：

上述所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

具体的，可以根据目标用户的标识信息，在本地数据库查找目标用户的用户特征数据，若没有查找到，则通过第三方数据库查找目标用户的用户特征数据，并将查找到的用户特征数据保存到本地数据库中。

在上述任意方法实施例中，上述方法还可以包括：获取目标用户针对所述行为激励指数的行为结果(例如动支结果)；利用该行为结果对上述增强学习模型进行优化。

本发明实施例提供的方法可实现用户生命周期(即行为激励)管理，如理财产品的优惠券等。行为激励往往面临多种不同选择和定价的问题，例如，对一款定期理财产品，可以通过加息券、礼品等多种方式进行行为激励。但不同用户对行为激励的敏感程度不同，因此，无法得到对用户的理想激励方案，普遍使用的监督学习无法直接用于行为激励指数预估。因此本发明实施例提供的方法可以基于增强学习模型进行行为激励营销，首先根据用户的人行数据、消费、APP安装历史，对用户进行建模，产生精准的用户画像；之后将不同优惠方式、以及同意优惠的不同定价，建模为不同行为(行为激励指数)，进而预测不同行为激励指数相应的奖励和不确定性。奖励为对应区间的行为概率，为人行数据、消费、APP安装历史等多重复杂特征的线性模型。不确定性通过上下文赌博机算法进行预估。从理论上得到进行营销的方法，通过选择奖励和不确定性之和最大的区间进行营销，可以系统性地探索不同营销手段和影响，从而快速收敛，得到较理想的营销模型。

第二方面，本发明实施例公开了一种数据处理装置，请参考图3，包括：

消息接收模块301，用于接收目标用户的事件触发消息，所述事件触发消息中携带所述目标用户的标识信息；

用户画像模块302，用于根据所述目标用户的标识信息，获取所述目标用户的用户画像；

激励指数获取模块303，用于获取预设的由多个行为激励指数划分得到的行为激励指数区间；

增强学习模块304，用于将所述用户画像作为增强学习模型的输入，利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值；

行为激励指数选择模块305，用于选择预估行为概率与预估不确定性之和最大的行为激励指数区间中的目标行为激励指数，所述目标行为激励指数为最大的所述预估行为概率与预估不确定性之和对应的行为激励指数；

消息发送模块306，用于发送所述目标用户的行为激励指示消息，所述行为激励指示消息中携带表示所述目标行为激励指数的数据。

可选的，所述增强学习模型包括线性模型和上下文赌博机，所述增强学习模块，包括：

可选的，所述用户画像中包括第一用户画像特征，所述线性模型模块，用于：

获取所述第一用户画像特征；

可选的，所述第一用户画像特征包括以下至少一种：

可选的，所述用户画像包括第二用户画像特征，所述上下文赌博机模块用于：

获取所述第二用户画像特征；

可选的，所述用户画像模块用于：

可选的，所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

所述处理器被配置为用于执行所述存储器中存储的程序。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

本发明实施例公开了：

A1、一种数据处理方法，包括：

A2、根据A1所述的方法，所述增强学习模型包括线性模型和上下文赌博机，所述利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值，包括：

A3、根据A2所述的方法，所述用户画像中包括第一用户画像特征，所述利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率，包括：

获取所述第一用户画像特征；

A4、根据A3所述的方法，所述第一用户画像特征包括以下至少一种：

A5、根据A2所述的方法，其特征在于，所述用户画像包括第二用户画像特征，所述利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值，包括：

获取所述第二用户画像特征；

A6、根据A1～A5任一项所述的方法，所述根据所述目标用户的标识信息，获取所述目标用户的用户画像，包括：

A7、根据A6所述的方法，所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

B8、一种数据处理装置，包括：

B9、根据B8所述的装置，所述增强学习模型包括线性模型和上下文赌博机，所述增强学习模块，包括：

B10、根据B9所述的装置，所述用户画像中包括第一用户画像特征，所述线性模型模块，用于：

获取所述第一用户画像特征；

B11、根据B10所述的装置，所述第一用户画像特征包括以下至少一种：

B12、根据B9所述的装置，所述用户画像包括第二用户画像特征，所述上下文赌博机模块用于：

获取所述第二用户画像特征；

B13、根据B8～B12任一项所述的装置，所述用户画像模块用于：

B14、根据B13所述的装置，所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

C15、一种计算机设备，包括处理器和存储器：

所述存储器用于存储执行C1至C7任一项所述方法的程序，

所述处理器被配置为用于执行所述存储器中存储的程序。

D16、一种计算机存储介质，用于储存为上述C15所述的计算机设备所用的计算机软件指令。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述增强学习模型包括线性模型和上下文赌博机，所述利用增强学习模型分别获取所述目标用户在每个行为激励指数区间对应的预估行为概率和预估不确定性值，包括：

3.根据权利要求2所述的方法，其特征在于，所述用户画像中包括第一用户画像特征，所述利用所述线性模型分别获取每个行为激励指数区间对应的预估行为概率，包括：

获取所述第一用户画像特征；

4.根据权利要求3所述的方法，其特征在于，所述第一用户画像特征包括以下至少一种：

5.根据权利要求2所述的方法，其特征在于，所述用户画像包括第二用户画像特征，所述利用所述上下文赌博机分别获取每个行为激励指数区间对应的预估不确定性值，包括：

获取所述第二用户画像特征；

6.根据权利要求1～5任一项所述的方法，其特征在于，所述根据所述目标用户的标识信息，获取所述目标用户的用户画像，包括：

7.根据权利要求6所述的方法，其特征在于，所述用户特征数据包括：

人行数据、消费数据、APP安装历史数据。

8.一种数据处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器和存储器：

所述存储器用于存储执行权利要求1至7任一项所述方法的程序，

所述处理器被配置为用于执行所述存储器中存储的程序。

10.一种计算机存储介质，其特征在于，用于储存为上述权利要求9所述的计算机设备所用的计算机软件指令。