CN111709766B

CN111709766B - 一种用户行为预测方法、装置、存储介质及电子设备

Info

Publication number: CN111709766B
Application number: CN202010289050.1A
Authority: CN
Inventors: 贾丽; 谭晓辉
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2023-08-18
Anticipated expiration: 2040-04-14
Also published as: CN111709766A

Abstract

本发明实施例提供了一种用户行为预测方法、装置、存储介质及电子设备。该用户行为预测方法首先获取正样本集合中对目标行为敏感的目标标签。然后，基于所述正样本集合，建立用户行为预测模型，基于所述目标标签，训练所述用户行为预测模型为目标预测模型。之后，将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率。可见本方案通过建立用户行为预测模型进行行为预测，能够提高用户图像的筛选效率以及准确率。

Description

一种用户行为预测方法、装置、存储介质及电子设备

技术领域

本发明涉及行为预测技术领域，具体涉及一种用户行为预测方法、装置、存储介质及电子设备。

背景技术

随着信息化技术的快速发展，用户的各种数据也海量增长。其中，用户画像是真实用户的信息化描述方式，其可以如图1所示，由多个表征用户特征的数据标签构成。

目前，通过人工的主观经验，对某些数据标签进行筛选，确定出目标用户群体，然后对该目标用户群体进行相关推荐，例如，筛选出宝妈群体，然后对该宝妈群体进行母婴用品的推送。

然而，人为主观筛选的效率以及准确率都较低，因此，如何提供一种用户行为预测方法，能够提高用户图像的筛选效率以及准确率，是本领域技术人员亟待解决的一大技术难题。

发明内容

有鉴于此，本发明实施例提供了一种用户行为预测方法，能够提高用户图像的筛选效率以及准确率。

为实现上述目的，本发明实施例提供如下技术方案：

一种用户行为预测方法，包括：

获取正样本集合中对目标行为敏感的目标标签；

基于所述正样本集合，建立用户行为预测模型；

基于所述目标标签，训练所述用户行为预测模型为目标预测模型；

将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率。

可选的，所述获取正样本集合中对目标行为敏感的目标标签，包括：

计算用户画像中每个标签对所述目标行为的敏感度值；

确定所述敏感度值大于阈值的标签为目标标签。

可选的，所述计算用户画像中每个标签对所述目标行为的敏感度值，包括：

确定所述全量标签集合中N₀个用户的画像集合为存量用户集合；

获取用户个数为N的正样本集合，N₀大于10N，每个用户画像包括M个标签；

计算所述存量用户集合中每个标签的取值概率；

计算所述正样本集合中每个标签的取值概率；

基于所述存量用户集合中每个标签的取值概率以及所述正样本集合中每个标签的取值概率，确定出每个所述标签的样本用户与存量用户的标签概率值的标准差；

相应的，所述确定所述敏感度值大于阈值的标签为目标标签，包括：

计算所述标准差的期望，确定所述标准差大于所述期望的标签为所述目标标签。

可选的，所述基于所述正样本集合，建立用户行为预测模型，包括：

搭建所述用户行为预测模型，包括输入层、第一隐层、第二隐层、第三隐层以及输出层；

确定所述正样本集合中M个用户画像标签为所述输入层的M个神经元；

确定所述第一隐层具有与所述目标标签的数量相同的卷积核；

基于BP算法，所述第二隐层对所述第一隐层的输出进行特征合并，并通过所述第三隐层对多个标签进行权值计算，所述输出层将所述特征进行加权，输出目标行为概率。

一种用户行为预测装置，包括：

获取模块，用于获取正样本集合中对目标行为敏感的目标标签；

建立模块，用于基于所述正样本集合，建立用户行为预测模型；

训练模块，用于基于所述目标标签，训练所述用户行为预测模型为目标预测模型；

输出模块，用于将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率。

可选的，所述获取模块包括：

第一计算单元，用于计算用户画像中每个标签对所述目标行为的敏感度值；

第一确定单元，用于确定所述敏感度值大于阈值的标签为目标标签。

可选的，所述第一计算单元包括：

第一确定子单元，用于确定所述全量标签集合中N₀个用户的画像集合为存量用户集合；

获取子单元，用于获取用户个数为N的正样本集合，N₀大于10N，每个用户画像包括M个标签；

第一计算子单元，用于计算所述存量用户集合中每个标签的取值概率以及计算所述正样本集合中每个标签的取值概率；

第二确定子单元，用于基于所述存量用户集合中每个标签的取值概率以及所述正样本集合中每个标签的取值概率，确定出每个所述标签的样本用户与存量用户的标签概率值的标准差；

相应的，所述第一确定单元包括：

第二计算子单元，用于计算所述标准差的期望，确定所述标准差大于所述期望的标签为所述目标标签。

可选的，所述训练模块包括：

搭建单元，用于搭建所述用户行为预测模型，包括输入层、第一隐层、第二隐层、第三隐层以及输出层；

第二确定单元，用于确定所述正样本集合中M个用户画像标签为所述输入层的M个神经元；

第三确定单元，用于确定所述第一隐层具有与所述目标标签的数量相同的卷积核；

第二计算单元，用于基于BP算法，所述第二隐层对所述第一隐层的输出进行特征合并，并通过所述第三隐层对多个标签进行权值计算，所述输出层将所述特征进行加权，输出目标行为概率。

一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行任意一项上述的用户行为预测方法。

一种电子设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行任意一项上述的用户行为预测方法。

基于上述技术方案，本发明实施例提供了一种用户行为预测方法、装置、存储介质及电子设备，该用户行为预测方法首先获取正样本集合中对目标行为敏感的目标标签。然后，基于所述正样本集合，建立用户行为预测模型，基于所述目标标签，训练所述用户行为预测模型为目标预测模型。之后，将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率。可见本方案通过建立用户行为预测模型进行行为预测，能够提高用户图像的筛选效率以及准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种用户图像的标签树的示意图；

图2为本发明实施例提供的一种用户行为预测方法的流程示意图；

图3为本发明实施例提供的一种用户行为预测方法的又一流程示意图；

图4为本发明实施例提供的一种用户行为预测方法的又一流程示意图；

图5为本发明实施例提供的一种用户行为预测方法的又一流程示意图；

图6为本发明实施例提供的一种神经网络的结构示意图；

图7为本发明实施例提供的一种用户行为预测装置的结构示意图；

图8为本发明实施例提供的一种电子设备的硬件示意图。

具体实施方式

正如背景技术所述，人为主观筛选的效率以及准确率都较低，因此，本方案提供了一种用户行为预测方法，能够提高用户图像的筛选效率以及准确率。如图2所示，该用户行为预测方法，包括：

S11、获取正样本集合中对目标行为敏感的目标标签。

在本实施例中，首先建立用户画像存储体系，该用户画像存储体系中包括多个用户图像，每个用户图像可以为如图1所示的标签树，那么，一个用户画像存储体系表现为由多个标签树组成的标签森林。其中，一级标签为根标签，与其下的所有子标签组成一个标签树。每个客户的用户画像都是该森林叶节点标签的具体取值集合，例如，用户画像的标签可以表示为(C1，C2， B2，...，Ci，Cj，Ck)。

而信息系统中存在大量的用户，每个叶标签的取值是有限个，在本实施例中，在信息系统中提取出已经发生了某种行为的用户的用户画像，作为正样本集合，即在全量标签集合中找出对某行为敏感度高的标签，换言之，用户产生该行为，跟该标签取值某些值密切相关。

具体的，本发明实施例提供了一种获取正样本集合中对目标行为敏感的目标标签的具体实现方式，如图3所示，包括步骤：

S21、计算用户画像中每个标签对所述目标行为的敏感度值；

S22、确定所述敏感度值大于阈值的标签为目标标签。

进一步的，本发明实施例如图4所示，还提供了一种计算用户画像中每个标签对所述目标行为的敏感度值的具体方式，包括步骤：

S31、确定所述全量标签集合中N₀个用户的画像集合为存量用户集合；

S32、获取用户个数为N的正样本集合，N₀大于10N，每个用户画像包括M个标签；

S33、计算所述存量用户集合中每个标签的取值概率；

S34、计算所述正样本集合中每个标签的取值概率；

S35、基于所述存量用户集合中每个标签的取值概率以及所述正样本集合中每个标签的取值概率，确定出每个所述标签的样本用户与存量用户的标签概率值的标准差；

相应的，上述步骤S22可以通过如下方式确定，包括：

S36、计算所述标准差的期望，确定所述标准差大于所述期望的标签为所述目标标签。

示意性的，本实施例首先从信息系统存量客户画像中选取N₀个用户的画像集合X。假设正样本集合Y中的用户个数是N，那么本实施例中，优选存量用户样本的数量N₀>10N。需要说明的是，除N₀>10N外，N₀在合理的情况下可以尽量大，以使存量数据分析结果能代表群体的普遍性，便于和样本进行比较，分析正样本群体的标签取值特异性。

之后，假设每个用户画像包含M个叶标签，那么可以抽象为M维向量，存量用户X_t的用户画像可表示为(x_t1，x_t2，...，x_tm)；正样本用户Y_t的客户画像可表示为(y_t1，y_t2，...，y_tm)。第i个标签的取值范围可以表示为x_ti，y_ti∈{a_i1， a_i2，...，a_ini}。

进一步的，本实施例逐个计算存量用户每个标签取值的概率P(X)。具体的，确定存量用户第i个标签取值为ait的概率C(ait)为 N0样本中i个标签取值为ait的样本个数。

然后逐个计算样本用户每个标签取值的概率P(Y)。具体的，样本用户第 i个标签取值为ait的概率C(ait)为N样本中i个标签取值为ait的样本个数。

之后，逐个标签计算样本用户Y与存量用户X群体标签概率值的标准差t代表标签向量的维度，取值从1到M。其中，假设第t个维度标签共有 nt个取值，则

需要说明的是，理想状况是绝大部分标签标准差接近零，而少数个标签标准差较大，即样本绝大多数标签的取值分布接近于群体分布，少数标签分布具备特异性。为了进行定量区分标签的敏感程度，本发明设定标签敏感度参数λ，若则认为样本接近于存量数据，标签不具备特征，依据本发明方法给出判断结论，该样本对于用户行为不具备代表性，无法作为预测分析的样本。需要说明的是λ∈(0,1]，由模型建立方根据用户行为特点、价值成本等自行设定容忍度。λ值越大，则对不敏感标签容忍程度越高，λ值越小，则对不敏感标签容忍度越低。根据统计学经验，若标签值对用户行为敏感，样本的/>不会过小，建议λ∈(0.1,0.5)。

S12、基于所述正样本集合，建立用户行为预测模型。

在上文获取了正样本集合后，本步骤基于该正样本集合，搭建一用户行为预测模型，具体的，计算标准差的期望E，表示正样本与存量样本标签取值的平均差异情况。其中标准差大于E的标签相对于其他标签，与普通用户的区别更大，即对待预测的用户行为更敏感，个数记为K。然后对该K 个标签进行分析，其中取样本取值显著高于存量的标签取值an作为标签t的特征子集，其个数为Lt个，其中an满足条件：P(Y_t＝a_n)＞P(X_t＝a_n)。

具体的，本发明实施例提供了一种基于所述正样本集合，建立用户行为预测模型的具体实现方式，如图5所示，包括步骤：

S41、搭建所述用户行为预测模型，包括输入层、第一隐层、第二隐层、第三隐层以及输出层；

S42、确定所述正样本集合中M个用户画像标签为所述输入层的M个神经元；

S43、确定所述第一隐层具有与所述目标标签的数量相同的卷积核；

S44、基于BP算法，所述第二隐层对所述第一隐层的输出进行特征合并，并通过所述第三隐层对多个标签进行权值计算，所述输出层将所述特征进行加权，输出目标行为概率。

示意性的，本实施例采用神经网络作为核心分析模型，结构为非典型神经网络，采用变形的卷积神经与BP结合的网络模型，其中卷积部分有利于特征提取，BP结构用于利用正样本数据对神经网络进行反馈训练。神经网络结构如图6所示。

输入层：神经网络的输入层是用户的画像值，在训练神经网络时，用的是正样本的画像值，训练好后，输入值为待评估用户的画像值。输入层包含 M个神经元，M是用户画像标签的个数。

隐层1：在输入层和隐层1之间，进行卷积操作，内部包含K组卷积核， K是对用户行为敏感的标签的个数。每组卷积核t包含Lt个神经元，且仅与输入层第t个神经元相连。卷积核与输入层之间计算逻辑“AND”，输出到隐层一的值为0或1。隐层1的神经元数量与卷积核的神经元数量一致，且仅与卷积核的一个神经元相连接取值为0表示输入层不包含该卷积核中的一个特征值。隐层一存储的数据为稀疏型，包含较多0和少量的1。

隐层2：对K个标签逐个进行特征合并，隐层一第t组特征图仅与隐层二第t个神经元相连，初始权值为后经BP算法反向调整。隐层二类似于池化层，用于对特征合并。

隐层3：全连接层，其权值用于保留多个标签的叠加信息，使得特征及特征组合均可影响最终预测概率。其初始化权值为后经BP算法反向调整。

输出层：将特征分析结果加权进行输出，使用Ramp函数使其输出结果范围为[0,1]。

S13、基于所述目标标签，训练所述用户行为预测模型为目标预测模型。

建立神经网络模型后，各权值已具备初始值，逐个使用正样本对神经网络进行BP反馈训练，正样本预期输出设定为1，得到局部最优的神经网络权值。

S14、将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率。

然后使用神经网络模型对存量用户进行行为概率预测，输入为用户画像值，输出结果为[0,1]的概率值。

可见，本方案通过建立用户行为预测模型进行行为预测，能够提高用户图像的筛选效率以及准确率。

在上述实施例的基础上，如图7所示，本实施例还提供了一种用户行为预测装置，包括：

获取模块71，用于获取正样本集合中对目标行为敏感的目标标签；

建立模块72，用于基于所述正样本集合，建立用户行为预测模型；

训练模块73，用于基于所述目标标签，训练所述用户行为预测模型为目标预测模型；

输出模块74，用于将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率。

其中，所述获取模块可以包括：

除此，本发明实施例提供的用户行为预测装置中，所述第一计算单元可以包括：

相应的，所述第一确定单元可以包括：

进一步的，所述训练模块可以包括：

该装置的工作原理请参见上述方法实施例，在此不重复叙述。

所述用户行为预测装置包括处理器和存储器，上述获取模块、建立模块、训练模块以及输出模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高用户图像的筛选效率以及准确率。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述用户行为预测方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述用户行为预测方法。

本发明实施例提供了一种设备，如图8所示，设备包括至少一个处理器 81、以及与处理器连接的至少一个存储器82、总线83；其中，处理器、存储器通过总线完成相互间的通信；处理器用于调用存储器中的程序指令，以执行上述的用户行为预测方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

获取正样本集合中对目标行为敏感的目标标签；

基于所述正样本集合，建立用户行为预测模型；

计算用户画像中每个标签对所述目标行为的敏感度值；

确定所述敏感度值大于阈值的标签为目标标签。

计算所述存量用户集合中每个标签的取值概率；

计算所述正样本集合中每个标签的取值概率；

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用户行为预测方法，其特征在于，包括：

获取正样本集合中对目标行为敏感的目标标签；

基于所述正样本集合，建立用户行为预测模型；

将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率；

其中，所述获取正样本集合中对目标行为敏感的目标标签，包括：

计算用户画像中每个标签对所述目标行为的敏感度值；

确定所述敏感度值大于阈值的标签为目标标签；

其中，所述计算用户画像中每个标签对所述目标行为的敏感度值，包括：

确定全量标签集合中N₀个用户的画像集合为存量用户集合；

计算所述存量用户集合中每个标签的取值概率；

计算所述正样本集合中每个标签的取值概率；

2.根据权利要求1所述的用户行为预测方法，其特征在于，所述基于所述正样本集合，建立用户行为预测模型，包括：

3.一种用户行为预测装置，其特征在于，包括：

输出模块，用于将待预测用户行为的用户画像输入所述目标预测模型，由所述目标预测模型输出目标行为概率；

其中，所述获取模块包括：

第一确定单元，用于确定所述敏感度值大于阈值的标签为目标标签；

其中，所述第一计算单元包括：

第一确定子单元，用于确定全量标签集合中N₀个用户的画像集合为存量用户集合；

相应的，所述第一确定单元包括：

4.根据权利要求3所述的用户行为预测装置，其特征在于，所述训练模块包括：

5.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至2中任意一项所述的用户行为预测方法。

6.一种电子设备，设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行如权利要求1至2中任意一项所述的用户行为预测方法。