CN117217812A

CN117217812A - 一种用户行为预测方法、装置、计算机设备及存储介质

Info

Publication number: CN117217812A
Application number: CN202311079863.8A
Authority: CN
Inventors: 刘兴廷
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-12-12

Abstract

本申请公开了一种用户行为预测方法、装置、计算机设备及存储介质，属于人工智能技术领域和科技金融领域。本申请通过基于历史行为数据构建特征数据集，对特征数据集进行特征提取，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对特征进行特征筛选，使用筛选的行为特征集合训练模型，并基于灰狼算法进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。本申请还涉及区块链技术领域，行为数据存储于区块链节点上。本申请提高了用户行为预测模型的精度，以获得更准确的行为预测结果。

Description

一种用户行为预测方法、装置、计算机设备及存储介质

技术领域

本申请属于人工智能技术领域和科技金融领域，具体涉及一种用户行为预测方法、装置、计算机设备及存储介质。

背景技术

随着互联网金融的发展，保险销售的渠道和需求也在不断变革，消费者对保险服务的要求也越来越高，为了提高服务水平，提升自身行业内的竞争力，通过了解和分析用户数据来预测用户续保预测行为成为保险企业亟待解决的问题。例如，针对车险客户的续保预测问题，车险续保预测是指通过分析和挖掘历史保险数据，预测投保用户是否会在保险到期后进行续保，准确预测车辆保险用户是否会继续购买保险，可以帮助保险公司更好的制定保险产品和制定个性化的营销计划，提高销售转化率和客户满意度。同时，车险预测也可以更好的帮助险企及时识别风险保单，降低风险，减少理赔损失，因此车险续保预测在保险销售领域尤其重要。

传统的车险客户续保预测方法，通常以数据分析、数据挖掘为主，依靠保险产品管理人员人工进行分析评估，这种方式耗时且容易受到主观因素的影响。近年来，随着计算机技术的发展，也出现不少通过机器学习算法法进行续保预测的方法，比如使用KNN算法进行训练得到的回归预测模型，这类模型在保险产品相似度较高的情况下可以准确预测，对于差异较大的产品预测精度较低，即当保险产品差异较大时，数据样本之间的相似度较低，导致KNN算法的预测结果可能不够准确。

发明内容

本申请实施例的目的在于提出一种用户行为预测方法、装置、计算机设备及存储介质，以解决现有车险客户续保预测方案存在的当保险产品差异较大的情况下预测精度较低的技术问题。

为了解决上述技术问题，本申请实施例提供一种用户行为预测方法，采用了如下所述的技术方案：

一种用户行为预测方法，包括：

获取历史行为数据，对历史行为数据进行标注，得到行为标注标签；

基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征；

计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合；

使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建；

接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。

进一步地，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合，具体包括：

计算历史行为特征的概率密度，得到第一概率密度；

计算行为标注标签的概率密度，得到第二概率密度；

计算历史行为特征和行为标注标签之间的联合概率；

基于第一概率密度、第二概率密度和联合概率，计算历史行为特征与行为标注标签之间的互信息；

基于互信息对历史行为特征进行特征筛选，得到行为特征集合。

进一步地，基于互信息对历史行为特征进行特征筛选，得到行为特征集合，具体包括：

对历史行为特征与行为标注标签之间的互信息进行排序，得到互信息序列；

基于互信息序列对历史行为特征进行特征筛选，得到筛选特征；

基于筛选特征构建行为特征集合。

进一步地，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，具体包括：

基于预设的决策树算法生成行为特征集合的决策树，并基于决策树构建初始预测模型；

获取初始预测模型的参数组合，其中，参数组合包括树的数量、最大特征数和树的最大深度；

使用灰狼算法对参数组合进行调优，得到最优参数组合；

获取最优参数组合对应的初始预测模型，得到用户行为预测模型。

进一步地，使用灰狼算法对参数组合进行调优，得到最优参数组合，具体包括：

统计初始预测模型的参数组合数量；

生成与参数组合数量匹配的灰狼个体，其中，每一个灰狼个体对应一个参数组合；

初始化每一个灰狼个体的位置；

更新参数组合，并使用交叉验证法评估计算每一个灰狼个体的适应度值；

判断适应度值是否满足终止条件，当适应度值满足终止条件时，确定满足终止条件的适应度值对应的目标灰狼个体；

获取目标灰狼个体对应的参数组合，得到目标参数组合，将目标参数组合作为最优参数组合。

进一步地，判断适应度值是否满足终止条件，当适应度值满足终止条件时，确定满足终止条件的适应度值对应的目标灰狼个体，具体包括：

基于每一个灰狼个体的适应度值对对应的灰狼个体进行位置更新，得到灰狼个体位置；

确定决策树的根节点位置，根据灰狼个体位置和根节点位置判断适应度值是否满足终止条件；

当灰狼个体位置和根节点位置之间的距离小于或等于预设距离阈值时，确定适应度值满足终止条件；

确定满足终止条件的适应度值对应的灰狼个体，得到目标灰狼个体。

进一步地，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征，具体包括：

对标注后的历史行为数据进行数据集划分，得到特征数据集，其中，特征数据集包括训练样本集和测试样本集；

对训练样本集和测试样本集进行样本均衡处理；

对训练样本集进行特征提取，得到训练样本特征；

对测试样本集进行特征提取，得到测试样本特征，其中，历史行为特征包括训练样本特征和测试样本特征。

为了解决上述技术问题，本申请实施例还提供一种用户行为预测装置，采用了如下所述的技术方案：

一种用户行为预测装置，包括：

数据标注模块，用于获取历史行为数据，对历史行为数据进行标注，得到行为标注标签；

特征提取模块，用于基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征；

特征筛选模块，用于计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合；

模型训练模块，用于使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建；

行为预测模块，用于接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述任一项所述的用户行为预测方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述中任一项所述的用户行为预测方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种用户行为预测方法、装置、计算机设备及存储介质，属于人工智能技术领域和科技金融领域。本申请通过获取历史行为数据，对历史行为数据进行标注，得到行为标注标签，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建。接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。本申请使用互信息特征筛选的方法来进行特征筛选，通过计算历史行为特征和行为标签之间的关联性，提取最相关的特征，基于决策树算法训练用户行为预测模型，并使用灰狼算法对模型进行参数调优，以提高了用户行为预测模型的精度，获得更准确的行为预测结果。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的用户行为预测方法的一个实施例的流程图；

图3示出了根据本申请的用户行为预测装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的用户行为预测方法一般由服务器执行，相应地，用户行为预测装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用户行为预测方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

为了解决上述技术问题，本申请公开了一种用户行为预测方法、装置、计算机设备及存储介质，属于人工智能技术领域和科技金融领域，本申请使用互信息特征筛选的方法来进行特征筛选，通过计算历史行为特征和行为标签之间的关联性，提取最相关的特征，基于决策树算法训练用户行为预测模型，并使用灰狼算法对模型进行参数调优，以提高了用户行为预测模型的精度，获得更准确的行为预测结果。本申请的用户行为预测模型可以应用于车险客户续保预测，相较于KNN算法的预测，本申请对于差异较大的保险产品的用户续保预测准确度更高。

所述的用户行为预测方法，包括以下步骤：

S201，获取历史行为数据，对历史行为数据进行标注，得到行为标注标签。

在本实施例中，首先需要获取历史行为数据，这可能是用户在过去的时间段内的行为记录，如点击、购买、浏览等，随后对历史行为数据进行标注，将其与行为标注标签相关联，标注过程可以涉及人工标注、规则匹配或其他自动化标注方法，以将历史行为数据转化为具有标签的数据集。

需要说明的是，针对选取的历史行为数据，进行数据清洗、数值化及归一化处理，保证行为数据有效性。考虑到行为数据的复杂度，通过Z-Score方法进行归一化，提高网络训练时的收敛速度，降低训练时长。Z-Score归一化表达式如下：

式中，x^′为归一化后的行为数据值，X为初始行为数据值，μ为行为数据平均值，σ为标准差。

Z-Score归一化是一种常用的数据归一化方法，也称为标准化，Z-Score通过将原始数据转换为具有零均值和单位方差的标准正态分布来对数据进行缩放和标准化。Z-Score归一化的优点是：保留了原始数据的分布信息，不会改变数据的相对顺序，且适用于大多数统计方法和模型，可以提高模型的稳定性和收敛速度。

S202，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征。

在本实施例中，基于标注后的历史行为数据，构建特征数据集，特征数据集包含用于预测的输入特征和对应的行为标注标签，然后对特征数据集进行特征提取，从中提取能够表示历史行为模式和相关信息的特征，行为特征可以包括统计行为特征、行为频率特征、行为时序特征等。

对训练样本集和测试样本集进行样本均衡处理；

对训练样本集进行特征提取，得到训练样本特征；

在本实施例中，对标注后的历史行为数据进行数据集划分，可以按照预设数据比例来划分，得到特征数据集，其中，特征数据集包括训练样本集和测试样本集，对训练样本集和测试样本集进行样本均衡处理，样本均衡是为了解决数据集中类别不平衡的问题，确保不同类别的样本数量相对均衡，以避免模型对某些类别的过度关注或忽略。对训练样本集进行特征提取，得到训练样本特征，特征提取是从原始数据中提取出能够表示历史行为模式和相关信息的特征。对测试样本集也进行特征提取，得到测试样本特征，测试样本特征的提取方式与训练样本特征提取方式一致，测试样本特征和训练样本特征都是为了在模型预训练阶段使用。

在本申请具体的实施例中，可以使用SMOTE(Synthetic Minority Over-samplingTechnique)采样实现样本均衡处理，SMOTE是一种用于处理类别不平衡问题的数据增强技术，在机器学习中，当训练数据中的不同类别样本数量存在较大差异时，就会出现类别不平衡问题，SMOTE采样通过合成新的少数类样本来增加少数类样本的数量，以平衡数据集。

SMOTE采样的效果是通过生成合成样本来增加少数类样本的数量，从而平衡数据集，提高分类器对少数类的学习能力，这有助于避免在类别不平衡情况下，分类器对多数类样本的过度拟合问题。

在上述实施例中，本申请通过数据集划分构建训练样本集和测试样本集，并采用SMOTE采样实现样本均衡，提高分类器对少数类的学习能力，使得训练的模型精度更高。

S203，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合。

互信息(Mutual Information)是一种用于衡量两个随机变量之间相互依赖程度的概念，用于度量两个变量之间的关联性。具体而言，互信息测量了两个变量之间信息的共享程度，即通过一个变量来预测另一个变量的不确定性减少了多少。

互信息可以用于特征选择、特征关联分析和聚类等任务中，互信息在特征选择中用于评估一个特征与目标变量之间的关联程度，较高的互信息表示该特征与目标变量相关性较高，可能包含更多的有用信息。

在本实施例中，通过计算历史行为特征与行为标注标签之间的互信息，衡量特征与行为标签之间的关联程度，互信息度量了特征对于预测目标的贡献和相关性，基于互信息的结果，对历史行为特征进行特征筛选，选择与行为标签相关性较高的特征，构建行为特征集合，特征筛选的目的是减少维度、提高模型的解释性和泛化能力。

计算历史行为特征的概率密度，得到第一概率密度；

计算行为标注标签的概率密度，得到第二概率密度；

计算历史行为特征和行为标注标签之间的联合概率；

概率密度是指在概率论和统计学中描述一个随机变量的取值在某个区间内分布的紧密程度，联合概率是指多个随机变量同时取某个特定取值的概率。

在本实施例中，通过计算历史行为特征的概率密度，得到第一概率密度，通过计算行为标注标签的概率密度，得到第二概率密度，计算历史行为特征和行为标注标签之间的联合概率，

基于第一概率密度、第二概率密度和联合概率，计算历史行为特征与行为标注标签之间的互信息。

在本申请一种具体的实施例中，以续保关键行为特征筛选为例，估车险客户是否再次购买保险的相关行为特征较多，为了能够得到关联性较强的行为特征，可以将续保作为标签，分别计算其与各个用户行为特征的互信息，以互信息来判断衡量行为特征与行为标签之间的关联程度，互信息计算方法如下：

式中，X为行为特征，Y为行为标签，I(X,Y)为X与Y之间的互信息，p(x)为X的概率密度，p(y)为Y的概率密度，p(x,y)为联合概率。

在特征选择中，互信息衡量了特征与标签之间相互依赖的程度，互信息值越大，依赖程度越高，特征与标签之间的相关性也就越强。利用该方式从历史投保数据集中筛选出可作为续保预测的关键特征，通过互信息筛选出保费、险种、车龄、车辆类别、续保年限、保险购买渠道、客户性别等作为关键行为特征，将是否续保作为标签。

基于筛选特征构建行为特征集合。

在本实施例中，对历史行为特征与行为标注标签之间的互信息进行排序，得到互信息序列，基于互信息序列对历史行为特征进行特征筛选，得到筛选特征，基于筛选特征构建行为特征集合。

在上述实施例中，本申请通过互信息对历史行为特征进行特征筛选，特征选择从从原始特征集合中选择最相关或最具有预测能力的特征子集，以降低维度、提高模型性能和减少计算开销。

S204，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建。

基于随机森林(Random Forest，RF)算法训练初始预测模型，RF算法是一种集成学习方法，通过构建多个决策树来进行分类和回归任务，它通过随机选择特征子集和样本子集来构建每个决策树，并通过投票或平均预测结果来得到最终的预测结果，具有较强的泛化能力和抗过拟合能力。

GWO算法是灰狼优化(Grey Wolf Optimization，GWO)算法的简称，GWO优化算法是一种基于自然界灰狼群体行为的优化算法，通过模拟灰狼群体中的领导者和追随者的行为，来寻找最优解，GWO算法通过更新灰狼的位置和适应度值来迭代搜索最优解，具有较强的全局搜索能力和收敛速度。

在本实施例中，使用RF算法基于行为特征集合训练初始预测模型，初始预测模型基于决策树模型构建，在模型训练过程中，使用预设的灰狼算法对初始预测模型进行参数调优，灰狼算法是一种优化算法，用于改进模型的性能并优化模型参数。

使用灰狼算法对参数组合进行调优，得到最优参数组合；

在本实施例中，基于RF算法生成行为特征集合的多颗决策树，组合决策树构建初始预测模型，确定要优化的RF参数，例如树的数量(n_estimators)、最大特征数(max_features)、树的最大深度(max_depth)等，更新RF参数，并在参数更新过程中，使用灰狼算法对参数组合进行调优，得到最优参数组合，获取最优参数组合对应的初始预测模型，得到用户行为预测模型。

统计初始预测模型的参数组合数量；

初始化每一个灰狼个体的位置；

在本实施例中，随机生成一定数量的灰狼个体，每个灰狼个体表示一组RF参数的取值，包括n_estimators、max_features、max_depth等，对于每个灰狼个体，使用交叉验证等方法评估其对应RF参数下的模型性能，将性能作为适应度值，判断适应度值是否满足终止条件，当适应度值满足终止条件时，确定满足终止条件的适应度值对应的目标灰狼个体，获取目标灰狼个体对应的参数组合，得到目标参数组合，将目标参数组合作为最优参数组合。

适应度值可以通过交叉验证等方法评估RF在给定参数下的模型性能，常用的评估指标是准确率，可以根据模型预测结果与真实标签的一致性来计算，其他评估指标如精确度、召回率、F1值等也可以根据具体问题选择。

终止条件是判断灰狼算法是否应该停止迭代的条件，一般有以下几种常见的终止条件：

达到最大迭代次数：设置一个预定的最大迭代次数，当迭代次数达到该值时，算法停止迭代。

适应度值收敛：当适应度值的变化小于一个预定的阈值时，算法停止迭代。

达到目标适应度值：当适应度值达到或超过一个预定的目标值时，算法停止迭代。

在上述实施例中，使用GWO算法对RF的参数进行优化，并根据终止条件判断是否停止迭代，最终输出最优的RF参数取值。

在本实施例中，根据每个灰狼个体的适应度值，对其位置进行更新，位置更新过程可以使用灰狼算法中的搜索策略，通过计算个体之间的相对位置和适应度值来调整位置，通过位置更新，灰狼个体可以朝着适应度更高的方向移动。确定初始预测模型中决策树的根节点位置，并根据灰狼个体位置和根节点位置判断适应度值是否满足终止条件，当灰狼个体位置和根节点位置之间的距离小于或等于预设距离阈值时，确定适应度值满足终止条件，表示灰狼个体已经接近目标位置，并且适应度值已经足够满足终止条件，在满足终止条件的情况下，可以选择具有最高适应度值的灰狼个体作为目标灰狼个体。

在上述实施例中，通过GWO算法对预测模型进行参数调优，通过计算每个灰狼个体的适应度值和位置的更新，以及判断终止条件和选择目标灰狼个体，可以不断优化模型的性能和参数，提高模型的预测能力和泛化能力。

S205，接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。

在本实施例中，训练完成且经过性能验证的用户行为预测模型可以直接应用于用户行为预测，当存在行为预测需求时，接收行为预测指令，获取待预测行为数据，对待预测行为数据进行特征提取，得到待预测行为特征，将待预测行为特征导入用户行为预测模型，得到用户行为预测模型输出的用户行为预测结果。

在上述实施例中，本申请公开了一种用户行为预测方法，属于人工智能技术领域和科技金融领域。本申请通过获取历史行为数据，对历史行为数据进行标注，得到行为标注标签，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建。接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。本申请使用互信息特征筛选的方法来进行特征筛选，通过计算历史行为特征和行为标签之间的关联性，提取最相关的特征，基于决策树算法训练用户行为预测模型，并使用灰狼算法对模型进行参数调优，以提高了用户行为预测模型的精度，获得更准确的行为预测结果。

在本实施例中，用户行为预测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收指令或者获取数据。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

需要强调的是，为进一步保证上述行为数据的私密和安全性，上述行为数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种用户行为预测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的用户行为预测装置300，包括：

数据标注模块301，用于获取历史行为数据，对历史行为数据进行标注，得到行为标注标签；

特征提取模块302，用于基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征；

特征筛选模块303，用于计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合；

模型训练模块304，用于使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建；

行为预测模块305，用于接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。

进一步地，特征筛选模块303具体包括：

第一概率密度计算子模块，用于计算历史行为特征的概率密度，得到第一概率密度；

第二概率密度计算子模块，用于计算行为标注标签的概率密度，得到第二概率密度；

联合概率计算子模块，用于计算历史行为特征和行为标注标签之间的联合概率；

计算互信息子模块，用于基于第一概率密度、第二概率密度和联合概率，计算历史行为特征与行为标注标签之间的互信息；

特征筛选子模块，用于基于互信息对历史行为特征进行特征筛选，得到行为特征集合。

进一步地，计算互信息子模块具体包括：

互信息排序单元，用于对历史行为特征与行为标注标签之间的互信息进行排序，得到互信息序列；

特征筛选单元，用于基于互信息序列对历史行为特征进行特征筛选，得到筛选特征；

特征集合构建单元，用于基于筛选特征构建行为特征集合。

进一步地，模型训练模块304具体包括：

决策树子模块，用于基于预设的决策树算法生成行为特征集合的决策树，并基于决策树构建初始预测模型；

参数组合子模块，用于获取初始预测模型的参数组合，其中，参数组合包括树的数量、最大特征数和树的最大深度；

参数调优子模块，用于使用灰狼算法对参数组合进行调优，得到最优参数组合；

模型获取子模块，用于获取最优参数组合对应的初始预测模型，得到用户行为预测模型。

进一步地，参数调优子模块具体包括：

参数组合数量单元，用于统计初始预测模型的参数组合数量；

灰狼个体生成单元，用于生成与参数组合数量匹配的灰狼个体，其中，每一个灰狼个体对应一个参数组合；

灰狼位置初始化单元，用于初始化每一个灰狼个体的位置；

适应度值计算单元，用于更新参数组合，并使用交叉验证法评估计算每一个灰狼个体的适应度值；

终止条件单元，用于判断适应度值是否满足终止条件，当适应度值满足终止条件时，确定满足终止条件的适应度值对应的目标灰狼个体；

参数确定单元，用于获取目标灰狼个体对应的参数组合，得到目标参数组合，将目标参数组合作为最优参数组合。

进一步地，终止条件单元具体包括：

灰狼位置更新子单元，用于基于每一个灰狼个体的适应度值对对应的灰狼个体进行位置更新，得到灰狼个体位置；

位置判断子单元，用于确定决策树的根节点位置，根据灰狼个体位置和根节点位置判断适应度值是否满足终止条件；

终止条件判断子单元，用于当灰狼个体位置和根节点位置之间的距离小于或等于预设距离阈值时，确定适应度值满足终止条件；

判断结果子单元，用于确定满足终止条件的适应度值对应的灰狼个体，得到目标灰狼个体。

进一步地，特征提取模块302具体包括：

数据集划分子模块，用于对标注后的历史行为数据进行数据集划分，得到特征数据集，其中，特征数据集包括训练样本集和测试样本集；

样本均衡子模块，用于对训练样本集和测试样本集进行样本均衡处理；

第一特征提取子模块，用于对训练样本集进行特征提取，得到训练样本特征；

第二特征提取子模块，用于对测试样本集进行特征提取，得到测试样本特征，其中，历史行为特征包括训练样本特征和测试样本特征。

在上述实施例中，本申请公开了一种用户行为预测装置，属于人工智能技术领域和科技金融领域。本申请通过获取历史行为数据，对历史行为数据进行标注，得到行为标注标签，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建。接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。本申请使用互信息特征筛选的方法来进行特征筛选，通过计算历史行为特征和行为标签之间的关联性，提取最相关的特征，基于决策树算法训练用户行为预测模型，并使用灰狼算法对模型进行参数调优，以提高了用户行为预测模型的精度，获得更准确的行为预测结果。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如用户行为预测方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述用户行为预测方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

在上述实施例中，本申请公开了一种计算机设备，属于人工智能技术领域和科技金融领域。本申请通过获取历史行为数据，对历史行为数据进行标注，得到行为标注标签，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建。接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。本申请使用互信息特征筛选的方法来进行特征筛选，通过计算历史行为特征和行为标签之间的关联性，提取最相关的特征，基于决策树算法训练用户行为预测模型，并使用灰狼算法对模型进行参数调优，以提高了用户行为预测模型的精度，获得更准确的行为预测结果。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的用户行为预测方法的步骤。

在上述实施例中，本申请公开了一种计算机可读存储介质，属于人工智能技术领域和科技金融领域。本申请通过获取历史行为数据，对历史行为数据进行标注，得到行为标注标签，基于标注后的历史行为数据构建特征数据集，对特征数据集进行特征提取，得到历史行为特征，计算历史行为特征与行为标注标签之间的互信息，并基于互信息对历史行为特征进行特征筛选，得到行为特征集合，使用行为特征集合训练初始预测模型，并基于预设的灰狼算法对初始预测模型进行参数调优，得到用户行为预测模型，其中，初始预测模型基于决策树模型构建。接收行为预测指令，获取待预测行为数据，将待预测行为数据导入用户行为预测模型，得到用户行为预测结果。本申请使用互信息特征筛选的方法来进行特征筛选，通过计算历史行为特征和行为标签之间的关联性，提取最相关的特征，基于决策树算法训练用户行为预测模型，并使用灰狼算法对模型进行参数调优，以提高了用户行为预测模型的精度，获得更准确的行为预测结果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种用户行为预测方法，其特征在于，包括：

获取历史行为数据，对所述历史行为数据进行标注，得到行为标注标签；

基于标注后的所述历史行为数据构建特征数据集，对所述特征数据集进行特征提取，得到历史行为特征；

计算所述历史行为特征与所述行为标注标签之间的互信息，并基于所述互信息对所述历史行为特征进行特征筛选，得到行为特征集合；

使用所述行为特征集合训练初始预测模型，并基于预设的灰狼算法对所述初始预测模型进行参数调优，得到用户行为预测模型，其中，所述初始预测模型基于决策树模型构建；

接收行为预测指令，获取待预测行为数据，将所述待预测行为数据导入用户行为预测模型，得到用户行为预测结果。

2.如权利要求1所述的用户行为预测方法，其特征在于，计算所述历史行为特征与所述行为标注标签之间的互信息，并基于所述互信息对所述历史行为特征进行特征筛选，得到行为特征集合，具体包括：

计算所述历史行为特征的概率密度，得到第一概率密度；

计算所述行为标注标签的概率密度，得到第二概率密度；

计算所述历史行为特征和所述行为标注标签之间的联合概率；

基于所述第一概率密度、所述第二概率密度和所述联合概率，计算所述历史行为特征与所述行为标注标签之间的互信息；

基于所述互信息对所述历史行为特征进行特征筛选，得到行为特征集合。

3.如权利要求2所述的用户行为预测方法，其特征在于，所述基于所述互信息对所述历史行为特征进行特征筛选，得到行为特征集合，具体包括：

对所述历史行为特征与所述行为标注标签之间的互信息进行排序，得到互信息序列；

基于所述互信息序列对所述历史行为特征进行特征筛选，得到筛选特征；

基于所述筛选特征构建所述行为特征集合。

4.如权利要求1所述的用户行为预测方法，其特征在于，所述使用所述行为特征集合训练初始预测模型，并基于预设的灰狼算法对所述初始预测模型进行参数调优，得到用户行为预测模型，具体包括：

基于预设的决策树算法生成所述行为特征集合的决策树，并基于决策树构建所述初始预测模型；

获取所述初始预测模型的参数组合，其中，所述参数组合包括树的数量、最大特征数和树的最大深度；

使用所述灰狼算法对参数组合进行调优，得到最优参数组合；

获取所述最优参数组合对应的初始预测模型，得到所述用户行为预测模型。

5.如权利要求4所述的用户行为预测方法，其特征在于，所述使用所述灰狼算法对参数组合进行调优，得到最优参数组合，具体包括：

统计所述初始预测模型的参数组合数量；

生成与所述参数组合数量匹配的灰狼个体，其中，每一个所述灰狼个体对应一个参数组合；

初始化每一个所述灰狼个体的位置；

更新所述参数组合，并使用交叉验证法评估计算每一个所述灰狼个体的适应度值；

判断所述适应度值是否满足终止条件，当所述适应度值满足所述终止条件时，确定满足所述终止条件的适应度值对应的目标灰狼个体；

获取所述目标灰狼个体对应的参数组合，得到目标参数组合，将所述目标参数组合作为所述最优参数组合。

6.如权利要求5所述的用户行为预测方法，其特征在于，所述判断所述适应度值是否满足终止条件，当所述适应度值满足所述终止条件时，确定满足所述终止条件的适应度值对应的目标灰狼个体，具体包括：

基于每一个所述灰狼个体的适应度值对对应的灰狼个体进行位置更新，得到灰狼个体位置；

确定所述决策树的根节点位置，根据所述灰狼个体位置和所述根节点位置判断所述适应度值是否满足所述终止条件；

当所述所述灰狼个体位置和所述根节点位置之间的距离小于或等于预设距离阈值时，确定所述适应度值满足所述终止条件；

确定满足所述终止条件的适应度值对应的灰狼个体，得到所述目标灰狼个体。

7.如权利要求1至6任意一项所述的用户行为预测方法，其特征在于，基于标注后的所述历史行为数据构建特征数据集，对所述特征数据集进行特征提取，得到历史行为特征，具体包括：

对标注后的所述历史行为数据进行数据集划分，得到所述特征数据集，其中，所述特征数据集包括训练样本集和测试样本集；

对所述训练样本集和所述测试样本集进行样本均衡处理；

对所述训练样本集进行特征提取，得到训练样本特征；

对所述测试样本集进行特征提取，得到测试样本特征，其中，所述历史行为特征包括所述训练样本特征和所述测试样本特征。

8.一种用户行为预测装置，其特征在于，包括：

数据标注模块，用于获取历史行为数据，对所述历史行为数据进行标注，得到行为标注标签；

特征提取模块，用于基于标注后的所述历史行为数据构建特征数据集，对所述特征数据集进行特征提取，得到历史行为特征；

特征筛选模块，用于计算所述历史行为特征与所述行为标注标签之间的互信息，并基于所述互信息对所述历史行为特征进行特征筛选，得到行为特征集合；

模型训练模块，用于使用所述行为特征集合训练初始预测模型，并基于预设的灰狼算法对所述初始预测模型进行参数调优，得到用户行为预测模型，其中，所述初始预测模型基于决策树模型构建；

行为预测模块，用于接收行为预测指令，获取待预测行为数据，将所述待预测行为数据导入用户行为预测模型，得到用户行为预测结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的用户行为预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的用户行为预测方法的步骤。