CN107818344B

CN107818344B - 用户行为进行分类和预测的方法和系统

Info

Publication number: CN107818344B
Application number: CN201711055158.9A
Authority: CN
Inventors: 王盼; 夏良超
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2020-01-07
Anticipated expiration: 2037-10-31
Also published as: CN107818344A

Abstract

本发明涉及一种对用户行为进行分类识别和预测的方法和系统，所述方法包括以下步骤：步骤1、从一个或多个来源获取预设时段的用户行为数据，并计算用户行为数据在预设的各个维度上的属性；步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性，选择相应的分类模型；步骤3、根据所选的分类模型，对用户行为数据进行分类识别；步骤4、根据分类结果，调用信息知识库，预测用户行为的目的，其中，所述信息知识库记录了用户行为的过程与行为目的之间的关系。

Description

用户行为进行分类和预测的方法和系统

技术领域

本发明涉及互联网服务技术领域，尤其涉及基于决策树归纳对用户行为进行预测的方法。

背景技术

随着互联网的发展，每天都有成千上万的人在页面上进行操作，如何通过方法有效的分析海量数据，并从其中找到有利的规格或资讯已经成为一种趋势。机器学习(Machine Learning)目前看来是最有前途的一种技术。机器学习是近20多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其在各个领域都有广泛的应用，特别在数据分析领域有着深远的影响。而决策树是机器学习中最基础且应用最广泛的算法模型。在做小微企业信贷时，风控是关键，也是比较难把握的一个环节。

在传统的方法中，需要对用户行为进行人工分类、判定，从而预测用户访问网站的意图，并在后期提供有针对性的服务或其它处理应对。在海量数据的场景下，数据往往维度多、数据量大，人工很难将用户行为相关的指标统计全面。此外，由于人会出现疲劳等情况，这种传统的人工识别的方法准确率并不高。

然而，在现有技术中，对用户行为进行分类和预测的方法较为单一，参考效果不理想。由于用户行为包括线上和线下行为，数据来源复杂，存在这样的需求：开发能够针对不同的数据来源、结合多种分类预测技术而综合判定和预测用户属性的方案。

发明内容

基于此，有必要针对上述技术问题，提供基于决策树归纳对用户行为进行预测的方法，其通过同步用户网络访问行为和其它业务行为的次数以及操作时间，根据每个属性的行为次数与时间等特征，建立分类模型(决策树)，从而对用户的行为分类、并预测用户的潜在行为(需求)。

根据本发明的实施例，提供了一种对用户行为进行分类识别和预测的方法，包括以下步骤：

步骤1、从一个或多个来源获取预设时段的用户行为数据，并计算用户行为数据在预设的各个维度上的属性；

步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性，选择相应的分类模型；

步骤3、根据所选的分类模型，对用户行为数据进行分类识别；

步骤4、根据分类结果，调用信息知识库，预测用户行为的目的，

其中，所述信息知识库记录了用户行为的过程与行为目的之间的关系。

根据本发明的实施例，其中，所述步骤1包括：

步骤1-1、对用户身份进行识别，获取所述用户行为数据在各个维度上的属性，如果所述用户行为数据在部分维度的属性不完整，则调用该用户的历史行为数据，与所述预设时段的用户行为数据合并，补充所述部分维度的属性。

根据本发明的实施例，其中，在所述步骤1中，所述用户行为数据的来源包括：用户在业务服务端的网络访问行为数据、线下业务数据、和/或从第三方获取的所述用户行为数据。

根据本发明的实施例，在所述步骤2中，对于用户在业务服务端的网络访问行为数据，选择决策树分类模型，对于线下业务数据、和/或从第三方获取的所述用户行为数据，选择随机森林分类模型。

根据本发明的实施例，其中，通过以下步骤，构建所述决策树分类模型：

S100、获取用户在预设时间段内的网络访问信息，作为训练样本集，其中，所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息；

S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率；

S300、选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性；

S400、将训练样本集中所述分裂属性的取值相同的样本形成决策树分支，对每个决策树分支以递归方式从步骤S200循环执行，继续分裂其它属性，直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止。

根据本发明的实施例，其中，步骤S100包括以下子步骤：

S101、对网络访问信息进行变量区间处理，其中，根据业务的规则为作为变量的行为数据划定区间，并将划定的区间映射为具有业务指标，从而作为后续的数值输入。

根据本发明的实施例，其中，在步骤S200中，在计算信息增益和/或信息增益率时，对不同属性的行为数据施加不同的权重。

根据本发明的实施例，其中，在步骤S200中，在计算信息增益和/或信息增益率时，对在不同时间段收集的行为数据施加不同的权重。

根据本发明的实施例，其中，所述决策树分类模型包括多级决策树分类模型。

根据本发明的实施例，提供了一种基于决树归纳对用户行为进行预测的系统，包括训练模块、分类和预测模块，

所述训练模块用于通过训练样本集构建决策树模型，所述训练样本集包括用户的历史行为数据、以及对应的分类信息，

所述训练模块包括：

样本获取模块，用于获取用户在预设时间段内的网络访问信息，作为训练样本集，其中，所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息；

计算模块，用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率；

分裂模块，用于选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性；

构建模块，将训练样本集中所述分裂属性的取值相同的样本形成决策树分支，对每个决策树分支以递归方式对用所述分裂模块，继续分裂其它属性，直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止，

所述分类和预测模块用于根据训练好的分类模型对用户行为进行分类和预测，包括：

数据获取模块，用于从一个或多个来源获取预设时段的用户行为数据，并计算用户行为数据在预设的各个维度上的属性；

选择模块，用于根据用户行为数据的来源、以及与所述来源相对应的所述属性，选择相应的分类模型；

分类模块，用于根据所选的分类模型，对用户行为数据进行分类；

预测模块，用于根据分类结果，调用信息知识库，预测用户行为的目的。

根据本发明的实施例，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有基于决树归纳对用户行为进行预测的程序，所述程序被处理器执行时执行上述方法的步骤。

本发明的有益效果主要在于：降低人工服务成本，提高对用户行为或需求的预测能力，并大大提高相关业务的办理速度；能够根据样本数据来源的不同，选择不同的分类模型级联和/或并联，使得客户行为的识别、客户关系管理更加精准。

附图说明

图1为根据本发明的实施例的用于分类并预测用户行为的决策树的构建方法的流程示意图；

图2为根据本发明的实施例的基于决策树归纳对用户行为进行预测的方法的流程示意图；

图3为根据本发明的实施例的基于决策树归纳对用户行为进行预测的系统的架构示意图；

图4为根据本发明的实施例的基于决策树归纳对用户行为进行预测的系统的训练模块的示意图；

图5为根据本发明的实施例的基于决策树归纳对用户行为进行预测的系统的分类和预测模块的示意图；

图6为根据本发明的实施例的安装了应用程序的系统的运行环境的示意图。

具体实施方式

下面，结合附图对技术方案的实施作进一步的详细描述。

本领域的技术人员能够理解，尽管以下的说明涉及到有关本发明的实施例的很多技术细节，但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合，只要它们不背离本发明的原理和精神即可。

另外，为了避免使本说明书的描述限于冗繁，在本说明书中的描述中，可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理，这对于本领域的技术人员来说是可以理解的，并且这不会影响本说明书的公开充分性。

下文中，将描述用于进行本发明的实施例。注意，将以下面的次序给出描述：1、发明构思的概要；2、用于分类并预测用户行为的决策树的构建方法(图1)；3、基于决策树的分类预测方法(图2)4、基于决策树归纳对用户行为进行预测的系统(图3至5)；5、根据本发明的实施例的安装了应用程序的系统。

1、发明构思的概要

使用决策树进行分类，首先利用训练集建立并精化一棵决策树，建立决策树模型。这个过程实际上是一个从数据中获取知识、进行机器学习的过程。然后利用生成完毕的决策树对输入数据进行分类。对输入的记录，从根节点依次测试记录的属性值，直到到达某个叶节点，从而找到该记录所在的类。

构造决策树最大的运算代价在于计算选择最佳分裂属性，因为选择分裂的时候，对每个字段都考虑；对每个字段中的值先排序，然后再一一计算，最后选出最佳的分裂属性。对分裂属性的衡量准则包括信息熵和基尼指标(GiniIndex)等方法。

2、用于分类并预测用户行为的决策树的构建方法

鉴于现有技术中不能有效地识别并预测用户网络行为，并本发明的实施例提出了快速有效地识别并预测用户网络行为的方法。

需要说明的是，以下方法以分裂型决策树构建方法作为示例，而本发明可采用其它类型的决策树构建方式，也可采用其它的分类模型，如随机森林法。

如图1所示，构建上述决策树的方法主要包括以下步骤：

S100、获取用户在预设时间段内的网络访问信息，作为训练样本集；

其中，所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息。

S400、将训练样本集中所述分裂属性的取值相同的样本形成决策树分支，对每个决策树分支以递归方式执行步骤S200，继续分裂其它属性，直到决策树的深度(节点的级数)达到预定阈值、或者所有数据属性已经使用完毕为止。

在步骤S100中，作为示例，所述访问行为信息包括在预设时间段内(例如，最近一周、一个月、三个月、半年、一年，等等)、用户对特定网站(包括但不限于传统的Web网站、从移动端应用(APP)访问的网页)的行为数据，如操作和浏览情况(包括各个操作细节、操作时间、操作位置、IP地址等信息)，其由业务服务端的服务器所记录。

作为示例，所述访问行为信息可包括用户的登录时间、登录名、搜索信息、浏览信息以及购买和支付信息，等等。具体地，上述的搜索信息、浏览信息以及购买信息可为用户在访问电商类网站时、或通过移动端APP进行的浏览、搜索以及购买的信息。

作为示例，所述访问类别信息可被视为行为数据的属性或特征，其可包括：完成访问类别信息，包括登录、选中商品、浏览和搜索等类别中的一种或多种；预期访问类别信息，包括认证、购买支付、收藏、下载、咨询等类别中的一种或多种。

也就是说，训练样本集中不但包括原始行为数据本身，还包括每个行为数据所对应的类别，即，在训练样本集中已累积了每个行为数据与类别之间的对应关系。

用户可通过一个或多个不同的终端来进行上述网络访问，终端包括但不限于个人计算机、笔记本电脑、平板电脑、智能手机、可穿戴式智能设备等。服务器可实时检测用户的网络访问信息，并存储该网络访问信息。具体地，服务器可根据用户的登录名、手机号等信息来识别单个用户的网络身份，并单独记录、统计网络身份各自的网络信息。

网络访问信息还包括关于上述网络身份的信息，其包括但不限于用户的基本信息，如用户的国籍、所在城市、年龄、性别、联系方式，等等。

通常，服务器所存储的用户的网络访问信息是用户进行网络访问的综合信息。因此，在获取该网络访问信息后，可对该网络访问信息进行解析，以提取出用户在每个预设行为类别(属性)中的行为数据。

在一个实施例中，该步骤S100可包括：

S101、对网络访问信息进行预处理(数据清洗、筛选)，根据预处理后的网络访问信息中获取用户在每个预设行为类别中的行为数据，使获取的同一类别的行为数据具有相同的格式。

在步骤S101中，为提取出每个类别的行为数据，可对该网络访问信息进行预处理。对网络访问信息的预处理包括对网络访问信息进行变量采集、变量区间处理、极大极小规则处理、缺失值处理和格式处理等。

变量采集为从网络访问信息中采集出用户每次网络访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等等，比如访问一个具体的电商网站时的访问时间、登录时间、浏览信息、搜索信息以及购买信息。服务器在采集出用户每次访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等信息时，可调用相关的累加器或计算器等对应统计出用户在预设时间段内的登录次数、购买次数、浏览次数和搜索次数、购买金额，等等。

变量区间处理为根据业务的规则为每个变量划定区间，并将划定的区间映射为具有业务指标，从而作为后续的数值输入，以计算用户行为熵等特征。例如，用户的上述次数登录次数、购买金额可分别被划分到多个区间中的一个，每个区间对应于具体数值，例如，与次数或金额相关的用户行为可对应于规范化的指标(0至100)。

极大极小规则处理包括对所采集的网络访问信息所包含的数值大小的处理，以降低异常数据对用户的行为分类判断的干扰。具体的，可所对所采集的网络访问信息中的用户的年龄进行极大极小的规则处理。比如，对于年龄为-1、0、或999岁等等，明显不符合正常用户年龄的数据，对其进行极大极小规则处理。

缺失值处理是指所采集网络访问信息中包含的预设行为类别中的行为数据不存在时，可对其进行缺失值处理。如将其标记为“0”，或采用其它信息代替等等。比如，用户采用匿名访问或不登录用户名而直接访问相关的购物网站时，服务器所记录的用户的登录信息则缺失。服务器可对该类信息进行缺失值处理，如可获取用户的访问终端的唯一标识，将该唯一标识作为和用户的登录名进行关联。

格式处理包括对网络访问信息中包含的时间信息的格式的处理，使其格式保持相同。比如，对于所记录的用户的登录时间等时间信息，比如所记录到的时间信息包括20091011和2009-10-11以及2009年10月11日等形式，可将其全部转换成统一格式，如20091011。

在步骤S200中，信息熵的计算公式为：

其中，等式左边表示样本集S的信息熵，c表示预设行为属性的数目，p_i表示第i属性的行为相对于总次数的概率。根据属性S的信息熵，还可计算行为熵，其为每个预设属性的信息熵之和。

信息增益的计算公式为：

其中，等式左边表示属性A的信息增益，S_v为属性A取值为V的样本，|S_V|为属性取值为V的样本数。

信息增益率的计算公式为：

其中，

可选地，在计算信息增益时，可为每个属性A设定不同的权重。

3、基于决策树的分类预测方法(图2)

决策树构建完成之后，可通过如下步骤实现对用户网络访问行为的分类预测，并进一步对用户进行评级，并采取相应的管理手段。

如图2所示，所述分类预测方法主要包括以下步骤：

S600、获取待识别用户网络访问行为的行为特征，确定行为特征的属性；

S700、根据所生成的决策树模型，加载所述行为特征的属性；

S800、递归遍历所述决策树模型，查找所述行为特征对应的决策树叶子分类节点，由所述叶子节点确定所述用户网络访问行为的分类；

S900、根据所确定的分类，对该用户进行评级，并采取相应的管理手段。

可选地，在步骤S600中，包括对用户身份的识别的过程，在识别出用户身份的情况下，调用该用户的历史访问行为数据，补足该用户的网络访问行为特征的多个维度上的属性。如果该用户的历史访问行为数据在部分维度上的属性不完整，则按照默认规则补全不完整的行为属性，以便满足所述决策树模型的要求。

可选地，在步骤S700中，所生成的决策树模型可以有一个或多个，可根据分类目的而选择决策树模型中的一个。并且，可选地，所生成的多个决策树模型也可以是多级关系，通过同类或不同类的决策树模型级联而满足最终的分类要求。

可选地，在步骤S800中，所述分类可为多维输出，根据预定规则，能够产生用户标签，以便建立用户画像。

可选地，在步骤S900中，包括对用户网络访问的权限进行控制。

可选地，在步骤S900中，根据分类结果，调用信息知识库，预测用户行为的目的，其中，所述信息知识库记录了用户的行为过程与行为目的之间的关系。

4、基于决树归纳对用户行为进行分类和预测的系统

参照图3至5，根据本发明的实施例，基于决树归纳对用户行为进行预测的系统主要包括训练模块10、分类和预测模块20。

所述训练模块10用于通过训练样本集构建决策树模型，所述训练样本集包括用户的历史行为数据、以及对应的分类信息。

所述训练模块10包括：

样本获取模块101，用于获取用户在预设时间段内的网络访问信息，作为训练样本集，其中，所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息。

计算模块102，用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率；

分裂模块103，用于选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性；

构建模块104，将训练样本集中所述分裂属性的取值相同的样本形成决策树分支，对每个决策树分支以递归方式对用所述分裂模块，继续分裂其它属性，直到决策树的深度(节点的级数)达到预定阈值、或者所有数据属性已经使用完毕为止。

所述分类和预测模块20包括：

数据获取模块201，用于从一个或多个来源获取预设时段的用户行为数据，并计算用户行为数据在预设的各个维度上的属性；

选择模块202，用于根据用户行为数据的来源、以及与所述来源相对应的所述属性，选择相应的分类模型；

分类模块203，用于根据所选的分类模型，对用户行为数据进行分类；

预测模块204，用于根据分类结果，调用信息知识库，预测用户行为的目的。

此外，本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现，其中，所述计算机可读指令是当被处理器或设备组件执行时，执行本发明所述的不同的实施例。类似地，软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上，例如RAM、EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。

5、根据本发明的实施例的安装了应用程序的系统

参照图6，其示出了根据本发明的实施例的安装了应用程序的系统的运行环境。

在本实施例中，所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。图6仅示出了具有上述组件的电子装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器在一些实施例中可以是所述电子装置的内部存储单元，例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备，例如所述电子装置上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据，例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit，CPU)、微处理器或其他数据处理芯片，用于运行所述存储器中存储的程序代码或处理数据，例如执行所述安装应用程序的系统等。

所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的用户界面，例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。

由上，将理解，为了说明的目的，这里已描述了本发明的具体实施例，但是，可作出各个修改，而不会背离本发明的范围。本领域的技术人员将理解，流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地，可重新安排步骤的次序，可并行执行步骤，可省略步骤，可包括其它步骤，可作出例程的各种组合或省略。因而，本发明仅由所附权利要求限制。

Claims

1.一种对用户行为进行分类识别和预测的方法，包括以下步骤：

步骤1、构建决策树分类模型，在完成决策树分类模型的构建后，

从一个或多个来源获取预设时段的用户行为数据，并计算用户行为数据在预设的各个维度上的属性；

所述构建决策树分类模型，包括以下步骤：

S400、将训练样本集中所述分裂属性的取值相同的样本形成决策树分支，对每个决策树分支以递归方式从步骤S200循环执行，继续分裂其它属性，直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止；

步骤2、根据用户行为数据的来源以及与所述来源相对应的所述属性，选择相应的分类模型，所述分类模型包括决策树分类模型和随机森林模型，对于用户在业务服务端的网络访问行为数据，

选择决策树分类模型，对于线下业务数据、和/或从第三方获取的所述用户行为数据，选择随机森林分类模型；

2.根据权利要求1所述的方法，其中，所述步骤1包括：

3.根据权利要求1所述的方法，其中，在所述步骤1中，所述用户行为数据的来源包括：用户在业务服务端的网络访问行为数据、线下业务数据、和/或从第三方获取的所述用户行为数据。

4.根据权利要求1所述的方法，其中，步骤S100包括以下子步骤：

5.根据权利要求4所述的方法，其中，在步骤S200中，在计算信息增益和/或信息增益率时，对不同属性的行为数据施加不同的权重。

6.根据权利要求4所述的方法，其中，在步骤S200中，在计算信息增益和/或信息增益率时，对在不同时间段收集的行为数据施加不同的权重。

7.一种基于决策树归纳对用户行为进行分类和预测的系统，包括训练模块、分类和预测模块，

所述训练模块包括：

样本获取模块，用于获取用户在预设时间段内的网络访问信息，

作为训练样本集，其中，所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息；

构建模块，将训练样本集中所述分裂属性的取值相同的样本形成决策树分支，对每个决策树分支以递归方式对用所述分裂模块，

继续分裂其它属性，直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止，

数据获取模块，用于从一个或多个来源获取预设时段的用户行为

数据，并计算用户行为数据在预设的各个维度上的属性；

选择模块，用于根据用户行为数据的来源、以及与所述来源相对应的所述属性，选择相应的分类模型，对于用户在业务服务端的网络访问行为数据，选择决策树分类模型，对于线下业务数据、

和/或从第三方获取的所述用户行为数据，选择随机森林分类模型；

预测模块，用于根据分类结果，调用信息知识库，预测用户行为的目的，其中，所述信息知识库记录了用户行为的过程与行为目的之间的关系。

8.一种计算机可读存储介质，其上存储有基于决策树归纳对用户行为进行预测的程序，所述程序被处理器执行时，执行根据权利要求1至6中的一个所述的方法的步骤。