CN107818344B - 用户行为进行分类和预测的方法和系统 - Google Patents
用户行为进行分类和预测的方法和系统 Download PDFInfo
- Publication number
- CN107818344B CN107818344B CN201711055158.9A CN201711055158A CN107818344B CN 107818344 B CN107818344 B CN 107818344B CN 201711055158 A CN201711055158 A CN 201711055158A CN 107818344 B CN107818344 B CN 107818344B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- behavior data
- decision tree
- user behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 160
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 238000003066 decision tree Methods 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 20
- 230000006698 induction Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种对用户行为进行分类识别和预测的方法和系统,所述方法包括以下步骤:步骤1、从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;步骤3、根据所选的分类模型,对用户行为数据进行分类识别;步骤4、根据分类结果,调用信息知识库,预测用户行为的目的,其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。
Description
技术领域
本发明涉及互联网服务技术领域,尤其涉及基于决策树归纳对用户行为进行预测的方法。
背景技术
随着互联网的发展,每天都有成千上万的人在页面上进行操作,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。机器学习(Machine Learning)目前看来是最有前途的一种技术。机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。而决策树是机器学习中最基础且应用最广泛的算法模型。在做小微企业信贷时,风控是关键,也是比较难把握的一个环节。
在传统的方法中,需要对用户行为进行人工分类、判定,从而预测用户访问网站的意图,并在后期提供有针对性的服务或其它处理应对。在海量数据的场景下,数据往往维度多、数据量大,人工很难将用户行为相关的指标统计全面。此外,由于人会出现疲劳等情况,这种传统的人工识别的方法准确率并不高。
然而,在现有技术中,对用户行为进行分类和预测的方法较为单一,参考效果不理想。由于用户行为包括线上和线下行为,数据来源复杂,存在这样的需求:开发能够针对不同的数据来源、结合多种分类预测技术而综合判定和预测用户属性的方案。
发明内容
基于此,有必要针对上述技术问题,提供基于决策树归纳对用户行为进行预测的方法,其通过同步用户网络访问行为和其它业务行为的次数以及操作时间,根据每个属性的行为次数与时间等特征,建立分类模型(决策树),从而对用户的行为分类、并预测用户的潜在行为(需求)。
根据本发明的实施例,提供了一种对用户行为进行分类识别和预测的方法,包括以下步骤:
步骤1、从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
步骤2、根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
步骤3、根据所选的分类模型,对用户行为数据进行分类识别;
步骤4、根据分类结果,调用信息知识库,预测用户行为的目的,
其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。
根据本发明的实施例,其中,所述步骤1包括:
步骤1-1、对用户身份进行识别,获取所述用户行为数据在各个维度上的属性,如果所述用户行为数据在部分维度的属性不完整,则调用该用户的历史行为数据,与所述预设时段的用户行为数据合并,补充所述部分维度的属性。
根据本发明的实施例,其中,在所述步骤1中,所述用户行为数据的来源包括:用户在业务服务端的网络访问行为数据、线下业务数据、和/或从第三方获取的所述用户行为数据。
根据本发明的实施例,在所述步骤2中,对于用户在业务服务端的网络访问行为数据,选择决策树分类模型,对于线下业务数据、和/或从第三方获取的所述用户行为数据,选择随机森林分类模型。
根据本发明的实施例,其中,通过以下步骤,构建所述决策树分类模型:
S100、获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
S300、选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性;
S400、将训练样本集中所述分裂属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式从步骤S200循环执行,继续分裂其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止。
根据本发明的实施例,其中,步骤S100包括以下子步骤:
S101、对网络访问信息进行变量区间处理,其中,根据业务的规则为作为变量的行为数据划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入。
根据本发明的实施例,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对不同属性的行为数据施加不同的权重。
根据本发明的实施例,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对在不同时间段收集的行为数据施加不同的权重。
根据本发明的实施例,其中,所述决策树分类模型包括多级决策树分类模型。
根据本发明的实施例,提供了一种基于决树归纳对用户行为进行预测的系统,包括训练模块、分类和预测模块,
所述训练模块用于通过训练样本集构建决策树模型,所述训练样本集包括用户的历史行为数据、以及对应的分类信息,
所述训练模块包括:
样本获取模块,用于获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
计算模块,用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
分裂模块,用于选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性;
构建模块,将训练样本集中所述分裂属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式对用所述分裂模块,继续分裂其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止,
所述分类和预测模块用于根据训练好的分类模型对用户行为进行分类和预测,包括:
数据获取模块,用于从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
选择模块,用于根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
分类模块,用于根据所选的分类模型,对用户行为数据进行分类;
预测模块,用于根据分类结果,调用信息知识库,预测用户行为的目的。
根据本发明的实施例,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有基于决树归纳对用户行为进行预测的程序,所述程序被处理器执行时执行上述方法的步骤。
本发明的有益效果主要在于:降低人工服务成本,提高对用户行为或需求的预测能力,并大大提高相关业务的办理速度;能够根据样本数据来源的不同,选择不同的分类模型级联和/或并联,使得客户行为的识别、客户关系管理更加精准。
附图说明
图1为根据本发明的实施例的用于分类并预测用户行为的决策树的构建方法的流程示意图;
图2为根据本发明的实施例的基于决策树归纳对用户行为进行预测的方法的流程示意图;
图3为根据本发明的实施例的基于决策树归纳对用户行为进行预测的系统的架构示意图;
图4为根据本发明的实施例的基于决策树归纳对用户行为进行预测的系统的训练模块的示意图;
图5为根据本发明的实施例的基于决策树归纳对用户行为进行预测的系统的分类和预测模块的示意图;
图6为根据本发明的实施例的安装了应用程序的系统的运行环境的示意图。
具体实施方式
下面,结合附图对技术方案的实施作进一步的详细描述。
本领域的技术人员能够理解,尽管以下的说明涉及到有关本发明的实施例的很多技术细节,但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合,只要它们不背离本发明的原理和精神即可。
另外,为了避免使本说明书的描述限于冗繁,在本说明书中的描述中,可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理,这对于本领域的技术人员来说是可以理解的,并且这不会影响本说明书的公开充分性。
下文中,将描述用于进行本发明的实施例。注意,将以下面的次序给出描述:1、发明构思的概要;2、用于分类并预测用户行为的决策树的构建方法(图1);3、基于决策树的分类预测方法(图2)4、基于决策树归纳对用户行为进行预测的系统(图3至5);5、根据本发明的实施例的安装了应用程序的系统。
1、发明构思的概要
使用决策树进行分类,首先利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识、进行机器学习的过程。然后利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根节点依次测试记录的属性值,直到到达某个叶节点,从而找到该记录所在的类。
构造决策树最大的运算代价在于计算选择最佳分裂属性,因为选择分裂的时候,对每个字段都考虑;对每个字段中的值先排序,然后再一一计算,最后选出最佳的分裂属性。对分裂属性的衡量准则包括信息熵和基尼指标(GiniIndex)等方法。
2、用于分类并预测用户行为的决策树的构建方法
鉴于现有技术中不能有效地识别并预测用户网络行为,并本发明的实施例提出了快速有效地识别并预测用户网络行为的方法。
需要说明的是,以下方法以分裂型决策树构建方法作为示例,而本发明可采用其它类型的决策树构建方式,也可采用其它的分类模型,如随机森林法。
如图1所示,构建上述决策树的方法主要包括以下步骤:
S100、获取用户在预设时间段内的网络访问信息,作为训练样本集;
其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息。
S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
S300、选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性;
S400、将训练样本集中所述分裂属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式执行步骤S200,继续分裂其它属性,直到决策树的深度(节点的级数)达到预定阈值、或者所有数据属性已经使用完毕为止。
在步骤S100中,作为示例,所述访问行为信息包括在预设时间段内(例如,最近一周、一个月、三个月、半年、一年,等等)、用户对特定网站(包括但不限于传统的Web网站、从移动端应用(APP)访问的网页)的行为数据,如操作和浏览情况(包括各个操作细节、操作时间、操作位置、IP地址等信息),其由业务服务端的服务器所记录。
作为示例,所述访问行为信息可包括用户的登录时间、登录名、搜索信息、浏览信息以及购买和支付信息,等等。具体地,上述的搜索信息、浏览信息以及购买信息可为用户在访问电商类网站时、或通过移动端APP进行的浏览、搜索以及购买的信息。
作为示例,所述访问类别信息可被视为行为数据的属性或特征,其可包括:完成访问类别信息,包括登录、选中商品、浏览和搜索等类别中的一种或多种;预期访问类别信息,包括认证、购买支付、收藏、下载、咨询等类别中的一种或多种。
也就是说,训练样本集中不但包括原始行为数据本身,还包括每个行为数据所对应的类别,即,在训练样本集中已累积了每个行为数据与类别之间的对应关系。
用户可通过一个或多个不同的终端来进行上述网络访问,终端包括但不限于个人计算机、笔记本电脑、平板电脑、智能手机、可穿戴式智能设备等。服务器可实时检测用户的网络访问信息,并存储该网络访问信息。具体地,服务器可根据用户的登录名、手机号等信息来识别单个用户的网络身份,并单独记录、统计网络身份各自的网络信息。
网络访问信息还包括关于上述网络身份的信息,其包括但不限于用户的基本信息,如用户的国籍、所在城市、年龄、性别、联系方式,等等。
通常,服务器所存储的用户的网络访问信息是用户进行网络访问的综合信息。因此,在获取该网络访问信息后,可对该网络访问信息进行解析,以提取出用户在每个预设行为类别(属性)中的行为数据。
在一个实施例中,该步骤S100可包括:
S101、对网络访问信息进行预处理(数据清洗、筛选),根据预处理后的网络访问信息中获取用户在每个预设行为类别中的行为数据,使获取的同一类别的行为数据具有相同的格式。
在步骤S101中,为提取出每个类别的行为数据,可对该网络访问信息进行预处理。对网络访问信息的预处理包括对网络访问信息进行变量采集、变量区间处理、极大极小规则处理、缺失值处理和格式处理等。
变量采集为从网络访问信息中采集出用户每次网络访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等等,比如访问一个具体的电商网站时的访问时间、登录时间、浏览信息、搜索信息以及购买信息。服务器在采集出用户每次访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等信息时,可调用相关的累加器或计算器等对应统计出用户在预设时间段内的登录次数、购买次数、浏览次数和搜索次数、购买金额,等等。
变量区间处理为根据业务的规则为每个变量划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入,以计算用户行为熵等特征。例如,用户的上述次数登录次数、购买金额可分别被划分到多个区间中的一个,每个区间对应于具体数值,例如,与次数或金额相关的用户行为可对应于规范化的指标(0至100)。
极大极小规则处理包括对所采集的网络访问信息所包含的数值大小的处理,以降低异常数据对用户的行为分类判断的干扰。具体的,可所对所采集的网络访问信息中的用户的年龄进行极大极小的规则处理。比如,对于年龄为-1、0、或999岁等等,明显不符合正常用户年龄的数据,对其进行极大极小规则处理。
缺失值处理是指所采集网络访问信息中包含的预设行为类别中的行为数据不存在时,可对其进行缺失值处理。如将其标记为“0”,或采用其它信息代替等等。比如,用户采用匿名访问或不登录用户名而直接访问相关的购物网站时,服务器所记录的用户的登录信息则缺失。服务器可对该类信息进行缺失值处理,如可获取用户的访问终端的唯一标识,将该唯一标识作为和用户的登录名进行关联。
格式处理包括对网络访问信息中包含的时间信息的格式的处理,使其格式保持相同。比如,对于所记录的用户的登录时间等时间信息,比如所记录到的时间信息包括20091011和2009-10-11以及2009年10月11日等形式,可将其全部转换成统一格式,如20091011。
在步骤S200中,信息熵的计算公式为:
其中,等式左边表示样本集S的信息熵,c表示预设行为属性的数目,pi表示第i属性的行为相对于总次数的概率。根据属性S的信息熵,还可计算行为熵,其为每个预设属性的信息熵之和。
信息增益的计算公式为:
其中,等式左边表示属性A的信息增益,Sv为属性A取值为V的样本,|SV|为属性取值为V的样本数。
信息增益率的计算公式为:
可选地,在计算信息增益时,可为每个属性A设定不同的权重。
3、基于决策树的分类预测方法(图2)
决策树构建完成之后,可通过如下步骤实现对用户网络访问行为的分类预测,并进一步对用户进行评级,并采取相应的管理手段。
如图2所示,所述分类预测方法主要包括以下步骤:
S600、获取待识别用户网络访问行为的行为特征,确定行为特征的属性;
S700、根据所生成的决策树模型,加载所述行为特征的属性;
S800、递归遍历所述决策树模型,查找所述行为特征对应的决策树叶子分类节点,由所述叶子节点确定所述用户网络访问行为的分类;
S900、根据所确定的分类,对该用户进行评级,并采取相应的管理手段。
可选地,在步骤S600中,包括对用户身份的识别的过程,在识别出用户身份的情况下,调用该用户的历史访问行为数据,补足该用户的网络访问行为特征的多个维度上的属性。如果该用户的历史访问行为数据在部分维度上的属性不完整,则按照默认规则补全不完整的行为属性,以便满足所述决策树模型的要求。
可选地,在步骤S700中,所生成的决策树模型可以有一个或多个,可根据分类目的而选择决策树模型中的一个。并且,可选地,所生成的多个决策树模型也可以是多级关系,通过同类或不同类的决策树模型级联而满足最终的分类要求。
可选地,在步骤S800中,所述分类可为多维输出,根据预定规则,能够产生用户标签,以便建立用户画像。
可选地,在步骤S900中,包括对用户网络访问的权限进行控制。
可选地,在步骤S900中,根据分类结果,调用信息知识库,预测用户行为的目的,其中,所述信息知识库记录了用户的行为过程与行为目的之间的关系。
4、基于决树归纳对用户行为进行分类和预测的系统
参照图3至5,根据本发明的实施例,基于决树归纳对用户行为进行预测的系统主要包括训练模块10、分类和预测模块20。
所述训练模块10用于通过训练样本集构建决策树模型,所述训练样本集包括用户的历史行为数据、以及对应的分类信息。
所述训练模块10包括:
样本获取模块101,用于获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息。
计算模块102,用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
分裂模块103,用于选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性;
构建模块104,将训练样本集中所述分裂属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式对用所述分裂模块,继续分裂其它属性,直到决策树的深度(节点的级数)达到预定阈值、或者所有数据属性已经使用完毕为止。
所述分类和预测模块20包括:
数据获取模块201,用于从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
选择模块202,用于根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型;
分类模块203,用于根据所选的分类模型,对用户行为数据进行分类;
预测模块204,用于根据分类结果,调用信息知识库,预测用户行为的目的。
此外,本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现,其中,所述计算机可读指令是当被处理器或设备组件执行时,执行本发明所述的不同的实施例。类似地,软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上,例如RAM、EPROM、EEPROM、闪存、寄存器、硬盘、CD-ROM、DVD等等。
5、根据本发明的实施例的安装了应用程序的系统
参照图6,其示出了根据本发明的实施例的安装了应用程序的系统的运行环境。
在本实施例中,所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。图6仅示出了具有上述组件的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器在一些实施例中可以是所述电子装置的内部存储单元,例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备,例如所述电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据,例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以是中央处理单元(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行所述存储器中存储的程序代码或处理数据,例如执行所述安装应用程序的系统等。
所述显示器在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的用户界面,例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。
由上,将理解,为了说明的目的,这里已描述了本发明的具体实施例,但是,可作出各个修改,而不会背离本发明的范围。本领域的技术人员将理解,流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地,可重新安排步骤的次序,可并行执行步骤,可省略步骤,可包括其它步骤,可作出例程的各种组合或省略。因而,本发明仅由所附权利要求限制。
Claims (8)
1.一种对用户行为进行分类识别和预测的方法,包括以下步骤:
步骤1、构建决策树分类模型,在完成决策树分类模型的构建后,
从一个或多个来源获取预设时段的用户行为数据,并计算用户行为数据在预设的各个维度上的属性;
所述构建决策树分类模型,包括以下步骤:
S100、获取用户在预设时间段内的网络访问信息,作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
S200、计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
S300、选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性;
S400、将训练样本集中所述分裂属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式从步骤S200循环执行,继续分裂其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止;
步骤2、根据用户行为数据的来源以及与所述来源相对应的所述属性,选择相应的分类模型,所述分类模型包括决策树分类模型和随机森林模型,对于用户在业务服务端的网络访问行为数据,
选择决策树分类模型,对于线下业务数据、和/或从第三方获取的所述用户行为数据,选择随机森林分类模型;
步骤3、根据所选的分类模型,对用户行为数据进行分类识别;
步骤4、根据分类结果,调用信息知识库,预测用户行为的目的,
其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。
2.根据权利要求1所述的方法,其中,所述步骤1包括:
步骤1-1、对用户身份进行识别,获取所述用户行为数据在各个维度上的属性,如果所述用户行为数据在部分维度的属性不完整,则调用该用户的历史行为数据,与所述预设时段的用户行为数据合并,补充所述部分维度的属性。
3.根据权利要求1所述的方法,其中,在所述步骤1中,所述用户行为数据的来源包括:用户在业务服务端的网络访问行为数据、线下业务数据、和/或从第三方获取的所述用户行为数据。
4.根据权利要求1所述的方法,其中,步骤S100包括以下子步骤:
S101、对网络访问信息进行变量区间处理,其中,根据业务的规则为作为变量的行为数据划定区间,并将划定的区间映射为具有业务指标,从而作为后续的数值输入。
5.根据权利要求4所述的方法,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对不同属性的行为数据施加不同的权重。
6.根据权利要求4所述的方法,其中,在步骤S200中,在计算信息增益和/或信息增益率时,对在不同时间段收集的行为数据施加不同的权重。
7.一种基于决策树归纳对用户行为进行分类和预测的系统,包括训练模块、分类和预测模块,
所述训练模块用于通过训练样本集构建决策树模型,所述训练样本集包括用户的历史行为数据、以及对应的分类信息,
所述训练模块包括:
样本获取模块,用于获取用户在预设时间段内的网络访问信息,
作为训练样本集,其中,所述网络访问信息包括访问行为信息、以及每个访问行为所属的访问类别信息;
计算模块,用于计算训练样本集中的每个属性的行为数据的信息熵、信息增益、和/或信息增益率;
分裂模块,用于选出信息增益和/或信息增益率最大的属性作为根节点的分裂属性;
构建模块,将训练样本集中所述分裂属性的取值相同的样本形成决策树分支,对每个决策树分支以递归方式对用所述分裂模块,
继续分裂其它属性,直到决策树的深度达到预定阈值、或者所有数据属性已经使用完毕为止,
所述分类和预测模块用于根据训练好的分类模型对用户行为进行分类和预测,包括:
数据获取模块,用于从一个或多个来源获取预设时段的用户行为
数据,并计算用户行为数据在预设的各个维度上的属性;
选择模块,用于根据用户行为数据的来源、以及与所述来源相对应的所述属性,选择相应的分类模型,对于用户在业务服务端的网络访问行为数据,选择决策树分类模型,对于线下业务数据、
和/或从第三方获取的所述用户行为数据,选择随机森林分类模型;
分类模块,用于根据所选的分类模型,对用户行为数据进行分类;
预测模块,用于根据分类结果,调用信息知识库,预测用户行为的目的,其中,所述信息知识库记录了用户行为的过程与行为目的之间的关系。
8.一种计算机可读存储介质,其上存储有基于决策树归纳对用户行为进行预测的程序,所述程序被处理器执行时,执行根据权利要求1至6中的一个所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711055158.9A CN107818344B (zh) | 2017-10-31 | 2017-10-31 | 用户行为进行分类和预测的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711055158.9A CN107818344B (zh) | 2017-10-31 | 2017-10-31 | 用户行为进行分类和预测的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818344A CN107818344A (zh) | 2018-03-20 |
CN107818344B true CN107818344B (zh) | 2020-01-07 |
Family
ID=61603671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711055158.9A Active CN107818344B (zh) | 2017-10-31 | 2017-10-31 | 用户行为进行分类和预测的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107818344B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110266510B (zh) * | 2018-03-21 | 2022-05-24 | 腾讯科技(深圳)有限公司 | 网络控制策略生成方法及装置、网络控制方法、存储介质 |
EP3779836A4 (en) * | 2018-03-27 | 2022-01-19 | Culture Convenience Club Co., Ltd. | DEVICE, METHOD AND PROGRAM FOR MAKING RECOMMENDATIONS BASED ON CUSTOMER ATTRIBUTE INFORMATION |
CN108647818A (zh) * | 2018-05-08 | 2018-10-12 | 山东浪潮通软信息科技有限公司 | 一种预测企业涉税风险的方法及装置 |
CN110472645A (zh) * | 2018-05-09 | 2019-11-19 | 北京京东尚科信息技术有限公司 | 一种选择目标对象的方法和装置 |
CN108961071B (zh) * | 2018-06-01 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 自动预测组合业务收益的方法及终端设备 |
CN109389426A (zh) * | 2018-09-26 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 商品价格层次的获取方法、系统、计算机设备和存储介质 |
CN109409936A (zh) * | 2018-09-28 | 2019-03-01 | 深圳壹账通智能科技有限公司 | 用户消费画像生成方法、装置、设备及可读存储介质 |
CN109523056B (zh) * | 2018-10-12 | 2023-11-07 | 中国平安人寿保险股份有限公司 | 对象能力分类预测方法及装置、电子设备、存储介质 |
CN109409949A (zh) * | 2018-10-17 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 用户群体分类的确定方法、装置、电子设备及存储介质 |
CN109558530A (zh) * | 2018-10-23 | 2019-04-02 | 深圳壹账通智能科技有限公司 | 基于数据处理的用户画像自动生成方法和系统 |
CN109522556B (zh) * | 2018-11-16 | 2024-03-12 | 北京九狐时代智能科技有限公司 | 一种意图识别方法及装置 |
CN109522197B (zh) * | 2018-11-23 | 2022-09-27 | 每日互动股份有限公司 | 一种用户app行为的预测方法 |
CN109753783B (zh) * | 2018-11-28 | 2020-09-08 | 北京友信科技有限公司 | 一种基于机器学习的单点登录方法、装置及计算机可读存储介质 |
CN109815085B (zh) * | 2018-12-29 | 2021-10-22 | 北京城市网邻信息技术有限公司 | 告警数据的分类方法、装置和电子设备及存储介质 |
CN109871809A (zh) * | 2019-02-22 | 2019-06-11 | 福州大学 | 一种基于语义网的机器学习流程智能组装方法 |
CN109902747B (zh) * | 2019-03-01 | 2023-08-29 | 成都农村商业银行股份有限公司 | 一种身份识别方法、装置、设备及计算机可读存储介质 |
CN109918408A (zh) * | 2019-03-01 | 2019-06-21 | 成都农村商业银行股份有限公司 | 一种黑名单更新方法、装置、设备及计算机可读存储介质 |
CN110069545B (zh) * | 2019-03-07 | 2024-02-20 | 创新先进技术有限公司 | 一种行为数据评估方法及装置 |
CN111724187A (zh) * | 2019-03-21 | 2020-09-29 | 上海晶赞融宣科技有限公司 | Dmp受众数据实时处理方法及装置、计算机可读存储介质 |
CN110135701A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 控制规则的自动生成方法、装置、电子设备及可读介质 |
CN110084377B (zh) * | 2019-04-30 | 2023-09-29 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110135901A (zh) * | 2019-05-10 | 2019-08-16 | 重庆天蓬网络有限公司 | 一种企业用户画像构建方法、系统、介质和电子设备 |
CN110298508A (zh) * | 2019-06-28 | 2019-10-01 | 京东数字科技控股有限公司 | 行为预测方法、装置及设备 |
CN110674839B (zh) * | 2019-08-16 | 2023-11-24 | 平安科技(深圳)有限公司 | 异常用户识别方法、装置、存储介质及电子设备 |
CN110516748A (zh) * | 2019-08-29 | 2019-11-29 | 泰康保险集团股份有限公司 | 业务处理方法、装置、介质及电子设备 |
CN111317448B (zh) * | 2020-03-03 | 2024-01-02 | 南京鼓楼医院 | 一种分析视觉空间认知的方法及系统 |
CN111417021B (zh) * | 2020-03-16 | 2022-07-08 | 广州虎牙科技有限公司 | 外挂识别方法、装置、计算机设备和可读存储介质 |
CN111581530A (zh) * | 2020-05-07 | 2020-08-25 | 北京互金新融科技有限公司 | 社团划分方法和装置 |
CN113822309B (zh) * | 2020-09-25 | 2024-04-16 | 京东科技控股股份有限公司 | 用户的分类方法、装置和非易失性计算机可读存储介质 |
CN112348583B (zh) * | 2020-11-04 | 2022-12-06 | 贝壳技术有限公司 | 用户偏好生成方法与生成系统 |
CN114519114B (zh) * | 2020-11-20 | 2024-08-13 | 北京达佳互联信息技术有限公司 | 多媒体资源分类模型构建方法、装置、服务器及存储介质 |
CN112685641B9 (zh) * | 2020-12-31 | 2024-08-16 | 五八有限公司 | 一种信息处理方法及装置 |
CN112580902B (zh) * | 2021-02-26 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 对象数据处理方法、装置、计算机设备和存储介质 |
CN114065042A (zh) * | 2021-11-19 | 2022-02-18 | 恒生电子股份有限公司 | 用户需求预测方法、装置、电子设备及可读存储介质 |
CN114187060A (zh) * | 2021-12-10 | 2022-03-15 | 北京金堤科技有限公司 | 归属企业数据确定方法及其装置 |
CN116226527B (zh) * | 2023-03-03 | 2024-06-07 | 中浙信科技咨询有限公司 | 通过居民大数据实现行为预测的数字化社区治理方法 |
CN116523218A (zh) * | 2023-04-11 | 2023-08-01 | 深圳微应科技有限公司 | 一种服务人员的匹配方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN106934412A (zh) * | 2015-12-31 | 2017-07-07 | 中国科学院深圳先进技术研究院 | 一种用户行为分类方法及系统 |
CN107122390A (zh) * | 2017-03-04 | 2017-09-01 | 华数传媒网络有限公司 | 基于用户群组的推荐系统构建方法 |
-
2017
- 2017-10-31 CN CN201711055158.9A patent/CN107818344B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN106934412A (zh) * | 2015-12-31 | 2017-07-07 | 中国科学院深圳先进技术研究院 | 一种用户行为分类方法及系统 |
CN107122390A (zh) * | 2017-03-04 | 2017-09-01 | 华数传媒网络有限公司 | 基于用户群组的推荐系统构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107818344A (zh) | 2018-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818344B (zh) | 用户行为进行分类和预测的方法和系统 | |
US10504120B2 (en) | Determining a temporary transaction limit | |
US20220101161A1 (en) | Probabilistic methods and systems for resolving anonymous user identities based on artificial intelligence | |
CN111210335B (zh) | 用户风险识别方法、装置及电子设备 | |
EP3276564A1 (en) | Interactive user-interface based analytics engine for creating a comprehensive profile of a user | |
US20160117328A1 (en) | Influence score of a social media domain | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN112529477A (zh) | 信用评估变量筛选方法、装置、计算机设备及存储介质 | |
CN112487021A (zh) | 业务数据的关联分析方法、装置及设备 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
JP2009289172A (ja) | 行動履歴分析システムおよびその方法 | |
CN112347457A (zh) | 异常账户检测方法、装置、计算机设备和存储介质 | |
CN110674020B (zh) | App智能推荐方法、装置及计算机可读存储介质 | |
CN117217812A (zh) | 一种用户行为预测方法、装置、计算机设备及存储介质 | |
CN117194779A (zh) | 基于人工智能的营销系统优化方法、装置及设备 | |
CN112085566B (zh) | 基于智能决策的产品推荐方法、装置及计算机设备 | |
CN115545753A (zh) | 一种基于贝叶斯算法的合作伙伴预测方法及相关设备 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN112084408B (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN114513578A (zh) | 外呼方法、装置、计算机设备及存储介质 | |
CN113868438B (zh) | 信息可信度的校准方法、装置、计算机设备及存储介质 | |
CN113672800B (zh) | 实名认证自然人用户的事项推荐方法及存储介质 | |
CN113837183B (zh) | 基于实时挖掘的多阶段凭证智能生成方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180608 Address after: 518052 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong Applicant after: Shenzhen one ledger Intelligent Technology Co., Ltd. Address before: 200030 Xuhui District, Shanghai Kai Bin Road 166, 9, 10 level. Applicant before: Shanghai Financial Technologies Ltd |
|
GR01 | Patent grant | ||
GR01 | Patent grant |