CN106294882A - 数据挖掘方法以及装置 - Google Patents

数据挖掘方法以及装置 Download PDF

Info

Publication number
CN106294882A
CN106294882A CN201610768451.9A CN201610768451A CN106294882A CN 106294882 A CN106294882 A CN 106294882A CN 201610768451 A CN201610768451 A CN 201610768451A CN 106294882 A CN106294882 A CN 106294882A
Authority
CN
China
Prior art keywords
visitor
factor
common factor
matrix
data point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610768451.9A
Other languages
English (en)
Inventor
焦文健
王海旭
李鑫
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610768451.9A priority Critical patent/CN106294882A/zh
Publication of CN106294882A publication Critical patent/CN106294882A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Abstract

本发明公开了一种数据挖掘方法以及装置,涉及计算机技术领域。本发明利用访客访问网站的大数据分析访客的行为和价值信息,通过对访问数据进行降维简化,然后再利用降维简化后的数据对访客进行分类,将访问行为相近的访客分为一类,进而对分类后的访客进行分析确定访客的价值,实现了通过访客访问网站的大数据分析访客行为,确定访客价值,进一步的,对访客的访问网站行为进行分析,而不只是对购买商品的用户的购买行为进行分析,能够更全面的分析用户,更准确地确定访客价值。此外,便于网站利用访客价值的分析结果丰富访客的画像数据,调整营销策略,优化个性化推荐机制,提升用户体验。

Description

数据挖掘方法以及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种数据挖掘方法以及装置。
背景技术
近年来,随着互联网技术的发展,网上购物已经成为生活中必不可少的消费方式。每天数以亿计的访客访问电商网站产生海量的访问数据。
访客访问电商网站的行为反映了访客的购物心理和购物倾向,进而反映了访客的价值和创利能力。访客的访问行为是衡量访客是否有价值的一项重要因素,也是衡量网站本身用户体验的重要指标。此外,通过对网站访客的行为进行分析,确定访客的价值,便于网站据此调整会员营销策略,优化个性化推荐机制,提升用户体验和转化率等。因此,如何对访客的行为进行分析,确定访客的价值,成为企业越来越关注的信息。
发明内容
本发明所要解决的一个技术问题是:如何对访客的行为进行分析,确定访客的价值。
根据本发明的一个方面,提供的一种数据挖掘方法,包括:选取访客访问网站的访问行为相关的多个指标数据;获取访客的各个公因子的因子得分以及权重,公因子是利用因子分析的方法将多个指标数据进行降维得到的;根据各个访客的公因子的因子得分以及权重对访客进行分类;根据分类的结果确定每类访客的价值信息。
根据本发明的第二个方面,提供的一种数据挖掘装置,包括:指标选取模块,用于选取访客访问网站的访问行为相关的多个指标数据;因子分析模块,用于获取访客的各个公因子的因子得分以及权重,公因子是利用因子分析的方法将多个指标数据进行降维得到的;分类模块,用于根据各个访客的公因子的因子得分以及权重对访客进行分类;访客价值分析模块,用于根据分类的结果确定每类访客的价值信息。
根据本发明的第三个方面,提供的一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行前述任一个实施例中的数据挖掘方法。
本发明利用访客访问网站的大数据分析访客的行为和价值信息,通过对访问数据进行降维简化,然后再利用降维简化后的数据对访客进行分类,将访问行为相近的访客分为一类,进而对分类后的访客进行分析确定访客的价值,实现了通过访客访问网站的大数据分析访客行为,确定访客价值。
进一步的,对访客的访问网站行为进行分析,而不只是对购买商品的用户的购买行为进行分析,能够更全面的分析用户,更准确地确定访客价值。
此外,便于网站利用访客价值的分析结果丰富访客的画像数据,调整营销策略,优化个性化推荐机制,提升用户体验。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明的一个实施例的数据挖掘装置的结构示意图。
图2示出本发明的另一个实施例的数据挖掘装置的结构示意图。
图3示出本发明的一个实施例的数据挖掘方法的流程示意图。
图4示出本发明的一个应用例的数据挖掘方法的流程示意图。
图5示出本发明的一个应用例的对访客进行分类的结果的示意图。
图6示出本发明的又一个实施例的数据挖掘装置的结构示意图。
图7示出本发明的再一个实施例的数据挖掘装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对如何利用访客访问网站的大数据对访客的行为进行分析,确定访客的价值,提出本方案。
本发明的实施例中的数据挖掘装置可各由各种计算设备或计算机系统来实现,下面结合图1以及图2进行描述。
图1为本发明数据挖掘装置的一个实施例的结构图。如图1所示,该实施例的装置10包括:存储器110以及耦接至该存储器110的处理器120,处理器120被配置为基于存储在存储器110中的指令,执行本发明中任意一个实施例中的数据挖掘方法。
其中,存储器110例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图2为本发明数据挖掘装置的另一个实施例的结构图。如图2所示,该实施例的装置10包括:存储器110以及处理器120,还可以包括输入输出接口230、网络接口240、存储接口250等。这些接口230,240,750以及存储器110和处理器120之间例如可以通过总线260连接。其中,输入输出接口230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口240为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口250为SD卡、U盘等外置存储设备提供连接接口。
以下参考图3至图5描述本法明的识别访客价值信息的方法。
图3为本发明数据挖掘方法一个实施例的流程图。如图3所示,该实施例的方法包括:
步骤S302,选取访客访问网站的访问行为相关的多个指标数据。
其中,从访客的网站访问信息中选取访客访问网站的访问行为相关的多个指标数据,网站访问信息包括访客登陆后的访问信息(例如访客登陆后的购买信息)和访客未登陆时的访问信息(例如,访客未登陆时的浏览网页的信息等点击数据流)。其中,访客登陆后的访问信息可以由服务器进行记录和保存,需要时则直接调用。访客未登陆时的访问信息例如通过浏览器cookie技术进行访客标识,当访客再次访问该网站时能够自动识别访客身份,并通过在网页部署JavaScript代码,收集访客访问网站的访问数据。通常获取一段时间内访问数据,能够更全面的反映的访客的行为,此外,可以周期性的,每隔预设时间获取访客访问行为相关的多个指标数据,用于后续访客价值信息的确定,能够及时的反映访客行为及价值的变化。
步骤S304,获取访客的各个公因子的因子得分以及权重,其中,公因子可以利用因子分析的方法将多个指标数据进行降维得到的。
例如,通过将步骤S302中的多个指标数据输入SPSS(Statistical Product andService Solutions,统计产品与服务解决方案)等因子分析软件,将多个指标数据进行降维获得公因子,并获得各个公因子的因子得分以及权重,后续应用例中将对因子分析的具体方法进行详细介绍。
利用因子分析方法可以对访客访问行为相关的多个指标进行降维,能够用尽量少的信息反映访客的访问行为,便于后续对访客进行分类。
步骤S306,根据各个访客的公因子的因子得分以及权重对访客进行分类。
可以将每个访客的数据作为一个数据点,数据点仅用各个公因子的因子得分等多维数据进行表示,利用聚类分析的方法,对访客进行分类。
也可以将每个访客的数据作为一个数据点,数据点用各个公因子的因子得分和权重等多维数据进行表示,利用聚类分析的方法,对访客进行分类。
进一步的,可以根据各个公因子的业务含义将公因子划分为正面效应公因子和负面效应公因子;利用正面效应公因子的加权值减去负面效应公因子的加权值得到访客的特征指数,其中,每个公因子的加权值根据该公因子的因子得分以及权重确定;利用各个访客的各个公因子的因子得分、权重以及特征指数对访客进行分类。例如,假设正面效应的因子的因子得分为:{f1,f2,…,fn},对应的权重为{p1,p2,…,pn};负面效应的因子的因子得分为:{g1,g2,…,gm},对应的权重为{q1,q2,…,qm};那么访客的正面总价值为:负面总价值为得到访客的特征指数:V=N-M。特征指数可以从整体上反映访客的价值信息,将特征指数作为后续分类的一维数据能够更准确的反映客户的类别以及价值信息。可以将每个访客的数据作为一个数据点,数据点用各个公因子的因子得分、权重以及特征指数等多维数据进行表示,利用聚类分析的方法,对访客进行分类。后续应用例中将对分类方法进行详细介绍。
利用聚类分析方法根据能够反映访问行为的公因子对访客进行分类,可以将访问行为相近的访客分为一类,便于后续对每类访客的价值信息进行分析。
步骤S308,根据分类的结果确定每类访客的价值信息。
其中,通过分类后每一类访客的公因子的含义、公因子的因子得分以及权重等表示访问行为的信息,判断该类访客的价值信息。访客的价值信息例如为访客在该电商网站购买的可能性、购买需求、感兴趣的商品、对网站的满意度,通过哪些途径了解到该网站(例如广告、推荐、搜索引擎优化等)等信息。
上述实施例的方法,利用访客访问网站的大数据分析访客的行为和价值信息,通过对访问数据进行降维简化,然后再利用降维简化后的数据对访客进行分类,将访问行为相近的访客分为一类,进而对分类后的访客进行分析确定访客的价值,实现了通过访客访问网站的大数据分析访客行为,确定访客价值,进一步的,对访客的访问网站行为进行分析,而不只是对购买商品的用户的购买行为进行分析,能够更全面的分析用户,更准确地确定访客价值。此外,便于网站利用访客价值的分析结果丰富访客的画像数据,调整营销策略,优化个性化推荐机制,提升用户体验。
以下参考图4描述本发明数据挖掘方法的一个应用例。
图4为本发明数据挖掘方法一个应用例的流程图。如图4所示,该应用例的方法包括:
步骤S402,选取访客访问网站的访问行为相关的多个指标数据。
其中,可以根据不同的需求选取访问行为相关的多个指标数据,参考表1,例如需要全面分析访客的浏览、购买等访问行为时,指标数据为:
表1
步骤S404,对选取的多个指标数据进行预处理。
其中,预处理的步骤包括:可以根据需求对于选取的多个指标数据进行分类筛选。参考表1中的数据,一种分类方式如下:
计数类:访问次数、登陆次数、商品详情页浏览次数、咨询次数、评论次数、下单次数等;
比值类:跳出率、平均每周访问次数、月复购率、支付成功率等;
生命周期类:累计会话次数、用户首次访问时间、最后访问时间、浏览品类数、购买品类数、总购买金额。
离散特征:离散特征是一个ID类的索引,可以将ID可取的值展开为多维稀疏向量。例如,唯一用户标识、访次ID;登陆账号ID;浏览的商品ID品牌ID、品类ID;购买的商品ID、品牌ID、品类ID。
应注意的是,分类步骤是可选的,分类的方式不限于所举示例。分类后的数据便于找出其中的离散特征,离散特征可以不作为因子分析的数据进行输入,同时,便于进行数据清洗,去除其中的异常值和缺失值。预处理的步骤还包括:对分类后的指标数据进行数据清洗,将进行数据清洗后的所有指标数据进行归一化。归一化的方法例如将所有指标数据进行log转化,或者,选出所有访客的同一种指标数据中的最大值,将各个访客的该指标数据除以该最大值进行归一化。可以根据需求选取不同的归一化方法。不限于所举示例,
步骤S406,对预处理后的多个指标数据进行因子分析,获取访客的各个公因子的因子得分以及权重。
其中,因子分析常用的数学模型如下:
X=AF+ε (1)
其中,每一个变量都可以表示成公因子的线性函数与特殊因子之和,即,
Xi=αi1F1i2F2+……+αimFmi(m≤p) (2)
式中F1……Fm称为公因子,εi称为特殊因子。
公式(1)采用矩阵的方法可以表示为:
X 1 X 2 . . . X P = α 11 α 12 ... α 1 m α 21 α 22 ... α 2 m ... ... ... α p 1 α p 2 ... α p m F 1 F 2 . . . F m + ϵ 1 ϵ 2 . . . ϵ P - - - ( 3 )
在本发明中,X1、X2……XP表示p个选取的指标数据,p为正整数,第i个指标数据Xi针对不同访客的值不同,i为正整数,且1≤i≤p,即Xi=(Xi1、Xi2……Xin),Xin表示访客n的第i个指标数据的值,n为正整数。
将各个访客的各个指标数据作为指标矩阵X输入,结合表1,输入的数据例如表2所示:
访客id 跳出率 平均访问深度 日均访问量 ... 指标p
1 0.49 0.57 0.57 ... 0.432
2 0.16 0.59 0.38 ... 0.623
3 0.18 0.89 0.83 ... 0.166
4 0.13 0.43 0.20 ... 0.798
5 0.93 0.20 0.91 ... 0.089
... ... ... ... ... ...
n 0.80 0.23 0.69 ... 0.313
表2
表2中每一列的数据作为Xi输入,得到指标矩阵X。因子分析过程包括以下步骤:
(1)根据指标矩阵X计算因子载荷矩阵。具体的,根据指标矩阵X的协方差矩阵的特征根和特征向量计算得到指标矩阵X对应的因子载荷矩阵。其中因子载荷矩阵最初计算得到p行,对应于p个因子,从中选取m个作为公因子,再从因子载荷矩阵选取其中对应于m个公因子的m行作为公式(3)中的因子载荷矩阵A。
其中,m个公因子的确定方法为:利用因子载荷矩阵计算每个因子的方差贡献信息,将方差贡献信息大于预设值的因子确定为公因子。具体的,因子载荷矩阵中第j列元素的平方和称为因子Fj对X的方差贡献,j为正整数,且1≤j≤p,它是衡量一个因子相对重要性的一个尺度。本发明提供两种选取公因子的方法:方法一,将方差贡献(也称为因子的特征值)大于1的m个因子作为公因子;方法二,将因子的累积方差贡献率大于预设值(例如80%)的m个因子作为公因子,m个因子的累积方差贡献率表示为p表示因子的总个数,对应于p个指标。
(2)根据公因子的业务含义为公因子命名。具体的,因子载荷矩阵中载荷aij(1≤i≤p,1≤j≤p,且i,j为正整数)表示指标Xi对因子Fj的重要性,如果多个指标在一个因子上的载荷值都大于预设值,则这多个指标可以用这一个因子表示,进而该因子可以根据这多个指标的业务含义确定其业务含义,进一步的,可以根据公因子的业务含义将公因子分为正面效应公因子和负面效应公因子,例如,跳出率等反映访客访问行为负面信息的指标在某一公因子上的载荷值都大于预设值,可以该公因子定义为负面效应公因子。
(3)计算每个访客的各个公因子的因子得分。
因子得分通常采用以下公式表示:
F=BX (4)
每一个公因子都可以表示成指标的线性函数,即
Fj=β1jX12jX2+……+βpjXp (5)
其中,首先利用因子载荷矩阵A计算得到因子得分系数矩阵B;再利用指标矩阵X和因子得分系数矩阵B计算得到因子得分矩阵F;从因子得分矩阵F中确定每个访客的各个公因子的因子得分。进一步的,利用因子载荷矩阵A和指标矩阵X的协方差矩阵计算得到因子得分系数矩阵B,具体的,利用因子载荷矩阵A和指标矩阵X的协方差矩阵的逆矩阵计算得到因子得分系数矩阵B。
因子得分系数矩阵B例如根据不同的算法,例如回归法(Regression)、巴特莱特(Bartlett)算法等利用因子载荷矩阵A计算得到。其中,例如采用回归法时,B=A′[COV(X)]-1,即A的转置矩阵乘以X的协方差矩阵的逆矩阵。得到各个指标X1、X2……XP在公因子Fj上的得分系数β1j、β2j……βpj,之后利用各个得分系数与对应的指标相乘计算得到公因子的因子得分Fj。第j个公因子的因子得分Fj针对不同访客的值不同,j为正整数,且1≤j≤p,即,Fj=(Fj1、Fj2……Fjn),Fjn表示访客n的第j个公因子的因子得分。
(4)计算各个公因子的权重。具体的,将每个公因子的方差贡献与所有公因子的方差贡献总和的比值,即方差贡献率确定为该公因子的权重。
(5)计算各个访客的特征指数。利用正面效应公因子的加权值减去负面效应公因子的加权值得到访客的特征指数,其中,每个公因子的加权值根据该公因子的因子得分以及权重确定。具体参考步骤S306中的描述,在此不再赘述。
步骤S408,利用各个访客的各个公因子的因子得分、权重以及特征指数对访客进行分类。
其中,例如采用K近邻(KNN,K-Nearest Neighbor)算法对访客进行分类,但不限于所举示例。下面以K近邻算法为例描述对访客进行分类的过程。
将各个访客分别表示为一个数据点,每个数据点用该访客对应各个公因子的因子得分、权重以及特征指数等多维数据进行表示。对访客进行分类的过程包括以下步骤:
(1)随机选择多个访客的数据点作为训练数据点,并将各训练数据点随机分为预设数量的类别。例如,欲将访客分为三类,则随机选择若干个数据点作为训练数据点,并划分三类。
(2)针对除训练数据点之外剩余的每个访客的数据点,选出与该剩余的访客的数据点距离最近的预设数量的训练数据点。例如,剩余的访客的数据点C,计算数据点C与每个训练数据点的距离(例如欧式距离),选出其中与数据点C距离最近的K个训练数据点,K为预设值(例如15)。
(3)根据预设数量的训练数据点所属的类别确定该剩余的访客的数据点所属的类别。针对选出的K个训练数据点,判断其中每个训练数据点所属的类别,如果K个训练数据点中属于某一类别的数据点个数最多,则将该类别作为该剩余的访客的数据点所属的类别。例如,20个训练数据点中10个属于类别1,6个属于类别2,4个属于类别3,则最终判断数据点C属于类别1。
参考图5所示,利用K近邻算法(K=15)对访客的数据点进行聚类的结果,将数据点分成了三类。
步骤S410,可选的,根据访客分类的结果调整因子分析的过程。
例如,对访客进行分类后,各个类别的数据点之间的距离都相对较近,没有明显的类别区分,则表示各个公因子的因子得分以及权重之间相差较大,可以人为确定较为重要的公因子增大其因子得分或者权重。也可以通过对因子分析的具体方法进行调整,例如采用不同的因子旋转方法进行因子旋转,计算因子得分时采用不同的方法或者调整因子分析过程中用到的其他算法。也可以对数据进行预处理时采用不同的归一化方法等。根据访客分类的结果调整因子分析的过程,能够在分类结果不明确的情况下及时进行调整,将访客划分为不同的类别,便于对访客的价值信息进行分析。
步骤S412,根据分类的结果确定每类访客的价值信息。
例如,参考图5所示,将访客分为三类,通过对每类访客中各个公因子的含义、因子得分以及权重进行分析确定三类访客的价值信息如下:
第一类:初步意识到商品存在,可能通过广告、推荐、SEO(搜索引擎优化)等被动渠道引入,但没有行成对企业品牌的强烈认知,缺乏购买的动机和行动,需要做更多的引导和培养。
第二类:对某些商品产生兴趣,可能存在潜在的需求,但可能并不明确或者尚未有购买意向,需要进一步识别需求,提供促销、推荐等相关引导,促成转化。
第三类:有具体的购买欲望和动机,对具体商品有明确的兴趣,更易于产生转化,需要更多的关怀和优化服务体验,提升满意度和用户粘性。
应注意的是,上述访客的价值信息只是为了便于理解访客分类的结果以及价值信息分析结果,实际应用过程中访客的价值信息不限于上述示例。
应注意的是,上述应用例中的因子分析方法以及聚类分析方法只是一种示例,本领域技术人员可以理解实际使用过程中,因子分析和聚类分析方法中有很多可以替代的步骤,例如因子得分的计算方式、因子权重的计算方式以及所应用的聚类分析算法等,只要能够实现本发明的目的均属于本法明的保护范围。
本发明还提供一种识别访客价值信息的装置,下面结合图6和图7进行描述。
图6为本发明数据挖掘装置一个实施例的结构图。如图6所示,该装置60包括:
指标选取模块602,用于选取访客访问网站的访问行为相关的多个指标数据。
其中,指标选取模块602,用于从访客的网站访问信息中选取访客访问网站的访问行为相关的多个指标数据,网站访问信息包括访客登陆后的访问信息和访客未登陆时的访问信息。
因子分析模块604,用于获取访客的各个公因子的因子得分以及权重,公因子是利用因子分析的方法将多个指标数据进行降维得到的。
分类模块606,用于根据各个访客的公因子的因子得分以及权重对访客进行分类。
访客价值分析模块608,用于根据分类的结果确定每类访客的价值信息。
以下结合图7描述因子分析模块604和分类模块606的具体实现方式。
图7为本发明数据挖掘装置另一个实施例的结构图。如图7所示,
因子分析模块604包括:
因子载荷矩阵计算单元6041,利用因子分析的方法计算指标矩阵对应的因子载荷矩阵,指标矩阵包括各个访客的指标数据.
公因子确定单元6042,用于利用因子载荷矩阵计算每个因子的方差贡献信息,将方差贡献信息大于预设值的因子确定为公因子。
因子得分确定单元6043,用于利用因子载荷矩阵计算得到因子得分系数矩阵;利用指标矩阵和因子得分系数矩阵计算得到因子得分矩阵;从因子得分矩阵中确定每个访客的各个公因子的因子得分。。
公因子权重确定单元6044,用于将每个公因子的方差贡献与所有公因子的方差贡献总和的比值确定为该公因子的权重。
分类模块606包括:
公因子划分单元6061,用于根据各个公因子的业务含义将公因子划分为正面效应公因子和负面效应公因子。
特征指数计算单元6062,用于利用正面效应公因子的加权值减去负面效应公因子的加权值得到访客的特征指数,其中,每个公因子的加权值根据该公因子的因子得分以及权重确定。
分类单元6063,用于利用各个访客的各个公因子的因子得分、权重以及特征指数对访客进行分类。
其中,分类单元6063,用于随机选择多个访客的数据点作为训练数据点,并将各训练数据点随机分为预设数量的类别,每个访客的数据点包括该访客的各个公因子的因子得分、权重以及特征指数;针对除训练数据点之外剩余的每个访客的数据点,选出与该剩余的访客的数据点距离最近的预设数量的训练数据点;根据预设数量的训练数据点所属的类别确定该剩余的访客的数据点所属的类别。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种数据挖掘方法,其特征在于,包括:
选取访客访问网站的访问行为相关的多个指标数据;
获取访客的各个公因子的因子得分以及权重,所述公因子是利用因子分析的方法将所述多个指标数据进行降维得到的;
根据各个访客的公因子的因子得分以及权重对访客进行分类;
根据分类的结果确定每类访客的价值信息。
2.根据权利要求1所述的方法,其特征在于,
从访客的网站访问信息中选取访客访问网站的访问行为相关的多个指标数据,所述网站访问信息包括访客登陆后的访问信息和访客未登陆时的访问信息。
3.根据权利要求1所述的方法,其特征在于,
所述公因子采用以下方法确定:
利用因子分析的方法计算指标矩阵对应的因子载荷矩阵,所述指标矩阵包括各个访客的指标数据;
利用因子载荷矩阵计算每个因子的方差贡献信息,将方差贡献信息大于预设值的因子确定为公因子。
4.根据权利要求3所述的方法,其特征在于,所述访客的各个公因子的因子得分采用以下方法确定:
利用因子载荷矩阵计算得到因子得分系数矩阵;
利用指标矩阵和因子得分系数矩阵计算得到因子得分矩阵;
从因子得分矩阵中确定每个访客的各个公因子的因子得分。
5.根据权利要求3所述的方法,其特征在于,所述访客的各个公因子的权重采用以下方法确定:
将每个公因子的方差贡献与所有公因子的方差贡献总和的比值确定为该公因子的权重。
6.根据权利要求1所述的方法,其特征在于,所述根据各个访客的公因子的因子得分以及权重对访客进行分类包括:
根据各个公因子的业务含义将公因子划分为正面效应公因子和负面效应公因子;
利用正面效应公因子的加权值减去负面效应公因子的加权值得到访客的特征指数,其中,每个公因子的加权值根据该公因子的因子得分以及权重确定;
利用各个访客的各个公因子的因子得分、权重以及特征指数对访客进行分类。
7.根据权利要求6所述的方法,其特征在于,
所述利用各个访客的各个公因子的因子得分、权重以及特征指数对访客进行分类包括:
随机选择多个访客的数据点作为训练数据点,并将各训练数据点随机分为预设数量的类别,每个访客的数据点包括该访客的各个公因子的因子得分、权重以及特征指数;
针对除所述训练数据点之外剩余的每个访客的数据点,选出与该剩余的访客的数据点距离最近的预设数量的训练数据点;
根据所述预设数量的训练数据点所属的类别确定该剩余的访客的数据点所属的类别。
8.一种数据挖掘装置,其特征在于,包括:
指标选取模块,用于选取访客访问网站的访问行为相关的多个指标数据;
因子分析模块,用于获取访客的各个公因子的因子得分以及权重,所述公因子是利用因子分析的方法将所述多个指标数据进行降维得到的;
分类模块,用于根据各个访客的公因子的因子得分以及权重对访客进行分类;
访客价值分析模块,用于根据分类的结果确定每类访客的价值信息。
9.根据权利要求8所述的装置,其特征在于,
所述指标选取模块,用于从访客的网站访问信息中选取访客访问网站的访问行为相关的多个指标数据,所述网站访问信息包括访客登陆后的访问信息和访客未登陆时的访问信息。
10.根据权利要求8所述的装置,其特征在于,所述因子分析模块包括:
因子载荷矩阵计算单元,利用因子分析的方法计算指标矩阵对应的因子载荷矩阵,所述指标矩阵包括各个访客的指标数据;
公因子确定单元,用于利用因子载荷矩阵计算每个因子的方差贡献信息,将方差贡献信息大于预设值的因子确定为公因子。
11.根据权利要求10所述的装置,其特征在于,所述因子分析模块还包括:
因子得分确定单元,用于利用因子载荷矩阵计算得到因子得分系数矩阵;利用指标矩阵和因子得分系数矩阵计算得到因子得分矩阵;从因子得分矩阵中确定每个访客的各个公因子的因子得分。
12.根据权利要求10所述的装置,其特征在于,所述因子分析模块还包括:
公因子权重确定单元,用于将每个公因子的方差贡献与所有公因子的方差贡献总和的比值确定为该公因子的权重。
13.根据权利要求8所述的装置,其特征在于,所述分类模块包括:
公因子划分单元,用于根据各个公因子的业务含义将公因子划分为正面效应公因子和负面效应公因子;
特征指数计算单元,用于利用正面效应公因子的加权值减去负面效应公因子的加权值得到访客的特征指数,其中,每个公因子的加权值根据该公因子的因子得分以及权重确定;
分类单元,用于利用各个访客的各个公因子的因子得分、权重以及特征指数对访客进行分类。
14.根据权利要求13所述的装置,其特征在于,
所述分类单元,用于随机选择多个访客的数据点作为训练数据点,并将各训练数据点随机分为预设数量的类别,每个访客的数据点包括该访客的各个公因子的因子得分、权重以及特征指数;针对除所述训练数据点之外剩余的每个访客的数据点,选出与该剩余的访客的数据点距离最近的预设数量的训练数据点;根据所述预设数量的训练数据点所属的类别确定该剩余的访客的数据点所属的类别。
15.一种数据挖掘装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求1-7任一项所述的数据挖掘方法。
CN201610768451.9A 2016-08-30 2016-08-30 数据挖掘方法以及装置 Pending CN106294882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610768451.9A CN106294882A (zh) 2016-08-30 2016-08-30 数据挖掘方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610768451.9A CN106294882A (zh) 2016-08-30 2016-08-30 数据挖掘方法以及装置

Publications (1)

Publication Number Publication Date
CN106294882A true CN106294882A (zh) 2017-01-04

Family

ID=57674758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610768451.9A Pending CN106294882A (zh) 2016-08-30 2016-08-30 数据挖掘方法以及装置

Country Status (1)

Country Link
CN (1) CN106294882A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480187A (zh) * 2017-07-10 2017-12-15 北京京东尚科信息技术有限公司 基于聚类分析的用户价值分类方法和装置
CN107644352A (zh) * 2017-09-06 2018-01-30 北京海数宝科技有限公司 多渠道数据的处理方法、装置、存储介质和计算机设备
CN108460475A (zh) * 2017-12-20 2018-08-28 卓智网络科技有限公司 基于学生上网行为的贫困生预测方法和装置
CN108595580A (zh) * 2018-04-17 2018-09-28 阿里巴巴集团控股有限公司 新闻推荐方法、装置、服务器及存储介质
CN112465533A (zh) * 2019-09-09 2021-03-09 中国移动通信集团河北有限公司 智能选品方法、装置及计算设备
CN112598442A (zh) * 2020-12-25 2021-04-02 中国建设银行股份有限公司 一种网络流量多维运营分析方法和装置
CN113034234A (zh) * 2021-03-31 2021-06-25 厦门知本家科技有限公司 基于知户型的线上商铺搭建方法、商铺系统及引流方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070225577A1 (en) * 2006-03-01 2007-09-27 Honeywell International Inc. System and Method for Providing Sensor Based Human Factors Protocol Analysis
CN103295079A (zh) * 2013-06-09 2013-09-11 国家电网公司 一种基于智能数据挖掘模型的电力多目标决策支持方法
CN103577681A (zh) * 2013-06-26 2014-02-12 长沙理工大学 基于因子分析锅炉效率影响指标的定量评价方法
CN104200283A (zh) * 2014-08-27 2014-12-10 华北电力大学 一种基于因子-主属性模型的中长期电力负荷预测方法
CN104899331A (zh) * 2015-06-24 2015-09-09 Tcl集团股份有限公司 电视用户行为数据的聚类方法、装置及Spark大数据平台
CN104966212A (zh) * 2015-06-04 2015-10-07 北京京东尚科信息技术有限公司 用户移动化程度的检测方法及应用方法
CN105590231A (zh) * 2014-10-24 2016-05-18 阿里巴巴集团控股有限公司 用户数据处理方法和装置
CN105761110A (zh) * 2016-02-19 2016-07-13 北京京东尚科信息技术有限公司 跨设备用户价值分析方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070225577A1 (en) * 2006-03-01 2007-09-27 Honeywell International Inc. System and Method for Providing Sensor Based Human Factors Protocol Analysis
CN103295079A (zh) * 2013-06-09 2013-09-11 国家电网公司 一种基于智能数据挖掘模型的电力多目标决策支持方法
CN103577681A (zh) * 2013-06-26 2014-02-12 长沙理工大学 基于因子分析锅炉效率影响指标的定量评价方法
CN104200283A (zh) * 2014-08-27 2014-12-10 华北电力大学 一种基于因子-主属性模型的中长期电力负荷预测方法
CN105590231A (zh) * 2014-10-24 2016-05-18 阿里巴巴集团控股有限公司 用户数据处理方法和装置
CN104966212A (zh) * 2015-06-04 2015-10-07 北京京东尚科信息技术有限公司 用户移动化程度的检测方法及应用方法
CN104899331A (zh) * 2015-06-24 2015-09-09 Tcl集团股份有限公司 电视用户行为数据的聚类方法、装置及Spark大数据平台
CN105761110A (zh) * 2016-02-19 2016-07-13 北京京东尚科信息技术有限公司 跨设备用户价值分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜姣娇: "基于客户价值与满意度的电信运营商集团客户市场营销策略研究", 《中国优秀博士学位论文全文数据库 经济与管理学辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480187A (zh) * 2017-07-10 2017-12-15 北京京东尚科信息技术有限公司 基于聚类分析的用户价值分类方法和装置
CN107644352A (zh) * 2017-09-06 2018-01-30 北京海数宝科技有限公司 多渠道数据的处理方法、装置、存储介质和计算机设备
CN107644352B (zh) * 2017-09-06 2021-10-19 北京海数宝科技有限公司 多渠道数据的处理方法、装置、存储介质和计算机设备
CN108460475A (zh) * 2017-12-20 2018-08-28 卓智网络科技有限公司 基于学生上网行为的贫困生预测方法和装置
CN108595580A (zh) * 2018-04-17 2018-09-28 阿里巴巴集团控股有限公司 新闻推荐方法、装置、服务器及存储介质
CN108595580B (zh) * 2018-04-17 2022-08-09 创新先进技术有限公司 新闻推荐方法、装置、服务器及存储介质
CN112465533A (zh) * 2019-09-09 2021-03-09 中国移动通信集团河北有限公司 智能选品方法、装置及计算设备
CN112598442A (zh) * 2020-12-25 2021-04-02 中国建设银行股份有限公司 一种网络流量多维运营分析方法和装置
CN113034234A (zh) * 2021-03-31 2021-06-25 厦门知本家科技有限公司 基于知户型的线上商铺搭建方法、商铺系统及引流方法

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN106294882A (zh) 数据挖掘方法以及装置
US10410138B2 (en) System and method for automatic generation of features from datasets for use in an automated machine learning process
Shmueli et al. Data mining for business intelligence: Concepts, techniques, and applications in Microsoft Office Excel with XLMiner
CN103714139B (zh) 一种移动海量客户群识别的并行数据挖掘方法
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN107818344A (zh) 用户行为进行分类和预测的方法和系统
CN103729351A (zh) 查询词推荐方法及装置
CN107578270A (zh) 一种金融标签的构建方法、装置及计算设备
Li et al. Stock price prediction incorporating market style clustering
CN108389069A (zh) 基于随机森林和逻辑回归的优质客户识别方法及装置
CN104899229A (zh) 基于群体智能的行为聚类系统
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN115391669B (zh) 一种智能推荐方法、装置、电子设备
CN108364191A (zh) 基于随机森林和逻辑回归的优质客户优化识别方法及装置
CN108154311A (zh) 基于随机森林和决策树的优质客户识别方法及装置
Hu et al. Predicting the quality of online health expert question-answering services with temporal features in a deep learning framework
CN111882420A (zh) 响应率的生成方法、营销方法、模型训练方法及装置
Cao et al. Bond rating using support vector machine
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
KR20210157767A (ko) 재무관리시스템 및 방법
CN111221881A (zh) 用户特征数据合成方法、装置及电子设备
CN111179055A (zh) 授信额度调整方法、装置和电子设备
Prudêncio et al. A modal symbolic classifier for selecting time series models
CN110310012A (zh) 数据分析方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication