CN102541934A - 一种在电子商务平台上客户访问页面常见序列的提取方法和装置 - Google Patents

一种在电子商务平台上客户访问页面常见序列的提取方法和装置 Download PDF

Info

Publication number
CN102541934A
CN102541934A CN2010106181093A CN201010618109A CN102541934A CN 102541934 A CN102541934 A CN 102541934A CN 2010106181093 A CN2010106181093 A CN 2010106181093A CN 201010618109 A CN201010618109 A CN 201010618109A CN 102541934 A CN102541934 A CN 102541934A
Authority
CN
China
Prior art keywords
client access
page
data
client
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010106181093A
Other languages
English (en)
Inventor
林冠洲
田斌
李栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Original Assignee
BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SAFE-CODE TECHNOLOGY Co Ltd filed Critical BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Priority to CN2010106181093A priority Critical patent/CN102541934A/zh
Publication of CN102541934A publication Critical patent/CN102541934A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种在电子商务类网站平台上提取客户访问页面常见序列的方法。该方法包括:通过将客户访问页面记录代码嵌入到网站的被采集网页的代码中,采集客户访问网页的记录;将采集的记录数据存入数据库中;通过 PrefixSpan 算法快速挖掘客户访问页面的常见序列,提取满足设定支持度阈值的序列模式。通过本发明解决了现有方法中不能解决的客户访问页面常见序列挖掘的问题,并提高了挖掘效率,减少了提取时所占用的存储空间。本发明同时公开了一种在电子商务类网站平台上提取客户访问页面常见序列的装置。

Description

一种在电子商务平台上客户访问页面常见序列的提取方法和装置
技术领域
本发明涉及计算机数据挖掘技术,特别涉及一种在电子商务网站平台上客户访问页面常见序列的提取方法和装置。 
背景技术
随着电子商务技术和市场发展的不断完善以及国内互联网客户逐年高速增长,客户通过电子商务平台进行业务浏览和业务自助办理的数量逐年上升。电子商务平台的建设好坏直接影响了客户对企业品牌的认知度和信任度。但随着电子商务平台应用和规模的不断扩大,很多业务办理流程呈现出繁琐冗余、页面之间关联混乱的状态,极大的降低了客户体验的满意度。 
随着国内外电子商务企业对于提升客户体验的需求增加,通过研究客户体验来维系客户和提高忠诚度,国内外对于客户体验分析的相关产品逐步出现,主要包括Oracle的RUEI产品。 
RUEI全称是Real User Experience Insight,即真实客户体验洞察力产品。RUEI产品以实际内容和总体响应时间的形式,对实际返回的结果进行监控并提交深入的分析报告。分析结果从不同层面展现给公司不同的客户,提供分析帮助。但是RUEI产品提供的更多是基础层级的数据报表分析,在客户数据挖掘分析上所做的工作十分有限。 
现有的数据挖掘相关技术主要是基于传统理论上的学院派数据挖掘算法,在电子商务数据分析中起到了重要的作用,但是也存在算法实用性欠缺,运算量及运算速度无法满足实际数据要求等诸多缺点。另外,现有的数据挖掘相关技术与数据采集是相互独立的过程,不能对实时采集的数据进行挖掘。较为典型的序列模式挖掘算法包括GSP和SPADE,都直接或间接的运用了Apriori算法的性质,采用多次扫描的候选产生—测试方法,以宽度优先的方式产生很大的候选集,特别是在挖掘长序列的时候,更需要更加有效的挖掘方法。 
综上所述,现有客户体验分析相关产品或缺少客户数据挖掘功能,或不能挖掘实时数据,且挖掘效率低,无法满足大规模数据挖掘的性能。 
发明内容
本发明实施例提供的一种电子商务网站平台上客户访问页面常见序列的提取方法和装置,用以解决从海量数据中提取有效信息,分析客户访问页面常见序列,有效改善电子商务客户体验。 
一种电子商务网站平台上客户访问页面常见序列提取方法包括: 
通过嵌入代码模块部署在电子商务网站平台的WEB服务器上,在待采集的页面上嵌入采集代码,采集客户访问页面信息并发回嵌入代码模块,将采集的流量数据进行解析并存入数据库中;
对嵌入代码采集的基础数据进行预处理;
通过PrefixSpan算法快速挖掘客户访问页面序列,提取满足设定支持度阈值的序列模式,即为客户访问页面常见序列。
一种电子商务网站平台上客户访问页面常见序列提取装置包括: 
嵌入代码模块:用于在电子商务平台的WEB服务器上针对待采集页面嵌入采集代码,并收集所有采集的客户访问基础数据,进行解析后存入数据库中;
基础数据预处理模块:用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;
客户访问页面常见序列挖掘模块:用于将预处理后的数据进行客户访问页面常见序列的挖掘,并进行挖掘结果的展示。
本发明实施例在电子商务网站平台上部署嵌入代码模块,精确采集客户信息,信息内容涵盖访问广泛,客户访问行为提取完备;采用PrefixSpan算法,避免产生候选集,使得客户访问页面常见序列的提取和挖掘更加快速,并减少提取客户访问页面常见序列所占的存储空间,系统资源占用小。
附图说明
图1为实施例提取客户访问页面常见序列的部署架构图; 
图2为本发明数据预处理流程图; 
图3为本发明提取客户公共轨迹的流程图。 

Claims (10)

1.一种在电子商务网站平台上客户访问页面常见序列提取方法,其特征在于,该方法包括:
通过在电子商务网站平台待采集页面上通过嵌入代码模块嵌入采集代码采集客户访问网站平台的页面记录,并将记录存入数据库中;
对通过嵌入代码采集的客户访问页面记录的基础数据进行预处理;
挖掘客户访问页面常见序列,提取满足设定支持度阈值的序列模式,即为客户访问页面常见序列模式。
2.如权利要求1所述的方法,其特征在于,数据来源通过在网站平台上的嵌入代码模块嵌入代码实时进行采集;
嵌入代码模块部署在电子商务网站平台上,通过在待采集页面上嵌入采集代码,当客户访问该页面时,将客户访问信息发往服务器;
客户访问信息经过服务器解析后,提取信息内容包括:客户访问使用的IP地址、访问时间、访问页面地址、上一个页面地址,将提取信息存入数据库中。
3.如权利要求1所述的方法,其特征在于,对采集的基础数据进行预处理,每日定时提取所有客户id,并根据客户id提取每个客户当日访问的页面id,存入数据库中,格式为:客户id、访问页面id、时间。
4.如权利要求1所述的方法,其特征在于,对采集的数据进行计算,设定支持度阈值,提取所有支持度大于阈值的客户访问页面序列,即所挖掘出的客户访问页面常见序列。
5.如权利要求4所述的方法,其特征在于,先找出各个频繁项,根据每个频繁项分别产生投影数据库的集合。每个数据库进行单独挖掘。算法构造前缀模式,它与后缀模式相连得到频繁模式。
6.如权利要求5所述的方法,其特征在于,扫描数据库,得到满足支持度阈值的长度为1的频繁序列;根据1-频繁序列划分搜索空间;找出1-序列模式的子集,构造相应的投影数据库;令每个1-序列为前缀,产生该前缀的投影数据库,并进行挖掘,找出投影数据库中满足支持度阈值的1-序列,与前缀合并为2-频繁序列;令n-频繁序列(n>1)为前缀,构造该前缀的投影数据库,顺序进行递归挖掘,直至各投影数据库不能再产生任何频繁子序列,对该投影数据库的处理终止;客户访问页面的常见序列的集合是在以上递归挖掘过程中发现的模式的并集。
7.一种在电子商务类网站平台上提取客户访问页面常见序列的装置,其特征在于,该装置包括:
嵌入代码模块:用于在电子商务平台的WEB服务器上针对待采集页面嵌入采集代码,并收集所有采集的客户访问基础数据,进行解析后存入数据库中;
基础数据预处理模块:用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;
客户访问页面常见序列挖掘模块:用于将预处理后的数据进行客户访问页面常见序列的挖掘,并进行挖掘结果的展示。
8.如权利要求7所述的装置,其特征在于,所述嵌入代码模块包括:
代码嵌入模块:将采集代码自动嵌入待采集的页面内容中,供客户访问页面时采集客户访问页面信息;
采集数据存储模块:当客户访问待采集页面时将客户访问页面信息发回本模块,解析后将客户访问数据存入数据库中。
9.如权利要求7所述的装置,其特征在于,所述基础数据处理模块包括:
数据提取模块,用于在每日零时定时提取前一天所有客户访问数据,存入视图中;
数据预处理模块,用于提取视图中前一天访问电子商务平台的所有客户id,并根据客户id提取客户前一天访问的所有页面id,存入数据库中,记录时间。
10.如权利要求7所述的装置,其特征在于,所述客户访问页面常见序列挖掘模块包括:
PrefixSpan挖掘算法模块,用于根据PrefixSpan算法处理数据,挖掘客户访问页面常见序列;
结果存储模块,将所有挖掘出的频繁序列进行合并,存入结果文件中;
显示模块,根据挖掘结果显示客户访问页面常见序列。
CN2010106181093A 2010-12-31 2010-12-31 一种在电子商务平台上客户访问页面常见序列的提取方法和装置 Pending CN102541934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106181093A CN102541934A (zh) 2010-12-31 2010-12-31 一种在电子商务平台上客户访问页面常见序列的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106181093A CN102541934A (zh) 2010-12-31 2010-12-31 一种在电子商务平台上客户访问页面常见序列的提取方法和装置

Publications (1)

Publication Number Publication Date
CN102541934A true CN102541934A (zh) 2012-07-04

Family

ID=46348850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106181093A Pending CN102541934A (zh) 2010-12-31 2010-12-31 一种在电子商务平台上客户访问页面常见序列的提取方法和装置

Country Status (1)

Country Link
CN (1) CN102541934A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190548A1 (en) * 2013-05-31 2014-12-04 Teradata Us, Inc. Parallel frequent sequential pattern detecting
CN104574153A (zh) * 2015-01-19 2015-04-29 齐鲁工业大学 快速的负序列挖掘模式在客户购买行为分析中的应用
WO2017143908A1 (zh) * 2016-02-22 2017-08-31 阿里巴巴集团控股有限公司 关联分析方法和装置
CN112765469A (zh) * 2021-01-25 2021-05-07 东北大学 一种从Web点击流数据中挖掘代表序列模式的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242307A (zh) * 2008-02-01 2008-08-13 刘峰 用嵌入代码代理日志实现网站访问分析系统与方法
CN101266610A (zh) * 2008-04-25 2008-09-17 浙江大学 一种Web活跃用户网站访问模式的在线挖掘方法
CN101398926A (zh) * 2008-09-01 2009-04-01 腾讯科技(深圳)有限公司 基于定向投放的广告竞价播放方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242307A (zh) * 2008-02-01 2008-08-13 刘峰 用嵌入代码代理日志实现网站访问分析系统与方法
CN101266610A (zh) * 2008-04-25 2008-09-17 浙江大学 一种Web活跃用户网站访问模式的在线挖掘方法
CN101398926A (zh) * 2008-09-01 2009-04-01 腾讯科技(深圳)有限公司 基于定向投放的广告竞价播放方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014190548A1 (en) * 2013-05-31 2014-12-04 Teradata Us, Inc. Parallel frequent sequential pattern detecting
CN104574153A (zh) * 2015-01-19 2015-04-29 齐鲁工业大学 快速的负序列挖掘模式在客户购买行为分析中的应用
WO2017143908A1 (zh) * 2016-02-22 2017-08-31 阿里巴巴集团控股有限公司 关联分析方法和装置
US10956395B2 (en) 2016-02-22 2021-03-23 Alibaba Group Holding Limited Association analysis method and apparatus
TWI730043B (zh) * 2016-02-22 2021-06-11 香港商阿里巴巴集團服務有限公司 關聯分析方法和裝置
CN112765469A (zh) * 2021-01-25 2021-05-07 东北大学 一种从Web点击流数据中挖掘代表序列模式的方法
CN112765469B (zh) * 2021-01-25 2023-10-27 东北大学 一种从Web点击流数据中挖掘代表序列模式的方法

Similar Documents

Publication Publication Date Title
CN103324718B (zh) 基于海量搜索日志挖掘话题脉络的方法和系统
CN105069087B (zh) 基于Web日志数据挖掘的网站优化方法
CN100422997C (zh) 网页加入可搜索的深标签及浏览器插件和脚本结合的方法
CN101364979B (zh) 下载资料解析及处理系统及方法
CN104182506A (zh) 日志管理方法
CN103927400B (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN104166683B (zh) 一种数据挖掘方法
CN101604324A (zh) 一种基于元搜索的视频服务网站的搜索方法及系统
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN102737021B (zh) 搜索引擎及其实现方法
CN104899243A (zh) 检测兴趣点poi数据准确性的方法及装置
Saad et al. Archiving the web using page changes patterns: a case study
CN100478960C (zh) 一种网络地图服务中未登录地名的定位方法
CN104850549A (zh) 一种网络舆情的监控方法
CN102542478A (zh) 一种电子商务用户公共访问轨迹提取方法和装置
CN102541934A (zh) 一种在电子商务平台上客户访问页面常见序列的提取方法和装置
CN101894157A (zh) 网页呈现方法和装置
CN103838754A (zh) 信息搜索装置及方法
CN104699851A (zh) 一种大数据环境下业务标签的扩展方法
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
CN100470549C (zh) 一种表格定位的数据挖掘方法
CN109947935A (zh) 新闻事件的生成方法及装置
Basyuk Popularization of website and without anchor promotion
CN105069079B (zh) 筛选兴趣点poi数据的方法及装置
CN102708200A (zh) 商务信息检索系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120704

WD01 Invention patent application deemed withdrawn after publication