CN107679044A - 一种电子商务客户访问模式的Web算法 - Google Patents

一种电子商务客户访问模式的Web算法 Download PDF

Info

Publication number
CN107679044A
CN107679044A CN201610618510.4A CN201610618510A CN107679044A CN 107679044 A CN107679044 A CN 107679044A CN 201610618510 A CN201610618510 A CN 201610618510A CN 107679044 A CN107679044 A CN 107679044A
Authority
CN
China
Prior art keywords
data
web
ecommerce
user
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610618510.4A
Other languages
English (en)
Inventor
余漫游
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Dry Network Technology Co Ltd
Original Assignee
Changsha Dry Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Dry Network Technology Co Ltd filed Critical Changsha Dry Network Technology Co Ltd
Priority to CN201610618510.4A priority Critical patent/CN107679044A/zh
Publication of CN107679044A publication Critical patent/CN107679044A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种电子商务客户访问模式的Web算法,通过对电子商务中服务器上的日志文件Web数据进行客户访问信息的分析,重点研究了客户分析系统的数据采集、数据处理、数据存储以及跟踪客户在Web上的浏览行为并进行模式分析,并构建了用户访问模式的挖掘模型及算法的分析与实现。

Description

一种电子商务客户访问模式的Web算法
技术领域
本发明涉及电子商务Web技术领域, 特别涉及用户数据挖掘及利用的处理方法。
背景技术
目前,通过Web进行商务活动带来的便利和它所产生的交易速度已成为电子商务迅猛发展的关键推动力,另一方而,涉及客户端的电子商务活动也正在进行着巨大的革新,如果能够跟踪客户在Web上的浏览行为并进行模式分析,这样将会缩短销售商与客户之间的距离,让销售商更了解自己客户的需求,有针对性地开展电子商务活动。
发明内容
在Inter-net上的客户都意识到,只要他们连接到一个在线市场的服务器上,就已经在这个服务器上留下了一个“脚印”,这就是服务器的日志文件,我们就可以对客户访问留下的这些日志文件进行Web的数据挖掘,就可以根据客户的访问兴趣、访问频度、访问时间动态地调整页而结构,改进服务,给客户个性化的界而,开展有针对性的电子商务以更好地满足访问者的需求,
一、电子商务客户访问模式的数据采集、处理和存储
1数据采集:数据采集层所采集的数据对象即为Web挖掘的源数据,Web挖掘的源数据有:Web服务器日志、客户登记信息和交易数据库,Web服务器日志是由客户访问所产生的服务器日志数据,可分为Server lobs , Error lobs和Cook lobs,其中,Server logs记载用户登录时间、用户IP、用户名、URL词干、URL查询、服务器响应等信息;Error logs存取丢失连接、授权失败、超时等请求失败的数据;Cookies为一种软件构件,能在客户端存储客户访问服务器的信息,Cookie logs是服务器端存储Cookies的有关信息,客户登记信息是指客户通过Web页向服务器提交的表单信息,包括:用户姓名、性别、年龄、住址、电子信箱、身份证号及信用卡号等,客户登记信息必须和访问日志集成,以提高数据挖掘的准确度,交易数据库存储用户在商务网站上购买商品的信息,其内容随数据库结构的不同而有所不同,一般包括:用户名、时间、商品ID、采购数量及价格等;
2数据处理:数据处理层实现对数据采集层所采集的源数据进行处理,包括日志文件的处理和数据仓库的建立:
2、1日志文件的处理:日志文件处理得好坏直接影响挖掘算法产生的结果,其处理过程是保证Web使用挖掘质量的关键,日志文件的处理包括数据清洗、用户确定、用户访问序列确定、用户会话确定、访问路径完善等方而;
(1)数据清洗:数据清洗就是删除日志数据冗余,把日志记录净化成对应的数据项可剔除JPEG ,GIF等图片或其它非pale类的日志记录,规范化URL,提取POST数据项等;
(2)用户确定:用户是指通过一个浏览器访问一个或几个服务器的个体,由于用户可通过不同浏览器、不同机器或不同代理访问服务器,而有些用户则通过同一个代理访问,在服务器上留下相同的IP,这就需要通过其它特征识别,如:浏览器类型、机器名及会话号(Session ID)等;
(3)用户访问序列确定:用户访问序列就是用户请求页而的顺序,一般服务器日志是以访问时间为主键、以IP地址为副键排列的,同一IP地址下,可按用户访问页而的时间顺序作为用户的访问序列,为了准确起见,也可以通过同一Session ID下访问页而的顺序确定用户访问序列;
(4)用户会话确定:把每个用户的点击流分成会话,由于无法得到用户向其它服务器发出的网页请求,所以很难知道用户是何时打开网站的,从而也难以确定用户会话,确定用户会话的最简单的方法是按时间长度确定;
(5)访问路径完善:用户在浏览页而时,很可能使用浏览器上的后退功能,这时要根据用户访问路径的前后页而进行推理,将其中漏掉的页而加在路径里;
2、2数据仓库的建立:数据仓库是基于多维数据的模型,其中的数据是以数据立方体(Data cube)的形式存放的,建立数据立方体关键在于合理地选择维和度量:
(1)维的确定:维是多维数据集的一种结构特性,是描述事实数据表中数据类别的有组织的层次结构,这种类别通常描述相似成员的集合,用户要根据它们进行分析,多维数据模型可以是“星型模式”、“雪花模式”或“事实星座模式”形式存在;
(2)度量的确定:事实数据表的主要特点是包含可汇总的数字数据(事实),以提供有关运作的历史信息,包括在事实数据表中的度量值有两类:可累计的度量值和非累计的度量值,最有用的是可累计度量值,其累计出来的结果是有意义的,用户可通过累计的结果获得汇总信息;
3数据存储:经过处理后的数据由数据存储层进行保存和管理,而向电于商务的Web挖掘应用系统主要有三类存储方式:关系数据库、数据仓库和事务数据库,关系数据库的每个数据表之间不仅具有独立性,且若干个数据表间又具有相关性,这一特点使关系数据库成为数据挖掘最流行的、最丰富的数据源,数据仓库是一个而向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,事务数据库一般为一个文件组成,其中每个记录代表一个事务,通常,一个事务包含一个唯一的事务标识号(trans ID)和一个组成事务的项列表(如,所购买的商品),事务数据库可能有一些附加表,包含关于销售的其它信息,如,事务日期、顾客ID、销售ID及销售分店等,事务数据库特别适合于“购物篮数据分析”的数据挖掘,通过这种挖掘,可以得到类似于“哪些商品适合一起销售”的信息,以提供扩大销售的策略。
二、算法描述与实现:为了清晰地描述以下的算法,我们给出得到最大向前引用序列的实例,假定某一用户在网站的访问路径是:{AB、C、D、C、B、EG、AHUV、U、HV },然后运用MFP算法,可以得到其中的最大向前引用为:{ABCD、ABEG、AHUV、AHW},用户访问网站的活动可以以(起始页,目的页)的方式来表示,对于一个新的访问会话,它的起始点可以定义为空节点,我们用访问序列{(s1、d1)、 (s1、d2) 、···、(Sn、dn)}来表示一个用户的访问序列,然后生成其中的最大向前引用,首先按照用户的ID排列lob中的访问信息,可以得到访问序列{(s1、d1)、 (s1、d2) •(Sn、dn)},对于每一个用户来说,(Si,di)满足时间序,MFP算法用于获取每个用户的最大向前引用,
定义F为存放最大向前引用的结果集,
MFP算法:
(1)设定i=1
字符串集Y初始化为空来存放当前的向前引用路径,设定标志f=1表明是向前访问,
(2) A=Si,B=di
如果A是空集则表明是一个新的会话,
如果当前字串Y不为空:
把Y写入F
Y=B:
转到执行第五步;
(3)若B与Y中的某一个引用(假定为第J个引用)相同
如果f=1:
把Y写入F
f=0
释放Y中从J个开始的引用;
转到执行第五步;
(4)否则,把B附加到Y的尾部
如果f=0设f=1,
第五步:设i=i+1.
如果序列没有结束,转到执行(2),
通过对电子商务Web服务器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问路径,通过确定频繁访问路径,可以了解客户对哪些页而感兴趣,从而更好地改进设计为客户服务。

Claims (3)

1. 一种电子商务客户访问模式的Web算法,其特征在于:对电子商务的Web服务器的日志文件中客户访问数据,进行MFP算法来分析客户的兴趣和爱好, 从而更好地改进设计为客户服务。
2.根据权利要求1所述的方法,其特征在于,对电子商务的客户访问进行数据采集和处理,建立相关的数据存储。
3.根据权利要求1所述的方法,其特征在于,用MFP算法对电子商务的Web服务器数据进行分析与应用。
CN201610618510.4A 2016-08-01 2016-08-01 一种电子商务客户访问模式的Web算法 Pending CN107679044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610618510.4A CN107679044A (zh) 2016-08-01 2016-08-01 一种电子商务客户访问模式的Web算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610618510.4A CN107679044A (zh) 2016-08-01 2016-08-01 一种电子商务客户访问模式的Web算法

Publications (1)

Publication Number Publication Date
CN107679044A true CN107679044A (zh) 2018-02-09

Family

ID=61133133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610618510.4A Pending CN107679044A (zh) 2016-08-01 2016-08-01 一种电子商务客户访问模式的Web算法

Country Status (1)

Country Link
CN (1) CN107679044A (zh)

Similar Documents

Publication Publication Date Title
US10382573B2 (en) Method for click-stream analysis using web directory reverse categorization
US7565425B2 (en) Server architecture and methods for persistently storing and serving event data
KR100645608B1 (ko) 사용자 방문 유알엘 로그를 이용한 정보 검색 서비스 제공 서버 및 그 방법
Chitraa et al. A novel technique for sessions identification in web usage mining preprocessing
US20120233173A1 (en) Determining preferred categories based on user access attribute values
KR102610665B1 (ko) 카테고리 추천을 이용한 비로그인 사용자 메인 상품 추천 서버 및 방법
Siddiqui et al. Web mining techniques in e-commerce applications
US20100161785A1 (en) Method and system for mining websites
CN102222098A (zh) 一种网页预取方法和系统
CN102158365A (zh) 一种网络日志挖掘中的用户聚类方法及系统
CN106599107A (zh) 获得用户行为的方法、装置及服务器
US20130031079A1 (en) Personalized deeplinks for search results
Han et al. Study on web mining algorithm based on usage mining
Chaofeng Research on web session clustering
JP2002539559A (ja) インターネット検索とホットリンクを結びつける、相乗作用を生むインターネットブックマーク
Chitraa et al. An efficient path completion technique for web log mining
Terrance et al. Competitive analysis of retail websites through search engine marketing
Guan et al. From anticipation to action: Data reveal mobile shopping patterns during a yearly mega sale event in China
CN107679044A (zh) 一种电子商务客户访问模式的Web算法
Yong-hong et al. Research of data mining based on e-commerce
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
Rao et al. An efficient hybrid successive Markov model for predicting web user usage behavior using web usage mining
Rathod et al. A personalized mobile search engine based on user preference
Nandal A SYSTEMATIC REVIEW ON DATA PREPROCESSING AND PATTERN DISCOVERY OF WEB USAGE MINING.
CN108282505A (zh) 一种Web开发的电子商务客户访问系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180209

WD01 Invention patent application deemed withdrawn after publication