CN103559252A

CN103559252A - 给游客推荐其很可能会浏览的景点的方法

Info

Publication number: CN103559252A
Application number: CN201310533179.2A
Authority: CN
Inventors: 史一帆; 文益民; 缪裕青; 李芳�
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2013-11-01
Filing date: 2013-11-01
Publication date: 2014-02-05

Abstract

给游客推荐其很可能会浏览的景点的方法，首先获取游客的浏览行为，并将游客按照景点偏好的相似性聚类成若干个游客群，同时为每个游客群分别构建Markov预测模型，具体包括以下几个步骤：1）数据采集；2）数据预处理；3）景点偏好矩阵建立；4）游客聚类；5）预测模型建立；6）景点预测。将游客进行聚类后构建Markov预测模型的算法比现有方法正确率高，实验效果好，预测效果好。

Description

给游客推荐其很可能会浏览的景点的方法

技术领域

本发明属于智能信息处理技术，具体涉及一种基于聚类与马尔科夫（Markov）的预测方法，可用于解决游客偏好预测、旅游产品信息预取、旅游产品推荐等问题，特别是给游客推荐其很可能会浏览的景点。

背景技术

随着互联网与旅游业的不断发展，人们可以随时随地从旅游网站上了解各种旅游信息，但是，旅游信息太多，严重的信息过载使得游客不容易从因特网上找到自己想要的旅游信息，同时导致游客基于因特网做出旅游决策的效率愈低。然而，个性化旅游推荐成为解决这一问题的有效工具。

现在，个性化推荐系统也已经成为人们的热点。其中，获取游客的偏好成为个性化旅游推荐的关键，在游客访问旅游网站时候，游客的行为信息是获取游客的需求与偏好的主要来源，通过分析游客的行为，可以预测游客的需求与偏好，从而为游客提供旅游信息的主动推送，同时，预测出的需求与偏好信息还可以进一步用于个性化旅游推荐。在本发明中主要通过分析游客的浏览行为信息来给游客主动推送旅游信息。

游客的行为包括显示反馈行为和隐式反馈行为，利用显示反馈行为可以很明显地知道游客的偏好，比如对浏览景点的打分，标记喜欢或者不喜欢，想去、不想去或者是去过，以及游客直接输入的偏好信息等；而隐式反馈行为却不能很明显的看出游客的偏好。根据游客普遍的行为习惯，当游客访问网站时，若想了解某些信息，一般都会在搜索框中搜索，或者点击某个喜欢的链接继续浏览，而在浏览页面时，若游客比较关注某处内容，一般都会做出一些标记行为，比如鼠标拖选，或者就是浏览时在某处停留一段时间，因为游客的浏览行为往往要受到其内在兴趣的驱动，如：游客只有对相关的页面信息感兴趣，才会打开相应的链接并主动浏览相关的内容。

本发明主要针对游客浏览旅游网站时的隐性反馈行为做出分析处理，预测游客的下一步要浏览的景点，其采集的游客浏览行为包括：鼠标点击、键盘搜索、鼠标拖选、浏览截取。

由于游客浏览的景点内容依附于网页，因此游客的浏览景点的行为的预测与网页的智能预取之间存在着一定的相似性和相关性，网页智能预取的算法也可以尝试用来解决景点浏览的预测。

班志杰等人(班志杰,古志民,金瑜.Web预取技术综述[J].计算机研究与发展.2009,46(2):202-210)对网页智能预取的方法做了一个总结，指出共有五种典型的方法：1)基于DG(dependency graph)的方法;2)基于数据挖掘的方法;3)基于成本函数的方法;4)基于语义预测模型的方法;5)基于马尔可夫（Markov）预测模型的方法。许多学者采用马尔可夫预测模型进行网页预取。Dhyani等人(D.Dhyani,S.S Bhowmick and W.K.Ng,“Modelling and Predicting Web PageAccesses Using Markov Processes,”Proc.International Workshop onDatabase and Expert Systems Applications,2003,pp.332-336)将页面浏览过程看做一个马尔可夫链,并利用n步转移矩阵来进行预测。在分析研究马尔可夫模型和K步马尔可夫模型后,Awad等人(M.A.Awad,I.Khalil,“Predictionof User's Web Browsing Behavior:Application of Markov Model,”Proc.IEEEtransactions on systems,man,and cybernetics.Part B,Cybernetics:apublication of the IEEE Systems,Man,and Cybernetics Society,vol42,no.4,Aug.2012,pp.1131-1142)提出了利用修改后的马尔可夫模型与关联规则挖掘的方法来进行网页预取。Faten和Chimphlee等人（K.Faten,J Y Liand H Wang,“A framework of combining Markov model with association rulesfor predicting web page accesses,”Proc.Australasian Data MiningConference,Nov.2006,pp.177-184；S.Chimphlee,N.Salim,M.S.B.Ngadiman and W.Chimphlee,“Using Association Rules and Markov Modelfor Predit Next Access on Web Usage Mining,”Proc.Advances in Systems,Computing Sciences and Software Engineering,2006,pp.371-376)也利用了低阶马尔可夫模型和关联规则来预测下一步将访问的网页，这不仅可以避免复杂的高阶马尔可夫模型,也可以减少关联规则的数量，以便做出更准确的预测。Nanopoulos等人(A.Nanopoulos,D.Katsaros and Y.Manolopoulos,“AData Mining Algorithm for Generalized Web Prefetching,”IEEETransactions on Knowledge and Data Engineering,vol.15,no.5,Sep.2003,pp.1155-1169)在研究马尔可夫模型和DG后，提出了一个新的基于关联规则的预测方法WMo。邢永康等人(邢永康,马少平.类Markov链用户浏览预测模型[J].计算机学报.2003,26(11):1510-1517)指出：受浏览目的、文化背景、爱好和其他因素的影响,不同的用户其浏览过程不尽相同，假定每个用户的浏览行为都可以用一条马尔科夫链来表示。通过计算每个用户的Markov状态转移概率矩阵之间的相似性，根据标准函数，通过聚类Markov链将用户聚类为多个用户群，并为每个用户群建立一个新的马尔可夫模型。当用户访问该网站时，根据其浏览行为，利用贝叶斯分类算法将该用户归入某个用户群，并利用其所属用户群相应的马尔可夫预测模型预测该用户下一步想要访问的页面。

发明内容

本发明要解决的技术问题是要提供一种通过游客在旅游网站上的隐式反馈行为预测游客下一步尽可能浏览的景点的方法，以帮助游客方便快捷的找到自己想要浏览的景点。

本发明所提出的方法包括：数据采集、数据预处理、偏好模型建立、游客聚类、预测模型建立、景点预测六个关键步骤。

1、数据采集

当游客浏览旅游网站的网页时，首先利用JavaScript在客户端获取游客的行为，然后利用AJAX交互技术将行为数据传送至服务器端，最后通过PHP的数据操作接口将数据存储至MySQL数据库。

所述行为类型包括键盘搜索、鼠标拖选、页面浏览和鼠标点击四类。键盘搜索是指游客用键盘在页面搜索框中输入查询词进行站内搜索；鼠标拖选是指游客浏览页面时拖选文字；页面浏览是指游客浏览网页时人眼关注部分页面；鼠标点击是指游客在网页上点击链接文本。

2、数据预处理

建立景点名词库，将游客行为记录中第一个匹配景点名词库中的景点提取出来作为该行为记录的当前状态（currentstate，描述游客当前浏览的景点），然后去除没有当前状态的行为记录，即无效行为记录；若属于同一游客的连续行为记录具有相同的当前状态，则保留这些行为中最先存储的行为记录，即删除重复记录；根据处理过后的每个游客的浏览行为记录，为每个游客构建其景点浏览行为序列。

3、偏好矩阵建立

若游客对某景点的浏览次数越多，则表示该游客对该景点的偏好度越高。本发明中，游客对某景点的偏好度为该游客浏览该景点的次数与该游客浏览所有景点的次数的比值。通过分析游客的景点浏览行为序列，计算每个游客对各景点的偏好度，为每个游客构建景点偏好向量，继而构造游客与景点之间的景点偏好矩阵M，该矩阵反映了游客对景点的偏好程度，矩阵的行代表游客，列代表景点，矩阵元素表示游客与对应景点的偏好度，矩阵的行向量反映了不同游客对各景点的浏览偏好度。其中矩阵M为：

M_{m, n} = [\begin{matrix} h_{11} & h_{12} & . . . & h_{1 n} \\ h_{21} & h_{22} & . . . & h_{2 n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ h_{m 1} & h_{m 2} & . . . & h_{mn} \end{matrix}]

h_{ij} = {hits}_{ij} / \underset{1 \leq k \leq n}{Σ} {hits}_{ik}

其中，m为游客数，n为景点数,hits_ij为游客i浏览景点j的次数，矩阵元素h_ij表示游客i对景点j的偏好度，i=1,2，…m，j=1,2，…n。

4、游客聚类

不同的游客，其旅游偏好不尽相同，偏好类似的游客其景点浏览行为也往往类似。本发明通过计算由分析景点浏览行为序列所得的景点偏好向量（景点偏好矩阵的一行）之间的夹角余弦值来度量游客间的偏好相似性，并采用经典的k-means方法对游客进行聚类，将所有游客划分成k个游客群。

5、预测模型建立

假设同一相似游客群访问桂林某旅游网站的景点浏览过程是一个随时间变化的特殊随机过程，其中离散随机变量S的值域为该网站包含的所有桂林旅游景点的集合S={s₁,s₂,s₃,…,s_n}，其中n为景点的个数，s_i为景点i，一个景点即为Markov链中的一个状态。根据假设，游客群在web上的浏览过程就可以构成一个随机变量S的序列，每个游客群在web上的浏览行为可以用一条Markov链来描述。

由上一步将游客分成k个游客群，根据假设，每个游客群都可以构建其对应的Markov链，，那么由第c个游客群中的游客景点浏览序列构成的Markov转移概率矩阵P_c为：

P_{c} = (p_{cij}) = [\begin{matrix} p_{c 11} & p_{c 12} & . . . & p_{c 1 n} \\ p_{c 21} & p_{c 22} & . . . & p_{c 2 n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ p_{cn 1} & p_{cn 2} & . . . & p_{cnn} \end{matrix}]

p_{cij} = S_{cij} / \underset{1 \leq q \leq n}{Σ} S_{ciq}

其中S_cij为游客群c中，状态序列<s_i,s_j>出现的次数。p_cij为游客群c中，状态s_i转移到状态s_j的概率。当游客属于游客群c且t时刻状态为s_i时，预测该游客的t+1时刻的状态，即下一个很可能浏览的景点为：

{S_{t + 1} = s_{j} | p_{cij} = \max_{1 \leq j \leq n} (p_{cij})} .

游客群的Markov预测模型是通过这个游客群的状态转移概率矩阵来描述的，Markov状态转移概率矩阵是用来做预测的。若游客的当前状态（当前游览的景点）为A，利用其所属游客群的Markov状态转移概率矩阵，若A转移到B的概率最大，则预测下一步最可能浏览的景点B。

6、景点预测

若当前游客之前已经访问过该网站，则根据该游客当前浏览的景点A，利用该游客所在游客群c的预测模型（即游客群c的Markov状态转移概率矩阵），找到从景点A出发转移概率最大的景点B，并将该预测结果推荐给游客；

若当前游客是网站的新访客，首先将之前访问该网站的所有游客浏览最多的景点推荐给该游客，随着该游客景点浏览行为的增加，为其构建景点浏览行为序列，根据该序列和步骤3中计算游客对景点偏好度的方法为该游客构建一个景点偏好向量V，再按步骤4）利用夹角余弦值计算该向量与每个游客群的聚类中心的相似度，将该游客归入与其相似度最高的游客群c’，然后根据该游客当前的浏览的景点A’，利用其归入的游客群c’的预测模型，找到从景点A’出发转移概率最大的景点B’，并将其推荐给游客。

附图说明

图1为本发明的总体流程图。

图2是本发明中数据采集流程图。

具体实施方式

下面以实例的方式并结合附图对本发明作进一步的描述：获取游客浏览行为，并将游客按照景点浏览偏好的相似性聚类成若干个游客群，同时为每个游客群分别构建Markov预测模型。具体包括以下几个步骤：

第一：数据采集，利用JavaScript与AJAX交互技术从客户端获取游客行为并存储至MySQL数据库中的表behavior中，此表属性包括属性id（行为记录编号）、userip（当前游客IP）、currentpage（采集该行为的当前页面）、contents（记录获取的行为内容）、actiontype（行为类型）、actiontime（行为执行时间）、currentstate（当前状态，代表该游客当前浏览的景点）、nextstate（下一步状态，代表该游客下一步浏览的景点）、。

第二：数据预处理，主要去除一些无效和重复记录，并构建每个游客的景点浏览行为序列。

同时建立景点名词库并存入数组scenery[]中。分析游客浏览行为数据，提取行为内容contents属性中游客浏览的景点关键字，将contents中第一个匹配景点数据库中的景点名词作为每条记录的当前状态，即为该条行为记录的currentstate属性。将currentstate为空的所有行为记录删除；将属于同一个游客（即userip相同）的连续行为中，currentstate相同的记录删除，仅保留这些行为记录中最先被采集的那一条行为记录。通过以上处理后，将属于同一个游客的连续行为中，后一条行为记录中的nextstate值赋值给其前一条行为记录中的markovstate值；利用处理过后的每个游客的连续浏览行为记录，为每个游客构建其浏览行为序列，并将这些序列存入userseq[][]中，userseq[][0]存储具有有效行为记录的游客的userip，userseq[][1:...]存储对应游客的景点浏览行为序列。

第三：构建景点偏好矩阵M。

景点偏好矩阵M为一个m×n阶的矩阵（m为游客数，n为景点数），矩阵中的每个元素代表游客与页面的偏好度，元素值大小与游客对景点的偏好程度成正比，景点偏好矩阵对应的存储数组为Mm[m+1][n+2],其中行向量Mm[0][1:n]存储scenery中对应的景点，列向量Mm[1:m][0]存储userseq[][]中所有游客对应的userip。

1、利用存储每个游客的景点浏览行为序列的数组userseq[][]，循环统计每个游客分别点击每个景点的频率hits[][](其中hits[i][j]表示游客i浏览景点j的次数)，并统计对应游客浏览的景点总次数sumhits[]（其中sumhits[i]表示游客i浏览的景点总次，且sumhits[i]=hits[i][1]+hits[i][2]+…+hits[i][n]），其中i（1<=i<=m）为一层循环变量，j（1<=j<=n）为二层循环变量，同时若hits[i][j]!=0，则将hits[i][j]与sumhits[i]的比值赋给景点偏好数组Mm的元素Mm[i][j]，其中i（1<=i<=m）为一层循环变量；否则Mm[i][j]=0。比值hits[i][j]/sumhits[i]表示游客Mm[i][0]对景点Mm[0][i之间的偏好度。至此，景点偏好矩阵M构造完成。

第四：游客聚类。

根据生成的景点偏好矩阵M，利用k-means方法将游客聚为k类，在本发明中，设k=5，其中两游客间的偏好相似性用两游客对应的景点浏览偏好向量间的夹角余弦值来度量。聚类时，每个游客看作一个聚类点，每个点用记录编号标识，且游客i（即聚类点i）的景点偏好向量为Mm[i][1:n]。

1、初始化迭代次数T=R=30，迭代结束条件ED=0.000000001，样本适应度值（所有样本平方误差）old_fitness=fitness，并初始化误差值differ=1。

2、如果R>0&&differ>ED，执行步骤3；否则程序终止。

3、如果迭代次数R=30，从1—m中随机生成K个数，用来对应景点偏好矩阵中K个游客，将这K个游客的记录值作为初始聚类中心，并将Mm[0][n+1]赋值为“类别”，该列属性用来记录每个游客归属的类别，属性取值可为1—K之间的整数；如果迭代次数不为30，重新选择聚类中心：计算属于同一类的所有聚类点的平均坐标值，并将其作为该类的新聚类中心坐标。并将坐标保存至数组K_center[][]中，数组的每一列代表该聚类中心的对应坐标，如游客群ki的聚类中心K_center[ki]，K_center[ki][ni]表示该聚类中心的第ni个坐标值，其中1<=ki<=K，1<=ni<=n。

4、循环计算每个游客（聚类点）分别到K个聚类中心的夹角余弦值，并分别选出每个游客到K个聚类中心余弦值最大的聚类中心编号K_min，该游客对应的分类即为K_min，并将值付给Mm[i][n+1]。在循环过程中，若第i个点为聚类中心，则无需求余弦值，直接将该聚类中心归为其本身所属游客群。

5、计算分类后的适应度值：循环求得每个聚类点分别到K个聚类中心的差平方和，并将所有的差平方和相加。即得新的适应度值fitness。

6、求的新的误差值differ=abs(old_fitness-fitness)，并将fitness作为新的旧适应度old_fitness。随后R--。

7、跳至步骤2，直至不满足条件，即游客聚类完毕。

第五：为聚类后的每个游客群建立对应的预测模型。

利用每个群中的游客景点浏览行为序列，为每个游客群构建其Markov预测模型。其中，每个游客群的Markov预测模型构建步骤如下：

1、构建游客群c的Markov状态转移频率矩阵。

通过分析所有属于游客群c的游客的景点浏览行为序列，构建n×n阶Markov状态转移频率矩阵（其中n为景点数目），矩阵的行表示markov初始状态（即当前状态currentstate），列表示markov转移状态（即下一步状态nextstate），矩阵元素代表currentstate景点转移到nextstate景点的频率，并将这些数据存储至对应的二维数组markov[n+1][n+1]中，其中除元素markov[0][0]外，第0行和第0列存储的元素一一对应scenery数据表中的景点名字。其中，markov[i][j]为状态s_i转移到s_j的频率。

2、构建游客群c的Markov状态转移概率矩阵。

利用步骤1中构建的游客群c的markov状态转移频率矩阵(即数组markov[n+1][n+1])每行的频率总和，以及每个景点序列对转移的频率，计算每种景点序列对的转移概率，构造状态转移概率矩阵，并存储至数组pmarkov[n+1][n+1]中，除pmarkov[0][0]外，第0行和第0列存储的元素一一对应scenery数据表中的景点名字，该矩阵的元素的计算方法如下：

pmarkov [i] [j] = markov [i] [j] / \underset{1 \leq q \leq n}{Σ} markov [i] [q]

其中，pmarkov[i][j]为状态s_i转移到s_j的概率。上式实际上是

p_{cij} = S_{cij} / \underset{1 \leq q \leq n}{Σ} S_{ciq}

的运算模式。

至此，游客群c的预测模型建立。

第六：景点预测。

根据游客是否为新访客，采取不同的预测模式。

1、构建景点的热度向量，并用数hot[n+1]存储，n为景点数目，向量的每个元素对应每个景点的热度，且计算方法如下：

hot [i] = \underset{1 \leq k \leq m}{Σ} hits [k] [i] / \underset{1 \leq j \leq n}{Σ} \underset{1 \leq k \leq m}{Σ} hits [k] [j], 1 \leq i \leq n

上式中的hits矩阵就是构建偏好矩阵M中的hits矩阵。

其中：m为游客数，n为景点数,hot_i为景点i的热度，hits_ki为游客k浏览景点i的次数。

2、采集当前游客的景点浏览行为并存储至数据库。

1）根据当前游客的userip，若该userip在数据库中存在过，则说明该游客已经访问过该网站，利用该游客所在的游客群c的Markov状态转移矩阵以及该游客当前浏览行为记录的currentstate属性值，首先找到currentstate对应景点的编号i，然后预测其下一步景点的编号j，其中j的计算方法如下：

j={j|max（pmarkov[currentstate][j]）且1<=j<=n}

之后便将编号j对应的景点推荐给该游客。

2）若该userip在数据库中没存在过，说明该游客为新访客，找到热度最高的景点编号i，且i={i|max（hot[i]）且1<=i<=n}，将i对应的景点scenery[i]推荐给该游客。

随着该游客进一步浏览网站的行为的增加，根据采集的浏览行为记录，为其构建对应的浏览行为序列，统计景点浏览频率向量freq[n+1],freq[i]为该游客浏览景点i的次数。然后为其构建相应的景点偏好向量V，用数据v[n+1]存储，n为景点数，元素值为偏好度，计算方法如下：

v [i] = freq [i] / \underset{1 \leq k \leq n}{Σ} freq [k], 1 \leq i \leq n

计算v与游客群ki的聚类中心K_center[ki]的夹角余弦值，其中1<=ki<=K，找到使得夹角余弦值最小的ki后，将该游客归入游客类ki，利用该游客所在的游客群ki的Markov状态转移矩阵以及该游客当前浏览行为记录的currentstate属性值，利用与上述1）相同的预测方法，为该游客预测其下一步尽可能会浏览的景点。

为验证本发明方法的效果，进行了如下实验。实验平台为：2.9GHz CPU和2G RAM；操作系统平台为windows。

实验采集了861个游客访问某旅游网站的44,656条原始行为记录。实验分为3种：一种为基于游客不分组游客分组的Markov预测模型，另一种为基于游客随机分组的Markov预测模型，还有一种基于游客聚类的Markov预测模型。同时为了验证该方法用于预测景点的可行性，利用http://kdd.ics.uci.edu/database/msweb上下载的用于页面预取的数据库对算法的性能做对比实验，同样也对该数据进行了以上三种实验。另外还利用随机预测模型方法和一种有序的关联规则挖掘方法——n-gram预测模型（Z Su,QYang,H J Zhang,“A Prediction System for Multimedia Prefetchingin Internet,”Proc.ACM Multimedia Conference,ACM Press,Nov.2000,pp.3-11.）与该算法的实验效果作对比，进一步验证该算法的适用性。

各实验采用五折交叉验证方式进行验证，各实验重复运行100次，实验结果为100次实验的正确率的平均值。实验结果如表1-表3所示。表1与表2中的实验数据来自本发明，表3中“基于有序关联规则挖掘的n-gram预测模型”的实验数据为从网站上下载的已有数据。

由表1-表3可以知道本发明的效果在于：

由表1可知通过构建景点偏好模型，将游客进行聚类然后构建Markov预测模型的算法正确率比其他两种都要好，同时由表2可知，本发明中的方法用于处理本发明采集的数据的效果比从网上下载的用于进行网页预取的数据正确率要高，实验效果更好，由表3可知，本发明中的方法比随机预测方法和n-gram预测模型（其中n=1，θ=5，ε=5）的预测效果都要好。

表1：本发明中提出的方法以及其它对比方法利用本发明采集的游客浏览行为数据进行的实验结果比较。

表2：本发明中提出的方法以及其它对比方法利用下载的页面浏览行为数据进行的实验结果比较。

表3:是本发明中提出的方法与n-gram预测方法利用本发明采集的游客浏览行为数据进行的实验结果比较。

Claims

1.给游客推荐其很可能会浏览的景点的方法，其特征在于包括以下关键步骤：数据采集、数据预处理、偏好模型建立、游客聚类、预测模型建立、景点预测：

1）数据采集：收集游客访问某旅游网站的真实在线浏览行为并存入数据库；

2）数据预处理：建立景点库，提取每条行为记录中的景点，去除无效和重复的浏览记录，并为每个游客构建其景点浏览行为序列；

3）偏好矩阵建立：根据游客浏览所有景点的总次数以及其浏览某特定景点的次数，通过分析游客的景点浏览行为序列，计算每个游客对各景点的偏好度，为每个游客构建景点偏好向量，继而构造游客与景点之间的景点偏好矩阵M；

4）游客聚类：根据每个游客对景点的偏好度，将偏好相似的游客聚类到同一游客群；

5）预测模型建立：根据每个游客群中每个游客的景点浏览行为序列，分别为每个游客群生成其对应的Markov链，继而为每个游客群构建其对应的Markov状态转移概率矩阵，并进一步建立预测模型；

6）景点预测：根据游客是否为新访客，采取不同的预测模式:

若游客之前已经访问过该网站，则根据该游客当前浏览的景点，利用该游客所在游客群的预测模型，预测该游客下一步可能会浏览的景点；

若游客是该网站的新访客，首先将热度最高的景点推荐给该游客；随着该游客浏览行为的增加，按步骤3）为其构建一个景点偏好向量，按步骤4）将该游客归入与其相似度最高的游客群，利用其归入的游客群的预测模型，预测该游客下一步尽可能会浏览的景点。

2.如权利要求1所述的方法，其特征在于：步骤1）中，当游客浏览旅游网站的网页时，首先利用JavaScript在客户端获取游客的行为类型，然后利用AJAX交互技术将行为数据传送至服务器端，最后通过PHP的数据操作接口将数据存储至MySQL数据库；

所述行为类型包括键盘搜索、鼠标拖选、页面浏览截取和鼠标点击四类。

3.如权利要求1所述的方法，其特征在于：步骤2）中，所述景点库中的景点为步骤1）中的旅游网站上的所有景点；

将游客行为记录中第一个匹配景点库中景点的景点作为该行为记录的当前状态；所述无效行为记录是指没有当前状态的行为记录；若属于同一游客的连续行为记录具有相同的当前状态，则保留这些行为中最先存储的行为记录，删除重复记录。

4.如权利要求1所述的方法，其特征在于：步骤3）中，所述景点偏好度为该游客浏览该景点的次数与该游客浏览所有景点的次数的比值；

所述景点偏好矩阵M计为M_m,n：

M_{m, n} = [\begin{matrix} h_{11} & h_{12} & . . . & h_{1 n} \\ h_{21} & h_{22} & . . . & h_{2 n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ h_{m 1} & h_{m 2} & . . . & h_{mn} \end{matrix}]

h_{ij} = {hits}_{ij} / \underset{1 \leq k \leq n}{Σ} {hits}_{ik}

其中，m为游客数，n为景点数,hits_ij为游客i浏览景点j的次数，矩阵元素h_ij表示游客i对景点j的偏好度，i=1,2，…m，j=1,2，…n；

矩阵的行代表游客，列代表景点，矩阵元素表示游客与对应景点的偏好度，行向量反映了不同游客对各景点的浏览偏好。

5.如权利要求1所述的方法，其特征在于：步骤4）中，通过计算由分析景点浏览行为序列所得的景点偏好向量之间的夹角余弦值来度量游客间的偏好相似性，并采用经典的k-means方法对游客进行聚类，将所有游客划分成k个游客群。

6.如权利要求1所述的方法，其特征在于：步骤5）中，每个游客群的Markov状态转移概率矩阵由该群中的所有游客的Markov链分析获得；

所述每个游客群中每个游客的景点浏览行为序列，是指游客群在web上的浏览过程构成一个随机变量S的序列，S是离散随机变量，其值域为该网站包含的所有旅游景点的集合S={s₁,s₂,s₃,…,s_n}，n为景点的个数，s_i为景点i，一个景点即为Markov链中的一个状态；

k个游客群中的第c个游客群的游客景点浏览序列构成的Markov转移概率矩阵P_c为：

P_{c} = (p_{cij}) = [\begin{matrix} p_{c 11} & p_{c 12} & . . . & p_{c 1 n} \\ p_{c 21} & p_{c 22} & . . . & p_{c 2 n} \\ . & . & . \\ . & . & . . . & . \\ . & . & . \\ p_{cn 1} & p_{cn 2} & . . . & p_{cnn} \end{matrix}]

p_{cij} = S_{cij} / \underset{1 \leq q \leq n}{Σ} S_{ciq}

其中S_cij为游客群c中，状态序列<s_i,s_j>出现的次数；p_cij为游客群c中，状态s_i转移到状态s_j的概率；当游客属于游客群c且t时刻状态为s_i时，预测该游客的t+1时刻的状态，即下一个很可能浏览的景点为：

{S_{t + 1} = s_{j} | p_{cij} = \max_{1 \leq j \leq n} (p_{cij})} .

7.如权利要求1所述的方法，其特征在于：步骤6）中，所述热度最高的景点为访问该网站的所有游客浏览最多的景点，景点热度利用该景点被所有用户浏览的总次数与所有景点被所有用户浏览的总次数的比值来度量，其计算方式如下：

{hot}_{i} = \underset{1 \leq k \leq m}{Σ} {hits}_{ki} / \underset{1 \leq j \leq n}{Σ} \underset{1 \leq k \leq m}{Σ} {hits}_{kj}, 1 \leq i \leq n