CN105095281A

CN105095281A - 一种基于日志挖掘的网站分类目录优化分析方法

Info

Publication number: CN105095281A
Application number: CN201410201968.0A
Authority: CN
Inventors: 吴鹏; 张丽军; 李小军; 夏子然; 丁慧君; 高庆宁
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2014-05-13
Filing date: 2014-05-13
Publication date: 2015-11-25
Anticipated expiration: 2034-05-13
Also published as: CN105095281B

Abstract

本发明公开了一种基于日志挖掘的网站分类目录优化分析方法。该方法首先对网站日志数据进行预处理，所述日志数据指的是服务器上记录的一系列网页访问数据集合，通过预处理从中提取出用户通过特定网站获取信息的目录路径；然后利用“基于浏览路径顺序的方法VOB”计算任意两个目录路径间的相似度，直至构造出目录路径相似度矩阵；再利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类，从而将目录路径对应的用户聚为不同类别；最后，挖掘出每类用户期望的网站分类目录体系，并与原有分类目录体系对比分析。通过上述步骤可以挖掘出符合用户期望的网站分类目录体系，为网站优化提供定量决策支持。

Description

一种基于日志挖掘的网站分类目录优化分析方法

技术领域

本发明涉及一种网站分类目录优化分析方法，特别是从用户角度出发，基于日志挖掘的一种分类目录优化分析方法。

背景技术

网站分类目录设计的是否符合用户期望直接影响用户对网站的满意度，进而影响用户使用该网站的意愿。网站分类目录优化，是在评价网站现有分类目录的基础上决定是否需要调整网站已有信息分类体系，若需要调整者确定如何调整。

当前针对网站分类目录体系优化分析方法的研究还多以调查问卷、电话访谈等传统研究方法为主，研究方法本身的不足以及数据的有限性严重制约了研究成果的可用性。目前大多数网站采用传统的用户调研方式进行用户研究，而传统方法如调查问卷、电话访谈等基本都是通过设置特定任务或问题让用户完成或回答，再对用户的完成结果进行定性定量的分析。这些方法中都是人既作为研究的主体，又作为研究的客体，制约和影响着调查的可靠性和适用性，并且其耗费成本高、获得信息较宏观，获得数据量也相对比较有限，从而很难全面地搜集用户对网站的认知。

此外，关于网站分类目录体系的研究多以理论为主，侧重于分类目录的功能介绍、优缺点分析、当前网站分类目录所使用的分类方法的介绍以及分类目录不足之处等理论方面的简单介绍，缺少对用户认知的关注，缺少相关实证研究。为了使网站分类目录设计的更加符合用户期望，符合用户的心智模型，网站信息组织需要从“以系统为中心”向“以用户为中心”转换，从用户认知角度研究网站信息组织。

总的来说，网站分类体系优化方法存在如下问题：(1)很难全面收集用户关于网站分类目录的认知。(2)需要从“以系统为中心”向“以用户为中心”转换，从用户认知角度研究网站信息组织。

发明内容

本发明所解决的技术问题在于提供一种基于日志挖掘的网站分类目录优化分析方法。

实现本发明目的的技术解决方案为：一种基于日志挖掘的网站分类目录优化分析方法，步骤如下：

步骤1、对网站日志数据进行预处理，具体为：

步骤1-1、对日志数据字段进行净化处理，具体是将原始日志数据中的请求协议字段、文件名字段这些与挖掘目的不相关的字段删除，最终保留用户的IP地址IPNUMBER、访问时间VISIT-TIME、浏览者的cookie信息COOKIE、访问网址URL、访问状态STATUS以及当前访问网址的来源网址REFERER；

步骤1-2、对日志内容进行净化，具体为：判断访问状态STATUS的属性值，若属性值不以2、3开头，则删除该属性值对应的日志项：之后判断访问网址URL和当前访问网址的来源网址REFERER中是否包含字符串“-catalog”或“catlist”，若均没有包含，则删除该属性值对应的日志项；

步骤1-3、对网址进行统一编号，具体为：将日志中涉及的访问网址URL、当前访问网址的来源网址REFERER按出现次序用阿拉伯数字从小到大统一编号，若同一网址出现多次则按网址第一次出现的次序编号；

步骤1-4、建立网址目录对应关系，具体为：分析日志项中访问网址URL和当前访问网址的来源网址REFERER中的字符串，若存在“-catalog”字符串且“-catalog”字符串与.html间存在“/”，则.html与最近的一个“/”之间的字符串即为网址所在目录名称；若存在“-catalog”字符串且“-catalog”字符串与.html间不存在“/”则“-catalog”字符串与其左侧最接近的“/”之间的字符串即为网址所在目录名称；若存在字符串“catlist”则.html与最近的一个“/”之间的字符串即为网址所在目录名称；新建表格记录网址与所在目录的对应关系；

步骤1-5、对用户进行识别，具体为：判断日志项中是否包含浏览者的cookie信息COOKIE，若包含则认为同一个浏览者的cookie信息COOKIE代表同一个用户，否则认为同一个IP地址IPNUMBER代表同一用户；对识别出的用户按出现次序用阿拉伯数字从小到大编号；

步骤1-6、对会话路径进行识别，具体为，分析日志项中同一个用户访问时间VISIT-TIME，若访问时间VISIT-TIME差在30分钟以内则将对应的日志项提取为一个会话路径并用阿拉伯数字将会话路径从小到大统一编号，会话路径提取格式为：会话路径编号、用户、访问网址URL及访问网址对应的访问时间VISIT-TIME；

步骤1-7、对事务路径进行识别，具体为，若同一个会话路径中同一个访问网址URL出现次数为n次且n大于1，则将会话路径分为n个，其中在该访问网址URL第二次出现前的会话路径为第一个事务路径；删除会话路径中该访问网址URL第一次和第二次出现间的其他访问网址URL且只保留一个该访问网址URL，则会话路径中该访问网址URL第三次出现之前的会话路径为第二个事务路径；以此类推直至会话路径中所有访问网址URL只出现一次为止；

步骤1-8、对网站分类目录进行编码，具体为，按网站分类目录所在层级以及目录间的从属关系统一用阿拉伯数字编号；

步骤1-9、将事务路径转化为目录路径，具体为，基于步骤1-4中的网址目录对应关系，找出事务路径中每个网址对应的目录，并用目录代替事务路径中对应的网址；若事务路径中每个网址转为对应的目录后，存在同一目录连续出现次数大于1的情况，则最终保留一个目录；

步骤2、利用“基于浏览路径顺序的方法VOB”确定任意两个目录路径之间的相似度，构造目录路径相似度矩阵，所述目录路径相似度矩阵的第一行和第一列为步骤1-9中转化后的所有目录路径，其余均为行对应目录与列对应目录之间的相似度；

利用“基于浏览路径顺序的方法VOB”确定任意两个目录路径之间的相似度，构造目录路径相似度矩阵，具体步骤为：

步骤2-1、对所有的目录路径进行标号，依次标为Q₁、Q₂、Q₃……、Q_m，其中m为目录路径总个数；

步骤2-2、找出每个目录路径Q_i所有的t(0<t<r+1且t为整数)跳路径具体表示为：

Q_{i}^{t} = {q_{i}, q_{i + 1}, . . ., q_{i + t - 1} | i = 1,2, . . ., r - t + 1}

其中i为整数且取值范围为1<i<t+1；Q_i＝q₁,q₂,...,q_r，q_i表示按序访问的目录，r为Q_i包含的目录总数目；之后，用标识目录路径Q_i的特征空间；

步骤2-3、找出任意两个目录路径Q_i和Q_j，用“基于浏览路径顺序的方法VOB”计算出Q_i和Q_j目录路径的相似度Q_ij，并将其作为目录路径相似矩阵中的第i行第j列元素，具体使用公式为：

Q_{ij} = \frac{{< Q_{i}, Q_{j} >}^{l}}{\sqrt{{< Q_{i}, Q_{i} >}^{l} \cdot {< Q_{j}, Q_{j} >}^{l}}}

其中l＝min(length(Q_i),length(Q_j))，length(Q_i)表示目录路径Q_i的长度，l表示两个目录路径中较短目录路径的长度；<Q_i,Q_j>^l是目录路径Q_i和Q_j在特征空间的内积，定义为：

{< Q_{i}, Q_{j} >}^{l} = Σ_{k = 1}^{l} \underset{q &Element; Q_{i}^{k} \cap Q_{j}^{k}}{Σ} length (q) \cdot length (q)

其中表示目录路径Q_i的k跳路径；

步骤2-4、重复步骤2-3直至算出m*m相似度矩阵中的所有元素为止，构造成相似度矩阵A，具体表示为：

A = (\begin{matrix} Q_{11} & Q_{12} & \cdot \cdot \cdot & Q_{1 m} \\ Q_{21} & Q_{22} & \cdot \cdot \cdot & Q_{2 m} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ Q_{m 1} & Q_{m 2} & \cdot \cdot \cdot & Q_{mm} \end{matrix})

其中m为目录路径总个数。

步骤3、利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类，根据目录路径的相似度将对应的用户聚类直到所有类别的凝聚度都不小于0.95为止；具体步骤为：

步骤3-1、将步骤2中的目录相似度矩阵A的行和列按数值从大到小进行排序；

步骤3-2、将相似度矩阵按主对角线进行分块处理矩阵得到矩阵B，具体表示为：

B = (\begin{matrix} A_{11} & \cdot \cdot \cdot & A_{12} \\ \cdot \cdot \cdot & d & \cdot \cdot \cdot \\ A_{21} & \cdot \cdot \cdot & A_{22} \end{matrix})

其中d是矩阵A的划分点；

步骤3-3、找出划分点，具体为：计算F_d值，当F_d值最大值时d的值就为划分点，其中F_d表示为：

F_d＝M^d(A₁₁)*M^d(A₂₂)-M^d(A₁₂)*M^d(A₂₁)

其中M^d(A_ij)定义为

M^{d} (A_{ij}) = Σ_{i = (p - 1) * d + 1}^{d + (m - d) * (p - 1)} ({Σ Q_{ij}}_{i = (q - 1) * d + 1}^{d + (m - d) * (q - 1)}),

1≤p≤2,1≤q≤2，m为目录路径总个数；

步骤3-4、计算聚簇A₁₁、A₂₂的凝聚度T，具体计算公式为：

T (A_{xx}) = \frac{1}{M} * \underset{1 \leq i \leq j \leq t}{Σ} Q_{ij} (1 \leq x \leq 2)

其中t表示A_xx方阵中的行列数，M＝t(t-1)/2，Q_ij表示目录路径Q_i和目录路径Q_j的相似度；

步骤3-5、分析各聚簇的凝聚度值，若所有凝聚度值不小于0.95，则聚类结束；如仍有聚簇其凝聚度值小于0.95，则将该聚簇当作新一轮的相似度矩阵A，并重复3-1步骤到3-4步骤直到所有的聚簇凝聚度都不小于0.95为止。

步骤4、基于“路径搜索法Pathfinder”挖掘出每类用户期望的目录体系，并与原有分类目录体系对比分析，给出网站分类目录的具体优化建议。具体为：

步骤4-1、构造每大类用户的目录共现频次矩阵并结合路径搜索法构建路径搜索图；具体步骤如下：

步骤4-1-1、构造每大类用户的目录共现频次矩阵，所述目录共现频次矩阵的第一行和第一列为对应类别用户涉及的所有目录路径，其余均为共现频次；所述共现频次是指两个目录在目录路径中共同出现的次数；之后，将共现频次矩阵中a行b列元素值均设为0，其中0<a<b<w且a、b均为整数，w代表共现频次矩阵行列数；之后，将目录自身与自身共现频次设为0即对角线元素设为0；

步骤4-1-2、基于4-1-1步骤中构造出每个目录频次矩阵，以目录作为节点，以目录频次倒数作为两个节点间的权重，以满足三角不等式为前提构建目录间的最短路径搜索图，最终路径搜索图即为用户期望的目录层次体系；其中，三角不等式指的是路径搜索图中两点之间存在边当且仅当其权值为两点之间的最短路径。

步骤4-2、基于路径搜索法中“相关系数”计算方法，计算出每类用户期望目录路径与网站分类目录体系的相关系数；

步骤4-3、基于路径搜索法构建网站分类目录路径搜索图，具体为：以网站分类目录体系为基础，以目录作为节点，参照网站分类目录体系若目录间存在上下级关系则建立边，最终构建出网站分类目录路径搜索图；

步骤4-4、据4-2步骤中用户期望目录与网站目录相关系数判断网站目录是否需要优化，若相关系数小于等于0.7则需要优化，具体是利用步骤4-1中的用户路径搜索图与步骤4-3中的网站分类目录路径搜索图对网站分类目录进行优化，否则不需要优化，结束操作。

本发明与现有技术相比，其显著优点为：(1)本发明使用网络日志数据来挖掘用户满意网站分类目录体系，相比于一般的调研数据，网络日志数据更客观真实的反映了用户内心期望且不受调研者的影响，因此分析结果更理想；(2)从用户角度出发，以网站日志数据为基础，采用聚类分析和路径搜索法两者相结合研究，根据用户内心期望的不同将其归类，并直观的展现可视化的结果，而且还通过具体的相关系数数据来说明现有网站分类目录与用户内心期望的切合程度，使人清晰的了解现有目录需要优化程度的大小，即以用户为中心优化网站分类目录体系。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明的基于日志挖掘的网站分类目录优化分析方法流程图。

图2为第8类用户期望的ComputerProducts类分类目录体系。

图3为第8类用户涉及的ComputerProducts类网站分类目录体系。

具体实施方式

本发明将日志挖掘应用到优化网站分类目录领域，结合网络日志挖掘三个步骤展开研究：数据预处理、模式发现以及模式分析。

数据预处理：在数据挖掘之前根据挖掘目的对数据进行相应的预处理，可以提高后期数据挖掘的效率。为便于优化网站分类目录，因此将数据预处理成目录路径的形式。

数据模式发现：模式发现是指使用各种数据挖掘技术对预处理后的数据进行挖掘，找出其中隐含的规律或者模式。不同用户关于网站分类目录的期望不同，一个好的网站分类目录可以个性化的为不同类别的用户提供不同的分类目录，因此优化的前提是按照内心期望的不同将用户分成不同的类别，而聚类技术其本质就是将具有相似特征的对象聚成类，很符合优化目标。

模式分析紧接模式发现其后，对其挖掘的大量模式和规则进行分析，从而得出有特定实用价值的模式和规则，为了方便简洁的显示出最后的结果，这一步往往会联系可视化技术来实现。而目前模式分析的可视化方法中适用于用户内心期望的度量研究有：路径搜索法(Pathfinder)、多维度量分析(MDS)等。相比于多维度量分析(MDS)，路径搜索网络能够全面的构造人类语义知识的各个方面，在认知心理学和人工智能领域发挥了重要的作用。但只有路径搜索网络技术是表示成网络图的形式，通过比较表明路径搜索网络图最能体现数据的原始客观性。

鉴于三个步骤中方法的对比，本发明将聚类与路径搜索法相结合。本发明的一种基于日志挖掘的网站分类目录优化分析方法，步骤如下

步骤1、对网站日志数据进行预处理，具体为：

步骤1-1、对日志数据字段进行净化处理，具体为：将大量原始日志数据中的请求协议字段、文件名字段等与挖掘目的不相关的字段删除，最终保留用户的IP地址(IPNUMBER)、访问时间(VISIT-TIME)、浏览者的cookie信息(COOKIE)、访问网址(URL)、访问状态(STATUS)以及当前访问网址的来源网址(REFERER,以下简称来源网址)；由于本发明的日志挖掘目的是:基于日志数据挖掘出不同用户期望的分类目录层次体系从而给出优化建议，通过挖掘日志中记录的用户具体操作行为实现，因此净化处理需要保留上述六个字段，记录的用户具体操作行为含义如下：哪个用户(IPNUMBER、COOKIE)在什么时间(VISIT-TIME)访问了什么网址(URL)，并且在访问当前网址之前访问的是什么网址(REFERER)；

步骤1-2、对日志内容进行净化，具体为：由于本发明基于用户期望优化分类目录，所以日志中没有涉及分类目录或者操作失败的日志数据全部删除；基于访问状态STATUS判断日志最终操作是否以失败告终，若访问状态STATUS属性值不以2、3开头的数，则删除：因为访问状态STATUS值以2开头代表用户访问时成功的，以3开头是指用户的请求被重新指向其他的位置，以4开头代表客户端存在某错误，以5开头代表服务器出现某错误，因此以2、3以外开头则表示日志最终以错误告终，获取信息失败，标识着用户是不满意的，因此此类日志数据需要删除；基于访问网址URL、当前访问网址的来源网址REFERER字段判断日志是否涉及分类目录，将没有涉及的日志删除：分析日志数据的访问网址URL、当前访问网址的来源网址REFERER字段，如果其中任一字段包含字符串“-catalog”或“catlist”则代表当前日志涉及了分类目录的操作，反之则没有使用分类目录需删除；

步骤1-4、建立网址目录对应关系，具体为：提取用户访问目录的即访问网址URL或当前访问网址的来源网址REFERER字段中包含字符串“-catalog”或“catlist”的网址，并分析记录网址及其对应的当前目录；分析方法具体指，含有”catlist”的网址，其最后的.html与前一个/之间的字符串即为网址所在目录；含有”-catalog”的网址，其形如”…/A-catalog/B/C.html”，代表的含义是用户当前所在目录为C，对应的二级目录为B，一级目录为A；

步骤1-5、对用户进行识别，具体为：该发明中基于用户的IP地址IPNUMBER和浏览者的cookie信息COOKIE识别用户，若浏览者的cookie信息COOKIE存在则认为同一浏览者的cookie信息COOKIE为同一用户，若浏览者的cookie信息COOKIE不存在则认为同一用户的IP地址IPNUMBER代表同一用户，基于此原则对识别出的用户进行统一编码，便于后期处理；

步骤1-6、对会话路径进行识别；会话是指：用户在一次访问网站期间从进入网站到离开网站进行的一系列活动。此外，由于Web日志中有些日志记录时间跨度很大，用户有可能多次访问该站点，因此：本发明中同一用户，操作记录访问时间差在30分钟以内为一个会话。识别出的会话路径包含如下信息：编号、用户、访问网址及访问网址对应的时间；

步骤1-7、对事务路径进行识别；考虑现实情况：用户习惯于用超链接和图标在信息之间进行前进和后退，使得有些节点仅仅是因为它的位置而不是它的内容而被重复浏览，例如，若两页面之间无链接关系或者即便有了超链，出于某种习惯，用户往往会返回到当前页面的上一层页面，然后再进入到另一页面，而一般不会在浏览器中直接输入URL地址来打开新的页面来实现，因此本发明根据最大向前路径法(MFP)，将会话路径分割为粒度更细的事务路径；如会话路径：pl-p51-p2-p51-p11-p31，根据MFP将其分割为事务路径pl-p51-p2和p1-p51-p11-p31，其中p_i是网址编号，i为整数；

步骤1-9、事务路径转化为目录路径，具体为：事务路径中包含了一系列网址，目录路径中包含的是一系列目录，因为本发明的目的在于优化网站分类目录，研究对象是目录，所以需要明确事务路径中每个网址对应的目录，并用目录代替事务路径中对应的网址；在转化过程中若事务路径中每个网址转为对应的目录后，存在同一目录连续出现数次(设为n,n>1且为整数)，这种情况下需删除n-1个该目录，最终保留一个即可；

步骤2、利用“基于浏览路径顺序的方法VOB”计算任意两个目录路径之间的相似度，构造目录路径相似度矩阵；所述目录路径相似度矩阵，第一行和第一列为步骤1-9中转化后的所有目录路径，其余均为行对应目录与列对应目录之间的相似度，具体构造方法为：

步骤2-2、找出每个目录路径Q_i所有的t(0<t<r+1且t为整数)跳路径，具体表示为：

Q_{i}^{t} = {q_{i}, q_{i + 1}, . . ., q_{i + t - 1} | i = 1,2, . . ., r - t + 1}

Q_{ij} = \frac{{< Q_{i}, Q_{j} >}^{l}}{\sqrt{{< Q_{i}, Q_{i} >}^{l} \cdot {< Q_{j}, Q_{j} >}^{l}}}

{< Q_{i}, Q_{j} >}^{l} = Σ_{k = 1}^{l} \underset{q &Element; Q_{i}^{k} \cap Q_{j}^{k}}{Σ} length (q) \cdot length (q)

其中表示目录路径Q_i的k跳路径；

步骤2-4、重复2-3步骤直到算出m*m相似度矩阵中的所有元素，构造成相似度矩阵A，具体表示为：

A = (\begin{matrix} Q_{11} & Q_{12} & \cdot \cdot \cdot & Q_{1 m} \\ Q_{21} & Q_{22} & \cdot \cdot \cdot & Q_{2 m} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ Q_{m 1} & Q_{m 2} & \cdot \cdot \cdot & Q_{mm} \end{matrix})

其中m为目录路径总个数；

步骤3、利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类，根据目录路径的相似度将对应的用户聚类直到所有类别的凝聚度都不小于0.95为止，具体聚类方法为：

步骤3-1、将步骤2中的目录相似度矩阵A的行和列按数值大小进行排序；

步骤3-2、把经过排序的相似度矩阵按主对角线进行分块处理矩阵B的样式：

B = (\begin{matrix} A_{11} & \cdot \cdot \cdot & A_{12} \\ \cdot \cdot \cdot & d & \cdot \cdot \cdot \\ A_{21} & \cdot \cdot \cdot & A_{22} \end{matrix})

其中d是矩阵A的划分点；

F_d＝M^d(A₁₁)*M^d(A₂₂)-M^d(A₁₂)*M^d(A₂₁)

其中M^d(A_ij)定义为

M^{d} (A_{ij}) = Σ_{i = (p - 1) * d + 1}^{d + (m - d) * (p - 1)} ({Σ Q_{ij}}_{i = (q - 1) * d + 1}^{d + (m - d) * (q - 1)}),

1≤p≤2,1≤q≤2，m为目录路径总个数；

T (A_{xx}) = \frac{1}{M} * \underset{1 \leq i \leq j \leq t}{Σ} Q_{ij} (1 \leq x \leq 2)

步骤4、基于“路径搜索法(Pathfinder)”挖掘出每类用户期望的目录体系，并与原有分类目录体系对比分析，给出网站分类目录的具体优化建议，具体为：

步骤4-1、构造每大类用户的目录共现频次矩阵并结合路径搜索法构建路径搜索图，具体为：

步骤4-1-1、构造每大类用户的目录共现频次矩阵；所谓共现是指在同一个目录路径中两个目录共同出现，两个目录每共同出现一次则对应的共现频次加1；所述目录频次矩阵，其第一行和第一列为对应类别用户涉及的所有目录路径，其余均为共现频次；则如a行b列(a<b)的元素值为6，则代表目录a、目录b在目录路径中共同出现的总频次为6；注意，为避免路径搜索法重复考虑目录a和目录b的联系，当a行b列的频次被找出来，建立目录a到目录b的关系之后，对应的b行a列频次设定为0，即将共现频次矩阵中a行b列元素值均设为0，其中0<a<b<w且a、b均为整数，w代表共现频次矩阵行列数；为排除目录自身与自身的关系对不同目录之间联系的影响，将目录自身与自身共现频次设为0即对角线元素设为0；

步骤4-1-2、基于4-1-1步骤中构造出每个目录频次矩阵，以目录作为节点，以目录频次倒数作为两个节点间的权重，以满足三角不等式为前提构建目录间的最短路径搜索图，最终路径搜索图即为用户期望的目录层次体系；其中，三角不等式指的是路径搜索图中两点之间存在边当且仅当其权值为两点之间的最短路径；

步骤4-2、按照路径搜索法的“相关系数”计算方法，计算出每类用户期望目录路径与网站自身的分类目录体系的相关性，从而评价现有分类目录体系是否需要优化，具体为：

步骤4-2-1、将网站原有的网站分类目录体系(含g个分类目录)表示成上三角距离矩阵，并进一步表示为路径距离向量Y；

步骤4-2-2、将每类用户期望的网站分类目录体系表示成上三角距离矩阵，并进一步表示为路径距离向量Z_h(第h类用户的路径距离向量)；

步骤4-2-3、根据根据Y、Z_h距离向量，用公式计算全局相关系数

{GTDCC}_{{PYZ}_{h}} = \frac{Σ (y - \overset{&OverBar;}{y}) (z_{h} - {\overset{&OverBar;}{z}}_{h})}{\sqrt{Σ {(y - \overset{&OverBar;}{y})}^{2} Σ {(z_{h} - {\overset{&OverBar;}{z}}_{h})}^{2}}}

式子中y、z_h和分别为两个变量的观测值和均值；

步骤4-2-4、根据值评价网站分类目录需要优化的程度，值越大说明需要优化的程度越小，其与网站分类目录需要优化程度的详细关系见表1；

表1的值与网站分类目录需要优化程度

下面结合实施例对本发明做进一步详细的描述：

研究目标：中国制造网网站分类目录优化分析。

数据说明：中国制造网(http://www.made-in-china.com/)2013-05-1823:50:00到2013-05-1923:50:00一天的网络日志数据，考虑到用户隐私，网站屏蔽了用户标记、用户名等相关字段，共涉及日志300万条，经过噪声处理后共计有效数据42789条。

步骤1、对网站日志数据进行预处理，具体为：

1)对网站日志数据进行净化后，筛选出数据处理中需要的属性，包括用户的IP地址IPNUMBER、访问时间VISIT-TIME、浏览者的cookie信息COOKIE、访问网址URL、访问状态STATUS以及当前访问网址的来源网址REFERER，新建表first记录筛选后的日志。

2)日志内容净化，基于表first分析日志的访问状态STATUS属性，将该属性值不是以2、3开头的日志即用户访问以失败告终的日志删除；分析日志的访问网址URL属性，将访问网址URL中不包含”-catalog”或”catlist”的日志即用户访问当前网址不涉及分类目录的日志删除。

3)对用户的访问网址URL、当前访问网址的来源网址REFERER编号：这两个字段标志的都是网址，为便于后期处理，对于其中相同的网址用相同的序号标志；同时新建一个表site，用于记录编号和网址的对应关系，最终得到有效网址共计7719个，部分网址编号截取如下：

表2网址编号表site

4)分析site表sites字段中”-catalog”和”catlist”后涉及内容，提取其所对应的分类目录，并新建一个表site-diretory来记录。

表3网址目录对应表

NO

SITED

1	Anti-Static
		2	Service
3	Pharmaceutical-Packaging
		4	Tools-Hardware
5	Tent
		6	Crystal-Crafts
7	Dairy-Processing-Machinery
		8	Printing-Machinery-Parts
9	Linen
		10	Car-DVR
11	Consumer-Electronics
		12	Light_Industry_Daily_Use
13	Intellectual-Educational-Toys
		14	Construction-Pipe-Tube
15	Pump-Vacuum-Equipment
		16	Welder
17	Globe-Valve
		18	Industrial-Water-Filter

5)用户识别：通过对IPNUMBER和COOKIE组合的唯一性来识别用户。IPNUMBER用户的IP地址，COOKIE代表用户的临时ID，两者联合起来编号可以确定用户的唯一性，同时建立一个表user记录编号的对应关系，共识别出10135个用户。

表4记录用户信息的user表

6)用编码替代字段的具体内容：用表user、表site的编码代替原表中对应的字段数据，替代之后的表记为表”first+编号”。

表5用户和网址用编码替代后的日志记录表”first+编号”

ID	USER	IPNUMBER	VISIT_TIME	URL	STATUS
						1	7060	163.125.61.140	2013-5-1823:50	1	200
2	7061	114.66.192.153	2013-5-1823:54	4	200
						3	7061	114.66.192.153	2013-5-1823:54	4	200
4	7062	114.66.192.153	2013-5-1823:54	4	200
						5	7063	182.118.42.153	2013-5-1823:56	5	200
6	7065	36.248.162.180	2013-5-190:00	7	200
						7	2	222.125.72.7	2013-5-190:00	8	200
8	3	219.234.82.52	2013-5-190:15	11	200
						9	4	123.144.7.237	2013-5-190:27	12	200
10	7066	123.151.148.170	2013-5-190:33	16	200
						11	7067	120.84.17.34	2013-5-190:34	17	200
12	7068	220.231.27.150	2013-5-190:38	18	200
						13	7066	123.151.148.170	2013-5-190:40	19	200
14	7069	123.125.71.120	2013-5-190:50	20	200
						15	7066	123.151.148.170	2013-5-190:50	21	200
16	7070	182.118.26.91	2013-5-190:54	22	200
						17	7071	182.118.35.150	2013-5-190:54	23	200
18	7072	182.118.35.162	2013-5-190:54	24	200

7)会话识别：同一个用户，操作记录的VISIT_TIME时间差在30分钟以内认为是一个会话，会话路径表中记录的数据如表6所示，识别出的会话路径共2853个。

表6会话路径表dialogue

SESSION_ID	URL	USER	IP	VISIT_TIME
					1	50	6	120.209.79.148	2013-5-191:31
1	51	6	120.209.79.148	2013-5-191:31
					2	50	7	61.241.210.60	2013-5-191:32
2	51	7	61.241.210.60	2013-5-191:32
					3	50	10	61.241.210.60	2013-5-191:54
3	51	10	61.241.210.60	2013-5-191:54
					4	120	12	61.163.165.209	2013-5-192:08

4	121	12	61.163.165.209	2013-5-192:08
					5	50	18	120.209.79.148	2013-5-193:13
5	51	18	120.209.79.148	2013-5-193:13
					6	50	22	175.42.84.104	2013-5-193:44
6	51	22	175.42.84.104	2013-5-193:44
					6	50	22	175.42.84.104	2013-5-193:44
7	59	27	36.249.143.112	2013-5-194:21
					7	30	27	36.249.143.112	2013-5-194:21
8	59	27	36.249.143.112	2013-5-1911:36
					8	30	27	36.249.143.112	2013-5-1911:36

8)事务识别：根据最大向前路径法MFP，将dialogue中的会话路径分割为更详细的事务路径，并删除只涉及一个URL的事务路径。新建表dialogue2记录处理后的所有事务路径，最终共计有效事务路径3584条。

表7事务路径表dialogue2

TRANS_ID	URL	USER	IP	VISIT_TIME
					1	50	6	120.209.79.148	2013-5-191:31
1	51	6	120.209.79.148	2013-5-191:31
					2	50	7	61.241.210.60	2013-5-191:32
2	51	7	61.241.210.60	2013-5-191:32
					3	50	10	61.241.210.60	2013-5-191:54
3	51	10	61.241.210.60	2013-5-191:54
					4	120	12	61.163.165.209	2013-5-192:08
4	121	12	61.163.165.209	2013-5-192:08
					5	50	18	120.209.79.148	2013-5-193:13
5	51	18	120.209.79.148	2013-5-193:13
					6	50	22	175.42.84.104	2013-5-193:44
6	51	22	175.42.84.104	2013-5-193:44
					7	50	22	175.42.84.104	2013-5-193:44
8	59	27	36.249.143.112	2013-5-194:21
					8	30	27	36.249.143.112	2013-5-194:21
9	59	27	36.249.143.112	2013-5-1911:36
					9	30	27	36.249.143.112	2013-5-1911:36

9)按层级编码中国制造网的分类目录：共27个一级目录，758个二级目录，1256个三级目录，共计2041个目录。按对应层级编码如表productdirectory，其中目录用六位数字编码，前面两位表示一级目录，中间两位表示二级目录，最后两位表示三级目录。

表8某知名电子商务网站编码与目录对应关系productdirectory表

CATALOG_ID	CATALOG
		010000	Agriculture&Food
010100	Agriculture Manure
		010200	Alcohol

010300	Animal Byproducts
		010400	Aquatic&Preparation
010500	Bean&Preparation
		010600	Beverage
010700	Canned Food
		010800	Cereal
010900	Cigarette&Tobacco
		011000	Cocoa,Coffee&Preparation
011100	Condiment&Seasoning
		011200	Dairy Products
011300	Econ-valuable Vegetable
		011400	Edible Fungus&Algae
011500	Egg&Preparation
		011600	Fat&Oil

10)将事务路径转为目录路径：新建dialogue3，记录目录路径序列。结合site-diretory，将dialogue2表中的URL字段改成对应目录路径的序列，经过转换最终有3176条有效目录路径。

表9目录路径表dialogue3

CATA_ID	SITED	USER	IP	VISIT_TIME
					Q₁	071000	6	120.209.79.148	2013-5-191:31
Q₁	090603	6	120.209.79.148	2013-5-191:31
					Q₂	071000	7	61.241.210.60	2013-5-191:32
Q₂	090603	7	61.241.210.60	2013-5-191:32
					Q₃	071000	10	61.241.210.60	2013-5-191:54
Q₃	090603	10	61.241.210.60	2013-5-191:54
					Q₄	130000	12	61.163.165.209	2013-5-192:08
Q₄	132401	12	61.163.165.209	2013-5-192:08
					Q₅	071000	18	120.209.79.148	2013-5-193:13
Q₅	090603	18	120.209.79.148	2013-5-193:13
					Q₆	071000	22	175.42.84.104	2013-5-193:44

Q₆	090603	22	175.42.84.104	2013-5-193:44
					Q₇	010000	27	36.249.143.112	2013-5-194:21
Q₇	020000	27	36.249.143.112	2013-5-194:21
					Q₈	010000	27	36.249.143.112	2013-5-1911:36
Q₈	020000	27	36.249.143.112	2013-5-1911:36
					Q₉	030000	29	58.248.208.251	2013-5-1918:03
Q₉	010000	29	58.248.208.251	2013-5-1918:25

步骤2、利用“基于浏览路径顺序的方法VOB”计算任意两个目录路径之间的相似度，构造目录路径相似度矩阵，具体为：

1)对于所有的目录路径进行标号，依次标为Q₁、Q₂、Q₃……、Q_m，其中m为目录路径总个数3176。

2)找出每个目录路径Q_i所有的t(0<t<r+1且t为整数)跳路径具体表示为：

Q_{i}^{t} = {q_{i}, q_{i + 1}, . . ., q_{i + t - 1} | i = 1,2, . . ., r - t + 1},

其中i为整数且取值范围为1<i<t+1；Q_i＝q₁,q₂,...,q_r，q_i表示按序访问的目录，r为Q_i包含的目录总数目，表10中列举了部分目录路径的所有跳路径。

表10目录路径L跳路径举例

3)按次序选取不同的两个目录路径Q_i和Q_j(0<i<j≤m,且i和j均为整数)，计算二者之间的相似度并将其作为目录路径相似矩阵中的第i行第j列元素。

4)重复上一步骤，直到算出m*m相似度矩阵中的所有元素，构造成相似度矩阵A，其中m为涉及到的目录路径总数，共计3176个。由于构建的矩阵比较大但页面有限，在此截取矩阵中的一部分数据。

表11目录路径相似度矩阵

步骤3、利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类，根据目录路径的相似度将对应的用户聚类直到所有类别的凝聚度都不小于0.95为止，具体为：

1)将步骤2中的目录相似度矩阵A的行和列按数值大小进行排序，把经过排序的相似度矩阵按主对角线进行分块处理矩阵B的样式：

B = (\begin{matrix} A_{11} & \cdot \cdot \cdot & A_{12} \\ \cdot \cdot \cdot & d & \cdot \cdot \cdot \\ A_{21} & \cdot \cdot \cdot & A_{22} \end{matrix})

由于篇幅限制，部分截图如下：

表12排序后的目录路径相似度矩阵

	Q₁	Q₂	Q₃	Q₃₂	Q₁₅	Q₁₀₂	Q₇₁₂	Q₁₈	Q₉₃	Q₃₂
											Q₁	1	1	1	0.17	0.17	0.17	0.17	0.17	0.17	0.17
Q₂	1	1	1	0.17	0.17	0.17	0.17	0.17	0.17	0.17

Q₃	1	1	1	0.17	0.17	0.17	0.17	0.17	0.17	0.17
											Q₃₂	0.17	0.17	0.17	1	1	1	1	1	1	1
Q₁₅	0.17	0.17	0.17	1	1	1	1	1	1	1
											Q₁₀₂	0.17	0.17	0.17	1	1	1	1	1	1	1
Q₇₁₂	0.17	0.17	0.17	1	1	1	1	1	1	1
											Q₁₈	0.17	0.17	0.17	1	1	1	1	1	1	1
Q₉₃	0.17	0.17	0.17	1	1	1	1	1	1	1
											Q₃₂	0.17	0.17	0.17	1	1	1	1	1	1	1

2)找出划分点，具体为：计算F_d值，当F_d值最大值时d的值就为划分点，其中F_d表示为：

F_d＝M^d(A₁₁)*M^d(A₂₂)-M^d(A₁₂)*M^d(A₂₁)

其中M^d(A_ij)定义为

M^{d} (A_{ij}) = Σ_{i = (p - 1) * d + 1}^{d + (m - d) * (p - 1)} ({Σ Q_{ij}}_{i = (q - 1) * d + 1}^{d + (m - d) * (q - 1)}),

1≤p≤2,1≤q≤2，m为目录路径总个数。

据此可找出第一个划分点d＝3，表12也清晰可见划分点在第三行第三列。

3)计算聚簇A₁₁、A₂₂的凝聚度T，具体计算公式为：

T (A_{xx}) = \frac{1}{M} * \underset{1 \leq i \leq j \leq t}{Σ} Q_{ij} (1 \leq x \leq 2)

其中t表示A_xx方阵中的行列数，M＝t(t-1)/2，Q_ij表示目录路径Q_i和目录路径Q_j的相似度。

据此公式可算出，第一个划分点划分后的T(A₁₁)＝1、T(A₂₂)＝0.54的过程展示

4)分析各聚簇的凝聚度值，若所有凝聚度值不小于0.95，则聚类结束；如仍有聚簇其凝聚度值小于0.95，则将该聚簇当作新一轮的相似度矩阵A，并重复上述步骤直到所有的聚簇凝聚度都不小于0.95为止。据此原则最终将目录路径对应的用户聚为372类。

步骤4、基于“路径搜索法(Pathfinder)”挖掘出每类用户期望的目录体系，并与原有分类目录体系对比分析，具体为：

1)由于聚类后用户类别多达372类，且涉及目录高达942个，因此本发明选取典型类用户典型大类目录展开具体分析，即第8类用户的ComputerProducts(电脑产品)大类，其中共涉及26个用户、28个网站目录、210个目录路径，涉及的第8类用户的ComputerProducts(电脑产品)大类编码如表13。

表13ComputerProducts大类中第8类用户操作涉及目录编码对应关系表

路径搜索图节点编号	目录原编号	目录内容
			1	72606	USB Flash Disk
2	70000	Computer Products
			3	72700	Tablet PC
4	71600	Notebook&Laptop Computer and Parts
			5	72602	Hard Disk
6	70100	Computer
			7	71000	Keyboard
8	72503	Mini Speaker
			9	70300	Computer Case
10	72604	Memory Card&Card Reader
			11	70700	Drive
12	71505	Router&Switch
			13	70600	CPU
14	72600	Storage Device
			15	71300	Mouse
16	71800	Palm Computer,Pocket PC&PDA
			17	70500	Cooling Fan&Heatsinks
18	70900	Graphic Card
			19	72605	Other Storage Devices
20	72603	HDD Enclosure
			21	72200	Server&Workstation
22	71100	Mainboard
			23	72100	Secondhand Computer Devices
24	70800	Embedded Computer&SCM
			25	71700	Other Computer Products
26	71200	Memory
			27	72500	Speaker&Sound Box
28	71500	Network Hardware&Parts

2)构造该类用户的目录共现频次矩阵，并以目录作为节点，以目录频次倒数作为两个节点间的权重，以满足三角不等式为前提构建目录的路径搜索图，即用户期望的目录层次体系，详见图2。而这28个目录在网站中的路径搜索图如图3所示。

3)将第8类用户涉及的ComputerProducts类网站原有分类目录体系表示成上三角距离矩阵，并进一步表示为路径距离向量A。最终得出的上三角矩阵部分截取如表14所示。

表14部分网站原有分类目录体系对应上三角矩阵图

目录编号	1	2	3	4	5	6	7	8	9	10
											1	-	2	2	2	2	2	2	3	2	2

2	-	1	1	2	1	1	2	1	2
										3	-	2	3	2	2	3	2	3
4			-	3	2	2	3	2	3
										5			-	3	3	4	3	2
6					-	2	3	2	3
										7					-	3	2	3
8							-	3	4
										9							-	3
10									-

4)将第8类用户期望的ComputerProducts类分类目录体系表示成上三角距离矩阵，并进一步表示为路径距离向量B₁，用户期望的上三角矩阵部分截取如表15所示。

表15部分用户期望分类目录体系对应上三角矩阵图

目录编号	1	2	3	4	5	6	7	8	9	10
											1	-	2	2	2	2	2	2	2	2	2
2		-	2	2	2	2	2	2	2	2
											3			-	2	2	2	2	2	2	2
4				-	2	2	2	2	2	2
											5					-	2	2	2	2	2
6						-	2	2	2	2
											7							-	2	2	2
8								-	2	2
											9									-	2
10										-

5)将网站分类目录距离向量A与第8类用户期望的分类目录距离向量B1代入路径搜索法中的相关系数公式，从而得到用户期望分类目录体系与网站目录体系中各个分类目录的相关系数，据此判断所需优化的分类目录，相关系数区间总结如表16。

表16第8类用户涉及ComputerProducts类分类目录相关系数区间

根据该表可知在用户操作相关的28个网站目录中，仅有10个分类目录与用户期望相符合不需要优化，有18个目录都与用户期望不一致需要优化，需要优化的目录具体为：1(USBFlashDisk，U盘)、3(TabletPC，平板电脑)、4(Notebook&LaptopComputerandParts，笔记本和台式机电脑及配件)、5(HardDisk，硬盘)、6(Computer，电脑)、7(Keyboard，键盘)、8(MiniSpeaker迷你音箱)、9(ComputerCase，机箱)、10(MemoryCard&CardReader，存储卡和读卡器)、11(Drive，驱动器)、12(Router&Switch，路由器和交换机)、15(Mouse，鼠标)、16(PalmComputer,PocketPC&PDA，掌上电脑)、17(CoolingFan&Heatsinks，风扇和散热器)、19(OtherStorageDevices，其他存储设备)、20(HDDEnclosure，硬盘)、27(Speaker&SoundBox，音箱)、28(NetworkHardware&Parts，网络硬件和部件)。

6)基于相关系数中指出需要优化的分类目录，结合路路径搜索图，可明确需要优化的18个目录具体优化方案如表17。

表17符合第8类用户期望的网站分类目录具体优化方案

基于路径搜索法的相关系数评价得出需要优化的分类目录为18个，而通过对比分析网站分类目录路径搜索图与用户期望的分类目录路径搜索图进一步得出18个分类目录的具体优化建议，中国制造网可直接根据该研究结果来实施网站优化。

由上可知，本发明从用户角度出发，以网站日志数据为基础，将聚类分析和路径搜索法两者相结合，根据用户内心期望的不同将其归类，并直观的展现可视化的结果，而且还通过具体的相关系数数据来说明现有网站分类目录与用户内心期望的切合程度，使人清晰的了解现有目录需要优化程度的大小，即以用户为中心优化网站分类目录体系。

Claims

1.一种基于日志挖掘的网站分类目录优化分析方法，其特征在于，步骤如下：

步骤1、对网站日志数据进行预处理，具体为：

步骤1-5、对用户进行识别，判断日志项中是否包含浏览者的cookie信息COOKIE，若包含则认为同一个浏览者的cookie信息COOKIE代表同一个用户，否则认为同一个IP地址IPNUMBER代表同一用户；对识别出的用户按出现次序用阿拉伯数字从小到大编号；

步骤3、利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类，根据目录路径的相似度将对应的用户聚类直到所有类别的凝聚度都不小于0.95为止；

步骤4、基于“路径搜索法Pathfinder”挖掘出每类用户期望的目录体系，并与原有分类目录体系对比分析，给出网站分类目录的具体优化建议。

2.根据权利要求1所述的基于日志挖掘的网站分类目录优化分析方法，其特征在于，步骤2中利用“基于浏览路径顺序的方法VOB”确定任意两个目录路径之间的相似度，构造目录路径相似度矩阵，具体步骤为：

Q_{i}^{t} = {q_{i}, q_{i + 1}, . . ., q_{i + t - 1} | i = 1,2, . . ., r - t + 1}

Q_{ij} = \frac{{< Q_{i}, Q_{j} >}^{l}}{\sqrt{{< Q_{i}, Q_{i} >}^{l} \cdot {< Q_{j}, Q_{j} >}^{l}}}

{< Q_{i}, Q_{j} >}^{l} = Σ_{k = 1}^{l} \underset{q &Element; Q_{i}^{k} \cap Q_{j}^{k}}{Σ} length (q) \cdot length (q)

其中表示目录路径Q_i的k跳路径；

A = (\begin{matrix} Q_{11} & Q_{12} & \cdot \cdot \cdot & Q_{1 m} \\ Q_{21} & Q_{22} & \cdot \cdot \cdot & Q_{2 m} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ Q_{m 1} & Q_{m 2} & \cdot \cdot \cdot & Q_{mm} \end{matrix})

其中m为目录路径总个数。

3.根据权利要求1所述的基于日志挖掘的网站分类目录优化分析方法，其特征在于，步骤3中利用“基于矩阵变换的分裂层次聚类NHC算法”对目录路径相似度矩阵进行聚类，根据目录路径的相似度将对应的用户聚类直到所有类别的凝聚度都不小于0.95为止，具体步骤为：

B = (\begin{matrix} A_{11} & \cdot \cdot \cdot & A_{12} \\ \cdot \cdot \cdot & d & \cdot \cdot \cdot \\ A_{21} & \cdot \cdot \cdot & A_{22} \end{matrix})

其中d是矩阵A的划分点；

F_d＝M^d(A₁₁)*M^d(A₂₂)-M^d(A₁₂)*M^d(A₂₁)

其中M^d(A_ij)定义为

M^{d} (A_{ij}) = Σ_{i = (p - 1) * d + 1}^{d + (m - d) * (p - 1)} ({Σ Q_{ij}}_{i = (q - 1) * d + 1}^{d + (m - d) * (q - 1)}),

1≤p≤2,1≤q≤2，m为目录路径总个数；

T (A_{xx}) = \frac{1}{M} * \underset{1 \leq i \leq j \leq t}{Σ} Q_{ij} (1 \leq x \leq 2)

4.根据权利要求1所述的基于日志挖掘的网站分类目录优化分析方法，其特征在于，步骤4中基于“路径搜索法Pathfinder”挖掘出每类用户期望的目录体系，并与原有分类目录体系对比分析，给出网站分类目录的具体优化建议，具体为：

步骤4-1、构造每大类用户的目录共现频次矩阵并结合路径搜索法构建路径搜索图；

5.根据权利要求4所述的基于日志挖掘的网站分类目录优化分析方法，其特征在于，步骤4-1构造每大类用户的目录共现频次矩阵并结合路径搜索法构建路径搜索图，具体步骤如下：