CN101236563A

CN101236563A - 智能个性化服务网站构造方法

Info

Publication number: CN101236563A
Application number: CNA2008100103178A
Authority: CN
Inventors: 刘峰; 孙宏
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-02-01
Filing date: 2008-02-01
Publication date: 2008-08-06

Abstract

智能个性化服务网站构造方法，是一个简单、易用、高效、通用的网站个性化服务方法。本方法封装了复杂的知识表达和知识获取过程，不直接参与“个性化服务”，以“中间件”方式，给网站应用程序提供每个客户的“个性”。将每个客户的“个性”抽象为“内容喜好”、“预测喜好”和“访问习惯”3个集合，利用数据挖掘技术，通过建立动态学习集办法，持续不断地更新知识库，跟踪分析每个客户“个性”，以API方式，给网站应用程序提供客户的“个性”。网站应用程序可根据所提供的客户“内容喜好”和、“预测喜好”，安排网页内容；根据客户的“访问习惯”，安排客户可以下一步访问网站的索引链接，来达到个性化服务目的。

Description

智能个性化服务网站构造方法

技术领域：

本发明涉及智能化网站构造技术，应用对象是互联网的网站。任何网站都可以利用本发明技术，实现针对不同的访问用户，安排网页内容和布局，为每个访问者提供个性化服务。

背景技术：

现在的网站内容安排大多数都是“静态”的，网页上的内容和布局是事先设计好的，对所有访问者都是固定不变的，不能根据每个访问者的个性来提供“个性化服务”。很多学者提出了下一代互联网Web 3.0的概念，虽然Web 3.0并没有准确的定义，但其核心思路是更加“智能化”的互联网。

如何让互联网更加智能化，网站服务的智能化是其发展的重要组成部分。

数据挖掘技术起源于上个世纪90年代，其核心思想是：“从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程”。现在有很多人研究数据挖掘技术，并将其运用到网站“个性化服务”，取得了很多成果。有些成果已经得到实际应用，并获得了较满意的成效。但也有很多成果在理论上很好，由于计算量大、算法过于复杂，离实际应用还存在相当的距离，在实用上存在诸多的不便。即便是已经应用的成果，也存在个性化知识的描述和提取方法的方面的缺陷，个性化刻画不够全面、准确以及通用性不强等问题。

目前大多数实现网站个性化服务的方法，都存在两个问题：

第一、个性不强

现在很多方法和已经实现的系统，不是针对每个客户的“个性化服务”，而是针对“类”的“个性化服务”。很多“个性化服务”都是通过数据挖掘中的“聚类”办法，将客户划分成若干个类，当问客访问网站时，先将用户影射到所事先划分好的“类”中，再根据“类”的“个性”进行“个性化服务”。严格上讲，这并不是针对每个用户的个性化服务，而是针对“类”的个性化服务。

第二、只强调客户对内容的兴趣，忽略了访问习惯

一个客户访问网站，就如同进入一个商场，不仅仅可以通过其购买的商品反映客户的个性，还可以通过其逛商场的习惯行进路径，如：先逛什么地方、再看什么商品等来反映客户的个性。一个人访问网站的也是一样，不仅仅是通过其浏览了哪些内容可以反映一个人的个性，还可以通过其习惯性的访问路径：先看什么内容、后看什么内容来反映一个人的个性。

现在所有实现网站“个性化服务”的方法，都忽略了客户的“访问习惯路径”，只是单纯地从用户访问网站的内容来抽取个性。显然，只针对用户访问内容而不考虑访问行为习惯的“个性化服务”还是不完备的。

发明内容：

为了解决上述存在的问题，本发明不将用户划分成“类”，而是完全针对每个用户进行真正的“个性化服务”。将每个用户访问网站的“个性”进行了更加详细的数字化分析，将“个性”抽象为三个集合：“内容喜好”集合、“预测喜好”集合和“访问习惯”集合。

“内容喜好”集合：反映一个人对网站各个栏目内容的喜好程度。

“预测喜好”集合：对于没有包含在“内容喜好”中网站栏目喜好的预测，是通过对于与该用户有相似“内容喜好”用户的栏目进行关联分析所得到的。

“访问习惯”集合：是每个用户每次访问网站最频繁出现的栏目访问行为轨迹。

本发明不直接参与最终的个性化服务，而是以“中间件”的形式提供给网站应用程序，由网站应用程序根据“中间件”提供的用户个性知识，来安排网页内容、

页面架构和布局，提供下一步操作的链接索引，从而达到网站智能个性化服务。

本发明目的是通过下述技术方案实现的：

智能个性化服务网站构造方法，步骤如下：

(1)数据监测与清洗程序每天定时读取访问记录，并对访问记录进行分析、清洗、过滤，形成符合客户个性学习记录，存入“用户个性学习集”内；

(2)用户内容喜好分析程序对“用户个性学习集”中记录进行统计分析，得到用户访问网站各个栏目分别占总栏目访问数的百分比集合，即“内容喜好”集合，并保存到“个性知识库”中，同时形成每个用户的“内容喜好”集合记录；

(3)预测喜好程序分析程序，以每个用户的“内容喜好”中的栏目为基本集合，选择所有其他用户“内容喜好”中包含该用户“内容喜好”栏目的记录，得到每个用户的“相似喜好”记录；在这些记录中，以用户的“内容喜好”栏目为基本条件，分别对不包含在“内容喜好”的栏目分别逐个进行关联分析，并按出现频率和支持度进行排序，得到每个用户的“预测喜好”，保存到“个性知识库”中；

(4)访问习惯分析程序，对“用户个性学习集”中记录进行统计分析，抽取客户最经常出现的访问栏目访问行为轨迹，作为“访问习惯”个性保存到“个性知识库”。

(5)通过系统接口程序与网站应用程序进行交互，应用程序将用户ID交给系统，系统判断如客户ID在知识库中，系统将用户的个性：“内容喜好”、“预测喜好”和“访问习惯”返回给应用程序。

“用户个性学习集”，为每个用户保存规定数量的学习记录，当某个用户学习记录大规定数量时，删除旧的记录，补充最新的记录，以保证用户个性学习集是最近的记录。

数据监测与清洗程序步骤如下：

(1)每天定时读取访问记录，将没有访问会话标识Session ID的访问记录转换为有会话标识Session ID的访问记录；

(2)URL栏目转换模块读取访问会话Session记录，查找URL栏目对照表，判断URL所属栏目，将访问会话Session记录的URL转换为栏目，保存到用户栏目访问记录；

(3)栏目归并：当一个访问步骤中包含多个相同栏目时，用1个栏目来代替，对栏目访问记录进行归并；

内容喜好分析程序的步骤如下：

(1)读取用户个性学习集的记录，统计用户栏目访问数；

(2)汇总用户栏目总访问数；

(3)分别计算客户访问每个栏目数占总栏目访问数的百分比，得出客户对网站的内容喜好；

(4)将客户对网站的内容喜好保存到个性知识库中，同时临保存到“客户对网站内容喜好”中，供分析“预测喜好”使用。

预测喜好分析程序步骤如下：

(1)读取“内容喜好”集合的记录，找出包含该“内容喜好”的其他用户“内容喜好”记录，为“相似喜好”记录；

(2)分别统计“相似喜好”记录中，不包含在“内容喜好”中出现栏目的出现次数，再被“相似喜好”记录总数除，得到这些栏目的出现频率；

(3)对上面出现频率进行排序，以排序结果的先后次序，组成“预测喜好”集合；

(4)将每个用户的“预测喜好”保存到个性知识库中。

访问习惯分析程序步骤如下：

(1)读取用户个性学习集的记录，统计每个用户栏目访问序列出现次数；

(2)对访问系列出现次数进行排序，得到最频繁出现的栏目访问序列；

(3)将最频繁出现的栏目访问序列作为“访问习惯”，保存到个性知识库中。

系统接口程序步骤如下：

(1)当某个用户访问网站时，应用程序将用户识别ID传送给应用接口程序，应用接口程序判断用户识别ID是否在“个性知识库”中存在？

(2)如果存在，提取“内容喜好”、“预测喜好”和“访问习惯”，以扩展标记语言XML格式返回给网站应用程序；

(3)如果不存在，应用接口程序返回“没有个性”信息。

本发明的有益效果：

本发明将访问网站用户的“个性”，数字化地定义和描述为“内容喜好”、“预测喜好”和“访问习惯”。“内容喜好”刻画用户对网站内容的基本内容喜好；“预测喜好”通过比较与该用户相似的其他用户的“内容喜好”，得到不在该用户“内容喜好”内的扩展“预测喜好”；“访问习惯”描述用户经常出现的访问行为路径，用这3个数字化分析和刻画，构成对每个用户个性全面数字化描述的“个性知识库”。系统为访问网站的每个用户动态地建立知识库，通过连续地学习过程，不断地自动更新知识库，跟踪用户“个性”变化，网站应用程序可以根据提供的API接口，获得每个访问者的“个性”，然后，根据每个用户的“内容喜好”和“预测喜好”，自动产生网页内容；根据各自的“访问习惯”，安排网页链接布局等有针对的“个性化服务”，引导用户下一步操作的链接索引，方便用户访问网站。各种类型的网站，都可以通过使用本发明技术，来达到为客户访问提供个性化服务目的。与现有技术相比本发明的优点如下：(1)、个性化服务针对性强：本发明的“个性化服务”不将用户划分成“类”，不是通过聚类来分析属性、再影射个性，而是针对每个客户的“个性化服务”，是真正的“个性化服务”，针对性强。(2)对用户兴趣刻画更准确：提供“个性化服务”的关键，是来如何定义和描述用户的“个性”？显然，如果对于“个性”的定义不准确、描述不完备，直接影响到所提供的“个性化服务”质量。本发明用“内容喜好”、“预测喜好”和“访问习惯”3个集合来数字化定义和描述客户的“个性”，可以更全面、准确地刻画一个用户的“个性”，由此所产生的规则，可以更加准确地为网站“个性化服务”提供知识支持；(3)简单易行：本发明结构简单，系统流程线路短，不需要复杂的“聚类”运算，用很小的存储开销和计算量，就可以得到客户的个性，在实际应用上简单易行；(4)技术服务中间件：本发明提供的是一个“中间件”技术，封装了复杂的数据挖掘过程，只提供简单的知识规则调用接口程序API，不直接参与具体的“个性化服务”过程。这样的好处是：因为每个网站的技术结构和服务内容是不同的，如何提供“个性化服务”是网站应用程序的事情，很难准确地通过一个单一的系统来实现。正如操作系统封装了复杂的硬件管理程序，提供应用开发接口程序API一样，可以让各种复杂的应用，构造在这个平台之上，产生各种各样复杂的应用系统。本发明最终给网站提供的是一系列“个性化服务”接口程序，而不直接参与具体实现过程。这样，简单的体系结构，可以给各种网站提供“个性化服务”，网站应用程序，可以根据自己的需要，再构建自己的“个性化服务”；(5)自适应控制：本发明采用动态用户个性学习集的办法，连续不断地跟踪每个客户访问网站记录，连续不断地更新每个用户访问网站的个性变化知识，可以最大限度地减少来自各方面的干扰，所提供的“个性化服务”有很好的适应性和鲁棒性。

附图说明：

图1是智能个性化服务网站构造方法流程图；

图2是数据监测与清洗程序流程图；

图3是内容喜好分析抽取流程图；

图4是预测喜好分析抽取流程图；

图5是访问习惯分析抽取流程图；

图6个性化服务应用接口程序流程图。

具体实施方式：

智能个性化服务网站构造方法，步骤如下：

(1)数据监测与清洗

如图1所示，数据监测与清洗程序102每天定时分析访问日志101，将没有会话标识Session ID的访问网址URL的记录(见表1)转化为有会话标识Session ID的访问网址URL的访问记录(见表2)。

表1：

UseR-ID	时间	URL	代理	、、、、、、、、、
UseR-ID	时间	URL	代理	、、、、、、、、、		XXXX	XXXX	XXXX	XXXX	XXXX	XXXX

表2：

Session-ID	User-ID	时间	URL	代理	、、、、、、、、、
Session-ID	User-ID	时间	URL	代理	、、、、、、、、、	XXXX	XXXX	XXXX	XXXX	XXXX

注意，其中表2的表头中增加了“Session ID”。

如图2所示，会话Session记录模块201分析访问日志101中记录，判别当User ID相同、且间隔时间小于系统定义的“会话”Session时间限制Time Out时，给予一个相同的会话标识Session ID，保存到访问会话Session记录模块202中，形成如表2所示的访问会话形式的Session记录。

URL栏目转换模块204读取访问会话Session记录模块202中的访问会话Session记录，查找“URL栏目对照表”203，将访问会话Session记录模块202中的“URL”转化为“栏目”，见表3。

表3：

Session-ID	User-ID	时间	栏目	代理	、、、、、、、、、
Session-ID	User-ID	时间	栏目	代理	、、、、、、、、、	XXXX	XXXX	XXXX	XXXX	XXXX

此时，表2中“URL”变成了表3的“栏目”，保存到用户栏目访问记录205中。

栏目归并模块206对数据进行归并，形成最后的“用户个性学习集”记录103。

栏目归并：分析相同Session ID记录，如果连续有多条记录同属于一个栏目，归并为1个栏目访问，形成1条客户个性学习记录；

如现有若干条记录，见表4。

表4：

Session ID	User ID	时间	栏目	代理	、、、、、、、、、
Session ID	User ID	时间	栏目	代理	、、、、、、、、、	111111111111111111111111	123123123123123123	11.1011.1111.1211.1311.1411.15	栏目1栏目1栏目1栏目2栏目2栏目2	XXXXXXXXXXXXXXXXXXXXXXXX

按上述规则，归并后结果见表5，

表5：

Session ID	User ID	时间	栏目	代理	、、、、、、、、、
Session ID	User ID	时间	栏目	代理	、、、、、、、、、	11111111	123123	11.1011.13	栏目1栏目2	XXXXXXXX	XXXXXXXX

注意：前3条记录访问连续同为“栏目1”，间隔小于30分钟(假设Web服务器设施超时Time Out为30分钟)，归并为1条记录；后3条记录访问同为“栏目2”且满足条件，也归并为1条记录。

用户归并：去掉无关的信息，只保留Session ID和User ID，将Session ID和UserID的相同的记录按时间顺序归并为1条记录。

如上述记录可归并为：

表6

Session ID	User ID	栏目步骤
Session ID	User ID	栏目步骤	1111	123	栏目1、栏目2

注意：Session ID都是“1111”，用户ID都是“123”，归并为1条记录，这条记录可以解释为：用户“123”某次访问网站，先访问了“栏目1”，后访问了“栏目3”。

这是1条标准的“学习集”记录，保存到“用户个性学习集”103内。

在用户个性学习集103中，为每个用户规定一定数量的学习记录(如：1000条记录，网站可自行设定规定记录数)，当某个用户学习记录超过规定数量时，删除最老的记录，填补最新的记录，以保证学习记录是最新访问记录。

(2)内容喜好分析与抽取

如图1所示，内容喜好分析程序105对“用户个性学习集”103中记录进行统计分析，抽取客户个性“内容喜好”。

“内容喜好”，是指通过统计分析一定数量的访问记录，得到用户访问网站各个栏目分别占总栏目访问数的百分比集合，以此来代表某个用户对网站各个栏目的喜欢程度。

定义一个客户对网站的“内容喜好”是一个百分数的集合。集合中的每个元素是一个百分数，是统计一个客户访问网站每个“栏目”的次数占该客户总访问栏目次数的百分比。

设：一个网站有n个栏目，栏目用V表示，第i个栏目的访问统计数为Vi，全体栏目访问数总为Vt，

总统计数为：V_t＝V₁+V₂+......+V_i+......V_n

V_{t} = Σ_{i}^{n} V_{1}

设Pi是某个栏目Vi访问数占总访问数Vt的百分比，

P_i＝V_i/V_t×100％，

某个客户访问网站各个栏目数分别占其总栏目访问数的百分比数的集合为：

P＝{P1，P2，，，，，，Pi，，，，，，Pn}，

根据上述“内容喜好”定义，统计“用户个性学习集”中的记录，得到每个客户的“内容喜好”，保存到“个性知识库”109中，同时临时保存到内容喜好集合106中。

如图3所示，“内容喜好”分析抽取流程为：统计用户栏目访问数模块301对用户个性学习集103的记录进行统计，统计每个User ID记录中每个栏目的被访问次数，保存到客户访问栏目统计数302模块内；汇总用户栏目访问数模块303统计每个用户访问各个栏目的总数，保存到客户栏目总访问数模块304内；然后再计算每个栏目访问数分别站栏目总访问数的百分比305，得到最后的“客户对网站内容喜好”数据保存在临时存放“客户对网站内容喜好”306中供“预测喜好”分析使用，同时保存到“个性知识库”109中。

举例：假如有结果如表7所示，

表7

User ID	栏目1	栏目2、、、、、、
User ID	栏目1	栏目2、、、、、、	123	2	6

User ID＝123的用户总栏目访问数为2+6＝8。

User ID＝123的用户内容喜好集合为

{栏目1：2/8，栏目2：6/8}＝

{栏目1：25％，栏目2：75％}

其物理意义是：用户123对网站栏目的喜好：栏目1为25％，栏目2为75％。

(3)预测喜好分析与抽取

“预测喜好”是对不包含在“内容喜好”中栏目的预测。首先选出包含该“内容喜好”的其他用户的“内容喜好”记录，称为“相似喜好用户”，再对不包含在该“内容喜好”中的栏目分别进行关联分析，最后再按关联分析的支持度进行排序，所得到的栏目序列，可作为对“内容喜好”中不包含栏目的预测。

所说“相似喜好用户”，是指：“内容喜好”包含该用户的内容喜好的其他用户。如：有甲、乙两个用户，甲用户的“内容喜好”是：

{栏目1：25％，栏目2：75％}

乙用户的“内容喜好”是

{栏目1：10％，栏目2：20％，栏目3：60％，栏目4：10％}，

乙用户的“内容喜好”包含甲用户的“内容喜好”“栏目1”和“栏目2”，因此，乙就是甲用户的“相似内容喜好”用户。

图1中的预测喜好分析程序107对经由内容喜好分析模块105分析得到的内容喜好集合106中的每个用户的“内容喜好”进行再分析，得到每个用户的“预测喜好”。

“预测喜好”分析流程如图4所示，相似喜好寻找模块401在内容喜好集合106中查找具有“相似喜好”的记录，形成“相似喜好集合”402。关联喜好分析模块403对“相似喜好集合”402中不包含“内容喜好”内的栏目分别进行关联分析，得到不包含“内容喜好”集合其他每个栏目出现的频度n。

设：“相似喜好集合”有m条记录，出现某个不包含在“内容喜好”中的栏目i有n条记录，栏目i的“支持度”SUPPORT是n除以m乘100％，

SUPPORT＝(n/m)×100％。

举例：如有包含“栏目1”和“栏目2”的“相似集合”记录200条，其中，出现包含“栏目3”的记录有10条，那么，“栏目3”的支持度

SUPPORT＝10/200×100％＝5。

在“相似喜好”集合记录中，每个非“内容喜好”中的栏目都是“预测喜好”。对这些栏目进行排序，得到“预测喜好集合”404，并以排序的序列先后次序保存到“个性知识库”109中。排序的序列代表推荐建议的强度，网站应用程序可以根据“预测喜好”的排列次序进行内容推荐。

预测喜好完整举例，如：网站有6个栏目，得到某个用户的“内容喜好”是

{栏目1：25％，栏目2：75％}

那么如何预测该用户对“内容喜好”中不包含的6个栏目的喜好呢？

{栏目3，栏目4，栏目5，栏目6}

假设经过统计，有100条“相似喜好”集合记录，这4个栏目的出现频数分别是：

栏目3＝4，栏目4＝6，栏目5＝8，栏目6＝10；

支持度分别是：

SUPPORT(栏目3)＝4/100＝4％；

SUPPORT(栏目4)＝6/100＝6％；

SUPPORT(栏目5)＝8/100＝8％；

SUPPORT(栏目6)＝10/100＝10％；

排序后得到“预测喜好”集合是：

{栏目6＝10，栏目5＝8，栏目4＝6，栏目3＝4}

(4)访问习惯分析与抽取

客户访问习惯是用户每次访问网站最频繁出现的栏目“行为轨迹”，是一个用户、一次访问网站的栏目访问先后序列。

访问习惯分析与抽取流程如图5所示，首先对“用户个性学习集”103中记录进行统计分析，得到各种访问行为，见表8。

表8

Session ID	User ID	栏目步骤
Session ID	User ID	栏目步骤	1112111311141115	123123123123	栏目1、栏目2栏目1、栏目3栏目1、栏目2栏目1、栏目2

统计出每个客户每个访问序列出现的频数501及客户访问序列统计频数502统计结果见表9，

表9：

User ID	栏目步骤	发生次数
User ID	栏目步骤	发生次数	123123	栏目1、栏目2栏目1、栏目3	31

其表示，User ID为123的用户，访问行为：“栏目1、栏目2”发生过3次；访问行为：“栏目1、栏目3”发生过1次

分别按客户ID与序列统计频数进行排序，得到每个客户ID最大的出现按序列503，也就是对“表9”按“发生次数”进行排序，得到最频繁出现的访问行为轨迹为“栏目1、栏目2”，这就是用户123的“访问习惯504”，保存到“个性知识库”109中。

(5)应用接口程序

由于网站服务的多样，有新闻、体育、音乐、门户、图书、交友、零售、批发、等等，对于不同的服务，都有各自的特性，具体的内容存储形式也不相同，只有网站应用程序开发者才最清楚如何进行具体内容个性化推荐服务。因此，本发明不参与个性化服务的具体内容推荐，而是通过接口程序API与网站应用程序进行交互，具体的内容推荐有网站应用程序来完成。

应用接口流程如图6所示，首先网站应用程序将用户ID交应用接口程序104，然后判断在“个性知识库”109中是否存在这个用户ID：如果存在该客户ID，提取该用户个性，获得该用户的“内容喜好”、“预测喜好”和“访问习惯”返回给应用程序；如果客户ID不在，返回“没有该客户记录”信息。

Claims

1、智能个性化服务网站构造方法，其特征在于：步骤如下：

(3)预测喜好程序分析程序，以每个用户的“内容喜好”中的栏目为基本集合，选择所有其他用户“内容喜好”中包含该用户“内容喜好”栏目的记录，得到每个用产的“相似喜好”记录；在这些记录中，以用户的“内容喜好”栏目为基本条件，分别对不包含在“内容喜好”的栏目分别逐个进行关联分析，并按出现频率和支持度进行排序，得到每个用户的“预测喜好”，保存到“个性知识库”中；

(4)访问习惯分析程序，对“用户个性学习集”中记录进行统计分析，抽取客户最经常出现的访问栏目访问行为轨迹，作为“访问习惯”个性保存到“个性知识库”；

2、根据权利要求1所述的根据权利要求1所述的智能个性化服务网站构造方法，其特征在于：所述的“用户个性学习集”，为每个用户保存规定数量的学习记录，当某个用户学习记录大规定数量时，删除旧的记录，补充最新的记录，以保证用户个性学习集是最近的记录。

3、根据权利要求1所述的智能个性化服务网站构造方法，其特征在于：所述的数据监测与清洗程序步骤如下：

(3)栏目归并：当一个访问步骤中包含多个相同栏目时，用1个栏目来代替，对栏目访问记录进行归并。

4、根据权利要求1所述的智能个性化服务网站构造方法，其特征在于：所述的内容喜好分析程序的步骤如下：

(1)读取用户个性学习集的记录，统计用户栏目访问数；

(2)汇总用户栏目总访问数；

(4)将客户对网站的内容喜好保存到个性知识库中，同时临时保存到“客户对网站内容喜好”中，供“预测喜好”分析使用。

5、根据权利要求1所述的智能个性化服务网站构造方法，其特征在于：预测喜好分析程序步骤如下：

(4)将每个用户的“预测喜好”保存到个性知识库中。

6、根据权利要求1所述的智能个性化服务网站构造方法，其特征在于：访问习惯分析程序步骤如下：

7、根据权利要求1所述的智能个性化服务网站构造方法，其特征在于：所述的系统接口程序步骤如下：

(3)如果不存在，应用接口程序返回“没有个性”信息。