CN101655853A

CN101655853A - 建立模型的装置和方法

Info

Publication number: CN101655853A
Application number: CN200810214210A
Authority: CN
Inventors: 袁泉; 赵石顽; 张夏天; 付荣耀
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-08-21
Filing date: 2008-08-21
Publication date: 2010-02-24

Abstract

提供了一种用于建立用户社会模型的装置和方法，其中该装置包括：网页建模单元，用于根据网页的内容建立网页模型；行为记录单元，用于记录至少一个用户对所述网页的行为日志；以及演化建模单元，用于根据所述行为日志，利用所述网页模型的相关信息，建立所述至少一个用户的用户社会模型，其中所述网页模型的相关信息包括所述网页模型的主题信息以及来自其他用户的用户信息。通过本发明的装置和方法建立用户社会模型，能更准确地找出用户潜在的兴趣和爱好，更好地为用户提供个性化服务。

Description

建立模型的装置和方法

技术领域

本发明涉及一种用于建立用户模型和网页模型的装置和方法，更具体地，本发明涉及一种基于内容数据和社会演化来建立用户模型和网页模型的装置和方法。

背景技术

用户模型的建立是指掌握网络用户的兴趣和需要，识别他们感兴趣的领域或者主题，比如体育、音乐、编程等等。它在个性化研究、个性化广告、音乐/书籍/影视推荐领域起到关键作用。尽管配备了许多信息过滤和检索系统，比如推荐系统、网络搜索引擎和数字图书馆系统，但是现今的系统远非最佳。现有检索系统的主要问题是用户模型缺乏社会性和交互影响，因而不适于各个不同用户。

许多研究致力于发展智能代理，它能通过用户过去的网络行为和日志(查询项，点击流，标记等)得知用户的兴趣(简档)，基于这些简档在万维网上找到信息。给定一个特定网页或超级链接以及一个特定用户，代理的任务就是预测用户对该网页或超级链接中的主题的兴趣水平。在这个领域有如下传统方案：Letizia，Syskill&Webert，其在训练数据上使用朴素贝叶斯分类器；NewsDude，其使用KNN对用户的短期兴趣建模，并使用朴素贝叶斯分类器对用户的长期兴趣建模；和来自微软的Lumiere方案，其基于贝叶斯网络在Office 97中提供帮助。

目前只是直接使用与用户交互的网络对象/资源(比如网页)，以及对这些数据使用机器学习算法，因此均是单向过程。如图1所示，通过用机器对网页的文本进行学习，从中提取出用户感兴趣的主题来为用户建立简档，由此建立用户模型。

然而，为了给用户提供高质量的服务，需要充分了解用户和网络资源两者。仅仅挖掘网络资源的外在内容数据，比如仅仅通过挖掘网页上的文本来得出主题，并不足以达到这个目的。

发明内容

本发明的目的是提供一种为用户和网络资源构建完整模型的装置和方法，它不仅使用网页自身提供的内容信息，同时也利用当用户与网页交互时产生的来自他人的社会信息。这里的用户和网页交互包括：用户浏览、设定书签、做出标记、进行点击等等。

根据本发明的一个方面，提供一种用于建立用户社会模型的装置，包括：网页建模单元，用于根据网页的内容建立网页模型；行为记录单元，用于记录至少一个用户对所述网页的行为日志；以及演化建模单元，用于根据所述行为日志，利用所述网页模型的相关信息，建立所述至少一个用户的用户社会模型，其中所述网页模型的相关信息包括所述网页模型的主题信息以及来自其他用户的用户信息。

根据本发明的另一方面，提供一种用于建立用户社会模型的方法，包括步骤：网页建模步骤，根据网页的内容建立网页模型；行为记录步骤，记录至少一个用户对所述网页的行为日志；以及演化建模步骤，根据所述行为日志，利用所述网页模型的相关信息，建立所述至少一个用户的用户社会模型，其中所述网页模型的相关信息包括所述网页模型的主题信息以及来自其他用户的用户信息。

为每个用户和网页获得社会模型具有显而易见的优势。对网页来说，其社会模型可以作为从用户社会行为中获得的附加信息，所以可以用于发现哪些用户对它有兴趣。对用户来说，这种方法通常能够使他获得更好的模型，因而可以基于所获得的模型来提供更好的个性化服务，比如搜索或者推荐服务。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1是示出在现有技术中建立用户模型的典型方式的示意图。

图2是示出了本发明实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的装置的框图。

图3是示出了本发明另一个实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的服务器设备的框图。

图4示出了其网页内容在若干个主题上的分布概率的样本网页模型。

图5示出了根据本发明实施例的用户、网页、主题之间关系的示意图。

图6是示出本发明实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的方法的流程图。

图7是示出本发明另一个实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的方法的流程图。

图8示出了根据本发明实施例的方法与现有技术方法的对比试验结果。

具体实施方式

下面将结合附图详细描述本发明的具体实施例。如果考虑到对某些相关现有技术的详细描述可能会混淆本发明的要点，则不会在这里提供其详细描述。在同一个实施例中，相同的附图标记用于表示执行相同功能的元件或元素。

下面，首先对本发明实施例中要使用的部分术语进行说明。

行为日志-用于记录用户对网页的操作等行为，其可以来自服务器日志或者通过浏览器中的工具(比如谷歌google工具栏)来追踪。用户的行为日志中包括网页浏览、点击过程流、书签、标记、搜索项、网页上的停留时间等。

网页内容：表示该网页的构成，可以被分为若干个主题，其可以根据URL搜索网页来收集。

用户简档：表示用户的兴趣的信息，可以存在于服务器中，也可以从共同用户目录(比如IBM蓝页(IBM Bluepage))来检索。初始阶段的用户简档也可以为空。

下面结合附图来对本发明的实施例进行描述。

图2是示出了本发明实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的装置的结构框图。

如图2所示，根据本发明实施例的用于建立模型的装置200包括：网页建模单元201，用于根据网页的内容建立网页模型，比如，根据每个网页的文本进行分析和挖掘，确定每个网页的文本内容(主题信息)，借助信息检索技术得到初次计算的网页模型，这个初次建立的网页模型也可以被称为网页内容模型；行为记录单元202，用于记录至少一个用户对所述网页的行为日志，例如通过服务器中的记日志功能，将该至少一个用户对网页的操作行为记录下来，并存储在相应的日志文件中；以及演化建模单元203，用于根据所记录的行为日志，利用所述网页模型的相关信息，建立所述至少一个用户的用户社会模型，其中所述相关信息包括所述网页模型的主题信息以及来自其他用户的用户信息。

具体地，根据该用户对网页的行为日志，演化建模单元203直接从该用户的简档数据库中获取该用户的用户信息，并将所获取的用户信息添加到该网页的网页模型中，由此形成该网页的网页社会模型。另一方面，从所形成的网页社会模型中提取该网页的相关信息，建立用户社会模型。这里，网页社会模型中的相关信息包括网页模型中的主题信息，也包括通过多次操作所获得的多个其他用户的用户信息。这样，通过上述操作，所建立的用户社会模型中包含了其它多个用户的用户信息。

另外，根据本发明的另一个实施例，用于建立社会模型的装置200还可以包括：用户建模单元204，用于根据用户简档，建立所述至少一个用户的用户模型，其中该用户的用户模型中包含该用户的用户信息，这个初次建立的用户模型也可以被称为用户内容模型。在包括用户建模单元204的情况下，演化建模单元203从所述用户模型中提取所述用户的用户信息，并向所述网页模型中添加所提取的用户信息，以建立网页社会模型。

根据本发明一个实施例，上述用户信息表示用户对特定服务的兴趣，例如是用户对网页上某个主题如摇滚歌曲、高尔夫球、冲浪等的兴趣。

另外，如图2所示的本发明实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的装置还可以如下方式操作。

网页建模单元201根据网页的内容建立初始的网页模型，比如，根据每个网页的文本中进行分析和挖掘，找到每个网页的文本内容(主题)，借助信息检索技术得到初次计算的网页模型，也可以将其称为网页内容模型。

行为记录单元202记录至少一个用户对所述网页的行为日志，例如通过服务器中的记日志功能，将该至少一个用户对网页的操作行为记录下来，并存储在相应的日志文件中。

用户建模单元204，用于根据用户简档，对所述至少一个用户建立初始的用户模型。比如，从IBM蓝页或者每个网页的文本中进行分析和挖掘，或者在相应网络服务器中进行搜索，找到用户的简档文件，借助信息检索技术得到初次计算的用户模型。

演化建模单元203根据所述行为，将用户模型中的用户信息添加到网页模型中，建立网页社会模型，并将网页社会模型中包含的相关信息添加到用户模型中，以建立用户社会模型，其中网页社会模型中的相关信息包括该网页模型的主题信息和多个其他用户的用户信息。

比如，当用户为一个网页建立书签时，演化建模单元203将该用户的用户信息(包含在用户模型中)在网页模型上形成投影。即，将该用户的用户信息添加到网页模型中，使其成为网页模型的一部分，由此构成了网页社会模型。

另外，演化建模单元203从网页社会模型中提取所述网页的主题信息以及来自其他用户的用户信息，并向用户模型中添加所提取的主题信息以及其他用户的用户信息，以建立用户社会模型。也就是说，使上述网页社会模型在用户模型上形成投影，将其中的相关信息添加到用户模型中，使得用户模型也发生演化，由此建立用户社会模型。这里，网页社会模型中的相关信息包括网页模型中的例如主题信息，也包括经过多次投影而获得的其他用户的用户信息。这样，通过演化建模单元203的上述操作，所建立的用户社会模型中包含了多个其他用户的用户信息。

也就是说，基于用户对网页的行为日志，用户模型和网页模型随时间而演化，使两者中的内容信息相互渗透和融合，由此建立网页社会模型和用户社会模型。

根据本发明的一个实施例，上述行为是指用户对网页进行的浏览、点击、书签、标记、短语搜索、网页停留时间中的一个或多个。

根据本发明的一个实施例，上述用户信息表示用户对特定服务的兴趣。

图3是示出了本发明另一实施例的根据内容数据和社会演化建立用户社会模型和网页社会模型的服务器系统的结构框图。

根据本发明另一实施例的服务器系统300包括：浏览器装置301，网络服务器302，以及连接浏览器装置301和网络服务器302的网络303。根据本发明的一个实施例，网络服务器302通过服务提供装置(单元)308来提供各种服务，如HTML，Servlet，JSP，PHP，ASP等，而浏览器装置301通过网络303对网络服务器302所提供的各种服务进行访问。网络303可以是因特网、企业内联网，或者是其它种类的广域网或局域网。

本实施例的网络服务器302包括以下装置。

行为记录装置(单元)304，用于记录用户利用浏览器装置301对该服务器303提供的各种服务的访问行为，例如浏览、点击等，并将其记录在行为日志中。

网页建模装置(单元)305，其根据网页的文本(内容)计算出初始的网页模型。比如，根据每个网页的文本中进行分析和挖掘，找到每个网页的内容(主题)，借助信息检索技术得到初次计算的网页模型。

用户建模装置(单元)306，其根据用户简档而计算出初始的用户模型，比如，从IBM蓝页或者每个网页的文本中进行搜索，或者在相应网络服务器中进行搜索，找到用户的简档文件，借助信息检索技术得到初次计算的用户模型。用户建模装置306是可选装置。

演化建模装置(单元)307，其根据用户的行为日志，使用户模型和网页模型二者随时间发生演化。具体地，根据用户的行为日志，演化建模装置307使用户模型的一部分在网页模型上形成投影，将用户模型中有关的用户信息添加到网页模型中，并成为网页模型的一部分，由此形成网页社会模型。同时，演化建模装置307使所形成的网页社会模型在用户模型上形成投影，使其中的相关信息被添加到用户模型中，使得用户模型也发生演化，由此建立了用户社会模型。这里，网页社会模型中的相关信息包括网页模型中的各个主题的信息，也包括经过多次投影而获得的其他用户的用户信息。这样，通过上述演化建模装置307的操作，所建立的用户社会模型中包含了其他多个用户的用户信息。

但是根据本发明的一个实施例，服务器设备302可以不包括用户建模装置306。在不包括用户建模装置306的情况下，根据该用户对网页的操作行为日志，演化建模装置307直接从该用户的用户简档数据库中获取该用户的用户信息，并将所获取的用户信息添加到该网页的网页模型中，由此形成网页社会模型。同时，根据用户的行为日志，在所形成的网页社会模型的基础上，再建立用户社会模型。

服务提供装置(单元)308，其根据所建立的用户社会模型，为所述至少一个用户提供个性化服务。

除了上述各个装置(单元)外，本实施例的网络服务器302包括以下装置：中央处理单元(CPU)，用于执行相关的程序，以处理各种数据，并控制网络服务器302中的各个部件(单元)的操作；只读存储器(ROM)，用于存储CPU进行各种处理和控制所需的各种程序；随机存取存储器(RAM)，用于存储CPU在处理和控制过程中临时产生的中间数据；输入/输出(I/O)部件，用于与外部设备(未示出)连接，以在外部设备和根据本发明实施例的网络服务器302之间传输各种数据；以及用户接口(I/F)部件，包括键盘、鼠标，以及可以用各种显示装置或声音装置实现的与用户进行交互操作的其它部件。这些装置或者部件通过总线(未示出)与网络服务器302中的其它装置304、305、306、307、308等相连接，以进行各种控制和相关操作，并实现本发明的各种相应功能。

对于网页建模装置305和用户建模装置306，通常使用信息检索方面的算法，如PLSA；对于演化建模装置307来说，可使用协同演化算法。将在下面给出详细的阐述。

产生一个完整模型(包括每个用户的内容模型和社会模型)主要由三个部分完成。具体过程是：

1.建立初次计算的网页模型和用户模型

a)建立初次计算的网页模型，其在网页建模装置305中完成。

i.运用信息检索中的例如矢量空间模型(VSM)来建立每个网页的关键字列表。在VSM中，一个文档由一个矢量表示。矢量的每一维对应于一个单独的关键字。如果关键字出现在该文档中，则其在矢量中的值不为零。已经发展出计算这些值的不同方法，已知的有(关键字)加权，其中最著名的方案是TF-IDF加权。

ii.利用分类算法，比如可能性潜在语义分析(PLSA)算法，为每个网页和网页中的术语建立计算模型。也被认为是可能性潜在语义索引(PLSI，尤其是在信息检索领域)的PLSA是一种用于分析双模式和共生数据的统计技术。通过使用PLSA，所有的网页和术语(关键字)被分成N类，其中N通过经验进行手动设定。此处，例如使N＝20，则一个抽样网页模型看上去就是一个20维的矢量：[2.0288324158736703E-13，0.9985917061741042，5.441508805290876E-29，1.555493054369413E-8，...]，每个维数的值就是该网页属于该分类的概率。如图4所示，其中示出了其网页内容在若干个主题(例如1，2，12，17)上的分布概率的样本网页模型，其中纵坐标是该网页的内容属于相应主题的概率。

b)建立初次计算的用户模型，其在用户建模装置306中完成。

如果存在一些原始数据，比如来自蓝页的用户简档或者在注册阶段用户提供的简档，则用户简档可被看作文档，这样就能够运用与步骤a)相同的过程和技术来建立初始的用户模型，这里不再详细描述。如果用户的原始数据为空，则在用户模型的每个维数上简单分配一个相同值，比如用户感兴趣的主题有20个，则初次计算的用户模型可以是这样的：[0.05，0.05，...，0.05].总维数的和等于1。

2.通过演化用户模型和网页模型来建立社会模型，这在演化建模装置307中完成。

a)从行为日志中选择一个用户行为，比如用户x为网页y做书签。

b)在过程1建立的初始模型中的找到用户模型A和网页模型B。

c)使用协同演化算法(比如遗传算法)或者其它方法来演化原始模型，即用户模型A和网页模型B。

用户模型A和网页模型B两者都需参与演化过程。在这个过程中，用户模型A演化为用户社会模型A1，其中由于考虑了网页模型B，用户社会模型A1优于用户模型A。与此同时，网页模型B演化成网页社会模型B1，其中网页社会模型B1优于网页模型B。演化之后，获得用户社会模型A1和网页社会模型B1。通过用户社会模型A1和网页社会模型B1来替换用户模型A和网页模型B。

d)这时，如果用户x的行为日志不为空，则再进入过程2-a。

3.在演化建模装置307中重复上述过程2，直到获得稳定的用户社会模型和网页社会模型。“稳定”在此处意为用户社会模型和网页社会模型变成收敛的。最后，在数据库中存储所得到的用户社会模型和网页社会模型。

更具体地，上述过程2和过程3的建模如下来执行。

首先，选择网络用户访问或者使用的信息，比如下载的电影、音乐，访问的网站等等。这里，使用术语“用户-对象”来描述它们之间的关系，其中“对象”有效反映了用户的兴趣。

有些时候，需要知道用户感兴趣的主题，以便利用它们的内容，比如网页的文本、电影或音乐的说明等，将网络对象分组或者分类为各个主题。之后，“用户-对象”的关系可以延伸为“用户-对象-主题”的三方关系。也可以利用域的知识来生成主题，例如网页目录、电影种类、域本体等等。

利用“用户-对象-主题”关系建立一个包括三种节点的社会图表，如图5所示，其中示出了多个用户、对象和主题，两两节点之间的连线代表了三者之间的关系。在图5中，分别示出了n个用户、m个对象和k个主题，如果用户访问了一个对象，那么在该用户和该对象之间有一个连线。如果一个对象属于一个主题，则在该对象和该主题之间也有一条连线。

根据本发明的一个实施例，当用户U1对网页O1进行例如点击等的操作时，本发明的网络服务器302中的行为记录装置304将用户U1的该项行为记录到用户U1的行为日志中。用户的行为日志可以以数据库的形式存储在服务器端，并且服务器端可以存储多个用户的行为日志。

在用户简档数据库中记录有用户简档文件，其中具有用户的各种信息，例如有关用户对各种产品、服务的喜好的关键词，能够反映用户日常生活及行为的兴趣的关键词等。

网页内容数据库中记录有该网页所包含的所有主题的关键词。

网页建模装置305根据网页内容数据库中的信息，例如有关各种主题的关键词，对该网页进行建模，形成网页内容模型，例如O1。用户建模装置306根据用户简档中的信息，例如有关用户兴趣的关键词，对该用户进行建模，形成用户内容模型，例如U1。

接下来，演化建模装置307调用用户行为日志，根据用户U1对网页O1的操作行为，在用户U1和网页O1之间建立关系，例如在图5中通过U1和O1之间的连线来表示。这时，演化建模装置507从用户内容模型U1中提取该用户的基本信息，例如“该用户喜欢打网球”，将该基本信息与该网页内容模型O1中的信息进行合并，形成新的网页模型O1，这时将该新的网页模型称为网页社会模型O1’。这是因为该网页模型中包含了用户的兴趣信息。与此相同，由于每个网页由若干用户进行了点击等操作，因此，该网页中包含了已经对其进行点击操作的所有用户的信息。

同时，演化建模装置307也从网页内容模型O1中提取关于该网页内容模型所包括的各种主题的信息，例如各种主题的关键字，并将这些信息合并到用户内容模型U1中，形成新的用户模型U1，这些新形成的用户模型U1就被称为用户社会模型U1’。

例如，如果被用户U1点击的网页O1曾经被其它用户例如U2点击过，则网页社会模型O1’中也会包含用户U2的基本信息。这时，演化建模装置507会从网页社会模型O1’中提取出有关用户U2的基本信息，并将该用户U2的这些基本信息也合并在用户模型U1中，形成用户社会模型U1’。这是因为该用户社会模型U1’中包含了其它用户例如U2的基本信息。

通过在各个用户和各个网页之间反复进行上述过程，以及利用网页O和主题T之间的关系，就在用户、网页和主题之间建立了根据本发明实施例的相互关系。

接下来，根据在图5中所建立的社会模型的关系图表，可以产生代表该图形的相邻矩阵A，其中矩阵A的元素定义如下：

使该矩阵A的每一行规格化，之后该矩阵代表一个Markov(马尔可夫)链，其中每个节点与Markov链的一个状态相关联。

对该矩阵采用随机行走算法(random walk algorithms)计算两个节点之间的距离。根据该算法，用户节点和主题节点之间的距离反映了一个用户针对这个主题的兴趣。所以一个用户和所有主题之间的距离以矢量的方式构成了用户兴趣模型，一些度量方法可以用于测量在一个Markov链中各状态之间的距离。这里列出了本领域技术人员熟知的三种度量方法作为示例实施例。

1)平均第一通过时间(FPT)：如果一个各态历经Markov链在状态S_i时开始，则第一次达到状态S_j所需要的步骤数被称为从状态S_i到状态S_j的平均第一通过时间，它由m_ij表示，按照惯例m_ii＝0。

2)平均交换时间(CT)：c_ij＝m_ij+m_ji

3)拉普拉斯矩阵L的违逆(L⁺)：该图形的拉普拉斯矩阵L被定义为L＝D-A，其中D＝diag(a_i)，即是矩阵a_i的对角矩阵。

给定一个用户，如果全部对象有k个主题，则他/她的社会模型为<w₁，w₂，w₁...w_k>，每个矢量的权重代表该用户与对应主题之间的距离，其意味着用户对主题的喜爱程度。

当使用CT(或者FPT)作为距离的度量标准时，用户对一个主题的权重计算为：(CT-Min)/(Max-Min)，这里CT是该用户和该主题之间的值，Min是用户对其它节点的最小CT值，而Max是用户对其它节点的最大CT值。

当使用L⁺作为距离的度量标准时，可以直接使用该值作为权重。

下面将参照附图对本发明的方法进行描述。

如图6所示，在步骤60，根据网页的内容建立初始的网页模型。比如，根据每个网页的文本中进行分析和挖掘，找到每个网页的文本内容(主题信息)，借助信息检索技术得到初次计算的网页模型(网页内容模型)。

在步骤61，记录至少一个用户对所述网页的行为日志。例如通过服务器中的记日志功能，将该至少一个用户对网页的操作行为记录下来，并存储在相应的日志文件中。

在步骤62，根据所记录的用户行为，利用所述网页模型中的相关信息，建立至少一个用户的用户社会模型。在这里，相关信息中含有上述网页模型的主题信息以及来自其他用户的用户信息。

具体地，直接从用户的简档数据库中提取该用户的用户信息，并向所述网页模型中添加所提取的用户信息，由此形成该网页的网页社会模型。同时，从所形成的网页社会模型中提取该网页的相关信息，建立用户社会模型。这里，网页社会模型中的相关信息包括网页模型中的主题信息，也包括多个其他用户的用户信息。这样，通过上述操作，所建立的用户社会模型中包含了其他多个用户的用户信息。

在用户对每个网页的行为日志的基础上，重复步骤62，直到获得稳定的用户社会模型和网页社会模型，然后在数据库(未示出)中储存这些模型。

另外，图6所示方法的步骤62中还可以包括用户建模步骤，在该步骤中，从服务器的记录或者网页中搜索用户简档，并根据发现的用户简档，建立至少一个用户的用户模型(用户内容模型)。比如，从IBM蓝页或者每个网页的文本中进行搜索，或者在相应网络服务器中进行搜索，找到用户的简档文件，借助信息检索技术得到初次计算的用户模型。注意：用户模型可以为空，这意味着在蓝页上进行搜索以获得用户模型是一个可选步骤。在建立用户模型的情况下，该用户的用户模型中包含该用户的用户信息。并且，演化建模单元203从所述用户模型中提取所述用户的用户信息，并向所述网页模型中添加所提取的用户信息，以建立网页社会模型。

许多演化算法可以应用于用户模型和网页模型的演化进程中，比如遗传算法，或者简单地彼此投影的方法等。

图7是示出本发明另一实施例的根据网页内容数据和社会演化建立用户社会模型和网页社会模型的方法的流程图。

如图7所示，在步骤70，根据网页的内容建立初始的网页模型。比如，从IBM蓝页或者每个网页的文本中进行搜索，找到每个网页的文本内容(主题)，借助信息检索技术得到初次计算的网页模型。

在步骤71，根据用户简档，建立至少一个用户的用户模型。比如，从IBM蓝页或者每个网页的文本中进行搜索，或者在相应网络服务器中进行搜索，找到用户的简档文件，借助信息检索技术得到初次计算的用户模型。

在步骤72，记录至少一个用户对所述网页的行为日志。例如通过服务器中的记日志功能，将该至少一个用户对网页的操作行为记录下来，并存储在相应的日志文件中。

在步骤73，根据所述行为日志，将用户模型中的用户信息添加到网页模型中，建立网页社会模型，并将网页社会模型中包含的相关信息添加到用户模型中，以建立用户社会模型，其中网页社会模型中的相关信息包括网页模型的主题信息和多个其他用户的用户信息。

具体地，当用户为一个网页例如建立书签时，将该用户的用户信息(包含在用户模型中)在网页模型上形成投影。即，将该用户的用户信息添加到网页模型中，使其成为网页模型的一部分，由此构成了网页社会模型。同时，演化建模单元203从网页社会模型中提取所述网页的主题信息以及来自其他用户的用户信息，并向用户模型中添加所提取的主题信息以及其他用户的用户信息，以建立用户社会模型。

通过上述过程可知，根据本发明实施例的方法生成用户社会模型和网页社会模型是一个双向过程，其将用户内容数据(比如来自蓝页的用户简档)和网页内容数据(来自文本)作为初次模型，通过演化得出用于用户社会模型和网页社会模型的数据。

实际的情况是，同一个用户会点击若干个不同的网页，而同一个网页也会被若干个不同的用户所点击。具有某种兴趣或爱好的用户会集中浏览某一类的网页，但是单纯利用该网页的内容或主题并不能反映该用户的全部兴趣或爱好。因此，通过本发明所示例的方法，将用户的兴趣和爱好也反映在被浏览过的网页上，并通过该网页将浏览过该网页的多个用户的兴趣和爱好反映在浏览该网页的某个用户身上，来建立该用户的用户社会模型，这样就能更准确地找出该用户潜在的兴趣和爱好，由此针对该用户的潜在兴趣和爱好，更好地为用户提供个性化服务，比如个性化检索、个性化广告推荐、个性化过滤等等。

下面利用一个试验来对该方法的有效性进行评价。

因为每个用户模型由矢量表示，所以可以应用推荐技术来对其进行评价。如果想推荐一些网页给当前用户，首先通过使用Cosine公式计算用户建模的相似性，找到当前用户的相邻者；然后将被相邻者标记的网页划分等级，最后将等级列表的前N个网页推荐给当前用户。

由于数据相对稀少，这里采用“All-But-One”的评价方法，其意味着对每个用户仅用一个网页作为测试集，而所有其它网页作为训练集，并为每个用户推荐前50个网页。如果所使用的网页出现在推荐列表中，这里称之为“命中”，否则为“未命中”。在此基础上，“命中率”能够反映每个用户模型的有效性。

图8示出了根据本发明实施例的方法与现有技术方法的对比试验结果。从图8中能够看到从推荐角度所得的这些结果为：同传统的随机推荐相比，基于本发明的方法的推荐提供了60.7％的命中率。即使同传统的PUM方法的推荐相比，本发明的方法也提高了15.4％的命中率。

因此，根据本发明的方法和设备具有如下优点。根据本发明的方法建立用户兴趣模型是一种获得用户兴趣的创新和有效的方式，其不仅利用各个用户的行为并且利用了该用户与其它用户的社会关系。从推荐的试验中能够看出其在为用户推荐网页方面发挥出色，所以可以很自然地将其运用于向用户推荐电影/音乐/书籍的方面。

另外需要说明的是，本发明的实施例可以通过硬件、软件、固件或它们之间结合的方式来实现，其实现方式不对本发明的技术范围构成限制。

本发明实施例中的各个功能元件(单元)相互之间的连接关系不对本发明的范围构成限制，其中的一个或多个功能元件可以包括或连接于其它任意的功能元件。

虽然上面已经结合附图示出并描述了本发明的一些实施例，但是本领域的技术人员应当理解，在不偏离本发明的原则和精神的情况下，可以对这些实施例进行变化和修改，但它们仍然落在本发明的权利要求及其等价物的范围之内。

Claims

1.一种用于建立用户社会模型的装置，包括：

网页建模单元，用于根据网页的内容建立网页模型；

行为记录单元，用于记录至少一个用户对所述网页的行为日志；以及

演化建模单元，用于根据所述行为日志，利用所述网页模型的相关信息，建立所述至少一个用户的用户社会模型，其中所述网页模型的相关信息包括所述网页模型的主题信息以及来自其他用户的用户信息。

2.如权利要求1所述的装置，还包括：服务提供单元，用于根据所建立的用户社会模型，为所述至少一个用户提供个性化服务。

3.如权利要求1或2所述的装置，其中所述演化建模单元还向所述网页模型中添加所述至少一个用户的用户信息。

4.如权利要求1或2所述的装置，还包括：用户建模单元，用于根据用户简档，建立所述至少一个用户的用户模型，其中所述用户模型中包含所述至少一个用户的用户信息。

5.如权利要求1或2所述的装置，其中所述行为日志包括所述至少一个用户对所述网页进行的浏览、点击、书签、标记、短语搜索、网页停留时间中的一个或多个。

6.如权利要求1或2所述的装置，其中所述用户信息表示所述至少一个用户对特定服务的兴趣。

7.一种用于建立用户社会模型的方法，包括步骤：

网页建模步骤，根据网页的内容建立网页模型；

行为记录步骤，记录至少一个用户对所述网页的行为日志；以及

演化建模步骤，根据所述行为日志，利用所述网页模型的相关信息，建立所述至少一个用户的用户社会模型，其中所述网页模型的相关信息包括所述网页模型的主题信息以及来自其他用户的用户信息。

8.如权利要求7所述的方法，还包括：服务提供步骤，用于根据所建立的用户社会模型，为所述至少一个用户提供个性化服务。

9.如权利要求7或8所述的方法，其中所述演化建模步骤还向所述网页模型中添加所述至少一个用户的用户信息。

10.如权利要求7或8所述的方法，还包括：用户建模步骤，用于根据用户简档，建立所述至少一个用户的用户模型，其中所述用户模型中包含所述至少一个用户的用户信息。