CN101571870A

CN101571870A - 一种基于概念聚类的用户兴趣建模方法

Info

Publication number: CN101571870A
Application number: CNA2009100860717A
Authority: CN
Inventors: 刘永利; 欧阳元新; 张平安; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2009-06-09
Filing date: 2009-06-09
Publication date: 2009-11-04

Abstract

针对传统的用户兴趣建模方法在准确率和增量处理能力方面的不足，本发明提出了一种新的基于概念聚类的用户兴趣建模方法UIM²C²(User Interest Modeling Method based onConceptual Clustering)。该方法首先通过分析用户访问的历史文档构造后缀树结构，然后选择不同的相似度阈值，以不同的粒度合并基本簇。依据不同阈值条件下合并的基本簇之间的包含关系，生成用户的兴趣层次。UIM²C²方法是针对文档的一个增量式、无监督的概念学习方法，因此用户描述文件可以轻易地获取和更新。最后，通过数据集20NewsGroup上的实验验证了UIM²C²方法在兴趣预测方面的有效性。

Description

一种基于概念聚类的用户兴趣建模方法

技术领域

本发明涉及一种基于概念聚类的用户兴趣建模方法，可应用于Web搜索。

背景技术

随着Internet的发展，网上资源以指数速度迅速增长。目前，Web搜索引擎已成为用户获取网络资源的首要工具。但相对于用户有限的信息需求，巨大的信息量仍然容易导致“信息过载”和“信息迷向”等问题的出现。用户兴趣信息是相对稳定的、时间相对长久的信息需求，因此建立有效的用户兴趣模型，为用户提供个性化信息服务十分必要。用户兴趣模型提供了一种结构化的用户兴趣描述形式。从所采用的结构方面分析，常见的用户兴趣表示方法包括基于线性模型的表示法、基于向量空间模型的表示法、基于概率模型的表示法和基于本体论的表示法等。其中，基于本体论的表示法通常采用层次概念树的形式建立关键词的网状关系和属性约束，来表示用户兴趣领域中的文本、结构以及语义概念层次上的关系。这种对于用户兴趣的层次化视图与人类对于一组兴趣的理解方式更加接近，因此加强了用户描述文件(user profile)的语义信息。但采用领域本体的方法侧重于挖掘用户群体共同感兴趣的概念，这些概念不适合具体表示单个用户的兴趣。

发明内容

针对以上问题，本发明以概念聚类技术为基础构建表示用户兴趣的概念层次，提出了一种基于概念聚类的用户兴趣建模方法UIM²C²(User Interest Modeling Method based onConceptual Clustering)。通过对用户浏览过的Web文档进行概念聚类，形成不同粒度的概念簇，根据簇之间的包含关系，创建层次概念树。

本发明的技术方案为：提供一种基于概念聚类的用户兴趣建模方法，通过对用户浏览过的Web文档进行概念聚类，形成不同粒度的概念簇，根据簇之间的包含关系，创建层次概念树，其特征在于：该方法包括四个步骤：文档预处理、建立后缀树并识别基本簇、创建改进的基本簇图和创建用户兴趣层次。

在文档预处理步骤中，使用三种文本预处理方法，即词干提取、停用词过滤和文本分割，UIM²C²以用户在每个查询会话中选择的文档作为潜在的反馈内容。

在建立后缀树并识别基本簇步骤中，首先根据文档内容建立后缀树，根据建立的后缀树，得到基本簇的信息。

在创建改进的基本簇图步骤中，根据基本簇信息，按照STC算法生成基本簇图，基本簇图表示了基本簇之间的相似关系，该相似关系的度量基于公式

sim (B_{m}, B_{n}) = \frac{| B_{m} \cap B_{n} |}{Max (| B_{m} |, | B_{n} |)}

进行，其中B_m和B_n为两个基本簇，|B_m|和|B_n|分别为这两个基本簇对应的文档个数，|B_m∩B_n|表示同时对应这两个基本簇的文档个数，参数δ为阈值。

在创建用户兴趣层次步骤中，改进的基本簇图中节点间连接线上的权重表示两个节点之间的相似度：指定较小的阈值时，聚类结果中包含的簇数目较少，而每个簇包含的数据对象相对较多；指定较大的阈值时，聚类结果中包含的簇数目较多，而每个簇包含的数据对象相对较少。

其中，在创建用户兴趣层次步骤中，使用Valley方法选择阈值δ，用迭代法得到阈值δ的取值列表，按从小到大的顺序表示为：δ₁，δ₂，...，δ_n(δ₁＜δ₂＜...＜δ_n)；当阈值取值为δ₁时，聚类结果中簇数目较少，而每个簇中元素较多，对应于兴趣层次中靠近根节点、较概括的概念；当阈值取值为δ_n时，聚类结果中簇数目较多，而每个簇中元素较少，对应于兴趣层次中靠近叶节点、较具体的概念。

若通过Valley方法得到的阈值较多，则对应兴趣模型中的兴趣层次也相应增多；合并的基本簇作为子概念添加到用户兴趣层次中。

聚类结果中包含的每一个簇对应用户的一个兴趣点，称为用户的一个兴趣概念。用户兴趣模型中的每个概念由一列基本簇短语及其在后缀树中的权重组成，即c_i＝{(b₁，w₁)，(b₂，w₂)，...(b_m，w_m)}，权重用基本簇的分值表示，即s(B)＝|B|·f(|P|)，其中，B表示一个基本簇，s(B)表示该基本簇的评分，|B|表示基本簇B对应文档的个数，|P|表示短语P中特征词的个数，

f (| P |) = \{\begin{matrix} 0.1, | P | = 1 \\ | P |, 2 \leq | P | \leq 6 \\ 6, | P | &GreaterEqual; 6 \end{matrix} .

本发明一种基于概念聚类的用户兴趣建模方法，其优点在于：该UIM²C²方法每层都基于STC算法生成，准确度较高，使得生成的用户兴趣模型中每个概念描述以一列短语及其权重的形式表现，表达文本内容更加精确，且可以快速的完成用户兴趣建模过程。

附图说明

图1是根据三个示例文档建立的后缀树；

图2是由图1中的后缀树得到的基本簇；

图3是两两基本簇之间的相似度；

图4是相似度取值频率分布；

图5是δ＝0.75时，改进的基本簇图；

图6是图1对应的兴趣层次图；

图7为实验数据子集详细信息；

图8为三部分实验结果图，(a)2个分组；(b)5个分组；(c)10个分组。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

实施例一

首先，进行文档预处理，预处理步骤主要使用了三种文本预处理方法，即词干提取、停用词过滤和文本分割，UIM²C²以用户在每个查询会话中选择的文档作为潜在的反馈内容；

其次，建立后缀树并识别基本簇，首先根据文档内容建立后缀树，采用三个文档示例，即“cat ate cheese”、“mouse ate cheese too”和“cat ate mouse too”，建立后缀树(见附图1)，根据建立的后缀树，得到基本簇(见附图2)的信息；

然后，建立改进的基本簇图，根据基本簇信息，按照STC算法，生成基本簇图，基本簇图表示了基本簇之间的相似关系，该相似关系的度量基于公式

sim (B_{m}, B_{n}) = \frac{| B_{m} \cap B_{n} |}{Max (| B_{m} |, | B_{n} |)}

进行，得到的相似度结果参见附图3；其中B_m和B_n为两个基本簇，|B_m|和|B_n|分别为这两个基本簇对应的文档个数，|B_m∩B_n|表示同时对应这两个基本簇的文档个数，参数δ为阈值；

最后，创建用户兴趣层次，改进的基本簇图中节点间连接线上的权重表示两个节点之间的相似度；指定较小的阈值时，聚类结果中包含的簇数目较少，而每个簇包含的数据对象相对较多；指定较大的阈值时，聚类结果中包含的簇数目较多，而每个簇包含的数据对象相对较少。

阈值的选择是创建用户兴趣层次中的一个关键环节。从相似度分布中找出一个稀疏区域，使得相似度值在该区域内的频率较低。将区间[0，1]分成10个子区间，计算每个子区间中的相似度取值频率(见附图4)。根据相似度频率信息，选出一个Valley(若Valley多于一个，则选出最优的一个)，该Valley位于区域6和9之间，因此可选择区间[0.7，0.9)之间的任一值作为阈值δ，此处选择δ＝0.75。该阈值将相似度区间划分为两个子区间[0，0.75)和(0.75，1]，分别将这两个子区间10等份。迭代上述过程，直至没有合法的Valley存在。经迭代计算后，可得到阈值δ的一个取值列表，按从小到大的顺序表示为：δ₁，δ₂，...，δ_n(δ₁＜δ₂＜...＜δ_n)。当阈值取值为δ₁时，聚类结果中簇数目较少，而每个簇中元素较多，对应于兴趣层次中靠近根节点、较概括的概念；当阈值取值为δ_n时，聚类结果中簇数目较多，而每个簇中元素较少，对应于兴趣层次中靠近叶节点、较具体的概念。该实例最终仅得到一个阈值，即δ＝0.75。当δ＝0.75时，根据改进的基本簇图，得到4个合并的基本簇(见附图5)。

若通过Valley方法得到的阈值较多，则对应兴趣模型中的兴趣层次也相应增多。合并的基本簇作为子概念添加到用户兴趣层次(见附图6)中。用户兴趣层次包括两个层次：第一层为整个兴趣层次的根，包含1个最为概括的概念；第二层包含4个概念，这些概念相对具体，且每个概念都是根节点包含的概念的子概念。模型中的每个概念由一列基本簇短语及其在后缀树中的权重组成，即c_i＝{(b₁，w₁)，(b₂，w₂)，...(b_m，w_m)}，权重用基本簇的分值表示，即s(B)＝|B|·f(|P|)，其中，B表示一个基本簇，s(B)表示该基本簇的评分。|B|表示基本簇B对应文档的个数，|P|表示短语P中特征词的个数，

f (| P |) = \{\begin{matrix} 0.1, | P | = 1 \\ | P |, 2 \leq | P | \leq 6 \\ 6, | P | &GreaterEqual; 6 \end{matrix} .

实施例二

根据实施例一中的步骤，选择20NewsGroup数据集。该数据集包含分布在20个UseNet讨论组的约20,000篇文档。本发明随机选择其中10个组共计2823篇文档组成数据子集(见附图7)进行实验，并与WebDCC方法结果进行比较。

实验过程共分为三部分。第一部分数据由第0组和第1组数据组成。从第0组数据中任选120篇文档，其中100篇用于训练用户兴趣模型。从该部分数据的其余各组数据中(本部分数据除第0组之外仅包括第1组数据)分别任选20篇文档，与第0组所选文档中剩余的20篇文档组成测试集。根据建立的用户兴趣模型预测用户对测试集中每篇文档的兴趣，并将测试文档按照兴趣值由高到低排序，计算查全率和查准率。其后从第1组数据中任选120篇文档，重复以上过程，同样计算查全率和查准率，取两组查全率和查准率的平均值，结果如附图8(a)。相关文本的判断由是否与训练文档属于同一个类别来决定。

第二部分数据由5组数据(包括第0、1、2、3、4组)组成，第三部分数据由全部10组数据组成，实验过程均与第一部分数据实验的过程相同，实验结果分别如附图8(b)、8(c)所示。

从附图8可以看出，实验的查准率随查全率的增大而逐渐降低。在三部分实验数据中，测试集规模不断增大，且测试集中的分组数目也逐渐增多(分别为2组，5组和10组)，说明文档数据逐渐杂乱，兴趣预测的难度增大，因此预测的准确率在三部分实验中逐渐降低(UIM²C²方法三部分实验中的平均查准率分别为72.5％，51.2％和36.3％；WebDCC方法在三部分实验中的平均查准率分别为64.1％，29.5和14.5％)。在这个过程中，WebDCC方法对用户感兴趣文档的分辨能力急剧降低，UIM²C²方法的预测准确度虽有降低，但幅度不如WebDCC剧烈，且在每个部分的实验中，UIM²C²方法的准确性均显著优于WebDCC方法的表现。经过分析可知，WebDCC方法以上层节点的概念描述作为新数据的分类器，而概念描述通常较短，因此准确度难以保证；UIM²C²方法每层都基于STC算法生成，准确度较高。另外，UIM²C²方法从构造后缀树结构展开分析，后缀树的基本单元为短语，这个特点使得生成的用户兴趣模型中每个概念描述以一列短语及其权重的形式表现，而短语通常比单个词语有较高的信息容量，表达文本内容更加精确，也是提高准确性的重要原因。在时间复杂度方面，由于UIM²C²方法的核心是一个后缀树聚类过程，该过程的一个主要特点就是线性的时间复杂度，这保证了UIM²C²方法可以快速的完成用户兴趣建模过程。

本发明提出一种新的用户兴趣建模方法UIM²C²。该方法经过分析用户访问的历史文档，利用后缀树聚类算法建立层次化的兴趣结构。本发明将后缀树聚类算法中二值的相似度度量方法进行改进，使相似度可取区间[0，1]内的任意实数值。而不同的相似度阈值决定了算法中基本簇的合并粒度，并与兴趣模型中的层次对应。较小的阈值生成的聚类结果中簇数目较少，每个簇中元素较多，对应于兴趣层次中靠近根节点、较概括的概念；较大的阈值生成的聚类结果中簇数目较多，每个簇中元素较少，对应于兴趣层次中靠近叶节点、较具体的概念。根据不同层次之间概念的包含关系，生成层次化的用户兴趣模型。分析和实验表明，UIM²C²方法建立的用户兴趣模型在兴趣预测方面可以获得比WebDCC方法更高的准确性。

Claims

1.一种基于概念聚类的用户兴趣建模方法，通过对用户浏览过的Web文档进行概念聚类，形成不同粒度的概念簇，根据簇之间的包含关系，创建层次概念树，其特征在于：该方法包括四个步骤：文档预处理、建立后缀树并识别基本簇、创建改进的基本簇图和创建用户兴趣层次；

在文档预处理步骤中，使用三种文本预处理方法，即词干提取、停用词过滤和文本分割，UIM²C²以用户在每个查询会话中选择的文档作为潜在的反馈内容；

在建立后缀树并识别基本簇步骤中，首先根据文档内容建立后缀树，根据建立的后缀树，得到基本簇的信息；

sim (B_{m}, B_{n}) = \frac{| B_{m} \cap B_{n} |}{Max (| B_{m} |, | B_{n} |)}

进行，其中B_m和B_n为两个基本簇，|B_m|和|B_n|分别为这两个基本簇对应的文档个数，|B_m∩B_n|表示同时对应这两个基本簇的文档个数，参数δ为阈值；

2.如权利要求1中所述的基于概念聚类的用户兴趣建模方法，其特征在于：在所述的创建用户兴趣层次步骤中，使用Valley方法选择阈值δ，用迭代法得到阈值δ的取值列表，按从小到大的顺序表示为：δ₁，δ₂，...，δ_n(δ₁＜δ₂＜...＜δ_n)；当阈值取值为δ₁时，聚类结果中簇数目较少，而每个簇中元素较多，对应于兴趣层次中靠近根节点、较概括的概念；当阈值取值为δ_n时，聚类结果中簇数目较多，而每个簇中元素较少，对应于兴趣层次中靠近叶节点、较具体的概念。

3.如权利要求2中所述的阈值选择方法，其特征在于：若通过Valley方法得到的阈值较多，则对应兴趣模型中的兴趣层次也相应增多；合并的基本簇作为子概念添加到用户兴趣层次中。

4.如权利要求1所述的基于概念聚类的用户兴趣建模方法，其特征在于：所述的聚类结果中包含的每一个簇对应用户的一个兴趣点，称为用户的一个兴趣概念；兴趣概念由一列基本簇短语及其在后缀树中的权重组成，即c_i＝{(b₁，w₁)，(b₂，w₂)，...(b_m，w_m)}，权重用基本簇的分值表示，即s(B)＝|B|·f(|P|)，其中，B表示一个基本簇，s(B)表示该基本簇的评分，|B|表示基本簇B对应文档的个数，|P|表示短语P中特征词的个数，

f (| P |) = \{\begin{matrix} 0.1, & | P | = 1 \\ | P |, & 2 \leq | P | \leq 6 \\ 6, & | P | &GreaterEqual; 6 \end{matrix} .