CN102156728B

CN102156728B - 一种改进的基于用户兴趣模型的个性化摘要系统

Info

Publication number: CN102156728B
Application number: CN 201110083097
Authority: CN
Inventors: 刘永利
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2013-08-21
Anticipated expiration: 2031-03-31
Also published as: CN102156728A

Abstract

本发明公开了一种改进的基于用户兴趣模型的个性化摘要系统，该系统由Web信息检索子系统、用户兴趣子系统和个性化摘要子系统3部分组成。该个性化摘要系统通过分析用户检索日志，利用文档索引图方法建立和/或更新用户兴趣模型；然后依据该用户兴趣模型与检索结果进行用户兴趣与检索结果中句子相似度的度量，从而得到满足用户需要的个性化摘要。采用的个性化句子评分处理得到的个性化摘要充分考虑了用户的兴趣特点，使摘要的生成过程根据用户的兴趣进行匹配，可以提高摘要的有效性以及用户的满意度。

Description

一种改进的基于用户兴趣模型的个性化摘要系统

技术领域

本申请属于信息检索、数据挖掘、人工智能领域。

背景技术

自动摘要技术是计算机语言学和情报科学共同关注的课题，其本质是信息的挖掘和信息的浓缩。按照目标或功能的不同，摘要可以划分为指示性摘要、信息性摘要、概括性摘要和评论性摘要等，但这些摘要的生成过程通常不考虑具体用户的知识水平、兴趣领域和信息需求，而是直接为不同背景的用户提供相同的摘要内容。

个性化摘要是指通过分析用户的兴趣和需求信息，为不同的用户生成与其个人信息紧密相关的摘要内容的过程。

传统方式的摘要忽略了不同用户之间的兴趣差异，若摘要的生成过程能够根据用户的兴趣进行匹配，则可以提高摘要的有效性以及用户的满意度。

发明内容

本申请在研究现有用户兴趣建模和文档摘要技术的基础上，设计了一种基于用户兴趣模型的个性化摘要系统PerSum，具体内容如下。①通过分析用户检索日志，利用概念聚类的方法隐式的建立和更新以层次概念结构描述的用户兴趣模型；②讨论了个性化摘要与查询偏重摘要的相同点和不同点，针对查询偏重摘要在表达文档内容时的不足，设计了一个个性化摘要提取模型。

本申请设计了一种改进的基于用户兴趣模型的个性化摘要系统PerSum。系统在一个Web信息检索子系统的基础上，加入了用户兴趣子系统和个性化摘要子系统。PerSum系统的体系结构如图1所示。①Web信息检索子系统：一方面对指定的Web页面进行索引和存储，另一方面接收用户的查询请求，检索出查询结果，主要包括搜索、索引、存储、检索和检索日志部分。②用户兴趣子系统：根据用户的检索日志，构建或更新用户的兴趣模型，主要包括兴趣更新、兴趣存储和兴趣访问接口三个部分。③个性化摘要子系统：根据用户的兴趣模型和检索结果，生成用户的个性化摘要，主要包括句子评分和摘要自动提取两个部分。

附图说明

图1是PerSum系统体系结构图，

图2是文档索引图示例，

图3是点的内部结构。

具体实施方式

用户兴趣模型通常可表示为一个概念集合，记作C＝{c₁，c₂，...c_n}，其中每个概念可用一组关键词及其权重的二元组描述，即c_i＝{(t₁，w₁)，(t₂，w₂)，...(t_m，w_m)}，如概念“政治”可以表示为{(政治，0.9)，(访问，0.8)，(政府，0.6)}。

仅仅使用关键词往往难以准确表达出用户的兴趣信息，因为在对Web页面建立索引的过程中原有丰富的语义信息已经消失殆尽。为了尽可能多的保留原有的语义信息，在用户兴趣的表示方法中加入短语的因素是一种理想的方法。短语是由多个关键词按顺序组成的一个序列，通常能够比单个的关键词包含更多的语义信息。在本发明中，选择文档索引图的方法表示用户兴趣，这种方法不但考虑了单个关键词的因素，而且考虑了短语的因素。

文档索引图是一种有向图，如图2所示。

一个文档索引图可形式化表示为G＝(V，E)，其中G表示文档索引图，V是n个节点组成的集合{v₁，v₂...v_n}，每个节点v_i(1≤i≤n)表示文档中的一个关键词；E表示图中边组成的集合{e₁，e₂...e_m}，e_j(1≤j≤m)表示一条边，m表示边的数目。

用文档索引图表示用户兴趣时，将用户访问过的Web文档建立文档索引图。如图2列出了两个文档建立的文档索引图。建立时，每个文档被分割成多个句子，每个句子依次添加到文档索引图中，句子中每个关键词对应图中一个节点，若该关键词已存在于图中，则直接修改对应节点的信息，否则新建一个节点保存该关键词的信息。

每个节点的内部存储结构如图3所示。

节点的内部结构包括两个部分，即文档表和边表。文档表中每一行记录了文档编号、关键词频率TF以及边信息ET，其中边信息ET对应了一个边表，边表中每一行记录了边编号(如E1和E2)和该节点在句子中的位置信息(如S1(1)表示句子1中的第一个关键词，S3(1)表示句子3中的第一个关键词)，边表反映了句子的结构信息。

在用户和Web信息检索系统的一个典型交互中，用户根据自己的检索意图提交查询，然后得到大量的检索结果。用户不可能阅读每个结果的所有内容，因此检索结果往往采用偏重摘要(query-biased summary)的形式。偏重摘要不同于通用摘要，后者是对文档主体内容的概括浓缩，而前者是根据用户的查询需求而生成的存在侧重点的摘要。由于偏重摘要通常仅根据查询条件生成，而查询条件往往不能准确表达用户的查询意图，另一方面，偏重摘要内容不考虑用户的兴趣差异，只要查询内容相同，摘要内容就相同，因此在Web信息检索系统中用偏重摘要表达文档内容的方式亟待改善。个性化摘要在偏重摘要的基础上，结合了用户的兴趣特点，能够满足用户的个性化需求。

借鉴查询偏重摘要的生成方法，个性化摘要通过一个句子抽取模型创建。Web页面文本内容由一系列的句子组成，通过评定每个句子的重要性，选出分值最高的部分句子组成该页面内容的摘要。句子重要性的评定，在生成查询偏重摘要时通常需要考虑以下几个主要的因素：标题、位置、词频和查询偏重。Vechtomova提出的查询偏重摘要方法结合了词频和查询偏重两个因素，取得了良好的效果。本申请在Vechtomova生成偏重摘要方法的基础上，加入了用户兴趣因素，即依次考虑以下因素：

(1)句子中出现的查询关键词的IDF值。用户通常很容易从包含有查询关键词的句子中判断出检索结果的相关性，因此，根据句子中查询关键词的分布，计算每个句子的分值：

S_{idf} (s) = \underset{k &Element; Kq}{Σ} ID F_{k} - - - (1)

其中IDF_k表示出现在句子中的查询关键词k的倒排词频，Kq为查询q中的关键词组成的集合。S_idf反映了句子包含查询关键词的多少；

(2)句子的信息量，即组成句子的每个关键词对应的TF*IDF值的组合：

S_{ic} (s) = \frac{\underset{k &Element; Ks}{Σ} {Weight}_{k}}{f} - - - (2)

其中，Weight_k是TF*IDF算法计算得到的关键词k的权重，Ks为句子s中的关键词组成的集合，f为一个句子长度调节系数。S_ic反映了句子所包含信息的多少，在生成摘要的过程中作为S_idf的辅助因素；

(3)用户兴趣。用户兴趣模型子系统根据用户的浏览内容，为PerSum系统的每个用户建立了用文档索引图描述的兴趣模型。通过计算每个句子与用户兴趣之间的相似程度，可以有效地确定用户对于句子的兴趣。相似度计算包括两个方面，基于单个关键词的相似度和基于短语的相似度。

A.基于单个关键词的相似度计算

用户兴趣模型可用一组关键词及其权重的二元组表示，即c＝{(t₁，w_1，c)，(t₂，w_2，c)，...(t_m，w_m，c)}，其中表示关键词，表示关键词对应的权重，因此对于用户兴趣c和句子s的相似度可以用向量空间模型(vector spacemodel)中的cosine公式计算：

{sim}_{Term} (c, s) = \frac{Σ_{i = 1}^{N} w_{i, c} \times w_{i, s}}{\sqrt{Σ_{i = 1}^{N} w_{i, c}^{2}} \times \sqrt{Σ_{i = 1}^{N} w_{i, s}^{2}}} - - - (3)

其中，sim_Term(c，s)表示用户兴趣c和句子s的基于单个关键词的相似度，N为关键词空间的维数，w_i，c为用户兴趣模型c中关键词t_i对应的权重，w_i，s为句子s中关键词t_i对应的权重。

B.基于短语的相似度计算

根据文档索引图表示的用户兴趣模型，从短语的角度出发计算与句子s的相似度。

{sim}_{Phrase} (c, s) = \frac{\sqrt{Σ_{i = 1}^{P} {[g (l_{i}) \cdot (f_{i, c} + f_{i, s})]}^{2}}}{Σ_{j} | s_{j, c} | + Σ_{k} | s_{k, s} |} - - - (4)

其中，sim_Phrase(c，s)表示用户兴趣c和句子s的基于短语的相似度，P为用户兴趣c和句子s相匹配短语的个数，l_i为第i个匹配短语的长度，f_i，c和f_i，s分别为第i个匹配短语在用户兴趣c和句子s中出现的次数，g(l_i)是一个对匹配短语长度进行评分的函数，g(l_i)＝(l_i/|s_i|)，|s_i|为原始短语的长度，|s_j，c|和|s_k，s|分别表示用户兴趣c和句子s中原始句子的长度。

综合考虑上述两个方面，用户对句子s的兴趣可用下式表示：

sim(c，s)＝θ·sim_Term(c，s)+(1-θ)·sim_Phrase(c，s)(5)

其中，θ为一个调节因子，调节两种相似度计算方法的比重。

综合上述三个因素得到句子s的最终评分如下：

S (s) = \frac{α S_{idf} (s) + β S_{ic} (s) + γsim (c, s)}{α + β + γ} - - - (6)

用上述方法计算每个句子的最终评分，根据分值对句子的重要性排序，取TOPK个句子组成提供给用户的个性化摘要。

Claims

1.一种改进的基于用户兴趣模型的个性化摘要系统，该个性化摘要系统由Web信息检索子系统、用户兴趣子系统和个性化摘要子系统组成；其特征在于：

所述Web信息检索子系统根据查询请求负责完成对Web页面的索引和检索任务，并将检索结果输出给个性化摘要子系统、将检索日志输出给用户兴趣子系统；

所述用户兴趣子系统根据Web信息检索子系统提供的检索日志，利用文档索引图结构描述用户兴趣模型；

所述个性化摘要子系统执行以下步骤：

(A)根据用户兴趣子系统提供的用户兴趣模型与Web信息检索子系统输出的检索结果进行用户兴趣c与检索结果中句子相似度s的计算，获得相似度sim(c，s)，sim(c，s)＝θ·sim_Term(c，s)+(1-θ)·sim_Phrase(c，s)输出给个性化句子评分处理；

sim(c，s)＝θ·sim_Term(c，s)+(1-θ)·sim_Phrase(c，s)中，c表示用户兴趣模型，s表示一个句子，sim_Term(c，s)表示c和s之间基于单个关键词的相似度，sim_Phrase(c，s)表示c和s之间基于短语的相似度，θ为一个调节因子，调节两种相似度计算方法的比重；

(B)利用检索结果计算出句子中的查询关键词的逆文本频率IDF，然后依据逆文本频率IDF计算每一个句子s的分值S_idf(s)，并将分值S_idf(s)输出给个性化句子评分处理；

(C)利用检索结果计算出每一个句子s中的信息量S_ic(s)，并将信息量S_ic(s)输出给个性化句子评分处理；

(D)个性化句子评分处理依据最终评分

S (s) = \frac{{aS}_{idf} (s) + {βS}_{ic} (s) + γsim (c, s)}{a + β + γ}

对每一个句子s进行重要性排序，并将排序结果中前K项组成一个个性化摘要输出给用户，从而完成在用户模型下的个性化摘要的订制；

其中，最终评分

S (s) = \frac{{aS}_{idf} (s) + {βS}_{ic} (s) + γsim (c, s)}{a + β + γ}

中的α表示分值S_idf(s)的系数，β表示信息量S_ic(s)的系数，γ表示相似度sim(c，s)的系数。

2.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统，其特征在于：在个性化摘要子系统中，用户兴趣与检索结果中句子基于单个关键词的相似度sim_Term(c，s)的计算采用向量空间模型中的cosine公式计算得到

{sim}_{Term} (c, s) = \frac{Σ_{i = 1}^{N} w_{i, c} \times w_{i, s}}{\sqrt{Σ_{i = 1}^{N} w_{i, c}^{2}} \times \sqrt{Σ_{i = 1}^{N} w_{i, s}^{2}}},

3.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统，其特征在于：在个性化摘要子系统中，用户兴趣与检索结果中句子基于短语的相似度sim_Phrase(c，s)的计算方法为

{sim}_{Phrase} (c, s) = \frac{\sqrt{Σ_{i = 1}^{P} [g (l_{i}) \cdot (f_{i, c} + f_{i, s})]^{2}}}{Σ_{j} | s_{j, c} | + Σ_{k} | s_{k, s} |},

4.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统，其特征在于：在个性化摘要子系统中，所述分值中IDF_t表示出现在句子s中的查询关键词t的倒排词频，tq表示查询q中的关键词组成的集合，S_idf(s)反映了句子包含查询关键词的多少。

5.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统，其特征在于：在个性化摘要子系统中，所述信息量

中Weight_t表示TF*IDF算法计算得到的关键词t的权重，ts表示句子s中的关键词组成的集合，f表示一个句子长度调节系数；S_ic(s)反映了句子所包含信息的多少，在生成摘要的过程中作为S_idf(s)的辅助因素。

6.根据权利要求1所述的改进的基于用户兴趣模型的个性化摘要系统，其特征在于：排序结果中前K项中K的取值为排序结果中的前2～5句句子。