CN104899273B

CN104899273B - 一种基于话题和相对熵的网页个性化推荐方法

Info

Publication number: CN104899273B
Application number: CN201510279762.4A
Authority: CN
Inventors: 杨鹏; 卢云骋
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2017-08-25
Anticipated expiration: 2035-05-27
Also published as: CN104899273A

Abstract

本发明公开了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent Dirichlet Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘，并计算基于“话题”的网页语义特征向量和用户兴趣特征向量，再利用基于相对熵概念的相似性度量公式，计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度，并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销，同时由于它采用话题而不是关键词来表征网页内容，所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。

Description

一种基于话题和相对熵的网页个性化推荐方法

技术领域

本发明涉及一种基于话题和相对熵的网页个性化推荐方法，该方法可用于用户兴趣识别、网页个性化推荐、新闻按需推送等网络应用，属于互联网技术领域。

背景技术

随着互联网的飞速发展和网上信息资源的不断丰富，万维网(简称Web)已经成为人们获取信息资讯、了解新闻时事、追索感兴趣内容的最重要场所。然而，Web中海量的网页信息资源往往体现出动态性、非结构性和无序性等特征，公共网站又多是按大众化需求汇集大量网页，不同的用户看到相同的内容组织，致使用户体验较差。同时，由于在传统互联网中用户必须通过主动搜索、主观筛选来寻找自己感兴趣的内容，这种方式不但费时和低效，而且当用户难以表述自己的主观需求或者自己的主观需求较为模糊时，往往难以找到自己真正感兴趣的内容。在此背景之下，迫切需要借助合适的个性化推荐方法，来发现用户兴趣和进行网页的个性化推荐，使互联网从被动接受用户的搜索请求转化为主动感知用户个性化需求，实现“信息找人、按需服务”的主动兴趣匹配与个性化推荐。

网页个性化推荐过程通常包括三个主要环节。首先，建立可使用户兴趣特征显著化的兴趣模型，并根据用户对网页的历史行为生成反映其兴趣的特征向量。然后，计算用户对待推荐网页内容的可能评分，或者用户兴趣特征向量与待推荐网页内容间的相似度。最后，根据评分或相似度的取值，判别网页内容是否符合用户兴趣特征，以决定是否向用户进行推荐。针对网页个性化推荐，当前采用较多的是基于协同过滤的个性化推荐方法和基于内容的个性化推荐方法。但是，基于协同过滤的个性化推荐方法存在稀疏性和可扩展性等问题，并且它需要较大的计算开销，所以常常难以适应设备计算能力有限和用户群频繁变化的移动场景。而基于内容的个性化推荐方法多采用TF-IDF算法直接抽取网页内容的关键词，但关键词这种浅表性特征往往难以全面反映内容蕴含的深层语义，并且由于缺乏统一的关键词映射标准，常常使相似度计算和推荐决策的难度大大增加。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供了一种基于话题和相对熵的网页个性化推荐方法。该方法先采用LDA(Latent Dirichlet Allocation)模型对网页内容和用户阅读行为进行话题(topic)挖掘，并计算基于“话题”的网页语义特征向量和用户兴趣特征向量，再利用基于相对熵概念的相似性度量公式，计算待推荐网页语义特征向量和用户兴趣特征向量之间的相似度，并以此作为网页个性化推荐的决策依据。基于话题的网页个性化推荐方法避免了基于协同过滤方法的大量计算开销，同时由于它采用话题而不是关键词来表征网页内容，所以能够使推荐过程及其结果更加全面和精确地反映网页内容的隐含信息和深层次语义特征。

技术方案：一种基于话题和相对熵的网页个性化推荐方法，包括：

(1)本发明中的“话题”是指从给定网页集合的内容中提取出的、经过规范化处理的、可反映网页内容的主旨和要义等深层语义特征的主题词或短语的集合。假定共有n(≥1)个网页构成网页资源集合C＝{c₁,c₂,…,c_n}，其中m个网页已被用户浏览阅读，它们构成用户历史阅览网页集合H＝{h₁,h₂,…,h_m}，并且满足而Y＝{y₁,y₂,…,y_n-m}＝(C-H)为待推荐网页的集合。

本发明将借助于话题来决定是否向用户推荐集合Y中的某个(或某些)网页。基于话题的网页个性化推荐方法主要涉及3个计算过程，包括话题挖掘与网页语义特征向量计算、用户兴趣特征向量计算、基于相对熵的相似度计算等。

(2)话题挖掘与网页语义特征向量计算。采用概率语言模型LDA对网页资源集合C进行话题挖掘，而LDA模型的求解过程则采用如图2所示的吉布斯采样(Gibbs Sampling)通过多次迭代来完成。此过程结束时得到由k(≥1)个话题构成的话题集合Z＝{z₁,z₂,…,z_k}，并且每个网页c_i(1≤i≤n)通过吉布斯采样计算得到一个对应于话题集合Z的语义特征向量其中p_i,s(1≤s≤k)为网页c_i属于话题z_s的概率。

因为用户历史浏览网页集合H和待推荐网页集合Y均是C的子集，所以H和Y中的网页也都有对应的语义特征向量。为了从集合C中区分出集合H和集合Y，记H中任一网页h_j(1≤j≤m)对应的语义特征向量为hp_j,s)，其中hp_j,s(1≤s≤k)为网页h_j属于话题z_s的概率；记Y中任一网页y_x(1≤x≤n-m)对应的语义特征向量为

(3)用户兴趣特征向量计算。经话题挖掘与网页语义特征向量计算之后，用户历史阅览网页集合H中任一网页h_j(1≤j≤m)均有对应的语义特征向量为了更精确地反映用户的兴趣特征，考虑用户针对已阅览网页的不同行为特征(如快速浏览、仔细阅读、反馈评分、评论和转发等)，对H中任一网页h_j的语义特征向量赋予初始权重weight(h_j,t_j)，其中t_j是网页h_j被用户阅览的时刻。同时，考虑已被阅览网页的语义特征向量在反映用户当前兴趣特征时的时间衰减因素，即用户离当前时间越久阅览的网页内容越不能反映其当前兴趣，因此引入时间衰减函数来刻画网页h_j的语义特征向量在当前时刻t的权重：

其中λ为衰减常数。则用户在当前时刻t的兴趣特征向量计算公式如下：

其中d₀是用来保证各分量之和为1的归一化常量。

(4)基于相对熵的相似度计算。经话题挖掘与网页语义特征向量计算之后，待推荐网页集合Y中的每个网页y_x(1≤x≤n-m)均有对应的语义特征向量(为简便起见，将它记为即)。同时，经用户兴趣特征向量计算之后，得到用户当前时刻的兴趣特征向量在此基础上，采用相对熵(也即KL散度)计算特征向量和特征向量之间的距离公式如下：

其中是从特征向量到特征向量的KL散度，而是从特征向量到特征向量的KL散度，它们通常不等，故在此取平均。

则待推荐网页y_x的语义特征向量与用户当前兴趣特征向量之间的相似度(简称相对熵相似度)的计算公式如下：

其中分别表示特征向量和的第s个分量(1≤s≤k)，也即是对于它们对于第s个话题的隶属度。

最后再根据所求得的相对熵相似度值，按网页个性化推荐服务所采取的具体策略(如基于相似度阈值或相似度排序)向用户进行网页个性化推荐。在实际应用中，待推荐网页集合也可以是网页集合Y＝(C-H)的任意非空子集。

有益效果：基于话题和相对熵的网页个性化推荐方法可以从原理上避免协同过滤个性化推荐方法所存在的稀疏性和可扩展性等问题，并且它简化了网页个性化推荐的计算过程，提升了计算效率和对于实时、在线个性化推荐需求的适应能力，因而更加适用于用户群频繁变化的移动场景。同时，该方法利用“话题”而不是关键词来对网页内容语义特征和用户阅读兴趣进行建模，相比于传统的基于内容的个性化推荐方法，更有利于发掘多个看似不同的网页内容所蕴含的共性语义信息，并将其映射为具有统一标准的话题特征向量，再借助于基于相对熵概念的相似性度量方法，从而使个性化推荐结果能够更精准地反映网页内容与用户兴趣间的深层语义关联特征。

附图说明

图1是概率语言模型LDA的概率图模型，描述了LDA模型如何生成语料库中所有文档的对应词集。其中是Dirichlet分布的超参数，为网页c_i(1≤i≤n)的话题分布，表示第s(1≤s≤k)个话题的词语分布，tn_i,r表示网页c_i的第r个词所分配到的话题编号，w_i,r表示网页c_i的第r个词。

图2是本发明对基于LDA模型的话题挖掘进行求解的吉布斯采样过程。其中W是C中所有网页内容的不同词语所构成的集合，它的元素记为w_j，而Z⁽⁰⁾是话题集合Z的初始值。n(w_j|z_s)表示词语w_j(1≤j≤|W|)出现在话题z_s(1≤s≤k)中的次数，n(z_s|c_i)表示话题z_s(1≤s≤k)出现在网页c_i(1≤i≤n)出现在中的次数。概率表示在排除网页c_i的第r个词当前所分配的话题编号的前提下，利用网页集合C和词语集合W的信息，计算网页c_i的第r个词对其余各个话题的概率分布。Θ表示由网页c_i(1≤i≤n)的语义特征向量作为行向量所组成的矩阵。Φ表示由k个话题对W中所有词语的概率分布作为行向量所组成的矩阵。

图3是基于话题和相对熵的网页个性化推荐方法的实现框架。提供网页个性化推荐服务的应用(如门户网站、新闻推送等)，可以向一个或多个用户进行网页推荐。它先对网页资源数据库中的网页进行话题挖据和语义特征向量计算，再根据所记录的某个用户已阅览网页及其阅览行为，计算该用户的兴趣特征向量，进而计算待推荐网页的语义特征向量和该用户的兴趣特征向量之间的相对熵相似度，并根据计算结果进行网页个性化推荐。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于话题和相对熵的网页个性化推荐方法，包括：

(1)首先，根据实际情况确定问题域中的n个网页(它们构成网页资源集合C)，对C中网页内容进行话题挖掘和网页语义特征向量计算。具体实施时，先针对C中的n个网页，通过分词(word segmentation)和去停用词操作，求得C中所有网页内容的不同词语，它们构成词语集合W＝{w₁、w₂、…、w_v}。再根据实际应用所需产生的话题总数，设定LDA模型中参数k的具体值。进而设定LDA模型中超参数和的值，其中k维超参数v维超参数在此基础上，按照发明内容中发明方案第(2)条所述方法，对C进行话题挖掘和网页语义特征向量计算，得到k个话题z₁、z₂、…、z_k，以及与n个网页对应的n个语义特征向量(其中1≤i≤n)。

例如，应用本发明对由100个真实网页构成的网页集合C进行话题挖掘和网页语义特征向量计算，设定所需产生的话题总数为4，每个话题由5个词语表示。本步骤结束时，实际总共产生4个话题和100个网页语义特征向量(考虑篇幅，以下关于本实例的描述，只简化选取了其中少数网页)。所产生的4个话题为：z₁＝{“中国”,“市场”,“经济”,“企业”,“公司”}，z₂＝{“革命”,“苏维埃”,“政权”,“中国”,“农民”}，z₃＝{“军事”,“美国”,“导弹”,“训练”，“作战”}，z₄＝{“联赛”,“欧洲”,“球队”,“比赛”,“球员”}。并且，C中有3个未被用户浏览阅读的网页(不妨记为c₁、c₂、c₃)，它们对应于这4个话题的语义特征向量为和其中表示网页c₁对于话题z₁的隶属度为0.8，对话题z₂的隶属度为0.07，对话题z₃的隶属度为0.08，对话题z₄隶属度为0.05，这表明网页c₁的内容很可能与经济、企业有关。

(2)接着，根据用户访问浏览网页的历史记录，计算用户兴趣特征向量。例如，在前述实例中，用户已经浏览阅读过网页集合C中的10个网页，系统已经记录了这些网页被阅览的时刻及用户行为特征，并且经步骤(1)之后这些网页均有各自的语义特征向量。按照发明内容中发明方案第(3)条的公式，考虑10个网页的语义特征向量在反映用户兴趣特征方面的时间衰减因素，可以求得用户在当前时刻t的兴趣特征向量它是一个4维向量(每1维对应于1个话题)，即用户当前对于话题z₁的感兴趣程度为0.1，对话题z₂的感兴趣程度为0.1，对话题z₃的感兴趣程度为0.5，对话题z₄的感兴趣程度为0.3。这表明用户兴趣可能偏向于军事方面的内容。

(3)在获得网页语义特征向量和用户兴趣特征向量之后，对所有待推荐网页，分别计算它们的语义特征向量和用户兴趣特征向量间的相对熵相似度。具体实施时，对于待推荐网页集合Y中的每个网页y_x(1≤x≤n-m)，它已具有对应的语义特征向量再按照发明内容中发明方案第(4)条的公式，计算与用户兴趣特征向量之间的相对熵相似度，得到n-m个相对熵相似度值Sim₁、Sim₂、…、Sim_n-m。在前述实例中，假定仅考虑把网页集合Y＝(C-H)的子集{c₁,c₂,c₃}作为待推荐网页集合，可以求得用户兴趣特征向量与3个网页语义特征向量间的相对熵相似度，其中与间的相对熵相似度Sim₁的计算过程如下：

因为

而

所以

同理，可以求得Sim₂＝1.09和Sim₃＝4.55。

(4)最后，根据(3)所求得的相对熵相似度值，按照推荐策略向用户进行网页个性化推荐。推荐策略的选取与实际应用需求相关，具体的策略包括基于相似度阈值和相似度排序等，前者设定一个阈值S₀，凡是(3)中相似度值大于S₀的对应网页都向用户推荐；后者先将(3)中的n-m个相似度值按降序进行排序，再将其中排在前面的N个相似度值所对应的网页推荐给用户。在本例中，若采用基于相似度排序的推荐策略，则待推荐网页集合{c₁,c₂,c₃}对应的3个相似度值降序排列为：Sim₃≥Sim₂≥Sim₁，如果把其中2个(即N＝2)相似度值最高的网页推荐给用户，就选择推荐c₃和c₂。

在实际应用中，可以使用本发明同时为多个不同用户提供网页个性化推荐服务。例如，一个提供网页个性化推荐服务的门户网站，假定它以自身的网页数据库作为网页资源集合C，同时为u(≥1)个用户User₁、User₂、…、User_u提供基于话题的网页个性化推荐服务。则它先按上述(1)对C中网页内容进行话题挖掘和网页语义特征向量计算，之后分别对每个用户User_i(1≤i≤u)实施上述(2)(3)(4)，这样就可以根据每个用户不同的兴趣和推荐策略，有针对性地为u个用户提供网页个性化推荐服务。

Claims

1.一种基于话题和相对熵的网页个性化推荐方法，其特征在于，包括话题挖掘与网页语义特征向量计算、用户兴趣特征向量计算、基于相对熵的相似度计算；

话题挖掘与网页语义特征向量计算：采用概率语言模型LDA对网页资源集合C进行话题挖掘，而LDA模型的求解过程采用吉布斯采样通过多次迭代来完成；此过程结束时得到由k(k≥1)个话题构成的话题集合Z＝{z₁、z₂、…、z_k}，并且每个网页c_i(1≤i≤n)得到一个对应于话题集合Z的语义特征向量其中p_i,s(1≤s≤k)为网页c_i属于话题z_s的概率；

记用户历史浏览网页集合H中任一网页h_j(1≤j≤m)对应的语义特征向量为其中hp_j,s(1≤s≤k)为网页h_j属于话题z_s的概率；记待推荐网页集合Y中任一网页y_x对应的语义特征向量为

用户兴趣特征向量计算：经话题挖掘与网页语义特征向量计算之后，用户历史阅览网页集合H中任一网页h_j(1≤j≤m)均有对应的语义特征向量对H中任一网页h_j的语义特征向量赋予初始权重weight(h_j,t_j)，其中t_j是网页h_j被用户阅览的时刻；同时，引入时间衰减函数来刻画网页h_j的语义特征向量在当前时刻t的权重：

<mrow> <mi>w</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>w</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&lambda;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mo>;</mo> </mrow>

其中λ为衰减常数；则用户在当前时刻t的兴趣特征向量计算公式如下：

<mrow> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>d</mi> <mn>0</mn> </msub> <mo>&times;</mo> <mi>w</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mover> <mi>&theta;</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>d</mi> <mn>0</mn> </msub> <mo>&times;</mo> <mi>w</mi> <mi>e</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&lambda;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </msup> <mo>&times;</mo> <msub> <mover> <mi>&theta;</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> <mi>j</mi> </mrow> </msub> <mo>;</mo> </mrow>

其中d₀是用来保证各分量之和为1的归一化常量；

基于相对熵的相似度计算：经话题挖掘与网页语义特征向量计算之后，待推荐网页集合Y中的每个网页y_x(1≤x≤n-m)均有对应的语义特征向量同时，经用户兴趣特征向量计算之后，得到用户当前时刻的兴趣特征向量在此基础上，采用相对熵计算特征向量和特征向量之间的距离公式如下：

<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>,</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> <mo>;</mo> </mrow>

其中是从特征向量到特征向量的KL散度，而是从特征向量到特征向量的KL散度，它们不等，故在此取平均；

则待推荐网页y_x的语义特征向量与用户当前兴趣特征向量之间的相似度的计算公式如下：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>,</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>,</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mfrac> <mn>2</mn> <mrow> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>K</mi> <mi>L</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>x</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mi>u</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>2</mn> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <mi>log</mi> <mfrac> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mi>x</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> </mfrac> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mi>x</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <mi>log</mi> <mfrac> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mi>x</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> <msub> <mover> <mi>p</mi> <mo>&RightArrow;</mo> </mover> <mrow> <mi>u</mi> <mo>,</mo> <mi>s</mi> </mrow> </msub> </mfrac> </mrow> </mfrac> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中和分别表示特征向量和的第s个分量，也即是对于它们对于第s个话题的隶属度，1≤s≤k；

最后再根据所求得的相对熵相似度值，按网页个性化推荐服务所采取的具体策略向用户进行网页个性化推荐。

2.如权利要求1所述的基于话题和相对熵的网页个性化推荐方法，其特征在于，所述“话题”是指从给定网页集合的内容中提取出的、经过规范化处理的、可反映网页内容的主旨和要义的深层语义特征的主题词或短语的集合；假定共有n个网页构成网页资源集合C＝{c₁,c₂,…,c_n}，其中m个网页已被用户浏览阅读，它们构成用户历史阅览网页集合H＝{h₁,h₂,…,h_m}，并且满足而Y＝{y₁,y₂,…,y_n-m}＝(C-H)为待推荐网页的集合，n≥1；借助于话题来决定是否向用户推荐集合Y中的某个或某些网页。

3.如权利要求1所述的基于话题和相对熵的网页个性化推荐方法，其特征在于，根据所求得的相对熵相似度值，按网页个性化推荐服务所采取的具体策略向用户进行网页个性化推荐，所述策略指基于相似度阈值或相似度排序；在实际应用中，待推荐网页集合也可以是网页集合Y＝(C-H)的任意非空子集。