CN101916264B

CN101916264B - 基于用户面部表情与目光分布检测的个性化网页推荐方法

Info

Publication number: CN101916264B
Application number: CN2010102422531A
Authority: CN
Inventors: 江浩; 徐颂华; 刘智满
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-07-30
Filing date: 2010-07-30
Publication date: 2012-09-19
Anticipated expiration: 2030-07-30
Also published as: CN101916264A

Abstract

本发明公开了一种基于用户面部表情与目光分布检测的个性化网页推荐方法。包括以下步骤：1)侦测用户在阅读网页时其目光在屏幕上的关注点；2)侦测用户在阅读网页时的面部表情，并估算其每一时刻的阅读专注度；3)根据用户阅读过的网页，估算用户对每个实词的阅读兴趣；4)对用户尚未阅读的网页，预测该用户对该网页的阅读兴趣；5)利用用户阅读兴趣，结合传统搜索技术生成个性化的网页推荐结果。本发明有效地利用了用户在浏览网页时的面部表情和目光分布，将用户的阅读专注度结合在网页搜索与排序过程中，使得最终的个性化网页推荐结果更加接近用户的期待结果。

Description

基于用户面部表情与目光分布检测的个性化网页推荐方法

技术领域

本发明涉及计算机信息与检索领域，尤其涉及一种基于用户面部表情与目光分布检测的个性化网页推荐方法。

背景技术

在当前，个性化的网络信息检索已经成为了最热门的计算机研究方向之一。目前，流行的网页搜索引擎对不同用户实现个性化的搜索结果主要是通过用户点击数据、历史网站、网络地址等比较容易获得但不易于发掘用户个性化的特征。这些并不是最好的方法，最好的搜索结果应该是根据用户的兴趣来排名。在2008年ACM推荐系统会议中公布的一篇论文“借助商用眼球跟踪装置的个性化在线文档、图像与视频推荐”(“Personalized online document，image andvideo recommendation via commodity eye-tracking”)提出了一个方法，通过追踪用户在浏览网页时的眼球焦点，以推测当前及将来可能吸引用户的内容。其中的一个关键步骤是该算法引入了人类体表特征(眼球聚焦点)所蕴含的用户个性化需求信息。在本发明中，我们提出了一种新的个性化网页推荐方法，不仅仅通过跟踪眼球获得了用户的当前阅读内容，更进一步考虑了用户在阅读不同内容时的专注程度，并通过用户在阅读时的面部表情来捕获，可以更可靠地估计用户对不同网页内容的不同感兴趣程度。以此，我们可以产生一个更准确的个性化的网页排名，更加逼近个人用户的阅读兴趣，使得最终的个性化网页推荐结果更加接近用户的期待搜索结果。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于用户面部表情与目光分布检测的个性化网页推荐方法。

基于用户面部表情与目光分布检测的个性化网页推荐方法包括以下步骤：

1)侦测用户在阅读网页时其目光在屏幕上的关注点；

2)侦测用户在阅读网页时的面部表情，并估算其每一时刻的阅读专注度；

3)根据用户阅读过的网页，估算用户对每个实词的阅读兴趣；

4)对用户尚未阅读的网页，预测该用户对该网页的阅读兴趣；

5)利用用户阅读兴趣，结合传统搜索技术生成个性化的网页推荐结果。

所述的侦测用户在阅读网页时其目光在屏幕上的关注点步骤：

(a)在用户阅读网页文档时，每隔0.5秒，通过眼球跟踪装置或摄像头，追踪该用户每一时刻其目光在屏幕上的关注点位置(x，y)；

所述的侦测用户在阅读网页时的面部表情，并估算其每一时刻的阅读专注度步骤为：

(b)在用户阅读网页文档时，每隔0.5秒，利用人脸表情识别装置，获得该用户每一时刻的面部表情概率向量F：

F＝[f₁，f₂，f₃，f₄，f₅，f₆]；

其中f₁至f₆均为取值0到1之间的实数，分别代表该用户面部表情为快乐、吃惊、生气、厌恶、害怕、悲哀的概率；

(c)计算该用户在时刻t时的阅读专注度r(t)：

r (t) = \sqrt{{f_{1}}^{2} + {f_{2}}^{2} + {f_{3}}^{2} + {f_{4}}^{2} + {f_{5}}^{2} + {f_{6}}^{2}};

所述的根据用户阅读过的网页，估算用户对每个实词的阅读兴趣步骤：

(d)对网页中的每个实词w_i，设其在时刻t时在屏幕上的位置为(x_i，y_i)，则该实词在时刻t时的用户阅读兴趣I(w_i，t)为：

I (w_{i}, t) = r (t) \exp (- \frac{{(x_{i} - x)}^{2}}{{2 W}^{2}} - \frac{{(y_{i} - y)}^{2}}{{2 H}^{2}});

其中(x，y)为在步骤(a)中所获得的该用户在时刻t时的目光关注点位置；r(t)为步骤(b)-步骤(c)所获得的该用户在时刻t时的阅读专注度；W和H分别是该网页中每个实词在屏幕上的平均宽度和平均高度；

(e)设用户在阅读网页的过程中，步骤(a)与步骤(b)分别获得了m个眼神关注点与阅读专注度样本；设用户对每个实词w的阅读兴趣为I(w)，计算I(w)为：

I (w) = Σ_{j = 1}^{m} I (w, t_{j});

其中，I(w，t_j)为通过步骤(d)所获得的用户在时刻t_j时对实词w的阅读兴趣；

所述的对用户尚未阅读的网页，预测该用户对该网页的阅读兴趣步骤为：

(f)对出现在用户阅读过网页中的每个实词w_i，计算其词及逆文档频(TF×IDF)系数TI(w_i)为：

TI (w_{i}) = \frac{1}{Z} (1 + \ln q (w_{i})) \ln (1 + \frac{M}{q_{O} (w_{i})});

其中，M表示用户已经阅读过的网页个数；q(w_i)表示实词w_i在M个网页中的出现次数；q_O(w_i)表示在M个网页中含有实词w_i的网页个数；Z为系数，其值为：

Z = \sqrt{Σ_{j = 1}^{N} (1 + \ln q (w_{j}))};

其中，N表示在M个网页中不同实词的个数；q(w_j)表示在N个实词中的第j个实词w_j的出现次数；

(g)对一个用户尚未阅读的网页D，设D中共有n个不同的实词w₁(D)，w₂(D)，...，w_n(D)；计算其中每个实词在D中的词频(TF)系数TF(w_i(D))为：

TF (w_{i} (D)) = \frac{1}{Z_{D}} (1 + \ln q (w_{i} (D)));

其中，q(w_i(D))为网页D中的第i个实词w_i(D)在网页D中的出现次数；Z_D为系数，其值为：

Z_{D} = \sqrt{Σ_{j = 1}^{n} (1 + \ln q (w_{j} (D)))};

其中，q(w_j(D))表示在网页D中的第j个实词w_j(D)的出现次数；

(h)预测用户对于网页D中的第i个实词w_i(D)的阅读兴趣RI(w_i(D))为：

RI (w_{i} (D)) = Σ_{j = 1}^{N} (I (w_{j}) \cdot S (w_{j}, w_{i} (D)) \cdot TI (w_{j}));

其中S(w_j，w_i(D))为取值在0至1之间的实数，表示w_j与w_i(D)在词网(WordNet)中的词义相似度；若w_j或w_i(D)不是英文，则将其翻译为英文再在词网(WordNet)中获得其词义相似度；

(i)预测用户对于网页D的阅读兴趣RI(D)为：

RI (D) = \frac{Σ_{i = 1}^{n} (RI (w_{i} (D)) TF (w_{i} (D)))}{Σ_{i = 1}^{n} TF (w_{i} (D))};

所述的利用用户阅读兴趣，结合传统搜索技术生成个性化的网页推荐结果步骤为：

(j)当用户提交一个查询请求时，服务端首先将查询重定向至传统搜索引擎如谷歌(Google)，并获得返回的前50～100个网页，对于返回的每个网页，使用步骤(f)～(i)中的方法预测该用户对该网页的阅读兴趣；

(k)设RI(D_i)表示传统搜索引擎返回结果中的第i个网页D_i的用户阅读兴趣，计算用户对该网页的综合兴趣OI(D_i)：

OI (D_{i}) = (1 - z) \cdot RI (D_{i}) + z \cdot \frac{2 \exp (- k \cdot i)}{1 + \exp (- k \cdot i)};

其中，exp()表示指数函数；参数z用来控制用户阅读兴趣的重要程度，其值通常设为exp(-M/100)；k为一个用户可控参数，用来控制用户阅读兴趣随排名下降的坡度，其预设值为0.2；

(1)对返回的50～100个网页，按照用户对它们的综合兴趣，从大到小重新排序，作为个性化网页推荐结果。

本发明有效地利用了用户在浏览网页时的面部表情和目光分布，将用户的阅读专注度结合在网页搜索与排序过程中，使得最终的个性化网页推荐结果更加接近用户的期待的搜索结果，从而使得网页搜索引擎能为用户提供更好的个性化服务。

附图说明

图1是基于用户面部表情与目光分布检测的个性化网页推荐方法的流程图；

图2是用户使用传统搜索引擎谷歌(Google)对关键词ABC进行查询的界面结果截图；

图3是用户使用本发明实施例系统对关键词ABC进行查询的界面结果截图；

图4是20个用户对15个不同关键词做网页搜索的实验数据箱图(box-plotdiagram)；该图的详细数据列在表1中。

具体实施方式

1)侦测用户在阅读网页时其目光在屏幕上的关注点；

所述的侦测用户在阅读网页时其目光在屏幕上的关注点步骤为：

F＝[f₁，f₂，f₃，f₄，f₅，f₆]；

(c)计算该用户在时刻t时的阅读专注度r(t)：

r (t) = \sqrt{{f_{1}}^{2} + {f_{2}}^{2} + {f_{3}}^{2} + {f_{4}}^{2} + {f_{5}}^{2} + {f_{6}}^{2}};

所述的根据用户阅读过的网页，估算用户对每个实词的阅读兴趣步骤为：

I (w_{i}, t) = r (t) \exp (- \frac{{(x_{i} - x)}^{2}}{{2 W}^{2}} - \frac{{(y_{i} - y)}^{2}}{{2 H}^{2}});

I (w) = Σ_{j = 1}^{m} I (w, t_{j});

TI (w_{i}) = \frac{1}{Z} (1 + \ln q (w_{i})) \ln (1 + \frac{M}{q_{O} (w_{i})});

Z = \sqrt{Σ_{j = 1}^{N} (1 + \ln q (w_{j}))};

TF (w_{i} (D)) = \frac{1}{Z_{D}} (1 + \ln q (w_{i} (D)));

Z_{D} = \sqrt{Σ_{j = 1}^{n} (1 + \ln q (w_{j} (D)))};

其中，q(w_j(D))表示在网页D中的第j个实词w_j(D)的出现次数；

RI (w_{i} (D)) = Σ_{j = 1}^{N} (I (w_{j}) \cdot S (w_{j}, w_{i} (D)) \cdot TI (w_{j}));

(i)预测用户对于网页D的阅读兴趣RI(D)为：

RI (D) = \frac{Σ_{i = 1}^{n} (RI (w_{i} (D)) TF (w_{i} (D)))}{Σ_{i = 1}^{n} TF (w_{i} (D))};

OI (D_{i}) = (1 - z) \cdot RI (D_{i}) + z \cdot \frac{2 \exp (- k \cdot i)}{1 + \exp (- k \cdot i)};

(l)对返回的50～100个网页，按照用户对它们的综合兴趣，从大到小重新排序，作为个性化网页推荐结果。

实施例：

如图1所示，该个性化网页推荐系统包括：眼球跟踪装置10、表情获取装置20、样本手机模块30、网页预处理模块40、文本分析模块50、用户数据库60、查询界面70、传统引擎模块80、阅读兴趣预测模块90、排序模块100。

眼球跟踪装置10，利用先进的眼球运动捕捉仪器，分析当前用户目光所在的屏幕位置；在本实施例中眼球跟踪装置采用普通摄像头(LogitechQuickcam Notebook Pro)搭配开源眼球跟踪系统Enable Viacam(http://eviacam.sourceforge.net)组装而成。

表情获取装置20，在用户阅读网页文档时，利用人脸表情识别装置，获得该用户每一时刻的面部表情概率向量F：

F＝[f₁，f₂，f₃，f₄，f₅，f₆]；

其中f₁至f₆均为取值0到1之间的实数，分别代表该用户面部表情为快乐、吃惊、生气、厌恶、害怕、悲哀的概率；在本实施例中人脸表情识别装置采用普通摄像头(Logitech Quickcam Notebook Pro)搭配人脸表情识别系统eMotion(http://www.visual-recognition.n1)组装而成。

样本收集模块30，根据从眼球跟踪装置10与表情获取装置20获得的面部表情与目光分布数据，计算用户对每个实词的阅读兴趣，连同用户阅读过的网页文本一并存入对应用户的数据库中；具体步骤如下：

计算该用户在时刻t时的阅读专注度r(t)：

r (t) = \sqrt{{f_{1}}^{2} + {f_{2}}^{2} + {f_{3}}^{2} + {f_{4}}^{2} + {f_{5}}^{2} + {f_{6}}^{2}};

对网页中的每个实词w_i，设其在时刻t时在屏幕上的位置为(x_i，y_i)，则该实词在时刻t时的用户阅读兴趣I(w_i，t)为：

I (w_{i}, t) = r (t) \exp (- \frac{{(x_{i} - x)}^{2}}{{2 W}^{2}} - \frac{{(y_{i} - y)}^{2}}{{2 H}^{2}});

其中(x，y)为在眼球跟踪装置10中所获得的该用户在时刻t时的目光关注点位置；W和H分别是该网页中每个实词在屏幕上的平均宽度和平均高度；

设用户在阅读网页的过程中，分别获得了m个眼神关注点与阅读专注度样本；设用户对每个实词w的阅读兴趣为I(w)，计算I(w)为：

I (w) = Σ_{j = 1}^{m} I (w, t_{j});

用户数据库40，存储用户对各个实词的阅读兴趣，以及其阅读过的网页文本；在本实施例中用MYSQL数据库存储。

查询界面50，提供一个用户使用本发明所述网页推荐系统的web入口，提供网页搜索服务；在本实施例中，此查询界面用jsp实现。

传统引擎模块60，当用户提交一个查询请求时，系统会对传统搜索引擎的搜索结果页面进行解析并获取其返回结果中的前50～100个网页；本实施例采用了谷歌(Google)作为传统搜索引擎以供调用。

文档预处理模块70，直接从网站下载下来的网页包含很多无用信息，比如HTML标签，广告栏，导航栏等；此模块用于去除网页中的无用信息，保留用户将关注的主体文档；本实施例实现去除HTML标签的功能。

文本分析模块80，对出现在用户阅读过网页中的每个实词wi，计算其词及逆文档频(TF×IDF)系数TI(wi)为：

TI (w_{i}) = \frac{1}{Z} (1 + \ln q (w_{i})) \ln (1 + \frac{M}{q_{O} (w_{i})});

Z = \sqrt{Σ_{j = 1}^{N} (1 + \ln q (w_{j}))};

对一个用户尚未阅读的网页D，设D中共有n个不同的实词

w₁(D)，w₂(D)，...，w_n(D)；计算其中每个实词在D中的词频(TF)系数TF(w_i(D))为：

TF (w_{i} (D)) = \frac{1}{Z_{D}} (1 + \ln q (w_{i} (D)));

Z_{D} = \sqrt{Σ_{j = 1}^{n} (1 + \ln q (w_{j} (D)))};

其中，q(w_j(D))表示在网页D中的第j个实词w_j(D)的出现次数。

阅读兴趣预测模块90，具体步骤如下：

预测用户对于网页D中的第i个实词w_i(D)的阅读兴趣RI(w_i(D))为：

RI (w_{i} (D)) = Σ_{j = 1}^{N} (I (w_{j}) \cdot S (w_{j}, w_{i} (D)) \cdot TI (w_{j}));

预测用户对于网页D的阅读兴趣RI(D)为：

RI (D) = \frac{Σ_{i = 1}^{n} (RI (w_{i} (D)) TF (w_{i} (D)))}{Σ_{i = 1}^{n} TF (w_{i} (D))};

设RI(D_i)表示传统引擎模块60返回结果中的第i个网页D_i的用户阅读兴趣，计算用户对该网页的综合兴趣OI(D_i)：

OI (D_{i}) = (1 - z) \cdot RI (D_{i}) + z \cdot \frac{2 \exp (- k \cdot i)}{1 + \exp (- k \cdot i)};

其中，exp()表示指数函数；参数z用来控制用户阅读兴趣的重要程度，其值通常设为exp(-M/100)；k为一个用户可控参数，用来控制用户阅读兴趣随排名下降的坡度，其预设值为0.2。

排序模块100，排序模块将结果按照所有网页的用户综合兴趣进行倒序排列，并将结果返回给用户。

表1的实验结果清晰的显示出本方法的优越性；

表1是20个用户对15个不同关键词做网页搜索的实验数据；每一行表示每组实验中用5种不同方法所得搜索结果与用户理想搜索结果之间的搜索错误度(Search Error Score，简写为SES)；

错误度(SES)用以衡量两个排名之间的差异，与用户理想排名的错误度越小则该排名越接近用户的理想排名；设n个网页分别被排成A和B的两个排名；设在A排名中的第i个网页在B排名中的名次为bi，则A与B之间的错误度(SES)为：

SES (A, B) = \frac{Σ_{i = 1}^{n} (w_{i} | i - b_{i} |)}{Σ_{i = 1}^{n} w_{i}};

其中，系数wi的取值为：

w_{i} = \{\begin{matrix} 2.5 (1 \leq i \leq 5) \\ 2.0 (6 \leq i \leq 10) \\ 1.5 (11 \leq i \leq 15) \\ 1.0 (16 \leq i \leq n) \end{matrix};

5种方法包括3个流行搜索引擎：谷歌(Google)、雅虎(Yahoo)、必应(Bing)，与发表在2008年由美国计算机协会举办的推荐系统会议(ACMRecommender Systems)上的一篇论文《基于商用眼球跟踪装置的个性化在线文档、图像与视频推荐》(“Personalized online document，image and videorecommendation via commodity eye-tracking”)中所述的方法(简写为AT08)，以及本发明所述方法；这些数据也以图形化的形式显示在图4中；

表1

上述表格表明，本发明有效地将用户的喜好结合在搜索过程中，使得最终的排名结果更加接近用户期待的理想排名，从而使得网页搜索引擎为用户提供更好的个性化服务。

以上所述仅为本发明的基于面部表情与目光分布检测的个性化网页推荐方法的较佳实施例，并非用以限定本发明的实质技术内容的范围。本发明的基于面部表情与目光分布检测的个性化网页推荐方法，其实质技术内容是广泛的定义于权利要求书中，任何他人所完成的技术实体或方法，若是与权利要求书中所定义者完全相同，或是同一等效的变更，均将被视为涵盖于此专利保护范围之内。

Claims

1.一种基于用户面部表情与目光分布检测的个性化网页推荐方法，其特征在于包括以下步骤：

1)侦测用户在阅读网页时其目光在屏幕上的关注点；

5)利用用户阅读兴趣，结合传统搜索技术生成个性化的网页推荐结果；

(a)在用户阅读网页文档时，每隔0.5秒，通过眼球跟踪装置，追踪该用户每一时刻其目光在屏幕上的关注点位置(x，y)；

F＝[f₁，f₂，f₃，f₄，f₅，f₆]；

其f₁至f₆均为取值0到1之间的实数，分别代表该用户面部表情为快乐、吃惊、生气、厌恶、害怕、悲哀的概率；

(c)计算该用户在时刻t时的阅读专注度r(t)：

(e)设用户在阅读网页的过程中，分别获得了m个眼神关注点与阅读专注度样本；设用户对每个实词w的阅读兴趣为I(w)，计算I(w)为：

(f)对出现在用户阅读过网页中的每个实词w_i，计算其词及逆文档频系数TI(w_i)为：

(g)对一个用户尚未阅读的网页D，设D中共有n个不同的实词w₁(D)，w₂(D)，...，w_n(D)；计算其中每个实词在D中的词频系数TF(w_i(D))为：

其中，q(w_i(D))为网页D中的第i个实词w_i(D)在网页D中的出现次数；Z_D为系数，

其值为：

其中，q(w_j(D))表示在网页D中的第j个实词w_j(D)的出现次数；

其中S(w_j，w_i(D))为取值在0至1之间的实数，表示w_j与w_i(D)在词网中的词义相似度；若w_j或w_i(D)不是英文，则将其翻译为英文再在词网中获得其词义相似度；

(i)预测用户对于网页D的阅读兴趣RI(D)为：

(j)当用户提交一个查询请求时，服务端首先将查询重定向至传统搜索引擎，并获得返回的前50～100个网页，对于返回的每个网页，使用步骤(f)～(i)中的方法预测该用户对该网页的阅读兴趣，所述传统搜索引擎为谷歌；

其中，exp()表示指数函数；参数z用来控制用户阅读兴趣的重要程度，其值设为exp(-M/100)；k为一个用户可控参数，用来控制用户阅读兴趣随排名下降的坡度，其预设值为0.2，M表示用户已经阅读过的网页个数；