CN101320375A

CN101320375A - 基于用户点击行为的数字图书搜索方法

Info

Publication number: CN101320375A
Application number: CNA2008100630104A
Authority: CN
Inventors: 吴江琴; 庄越挺; 袁川; 张寅�
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-07-04
Filing date: 2008-07-04
Publication date: 2008-12-10
Anticipated expiration: 2028-07-04
Also published as: CN101320375B

Abstract

本发明公开了一种基于用户点击行为的数字图书搜索的方法。首先，提取Web日志中的图书阅读记录构建图书之间的关联图，使用该关联图来计算图书的相关性排序；其次，提取日志中的检索阅读记录，利用其中读者对检索结果的隐式反馈对查询词进行聚类；最后，在查询词聚类的基础之上，针对每类查询词，利用读者对检索结果的隐式反馈，综合从关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种信息源，形成最终的图书搜索结果排序。本发明可以获得客观的图书相关性排序和很好的查询词聚类效果；将互联网上丰富的图书评分数据融入到相对封闭和静态的数字图书馆中，有效提高图书搜索质量。

Description

基于用户点击行为的数字图书搜索方法

技术领域

本发明涉及数字图书馆、信息检索和Web使用挖掘领域，尤其涉及一种基于用户点击行为的数字图书搜索方法。

背景技术

21世纪是数字化的时代，随着计算机技术、海量存储技术和网络技术的飞速发展，信息载体的数字化和信息传播的网络化得到了空前的深化，图书馆的数字化成为一个必然趋势。数字图书馆在世界很多国家受到了高度关注，并取得了迅猛发展，已经成为人们获取信息与知识的重要途径。

数字图书馆中通常拥有海量的数字图书资源，如何有效的利用这些丰富而宝贵的资源，让数字图书馆读者能够更充分的利用他们就显得非常重要。数字图书搜索是数字图书馆必须提供的支撑性服务本，它是数字图书馆中最为重要的一个功能模块，它使得读者能够很好地找到需要的图书资源，是数字图书馆服务平台的“第一线”。

传统的图书资源搜索系统是基于关系数据库的简单匹配查找，只能过滤出与读者所输入的关键字相匹配的相关图书条目，并没有使用有效的图书排序机制以提高读者检索的满意度，而且性能和用户体验不佳。

发明内容

本发明为克服数字图书馆中传统图书搜索系统质量差的缺点，提供了一种高质量的图书搜索结果排序方法。

基于用户点击行为的数字图书搜索方法包括以下步骤：

(1)提取日志中的图书阅读记录构建图书之间的关联图，使用关联图计算图书的相关性排序得分；

(2)提取日志中的检索阅读记录，利用读者对检索结果的隐式反馈对查询词进行聚类；

(3)抓取互联网上的图书评分数据，整合形成图书评分排序得分；

(4)在查询词聚类的基础之上，针对每类查询词，利用读者对检索结果的隐式反馈，综合从关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种排序信息源，形成最终的图书搜索结果排序。

所述的提取日志中的图书阅读记录构建图书之间的关联图，使用关联图计算图书的相关性排序得分步骤：分析数字图书馆的Web使用日志数据，提取Web使用日志数据中的读者图书阅读记录，构建共同阅读过图书i和图书j的读者的数量矩阵

用U＝{u_i：0≤i＜m}表示读者的集合，B＝{b_j：0≤j＜n}表示图书的集合，然后对

进行归一化处理：

C_{i, j} = \frac{{\tilde{C}}_{i, j}}{w_{j}}

其中：

w_{j} = \underset{0 \leq i < | B |}{Σ} {\tilde{C}}_{i, j}

得到图书关联矩阵C_i，j，使用向量BR＝[br₀，br₁，br₂，...，br_|B|-1]^T表示图书的相关性排序得分，向量d＝[d₀，d₁，d₂，...，d_|B|-1]^T表示图书的已知质量信息，最后使用下面的迭代方法来计算最终的图书相关性排序得分：

\{\begin{matrix} BR (0) = \frac{1}{| B |} 1_{| B |} \\ BR (n + 1) = αCBR (n) + (1 - α) d \end{matrix} .

所述的提取日志中的检索阅读记录，利用读者对检索结果的隐式反馈对查询词进行聚类步骤：分析数字图书馆的Web使用日志数据，提取Web使用日志数据中的图书检索阅读记录，得到与每个查询词相关的数字图书，使用Q＝{q_i：0≤i＜m}表示查询词的集合，集合

B_{i} &SubsetEqual; B

表示与查询词q_i相关的图书，集合G_i，j定义为：

构建表示与查询词q_i和q_j都相关的图书的数量的矩阵，定义为：

{\tilde{S}}_{i, j} = | G_{i, j} |

归一化后即得到查询词相似性矩阵：

S_{i, j} = \frac{{\tilde{S}}_{i, j}}{w_{j}}

其中：

w_{j} = \underset{0 \leq i < | Q |}{Σ} {\tilde{S}}_{i, j}

然后使用类似上述的图书相关性排序的迭代计算方式来对查询词进行聚类。

所述的抓取互联网上的图书评分数据，整合形成图书评分排序得分步骤：设计爬虫程序抓取互联网上著名图书网站上的图书评分页面，分析提取图书的元数据和图书评分，如果提取出来的图书在数字图书馆中存在，则整合不同网站上的相同图书的评分数据，设整合的站点为S_i其中：0≤i＜N，图书b_k在站点S_i上的归一化后的评分数据为v_ki，评分人数为p_ki，若该图书该站点上不存在或存在但是没有评分记录，那么v_ki或p_ki为零，使用如下公式来整合图书评分：

所述的在查询词聚类的基础之上，针对每类查询词，利用读者对检索结果的隐式反馈，综合从关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种排序信息源，形成最终的图书搜索结果排序步骤：将基于数字图书访问关联图的图书排序值表示为R＝[r₀，r₁，r₂，...，r_|B|-1]^T，将从互联网上整合得到的图书排序值表示为S＝[s₀，s₁，s₂，...，s_|B|-1]^T，将基于元数据文本相似度的检索得分表示为T＝[t₀，t₁，t₂，...，t_n-1]^T，其中B为图书的集合，三个排序值都是介于0到1之间的浮点值，得分最高的图书的分值为1，对于一次图书搜索，使用基于文本相似度的元数据检索获得匹配的图书列表B＝[b₀，b₁，b₂，...，b_n-1]^T，b_k，0≤k＜n为图书的编号，图书列表文本相似度得分为T＝[t₀，t₁，t₂，...，t_n-1]^T，n为匹配当前搜索关键词的图书数目，然后使用如下公式来计算最终的图书得分：

f_{k} = {αt}_{k} + {βr}_{b_{k}} + {γs}_{b_{k}}

其中：0≤k＜n

其中α，β，γ按照如下方式确定：从读者的图书检索阅读的序列数据中提取出一系列的有序对<key，book>，进而将有序对转化为<key，score>，score表示读者对图书的评分，得到的一系列有序对<key，score>，按照查询词的聚类结果来将前面得到的有序对分为m个组，第i组中的所有有序对满足key∈Q_i，对于第i组中的每一个有序对j，计算出以它的key值作为查询词的检索结果中它对应的图书的三个排序分值，以有序对j的score分子作为最终的图书得分f，这样第i组中的所有有序对构成一个多元线性回归分析模型：

f_{ij} = α_{i} t_{ij} + β_{i} r_{{ib}_{j}} + γ_{i} s_{{ib}_{j}}

使用每一组中的所有有序对来进行最小二乘估计可以得到针对每一个查询词类的α_i，β_i，γ_i。

本发明所述的基于用户点击行为的数字图书搜索方法具有如下特点：

(1)充分挖掘和使用了数字图书馆Web使用日志中的用户点击行为数据，可以获得客观的图书相关性排序和很好的查询词聚类效果；

(2)将互联网上丰富的图书评分数据融入到相对封闭和静态的数字图书馆中，有效提高图书搜索质量；

(3)综合考虑了三种排序信息源，并使用读者的隐式反馈来进行集成，可以得到高质量的排序结果。

附图说明

图1是整合图书评分数据基本框架图；

具体实施方式

基于用户点击行为的数字图书搜索方法包括如下步骤：

1.提取日志中的图书阅读记录构建图书之间的关联图，使用关联图计算图书的相关性排序得分

设读者的集合为：U＝{u_i：0≤i＜m}，其中m为读者的数量；图书的集合为：B＝{b_j：0≤j＜n}，其中n为图书的数量。读者与图书的阅读关系表示为：T＝{t_i，j：u_i∈U∧b_j∈B，0≤i＜m，0≤j＜n}，其中t_i，j为一个bool值，如果读者u_i阅读了图书b_j的20％以上的页数，则视为一次有效的阅读行为，t_i，j等于True，否则视为没有发生过该阅读行为，t_i，j等于False：

图书与图书之间存在着关联关系，本发明通过同时阅读过两本图书的读者把这两本书关联起来。定义

U_{i, j} &SubsetEqual; U,

为U的一个子集，表示同时阅读过图书b_i和图书b_j的读者的集合：

这样就可以构建一个|B|*|B|的矩阵

表示每一对图书之间共同阅读过它们的读者的数量：

{\tilde{C}}_{i, j} = | U_{i, j} |

这里|·|表示一个集合的势。很明显

&ForAll; i, {\tilde{C}}_{i, i} = 0

而且

是一个对称矩阵。

对矩阵做规格化处理：

C_{i, j} = \frac{{\tilde{C}}_{i, j}}{w_{j}}

其中：

w_{j} = \underset{0 \leq i < | B |}{Σ} {\tilde{C}}_{i, j}

称C为图书关联矩阵，矩阵中的每一项代表了图书对的关联系数，图书关联矩阵也可以被看作是一个图书关联图G_C的加权关联矩阵。G_C中的节点表示集合B中图书，图书b_i和图书b_j之间有边链接当且仅当C_i，j＞0，C_i，j为边的权重。有一点需要注意，虽然是一个对称矩阵，但是C并不是一个对称矩阵，所以边(b_i，b_j)和边(b_j，b_i)的权重并不是一致的，G_C是一个有向加权图。

图书相关性排序算法最基本的思想就是通过从用户使用日志中提取出来的图书关联图来传播图书的质量信息，进而估算出图书的相关性排序。使用向量BR＝[br₀，br₁，br₂，...，br_|B|-1]^T表示图书的相关性排序得分，向量d＝[d₀，d₁，d₂，...，d_|B|-1]^T表示图书的已知质量信息，最后使用下面的迭代方法来计算最终的图书相关性排序得分：

\{\begin{matrix} BR (0) = \frac{1}{| B |} 1_{| B |} \\ BR (n + 1) = αCBR (n) + (1 - α) d \end{matrix}

收敛后得到的BR即为图书rank值，在最终排序检索结果中它是一个重要的组成部分。最后对得到的结果进行处理使得其中rank值最高的项值为1：

{br}_{i} = \frac{{br}_{i}}{\max (BR)}

max(BR)为BR中值最高的项。

2.提取日志中的检索阅读记录，利用读者对检索结果的隐式反馈对查询词进行聚类

分析数字图书馆的Web使用日志数据，提取其中的图书检索阅读记录，得到与每个查询词相关的数字图书，使用Q＝{q_i：0≤i＜m}表示查询词的集合，集合

B_{i} &SubsetEqual; B

表示与查询词q_i相关的图书，集合

B_{i} &SubsetEqual; B

表示与查询词q_i相关的图书，集合G_i，j定义为：

{\tilde{S}}_{i, j} = | G_{i, j} |

归一化后即得到查询词相似性矩阵：

S_{i, j} = \frac{{\tilde{S}}_{i, j}}{w_{j}}

其中：

w_{j} = \underset{0 \leq i < | Q |}{Σ} {\tilde{S}}_{i, j}

3.抓取互联网上的图书评分数据，整合形成图书评分排序得分

设计爬虫程序抓取互联网上著名图书网站上的图书评分页面，分析提取图书的元数据和图书评分，如果提取出来的图书在数字图书馆中存在，则整合不同网站上的相同图书的评分数据，设整合的站点为S_i其中：0≤i＜N，图书b_k在站点S_i上的归一化后的评分数据为v_ki，评分人数为p_ki，若该图书该站点上不存在或存在但是没有评分记录，那么v_ki或p_ki为零，使用如下公式来整合图书评分：

4.在查询词聚类的基础之上，针对每类查询词，利用读者对检索结果的隐式反馈，综合从关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种排序信息源，形成最终的图书搜索结果排序

将基于数字图书访问关联图的图书排序值表示为R＝[r₀，r₁，r₂，...，r_|B|-1]^T，将从互联网上整合得到的图书排序值表示为S＝[s₀，s₁，s₂，...，s_|B|-1]^T，将基于元数据文本相似度的检索得分表示为T＝[t₀，t₁，t₂，...，t_n-1]^T，其中B为图书的集合，三个排序值都是介于0到1之间的浮点值，得分最高的图书的分值为1，对于一次图书搜索，使用基于文本相似度的元数据检索获得匹配的图书列表B＝[b₀，b₁，b₂，...，b_n-1]^T，b_k，0≤k＜n为图书的编号，图书列表文本相似度得分为T＝[t₀，t₁，t₂，...，t_n-1]^T，n为匹配当前搜索关键词的图书数目，然后使用如下公式来计算最终的图书得分：

f_{k} = {αt}_{k} + {βr}_{b_{k}} + {γs}_{b_{k}}

其中：0≤k＜n

f_{ij} = α_{i} t_{ij} + β_{i} r_{i b_{j}} + γ_{i} s_{{ib}_{j}}

Claims

1、一种基于用户点击行为的数字图书搜索方法，其特征在于包括以下步骤：

2、根据权利要求1所述的一种基于用户点击行为的数字图书搜索方法，其特征在于所述的提取日志中的图书阅读记录构建图书之间的关联图，使用关联图计算图书的相关性排序得分步骤：分析数字图书馆的Web使用日志数据，提取Web使用日志数据中的读者图书阅读记录，构建共同阅读过图书i和图书j的读者的数量矩阵

进行归一化处理：

C_{i, j} = \frac{{\tilde{C}}_{i, j}}{w_{j}}

其中：

w_{j} = \underset{0 \leq i < | B |}{Σ} {\tilde{C}}_{i, j}

\{\begin{matrix} BR (0) = \frac{1}{| B |} 1_{| B |} \\ BR (n + 1) = αCBR (n) + (1 - α) d \end{matrix} .

3、根据权利要求1所述的一种基于用户点击行为的数字图书搜索方法，其特征在于所述的提取日志中的检索阅读记录，利用读者对检索结果的隐式反馈对查询词进行聚类步骤：分析数字图书馆的Web使用日志数据，提取Web使用日志数据中的图书检索阅读记录，得到与每个查询词相关的数字图书，使用Q＝{q_i：0≤i＜m}表示查询词的集合，集合

B_{i} &SubsetEqual; B

表示与查询词q_i相关的图书，集合G_i，j定义为：

{\tilde{S}}_{i, j} = | G_{i, j} |

归一化后即得到查询词相似性矩阵：

S_{i, j} = \frac{{\tilde{S}}_{i, j}}{w_{j}}

其中：

w_{j} = \underset{0 \leq i < | Q |}{Σ} {\tilde{S}}_{i, j}

4、根据权利要求1所述的一种基于用户点击行为的数字图书搜索方法，其特征在于所述的抓取互联网上的图书评分数据，整合形成图书评分排序得分步骤：设计爬虫程序抓取互联网上著名图书网站上的图书评分页面，分析提取图书的元数据和图书评分，如果提取出来的图书在数字图书馆中存在，则整合不同网站上的相同图书的评分数据，设整合的站点为S_i其中：0≤i＜N，图书b_k在站点S_i上的归一化后的评分数据为v_ki，评分人数为p_ki，若该图书该站点上不存在或存在但是没有评分记录，那么v_ki或p_ki为零，使用如下公式来整合图书评分：

5、根据权利要求1所述的一种基于用户点击行为的数字图书搜索方法，其特征在于所述的在查询词聚类的基础之上，针对每类查询词，利用读者对检索结果的隐式反馈，综合从关联图得出的图书相关性排序、互联网上的图书评分以及文本相似度这三种排序信息源，形成最终的图书搜索结果排序步骤：将基于数字图书访问关联图的图书排序值表示为R＝[r₀，r₁，r₂，...，r_|B|-1]^T，将从互联网上整合得到的图书排序值表示为S＝[s₀，s₁，s₂，...，s_|B|-1]^T，将基于元数据文本相似度的检索得分表示为T＝[t₀，t₁，t₂，...，t_n-1]^T，其中B为图书的集合，三个排序值都是介于0到1之间的浮点值，得分最高的图书的分值为1，对于一次图书搜索，使用基于文本相似度的元数据检索获得匹配的图书列表B＝[b₀，b₁，b₂，...，b_n-1]^T，b_k，0≤k＜n为图书的编号，图书列表文本相似度得分为T＝[t₀，t₁，t₂，...，t_n-1]^T，n为匹配当前搜索关键词的图书数目，然后使用如下公式来计算最终的图书得分：

f_{k} = {αt}_{k} + {βr}_{b_{k}} + {γs}_{b_{k}}

其中：0≤k＜n

f_{ij} = {α_{i} t}_{ij} + {β_{i} r}_{{ib}_{j}} + {γ_{i} s}_{i b_{j}}