CN103714118A

CN103714118A - 图书交叉阅读方法

Info

Publication number: CN103714118A
Application number: CN201310601627.8A
Authority: CN
Inventors: 鲁伟明; 杨善松; 魏宝刚; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-11-22
Filing date: 2013-11-22
Publication date: 2014-04-09
Anticipated expiration: 2033-11-22
Also published as: CN103714118B

Abstract

本发明公开了一种图书交叉阅读方法。图书交叉阅读推荐技术本质上是一种基于文档的检索，即将一个文档作为查询，去检索语义相似的其他文档，图书交叉阅读推荐技术首先将每个图书章节通过语义相似敏感哈希算法生成文档指纹，并保证两个语义相似的图书章节的文档指纹其海明距离也相近，然后将文档指纹和图书元数据、章节标题等异构信息统一建立索引，最后基于用户的访问日志和图书元数据信息，重排序候选推荐文档。本发明将图书章节投影到语义相关的文档指纹中，并将文档指纹、元数据信息、章节标题、用户点击等异构信息融入到统一索引中，基于用户的阅读章节，快速有效地推荐语义相关的其他章节，辅助用户对图书内容的理解、实现交叉阅读。

Description

图书交叉阅读方法

技术领域

本发明涉及图书内容检索方法，尤其涉及一种图书交叉阅读方法。

背景技术

随着数字图书馆的日益发展，用户在阅读图书时，希望能够阅读与当前内容相关的其他图书章节，迫切希望数字图书馆中能够提供一种图书交叉阅读推荐服务。

图书交叉阅读本质上是一种基于文档的查询（query bydocument），即将一个文档作为查询(query)，去检索内容相似的其他文档。传统的文本检索系统一般设计为基于关键词的检索，也就是查询词一般较短。如果直接采用传统的文本检索方法，则性能会下降。比如，如果采用倒排索引的方法，那么由于查询文档中含有较多的词汇，于是合并每个词汇的检索结果需要耗费较长的时间。

文档也可以表达成高维向量，于是query by document可以转化为高维向量的检索问题。哈希方法已在高维向量的检索中被广泛使用。比如，相似度哈希算法可以将相似的文档投影为相似的指纹（即，压缩的二进制码），可用于文档相似检测和检索。然而，在相似度哈希算法中，所有的单词被同等看待，而不考虑单词的语义信息。然而，文档的单词可以被分为文档相关单词、主题相关单词以及背景单词。一般而言，越能反映文档语义的单词越重要，所以需要把这些信息也融入到文档指纹中，使得文档指纹更加能反映主题。

此外，即使把图书章节都转化为了二进制码形式的文档指纹，从海量的文档指纹中查找相似的文档也是个极大的挑战。假设每本书有50个章节（以小节为单位），则100万册图书可形成5000万个指纹，传统采用线性扫描的文档指纹检索方式将不再适用。另外，除了文档内容外，图书的元数据信息、章节标题、用户的点击等信息在文档相似检索中也非常有用。但是很难将这些异构的信息融入到同一个索引中进行统一检索。

在图书交叉阅读中，不仅需要将图书章节投影到语义相关的指纹中，还需要将文档指纹、元数据信息、章节标题、用户点击等信息融入到了同一个索引中。

发明内容

本发明的目的是为克服上述现有方法未能考虑文档单词的语义性，不能有效检索海量哈希编码等缺点，提供一种图书交叉阅读方法。

本发明解决其技术问题采用的技术方案如下：

图书交叉阅读方法的步骤如下：

（1）构建图书章节指纹：融合图书章节特征向量和图书类别特征向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈希算法构建图书章节指纹；

（2）构建统一索引：将图书章节指纹转变为语义单词集合，并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引；

（3）图书章节推荐：依据图书章节间的距离，为用户推荐相关图书章节，并基于用户的访问行为，利用流形排序算法进行重排序。

所述的步骤（1）包括：

2.1对于所有的图书，根据目录将一本图书拆分为章节集合，每个章节作为一个文档进行保存，同时将章节的名称、图书的名称、图书的分类信息作为章节的元数据保存；

2.2对所有的章节进行自然语言处理，通过分词、词性标注、停用词去除和词组检测步骤提取章节包含的名词和名词短语，将章节转变为单词的集合；

2.3根据章节所在图书的分类，构建每个分类的章节集合，分别计算每个章节中所有单词的tfidf(t,d)值和每个分类中所有单词的tfidf(t,c)值：

tfidf(t,d)=tf(t,d)*idf(t,D),d∈D

tfidf(t,c)=tf(t,c)*idf(t,C),c∈C

其中tf(t,d)是指单词t在文档d中出现的次数，idf(t,D)被称为逆文档频率，可以由总文档数目|D|除以包含单词t的文档的数目，再将得到的商取对数，tf(t,c)是指单词t在分类c中出现的次数，idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目，再将得到的商取对数，当tfidf(t,c)大时，表示单词t在分类c中常出现，而在其他的分类中则不常出现，此时单词t被认为是分类c的主题相关词，当tfidf(t,d)大而tfidf(t,c)小时，则单词t被认为是文档d的文档相关词，而tfidf(t,d)小时，则单词t被认为是背景单词或停用词；选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词，即T(c)={t|tfidf(t,c)>δ,c∈C}，其中δ∈[0,1)；文档特征向量用表示，其中w_i(d)表示文档主题相关词的tfidf(t,d)值，类别特征向量用

表示，其中w_i(c)表示类别主题相关词的tfidf(t,c)值，最后根据和

调节文档向量为

\overset{&RightArrow;}{d^{'}} = {{w^{'}}_{1} (d), {w^{'}}_{2} (d), . . ., {w^{'}}_{N} (d)},

其中

w_{i}^{'} (d) = w_{i} (d) * w_{i} (c);

2.4构建图书章节指纹F的相似度哈希算法的步骤包括：首先输入文档d的特征向量并初始化向量V,向量V每个元素置为零，然后对于文档d中的每个单词w_i，应用哈希函数θ,得到向量

对于中的每个元素

如果

那么

否则

最后处理完文档d中的所有单词后，对于所有的{i=1……l}，l是向量V的长度，如果V_i>0,那么F_i=1，否则F_i=0。

所述的步骤（2）包括：

3.1对一个长度为z的文档指纹F，分割为m个子串，每个子串的长度是z/m，每个子串标识为p₁,p₂,…,p_m；

3.2通过翻转p_i的第j位,获得新的子串

其中π_j是第j位的位置，子串

的权重是

其中τ∈[0,1)；

3.3通过公式I(p_i)=v(p_i)+(i-1)*2^f/m和

将子串p_i和

转换为整数，其中v(p_i)和

分别是二进制子串p_i和

的相应的十进制数值；

3.4返回语义单词及其权重:

3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技

术统一索引到同一个索引文件中。

所述步骤（3）包括：

4.1系统从统一索引中返回K个相似文档，记为候选文档D={d₁,d₂,…d_K}，其中d₁是查询文档，两个文档间的距离用

计算,其中

表示两文档之间的海明距离，cos _dist(d_i,d_j)表示两文档元数据之间的距离，其中α∈[0,1)；

4.2根据用户的点击日志，每个文档可以被其它的文档表示为：

其中D_i是文档d_i被点击过的文档集合，其中w_j是被文档

点击的次数,归一化权重为这里M是所有的文档数，M_j是其D_i中含有的文档的个数,文档d_i可被表示为：

两个文档d_i和d_j的点击相似度则为：

4.3计算关联矩阵W，元素W_ij = exp(-d²(d_i,d_j )/2σ²)* (1 +R_ij ),W_ii = 0，其中σ∈[0,1)，然后，对称规范化矩阵W得到矩阵S，

其中D是对角矩阵，其元素(i,i)等于矩阵S第i行的行和；

4.4通过流行排序算法对候选文档排序：输入返回的前K个相似文档的初始排序向量y=[y₁,y₂,…,y_K]^T，其中y₁=1，其他元素为零，并定义排序函数f=[f₁,f₂,…f_K]^T，随机初始化该排序函数f，迭代计算f(t+1)=α*S*f(t)+(1-α)*y直至收敛,其中α∈[0,1)，最后通过收敛的f，对文档进行排序。

本发明方法与现有技术相比具有的有益效果：

1.该方法融合图书章节特征向量和图书类别特征向量，将图书章节的主题信息编码到图书章节指纹中，使得图书章节指纹更加准确；

2.该方法能将图书章节指纹和图书元数据等异构信息纳入到统一索引中，从而实现快速检索；

3.该方法在文档指纹相似性、元数据和用户反馈信息上构建流形空间，并在其上重排序，使得检索结果更加准确。

附图说明

图1是本发明方法系统架构图；

图2是文档指纹扩展示意图；

图3是“糖尿病的治疗”章节的推荐结果。

具体实施方式

图书交叉阅读方法包括如附图1所示的三个步骤：

（1）构建图书章节指纹：融合图书章节特征向量和图书类别特征

向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈

希算法构建图书章节指纹；

所述的步骤（1）包括：

tfidf(t,d)=tf(t,d)*idf(t,D),d∈D

tfidf(t,c)=tf(t,c)*idf(t,C),c∈C

其中tf(t,d)是指单词t在文档d中出现的次数，idf(t,D)被称为逆文档频率，可以由总文档数目|D|除以包含单词t的文档的数目，再将得到的商取对数，tf(t,c)是指单词t在分类c中出现的次数，idf(t,C)则可以由总分类数|C|除以包含单词t的分类的数目，再将得到的商取对数，当tfidf(t,c)大时，表示单词t在分类c中常出现，而在其他的分类中则不常出现，此时单词t被认为是分类c的主题相关词，当tfidf(t,d)大而tfidf(t,c)小时，则单词t被认为是文档d的文档相关词，而tfidf(t,d)小时，则单词t被认为是背景单词或停用词；选择tfidf(t,c)大于阈值δ的单词作为类别的主题相关词，即T(c)={t|tfidf(t,c)>δ,c∈C}，其中δ∈[0,1)；文档特征向量用

表示，其中w_i(d)表示文档主题相关词的tfidf(t,d)值，类别特征向量用

表示，其中w_i(c)表示类别主题相关词的tfidf(t,c)值，最后根据

和调节文档向量为

\overset{&RightArrow;}{d^{'}} = {{w^{'}}_{1} (d), {w^{'}}_{2} (d), . . ., {w^{'}}_{N} (d)},

其中

w_{i}^{'} (d) = w_{i} (d) * w_{i} (c);

2.4构建图书章节指纹F的相似度哈希算法的步骤包括：首先输入文档d的特征向量

并初始化向量V,向量V每个元素置为零，然后对于文档d中的每个单词w_i，应用哈希函数θ,得到向量

对于

中的每个元素

如果

那么

否则

所述的步骤（2）如附图2所示包括：

3.2通过翻转p_i的第j位,获得新的子串

其中π_j是第j位的位置，子串

的权重是

其中τ∈[0,1)；

3.3通过公式I(p_i)=v(p_i)+(i-1)*2^f/m和

将子串p_i和

转换为整数，其中v(p_i)和

分别是二进制子串p_i和

的相应的十进制数值；

3.4返回语义单词及其权重:

3.5将语义单词集合S和章节标题、图书分类信息通过倒排索引技术统一索引到同一个索引文件中。

所述步骤（3）包括：

计算,其中

其中D_i是文档d_i被点击过的文档集合，其中w_j是被文档

点击的次数,归一化权重为

这里M是所有的文档数，M_j是其D_i中含有

的文档的个数,文档d_i可被表示为：

两个文档d_i和d_j的点击相似度则为：

4.3计算关联矩阵W，元素W_ij＝exp(-d²(d_i，d_j)/2σ²)*(1+R_ij)，W_ii = 0，其中σ∈[0,1)，然后，对称规范化矩阵W得到矩阵S，

其中D是对角矩阵，其元素(i,i)等于矩阵S第i行的行和；

实施例

如附图3所示，给出了图书交叉阅读方法的一个应用实例。下面结合本技术的方法详细说明该实例实施的具体步骤，如下：

（1）在系统已经预处理所有图书章节，得到章节文档指纹，并建立统一索引的情况下。假设用户对“糖尿病的治疗”这一章节感兴趣，点击“推荐”按钮，系统获取该章节的文本信息和该图书的类别信息等元数据。

（2）通过分词、词性标注、停用词去除和词组检测等自然语言处理技术提取该章节文本包含的名词或名词词组。

（3）对该章节计算文档特征向量和该章节所属的类别特征向量，并依据类别特征向量调节章节的文档特征向量，从而使得文档特征向量具有更强的语义表达能力。

（4）对章节的特征向量应用相似度哈希算法，得到文档指纹F，这里我们设定生成的文档指纹长度为64位。

（5）将步骤（4）得到的64位文档指纹F，以8位长度为单位分割，首先得到8个子串，对于每个子串，分别翻转其中的每一位，得到新的子串集合，即每一个子串对应8个新生成的子串，并且计算每个子串的权重，最后将所有的子串转换为十进制整数，作为语义单词集合。

（6）将步骤（5）得到的语义单词和元数据一起检索步骤（1）已经建立的统一索引，得到候选推荐文档集合。

（7）对候选推荐文档集合计算文档之间的距离，并利用用户的点击数据，计算文档之间的点击相似度。然后计算推荐文档之间的关联矩阵，并利用流形排序算法进行相关性排序。

（8）根据排序结果，选择前10个最相关的章节作为推荐章节，返回给用户，如附图3。

本实例的运行结果在附图3中显示，用户正在阅读的章节是“糖尿病的治疗”，推荐的结果是“治疗糖尿病的常用药物”、“糖尿病治疗的展望”、“糖尿病饮食治疗的原则”、“糖尿病治疗的目标”等，可以看出推荐的章节与查询章节的有很强的语义相关性，准确度较高，图书交叉阅读方法有良好的实用价值和应用前景。

Claims

1.一种图书交叉阅读方法，其特征在于包括它的步骤如下：

(1)构建图书章节指纹：融合图书章节特征向量和图书类别特征向量，为图书的每个章节构建主题敏感向量，然后再用相似度哈希算法构建图书章节指纹；

(2)构建统一索引：将图书章节指纹转变为语义单词集合，并用全文检索方法为语义单词集合、图书章节名称、图书分类信息建立统一索引；

(3)图书章节推荐：依据图书章节间的距离，为用户推荐相关图书章节，并基于用户的访问行为，利用流形排序算法进行重排序。

2.根据权利要求1所述的图书交叉阅读方法，其特征在于所述的步骤（1）包括：

tfidf(t,d)=tf(t,d)*idf(t,D),d∈D

tfidf(t,c)=tf(t,c)*idf(t,C),c∈C

表示，其中w_i(c)表示类别主题相关词的tfidf(t,c)值，最后根据

和

调节文档向量为

\overset{&RightArrow;}{d^{'}} = {{w^{'}}_{1} (d), {w^{'}}_{2} (d), . . ., {w^{'}}_{N} (d)},

其中

w_{i}^{'} (d) = w_{i} (d) * w_{i} (c);

对于

中的每个元素

如果

那么

否则

3.根据权利要求1所述的图书交叉阅读方法，其特征在于所述的步

骤（2）包括：

3.2通过翻转p_i的第j位,获得新的子串

其中π_j是第j位的位置，子串

的权重是

其中τ∈[0,1)；

3.3通过公式I(p_i)=v(p_i)+(i-1)*2^f/m和

将子串p_i和

转换为整数，其中v(p_i)和

分别是二进制子串p_i和

的相应的十进制数值；

3.4返回语义单词及其权重:

4.根据权利要求1所述的图书交叉阅读方法，其特征在于所述步骤

（3）包括：

4.1系统从统一索引中返回K个相似文档，记为候选文档D={d₁,d₂,…d_K}，其中d₁是查询文档，两个文档间的距离用d(d_i,d_j)=α*hamming_dist(d_i,d_j) +(1-α)*cos _dist(d_i,d_j)计算,其中hamming_dist(d_i,d_j)表示两文档之间的海明距离，cos _dist(d_i,d_j)表示两文档元数据之间的距离，其中α∈[0,1)；

D_{i} = {< d_{i}^{1}, w_{1} >, < d_{i}^{2}, w_{2} >, . . . . . ., < d_{i}^{N}, w_{N} >}

其中D_i是文档d_i被点击过的文档集合，其中w_j是被文档

点击的次数,归一化权重为

这里M是所有的文档数，M_j是其D_i中含有

的文档的个数,文档d_i可被表示为：

两个文档d_i和d_j的点击相似度则为：

其中D是对角矩阵，其元素(i,i)等于矩阵S第i行的行和；