CN109885766A

CN109885766A - 一种基于书评的书籍推荐方法及系统

Info

Publication number: CN109885766A
Application number: CN201910109797.1A
Authority: CN
Inventors: 邱奇志; 李葭; 陈睿; 赵冬瑜
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-02-11
Filing date: 2019-02-11
Publication date: 2019-06-14

Abstract

本发明公开了一种基于书评的书籍推荐方法及系统，本发明以每一本书的书评全集作为研究对象，从书评内容的语言特征、语义内容等多个特征维度来探索这本书所的属性，通过深度学习方法计算词语之间的关联度，为书籍打上基于书评的标签，并结合机器学习与计量分析方法，设计可行的面向特征描述的标签模型；同时通过深度学习方法，使用中文维基百科语料库或其他新闻语料库，训练面向特征描述的词向量模型，在大型语料库中使用改进的word2vec三层神经网络计算书籍标签模型之间的距离，从而得到书籍之间的关联度，实现精准的基于书评的书籍推荐算法。

Description

一种基于书评的书籍推荐方法及系统

技术领域

本发明属于计算机技术领域，涉及一种书籍推荐方法及系统，具体涉及一种基于书评的书籍推荐方法及系统。

背景技术

信息碎片化、膨胀化的今日，众生疲命，书籍成为了快节奏生活中灵魂栖息的孤岛。尽管阅读本身是一件相对独立的行为，但近年来线上读书社区如雨后春笋般出现，读者选书趣味和阅读分享日益受到社交平台的影响。

新华网调查显示，78％的受访者选择通过社交平台(微信、微博、豆瓣、知乎等)分享阅读有关的内容，17％的受访者会在电商平台留下读者书评。网络书评的数量在飞速增加。

书评是文化的筛子，镜子和轮子。盛大文学曾重金悬赏“白金评书人”，也正是基于“百分之八十以上的读者在选择读物时有参考书评人意见的习惯”的网络调查，可以看到网络书评对网络用户的阅读有着一定的参考意义且表现出重要价值。在电子商务领域的相关研究中，一般认为网络书评是电子口碑(eWOM)的一种形式，这也体现了网络书评具有商业性的潜质。一些学者在网络书评领域已经做出了独创性的微观研究，也证实了书评质量对图书销量有显著影响。近几年来，网络书评的迅速发展正在悄然改变着人们看待书评的态度和利用书评的方式：为了迎合需求，多数线上商家，如当当网、亚马逊都已经构建了自己的网络书评平台和相应机制。网络书评的地位日渐上升。

然而，已存在的书评基数太大，读者无法短时间内悉数尽读。网络书评发布者并不是专业的书评工作者，因此造成书评冗余繁杂，让读者无从下手。如何从成百上千条书评中得到一个客观的认知，成为了读者的一大难题。此外，极易与商业利益挂钩的网络书评之中是否存在着大量无用信息？怎样短时间从书评中提取书籍属性相关信息，成为现在需要面对的问题。同时，目前已存在的书籍推荐系统大多数都使用基于用户的协同过滤算实现推荐，即基于用户的收藏情况进行推荐。这种方式具有的局限性在于其“从众性”，即假设大部分人收藏了A的同时收藏了B，则在你收藏了A后，推荐系统就会为你推荐B。因为其推荐的根基是“其他用户的收藏情况”，而非与书籍本身相关的属性，所以得到的结果只会是“大众水平”。这种方式推荐的书籍在上往往不够精确。

发明内容

为了解决上述技术问题，本发明以每一本书的书评全集作为研究对象，从书评内容的语言特征、语义内容等多个特征维度来探索这本书所的属性，通过深度学习方法计算词语之间的关联度，为书籍打上基于书评的标签，并结合机器学习与计量分析方法，设计可行的面向特征描述的标签模型；同时通过深度学习方法，使用中文维基百科语料库或其他新闻语料库，训练面向特征描述的词向量模型，在大型语料库中使用改进的word2vec三层神经网络计算书籍标签模型之间的距离，从而得到书籍之间的关联度，实现精准的基于书评的书籍推荐算法。

本发明的方法所采用的技术方案是：一种基于书评的书籍推荐方法，其特征在于，包括以下步骤：

步骤1：从目标网站爬取相应书籍的书评并建立数据库保存数据；

步骤2：建立书籍书评标签集；

步骤3：建立自然语言标签库；

步骤4：计算书籍书评标签集之间关联度；

步骤5：根据关联度排名高低进行书籍推荐。

本发明的系统所采用的技术方案是：一种基于书评的书籍推荐系统，其特征在于：包括书籍书评爬取模块、建立书籍书评标签集模块、建立自然语言标签库模块、计算书籍书评标签集之间关联度模块、根据关联度进行书籍推荐模块；

所述书籍书评爬取模块，用于从目标网站爬取相应书籍的书评并建立数据库保存数据；

所述建立书籍书评标签集模块，用于建立书籍书评标签集；

所述建立自然语言标签库模块，用于建立自然语言标签库；

所述计算书籍书评标签集之间关联度模块，用于计算书籍书评标签集之间关联度；

所述根据关联度进行书籍推荐模块，用于根据关联度进行书籍推荐。

本发明的创新点包括：

(1)建立书籍书评标签集；

未阅读作品的用户阅读书评的主要目的是获取和书籍相关的信息，从而决定是否阅读本书。显然，随着书籍书评数量不断增加，用户很难尽数将书评读完。因此需要对书评的关键内容(尤其是与书籍紧密相关的内容)进行提取。

基于这一目的，本发明通过大量阅读用户撰写的书籍书评，分析用户书评的内容解读书评，首先人工提取书籍相关的属性，随后结合TF-IDF，并训练word2vec模型，使用冷启动-迭代的方式提取书籍标签，无监督式地建立书籍书评标签集。

(2)建立自然语言标签库；

获得书籍标签的情况下，如何评价标签集的是否相关，相关性程度的高低呢？通过建立自然语言标签库。自然语言标签库即指使用大型语料库训练出的word2vec模型。举例而言：我们使用自然语言交流的时候往往会把“科幻”、“宇宙”两个词放在一起，自然语言标签库中，这两个词的关联度较高。自然，如果某两本书的标签中包含“科幻”和“宇宙”，那么某种程度上我们认为这两本书更相关。所以当我们把书籍书评标签集放在自然语言标签库这样的“泛集”中计算其词向量之间的关联度，就能正确评价这些标签的相关程度。

本发明通过获取常用自然语言的大型语料库，如中文维基百科、百度百科等，同样结合深度学习算法，建立自然语言标签库。

(3)设计书籍标签集之间关联度计算方法；

通过标签之间在标签库中的关联度，已经能够得到某两个标签之间的相关程度。但一本书的多个标签到另一本书的多个标签之间的相关程度该如何计算？简单的加权平均、取关联度最大的某几个标签、输入到模糊神经网络，不同的计算方法会得到截然不同的结果。

因此，本发明在建立了书籍书评标签集与常用自然语言标签库后，还需要探索并设计出一种合理的算法，通过两本书直接多个标签到多个标签相关性的结果，计算出这两本书之间的相关性。

本发明的有益效果是：

(1)从个人阅读的角度考虑，在信息爆炸的今天，每个人都是信息发布的中心。绝大多数人往往没有精力在海量信息中浏览并找到自己喜欢的书籍。书籍推荐系统通过深度学习每一本书的所有书评，使用机器学习与深度学习的方法对每一本建立标签集，根据读者已收藏的书籍，帮助读者在大量的书评中快速找到自己真正喜欢阅读的书籍，极大的降低了读者找书所需的阅读成本。

(2)从社会阅读的角度考虑，本发明构建的书籍推荐系统拟搭载于微信小程序平台，以简约、迅捷的特点迎合人们快节奏的生活，节省读者找书的成本，以快节奏切入，放缓人们的生活节奏，促进社会整体的阅读风气。

(3)从系统商用性的角度考虑，目前市面已存在的书籍推荐系统绝大多数使用协同过滤算法，根据其它用户的收藏情况来推荐书籍，而本发明研究的书籍推荐系统则基于每本书的读者书评，相比较而言，书评更具贴近书籍本身，推荐的结果更具精准性，更容易激发读者的阅读欲，帮助读者找到自己真正喜欢的书籍。

附图说明

图1为本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于书评的书籍推荐方法，包括以下步骤：

步骤1：利用web爬虫技术，从目标网站爬取相应书籍的书评并建立数据库保存数据；

步骤2：建立书籍书评标签集；

具体实现包括以下子步骤：

步骤2.1：人工提取书籍书评属性，包括主要从书评中提取书的内容属性、题材属性、情感属性等，获得书籍书评属性标签模型；

在书籍书评属性标签模型中，一部分属性隐含在语义中，因此需要挖掘书评中的语义特征。如，对书籍书评中的“形容词-名词”对进行提取，然后检索“形容词-名词”对的近义词，对出现频率比较高的“形容词-名词”对认为是该书籍的核心词。

本实施例主要分析书评中与书籍相关的属性语义。首先对某本书籍下所有书籍书评进行切词，提取其中表示描述书籍内容属性的词，然后对提取的词进行近义词搜索，把语义相近的词归为一类，对出现频率较高的词建立特征词词库。

对书籍书评的语义挖掘保证了后续书籍书评属性标签模型的可信度和准确性。

步骤2.2：首先使用向后词袋法将书籍的全部书评向量化，并训练出该书籍书评的word2vec模型，使用TF-IDF计算词语的重要程度权重；

TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。通常情况下，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

在实施例中，使用TF-IDF方法评估书评中每一个词在书评中的重要程度，将重要程度高的词提取作为潜在的书籍标签保留，以便于后续标签集的确定。使用重要程度最高的前三个词作为迭代前的冷启动。

步骤2.3：设有标签集set，将权重排名前K个词语放入标签集set以及待迭代队列q中，K为预设阈值(本实施例取3)；

步骤2.4：设q出列词语为word，使用书评的word2vec模型计算与word最关联的前L个词语words，将words加入到标签集set并入列到q中，L为预设阈值(本实施例取5)；

机器学习主要是设计和分析一些让计算机自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

在本实施例中应用机器学习主要是为了解决语义挖掘时对于建立特征词词库和搜索语义相近的词困难的问题。以最初出现频率较高的特征词作为基准词，利用机器学习算法对剩下的特征词进行分析，判断该词是否和基准词语相近，从而达到建立关键特征词库的目的。

步骤2.5：重复步骤2.4，直到标签集set中词语超过X或迭代次数达到Y次，X、Y均为预设阈值(本实施例取100和3)。

步骤3：建立自然语言标签库；

具体实现包括以下子步骤：

步骤3.1：获取若干常用自然语言的大型语料库(维基百科/百度百科/书评全集等)；

步骤3.2：利用步骤2中采用的方法，建立自然语言标签库。

步骤4：计算书籍书评标签集之间关联度；

词向量是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

Word2vec是用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。

本实施例的中自然语言标签模型正是将语料库中的词“数字化”，使用改进的word2vec技术将每个分立的词转换为可以计算的词向量，借以词向量，计算机的算法才得以“理解”词，在本实施例中，书籍与书籍之间的关联度在本质上是由每本书籍的标签属性模型之间词向量的复杂计算获得。

具体实现包括以下子步骤：

步骤4.1：书A与书B的标签全集用A.tag、B.tag表示，具体某一标签使用A.tag[n]、B.tag[n]表示，使用A.tag[n].tf_idf、B.tag[n].tf_idf表示其重要性权重，关联度使用relate(A.tag[n],B.tag[n])表示；对大型语料库使用word2vec方法训练泛集模型；泛集模型也是用word2vec训练得到的，使用的语料库是较大的，贴近自然语言习惯的语料库(本实施例用的是维基百科语料库)，在这个泛集模型中来确定词语和词语之间的关系；

步骤4.2：对于任意A.tag[n]，使用泛集模型，找出B.tag中与之关联度最高的前t个词B.tag[t1],B.tag[t2],B.tag[t3],...,B.tag[t]；

步骤4.3：计算前t个词关联度的平均值，乘以A.tag[n].tf_idf，作为该词到B.tag整体的关联度；

步骤4.4：对于A.tag中所有词语重复步骤4.2-步骤4.3，将结果求和得到书A与书B的关联度。

步骤5：根据关联度排名高低进行书籍推荐。

本发明以每一本书的书评全集作为研究对象，从书评内容的语言特征、语义内容等多个特征维度来探索这本书所的属性，通过深度学习方法计算词语之间的关联度，为书籍打上基于书评的标签，并结合机器学习与计量分析方法，设计可行的面向特征描述的标签模型；同时通过深度学习方法，使用中文维基百科语料库或其他新闻语料库，训练面向特征描述的词向量模型，在大型语料库中使用改进的word2vec三层神经网络计算书籍标签模型之间的距离，从而得到书籍之间的关联度，实现精准的基于书评的书籍推荐算法。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于书评的书籍推荐方法，其特征在于，包括以下步骤：

步骤2：建立书籍书评标签集；

步骤3：建立自然语言标签库；

步骤4：计算书籍书评标签集之间关联度；

步骤5：根据关联度排名高低进行书籍推荐。

2.根据权利要求1所述的基于书评的书籍推荐方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：人工提取书籍书评属性，从书评中提取书的内容属性、题材属性，情感属性，获得书籍书评属性标签模型；

步骤2.3：设有标签集set，将权重排名前K个词语放入标签集set以及待迭代队列q中，K为预设阈值；

步骤2.4：设q出列词语为word，使用书评的word2vec模型计算与word最关联的前L个词语words，将words加入到标签集set并入列到q中，L为预设阈值；

步骤2.5：重复步骤2.4，直到标签集set中词语超过X或迭代次数达到Y次，X、Y均为预设阈值。

3.根据权利要求1所述的基于书评的书籍推荐方法，其特征在于，步骤3的具体实现包括以下子步骤：

步骤3.1：获取若干常用自然语言的大型语料库；

步骤3.2：利用步骤2中采用的方法，建立自然语言标签库。

4.根据权利要求1所述的基于书评的书籍推荐方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.1：书A与书B的标签全集用A.tag、B.tag表示，具体某一标签使用A.tag[n]、B.tag[n]表示，使用A.tag[n].tf_idf、B.tag[n].tf_idf表示其重要性权重，关联度使用relate(A.tag[n],B.tag[n])表示；对大型语料库使用word2vec方法训练泛集模型；所述泛集模型是用word2vec训练得到的，使用贴近自然语言习惯的语料库，在泛集模型中来确定词语和词语之间的关系；

5.一种基于书评的书籍推荐系统，其特征在于：包括书籍书评爬取模块、建立书籍书评标签集模块、建立自然语言标签库模块、计算书籍书评标签集之间关联度模块、根据关联度进行书籍推荐模块；

所述建立书籍书评标签集模块，用于建立书籍书评标签集；

所述建立自然语言标签库模块，用于建立自然语言标签库；