CN103176982A

CN103176982A - 一种电子图书推荐的方法及系统

Info

Publication number: CN103176982A
Application number: CN201110430910XA
Authority: CN
Inventors: 戴和忠; 邱一丰; 田原; 沈治; 斯凌; 李玉巍
Original assignee: China Mobile Group Zhejiang Co Ltd
Current assignee: MIGU Digital Media Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2013-06-26
Anticipated expiration: 2031-12-20
Also published as: CN103176982B

Abstract

本发明提供了一种电子图书推荐的方法及系统。其中所述方法以用户在网站上发布的数据为基础，通过综合考察待分析用户及其关联用户访问网站的频率以及在网站上发布的数据，来判断待分析用户对于图书的偏好，能够弥补现有技术中仅通过用户注册的身份信息推断用户偏好的不足，同时解决对于阅读平台的新用户由于无法获得其阅读历史数据而无法确定其阅读偏好的问题。

Description

一种电子图书推荐的方法及系统

技术领域

本发明涉及文本数据分析技术领域，具体设计一种基于用户社会网络特性的电子图书推荐方法及系统。

背景技术

现有技术中向用户推荐电子图书的方法有多种，以下进行简单说明：

第一种方法是基于用户以往的阅读历史数据，推断用户的阅读偏好，再根据推断出的阅读偏好向用户推荐对应的电子图书。但在该种方法中，对于用户阅读偏好的推断存在一定不足，主要是：由于阅读平台所提供的图书的类别分布不均，且原创类图书较多，通常主要集中在言情、穿越、玄幻等类别；同时由于手机阅读用户的主要用户群是学生、外来务工人员和都市白领，而这一大部分用户访问图书通常集中在言情穿越玄幻等热门分类上，造成系统在对用户偏好进行判定时大部分用户的偏好被判定为热门分类。上述这种情况对于图书推荐造成很多障碍，例如根据系统判断，许多高端商务人士可能被判定为言情或穿越类的阅读偏好，对其进行相应的图书推荐容易引起反感和用户体验下降。

第二种方法：由于仅根据历史数据推断用户的偏好会造成上述问题，因此，现有技术中出现了基于用户身份类型来推断用户的阅读偏好，进而进行相应的图书推荐的方法。但该方法存在如下不足：现有系统主要通过注册用户的年龄、性别、职业特点、产品品牌和手机类型对用户身份进行逆推，而这些基础数据信息在用户注册时由于隐私考虑和技术等种种原因导致数据存在诸多不准确的情况，从而导致用户身份类别判定的准确率非常低，进而造成对于用户偏好的推断存在很大的误差，影响了图书推荐的效果。

可以看出，现有技术中电子图书推荐系统主要是基于用户偏好来进行相应的图书推荐，具体是根据用户访问的历史数据信息或用户身份类型确定用户偏好。但对于访问阅读平台系统较少的用户，可能没有足够的历史数据信息；以及当前系统由于种种限制对于用户身份的判定缺乏可靠的基础，用户类别判定的准确率较低。因而对于用户偏好的推断存在很大的误差。

发明内容

本发明所要解决的技术问题是提供一种电子图书推荐的方法及系统，基于用户在社交行为中的信息分析用户的阅读偏好，进而实现电子图书的推荐。

为解决上述技术问题，本发明提供方案如下：

一种电子图书推荐的方法，包括：

获得待分析用户的关键词词频列表以及关联用户的关键词词频列表，所述关键词词频列表包括有关键词及其对应的词频，所述关键词及其对应的词频是根据用户对不同网站的访问频率，从该用户在不同网站上发布的文本数据中分析得到的，所述关联用户是与所述待分析用户之间存在预定关联关系的用户；

基于待分析用户与关联用户之间的关联程度，确定关联用户的权重，并根据所述权重对多个关联用户的关键词词频列表进行合并，得到合并后的关键词词频列表；

对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总，得到所述待分析用户的标签词频列表；

根据所述标签词频列表中的关键词匹配电子图书库中的图书，确定待推荐电子书，并向所述待分析用户推荐。

优选地，上述方法中，进一步按照以下方式，获得对应用户的关键词词频列表：

提取用户在预先选择出的每个网站上发布的文本数据，基于用户在该网站上的文本数据，分析得到用户在该网站的关键词及其对应的词频，其中所述关键词为所述文本数据中满足预设条件的词；

基于所述用户对不同网站的访问频率，对用户在不同网站上的关键词的词频进行加权求和，获得用户的关键词的词频，进而生成该用户的关键词词频列表，其中访问频率较高的网站上的关键词在所述加权求和时具有较高的权重。

优选地，上述方法中，所述基于用户在该网站上的文本数据，分析得到用户在该网站的关键词及其对应的词频，包括：

将每份所述文本数据转换为向量空间模型中的一个向量，所述向量中的每个分量表示为对应的词在所述文本数据中的权值；

统计在所述文本数据中各个词的出现频率，得到各个词的词频；

选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词，作为所述用户在该网站上的关键词，以及统计该关键词在该网站的所有文本数据中的词频之和，得到所述用户在该网站上的该关键词的词频。

优选地，上述方法中，

所述基于待分析用户与关联用户之间的关联程度，确定关联用户的权重，并根据所述权重对多个关联用户的关键词词频列表进行合并，包括：

对所述多个关联用户的关键词词频列表中的关键词求并集，得到合并后的关键词词频列表中的关键词；以及，

基于待分析用户与关联用户之间的关联程度，确定所述待分析用户的多个关联用户的权重，其中与所述待分析用户关联程度较高的关联用户具有较高的权重；按照所述权重，对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和，得到合并后的关键词词频列表中各个关键词的词频。

优选地，上述方法中，

所述对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总，得到所述待分析用户的标签词频列表，包括：

对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集，得到所述标签词频列表中的关键词；以及，

按照预先设置的权重，对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和，得到所述标签词频列表中的各个关键词的词频。

优选地，上述方法中，

所述根据所述标签词频列表中的关键词匹配电子图书库中的图书，确定待推荐电子书，并向所述待分析用户推荐，包括：

从所述标签词频列表中提取词频大于预设第三门限的关键词，作为标签关键词；

根据所述标签关键词，匹配预先设置的阅读偏好与关键词之间的对应关系，确定所述标签关键词对应的阅读偏好，作为所述待分析用户的阅读偏好；

将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配，根据匹配结果向所述待分析用户推荐对应的电子图书。

优选地，上述方法中，

根据所述标签关键词，匹配预先设置的阅读偏好与关键词之间的对应关系，确定所述标签关键词对应的阅读偏好；

获得所述待分析用户的历史数据和/或用户身份类型标签，并利用所述历史数据和/或用户身份类型标签，对所述标签关键词对应的阅读偏好进行修正，得到所述待分析用户的阅读偏好；

本发明提供了一种电子图书推荐系统，包括：

获得单元，用于获得待分析用户的关键词词频列表以及关联用户的关键词词频列表，所述关键词词频列表包括有关键词及其对应的词频，所述关键词及其对应的词频是根据用户对不同网站的访问频率，从该用户在不同网站上发布的文本数据中分析得到的，所述关联用户是与所述待分析用户之间存在预定关联关系的用户；

合并单元，用于基于待分析用户与关联用户之间的关联程度，确定关联用户的权重，并根据所述权重对多个关联用户的关键词词频列表进行合并，得到合并后的关键词词频列表；

汇总单元，用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总，得到所述待分析用户的标签词频列表；

推荐单元，用于根据所述标签词频列表中的关键词匹配电子图书库中的图书，确定待推荐电子书，并向所述待分析用户推荐。

优选地，上述系统中，所述获得单元包括：

提取单元，用于提取用户在预先选择出的每个网站上发布的文本数据；

分析单元，用于基于用户在网站上的文本数据，分析得到用户在该网站的关键词及其对应的词频，其中所述关键词为所述文本数据中满足预设条件的词；

加权处理单元，用于基于所述用户对不同网站的访问频率，对用户在不同网站上的关键词的词频进行加权求和，获得用户的关键词的词频，进而生成该用户的关键词词频列表，其中访问频率较高的网站上的关键词在所述加权求和时具有较高的权重。

优选地，上述系统中，所述分析单元包括：

转换单元，用于将每份所述文本数据转换为向量空间模型中的一个向量，所述向量中的每个分量表示为对应的词在所述文本数据中的权值；

统计单元，用于统计在所述文本数据中各个词的出现频率，得到各个词的词频；

第一处理单元，用于选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词，作为所述用户在该网站上的关键词，以及统计该关键词在该网站的所有文本数据中的词频之和，得到所述用户在该网站上的该关键词的词频。

优选地，上述系统中，所述合并单元包括：

第一并集单元，用于对所述多个关联用户的关键词词频列表中的关键词求并集，得到合并后的关键词词频列表中的关键词；以及，

第二处理单元，用于基于待分析用户与关联用户之间的关联程度，确定所述待分析用户的多个关联用户的权重，其中与所述待分析用户关联程度较高的关联用户具有较高的权重；按照所述权重，对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和，得到合并后的关键词词频列表中各个关键词的词频。

优选地，上述系统中，所述汇总单元包括：

第二并集单元，用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集，得到所述标签词频列表中的关键词；以及，

第三处理单元，用于按照预先设置的权重，对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和，得到所述标签词频列表中的各个关键词的词频。

优选地，上述系统中，所述推荐单元包括：

第一选择单元，用于从所述标签词频列表中提取词频大于预设第三门限的关键词，作为标签关键词；

第一偏好匹配单元，用于根据所述标签关键词，匹配预先设置的阅读偏好与关键词之间的对应关系，确定所述标签关键词对应的阅读偏好，作为所述待分析用户的阅读偏好；

第一图书匹配单元，用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配，根据匹配结果向所述待分析用户推荐对应的电子图书。

优选地，上述系统中，所述推荐单元包括：

第二选择单元，用于从所述标签词频列表中提取词频大于预设第三门限的关键词，作为标签关键词；

第二偏好匹配单元，用于根据所述标签关键词，匹配预先设置的阅读偏好与关键词之间的对应关系，确定所述标签关键词对应的阅读偏好；

修正单元，用于获得所述待分析用户的历史数据和/或用户身份类型标签，并利用所述历史数据和/或用户身份类型标签，对所述标签关键词对应的阅读偏好进行修正，得到所述待分析用户的阅读偏好；

第二图书匹配单元，用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配，根据匹配结果向所述待分析用户推荐对应的电子图书。

从以上所述可以看出，本发明提供的电子图书推荐的方法及系统，以用户在网站上发布的数据为基础，通过综合考察待分析用户及其关联用户访问网站的频率以及在网站上发布的数据，来判断待分析用户对于图书的偏好，能够弥补现有技术中仅通过用户注册的身份信息推断用户偏好的不足，同时解决对于阅读平台的新用户由于无法获得其阅读历史数据而无法确定其阅读偏好的问题。并且，本发明还可以进一步结合待分析的历史数据和/或用户类型标签，对所述待分析用户的阅读偏好进行修正，能够提高图书推荐的准确性。

附图说明

图1为本发明实施例提供的电子图书推荐的方法的流程示意图；

图2为本发明实施例提供的一种电子图书推荐系统的结构示意图；

图3为本发明实施例提供的另一种电子图书推荐系统的结构示意图。

具体实施方式

本发明主要通过结合用户在社交行为中的信息(如社交网络、微博、博客等)来对用户进行阅读偏好分析，进而推荐与之对应的电子图书，使得对用户阅读偏好判断的准确性得到提高，改善了用户对图书推荐服务的使用体验。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

本发明实施例提供的电子图书推荐的方法，可以应用于一阅读平台，向待分析用户提供图书推荐的服务。请参照图1，该方法包括以下步骤：

步骤11，获得待分析用户的关键词词频列表以及关联用户的关键词词频列表，所述关键词词频列表包括有关键词及其对应的词频，所述关键词及其对应的词频是根据用户对不同网站的访问频率，从该用户在不同网站上发布的文本数据中分析得到的，所述关联用户是与所述待分析用户之间存在预定关联关系的用户。

这里，所述关联用户与所述待分析用户之间存在预定关联关系，例如，所述关联用户可以是所述待分析用户手机通讯录中的联系人，或者是所述待分析用户在即时通信中的好友(如MSN或QQ好友)，或者是所述待分析用户在微博或博客中关注的用户，或者是所述待分析用户转发或评论过的文本数据所对应的用户，等等。当然，为了简化处理，可以选择出与所述待分析用户之间的社交行为频率大于预定阈值或者最近一段时间内与所述待分析用户之间发生过社交行为的用户，作为所述关联用户。所述社交行为包括但不限于语音通话、短消息/彩信交互、转发/评论文本内容等行为。

这里，待分析用户的关键词词频列表的获取方式，与关联用户的关键词词频列表的获取方式可以相同。对于待分析用户或关联用户，都是综合考虑该用户对不同网站的访问频率以及在这些网站上所发布的文本数据后分析得到的。用户在网站上所发布的数据，可以包括用户发布的新帖子或新话题，还可以包括用户评价、转发其他人的言论的相关内容。文本数据的获得方式，具体可以通过网站(如社交网站、微博、博客等网站上)的open API，获取用户在该网站上的用户行为等信息，可以采用Web文本挖掘的方法，对用户的网站使用行为进行文本挖掘，获得该用户的文本数据。在文本挖掘时，可以对所述用户发布有数据的所有网站进行挖掘。当然为了简化处理，也可以从所有网站中选择出该用户访问频率大于预定门限的网站进行挖掘，例如选择出用户每周或每天都会访问的网站，或者选择出用户在最近一段时间内所访问的网站。

步骤12，基于待分析用户与关联用户之间的关联程度，确定所述待分析用户的多个关联用户的权重，并根据所述权重对所述多个关联用户的关键词词频列表进行合并，得到合并关联用户的关键词词频列表。

步骤13，对所述待分析用户的关键词词频列表和所述合并关联用户的关键词词频列表进行汇总，得到所述待分析用户的标签词频列表。

步骤14，根据所述标签词频列表中的关键词匹配电子图书库中的图书，确定待推荐电子书，并向所述待分析用户推荐。

从以上步骤可以看出，本发明实施例以用户在网站上发布的数据为基础，通过综合考察待分析用户及其关联用户(如好友或常用联系人)访问网站的频率以及在网站上发布的数据，来判断待分析用户对于信息获取的偏好，能够弥补现有技术中仅通过用户注册的身份信息推断用户偏好的不足，同时解决对于阅读平台的新用户由于无法获得其阅读历史数据而无法确定其阅读偏好的问题。

以下对本发明实施例的上述步骤作进一步的说明。

上述步骤11中，可以按照以下步骤，获得对应用户的关键词词频列表，例如获得所述待分析用户的关键词词频列表，或者获得所述关联用户的关键词词频列表：

步骤111，提取用户在预先选择出的每个网站上发布的文本数据，基于用户在该网站上的文本数据，分析得到用户在该网站的关键词及其对应的词频，其中所述关键词为所述文本数据中满足预设条件的词，词频为该关键词出现的频率，例如出现了5次。

这里，预先选择出的网站可以是用户访问频率大于预定门限的网站，或者是用户在最近一段时间内访问过的网站，以减少分析数据量，减少分析处理压力和耗时。

步骤112，基于所述用户对不同网站的访问频率，对用户在不同网站上的关键词的词频进行加权求和，获得用户的关键词的词频，进而生成该用户的关键词词频列表，其中访问频率较高的网站上的关键词在所述加权求和时具有较高的权重，例如在第一网站具有第一访问频率，第二网站具有第二访问频率，且第一访问频率大于第二访问频率时，所述用户在第一网站上的关键词的词频对应的第一权重，大于所述用户在第二网站上的关键词的词频对应的第二权重。本实施例在上述步骤b中，对用户在不同网站上的关键词的词频进行加权求和时，是首先对用户在不同网站上的关键词的词频进行加权，然后如果其中存在相同关键词，则对相同关键词的加权后的词频求和，最终得到所有关键词的词频。

本实施例在上述步骤111中可以通过向量空间模型的算法，来获得用户在网站上的关键词及其词频。此时，上述步骤111又可以进一步包括以下步骤：

步骤1111，将每份文本数据转换为向量空间模型中的一个向量，所述向量中的每个分量表示为对应的词在所述文本数据中的权值。这里，一份文本数据可以是从用户该该网站上发布的一个帖子、一篇博客文章或一个转帖等内容中挖掘出来的。

步骤1112，统计在所述文本数据中各个词的出现频率，得到各个词的词频；

步骤1113，选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词，作为所述用户在该网站上的关键词，以及统计该关键词在该网站的所有文本数据中的词频之和，得到所述用户在该网站上的该关键词的词频。

上述步骤12中，所述基于待分析用户与关联用户之间的关联程度，确定所述待分析用户的多个关联用户的权重，并根据所述权重对所述多个关联用户的关键词词频列表进行合并，具体可以包括：

步骤121，对所述多个关联用户的关键词词频列表中的关键词求并集，得到合并后的关键词词频列表中的关键词。

这里的所述多个关联用户可以是从待分析用户的所有关联用户中选择出来的关联程度大于预设的门限值的关联用户，以减少计算量。

步骤122，基于待分析用户与关联用户之间的关联程度，确定所述待分析用户的多个关联用户的权重，其中与所述待分析用户关联程度较高的关联用户具有较高的权重，例如，在第一关联用户与所述待分析用户之间具有第一关联程度，第二关联用户与所述待分析用户之间具有第二关联程度，且第一关联程度大于第二关联程度时，所述第一关联用户对应的第一权重，大于所述第二关联用户对应的第二权重。

步骤123，按照所述权重，对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和，得到合并后的关键词词频列表中各个关键词的词频。

以上步骤121至步骤123中，通过设置不同权重的方式，对不同关联程度的关联用户的关键词词频列表进行加权求和。这里的加权求和是指：将所述多个关联用户的关键词词频列表中相同关键词的词频进行加权求和，将和值作为合并后关键词词频列表中的该关键词的词频，即，首先对多个关联用户的关键词词频列表中的关键词的词频进行加权，然后如果其中存在相同关键词，则对相同关键词的加权后的词频求和，最终得到所有关键词的词频。

当然，为了简化处理，本实施例也可以对这些关联用户不再区分其权重，而是直接对这些关联用户的关键词词频列表中的关键词进行合并，对相同关键词的词频进行相加，以得到合并后的关键词词频列表。

上述步骤13中，对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总，得到所述待分析用户的标签词频列表，具体可以包括：

步骤131，对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集，得到所述标签词频列表中的关键词；以及，

步骤132，按照预先设置的权重，对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和，得到所述标签词频列表中的各个关键词的词频。

这里的加权求和是指：将所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中相同关键词的词频进行加权求和，将和值作为所述标签词频列表中的该关键词的词频，即，首先对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权，然后如果其中存在相同关键词，则对相同关键词的加权后的词频求和，最终得到所有关键词的词频。

这里，在步骤132中，可以针对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表设置对应的权重值，具体设置可以根据用户需求自行设置，例如，在希望更多的考虑待分析用户的因素时，可以将待分析用户的权重值设置的大一些；又例如，对于访问所述阅读平台较为频繁的待分析用户，则可以将其权重值设置的较小；反之，对于访问所述阅读平台较为稀少的待分析用户，则可以将其权重值设置的较大一些。

作为上述步骤14的一种具体实现方式，上述步骤14具体可以包括：

步骤141，从所述标签词频列表中提取词频大于预设第三门限的关键词，作为标签关键词；

步骤142，根据所述标签关键词，匹配预先设置的阅读偏好与关键词之间的对应关系，确定所述标签关键词对应的阅读偏好；

步骤143，获得所述待分析用户的历史数据和/或用户身份类型标签，并利用所述历史数据和/或用户身份类型标签，对所述标签关键词对应的阅读偏好进行修正，得到所述待分析用户的阅读偏好；

步骤144，将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配，根据匹配结果向所述待分析用户推荐对应的电子图书。

上述步骤142中，所述阅读偏好是指示用户偏好的图书类型。不同的用户可能喜欢阅读不同类型的图书。确定所述标签关键词对应的阅读偏好的具体方式，可以按照与现有技术相同的匹配方式进行，此处不再赘述。

作为上述步骤14中，确定所述待分析用户的阅读偏好的另一种实现方式，本发明实施例还可以进一步结合待分析用户的其他参数来对阅读偏好进行修正，使其更能准确反映待分析用户的阅读偏好，此时，上述步骤14中具体可以包括：

步骤141’，从所述标签词频列表中提取词频大于预设第三门限的关键词，作为标签关键词；

步骤142’，根据所述标签关键词，匹配所述对应关系，确定所述标签关键词对应的阅读偏好；

步骤143’，获得所述待分析用户的历史数据和/或用户类型标签，并利用所述历史数据和/或用户类型标签，对所述标签关键词对应的阅读偏好进行修正，得到所述待分析用户的阅读偏好；

步骤144’，将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配，根据匹配结果向所述待分析用户推荐对应的电子图书。

在上述步骤中，将分析得到的所述待分析用户的阅读偏好，与阅读平台的电子图书库中的电子图书进行匹配，确定出对应的电子图书，进而将所确定的电子图书推荐给所述待分析用户，具体推荐方式可以是通过推送方式将该电子图书的相关信息(如图书摘要)发送给所述待分析用户。本实施例在上述步骤14中可以采用与现有技术相同的图书推荐方式，为节约篇幅，此处不再赘述。

本发明实施例还提供了上述步骤14的另外一种实现方式，具体为：将所述标签词频列表中的关键词与电子图书库中图书的标签词进行匹配，选择匹配程度大于预设门限的电子图书向所述待分析用户进行推荐。这里，匹配程度大于预设门限可以是：匹配上的关键词的数量大于预设阈值；按照匹配上的关键词的数量降序排序，排序后的第1名至第N名，这里N大于等于1。

基于以上所述的电子图书推荐的方法，本发明实施例还提供了一种电子图书推荐系统。请参照图2所示，该系统包括：

其中，所述获得单元具体可以包括：

这里，所述分析单元具体可以包括：

转换单元，用于将所述文本数据转换为向量空间模型中的一个向量，所述向量中的每个分量表示为对应的词在所述文本数据中的权值；

优选地，所述合并单元可以包括：

优选地，所述汇总单元包括：

作为一种优选实施方式，所述推荐单元可以包括：

作为另一种优选实施方式，所述偏好确定单元可以包括：

为进一步帮助理解本发明实施例，以下结合图3所示的电子图书推荐系统，对本发明实施例所述的电子图书推荐的方法作更为详细的说明。

本实施例提出的图书推荐方式，是一种基于社会网络的方法，通过第三方社交站点的open API获取用户在社交网站、微博、博客等网站上的用户行为及联系人使用信息，采用Web文本挖掘的方法，对用户的网站使用行为进行文本挖掘，并以此为基础对用户打上一定的偏好标签，通过用户偏好标签匹配图书类别标签，对用户进行相应的图书推送，提高图书推送的准确率和用户的回复率以及点击率。

在具体实施本实施例中的图书推荐方法时，可以包括以下步骤：

步骤一，根据用户登录各个网站的频率，确定要进行文本数据采集的网站。

具体是：首先，确定用户的所有的ID，包括该用户的手机号码、邮箱和其他登录名。例如可以通过图3所示的第三方网站的open API，获取用户在各个网站上的用户行为及联系人使用信息；其次，可以选择其中一个ID作为该用户的唯一识别ID，例如手机号码，然后通过手机号码绑定的方式，将其他ID与手机号码绑定，然后，获取并记录客户登陆或访问社交网络、微博或博客的信息；之后，根据其登陆和访问相应网站的频率(如登录次数)和/或活跃程度(如转帖次数、发信息的次数)确定其来自于哪些网站的数据需要被采集到系统中，对于低于频率和活跃程度阈值的数据，不予采集。

步骤二，采用文本挖掘的方式，确定用户的关键词词频列表，具体包括：

步骤a1，从步骤一中所确定的网站中，提取用户的待处理的文本信息，并进行预处理，包括：

通过根据用户的ID，获得该用户在各个网站(如微博或者博客网站)上的用户转发、评价及主动留言内容，并利用图3中的网页信息预处理模块对相应网页的内容进行处理，去掉跟文本挖掘无关的标记，转换成统一格式的TXT文本数据后存放在用户文本服务器上以备后续处理。这些文本数据与用户识别ID关联，被存放在一个单独的文件服务器上。本实施例中可以通过定时抽取用户的数据，及时更新用户的文本数据信息。

在对用户的中文内容进行处理时，由于中文词汇之间不含有空格等明显的间隔符号，并且同一个汉字有可能跟前后的文字都形成有效词汇，从而造成不同的理解，因而可以利用现有技术中的自动分词处理方法对中文文本进行词条切分处理，相关的处理方法包括但不限于：根据需要采用基于理解的方法和基于统计的方法。

步骤a2：对步骤a1中经预处理后的用户在某个网站上的文本数据信息，利用以下提供的TF-IDF公式，计算得到用户的关键词词频列表，具体是：

采用向量空间模型(VSM，Vector Space Model)来表示每份文本数据。文本空间被看作是由一组正交词条向量所组成的向量空间，每个文本数据d_i表示为其中的一个向量：

V(d_i)＝(w₁(d_i)，w₂(d_i)，...，w_n(d_i)) (5-1)

其中n表示文本特征抽取时所选用的特征项数目，即文本空间中的词的数量，w_j(d_i)表示第j个词t_j在文本数据d_i中的权值。特征项的权值计算方法采用TF-IDF公式，以词t在文本

中的权值为例，计算原理如公式(5-2)所示：

w (t, \overset{&RightArrow;}{d}) = \frac{tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{i} + 0.01)}{\sqrt{Σ_{t &Element; \overset{&RightArrow;}{d}} {[tf (t, \overset{&RightArrow;}{d}) \times \log (N / n_{i} + 0.01)]}^{2}}} - - - (5 - 2)

在公式(5-2)中，

为词t在文本数据

中的权值，而

为词t在文本数据

中的词频，N为训练文本的总数，n_i为训练文本集中出现t的文本数据的数量，分母为归一化因子。在将上述公式(5-2)应用于本实施例的计算时，公式(5-2)中的训练文本集是指经步骤a1中经预处理后得到的用户在该网站上的文本数据的集合，N是指该集合中的文本数据的数量。

根据TF-IDF公式，文本数据集中包含某一词条的文本数据越多，说明它区分文本数据类别属性的能力越低，其权值越小；另一方面，某一文本数据中某一词条出现的频率越高，说明它区分文本数据内容属性的能力越强，其权值越大。

根据以上计算的结果，针对用户允许的词频列表长度限制设定阈值，并对于

和

均大于各自对应的阈值的词，作为该用户的关键词，则加入到用户的在该网站上的关键词词频列表。

步骤a3：通过上述步骤a2获得用户在各个网站上的关键词词频列表Activation_A_i，例如用户在网站A1上的数据，则得到用户的Wordlist_A₁，根据用户在网站A₂上的数据，则得到用户的Wordlist_A₂，等等。然后，利用图3中所示的用户访问频率判定模块，获得用户在不同网站上的访问频率和活跃度，进而形成一个关键词词频列表与访问频率对应的二元组<Wordlist_A₁，Activation_A₁>，<Wordlist_A₂，Activation_A₂>...，其中Activation_A_i表示用户在网站A_i上的关键词词频列表Activation_A_i的权重，该权重随用户在网站上的访问频率或活跃度的增加而增加。然后，通过加权方式得到用户的关键词词频列表，即：

User_Wordlist = Σ_{i = 1}^{m} Wordlist_A_{i} * Activation_A_{i} - - - (5 - 3)

其中m表示网站的数量，Wordlist_A_i*Activation_A_i表示对Activation_A_i中的关键词的词频进行加权，即与Activation_A_i相乘。以上公式(5-3)表示，将所述多个关联用户的关键词词频列表中相同关键词的词频进行加权求和，将和值作为合并后关键词词频列表中的该关键词的词频。

这样，通过以上步骤一和步骤二，可以获得系统中所有用户的关键词词频列表，在后续步骤中可以直接调用这些列表来进行计算。

步骤三，通过待分析用户的识别ID，采集该待分析用户的关联用户，例如获取该待分析用户的常用联系人列表，将该列表中的用户作为关联用户。然后，获取用户的常用联系人的关键词词频列表。该步骤可以预先在步骤一和步骤二中执行，这样，在采集某一特定用户的常用联系人时，可直接从预先存储关键词词频列表的词频文件服务器中获取常用联系人的关键词词频列表，当然，在获取不到的情况下，系统的网页信息预处理模块可以实时计算得到各个常用联系人的关键词词频列表，具体计算类似于上述公式(5-3)，即：

Friend_Wordlist = Σ_{i = 1}^{L} Wordlist_B_{i} * Activation_B_{i} - - - (5 - 4)

其中，Wordlist_B_i表示该常用联系人在网站上的B_i关键词词频列表，Activation_B₂表示该常用联系人在网站B_i上的关键词词频列表Activation_B_i的权重，L表示网站的数量，Wordlist_B_i*Activation_B_i表示对Activation_B_i中的关键词的词频进行加权，即与Activation_B_i相乘。

对于待分析用户的多个联系人，按联系人的联系频率降序排列。设定一个联系人用户群人数阈值User_Num，将排名在用户数阈值范围内的联系人定义为高频联系人集合，通过取高频联系人集合用户词频列表的并集，得到联系人关键词词频，具体为：

取得用户的所有联系人列表；

对用户的联系人联系频率进行降序排列；

将联系频率排名在联系人用户群人数阈值User Num阈值范围内的联系人，作为高频联系人集合High_Freq_Friends；

对所有高频联系人用户词频列表求并集，获得高频联系人集合High Freq Friends中的关键词词频列表High Freq Friends Wordlist：

High_Freq_Friends_Wordlist = \cup_{i = 1}^{User_num} Friend_{Wordlist}_{i} - - - (5 - 5)

Friend_Wordlist_i表示联系人i的关键词词频列表，上述公式(5-5)表示对所有高频联系人的关键词词频列表中的关键词取并集，得到高频联系人集合的关键词词频列表中所有关键词；并将所有高频联系人的关键词词频列表中的相同关键词的词频求和，得到高频联系人集合的关键词词频列表中所有关键词的词频。

为了简化处理，上述(5-5)中并没有考虑不同联系人与待分析用户的联系频率。在考虑联系频率时，可以进一步通过加权求和的方式，来获得高频联系人集合的关键词词频列表，即高频联系人的权重高，低频联系人的权重低。

步骤四，综合高频联系人集合的关键词词频列表和待分析用户的关键词词频列表得到用户的偏好信息，具体是：

采用文本分类的方法获得用户的偏好。将用户偏好分为言情、穿越、玄幻等预定偏好；

基于高频联系人集合的关键词词频列表和待分析用户的关键词词频列表的加权求和结果，获得待分析用户的标签词频列表：

User_Tag_List＝α*User_Wordlist+(1-α)High_Freq_Friends_Wordlist

其中参数α为可调参数。对于访问手机阅读平台较为频繁的用户，其α值可适当根据需要调低，而对于低频访问手机阅读平台的用户其α值可适当根据需要调高。

步骤五，结合其他参数对步骤四得到的用户偏好进行修正。本步骤为可选步骤，对新业务，则可不对上述得到的用户偏好进行修正。

具体包括：通过在手机阅读平台提取用户历史访问话单，根据用户阅读的历史数据，采用时间衰减和访问深度加权方法获得用户的偏好，并可采用用户身份类型标签对用户阅读偏好进行修正。

步骤六，根据用户的阅读偏好，针对用户偏好进行相应的图书匹配，并根据匹配的排序结果对用户进行图书推荐，形成图书推荐列表，并将该列表中的电子图书推送给对应的用户。

上述步骤一至四可以是预先设置的步骤，即手机阅读系统周期性地采集第三方系统的用户网站使用信息，并通过文本挖掘的方式以及采用上述步骤计算获得用户偏好参数，从而在推荐图书的过程中，手机阅读系统业务平台仅需调用用户偏好信息，再进行电子图书与用户偏好的匹配计算，即可向用户推荐电子图书。

此说明书中所描述的许多功能部件都被称为模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述仅是本发明的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种电子图书推荐的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，进一步按照以下方式，获得对应用户的关键词词频列表：

3.如权利要求2所述的方法，其特征在于，所述基于用户在该网站上的文本数据，分析得到用户在该网站的关键词及其对应的词频，包括：

4.如权利要求1所述的方法，其特征在于，

5.如权利要求1所述的方法，其特征在于，

6.如权利要求1所述的方法，其特征在于，

7.如权利要求6所述的方法，其特征在于，

8.一种电子图书推荐系统，其特征在于，包括：

9.如权利要求8所述的系统，其特征在于，所述获得单元包括：

10.如权利要求9所述的系统，其特征在于，所述分析单元包括：

11.如权利要求8所述的系统，其特征在于，所述合并单元包括：

12.如权利要求8所述的系统，其特征在于，所述汇总单元包括：

13.如权利要求8所述的系统，其特征在于，所述推荐单元包括：

14.如权利要求8所述的系统，其特征在于，所述推荐单元包括：