CN111737567A

CN111737567A - 一种网络文学新书推荐的方法

Info

Publication number: CN111737567A
Application number: CN202010476741.2A
Authority: CN
Inventors: 张世侠; 汪溪; 孙宽
Original assignee: Beijing Easou World Technology Co ltd
Current assignee: Beijing Easou World Technology Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-10-02

Abstract

本发明公开了一种网络文学新书推荐的方法，所述方法包括获取站点内网络书籍的基础信息，根据基础信息处理得到所述网络书籍的主题特征分布向量；根据所述主题特征分布向量计算每一本网络书籍的新书相关度，根据所述新书相关度寻找与每一本网络书籍相关联的新书，以形成新书候选集合I；对所述新书候选集合I重新排序以形成新书候选集合II，其中，通过后台日志获取新书的展现数量以及阅读数量打分，并通过后台推荐历史数据和用户行为信息相关性强的书和相关性弱的网络书籍书作为正/负样本；根据打分数据和正/负样本对所述新书候选集I中的所有新书进行重排序；生成用户的新书推荐候选列表。

Description

一种网络文学新书推荐的方法

技术领域

本发明涉及一种个性化推荐领域，特别涉及一种网络文学新书推荐的方法。

背景技术

随着网络文学的兴起，大量的新的网络文学书籍不断涌现，作为一个阅读平台，给用户在海量书籍中给推荐符合用户阅读习惯的书籍显得非常重要。目前的推荐系统中多使用的是海量用户之间阅读的同一性即阅读过同一类书的用户会有类似的阅读习惯，但是对新的书籍来说，只有极少数的用户阅读过该书，缺乏足够的用户阅读和书籍内容相关信息，除了知名作者以外，多数的书籍会被湮没在大量的数据中。由于展现不足，会使得对用户推荐新书较为缓慢和低效

与传统出版书籍不同，网络文学的新书起始篇幅很短，作者一遍连载用户一边阅读，书籍的阅读量会逐步增加。基于此网络文学新书推荐中考虑新书的吸引和淘汰，使得在公平的推荐条件下优秀的书籍能尽快突出，较差的书籍能逐步的淘汰。

发明内容

针对现有技术的不足，本发明所要解决的技术问题是：提供了一种网络文学新书推荐的方法，实现网络文学新书的高效个性化推荐，能够对新书早期展现和推荐能适应用户阅读，从而提高新书的用户阅读率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种网络文学新书推荐的方法，包括：

获取站点内网络书籍的基础信息，根据基础信息处理得到所述网络书籍的主题特征分布向量；

根据所述主题特征分布向量计算每一本网络书籍的新书相关度，根据所述新书相关度寻找与每一本网络书籍相关联的新书，以形成与每一本网络书籍对应的新书候选集合I；

对所述新书候选集合I重新排序以形成排序后的新书候选集合II，其中，通过后台日志获取新书的展现数量以及阅读数量打分，并通过后台推荐历史数据和用户行为信息相关性强的书和相关性弱的网络书籍书作为正/负样本；根据打分数据和正/负样本对所述新书候选集I中的所有新书进行重排序；

生成用户的新书推荐候选列表，其中，通过用户的历史行为信息获取所述用户阅读的书籍，根据该阅读的书籍对应的新书候选集合II，形成用户的新书推荐候选集。

进一步地，在获取站点内网络书籍的基础信息，根据基础信息处理得到所述网络书籍的主题特征分布向量的步骤中，包括以下子步骤：

处理所述网络书籍的基础信息，其中，所述基础信息包括书名，作者名，标签，创建时间，更新时间，更新频率，书籍前N章内容，N为大于或等于1的整数；将所述网络书籍的基础信息分为内容相关特征词和书籍属性特征向量，所述内容相关特征词从所述书籍书名及前N章内容中获取，所述书籍属性包括书名，作者名，标签，创建时间，更新时间，更新频率；

提取所述网络书籍的内容相关特征词，对所述内容相关特征词进行清洗和处理，构成所述网络书籍的内容相关特征词向量；

根据所述内容相关特征词向量构建所述网络书籍的主题模型，获取每一本网络书籍的主题分布特征向量，所有网络书籍的主题分布特征向量构成主题矩阵。

进一步地，在处理所述网络书籍的基础信息的步骤中：对所述网络书籍的书名和前N章内容分词，构成所述网络书籍的内容相关特征词列表，所述每一本网络书籍的ID、书籍属性特征向量以及所述内容相关特征词列表组成一数据元组，所述数据元组格式为(bookID，baseInfo,contentsInfo)，其中，bookID表示书籍唯一标识，baseInfo表示书籍属性特征向量，contentsInfo表示内容相关特征词列表，所有网络书籍的数据元组构成一数据集合。

进一步地，在提取所述网络书籍的内容相关特征词向量的步骤中：通过tf-idf算法构建所述内容相关特征词向量。

进一步地，根据所述内容相关特征词向量构建所述网络书籍的主题模型，获取每一本网络书籍的主题分布特征向量的步骤中：采用LDA主题模型获取所有书籍的主题分布矩阵。

进一步地，在根据所述主题特征分布向量计算每一本网络书籍的新书相关度，根据所述新书相关度寻找与每一本网络书籍相关联的新书，以形成与每一本网络书籍对应的新书候选集合I的步骤中：根据所述主题分布矩阵找出新书作为新书集合，设定一相关度阈值，对每一本网络书籍计算其主题分布特征向量的相关值，获取所述相关值大于所述相关度阈值的TOP M本书作为新书候选集I，其中，M为大于或等于1的整数。

进一步地，在对所述新书候选集合I重新排序以形成排序后的新书候选集合II的步骤之前，还包括：

收集用户的历史行为信息，根据收集到的历史行为信息构建阅读喜好模型，根据所述阅读喜好模型输出(userID，bookID,readScore)三数据元组数据，其中，userID表示用户唯一标识，bookID表示网络书籍的唯一标识,readScore表示通用户对该网络书籍的偏好权重；所述历史行为信息包括阅读行为、购买行为、浏览行为、评论行为、收藏行为、订阅行为、取消收藏行为、取消订阅行为、加入购物车行为和/或搜索行为。

统计计算网络书籍的统计参考值，所述统计参考值包括推荐的网络书籍阅读展现比，所述阅读展现比为阅读量与所述展现量的比值，所述展现量是指在预定时间段内站点展示给能够看到该本网络书籍的用户的数量，所述阅读量是指通过所述用户的阅读行为统计用户阅读该本网络书籍的数量。

进一步地，对所述新书候选集合I重新排序以形成排序后的新书候选集合II的步骤中：根据阅读展现比对新书的推荐结果表现进行打分，即使用打分策略，对新书的展现数量和产生的阅读数量进行0-1分之间的打分。

本发明网络文学新书推荐的方法，相对于现有的新书推荐的方法，本方法由于使用书籍内容和用户行为相结合，同时融合了对新书推荐效果的反馈打分，可以提高新书的推荐效率，加快了网络文学新书的阅读人数。针对不同的用户，推荐对应的感兴趣的书籍，使得新书推荐更精准、准确。本方法充分利用了已有书籍的内容特征信息，和用户的其他书籍阅读信息，通过合理的算法和新书打分策略，能够及时的将每一本新书有效的展现给用户，同时能通过分析策略优先好的新书的展现，逐步淘汰质量差的新书，高质量和高效的给用户推荐新书。

附图说明

图1是本发明网络文学新书推荐的方法一实施例的流程图。

图2是图1中获取站点内网络书籍的基础信息的子流程图。

图3是本发明网络文学新书推荐系统一实施例的方框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明网络文学新书推荐的方法一实施例的流程图。本实施例的网络文学新书推荐的方法，包括：

S10、获取站点内网络书籍的基础信息，根据基础信息处理得到所述网络书籍的主题特征分布向量；其中，请参见图2，本步骤包括以下子步骤：

S101、处理所述网络书籍的基础信息，其中，所述基础信息包括书名，作者名，标签，创建时间，更新时间，更新频率，书籍前N章内容，N为大于或等于1的整数；将所述网络书籍的基础信息分为内容相关特征词和书籍属性特征向量，所述内容相关特征词从所述书籍书名及前N章内容中获取，所述书籍属性包括书名，作者名，标签，创建时间，更新时间，更新频率；

本步骤中，将书籍的基础信息做处理，将其分成2个部分，即内容相关特征词和书籍属性特征向量。对所述网络书籍的书名和前N章内容分词，分词可以采用jieba分词合并标签信息，构成所述网络书籍的内容相关特征词列表。

所述每一本网络书籍的ID、书籍属性特征向量以及所述内容相关特征词列表组成一数据元组，所述数据元组格式为(bookID，baseInfo,contentsInfo)，其中，bookID表示书籍唯一标识，baseInfo表示书籍属性特征向量，contentsInfo表示内容相关特征词列表，所有网络书籍的数据元组构成一数据集合。

S103、提取所述网络书籍的内容相关特征词向量，即对内容相关特征词列表的所述内容相关特征词进行清洗和处理，构成所述网络书籍的内容相关特征词向量；本步骤中，可以采用tf-idf算法构建内容相关特征词向量。

S105、根据所述内容相关特征词向量构建所述网络书籍的主题模型，获取每一本网络书籍的主题分布特征向量，所有网络书籍的主题分布特征向量构成主题矩阵。

对于每本网络书籍，S103步骤获取了该网络书籍的内容相关特征词向量后，此步骤通过书籍的内容相关特征词向量去构建主题模型，这里采用LDA(Latent DirichletAllocation)主题模型，LDA主题模型可以通过三层贝叶斯模型可以获取书籍-主题的分布矩阵，由于模型变化不大，可离线定期训练，获取书籍的主题矩阵，然后通过主题矩阵计算书籍对新书的相似度候选集。这里将获取到每本网络书籍的主题分布特征向量，所有书籍的主题分布特征向量构成主题矩阵。

S12、根据所述主题特征分布向量计算每一本网络书籍的新书相关度，根据所述新书相关度寻找与每一本网络书籍相关联的新书，以形成与每一本网络书籍对应的新书候选集合I；

根据所述主题分布矩阵找出新书作为新书集合，设定一相关度阈值，对每一本网络书籍计算其主题分布特征向量的相关值，获取所述相关值大于所述相关度阈值的TOP M本书作为新书候选集I，其中，M为大于或等于1的整数。

所述相关度可以为相似度，对105获取的书籍主题矩阵，找出新书作为候选集，对每一本网络书籍，计算主题向量的相似度，可以采用多种相似度衡量方式，此处可用余弦相似度。对相似度取一个阀值，对每本书获取大于该阀值的topM本书作为候选集，此时获得新书候选集合I。

新书的判定标准，可以以当前的时间往前推一个预定时间段，在该时间段内创建的书，则视为新书。本步骤中，使用主题特征向量计算每本网络书籍与所有新书内容的相似度，取相似前N本书作为新书候选集合I。

S14、对所述新书候选集合I重新排序以形成排序后的新书候选集合II，其中，通过后台日志获取新书的展现数量以及阅读数量打分，并通过后台推荐历史数据和用户行为信息相关性强的书和相关性弱的网络书籍书作为正/负样本；根据打分数据和正/负样本对所述新书候选集I中的所有新书进行重排序；本步骤中，首先对新书候选集合I作重排序准备：主要需要对新书的推荐结果表现进行打分，即使用打分策略，推荐系统对其的展现数量，以及产生的阅读数量，产生0-1分之间的书籍打分，通过推荐历史数据，找到相关性强的书和无相关性书作为正负样本，同时选取书籍的基本内容特征，融合和交叉内容特征，形成排序所需的正负样本。其次，根据打分策略和依据正/负样本对所述新书的推荐候选集合I重排序，以得到新书候选集合II。

根据准备的样本和打分数据，对每本书的新书候选集进行重排序，重排序的目的有两个：1.对新书按打分策略，能够提高和均衡长尾新书的展现，淘汰劣质新书，增大优质新书的推荐展现量。2.重拍序模型考虑除内容特征以外的交叉特征，使推荐书籍更准确，这里的重拍序可以采用GBDT+LR的组合排序方法，最后得到(bookID,[book1ID，book2ID,.......,booknID])的候选集II。

正样本可以这样定义：从用户的历史行为日志和展现日志中，构造书籍-书籍的样本数据，从行为中筛选阅读的相似行为书籍之间作为正样本，对于负样本，使用采样方法挑选展现多次阅读及挑选删除订阅书籍作为负样本。

具体可结合实例：假设多个用户阅读了A书籍的同时又阅读了B书籍，则视为B书籍和A书籍相关。给多个用户同时推荐了C书籍和D书籍，没有用户阅读C书籍和D书籍，那么则视为C书籍、D书籍可以作为负样本。可以理解的，正/负样本认定规则在不同的实施例中还可以有不同的认定规则，这里的正/样本用于作为重排序算法中的参考，对样本的获取规则不作进一步限定。

作为一实施例，书籍相关性正负样本采集是从日志系统中筛选同一连续阅读的n本书作为相关正样本。获取多数用户展现不点击的书籍形成负样本。

S16、生成用户的新书推荐候选列表，其中，通过用户的历史行为信息获取所述用户阅读的书籍，根据该阅读的书籍对应的新书候选集合II，形成用户的新书推荐候选集。本实施例中，使用KNN算法，即用户阅读过的书籍的相似候选集产生的新书，即可作为用户的新书候选集列表产生

本实施例中，在本步骤之前，还包括以下步骤：

S20、收集用户的历史行为信息，根据收集到的历史行为信息构建阅读喜好模型，根据所述阅读喜好模型输出(userID，bookID,readScore)三数据元组数据，其中，userID表示用户唯一标识，bookID表示网络书籍的唯一标识,readScore表示通用户对该网络书籍的偏好权重；所述历史行为信息包括阅读行为、购买行为、浏览行为、评论行为、收藏行为、订阅行为、取消收藏行为、取消订阅行为、加入购物车行为和/或搜索行为。

S30、统计计算网络书籍的统计参考值，所述统计参考值包括推荐的网络书籍阅读展现比，所述阅读展现比为阅读量与所述展现量的比值，所述展现量是指在预定时间段内站点展示给能够看到该本网络书籍的用户的数量，所述阅读量是指通过所述用户的阅读行为统计用户阅读该本网络书籍的数量。

上述S20和S30步骤可以并行，也可以先后进行，它们可以在任意步骤之间执行。

请参见图3，图3是本发明网络文学新书推荐系统一实施例的方框图。本实施例的网络文学新书推荐系统包括主题特征分布向量处理模块、新书候选集合I处理模块、排序模块以及新书推荐候选列表生成模块。

所述主题特征分布向量处理模块用于获取站点内网络书籍的基础信息，根据基础信息处理得到所述网络书籍的主题特征分布向量。其中，所述主题特征分布向量处理模块包括以下子模块：

基础信息处理子模块，用于处理所述网络书籍的基础信息，其中，所述基础信息包括书名，作者名，标签，创建时间，更新时间，更新频率，书籍前N章内容，N为大于或等于1的整数；将所述网络书籍的基础信息分为内容相关特征词和书籍属性特征向量，所述内容相关特征词从所述书籍书名及前N章内容中获取，所述书籍属性包括书名，作者名，标签，创建时间，更新时间，更新频率；

内容相关特征词提取子模块，用于提取所述网络书籍的内容相关特征词，对所述内容相关特征词进行清洗和处理，构成所述网络书籍的内容相关特征词向量；以及

主题矩阵生成子模块，用于根据所述内容相关特征词向量构建所述网络书籍的主题模型，获取每一本网络书籍的主题分布特征向量，所有网络书籍的主题分布特征向量构成主题矩阵。

所述新书候选集合I处理模块用于根据所述主题特征分布向量计算每一本网络书籍的新书相关度，根据所述新书相关度寻找与每一本网络书籍相关联的新书，以形成与每一本网络书籍对应的新书候选集合I；根据所述主题分布矩阵找出新书作为新书集合，设定一相关度阈值，对每一本网络书籍计算其主题分布特征向量的相关值，获取所述相关值大于所述相关度阈值的TOP M本书作为新书候选集I，其中，M为大于或等于1的整数。

所述排序模块用于对所述新书候选集合I重新排序以形成排序后的新书候选集合II，其中，通过后台日志获取新书的展现数量以及阅读数量打分，并通过后台推荐历史数据和用户行为信息相关性强的书和相关性弱的网络书籍书作为正/负样本；根据打分数据和正/负样本对所述新书候选集I中的所有新书进行重排序。

所述新书推荐候选列表生成模块用于生成用户的新书推荐候选列表，其中，通过用户的历史行为信息获取所述用户阅读的书籍，根据该阅读的书籍对应的新书候选集合II，形成用户的新书推荐候选集。

本发明网络文学新书推荐的方法，相对于现有的新书推荐的方法，本方法由于使用书籍内容和用户行为相结合，同时融合了对新书推荐效果的反馈打分，可以提高新书的推荐效率，加快了网络文学新书的阅读人数。针对不同的用户，推荐对应的感兴趣的书籍，使得新书推荐更精准、准确。本方法及系统充分利用了已有书籍的内容特征信息，和用户的其他书籍阅读信息，通过合理的算法和新书打分策略，能够及时的将每一本新书有效的展现给用户，同时能通过分析策略优先好的新书的展现，逐步淘汰质量差的新书，高质量和高效的给用户推荐新书。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网络文学新书推荐的方法，包括：

2.如权利要求1所述的网络文学新书推荐的方法，其特征在于：在获取站点内网络书籍的基础信息，根据基础信息处理得到所述网络书籍的主题特征分布向量的步骤中，包括以下子步骤：

3.如权利要求2所述的网络文学新书推荐的方法，其特征在于，在处理所述网络书籍的基础信息的步骤中：对所述网络书籍的书名和前N章内容分词，构成所述网络书籍的内容相关特征词列表，所述每一本网络书籍的ID、书籍属性特征向量以及所述内容相关特征词列表组成一数据元组，所述数据元组格式为(bookID，baseInfo,contentsInfo)，其中，bookID表示书籍唯一标识，baseInfo表示书籍属性特征向量，contentsInfo表示内容相关特征词列表，所有网络书籍的数据元组构成数据集合。

4.如权利3所述的网络文学新书推荐的方法，其特征在于，在提取所述网络书籍的内容相关特征词向量的步骤中：通过tf-idf算法构建所述内容相关特征词向量。

5.如权利要求3所述的网络文学新书推荐的方法，其特征在于，根据所述内容相关特征词向量构建所述网络书籍的主题模型，获取每一本网络书籍的主题分布特征向量的步骤中：采用LDA主题模型获取所有书籍的主题分布矩阵。

6.如权利要求1至5中任一项所述的网络文学新书推荐的方法，其特征在于，在根据所述主题特征分布向量计算每一本网络书籍的新书相关度，根据所述新书相关度寻找与每一本网络书籍相关联的新书，以形成与每一本网络书籍对应的新书候选集合I的步骤中：根据所述主题分布矩阵找出新书作为新书集合，设定一相关度阈值，对每一本网络书籍计算其主题分布特征向量的相关值，获取所述相关值大于所述相关度阈值的TOP M本书作为新书候选集I，其中，M为大于或等于1的整数。

7.如权利要求1所述的网络文学新书推荐的方法，其特征在于，在对所述新书候选集合I重新排序以形成排序后的新书候选集合II的步骤之前，还包括：

8.如权利要求7所述的网络文学新书推荐的方法，其特征在于，在对所述新书候选集合I重新排序以形成排序后的新书候选集合II的步骤之前，还包括：

9.如权利要求8所述的网络文学新书推荐的方法，其特征在于，对所述新书候选集合I重新排序以形成排序后的新书候选集合II的步骤中：根据阅读展现比对新书的推荐结果表现进行打分，即使用打分策略，对新书的展现数量和产生的阅读数量进行0-1分之间的打分。