CN112541119B

CN112541119B - 一种高效节源的小型推荐系统

Info

Publication number: CN112541119B
Application number: CN202011443248.7A
Authority: CN
Inventors: 赵亚南
Original assignee: Xiamen Cheng Chuang Network Inc
Current assignee: Xiamen Cheng Chuang Network Inc
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-07-05
Anticipated expiration: 2040-12-08
Also published as: CN112541119A

Abstract

本发明公开了一种高效节源的小型推荐系统，包括新闻源、管理端、通信接口层、核心服务层、缓存层和推荐层，所述通信接口层：包括6种接口，即新闻更新接口、新闻查询接口、拆词参数更新接口、访问日志输入接口、基于用户ID的推荐接口和基于新闻ID的推荐接口；所述核心服务层：用于提供拆词统计服务、实时权重统计服务、用户标签统计服务；所述缓存层：用于缓存数据，包括三级缓存，即一级缓存、二级缓存和三级缓存；所述推荐层：包括按新闻推荐单元和按用户推荐单元。本发明的系统具有低成本、高效率、结构简单，易于部署和维护的优点。

Description

一种高效节源的小型推荐系统

技术领域

本发明涉及计算机技术领域，特别涉及一种高效节源的小型推荐系统。

背景技术

目前常用的推荐系统如：阿里推荐系统、腾讯推荐引擎等，其设计和部署均面向百万级别甚至上亿级别的海量数据，具有海量的持久化存储和复杂的分布式计算，成本较高，导致商用推荐服务的价格居高不下；但对于中等规模的业务来说，业务数据在十万级别左右，若使用现有的商用推荐方案则成本过高，若自己设计部署则难度过高且不易维护，若基于数据库简单的查询技术则速度慢且耗费资源高，导致拖垮用户体验；因此需要一种结构简单稳定、方便维护和部署的小型推荐系统。

发明内容

为解决上述问题，本发明提供了一种高效节源的小型推荐系统。

本发明采用以下技术方案：

一种高效节源的小型推荐系统，包括新闻源、管理端、通信接口层、核心服务层、缓存层和推荐层，

所述新闻源即新闻网站，用于提供新闻资源；

所述管理端：用于管理和监测所述通信接口层、核心服务层、缓存层和推荐层，以及确定拆词参数；

所述通信接口层：包括6种接口，即新闻更新接口、新闻查询接口、拆词参数更新接口、访问日志输入接口、基于用户ID的推荐接口和基于新闻ID的推荐接口；

所述核心服务层：用于提供拆词统计服务、实时权重统计服务、用户标签统计服务；

所述缓存层：用于缓存数据，包括三级缓存，即一级缓存、二级缓存和三级缓存；

所述推荐层：包括按新闻推荐单元和按用户推荐单元，所述按新闻推荐单元根据新闻ID推荐相关的新闻，所述按用户推荐单元根据用户ID推荐用户感兴趣的新闻。

进一步地，所述一级缓存包括新闻变更队列、拆词参数表、新闻时间表、新闻附加属性表、新闻关键词词频缓存表和关键词新闻词频缓存表；

所述二级缓存包括新闻轮询队列、新闻关键词实时权重缓存表和关键词新闻实时权重缓存表；

所述三级缓存包括访问日志队列、访问历史表和用户标签。

进一步地，所述一级缓存的建立具体如下：

S11、新闻源通过所述新闻更新接口即时将变更或增删的新闻ID发送给所述核心服务层，所述核心服务层将所述新闻ID添加到新闻变更列队；

S12、所述管理端通过拆词参数更新接口发送拆词参数给所述核心服务层，所述核心服务层将拆词参数存储至所述拆词参数表；

S13、所述核心服务层依次处理所述新闻变更列队中的新闻，直到列队清空；

步骤S13中的所述处理具体为：

S131、所述核心服务层通过所述新闻查询接口向所述新闻源索取与所述新闻变更队列中的新闻ID相匹配的新闻属性，所述新闻属性包括新闻标题、新闻时间和新闻内容；

S132、所述核心服务层将新闻时间存储至所述新闻时间表，将新闻标题存储至所述新闻附加属性表；

S133、所述核心服务层根据所述拆词参数提供拆词统计服务，即解析新闻标题和新闻内容，结合所述拆词参数进行拆词，将每个新闻下各关键词和该新闻的词频关联系数记录在所述新闻关键词词频缓存表，同时将每个关键词下各新闻和该关键词的词频关联系数记录在所述关键词新闻词频缓存表。

进一步地，所述二级缓存的建立具体为：所述核心服务层将新闻ID加入到所述新闻轮询队列中，并通过实时权重统计服务，周期性无限期轮询所述新闻轮询队列中的新闻ID以刷新二级缓存，对于每条新闻采取如下操作：

S21、从一级缓存中的所述新闻时间表获取新闻总数，从所述新闻关键词词频缓存表中提取关键词和词频关联系数，从所述关键词新闻词频缓存表中提取关键词全局频率；

S22、根据词频关联系数、关键词、全局频率和新闻总数进行实时权重统计，根据统计的结果，将每个新闻下各关键词和该新闻的实时权重存储至新闻关键词实时权重缓存表，将每个关键词下各新闻和该关键词的实时权重存储至关键词新闻实时权重缓存表。

进一步地，所述三级缓存的建立具体为：用户每次访问新闻网页，网站将用户的访问日志通过所述访问日志输入接口发送给所述核心服务层，所述核心服务层将这些访问日志添加到所述访问日志队列，所述核心服务层提供用户标签统计服务逐条处理这些日志，具体对于每条日志采用如下操作：

S31、将用户的访问日志存储至访问历史表；

S32、将每个用户下各关键词和该用户的实时权重存储为用户标签缓存表；

S33、结合当前二级缓存中的所述新闻关键词实时权重缓存表中的新闻标签，累加上一次的用户标签乘以时间衰减系数，获得最新的用户标签缓存表，然后进行存储。

进一步地，所述按新闻推荐单元具体操作为：首先从所述新闻关键词实时权重缓存表中获取新闻标签，即当前新闻的所有关键词及其实时权重；然后根据部分高权重的关键词，在所述关键词新闻实时权重缓存表中获取各关键词的相关新闻及其实时权重组成新闻推荐池；最后在所述新闻推荐池中选取前N条进行推荐。

进一步地，在送出所述推荐之前，从所述新闻附加属性表中获得新闻标题以友好化推荐结果。

进一步地，所述按用户推荐单元具体操作为：先根据用户的ID从用户标签缓存表中获取用户标签，即当前用户的所有关键词及其实时权重；再选取部分高权重的关键词，在所述关键词新闻实时权重缓存表中获取各关键词的相关新闻及其实时权重以形成用户推荐池，然后在所述用户推荐池中选取前N条新闻进行用户推荐。

进一步地，在所述选取的前N条新闻中按照所述访问历史表筛选掉部分用户已经看过的新闻。

进一步地，在送出所述用户推荐之前，从所述新闻附件属性表获得新闻标题以友好化推荐结果。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明的系统通过设计三级缓存，将计算的中间数据按照易变性的不同，分别存储在不同级别的缓存中，缓存层内部没有任何搜索任务，中间数据全部哈希存储，从而极大地缓解了整体计算压力，方便缓存数据的即时更新，从而实现了低成本、高效率、满足主要需求的推荐功能，同时结构简单，易于部署和维护，即使核心服务层随时停止重启也不会影响功能。

附图说明

图1为本发明的一级缓存构建流程示意图；

图2为本发明的二级缓存构建流程示意图；

图3为本发明的三级缓存构建流程示意图；

图4为本发明的按新闻推荐流程示意图；

图5为本发明的按用户推荐流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

所述新闻源即新闻网站，用于提供新闻资源；

如下表1所示，所述通信接口层：包括6种接口，即新闻更新接口、新闻查询接口、拆词参数更新接口、访问日志输入接口、基于用户ID的推荐接口和基于新闻ID的推荐接口；

表1 通信接口层的6种接口

所述核心服务层：用于提供拆词统计服务、实时权重统计服务、用户标签统计服务；所述核心服务层通过算法实现其功能，如可采用C++语言实现；如果有需要，核心服务层可以简单复制进行平行拓展，然后再用负载均衡实现分散压力。

这里将计算的中间数据，按照易变性的不同，分为3级缓存，缓存层内部没有任何搜索任务，中间数据全部哈希存储，因而没有任何关系型数据库的需求，以空间换时间，以快速提供输出。这种设计对于大型业务的海量资源会遇到内存成本压力，但是对于中小型网站的中小型业务非常合适。这里内存缓存可采用任意缓存方案，本实施例采用redis方案。如有需要，内存服务也可使用成熟方案实现集群，以分散压力。

如下表2所示，所述一级缓存包括新闻变更队列、拆词参数表、新闻时间表、新闻附加属性表、新闻关键词词频缓存表和关键词新闻词频缓存表；

所述三级缓存包括访问日志队列、访问历史表和用户标签。

表2 三级缓存

如图1所示，所述一级缓存的建立具体如下：

S13、所述核心服务层依次处理所述新闻变更列队中的新闻，直到列队清空；（如果是多核心服务则可抢夺处理）

步骤S13中的所述处理具体为：

S131、所述核心服务层通过所述新闻查询接口向所述新闻源索取与所述新闻变更队列中的新闻ID相匹配的新闻属性，所述新闻属性包括新闻标题、新闻时间和新闻内容；对于删除的新闻则获知新闻已经删除，删除对应的缓存记录；

这里一级缓存是相对稳定的数据，除非新闻本身删改，一般不会再变化，可以长期使用。

当管理端通过拆词参数更新接口更新拆词参数后，所述核心服务层提取全部新闻ID，加入到所述新闻变更队列，以激活一次遍历操作，重新对新闻进行拆词，刷新一级缓存。所述核心服务层提取全部新闻ID时，可以从新闻时间表或新闻附加属性表提取。

拆词参数包括：停词、同义词、特殊词汇的特殊权重、上下级关联词，拆词参数会直接影响拆词的结果（即词频权重），如：停词不会计入统计，同义词倍增词频权重，特殊词汇的特殊权重则会进一步加权词频，下级词出现会视为上级词同时出现。

拆词参数变化后，一级缓存实际上在全部重建，但是一级缓存重建过程中，二级缓存和推荐结果仍然可以在新旧数据的中间状态中持续工作。

如图2所示，所述二级缓存的建立具体为：所述核心服务层将新闻ID加入到所述新闻轮询队列中，并通过实时权重统计服务，周期性无限期轮询所述新闻轮询队列中的新闻ID以刷新二级缓存，对于每条新闻采取如下操作：

S22、根据词频关联系数、关键词、关键词全局频率和新闻总数进行实时权重统计，根据统计的结果，将每个新闻下各关键词和该新闻的实时权重储至新闻关键词实时权重缓存表，将每个关键词下各新闻和该关键词的实时权重存储至关键词新闻实时权重缓存表。

这里的关键词新闻实时权重缓存表是按照不同的日期进行分组的，在后续的根据关键词获取实时权重时，可以根据当前日期，仅获取部分日期分组下的数据。

二级缓存是实现最终推荐的数据基础，是相对不稳定的数据。虽然所有的新闻一旦温度不再变化（拆词参数不变），二级缓存就不会再变化，但是和一级缓存不同的是，任一新闻的变化，都会影响到全局新闻的二级缓存变化，所以二级缓存设计为无限轮询，因为一个正常的网站，新闻每月甚至每天都会有所变化。

如图3所示，所述三级缓存的建立具体为：用户每次访问新闻网页，网站将用户的访问日志通过所述访问日志输入接口发送给所述核心服务层，所述核心服务层将这些访问日志添加到所述访问日志队列，所述核心服务层提供用户标签统计服务逐条处理这些日志，具体对于每条日志采用如下操作：

S31、将用户的访问日志存储至访问历史表；该步骤的作用是调整最后推荐内容的筛选，比如：用户多久之内访问过几次的新闻就不再推荐。

这里的时间衰减系数就是计算上次用户标签缓存表的更新时间和当前时间的差距，差距越大，旧标签的权重值越小，比如相差一年，旧标签的内容就可以忽略不计了。所以用户标签缓存表中，除了存储关键词实时权重之外，还需存储更新时间，此外，用户标签缓存表中的关键词不宜太多，可按照权重高低进行取舍。

如图4所示，所述按新闻推荐单元具体操作为：首先从所述新闻关键词实时权重缓存表中获取新闻标签，即当前新闻的所有关键词及其实时权重；然后根据部分高权重的关键词，在所述关键词新闻实时权重缓存表中获取各关键词的相关新闻及其实时权重组成新闻推荐池；最后在所述新闻推荐池中选取前N条进行推荐。在送出所述推荐之前，可以从所述新闻附加属性表中获得新闻标题以友好化推荐结果。

这里关键词新闻实时权重缓存是按照日期分组的，所以只需要获取部分新记录的内容（比如1年内的），不同日期中的关键词下的新闻可以给予不同的时间加权，比如本月新闻则权重增加，这样一组新闻及其最终加权，称为推荐池，最终加权包含了用户标签中的关键词实时权重，新闻新旧时间加权以及关键词新闻实时加权。

如图5所示，所述按用户推荐单元具体操作为：先根据用户的ID从用户标签缓存表中获取用户标签，即当前用户的所有关键词及其实时权重；再选取部分高权重的关键词，在所述关键词新闻实时权重缓存表中获取各关键词的相关新闻及其实时权重以形成用户推荐池，然后在所述用户推荐池中选取前N条新闻进行用户推荐。为了使每次推荐的内容不同，可以在所述选取的前N条新闻中可以按照所述访问历史表筛选掉部分用户已经看过的新或加入一定的随机权重。在送出所述用户推荐之前，可以从所述新闻附件属性表获得新闻标题以友好化推荐结果。

这里要注意的是，关键词新闻实时权重缓存表是按照日期分组的，所以只需要获取部分新记录的内容，比如1年内的即可，不同日期中的关键词下的新闻可以给予不同的时间加权，比如本月新闻则权重增加，这样一组新闻及其最终加权，称为推荐池，最终加权包含了用户标签中的关键词实时权重、新闻新旧时间加权以及关键词新闻实时加权。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种高效节源的小型推荐系统，其特征在于：包括新闻源、管理端、通信接口层、核心服务层、缓存层和推荐层，

所述新闻源即新闻网站，用于提供新闻资源；

所述管理端：用于管理和监测所述通信接口层、核心服务层、缓存层和推荐层，以及确定拆词参数；所述拆词参数包括：停词、同义词、特殊词汇的特殊权重、上下级关联词；

所述缓存层：用于缓存数据，包括三级缓存，即一级缓存、二级缓存和三级缓存；所述一级缓存包括新闻变更队列、拆词参数表、新闻时间表、新闻附加属性表、新闻关键词词频缓存表和关键词新闻词频缓存表；所述二级缓存包括新闻轮询队列、新闻关键词实时权重缓存表和关键词新闻实时权重缓存表；所述三级缓存包括访问日志队列、访问历史表和用户标签；

2.如权利要求1所述的一种高效节源的小型推荐系统，其特征在于：所述一级缓存的建立具体如下：

步骤S13中的所述处理具体为：

3.如权利要求2所述的一种高效节源的小型推荐系统，其特征在于：所述二级缓存的建立具体为：所述核心服务层将新闻ID加入到所述新闻轮询队列中，并通过实时权重统计服务，周期性无限期轮询所述新闻轮询队列中的新闻ID以刷新二级缓存，对于每条新闻采取如下操作：

4.如权利要求3所述的一种高效节源的小型推荐系统，其特征在于：所述三级缓存的建立具体为：用户每次访问新闻网页，网站将用户的访问日志通过所述访问日志输入接口发送给所述核心服务层，所述核心服务层将这些访问日志添加到所述访问日志队列，所述核心服务层提供用户标签统计服务逐条处理这些日志，具体对于每条日志采用如下操作：

S31、将用户的访问日志存储至访问历史表；

5.如权利要求4所述的一种高效节源的小型推荐系统，其特征在于：所述按新闻推荐单元具体操作为：首先从所述新闻关键词实时权重缓存表中获取新闻标签，即当前新闻的所有关键词及其实时权重；然后根据部分高权重的关键词，在所述关键词新闻实时权重缓存表中获取各关键词的相关新闻及其实时权重组成新闻推荐池；最后在所述新闻推荐池中选取前N条进行推荐。

6.如权利要求5所述的一种高效节源的小型推荐系统，其特征在于：在送出所述推荐之前，从所述新闻附加属性表中获得新闻标题以友好化推荐结果。

7.如权利要求6所述的一种高效节源的小型推荐系统，其特征在于：所述按用户推荐单元具体操作为：先根据用户的ID从用户标签缓存表中获取用户标签，即当前用户的所有关键词及其实时权重；再选取部分高权重的关键词，在所述关键词新闻实时权重缓存表中获取各关键词的相关新闻及其实时权重以形成用户推荐池，然后在所述用户推荐池中选取前N条新闻进行用户推荐。

8.如权利要求7所述的一种高效节源的小型推荐系统，其特征在于：在所述选取的前N条新闻中按照所述访问历史表筛选掉部分用户已经看过的新闻。

9.如权利要求8所述的一种高效节源的小型推荐系统，其特征在于：在送出所述用户推荐之前，从所述新闻附件属性表获得新闻标题以友好化推荐结果。