CN106372123B

CN106372123B - 一种基于标签的相关内容推荐方法和系统

Info

Publication number: CN106372123B
Application number: CN201610712189.6A
Authority: CN
Inventors: 陈运文; 张健; 桂洪冠; 纪达麒
Original assignee: Datagrand Tech Inc
Current assignee: Daguan Data Co ltd
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2020-05-08
Anticipated expiration: 2036-08-23
Also published as: CN106372123A

Abstract

本发明公开了一种基于标签的相关内容推荐方法和系统，系统包括：数据导入模块、自动标签提取模块、倒排索引模块、推荐结果生成模块，通过上述数据导入模块和自动标签提取模块，可获得更相关的内容列表，可实现对内容相关的文本提取自动标签，从而排除跟内容不相关的噪音。本系统中由于内容网站中内容的数量可以达到千万甚至上亿的数量级别，为了提高推荐的效率，需要利用信息检索的技术，在所述倒排索引模块中对所有的内容按照自动标签进行倒排索引，提高了推荐的效率。采用本发明提供的方法，能够获得更相关的内容列表和更高推荐效率的相关内容推荐。

Description

一种基于标签的相关内容推荐方法和系统

技术领域

本发明涉及内容推荐领域，特别涉及一种基于标签的相关内容推荐方法和系统。

背景技术

随着互联网内容的不断扩大，内容个数和种类快速增长，用户从大量无关的信息中发现感兴趣的内容越来越困难。相关内容推荐在不需要用户不明确指定查询条件的情况下，主动给用户展示一些跟当前观看内容相关的内容，因而可以让用户更方便的发现内容、提高用户体验、增强网站粘性。具体而言，相关内容推荐是指：系统通过计算机算法，对互联网内容站点的内容进行内容挖掘和语义分析，为每一个内容自动生成一个与该内容内容相关的内容列表。

如图1所示是现有技术中相关内容推荐的示例，一个内容对应的文本信息可包括：标题、用户标签、描述、频道分类、发布时间等，缺点在于：这些文本中含有大量的跟内容不相关的噪音，无法向用户进行较为准确的推荐。

发明内容

本发明要解决的技术问题是，提供能够获得更相关的内容列表和更高推荐效率的相关内容推荐方法。

解决上述技术问题，本发明提供了一种基于标签的相关内容推荐系统，包括：数据导入模块、自动标签提取模块、倒排索引模块、推荐结果生成模块，

所述数据导入模块，用以获取全量内容数据和新增内容数据，并分别导入数据库中，所述新增内容数据至少包括：点击内容数据表和增量内容数据表；

所述自动标签提取模块，用以从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表；

所述倒排索引模块，用以从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；

所述推荐结果生成模块，用以根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表。

更进一步，所述增量内容数据表，用以将新内容在推荐列表中更新。

更进一步，按照所述内容标签的id列表为key，对应的内容id列表为value建立倒排索引列表。

更进一步，所述倒排索引列表按照推荐度由大到小排列。

更进一步，所述自动标签提取模块，还用以生成自动标签的候选集合，并对所述候选集合中的标签集合进行编号，生成每个标签对应的id。

更进一步，在所述自动标签提取模中计算得到内容推荐度的方法为：根据每个内容的时长、清晰度、上传时间、点击数以及收藏数的受欢迎指标，对内容进行打分，计算rec_value内容推荐度，

以及还将所述内容的id、各标签id保存至数据库中全量选择数据表和新增内容选择数据表，所述内容id是指在新生成内容时标识内容的唯一编号。

更进一步，所述倒排索引模块，是专有名词或分类标签的重要性得分高，长度长的标签得分高，对应的内容少的标签得分高

更进一步，所述倒排索引模块，定期读取数据库中的全量选择数据表和新增内容选择数据表，用以取出内容id以及对应的标签id，并根据标签id对内容进行合并，生成倒排索引列表；

以及计算所述标签id的重要性，根据所述标签id是否对应专有名词或分类标签、对应标签的长度、对应的倒排索引列表的长度，赋予标签id不同的重要性等级。

基于上述系统，本发明还提供了一种基于标签的相关内容推荐方法，包括如下步骤：

获取全量内容数据和新增内容数据，并分别导入数据库中，所述新增内容数据至少包括：点击内容数据表和增量内容数据表；

从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表；

从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；

根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表。

所述内容推荐方法进一步还包括：根据所述内容推荐列表中的内容，进行相关性打分后由高到低进行排序，输出结果。

本发明的有益效果：

1）本发明中的基于标签的相关内容推荐系统，包括：数据导入模块、自动标签提取模块、倒排索引模块、推荐结果生成模块，所述数据导入模块，用以获取全量内容数据和新增内容数据，并分别导入数据库中，所述新增内容数据至少包括：点击内容数据表和增量内容数据表；所述自动标签提取模块，用以从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表；通过上述数据导入模块和自动标签提取模块，可获得更相关的内容列表，可实现对内容相关的文本提取自动标签，从而排除跟内容不相关的噪音。同时，所述增量内容数据表，用以将新内容在推荐列表中更新，其中由于Content_New_Tb增量内容数据表的数据规模很小，能灵活进行新内容在推荐列表中的更新，从而实现该系统的实时性推荐。

更进一步，所述倒排索引模块，用以从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；由于内容网站中内容的数量可以达到千万甚至上亿的数量级别，为了提高推荐的效率，需要利用信息检索的技术，在所述倒排索引模块中对所有的内容按照自动标签进行倒排索引，提高了推荐的效率。

所述推荐结果生成模块，用以根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表。最后根据所述内容推荐列表中的内容，进行相关性打分后由高到低进行排序，输出结果，便于用户直接查阅。

2）本发明中的基于标签的相关内容推荐方法，采用从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表的方法，可获得标签，去除大量的跟内容不相关的噪音。并且从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；通过建立倒排索引列表提高推荐的效率。

附图说明

图1是现有技术中相关内容推荐的示例。

图2是本发明基于标签的相关内容推荐系统的结构示意图。

图3是本发明一实施例中基于标签的相关内容推荐系统的结构示意图。

图4是本发明一实施例中基于标签的相关内容推荐方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

请参考图2是本发明基于标签的相关内容推荐系统的结构示意图。

本实施例中的一种基于标签的相关内容推荐系统100，包括：数据导入模块1、自动标签提取模块2、倒排索引模块3、推荐结果生成模块4，

所述数据导入模块1，用以获取全量内容数据和新增内容数据，并分别导入数据库中，所述新增内容数据至少包括：点击内容数据表和增量内容数据表；作为本实施例中的优选，所述增量内容数据表，用以将新内容在推荐列表中更新。数据导入模块1（Importer）:数据来源包括3部分，分别是全量内容数据Content_Data_All, 点击数据Content_Click_Data和增量内容数据Content_Data_Feed。新增内容数据包括了：根据所述点击数据建立的点击内容数据表和根据增量内容数据建立的增量内容数据表。

对内容数据以及内容的点击数据进行整理，写入到全量内容数据库的Content_Origin_Tb全量内容数据表、增量内容数据库的Content_New_Tb增量内容数据表、内容点击数据库的Content_Click_Tb点击内容数据表。

在一些实施例中，所述增量内容数据表，用以将新内容在推荐列表中更新，能灵活进行新内容在推荐列表中的更新，从而实现该系统的实时性推荐。

所述自动标签提取模块2，用以从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表；

自动标签提取模块2（TagParser）中一次性处理Content_Origin_Tb，并定期从Content_New_Tb读取数据，进行用户标签过滤、自动标签提取等工作，并计算推荐度rec_value。模块将获得的自动标签、rec_value、以及后续流程需要使用的字段，分别保存在数据库Content_Select_Tb（全量数据）和Content_NewSelect_Tb（增量数据）中。

在一些实施例中，所述自动标签提取模块，还用以生成自动标签的候选集合，并对所述候选集合中的标签集合进行编号，生成每个标签对应的id。

在所述自动标签提取模2中计算得到内容推荐度的方法为：根据每个内容的时长、清晰度、上传时间、点击数以及收藏数的受欢迎指标，对内容进行打分，计算rec_value内容推荐度，

所述倒排索引模块3，用以从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；其中所述标签内容数据表该表也是哈希结构，主键是标签的id，指向的内容是包含有该标签的内容的id。例如标签“演唱会”的id是1001包含有该标签的文章或者视频或者图片集合的id分别是20001384, 20001843,20004849，则哈希数据表中key是 1001， value是20001384,20001843,20004849。

倒排索引模块3（Inverter），读取Content_Select_Tb全量选择数据表和Content_NewSelect_Tb新增内容选择数据表，选择其中发生变化的内容，并合并生成以标签id为key，对应的内容id列表为value的倒排表（按照rec_value由大到小排列），并保存在Tag_Content_Tb中。所述倒排表采用哈希表，采用主键和对应的键值的方式存放在哈希表里，即key:value方式。

作为本实施例中的优选，按照所述内容标签的id列表为key，对应的内容id列表为value建立倒排索引列表。优选地，所述倒排索引列表按照推荐度由大到小排列。

在一些实施例中，所述倒排索引模块3，是专有名词或分类标签的重要性得分高，长度长的标签得分高，对应的内容少的标签得分高。

在一些实施例中，所述倒排索引模块3，定期读取数据库中的全量选择数据表和新增内容选择数据表，用以取出内容id以及对应的标签id，并根据标签id对内容进行合并，生成倒排索引列表；以及计算所述标签id的重要性，根据所述标签id是否对应专有名词或分类标签、对应标签的长度、对应的倒排索引列表的长度，赋予标签id不同的重要性等级。

所述推荐结果生成模块4，用以根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表。

推荐结果生成模块4（Recommender），定期读取Tag_Content_Tb标签内容数据表，并根据Content_Click_Tb点击内容数据表中发生点击的内容id，来选择性的更新推荐内容表Content_Recommend_Tb。

由上可知，本实施例中的基于标签的相关内容推荐系统，具有以下的技术效果：

通过上述数据导入模块和自动标签提取模块，可获得更相关的内容列表，可实现对内容相关的文本提取自动标签，从而排除跟内容不相关的噪音。同时，所述增量内容数据表，用以将新内容在推荐列表中更新，其中由于Content_New_Tb增量内容数据表的数据规模很小，能灵活进行新内容在推荐列表中的更新，从而实现该系统的实时性推荐。

由于内容网站中内容的数量可以达到千万甚至上亿的数量级别，为了提高推荐的效率，需要利用信息检索的技术，在所述倒排索引模块中对所有的内容按照自动标签进行倒排索引，提高了推荐的效率。

请参考图3是本发明一实施例中基于标签的相关内容推荐系统的结构示意图。以推荐内容为视频为例，结合图3进行说明。

数据导入模块1从全量视频信息库一次性导入数据，以及从增量视频信息库和视频点击数据中定期更新内容数据，在数据库中得到全量视频数据表和新增视频数据表。

自动标签提取模块2用以从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择视频数据表和新增视频选择数据表。

在自动标签提取模块2进行如下的操作：

自动标签提取

首先，生成自动标签的候选集合。对内容相关的文本：标题、描述、用户标签，进行分词、词性标注、专有名词识别、命名实体识别的操作，获得的词或短语的列表即为候选标签集合。

其次，对候选的标签集合进行编号，生成每个标签对应的id。例如标签共5000个，包括“演唱会”、“交通事故”、“体育明星”、“娱乐花边”，赋予id后分别是 1002,3002, 3748,5768

计算推荐度

对每个内容，根据内容的时长、清晰度、上传时间、以及点击数/收藏数等受欢迎指标，对内容进行打分，计算内容推荐度（rec_value）。

保存中间结果

对全量内容库的每一个内容，获取自动标签集合和rec_value，将将该内容的id、各标签id、rec_value保存到Content_Select_Tb和Content_NewSelect_Tb。

所述倒排索引模块3，用以从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中

在倒排索引模块3进行如下的操作：

Inverter模块的主要处理流程

生成倒排索引列表

模块定期读取Content_Select_Tb全量选择数据表和Content_NewSelect_T新增内容选择数据表，选择其中发生变化的内容，取出内容id以及对应的标签id。根据标签id对内容进行合并，生成以标签id为key，对应的内容id列表为value的倒排索引列表。每一个倒排索引列表中的内容按照rec_value由大到小排列，如果倒排索引列表太长，则进行截断，只保留前面的内容。优选地，所有的倒排索引列表保存在Tag_Content_Tb标签内容数据表中。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。

在本实施例中，在倒排索引模块3中采用生成倒排索引列表，至少包括如下的技术效果：

1）处理海量数据：由于搜索引擎面对的是海量数据，像Google，百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量，面对如此海量数据 ,使得数据库系统很难有效的管理。而采用倒排索引列表可以提高数据库中的检索效率。

2）使得数据操作简单：搜索引擎使用的数据操作简单，一般而言，只需要增、删、改、查几个功能，而且数据都有特定的格式采用倒排索引列表以针对这些应用设计出简单高效的应用程序。

计算标签id重要性

根据一个标签id对应的是否是专有名词或分类标签、对应标签的长度、对应的倒排拉链的长度，赋予标签id不同的重要性等级。

标签重要性会根据如下指标来确定：是否专有名词(例如人名、机构名、地名、事件名)is_named_entity, 是否是分类名称（例如“体育”“军事”“娱乐”）is_category_entity，标签长度tag_length，包含该标签的内容数量 tag_content_number来确定。tag_importance = is_named_entity *10 + is_category_entity * 20 + tag_length +total_content_number * 10/(tag_content_number * tag_num)，即：是专有名词或分类标签的重要性得分高，长度长的标签得分高，对应的内容少的标签得分高。

所述推荐结果生成模块4，用以根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表Recommender模块负责为每一个内容生成相关内容列表。

在推荐结果生成模块4中对每一个内容，取出该内容对应的标签id列表，以及这些列表对应的倒排拉链。本模块需要对这些拉链进行合并，并排序，取出前面的结果作为该内容的相关内容。

具体地，合并和排序算法分为两部分，粗算和精算。粗算选出最多200个内容，精算从粗算结果中选出做多50个内容作为推荐结果。

1 粗算

从待推荐内容（即从Content_Origin_Tb表中提取出的一条内容）提取的标签id，查找对应倒排，返回权重最高的200个结果。

对返回的每一个结果，根据与待推荐内容的标签命中情况，计算一个权重。权重的计算方法为命中的标签id的重要性之和。根据权重由高到低，选取前200个结果进入精算阶段。

2 精算

精算阶段考虑更多的特征对内容进行排序。

现在使用了以下几个特征，每个特征的权重都是[0,100]，再对不同类别的特征权重进行加权求和。

最终根据所有内容的得分由高到低，选取前50个内容作为待推荐内容的相关内容列表。

表1

请参考图4是本发明一实施例中基于标签的相关内容推荐方法流程示意图。

本实施例中基于标签的相关内容推荐方法，包括如下步骤：

步骤S101获取全量内容数据和新增内容数据，并分别导入数据库中，所述新增内容数据至少包括：点击内容数据表和增量内容数据表；

步骤S102从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表；

步骤S103从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；

步骤S104根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表。

作为本实施例中的优选，内容推荐方法进一步还包括：根据所述内容推荐列表中的内容，进行相关性打分后由高到低进行排序，输出结果。

作为本实施例中的优选，通过所述增量内容数据表，用以将新内容在推荐列表中更新。

作为本实施例中的优选，按照所述内容标签的id列表为key，对应的内容id列表为value建立倒排索引列表。所述倒排索引列表按照推荐度由大到小排列。

本实施例中的基于标签的相关内容推荐方法，通过采用从数据库中过滤并提取得到内容标签并计算得到内容推荐度，同时将内容标签和内容推荐度分别保存至数据库中全量选择数据表和新增内容选择数据表的方法，可获得标签，去除大量的跟内容不相关的噪音。并且从全量选择数据表和新增内容选择数据表中获取发生变化的内容，并按照内容标签建立倒排索引列表后存入标签内容数据表中；通过建立倒排索引列表提高推荐的效率。

所属领域的普通技术人员应当理解：以上，所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于标签的相关内容推荐系统，其特征在于，包括：数据导入模块、自动标签提取模块、倒排索引模块、推荐结果生成模块，

所述数据导入模块，用以获取全量内容数据和新增内容数据，并分别导入数据库中，所述新增内容数据至少包括：点击内容数据表和增量内容数据表；所述增量内容数据表，用以将新内容在推荐列表中更新；

在所述自动标签提取模中计算得到内容推荐度的方法为：根据每个内容的时长、清晰度、上传时间、点击数以及收藏数的受欢迎指标，对内容进行打分，计算rec_value内容推荐度，

以及还将所述内容的id、各标签id保存至数据库中全量选择数据表和新增内容选择数据表，所述内容id是指在新生成内容时标识内容的唯一编号；

所述自动标签提取模块，还用以生成自动标签的候选集合，并对所述候选集合中的标签集合进行编号，生成每个标签对应的id；

所述推荐结果生成模块，用以根据点击内容数据表中发生点击事件的内容id，更新内容推荐列表；

所述倒排索引模块，定期读取数据库中的全量选择数据表和新增内容选择数据表，用以取出内容id以及对应的标签id，并根据标签id对内容进行合并，生成倒排索引列表；

2.根据权利要求1所述的基于标签的相关内容推荐系统，其特征在于，按照所述内容标签的id列表为key，对应的内容id列表为value建立倒排索引列表。

3.根据权利要求1所述的基于标签的相关内容推荐系统，其特征在于，所述倒排索引列表按照推荐度由大到小排列。

4.根据权利要求1所述的基于标签的相关内容推荐系统，其特征在于，所述倒排索引模块，是专有名词或分类标签的重要性得分高，长度长的标签得分高，对应的内容少的标签得分高。

5.一种基于标签的相关内容推荐方法，其特征在于，用于如权利要求1所述的系统，所述方法包括如下步骤：

6.根据权利要求5所述的基于标签的相关内容推荐方法，其特征在于，进一步还包括：根据所述内容推荐列表中的内容，进行相关性打分后由高到低进行排序，输出结果。