CN111831924A

CN111831924A - 内容推荐方法、装置、设备及可读存储介质

Info

Publication number: CN111831924A
Application number: CN202010685559.8A
Authority: CN
Inventors: 张新宇
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-27

Abstract

本申请公开了一种内容推荐方法、装置、设备及可读存储介质。涉及内容推荐领域。该方法包括：获取内容推荐池以及目标帐号在历史时间段内的历史交互内容，历史交互内容对应有第一标题，内容推荐池中包括第二标题；将第一标题和第二标题输入召回模型，输出得到与第一标题关联的n个第二标题，n为正整数；根据n个第二标题对应的n个第一候选内容，确定向目标帐号进行推荐的目标内容。通过召回模型对内容的标题进行相似度分析，从而根据历史内容从内容推荐池中确定候选内容，并根据候选内容向目标帐号推荐目标内容，由于标题相似度是通过高层语义隐向量确定得到的，提高了相似度的分析准确率，从而进一步提高了内容的推荐准确率。

Description

内容推荐方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及内容推荐领域，特别涉及一种内容推荐方法、装置、设备及可读存储介质。

背景技术

推荐系统应用在对视频、新闻、电商等内容进行推荐的领域，用于向用户推荐用户可能感兴趣的内容。示意性的，用户观看过文章A，则根据文章A向用户推荐与文章A相关的文章B。

相关技术中，在进行内容推荐时，根据内容对应的关键词标签，向用户进行内容推荐，如：文章A识别得到的关键词标签为“下跌”，则当用户对文章A进行点击后，在向用户推荐内容时，推荐被标注为标签“下跌”的内容。

然后，通过上述方式进行内容推荐时，由于通过关键词标签的形式无法理解文章的语义，同一个标签在不同内容中表达的含义不同，却会产生同样的编码，从而导致内容推荐的准确率较低。

发明内容

本申请实施例提供了一种内容推荐方法、装置、设备及可读存储介质，能够提高内容推荐的准确率。所述技术方案如下：

一方面，提供了一种内容推荐方法，所述方法包括：

获取内容推荐池以及目标帐号在历史时间段内的历史交互内容，所述历史交互内容对应有第一标题，所述内容推荐池中包括第二标题，所述第二标题为在当前时间段内用于推荐的候选内容的标题；

将所述第一标题和所述第二标题输入召回模型，输出得到与所述第一标题关联的n个所述第二标题，其中，所述召回模型用于基于标题的语义隐向量对所述标题进行相似度分析，n为正整数；

根据n个所述第二标题对应的n个第一候选内容，确定向所述目标帐号进行推荐的目标内容。

另一方面，提供了一种内容推荐装置，所述装置包括：

获取模块，用于获取内容推荐池以及目标帐号在所述历史时间段内的历史交互内容，所述历史交互内容对应有第一标题，所述内容推荐池中包括第二标题，所述第二标题为在当前时间段内用于推荐的候选内容的标题；

识别模块，用于将所述第一标题和所述第二标题输入召回模型，输出得到与所述第一标题关联的n个所述第二标题，其中，所述召回模型用于基于标题的语义隐向量对所述标题进行相似度分析，n为正整数；

确定模块，用于根据n个所述第二标题对应的n个第一候选内容，确定向所述目标帐号进行推荐的目标内容。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述内容推荐方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的内容推荐方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的内容推荐方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过召回模型对内容的标题进行相似度分析，从而根据历史内容从内容推荐池中确定候选内容，并根据候选内容向目标帐号推荐目标内容，由于标题相似度是通过语义隐向量确定得到的，提高了相似度的分析准确率，从而进一步提高了内容的推荐准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性的实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的内容推荐方法的整体过程示意图；

图3是本申请一个示例性实施例提供的内容推荐方法的流程图；

图4是基于图3示出的实施例提供的BERT模型的结构示意图；

图5是本申请另一个示例性实施例提供的内容推荐方法的流程图；

图6是本申请另一个示例性实施例提供的内容推荐方法的流程图；

图7是基于图6示出的实施例提供的对应关系的存储过程示意图；

图8是本申请一个示例性实施例提供的内容推荐装置的结构框图；

图9是本申请另一个示例性实施例提供的内容推荐装置的结构框图；

图10是本申请一个示例性的实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

内容推荐：是指根据用户信息向用户推荐内容的功能，通常，推荐系统应用在对视频、新闻、电商等内容进行推荐的领域，用于向用户推荐用户可能感兴趣的内容。示意性的，用户观看过导演a导演的电影A，则根据电影A的导演推断用户对导演a的电影感兴趣，则向用户推荐导演a导演的其他电影。相关技术中，在实现内容推荐时，包括如下方式中的至少一种方式：

第一，基于用户(User-based)推荐：也即利用用户之间的相似性，向用户推荐相似用户所喜欢的内容，如：用户A与用户C性别相同，且所处年龄段相同，则将用户C喜欢的内容推荐至用户A；

第二，基于内容(Item-based)推荐：也即，根据已确定的用户感兴趣的内容，预测不确定的用户感兴趣的内容，如：用户A阅读过《天龙八部》，而该小说属于武侠类小说，则向用户A推荐相似的武侠类小说；

第三，基于协同过滤(Collaborative Filtering-based)推荐：是指利用用户相似性，向用户推荐内容，而该方式下，用户相似性通过用户历史阅览内容确定；

第四，基于模型(Model-based)推荐：是指利用机器学习算法进行内容推荐，示意性的，以逻辑回归模型为例，构建影响用户行为的特征属性对应的标签数据，通过标签数据和特征属性拟合得到一个函数，并得到每个特征属性的权重，基于特征属性对未知的用户和内容的内容关系进行打分，分数与用户对内容的感兴趣程度呈正相关。

支持变形双向编码(Bidirectional Encoder Representations fromTransformers，BERT)模型：是一种预训练模型，使用Transformer作为算法的主要框架，能够捕捉语句中的双向关系；使用更强大的机器训练更大规模的数据，BERT本质上是通过在海量语料的基础上运行自监督学习方法，为单词学习特征表示，其中自监督学习是指在没有人工标注的数据上运行的监督学习。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

结合上述名词简介，对本申请实施例的应用场景进行举例说明：

第一，在新闻阅读应用程序中，将历史时间段的历史新闻置于历史内容池，将当前待推荐的候选新闻置于内容推荐池，根据历史内容池中内容的第一标题，从内容推荐池中确定与第一标题相似的n个第二标题，当用户在新闻阅读界面中以瀑布流的形式刷新新闻内容时，根据用户帐号在历史时间段的历史阅览内容，确定历史阅览内容的第一标题所对应的n个第二标题，并根据n个第二标题对应的候选内容确定向用户帐号推荐的目标新闻内容；

其中，上述新闻推荐可以实现在如上所述的新闻阅读应用程序中，也可以应用于其他应用程序中的新闻阅读版块，如：即时通讯应用程序、浏览器、游戏、工具类应用程序等，本申请实施例对此不加以限定。

第二，在视频播放应用程序中，将历史时间段的历史视频置于历史内容池，将当前待推荐的候选视频置于内容推荐池，根据历史内容池中视频的第一标题，从内容推荐池中确定与第一标题相似的n个第二标题，在用户观看视频的过程中，或者用户观看结束一个视频后，向用户进行视频内容推荐。可选地，根据用户帐号在历史时间段的历史播放内容，确定历史播放内容的第一标题所对应的n个第二标题，并根据n个第二标题对应的候选内容确定向用户帐号推荐的目标视频内容。其中，该视频播放应用程序可以实现普通视频播放程序，用于播放用户生成内容(User Generated Content，UGC)、电影、电视剧、综艺等视频内容，也可以实现为小视频应用程序，其中，小视频通常是指视频长度小于预设时长，且通过指定小视频应用程序生成的视频内容。

上述两种应用场景仅为本申请示意性的举例，本申请实施例提供的内容推荐方法还可以应用于其他通过召回模型对标题相似度进行确定，从而确定目标推荐内容的方案中，本申请实施例对此不加以限定。

值得注意的是，本申请实施例提供的内容推荐方法，可以由终端实现，也可以由服务器实现，还可以由终端和服务器协同实现。其中，终端包括智能手机、平板电脑、便携式膝上笔记本电脑、台式计算机、智能音箱、智能可穿戴设备等终端中的至少一种，服务器可以是物理服务器，也可以是提供云计算服务的云服务器，且服务器可以实现为一台服务器，也可以是多个服务器构成的服务器集群或分布式系统。其中，当终端和服务器协同实现本申请实施例提供的方案时，终端和服务器可以通过有线或无线通信方式进行直接或间接连接，本申请实施例对此不加以限定。

请参考图1，其示出了本申请一个示例性实施例提供的实施环境示意图，如图1所示，该实施环境中包括终端110、服务器120，终端110和服务器120之间通过通信网络130连接；

其中，终端110中安装有内容阅览程序，且内容阅览程序中登录有目标帐号。该内容阅览程序可以实现为视频播放程序、电子书阅读程序、即时通讯应用程序、浏览器、游戏、工具类应用程序等，本申请实施例对此不加以限定。终端110将目标帐号的帐号信息(如：帐号标识、兴趣标签、基本信息等)通过通信网络130上传至服务器120中进行存储，以及终端110将目标帐号在内容阅览过程中产生的阅览数据上传至服务器120中，存储得到目标帐号的历史阅览记录、历史点击记录、历史停留记录等历史交互内容。

服务器120可以根据终端110发送的内容推荐请求，生成与目标帐号对应的推荐内容，并将推荐内容反馈至终端110；或，服务器120每隔预设时长生成推荐内容，并向终端110发送推荐内容；或，服务器120根据终端中内容的刷新数量，在向终端110刷新预设数量的内容A后，生成推荐内容B，并向终端110发送该推荐内容B。

服务器120中包括内容推荐池121，内容推荐池121中存储有用于推荐的候选内容，在生成目标帐号的推荐内容时，根据目标帐号的历史交互内容的标题从内容推荐池121中预测得到目标内容向目标帐号推荐。

值得注意的是，上述通信网络130可以实现为有线网络，也可以实现为无线网络，且通信网络130可以实现为局域网、城域网或广域网中的任意一种，本申请实施例对此不加以限定。

示意性的，请参考图2，其示出了本申请一个示例性实施例提供的内容推荐方法的整体过程示意图，如图2所示，该过程中应用推荐系统200进行内容推荐。当本申请实施例提供的内容推荐方法由服务器作为执行主体执行实现时，推荐系统200实现为服务器中安装的程序，其中，服务器可以从已存储的数据中获取用户数据(如：阅览数据、个人信息等)，也可以接收终端通过已安装的客户端上传的用户数据，从而生成向用户进行推荐的推荐内容。

推荐系统200中包括召回模块210、排序模块220以及重排模块230；

其中，召回模块210包括第一召回子模块211和第二召回模块212；第一召回子模块211用于通过BERT模型对历史内容的第一标题和候选内容的第二标题进行相似度分析，从而确定与第一标题相似度最高的n个第二标题，并将n个第二标题对应的候选内容作为第一召回子模块211的召回内容；第二召回子模块212用于通过与第一召回子模块211不同的其他召回方式确定向目标帐号推荐的内容，其中，其他召回方式包括基于点击行为的协同过滤方式、基于文章内容的协同过滤方式等。

召回模块210结合用户帐号的画像数据240(如：帐号标识、兴趣标签、基本信息等)，确定向用户帐号推荐的候选内容。

排序模块220用于结合画像数据240对召回模块210所召回的候选内容进行点击率预测，排序模块220还用于根据用户帐号的终端所处的环境信息(如：网络环境、地理位置环境等)对候选内容进行点击率预测，并根据点击率预测结果对候选内容进行排序。

重排模块230用于基于预设多样性要求，对排序结果进行重新整理排序，如：排序模块220中得到的排序结果中，前10个候选内容中包括7个与类别A对应的内容，则从7个类别A的内容中随机确定4个内容在排序中后置。

重排模块230对排序结果进行重排后，基于重排结果向用户帐号依次进行内容推荐，而用户在阅读或点击内容后，将行为数据上报至服务器中，从而确定用户帐号的历史交互内容，并根据历史交互内容确定第一召回子模块211中与历史交互内容的标题相似度较高的候选内容。

结合上述名词简介以及应用场景，对本申请实施例提供的内容推荐方法进行说明，以由服务器执行以完成该方法为例进行说明，如图3所示，该方法包括：

步骤301，获取内容推荐池以及目标帐号在历史时间段内的历史交互内容，历史交互内容对应有第一标题，内容推荐池中包括第二标题。

第二标题为当前时间段用于推荐的候选内容的标题。

历史交互内容用于指示根据目标帐号在历史时间段的行为数据确定的历史内容。示意性的，历史交互内容用于指示用户帐号在历史时间段中的点击的内容、用户帐号在历史时间段中阅览的内容、用户帐号在历史时间段中在阅览界面中停留达到要求时长的内容中的至少一种。

历史交互内容对应有第一标题，候选内容对应有第二标题，如：当历史交互内容和候选内容为新闻内容时，则新闻内容对应有新闻标题；当历史交互内容和候选内容为视频内容时，则视频内容对应有视频标题。

可选地，历史交互内容和候选内容为同类型的内容，如：历史交互内容和候选内容皆为新闻内容；或，历史交互内容和候选内容为不同类型的内容，如：历史交互内容为新闻内容，而候选内容为视频内容，则通过目标帐号历史交互的新闻内容，向目标帐号推荐标题相似度高的视频内容。

可选地，在获取内容推荐池和历史交互内容时，包括如下情况中的任意一种：

第一，每隔预设时长更新获取内容推荐池和总内容池，如：每隔一小时更新内容推荐池和总内容池，其中，总内容池中包括历史交互内容的第一标题和内容推荐池中的第二标题，总内容池中还包括历史时间段中其他历史内容的标题；

可选地，历史内容为历史时间段内服务器中生成的，和/或，与各个用户帐号之间存在交互的内容。

第二，每隔预设时长更新获取内容推荐池和历史内容池，如：每隔一小时更新内容推荐池和历史内容池，其中，历史内容池包括历史时间段内历史内容的标题，内容推荐池包括当前时间段用于推荐的候选内容的第二标题；

历史内容包括目标帐号的历史交互内容，且历史内容还包括与目标帐号无关的其他内容。

第三，当目标帐号需要进行内容推荐时，获取目标帐号的历史交互内容，以及获取内容推荐池，并根据历史交互内容的第一标题，以及内容推荐池中内容的第二标题，向目标帐号推荐内容。

本实施例中，以获取总内容池和内容推荐池为例进行说明，示意性的，服务器获取距离当前时刻一个月以内的内容作为总内容池中的内容(含有已过期的内容)，其中，总内容池中包括历史交互内容对应的第一标题和候选内容的第二标题；服务器获取当前有效的，能够向用户帐号推荐的内容作为内容推荐池中的内容，内容推荐池中的候选内容对应有第二标题。

步骤302，将第一标题和第二标题输入召回模型，输出得到与第一标题关联的n个第二标题，n为正整数。

其中，召回模型用于基于标题的语义隐向量对标题进行相似度分析，可选地，基于高层语义隐向量进行相似度分析，且高层语义向量用于指示要求层数范围内的语义向量。

将第一标题和第二标题输入召回模型后，通过召回模型提取第一标题的第一语义隐向量和第二标题的第二语义隐向量，对第一语义隐向量和第二语义隐向量进行相似度分析，输出得到与第一标题相似度最高的n个第二标题。

其中，第一语义隐向量为第一标题的高层语义隐向量，第二语义隐向量为第二标题的高层语义隐向量。

该召回模型采用预训练的BERT模型作为隐向量的提取模型，BERT使用了海量语料进行预训练。BERT包含了12层变形隐层transformer层，利于提取输入句子中各词汇间的综合特征，同时使用高层隐向量避免了词向量word2vec方法单个单词仅有一个向量表示的劣势。

通过召回模型提取第一标题的第一字向量、第一段向量和第一位置向量；将第一字向量、第一段向量和第一位置向量通过至少两层变形隐层进行语义提取，得到第一语义隐向量；通过召回模型提取第二标题的第二字向量、第二段向量和第二位置向量；将第二字向量、第二段向量和第二位置向量通过至少两层变形隐层进行语义提取，得到第二语义隐向量。其中，第一语义隐向量和第二语义隐向量，作为总内容池中的内容通过召回模型进行提取，并在提取后，通过内容推荐池中的第二标题进行第一语义隐向量和第二语义隐向量的区别。

示意性的，以第一标题“谁说戴口罩不能刷脸，能”为例进行说明，请参考图4，BERT中包括12层变形隐层transformer层，且每一个transformer层会基于上一层的信息进行基于注意力attention机制的学习转化，如图4所示，在使用过程中，将第一标题输入BERT模型，同时在句首增加[CLS]标记，在句尾加上[SEP]标记，用于标记标题的内容范围，BERT模型会从标题中提取对应的字向量410、段向量420和位置向量430，接着经过transformer层的语义隐向量提取。结合经验，采用BERT中倒数第二层(也即第11层)transformer层第一个位置的隐向量440作为代表第一标题语义的隐向量，可选地，隐向量的维度采用BERT的通用设置，也即768维。

结合上述图4所示的BERT模型的结构示意图，对BERT模型的预训练过程进行说明。在预训练过程中，输入为原始的句子，在单词序列输入至BERT模型之前，每个序列中有一定比例的单词被[MASK]标记替代，如：每个序列中15％的单次被[MASK]标记替代。模型接收成对的句子作为输入语料，包括第一句子和第二句子，并且预测其中第二句子是否在原始文档中为第一句子的后续句子，其中，50％的输入语料在原始文档中为真实上下文关系，另外50％为随机选择的两句句子。因此最终输入的内容为包含单次序列，且包含[MASK]标记的句子，句子开头通过[CLS]标记，句子的中断通过[SEP]标记。训练的目标是学习被[MASK]标记的词向量和上下文关系。预训练需要大量的计算资源在大量的语料上进行长时间训练，但是预训练好的模型可以很容易的迁移到其他的任务中。

当服务器每隔预设时长更新获取内容推荐池和总内容池，并根据总内容池中的标题，与内容推荐池中的第二标题进行关联匹配时，将总内容池中的内容的第一标题与第二标题进行匹配，并得到每个内容对应的候选内容，在数据库中存储内容与对应的n个候选内容的对应关系。示意性的，将内容与其对应相似度最高的50个候选内容之间的对应关系存储至Redis数据库中。

步骤303，根据n个第二标题对应的第一候选内容，确定向目标帐号进行推荐的目标内容。

可选地，根据n个第一候选内容确定目标内容时，包括如下方式中的任意一种：

第一，从n个第一候选内容中随机确定顺序向目标帐号推荐；

第二，对n个第一候选内容进行点击率预测，并根据点击率预测结果对n个第一候选内容进行排序，根据排序结果向目标帐号依次进行推荐；

第三，对n个第一候选内容进行点击率预测，并根据点击率预测结果对n个第一候选内容进行排序，结合预设多样性要求对排序结果进行重排序，并根据重排序结果向目标帐号依次进行推荐；

第四，获取目标帐号对应的m个第二候选内容，m为正整数，第二候选内容为根据其他召回方式从内容推荐池中获取的候选内容，如：基于点击行为的协同过滤方式、基于文本内容的协同过滤方式等，从n个第一候选内容和m个第二候选内容中随机确定顺序向目标帐号推荐；

第五，对n个第一候选内容和m个第二候选内容进行点击率预测，并根据点击率预测结果对n个第一候选内容和m个第二候选内容进行排序，根据排序结果向目标帐号依次进行推荐；

第六，对n个第一候选内容和m个第二候选内容进行点击率预测，并根据点击率预测结果对n个第一候选内容和m个第二候选内容进行排序，结合预设多样性要求对排序结果进行重排序，并根据重排序结果向目标帐号依次进行推荐。

值得注意的是，上述方式仅为根据n个第一候选内容确定目标内容的示意性举例，本申请实施例对确定目标内容的方式不加以限定。

可选地，向目标帐号推荐的内容中，还包括其他内容，如：热门内容、热评内容等。

综上所述，本申请实施例提供的内容推荐方法，通过召回模型对内容的标题进行相似度分析，从而根据历史内容从内容推荐池中确定候选内容，并根据候选内容向目标帐号推荐目标内容，由于标题相似度是通过高层语义隐向量确定得到的，提高了相似度的分析准确率，从而进一步提高了内容的推荐准确率。

本实施例提供的方法，提取了标题的高层隐向量来代表内容，这使得内容的语义具有较好的区分性和稳定性，相异于小语料训练，能够挖掘不到的更加丰富的语义信息，提高内容的推荐准确率。

在一个可选的实施例中，除了通过上述BERT模型协同过滤得到的第一候选内容外，召回模块还通过其他召回方式得到第二候选内容，图5是本申请另一个示例性实施例提供的内容推荐方法的流程图，以该方法应用于服务器中为例进行说明，如图5所示，该方法包括：

步骤501，获取内容推荐池以及目标帐号在历史时间段内的历史交互内容，历史交互内容对应有第一标题，内容推荐池中包括第二标题。

第二标题为当前时间段用于推荐的候选内容的标题。

历史交互内容用于指示根据目标帐号在历史时间段的行为数据确定的历史内容。

历史交互内容对应有第一标题，候选内容对应有第二标题。

步骤502，将第一标题和第二标题输入召回模型，输出得到与第一标题关联的n个第二标题，n为正整数。

其中，召回模型用于基于标题的高层语义隐向量对标题进行相似度分析，且高层语义向量用于指示要求层数范围内的语义向量。

服务器在获取历史交互内容时，通过获取总内容池对历史交互内容进行获取，其中，总内容池中包括历史内容和候选内容，历史内容中包括目标帐号的历史交互内容，每个内容分别对应有标题，对每个标题从内容推荐池中确定相似度最高的n个第二标题(其中，n个第二标题中排出该标题本身)，并确定与其对应的n个第二标题的n个候选内容，将内容与n个候选内容的对应关系存储至数据库中，如：存储至Redis数据库中。可选地，总内容池的内容数据在百万级别，内容推荐池的数据在十万级别，通过内积计算标题的相似性。然而，相似性计算的运算量较为庞大，为了加速相似性计算的速度，通过faiss技术为当前有效内容的编码进行了向量索引建立。这使得总内容池进行内容搜索时，不用遍历所有当前有效内容的向量。这使得内容的相似性计算大大加速。每间隔一定时间(一般为1小时)，从线上拉取最近1小时更新的内容，同时更新内容池编码。更新编码后，内容的相似性将会再次运算，同时更新Redis数据库。其中，上述编码也即语义隐向量。

步骤503，确定n个第二标题对应的n个第一候选内容。

每个第二标题对应内容推荐池中的一个候选内容，故，根据n个第二标题从内容推荐池中确定n个对应的第一候选内容。

步骤504，获取目标帐号对应的m个第二候选内容，第二候选内容为基于其他召回方式从内容推荐池中获取的候选内容，m为正整数。

可选地，其他召回方式包括基于点击行为的协同过滤方式、基于文本内容的协同过滤方式中的至少一种。

基于点击行为的协同过滤方式是指以用户帐号的点击行为数据为基础，为相似的用户推荐相似的内容，或者推荐用户已阅览的内容的相似内容。

基于文本内容的协同过滤方式是指以内容的标签为基础，对标签进行矩阵分解或者词向量训练，挖掘内容间的相似关系。

上述两种方式仅为示意性的举例，还可以通过User-based推荐、Item-based推荐、Collaborative Filtering-based推荐、Model-based推荐等其他推荐方式确定m个第二候选内容。

步骤505，从n个第一候选内容和m个第二候选内容中确定向目标帐号进行推荐的目标内容。

对n个第一候选内容和m个第二候选内容进行点击率预测，得到预测结果，根据预测结果对n个第一候选内容和m个第二候选内容进行排序，得到第一排序结果，根据第一排序结果向目标帐号推荐目标内容。

对第一候选内容和第二候选内容进行排序后，易导致较相似的候选内容聚集在排序的前方或者后方的情况，如：分类为“地区热点”的15个新闻分布在排序前20以内，导致用户连续刷新到相似的内容，故，在获取第一排序结果后，将按序排列的n个第一候选内容和m个第二候选内容，基于预设多样性要求进行二次排序，得到第二排序结果，从而从第二排序结果中按序向目标帐号推荐目标内容。

在对n个第一候选内容和m个第二候选内容进行点击率预测时，首先获取目标帐号的画像数据和环境数据，其中，画像数据中包括目标帐号的静态个性化数据和动态行为数据，获取第一候选内容和第二候选内容的内容特征数据，根据画像数据、环境数据和内容特征数据对n个第一候选内容和m个第二候选内容进行点击率预测。

其中，静态个性化数据包括目标帐号的帐号标识、兴趣标签、基本信息等数据，环境数据包括目标帐号登录终端的网络环境数据、地理位置数据等。内容特征数据包括候选内容对应的分类数据、标签数据等。

本实施例提供的方法，通过BERT模型确定n个第一候选内容，并通过其他召回方式确定m个第二候选内容，从而在n个第一候选内容和m个候选内容中确定向目标帐号进行推荐的目标内容，在确保目标内容的多样性的基础上，提高了内容推荐的准确率。

在一个可选的实施例中，在获取历史交互内容时，直接通过对历史内容池进行获取实现，图6是本申请另一个示例性实施立提供的内容推荐方法的流程图，以该方法应用于服务器中为例进行说明，如图6所示，该方法包括：

步骤601，获取内容推荐池和总内容池，总内容池中包括历史时间段内历史内容的标题和内容推荐池中的第二标题。

内容推荐池中包括在当前时间段内用于推荐的候选内容的第二标题。

总内容池中包括历史时刻至当前时刻之间更新的所有内容，其中包括已过期的历史内容，和待推荐的候选内容。其中，历史交互内容可以属于历史内容，也可以属于候选内容，本实施例中，以历史交互内容属于历史内容为例进行说明。

步骤602，通过召回模型提取总内容池中标题的总语义隐向量。

其中，召回模型用于基于标题的高层语义隐向量对标题进行相似度分析，且高层语义向量用于指示要求层数范围内的语义向量，n为正整数。

将总内容池中的标题输入召回模型后，通过召回模型提取标题的总语义隐向量，其中包括第一标题的第一语义隐向量和第二标题的第二语义隐向量。总语义隐向量中还包括其他历史内容的语义隐向量。

步骤603，根据内容推荐池中的第二标题，从总语义向量中确定第二语义隐向量。

总内容池中包括历史内容和候选内容，其中，历史内容中包括已过期，并不再向用户帐号进行推荐的内容，而候选内容为有效的能够向用户帐号推荐的内容。总语义隐向量中包括历史交互内容的第一标题所对应的第一语义隐向量，以及候选内容的第二标题对应的第二语义隐向量。根据第二标题，从总语义隐向量中确定出第二语义隐向量。

步骤604，对第一语义隐向量和第二语义隐向量进行相似度分析，输出得到与第一标题相似度最高的n个第二标题。

可选地，对第一语义隐向量和第二语义隐向量进行相似度分析的方式包括：余弦相似度计算公式、欧氏距离计算公式等。

步骤605，将总内容池中的标题，与对应的n个第二标题之间的对应关系存储至远程字典服务数据库。

将历史内容池中每个第一标题与其对应的n个第二标题之间的对应关系存储至Redis数据库中，且该数据库每隔预设时长进行一次更新，如：每隔一小时进行一次更新。

示意性的，对应关系的存储过程请参考如图7所示，获取总内容池710(含过期内容)中内容的标题数据720，并通过BERT提取得到总标题隐向量730，根据内容推荐池740，从总标题隐向量730中提取有效隐向量731，基于总标题隐向量730和有效隐向量731对每一个位于总内容池710的内容在当前可用的内容推荐池740中寻找相似内容关系741，并将其存入Redis750备用。

步骤606，确定历史交互内容对应的n个第一候选内容。

步骤607，根据n个第一候选内容，确定向目标帐号进行推荐的目标内容。

本实施例提供的方法，通过获取总内容池，在确定推荐内容时，针对总内容池中的候选内容进行整体内容与候选内容之间的相似度确定，从而获取向目标帐号推荐的候选内容，以总内容池为更新池，提高了更新效率和推荐效率。

图8是本申请一个示例性实施例提供的内容推荐装置的结构框图，如图8所示，该装置包括：

获取模块810，用于获取内容推荐池以及目标帐号在所述历史时间段内的历史交互内容，所述历史交互内容对应有第一标题，所述内容推荐池中包括第二标题，所述第二标题为在当前时间段内用于推荐的候选内容的标题；

识别模块820，用于将所述第一标题和所述第二标题输入召回模型，输出得到与所述第一标题关联的n个所述第二标题，其中，所述召回模型用于基于标题的语义隐向量对所述标题进行相似度分析，n为正整数；

确定模块830，用于根据n个所述第二标题对应的n个第一候选内容，确定向所述目标帐号进行推荐的目标内容。

在一个可选的实施例中，如图9所示，所述识别模块820，包括：

提取单元821，用于通过所述召回模型提取所述第一标题的第一语义隐向量和所述第二标题的第二语义隐向量；

分析单元822，用于对所述第一语义隐向量和所述第二语义隐向量进行相似度分析，输出得到与所述第一标题相似度最高的n个所述第二标题。

在一个可选的实施例中，所述提取单元821，具体用于通过所述召回模型提取所述第一标题的第一字向量、第一段向量和第一位置向量；将所述第一字向量、所述第一段向量和所述第一位置向量通过至少两层变形隐层进行语义提取，得到所述第一语义隐向量；

所述提取单元821，具体用于通过所述召回模型提取所述第二标题的第二字向量、第二段向量和第二位置向量；将所述第二字向量、所述第二段向量和所述第二位置向量通过至少两层所述变形隐层进行语义提取，得到所述第二语义隐向量。

在一个可选的实施例中，所述确定模块830，具体用于确定所述n个所述第二标题对应的n个所述第一候选内容；

所述获取模块810，还用于获取所述目标帐号对应的m个第二候选内容，所述第二候选内容为基于其他召回方式从所述内容推荐池中获取的候选内容，m为正整数，所述其他召回方式包括基于点击行为的协同过滤方式、基于文本内容的协同过滤方式中的至少一种；

所述确定模块830，具体用于从n个所述第一候选内容和m个所述第二候选内容中确定向所述目标帐号进行推荐的所述目标内容。

在一个可选的实施例中，所述确定模块830，包括：

预测单元831，用于对n个所述第一候选内容和m个所述第二候选内容进行点击率预测，得到预测结果；

排序单元832，用于根据所述预测结果对n个所述第一候选内容和m个所述第二候选内容进行排序，得到第一排序结果；

推荐单元833，用于根据所述第一排序结果向所述目标帐号推荐所述目标内容。

在一个可选的实施例中，所述排序单元832，还用于将按序排列的n个所述第一候选内容和m个所述第二候选内容，基于预设多样性要求进行二次排序，得到第二排序结果；

所述推荐单元833，还用于从所述第二排序结果中按序向所述目标帐号推荐所述目标内容。

在一个可选的实施例中，所述获取模块810，还用于获取所述目标帐号的画像数据和环境数据，所述画像数据中包括所述目标帐号的静态个性化数据和动态行为数据；获取所述第一候选内容和所述第二候选内容的内容特征数据；

所述预测单元831，还用于根据所述画像数据、所述环境数据和所述内容特征数据对n个所述第一候选内容和m个所述第二候选内容进行点击率预测。

在一个可选的实施例中，所述获取模块810，具体用于获取所述内容推荐池和总内容池，所述总内容池中包括所述历史时间段内历史内容的标题和所述内容推荐池中的所述第二标题，所述历史内容中包括所述目标帐号的历史交互内容；

所述提取单元821，具体用于通过所述召回模型提取所述总内容池中标题的总语义隐向量，所述总语义隐向量中包括所述第一标题的所述第一语义隐向量；根据所述内容推荐池中的所述第二标题，从所述总语义隐向量中确定所述第二语义隐向量。

在一个可选的实施例中，所述装置，还包括：

存储模块840，用于将所述总内容池中的标题，与对应的n个所述第二标题之间的对应关系存储至远程字典服务数据库。

综上所述，本申请实施例提供的内容推荐装置，通过召回模型对内容的标题进行相似度分析，从而根据历史内容从内容推荐池中确定候选内容，并根据候选内容向目标帐号推荐目标内容，由于标题相似度是通过高层语义隐向量确定得到的，提高了相似度的分析准确率，从而进一步提高了内容的推荐准确率。

需要说明的是：上述实施例提供的内容推荐装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的内容推荐装置与内容推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲：

服务器1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read Only Memory，ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。服务器1000还包括用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1006。

大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1006及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，大容量存储设备1006可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。

根据本申请的各种实施例，服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的内容推荐方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的内容推荐方法。

本申请的实施例还提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的内容推荐方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种内容推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述第一标题和所述第二标题输入召回模型，输出得到与所述第一标题关联的n个第二标题，包括：

通过所述召回模型提取所述第一标题的第一语义隐向量和所述第二标题的第二语义隐向量；

对所述第一语义隐向量和所述第二语义隐向量进行相似度分析，输出得到与所述第一标题相似度最高的n个所述第二标题。

3.根据权利要求2所述的方法，其特征在于，所述通过所述召回模型提取所述第一标题的第一语义隐向量和所述第二标题的第二语义隐向量，包括：

通过所述召回模型提取所述第一标题的第一字向量、第一段向量和第一位置向量；将所述第一字向量、所述第一段向量和所述第一位置向量通过至少两层变形隐层进行语义提取，得到所述第一语义隐向量；

通过所述召回模型提取所述第二标题的第二字向量、第二段向量和第二位置向量；将所述第二字向量、所述第二段向量和所述第二位置向量通过至少两层所述变形隐层进行语义提取，得到所述第二语义隐向量。

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据n个所述第二标题对应的n个第一候选内容，确定向所述目标帐号进行推荐的目标内容，包括：

确定所述n个所述第二标题对应的n个所述第一候选内容；

获取所述目标帐号对应的m个第二候选内容，所述第二候选内容为基于其他召回方式从所述内容推荐池中获取的候选内容，m为正整数，所述其他召回方式包括基于点击行为的协同过滤方式、基于文本内容的协同过滤方式中的至少一种；

从n个所述第一候选内容和m个所述第二候选内容中确定向所述目标帐号进行推荐的所述目标内容。

5.根据权利要求4所述的方法，其特征在于，所述从n个所述第一候选内容和m个所述第二候选内容中确定向所述目标帐号进行推荐的所述目标内容，包括：

对n个所述第一候选内容和m个所述第二候选内容进行点击率预测，得到预测结果；

根据所述预测结果对n个所述第一候选内容和m个所述第二候选内容进行排序，得到第一排序结果；

根据所述第一排序结果向所述目标帐号推荐所述目标内容。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一排序结果向所述目标帐号推荐所述目标内容，包括：

将按序排列的n个所述第一候选内容和m个所述第二候选内容，基于预设多样性要求进行二次排序，得到第二排序结果；

从所述第二排序结果中按序向所述目标帐号推荐所述目标内容。

7.根据权利要求5所述的方法，其特征在于，所述对n个所述第一候选内容和m个所述第二候选内容进行点击率预测，得到预测结果，包括：

获取所述目标帐号的画像数据和环境数据，所述画像数据中包括所述目标帐号的静态个性化数据和动态行为数据；

获取所述第一候选内容和所述第二候选内容的内容特征数据；

根据所述画像数据、所述环境数据和所述内容特征数据对n个所述第一候选内容和m个所述第二候选内容进行点击率预测。

8.根据权利要求2至4任一所述的方法，其特征在于，所述获取内容推荐池以及目标帐号在所述历史时间段内的历史交互内容，包括：

获取所述内容推荐池和总内容池，所述总内容池中包括所述历史时间段内历史内容的标题和所述内容推荐池中的所述第二标题，所述历史内容中包括所述目标帐号的历史交互内容；

所述通过所述召回模型提取所述第一标题的第一语义隐向量和所述第二标题的第二语义隐向量，包括：

通过所述召回模型提取所述总内容池中标题的总语义隐向量，所述总语义隐向量中包括所述第一标题的所述第一语义隐向量；

根据所述内容推荐池中的所述第二标题，从所述总语义隐向量中确定所述第二语义隐向量。

9.根据权利要求8所述的方法，其特征在于，所述输出得到与所述第一标题相似度最高的n个所述第二标题之后，还包括：

将所述总内容池中的标题，与对应的n个所述第二标题之间的对应关系存储至远程字典服务数据库。

10.一种内容推荐装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述识别模块，包括：

提取单元，用于通过所述召回模型提取所述第一标题的第一语义隐向量和所述第二标题的第二语义隐向量；

分析单元，用于对所述第一语义隐向量和所述第二语义隐向量进行相似度分析，输出得到与所述第一标题相似度最高的n个所述第二标题。

12.根据权利要求11所述的装置，其特征在于，所述提取单元，具体用于通过所述召回模型提取所述第一标题的第一字向量、第一段向量和第一位置向量；将所述第一字向量、所述第一段向量和所述第一位置向量通过至少两层变形隐层进行语义提取，得到所述第一语义隐向量；

所述提取单元，具体用于通过所述召回模型提取所述第二标题的第二字向量、第二段向量和第二位置向量；将所述第二字向量、所述第二段向量和所述第二位置向量通过至少两层所述变形隐层进行语义提取，得到所述第二语义隐向量。

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的内容推荐方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的内容推荐方法。