CN117056537A

CN117056537A - 内容推荐方法、装置、计算机设备、存储介质和产品

Info

Publication number: CN117056537A
Application number: CN202210964001.2A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2023-11-14

Abstract

本申请实施例公开了一种内容推荐方法、装置、计算机设备、存储介质和产品，通过获取样本集合并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；基于每个内容样本的第一子内容，以及样本集合中内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同；根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型对待分发内容进行内容推荐，可以提高内容特征提取模型的特征提取能力，进而提高内容推荐的准确性。

Description

内容推荐方法、装置、计算机设备、存储介质和产品

技术领域

本申请涉及通信技术领域，具体涉及一种内容推荐方法、装置、计算机设备、存储介质和产品，其中，存储介质为计算机可读存储介质，产品为计算机程序产品。

背景技术

在互联网快速发展的时代，每时每刻会有需要的内容产生，然而内容的质量参差不齐，若无法向用户推荐其所感兴趣的优质内容，会导致用户无法及时获取内容信息，对于优质内容的定义为短时间内很多人点击并且播放等，及时对优质内容进行预测，可以提高内容推荐准确度。

目前对于优质内容的判断主要是运营人员的工作经验，或者是监测互联网上相似内容平台的热门内容榜单，根据其他内容平台的热门内容榜单确定相关的优质内容并进行内容推送，导致内容推荐不准确。

发明内容

本申请实施例提供一种内容推荐方法、装置、计算机设备、存储介质和产品，可以提高内容推荐准确性。

本申请实施例提供的一种内容推荐方法，包括：

获取样本集合，并对所述样本集中的每个内容样本进行多模态子内容提取，得到所述内容样本的多个模态不同的子内容；

基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；

基于每个内容样本的第一子内容，以及所述样本集合中，所述内容样本的互异内容样本的互异第二子内容，生成对齐负样本，所述互异第二子内容与所述第二子内容的模态相同；

根据所述对齐正样本和所述对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过所述训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

相应的，本申请实施例还提供的一种内容推荐装置，包括：

获取单元，用于获取样本集合，并对所述样本集中的每个内容样本进行多模态子内容提取，得到所述内容样本的多个模态不同的子内容；

正样本生成单元，用于基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；

负样本生成单元，用于基于每个内容样本的第一子内容，以及所述样本集合中，所述内容样本的互异内容样本的互异第二子内容，生成对齐负样本，所述互异第二子内容与所述第二子内容的模态相同；

训练单元，用于根据所述对齐正样本和所述对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过所述训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

在一实施例中，所述正样本生成单元，包括：

第一正样本生成子单元，用于基于每个内容样本中的视频内容和音频内容生成第一对齐正样本；

第二正样本生成子单元，用于基于每个内容样本中的文本内容和音频内容生成第二对齐正样本；

第三正样本生成子单元，用于根据每个内容样本对应的第一对齐正样本和第二对齐正样本，生成所述对齐正样本。

在一实施例中，所述训练单元，包括：

掩码子单元，用于分别对所述对齐正样本和所述对齐负样本进行掩码处理，得到掩码后正样本和掩码后负样本；

第一模型训练子单元，用于根据所述掩码后正样本和所述掩码后负样本对内容特征提取模型进行训练。

在一实施例中，所述训练单元，包括：

相似度计算子单元，用于基于所述内容样本的目标模态子内容与所述互异内容样本的目标模态子内容，计算所述内容样本与所述互异内容样本之间的相似度；

权重计算子单元，用于根据所述相似度计算所述对齐负样本对应的负样本权重，所述相似度与所述样本权重呈负相关；

第二模型训练子单元，用于根据所述对齐正样本、所述对齐负样本以及所述负样本权重对所述内容特征提取模型进行训练。

在一实施例中，所述内容推荐装置还包括：

数据获取单元，用于获取待分发内容，以及所述待分发内容的内容互动数据和内容发布对象；

拟合单元，用于对所述内容互动数据进行趋势拟合，得到所述待分发内容的互动趋势特征信息；

内容特征提取单元，用于对所述待分发内容中的多模态内容进行内容特征提取，得到所述待分发内容的多模态内容特征信息；

对象特征提取单元，用于基于所述内容发布对象的对象数据，对所述内容发布对象进行对象特征提取，得到所述内容发布对象的对象特征信息；

融合单元，用于将所述互动趋势特征信息、所述多模态内容特征信息和所述对象特征信息进行特征融合处理，得到所述待分发内容的融合后内容特征信息；

推荐单元，用于根据所述融合后内容特征信息，对所述待分发内容进行内容推荐。

在一实施例中，所述内容特征提取单元，包括：

内容提取子单元，用于对所述待分发内容中进行内容提取，得到所述待分发内容中包含的不同模态的子内容；

特征提取子单元，用于分别对不同模态的子内容进行内容特征提取，得到每个所述子内容的内容特征信息；

信息确定子单元，用于根据每个子内容的内容特征信息得到所述待分发内容的多模态内容特征信息。

在一实施例中，所述子内容包括视频子内容，所述特征提取子单元，包括：

抽帧模块，用于对所述视频子内容进行抽帧处理，得到多帧视频子内容帧；

图像特征提取模块，用于对每帧内容视频帧进行图像特征提取，得到每帧内容视频帧对应的图像特征信息；

特征聚合模块，用于将每帧所述内容视频帧对应的图像特征信息进行特征聚合，得到所述视频子内容的内容特征信息。

在一实施例中，所述子内容包含音频子内容，所述特征提取子单元，包括：

获取内容模块，用于获取所述待分发内容的音频子内容；

预处理模块，用于对所述音频子内容进行音频预处理，得到所述音频子内容的音频频谱信息；

音频特征提取模块，用于对所述音频频谱信息进行音频特征提取，得到所述音频子内容的内容特征信息。

在一实施例中，所述子内容包括文本子内容、视频子内容和音频子内容，所述特征提取子单元，包括：

信息获取模块，用于获取所述待分发内容的内容相关信息；

文本识别模块，用于对所述视频子内容进行文本识别，得到所述视频子内容帧包含的视频文本子内容；

语音识别模块，用于对所述音频子内容进行语音识别，得到所述视频子内容帧包含的音频文本子内容；

内容确定模块，用于将所述视频文本子内容、所述音频文本子内容和所述内容相关信息作为所述文本子内容；

文本特征提取模块，用于对所述文本子内容进行文本特征提取，得到所述文本子内容的内容特征信息。

在一实施例中，所述推荐单元，包括：

预测子单元，用于根据所述融合后内容特征信息，预测所述待分发内容的推荐程度；

对象获取子单元，用于若所述推荐程度满足预设条件，则获取与所述待分发内容对应的目标对象；

内容推荐子单元，用于向所述目标对象推荐所述待分发内容。

在一实施例中，所述拟合单元，包括：

数据获取子单元，用于获取历史时间段内，所述待分发内容在每个时间周期的内容互动数据；

序列生成子单元，用于根据每个所述时间周期的内容互动数量生成所述待分发内容的互动数据序列；

趋势拟合子单元，用于基于所述互动数据序列进行趋势拟合，得到所述待分发内容的互动趋势特征信息。

相应的，本申请实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本申请实施例提供的任一种内容推荐方法。

相应的，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本申请实施例提供的任一种内容推荐方法。

相应的，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一种内容推荐方法。

本申请实施例通过获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同；根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

本申请实施例通过对样本集合中的内容样本包含的多模态内容，构建对齐正样本和对齐负样本，不需要人工标注内容样本的标签，且不同模态的子内容构成的样本对可以使内容特征提取模型更好地学习到不同模态内容的语义信息以及不同模态内容之间的关联性，提高内容特征提取模型的特征提取能力，进而提高内容推荐的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的内容推荐方法的流程图；

图2是本申请实施例提供的内容推荐方法的子流程图；

图3是本申请实施例提供的内容推荐方法的另一流程图；

图4是本申请实施例提供的模型结构示意图；

图5是本申请实施例提供的内容推荐系统示意图；

图6是本申请实施例提供的内容推荐装置示意图；

图7是本申请实施例提供的另一内容推荐装置示意图；

图8是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种内容推荐方法、装置、计算机设备和计算机可读存储介质。该内容推荐装置可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

其中，该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、个人计算(PC，Personal Computer)、以及车载计算机等。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从内容推荐装置的角度进行描述，该内容推荐装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备。

本申请实施例提供的一种内容推荐方法，如图1所示，该内容推荐方法的具体流程可以如下：

101、获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容。

其中，样本集合可以包括多个内容样本，样本集合中的内容样本可以是根据历史内容记录选取热门(例如，浏览量大于预设次数、收藏量大于预设阈值以及点赞量大于预设阈值等)的内容作为样本。

其中，内容样本可以是包含多种模态的子内容或者单一模态内容的内容，例如，内容样本可以是视频(可以从视频中提取到音频和文本等内容)、包含其他模态内容的文章以及音频等。

比如，当内容样本包含多种不同模态的子内容时，可以基于数据格式从内容样本中提取得到不同模态的子内容，可选的，不仅可以基于数据格式提取到不同模态的子内容，还可以分别从不同模态的子内容中提取到不同于该子内容的模态的内容；当内容样本包含单一模态的内容时，可以通过从该单一模态的内容中提取不同模态的子内容。

以内容样本为视频为例进行说明，可以从视频中提取音频，得到音频子内容，并将视频帧序列作为视频子内容；可选的，还可以通过光学字符识别技术(Optical CharacterRecognition，OCR)对视频帧序列进行文本识别得到，得到文本子内容等；可选的，还可以通过是自动语音识别技术(Automatic Speech Recognition，ASR)对音频子内容进行语音识别，得到文本子内容。

102、基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本。

比如，具体可以是将每个内容样本中模态不同的第一子内容和第二子内容生成样本对，得到对齐正样本，例如，内容样本包含视频内容、音频内容和文本内容，可以将视频内容和音频内容组成样本对、将视频内容和文本内容组成样本对、以及将音频内容和文本内容组成样本对，生成对齐正样本。

如果内容样本为单一模态的视频内容，进行内容推荐时主要以视频内容为依据，因此可以以视频内容为基础构建对齐正样本，减少样本的种类，降低内容特征提取模型的学习难度，提高内容特征提取模型的训练效率，即在一实施例中，步骤“基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本”，具体可以包括：

基于每个内容样本中的视频内容和音频内容生成第一对齐正样本；

基于每个内容样本中的视频内容和文本内容生成第二对齐正样本；

根据每个内容样本对应的第一对齐正样本和第二对齐正样本，生成对齐正样本。

比如，具体可以将视频内容和音频内容构建第一对齐正样本，将视频内容和文本内容构建第二对齐正样本，根据每个内容样本的第一对齐正样本和第二对齐正样本，生成对齐正样本。

可选的，生成样本对可以包含含两个任务：视频文本对任务(Video To Text，VTM)，音频视频对任务(Video To Audio，VTA)，其中，VTA任务构建视频内容和音频内容对(包括对齐正样本和对齐负样本)，VTM任务构建文本内容和视频内容对(包括对齐正样本和对齐负样本)。

103、基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同。

其中，内容样本的互异内容样本为样本集合中与该内容样本不同的样本。

比如，具体可以是有内容样本——样本A，和内容样本的互异内容样本——样本B，样本A和样本B均有不同模态的子内容——视频内容、音频内容和文本内容，将样本A的视频内容和样本B的音频内容构建负样本对，以及将样本A的视频内容和样本B的文本内容构建负样本对等，得到对齐负样本。

可选的，互异内容样本可以是与内容样本不同，且与内容样本之间的相似度小于预设阈值的样本，其中，内容样本和互异内容样本之间的相似度的计算可以参考步骤104中的相关描述，在此不做赘述。

104、根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

比如，具体可以是将得到的足够的对齐正样本和对齐负样本对内容特征提取模型进行训练，通过内容特征提取模型预测训练样本为正样本或者负样本，是内容特征提取模型学习到不同模态内容的内容特征，以及不同模态内容之间的关联性，直到满足预设条件，得到训练后内容特征提取模型。

为了进一步提高模型的训练效率，可以对对齐正样本和对齐负样本进行掩码处理，得到掩码后正样本和掩码后负样本，即在一实施例中，步骤“根据对齐正样本和对齐负样本对内容特征提取模型进行训练”，包括：

分别对对齐正样本和对齐负样本进行掩码处理，得到掩码后正样本和掩码后负样本；

根据掩码后正样本和掩码后负样本对内容特征提取模型进行训练。

比如，具体可以是对对齐正样本和对齐负样本进行掩码处理，得到掩码后正样本和掩码后负样本，通过内容特征提取模型对掩码后正样本和掩码后负样本中的掩码部分进行复原，以对内容特征提取模型进行训练，提高内容特征提取模型的内容特征提取能力。

具体地，掩码处理可以包含文本掩码任务(Mask language Modeling，MLM)和视频掩码任务(Mask Frame Modeling，MFM)，MLM任务为对对齐正样本和对齐负样本中的文本内容进行掩码处理，对齐正样本和对齐负样本中的文本内容的15％的text token可能被mask,其中，80％会被“mask”token代替，10％被随机token代替，10％保持不变；MFM为对对齐正样本和对齐负样本中的视频内容进行掩码处理。

可选的，基于MFM、MLM任务、VTM和VTA任务可以同时进行，也可以以预设顺序执行。

不同的内容样本之间相似度越高，则根据该内容样本生成的样本中，不同模态内容之间的关联性越大，如果通过该样本作为负样本对内容特征提取模型进行训练，内容特征提取模型难以学习到热点内容之间的共性，因此，可以根据相似度选择负样本，以及根据相似度调整样本对应的权重，以便内容特征提取模型更好学习到不同模态的内容的语义信息，即步骤“根据对齐正样本和对齐负样本对内容特征提取模型进行训练”，具体可以包括：

基于内容样本的目标模态子内容与互异内容样本的目标模态子内容，计算内容样本与互异内容样本之间的相似度；

根据相似度计算对齐负样本对应的负样本权重，相似度与样本权重呈负相关；

根据对齐正样本、对齐负样本以及负样本权重对内容特征提取模型进行训练。

比如，具体可以是根据不同内容样本中的目标模态子内容之间相似度，将该相似度确定为不同内容样本之间的相似度，目标模态子内容可以根据内容样本的类型确定，例如，当内容样本包含单一模态的内容——视频内容时，可以将目标模态子内容确定为视频内容，计算内容样本和互异内容样本之间相似度，并根据相似度计算对齐负样本的负样本权重，相似度和负样本权重之间的关系可以是：W＝－kS+b，其中W为对齐负样本的负样本权重，S为内容样本与互异内容样本之间的相似度，k和b可以根据内容特征提取模型的训练效果进行调节。

可选的，可以将k预设为1，b预设为1。

通过对齐正样本和对齐负样本，以及对齐负样本的负样本权重对内容特征提取模型进行训练，以得到训练后内容特征提取模型。

得到训练后内容特征提取模型之后，根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取，得到的多模态内容特征信息，并根据多模态内容特征信息预测待分发内容是否会成为热门内容，若是，则对待分发内容进行内容推荐。

除了根据待分发内容的多模态内容特征信息进行预测之外，还可以根据待分发内容历史的内容互动数据和内容发布对象进行预测，即在一实施例中，如图2所示，步骤“根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐”，具体可以包括：

1051、获取待分发内容，以及待分发内容的内容互动数据和内容发布对象；

1052、对内容互动数据进行趋势拟合，得到待分发内容的互动趋势特征信息；

1053、通过训练后内容特征提取模型，对待分发内容中的多模态内容进行内容特征提取，得到待分发内容的多模态内容特征信息；

1054、基于内容发布对象的对象数据，对内容发布对象进行对象特征提取，得到内容发布对象的对象特征信息；

1055、将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征融合处理，得到待分发内容的融合后内容特征信息；

1056、根据融合后内容特征信息，对待分发内容进行内容推荐。

对以上步骤的说明具体如下：

1051、获取待分发内容，以及待分发内容的内容互动数据和内容发布对象。

其中，待分发内容可以包括视频、文章或者音频等内容，还可以是视频、文章或者音频组合得到的内容。

其中，内容互动数据可以包括用户针对该待分发内容的互动行为产生的数据，互动行为可以包括点赞内容、收藏内容、评论内容、订阅内容以及屏蔽内容等行为，内容互动数据可以包括点赞数、收藏数和评论数等。

其中，内容发布对象可以包括在内容平台发布该待分发内容的对象，例如，内容发布对象可以是个人账号，也可以是团体账号等。

比如，具体可以是从数据库或者互联网获取待分发内容，待分发内容的内容发布对象，以及获取待分发内容在过去时间内的内容互动数据。

获取待分发内容的内容互动数据可以是定期(例如，每分钟或者每小时等)获取用户针对该待分发内容的互动行为产生的数据，得到与时间相关的内容互动数据。

1052、对内容互动数据进行趋势拟合，得到待分发内容的互动趋势特征信息。

其中，互动趋势特征信息可以表征待分发内容在过去的内容互动数据的变化趋势。

比如，对内容互动数据进行趋势拟合，得到待分发内容随时间变化的互动趋势的互动趋势曲线，互动趋势曲线可以反映待分发内容的位置的内容互动数据的变化情况。

由于，互动趋势与时间相关，可以根据不同时间的内容互动数据生成时间序列，在对时间序列进行趋势拟合，即在一实施例中，步骤“对内容互动数据进行趋势拟合，得到待分发内容的互动趋势特征信息”，具体可以包括：

获取历史时间段内，待分发内容在每个时间周期的内容互动数据；

根据每个时间周期的内容互动数量生成待分发内容的互动数据序列；

基于互动数据序列进行趋势拟合，得到待分发内容的互动趋势特征信息。

其中，历史时间段可以是指定的时间段，例如，过去一小时内或者过去24小时内容等。

其中，时间周期可以包括数据统计周期，例如，每5分钟统计一次内容互动数据。

其中，互动数据序列可以包括多个内容互动数据。

比如，具体可以是每个时间周期对用户针对待分发内容的互动行为进行统计，得到该时间周期的内容互动数据，获取历史时间段内每个时间周期统计得到的内容互动数据，并生成互动数据序列。根据互动数据序列进行趋势拟合，得到互动趋势特征信息。

可选的，可以通过长短期记忆(Long short-term memory,LSTM)网络对内容互动数据进行趋势拟合，具体地，内容互动数据可以是时间序列，包含了在过去一段时间内，每时间单位对用户针对待分发内容的互动行为的统计量，将内容互动数据输入LSTM网络，通过LSTM网络对内容互动数据进行特征提取，以拟合内容互动数据的趋势曲线，得到待分发内容的互动趋势特征信息。

可选的，可以还可以通过transformer模型进行趋势拟合，具体地，可以将互动数据序列输入transformer模型，通过transformer模型捕获互动数据序列之间的依赖关系，以拟合互动趋势的曲线，得到互动趋势特征信息。

1053、对待分发内容中的多模态内容进行内容特征提取，得到待分发内容的多模态内容特征信息。

其中，多模态内容可以包括不同模态的内容，例如，可以包括视频、文本以及音频等数据类型的内容。

其中，多模态内容特征信息可以包括表征待分发内容中不同模态的内容的情节、主题以及构思等内容特征的信息，内容特征信息可以包括特征值、特征向量或者是特征张量等形式的信息。

比如，具体可以是分别对待分发内容中不同模态的内容进行内容特征提取，得到不同模态内容的内容特征信息，将不同模态内容的内容特征信息进行特征融合处理，得到待分发内容的多模态内容特征信息，特征融合处理可以是将不同模态内容的内容特征信息进行拼接，或者是特征信息相加，例如，将不同模态内容的内容特征信息进行加权后相加等。

可选的，待分发内容可以包含多种模态的内容，也可以仅包含一种模态的内容，而基于该内容可以提取到不同模态的内容，例如，通过语音识别技术可以从音频内容中提取文本内容等，因此，在一实施例中，步骤“对待分发内容中的多模态内容进行内容特征提取，得到待分发内容的多模态内容特征信息”，具体可以包括：

对待分发内容中进行内容提取，得到待分发内容中包含的不同模态的子内容；

分别对不同模态的子内容进行内容特征提取，得到每个子内容的内容特征信息；

根据每个子内容的内容特征信息得到待分发内容的多模态内容特征信息。

比如，当待分发内容包含多种不同模态的子内容时，可以基于数据格式从待分发内容中提取得到不同模态的子内容，可选的，不仅可以基于数据格式提取到不同模态的子内容，还可以分别从不同模态的子内容中提取到不同于该子内容模态的内容；当待分发内容包含单一模态的内容时，可以通过从该单一模态的内容中提取不同模态的子内容。

以待分发内容为视频为例进行说明，可以从视频中提取音频，得到音频子内容，并将视频帧序列作为视频子内容；可选的，还可以通过光学字符识别技术(OpticalCharacter Recognition，OCR)对视频帧序列进行文本识别得到，得到文本子内容等；可选的，还可以通过是自动语音识别技术(Automatic Speech Recognition，ASR)对音频子内容进行语音识别，得到文本子内容。

分别对不同模态的子内容进行内容特征提取，得到每个子内容的内容特征信息；将多个内容特征信息进行特征融合处理，得到多模态内容特征信息，或者将该多个内容特征信息作为多模态内容特征信息。

当子内容包含视频子内容时，可以从视频子内容中获取视频内容帧，并通过视频内容帧提取视频子内容的特征信息，即在一实施例中，子内容包括视频子内容，步骤“分别对不同模态的子内容进行内容特征提取，得到每个子内容的内容特征信息”，具体可以包括：

对视频子内容进行抽帧处理，得到多帧视频内容帧；

对每帧内容视频帧进行图像特征提取，得到每帧内容视频帧对应的图像特征信息；

将每帧内容视频帧对应的图像特征信息进行特征聚合，得到视频子内容的内容特征信息。

其中，视频内容帧可以是视频子内容中的视频帧。

其中，图像特征信息可以包括表征内容视频帧的特征信息。

比如，具体可以是从视频子内容中抽取部分视频，例如，在视频子内容中间隔一定的视频帧抽取预设帧数的视频，抽取得到的视频帧即为内容视频帧。通过卷积神经网络(Convolutional Neural Networks,CNN)对内容视频帧进行图像特征提取，得到每帧内容视频帧对应的图像特征信息，将多帧视频内容帧的图像特征信息进行特征聚合，以将帧级的特征信息聚合为视频级的特征信息。

视频子内容的内容特征信息可以用于表征视频子内容的内容特征，也可以用于度量相似性，两个内容特征信息之间距离可以代表两个视频内容之间的相似性。

可选的，可以采用Swin-Transformer模型对视频子内容进行特征提取，Swin-Transformer是一种新型的视觉变换器。

在一实施例中，子内容包含音频子内容，步骤“分别对不同模态的子内容进行内容特征提取，得到每个子内容的内容特征信息”，具体可以包括：

获取待分发内容的音频子内容；

对音频子内容进行音频预处理，得到音频子内容的音频频谱信息；

对音频频谱信息进行音频特征提取，得到音频子内容的内容特征信息。

其中，预处理可以包括预加重(Pre-Emphasis)、分帧以及加窗等处理。

比如，具体可以是从待分发内容中提取音频子内容，通过窗函数对音频子内容进行加窗处理，并以一定的帧移对音频子内容进行分帧处理，然后，进行短时傅里叶变换(Short Time Fourier Transform，STFT)得到频谱图，随后将频谱图映射到64阶梅尔滤波器组中计算得到梅尔声谱，即音频频谱信息。通过对音频频谱信息进行音频特征提取，得到音频子内容的内容特征信息。

可选的，我们通过基于tensorflow的VGG模型(也可以称为VGGish模型)进行音频特征提取。VGGish将音频子内容重采样为16kHz单声道音频，使用25ms的Hann时窗，10ms的帧移对音频进行短时傅里叶变换得到频谱图，通过将频谱图映射到64阶梅尔滤波器组中计算梅尔声谱，梅尔声谱以0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含64个梅尔频带，时长10ms，基于梅尔频带可以得到每一帧的子音频特征信息。

采用NextVlad网络对VGGish模型得到的子音频特征信息降维为视频级的音频特征信息，得到音频内容特征信息。VGGish对场景类的声音事件有较强的特别表达能力，采用VGGish对文本子内容进行音频特征提取，对动作片以及音乐等内容的流行度预测的准确率有明显的提升。

在一实施例中，子内容还包括文本子内容，从待分发内容中提取文本子内容处理将待分发内容中的文本格式的内容分离出来之外，还可以从视频子内容以及音频子内容中提取文本子内容，即子内容包括文本子内容、视频子内容和音频子内容，步骤“分别对不同模态的子内容进行内容特征提取，得到每个子内容的内容特征信息”，具体可以包括：

获取待分发内容的内容相关信息；

对视频子内容进行文本识别，得到视频子内容帧包含的视频文本内容；

对音频子内容进行语音识别，得到视频子内容帧包含的音频文本内容；

将视频文本内容、音频文本内容和内容相关信息作为文本子内容；

对文本子内容进行文本特征提取，得到文本子内容的内容特征信息。

其中，内容相关信息可以包括待分发内容的标题、简介、作者以及人物信息等内容。

其中，视频文本内容可以包括从视频子内容中得到的文本内容，例如，可以包括视频中人物对话以及独白等内容；音频文本内容可以包括从音频子内容中得到的文本内容。

比如，具体可以是基于OCR技术对视频子内容中视频帧序列进行文本识别得到视频文本内容，通过是自动语音识别技术(Automatic Speech Recognition，ASR)对音频子内容进行语音识别，得到音频文本内容，将视频文本内容、音频文本内容和内容相关信息作为文本子内容；对文本子内容进行文本特征提取，得到文本子内容的内容特征信息。

可选的，在步骤“对音频子内容进行语音识别，得到视频子内容帧包含的音频文本内容”之前，可以对视频子内容的字幕进行检测，若不存在字幕，则对对音频子内容进行语音识别，得到音频文本内容；若存在字幕，不不进行语音识别，通过从音频子内容中提取音频文本内容，可以在视频子内容缺少字幕的情况下，弥补文本信息的不足。

可选的，在步骤“对视频子内容进行文本识别，得到视频子内容帧包含的视频文本内容”之后，可以对视频文本内容进行文本去噪处理，例如，文本识别通过在视频内容帧中对待识别文本进行框选，得到文本识别框，然后对文本识别框中的文本进行识别，得到文本内容，文本去噪处理可以过滤单字类、纯数字以及纯字母的文本内容、过滤相邻两帧视频内容帧文本识别框(bounding box，bbox)位置偏移小，且文字重复率高的文本内容以及过滤bbox在屏幕底端且高度较小的文本内容等，去噪处理后得到视频文本内容。

1054、基于内容发布对象的对象数据，对内容发布对象进行对象特征提取，得到内容发布对象的对象特征信息。

其中，对象数据可以包括内容发布对象的属性信息，例如关注量、点赞量、点赞率、收藏量、收藏率、等级、风格、榜单排名以及所属领域等信息。

其中，对象特征信息可以包括表征内容发布对象的特征的信息。

比如，具体可以是将对象数据以预设顺序进行映射，得到对象特征信息，对象特征信息中包含了表示对象数据的特征信息，例如，特征值或者特征向量等；可选的，可以通过特征嵌入(embedding)网络对对象数据进行对象特征提取，例如，将Transform网络作为embedding网络，将对象数据输入Transform网络，Transform网络基于对象数据进行对象特征提取，得到对象特征信息。

1055、将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征融合处理，得到待分发内容的融合后内容特征信息。

其中，融合后内容特征信息可以包含表征待分发内容整体特征的信息，例如，包括待分发内容的互动数据的变化情况、其内容发布对象的特征信息以及自身的特征信息。

比如，具体可以是将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征拼接或者特征相加，以进行特征融合处理，得到待分发内容的融合后内容特征信息。

比如，具体可以是根据融合后内容特征信息预测是否对该待分发内容进行内容推荐，若是，则向用户推荐该待推荐内容；若否，则不向用户推荐该待推荐内容；可选的，可以根据融合后内容特征信息预测待分发内容的推荐度，推荐度可以表示待分发内容的受欢迎程度，推荐度越高，表示会有越多的用户喜欢该待分发内容；推荐度越低，表示会有越少的用户喜欢该待分发内容。若推荐度大于预设阈值，则向用户推荐该待分发内容。

可选的，可以通过分类器基于融合后内容特征信息对待分发内容进行分类，根据分类结果确定待分发内容的推荐程度，根据推荐程度进行内容推荐，即在一实施例中，步骤“根据融合后内容特征信息，对待分发内容进行内容推荐”，具体可以包括：

根据融合后内容特征信息，预测待分发内容的推荐程度；

若推荐程度满足预设条件，则获取与待分发内容对应的目标对象；

向目标对象推荐待分发内容。

其中，推荐程度高表示待分发内容为热门内容，推荐程度低表示待分发内容为冷门内容。

其中，目标对象可以包括待分发内容的受众群体，对待分发内容感兴趣的用户。

比如，具体可以是将融合后内容特征信息输入分类器，通过分类器对待分发内容进行分类，根据分类结果待推荐内容的推荐程度。若待分发内容的推荐程度满足条件，则获取对应的目标对象，例如，可以根据待分发内容的多模态内容特征信息以及用户的兴趣爱好确定目标对象，也可以将与待分发内容相似的内容的目标对象确定为待分发内容对应的目标对象，向目标对象推荐该待分发内容。

由上可知，本申请实施例通过获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同；根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

在上述实施例的基础上，下面将举例做进一步详细说明。

本实施例将以内容样本为视频内容、待分发内容为视频内容为例，从内容推荐装置的角度进行描述，该内容推荐装置具体可以集成在计算机设备中，该计算机设备可以是服务器，也可以是终端等设备；

本申请实施例提供的一种内容推荐方法，如图3所示，该内容推荐方法的具体流程可以如下：

训练阶段：

2011、服务器获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容。

比如，以内容样本为视频为例进行说明，服务器可以从视频中提取音频，得到音频子内容，并将视频帧序列作为视频子内容；可选的，还可以通过光学字符识别技术(OpticalCharacter Recognition，OCR)对视频帧序列进行文本识别得到，得到文本子内容等；可选的，还可以通过是自动语音识别技术(Automatic Speech Recognition，ASR)对音频子内容进行语音识别，得到文本子内容。

2012、服务器基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本。

比如，具体可以服务器将视频内容和音频内容构建第一对齐正样本，将视频内容和文本内容构建第二对齐正样本，根据每个内容样本的第一对齐正样本和第二对齐正样本，生成对齐正样本。

2013、服务器基于每个内容样本的第一子内容，以及样本集合中，满足预设条件的互异内容样本的互异第二子内容，生成对齐负样本。

比如，服务器可以对样本集合中的内容样本进行聚类，得到多个类簇，并根据类簇中心之间的距离计算每个类簇之间的相似度，根据内容样本所在的类簇，从与该类簇相似度小于阈值的类簇中，选择互异内容样本。

基于每个内容样本的第一子内容，和与其对应的互异内容样本的互异第二子内容，生成对齐负样本。

2014、服务器根据内容样本和互异内容样本之间的相似度，计算对齐负样本对应的负样本权重。

比如，具体可以是服务器计算内容样本和互异内容样本之间相似度，并根据相似度计算对齐负样本的负样本权重，相似度和负样本权重之间的关系可以是：W＝－S+1，其中W为对齐负样本的负样本权重，S为内容样本与互异内容样本之间的相似度。

2015、服务器根据对齐正样本、对齐负样本以及负样本权重对内容特征提取模型进行训练，以得到训练后内容特征提取模型。

应用阶段：

2021、服务器获取待分发内容，以及待分发内容的内容互动数据和内容发布对象。

比如，具体可以是服务器从数据库或者互联网获取待分发内容，待分发内容的内容发布对象，以及获取待分发内容在过去时间内的内容互动数据。

服务器获取待分发内容的内容互动数据可以是对待分发内容按照5分钟的时间周期内“阅读”、“转发”、“收藏”、“点赞”和“评论”等互动行为进行统计，并根据统计量互动数据序列，互动数据序列的长度可以不小于12，即至少要获取1小时的内容互动数据，互动数据序列记为{v1，v2，...，vt}。

2022、服务器对内容互动数据进行趋势拟合，得到待分发内容的互动趋势特征信息。

比如，如图4所示，服务器将互动数据序列{v1，v2，...，vt}输入Transform模型，通过Transform模型来拟合待分发内容的内容互动数据(例如，总阅读量)随时间演变的长期增长趋势，Transform的优点在于记忆单元包含历史信息，擅于捕获时间序列(例如，互动数据序列)依赖关系，因此不需要对历史趋势的函数形式做出具体的假设。

由于各种因素的影响，内容互动数据(例如，总阅读量)曲线呈现出上升和下降阶段，如图4所示，可以通过卷积(CNN)网络来捕捉内容互动数据(例如，总阅读量)的这些短期波动趋势。

服务器将Transform模型拟合得到的长期增长趋势和CNN网络来捕捉短期波动趋势作为互动趋势特征信息。

2023、服务器对待分发内容中进行内容提取，得到待分发内容中包含的不同模态的子内容。

以待分发内容为视频为例进行说明，服务器可以从视频中提取音频数据，得到音频子内容，并将视频帧序列作为视频子内容；通过光学字符识别技术(Optical CharacterRecognition，OCR)对视频帧序列进行文本识别得到，得到视频文本内容，通过是自动语音识别技术(Automatic Speech Recognition，ASR)对音频子内容进行语音识别，得到音频文本内容，以及从获取待分发内容的标题、简介、作者以及人物信息等内容相关信息；将视频文本内容、音频文本内容和内容相关信息作为文本子内容。

2024、服务器分别对不同模态的子内容进行内容特征提取，得到待分发内容的多模态内容特征信息。

比如，具体可以是从视频子内容中抽取部分视频，例如，在视频子内容中间隔一定的视频帧抽取预设帧数的视频，抽取得到的视频帧即为内容视频帧。如图4所示，服务器通过Swin-Transformer(也可以称为SwinT)网络作为特征嵌入层(Embedding layer)对内容视频帧进行图像特征提取，得到每帧内容视频帧对应的图像特征信息，通过NextVlad网络将多帧视频内容帧的图像特征信息进行特征聚合，以将帧级的特征信息聚合为视频级的特征信息。

如图4所示，服务器通过VGGish网络对音频子内容进行音频特征提取，可以得到帧级的子音频特征信息，采用NextVlad网络对VGGish模型得到的子音频特征信息降维为视频级的音频特征信息，得到音频内容特征信息。

如图4所示，服务器基于OCR技术对视频子内容中视频帧序列进行文本识别得到视频文本内容，通过是ASR技术对音频子内容进行语音识别，得到文本子内容，分别对音频文本内容，将视频文本内容、音频文本内容和内容相关信息作进行文本特征提取，得到文本子内容的内容特征信息。

2025、服务器基于内容发布对象的对象数据，对内容发布对象进行对象特征提取，得到内容发布对象的对象特征信息。

比如，具体可以是服务器将对象数据输入Transform网络，Transform网络基于对象数据进行对象特征提取，得到对象特征信息。

2026、服务器将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征融合处理，得到待分发内容的融合后内容特征信息。

比如，具体可以是服务器将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征拼接或者特征相加，以进行特征融合处理，得到待分发内容的融合后内容特征信息。

2027、服务器根据融合后内容特征信息，预测待分发内容的推荐程度。

比如，具体可以是服务器将融合后内容特征信息输入分类器，通过分类器对待分发内容进行分类，根据分类结果待推荐内容的推荐程度。

2028、若推荐程度满足预设条件，则服务器对待分发内容进行内容推荐。

若待分发内容的推荐程度满足条件，则表示待分发内容会成为热门内容，服务器获取对应的目标对象，例如，可以根据待分发内容的多模态内容特征信息以及用户的兴趣爱好确定目标对象，也可以将与待分发内容相似的内容的目标对象确定为待分发内容对应的目标对象，向目标对象分发该待分发内容。

若待分发内容为冷门内容，则将待分发内容进行过滤，以使得服务器在进行内容推荐时，不会针对该待分发计算对应的目标对象，并进行内容推荐，节省相关的资源。

由上可知，本申请实施例中服务器获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；基于每个内容样本的第一子内容，以及样本集合中，满足预设条件的互异内容样本的互异第二子内容，生成对齐负样本；根据内容样本和互异内容样本之间的相似度，计算对齐负样本对应的负样本权重；根据对齐正样本、对齐负样本以及负样本权重对内容特征提取模型进行训练，以得到训练后内容特征提取模型。

服务器获取待分发内容，以及待分发内容的内容互动数据和内容发布对象；对内容互动数据进行趋势拟合，得到待分发内容的互动趋势特征信息；对待分发内容中进行内容提取，得到待分发内容中包含的不同模态的子内容；分别对不同模态的子内容进行内容特征提取，得到待分发内容的多模态内容特征信息；基于内容发布对象的对象数据，对内容发布对象进行对象特征提取，得到内容发布对象的对象特征信息；将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征融合处理，得到待分发内容的融合后内容特征信息；根据融合后内容特征信息，预测待分发内容的推荐程度；若推荐程度满足预设条件，则服务器对待分发内容进行内容推荐。

本申请实施例通过对样本集合中的内容样本包含的多模态内容，构建对齐正样本和对齐负样本，不需要人工标注内容样本的标签，且不同模态的子内容构成的样本对可以使内容特征提取模型更好地学习到不同模态内容的语义信息以及不同模态内容之间的关联性，提高内容特征提取模型的特征提取能力。且融合了待分发内容的互动趋势特征信息、多模态内容特征信息，以及待分发内容的内容发布对象的对象特征信息预测待分发内容的推荐程度，既能捕捉待分发内容的内容互动数据随时间推移的互动趋势，又可以利用多模态内容特征信息和内容发布对象的对象特征信息捕捉待分发内容和内容发布对象与用户感兴趣的内容之间的共性，使得内容推荐更加准确。

在一实施例中，如图5所示，本申请实施例还提供一种内容推荐系统，具体如下：

一、内容生产端和内容消费端

(1)专业生产内容的机构或者组织(Professional Generated Content，PGC)、或者用户原创内容(user generate content，UGC)、多频道网络(multi-channel network，MCN)或者专家生产内容(Professional Generated Content+User Generated Content，PUGC)的内容生产者，通过移动端或者后端提供内容，这些都是分发内容的主要内容来源。

(2)内容生产端通过和上下行内容接口服务器通讯，先获取上传服务器接口地址，然后在上传视频内容。

(3)内容消费端和上下行内容接口服务器通讯，获取访问视频的索引信息，然后内容数据库通讯，获取对应的内容。

(4)内容消费端将浏览过程中，用户阅读点击，滑动，分享，收藏，转发等互动行为数据上报给服务器。

(5)内容消费端可以通过Feeds流方式浏览内容，在Feeds当中如果存在推荐程度满足条件的内容，可以置顶该内容，也可以通过主动PUSH方式来加推到更多用户。

二、上下行内容接口服务器

(1)和内容生产端直接通讯，从前端提交的内容的标题、发布者、摘要、封面图和发布时间等内容相关信息存入视频内容数据库。

(2)将内容的元信息，比如文件大小、封面图链接、标题、发布时间和作者等内容相关信息写入内容数据库。

(3)将上传的数据提交给调度中心服务器，进行后续的内容处理和流转。

三、内容数据库

(1)内容生产者发布内容的元信息都保存在这个数据库当中，还可以包括审核过程中对内容的分类(包括一、二和三级别视频分类和标签信息)。

(2)审核过程会读取内容数据库中的数据，同时审核的结果和状态也会回传进入内容数据库。

四、调度中心服务器

(1)负责内容流转的整个调度过程，通过上下行内容接口服务器接收内容并存入内容数据库，然后从数据库中获取视频的元信息。

(2)调度审核系统和机器处理系统，控制调度的顺序和优先级。

(5)通过推荐分发服务将内容提供给内容消费者。

六、视频内容流行度预测服务器

(1)将视频内容流行度预测模型进行工程化，提供线上实际的服务能力。

(2)接受调度服务中心的调度，对发布启用的内容进行流行程度的预测和结果标记。

七、统计上报接口服务器

(1)接收内容消费端在内容分发过程中用户阅读点击，滑动，分享，收藏，转发等互动行为数据。

(2)为互动行为分析服务提供必要的数据支持，来为后续建模构建需要的短期和长期趋势统计分析数据及按照时间构成的序列。

八、互动行为分析与统计服务

(1)接受统计上报接口服务器写入的数据，同时为内容推荐程度预测模型服务器提供分发过程建模需要的必要数据。

(2)将待分发内容按照每5分钟的粒度，统计“阅读”，“转发”，“收藏”，“点赞”和“评论”等互动行为的统计量，得到互动数据序列{v1，v2，...，vt}，采用Transformer网络对视频分发长期增长趋势进行建模，同时采CNN捕获短期波动。Transformer网络来拟合阅读量增长曲线，通过1D-CNN(1D是1天也就是24小时)网络来捕捉阅读量爆发性增长。

九、内容与账号特征建模服务器

(1)如上所述，视频内容特征建模分别采用SwinT+NeXtVLad，VGG和Bert网络接收视频内容的抽帧，视频内容的文本模态和音频模态分别处理。

(2)内容生产者(内容生产对象)的帐号特征建模。账号数据包括账号的用户点击率、账号的用户点赞率、账号用户的评论率、账号用户的转发率、账号历史内容启用率、账号粉丝活跃数和账号外部新榜榜单排名数目。账号表现具有一定时间累积效应，这里将账号过去30天内发布内容的表现沉淀这些特征沉淀到账号上面。账号元数据包括账号的类别，账号等级(例如可以包括权威、优质和潜力4个等级)、账号注册时间和账号粉丝级别(例如，个、十、百、千、万、十万、百万、千万和亿等级别)等。

十、内容推荐程度预测模型服务器

(1)按照上述实施例描述的模型结构和模态处理方法，对待分发内容的互动趋势特征信息、多模态内容特征信息和对象特征信息进行建模融合，输出最后预测概率最大的推荐程度(比如，可以包括热门、冷门和正常)。

(2)对应的类目标记在内容维度上可以供后续进一步推荐和运营使用。

本申请实施例融合了待分发内容的互动趋势特征信息、多模态内容特征信息，以及待分发内容的内容发布对象的对象特征信息预测待分发内容的推荐程度，既能捕捉待分发内容的内容互动数据随时间推移的互动趋势，又可以利用多模态内容特征信息和内容发布对象的对象特征信息捕捉待分发内容和内容发布对象与用户感兴趣的内容之间的共性，使得内容推荐更加准确。

为了便于更好地实施本申请实施例提供的内容推荐方法，在一实施例中还提供了一种内容推荐装置。其中名词的含义与上述内容推荐方法中相同，具体实现细节可以参考方法实施例中的说明。

该内容推荐装置具体可以集成在计算机设备中，如图6所示，该内容推荐装置可以包括：获取单元301、正样本生成单元302、负样本生成单元303和训练单元304，具体如下：

(1)获取单元301：用于获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容。

(2)正样本生成单元302：用于基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本.

在一实施例中，正样本生成单元302可以包括第一正样本生成子单元、第二正样本生成子单元和第三正样本生成子单元，具体地：

第一正样本生成子单元：用于基于每个内容样本中的视频内容和音频内容生成第一对齐正样本；

第二正样本生成子单元：用于基于每个内容样本中的文本内容和音频内容生成第二对齐正样本；

第三正样本生成子单元：用于根据每个内容样本对应的第一对齐正样本和第二对齐正样本，生成对齐正样本。

(3)负样本生成单元303：用于基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同。

(4)训练单元304：用于根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

在一实施例中，训练单元304可以包括掩码子单元和第一模型训练子单元，具体地：

掩码子单元：用于分别对对齐正样本和对齐负样本进行掩码处理，得到掩码后正样本和掩码后负样本；

第一模型训练子单元：用于根据掩码后正样本和掩码后负样本对内容特征提取模型进行训练。

在一实施例中，训练单元304可以包括相似度计算子单元、权重计算子单元和第二模型训练子单元，具体地：

相似度计算子单元：用于基于内容样本的目标模态子内容与互异内容样本的目标模态子内容，计算内容样本与互异内容样本之间的相似度；

权重计算子单元：用于根据相似度计算对齐负样本对应的负样本权重，相似度与样本权重呈负相关；

第二模型训练子单元：用于根据对齐正样本、对齐负样本以及负样本权重对内容特征提取模型进行训练。

在一实施例中，如图7所示内容推荐装置还包括数据获取单元401、拟合单元402、内容特征提取单元403、对象特征提取单元404、融合单元405和推荐单元406，具体地：

数据获取单元401：用于获取待分发内容，以及待分发内容的内容互动数据和内容发布对象。

拟合单元402：用于对内容互动数据进行趋势拟合，得到待分发内容的互动趋势特征信息。

在一实施例中，拟合单元402可以包括数据获取子单元、序列生成子单元和趋势拟合子单元，具体地：

数据获取子单元：用于获取历史时间段内，待分发内容在每个时间周期的内容互动数据；

序列生成子单元：用于根据每个时间周期的内容互动数量生成待分发内容的互动数据序列；

趋势拟合子单元：用于基于互动数据序列进行趋势拟合，得到待分发内容的互动趋势特征信息。

内容特征提取单元403：用于对待分发内容中的多模态内容进行内容特征提取，得到待分发内容的多模态内容特征信息。

在一实施例中，内容特征提取单元403可以包括内容提取子单元、特征提取子单元和信息确定子单元，具体地：

内容提取子单元：用于对待分发内容中进行内容提取，得到待分发内容中包含的不同模态的子内容；

特征提取子单元：用于分别对不同模态的子内容进行内容特征提取，得到每个子内容的内容特征信息；

信息确定子单元：用于根据每个子内容的内容特征信息得到待分发内容的多模态内容特征信息。

在一实施例中，子内容包括视频子内容，特征提取子单元可以包括抽帧模块、图像特征提取模块和特征聚合模块，具体地：

抽帧模块：用于对视频子内容进行抽帧处理，得到多帧视频子内容帧；

图像特征提取模块：用于对每帧内容视频帧进行图像特征提取，得到每帧内容视频帧对应的图像特征信息；

特征聚合模块：用于将每帧内容视频帧对应的图像特征信息进行特征聚合，得到视频子内容的内容特征信息。

在一实施例中，子内容包含音频子内容，特征提取子单元可以包括获取内容模块、预处理模块和音频特征提取模块，具体地：

获取内容模块：用于获取待分发内容的音频子内容；

预处理模块：用于对音频子内容进行音频预处理，得到音频子内容的音频频谱信息；

音频特征提取模块：用于对音频频谱信息进行音频特征提取，得到音频子内容的内容特征信息。

在一实施例中，子内容包括文本子内容、视频子内容和音频子内容，特征提取子单元可以包括信息获取模块、文本识别模块、语音识别模块、内容确定模块和文本特征提取模块，具体地：

信息获取模块：用于获取待分发内容的内容相关信息；

文本识别模块：用于对视频子内容进行文本识别，得到视频子内容帧包含的视频文本子内容；

语音识别模块：用于对音频子内容进行语音识别，得到视频子内容帧包含的音频文本子内容；

内容确定模块：用于将视频文本子内容、音频文本子内容和内容相关信息作为文本子内容；

文本特征提取模块：用于对文本子内容进行文本特征提取，得到文本子内容的内容特征信息。

对象特征提取单元404：用于基于内容发布对象的对象数据，对内容发布对象进行对象特征提取，得到内容发布对象的对象特征信息。

融合单元405：用于将互动趋势特征信息、多模态内容特征信息和对象特征信息进行特征融合处理，得到待分发内容的融合后内容特征信息。

推荐单元406：用于根据融合后内容特征信息，对待分发内容进行内容推荐。

在一实施例中，推荐单元406可以包括预测子单元、对象获取子单元和内容推荐子单元，具体地：

预测子单元：用于根据融合后内容特征信息，预测待分发内容的推荐程度；

对象获取子单元：用于若推荐程度满足预设条件，则获取与待分发内容对应的目标对象；

内容推荐子单元：用于向目标对象推荐待分发内容。

由上可知，本申请实施例内容推荐装置通过获取单元301获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；通过正样本生成单元302基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；由负样本生成单元303基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同；最后，通过训练单元304根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

本申请实施例还提供一种计算机设备，该计算机设备可以是终端，也可以是服务器，如图8所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器1001、一个或一个以上计算机可读存储介质的存储器1002、电源1003和输入单元1004等部件。本领域技术人员可以理解，图8中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1001是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器1002内的软件程序和/或模块，以及调用存储在存储器1002内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监测。可选的，处理器1001可包括一个或多个处理核心；优选的，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和计算机程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1002还可以包括存储器控制器，以提供处理器1001对存储器1002的访问。

计算机设备还包括给各个部件供电的电源1003，优选的，电源1003可以通过电源管理系统与处理器1001逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1003还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元1004，该输入单元1004可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器1001会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的计算机程序，从而实现各种功能，如下：

获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；

基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同；

根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由上可知，本申请实施例的计算机设备可以通过获取样本集合，并对样本集中的每个内容样本进行多模态子内容提取，得到内容样本的多个模态不同的子内容；基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本；基于每个内容样本的第一子内容，以及样本集合中，内容样本的互异内容样本的互异第二子内容，生成对齐负样本，互异第二子内容与第二子内容的模态相同；根据对齐正样本和对齐负样本对内容特征提取模型进行训练，以便得到训练后内容特征提取模型，并根据通过训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序包含计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序，能够被处理器进行加载，以执行本申请实施例所提供的任一种内容推荐方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种内容推荐方法，因此，可以实现本申请实施例所提供的任一种内容推荐方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种内容推荐方法、装置、计算机设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种内容推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每个内容样本中模态不同的第一子内容和第二子内容生成对齐正样本，包括：

基于每个内容样本中的文本内容和音频内容生成第二对齐正样本；

根据每个内容样本对应的第一对齐正样本和第二对齐正样本，生成所述对齐正样本。

3.根据权利要求1所述的方法，其特征在于，所述根据所述对齐正样本和所述对齐负样本对内容特征提取模型进行训练，包括：

分别对所述对齐正样本和所述对齐负样本进行掩码处理，得到掩码后正样本和掩码后负样本；

根据所述掩码后正样本和所述掩码后负样本对内容特征提取模型进行训练。

4.根据权利要求1和2所述的方法，其特征在于，所述根据所述对齐正样本和所述对齐负样本对内容特征提取模型进行训练，包括：

基于所述内容样本的目标模态子内容与所述互异内容样本的目标模态子内容，计算所述内容样本与所述互异内容样本之间的相似度；

根据所述相似度计算所述对齐负样本对应的负样本权重，所述相似度与所述样本权重呈负相关；

根据所述对齐正样本、所述对齐负样本以及所述负样本权重对所述内容特征提取模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述根据通过所述训练后内容特征提取模型，对待分发内容进行多模态特征提取得到的多模态内容特征信息进行内容推荐，包括：

获取待分发内容，以及所述待分发内容的内容互动数据和内容发布对象；

对所述内容互动数据进行趋势拟合，得到所述待分发内容的互动趋势特征信息；

通过所述训练后内容特征提取模型，对所述待分发内容中的多模态内容进行内容特征提取，得到所述待分发内容的多模态内容特征信息；

基于所述内容发布对象的对象数据，对所述内容发布对象进行对象特征提取，得到所述内容发布对象的对象特征信息；

将所述互动趋势特征信息、所述多模态内容特征信息和所述对象特征信息进行特征融合处理，得到所述待分发内容的融合后内容特征信息；

根据所述融合后内容特征信息，对所述待分发内容进行内容推荐。

6.根据权利要求5所述的方法，其特征在于，所述通过所述训练后内容特征提取模型，对所述待分发内容中的多模态内容进行内容特征提取，得到所述待分发内容的多模态内容特征信息，包括：

对所述待分发内容中进行多模态内容提取，得到所述待分发内容中包含的不同模态的子内容；

通过所述训练后内容特征提取模型，分别对不同模态的子内容进行内容特征提取，得到每个所述子内容的内容特征信息；

根据每个子内容的内容特征信息得到所述待分发内容的多模态内容特征信息。

7.根据权利要求5-6任一项所述的方法，其特征在于，所述根据所述融合后内容特征信息，对所述待分发内容进行内容推荐，包括：

根据所述融合后内容特征信息，预测所述待分发内容的推荐程度；

若所述推荐程度满足预设条件，则获取与所述待分发内容对应的目标对象；

向所述目标对象推荐所述待分发内容。

8.一种内容推荐装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至7任一项所述的内容推荐方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行权利要求1至7任一项所述的内容推荐方法。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的内容推荐方法。