CN112118486A

CN112118486A - 内容项投放方法、装置、计算机设备及存储介质

Info

Publication number: CN112118486A
Application number: CN201910542169.2A
Authority: CN
Inventors: 姚舰航; 高小平; 王利
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2020-12-22
Anticipated expiration: 2039-06-21
Also published as: CN112118486B

Abstract

本公开关于一种内容项投放方法、装置、计算机设备及存储介质。通过获取待过滤视频数据和内容项数据；确定相同视频类别的待过滤视频数据和内容项数据之间的相似度；将相似度小于目标阈值的视频数据从待过滤视频数据中滤除，获得过滤后的视频数据；基于过滤后的视频数据对应的用户行为数据，进行内容项投放。本公开的实施例通过基于待过滤视频数据与内容项数据之间的相似程度，来确定待过滤视频数据中噪声数据，并将确定出的噪声数据过滤，减少了噪声数据对用户行为数据分析过程中的负面影响，有效地解决了目标内容项数据的稀疏性问题，从而实现了内容项的精准投放。

Description

内容项投放方法、装置、计算机设备及存储介质

技术领域

本公开涉及定向投放技术领域，尤其涉及一种内容项投放方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术与业务的发展，为了实现例如广告等内容项的精准定向投放，需要采集用户对于内容项的用户行为数据，基于该行为数据确定出用户偏好，并投放与用户偏好相对应的内容项，然而，在该用户行为数据中，通常会存在大量的数值缺失或者数值为零的情况，导致数据稀疏性较大，基于这种稀疏性较大的数据所分析出的用户偏好通常是不准确的，最终会导致向用户推送了用户不感兴趣的内容项，造成资源浪费。

目前，为了解决上述问题，通常会在分析用户偏好的过程中引入其它领域的用户行为数据，以达到降低用户行为数据的稀疏性。

但是，如果将其它领域内的用户行为数据全量引入，虽然解决了用户行为数据稀疏的问题，但所引入的用户行为数据并不一定全部具备分析价值，也就导致了引入大量行为噪声，反而影响用户偏好挖掘的准确性，从而影响了内容项投放的准确性。

发明内容

本公开提供一种内容项投放方法、装置、计算机设备及存储介质，以至少解决相关技术中目标领域中引入了大量行为噪声而导致影响用户偏好挖掘的准确性以及影响了内容项投放的准确性的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种内容项投放方法，包括

获取待过滤视频数据和内容项数据；

确定相同视频类别的待过滤视频数据和内容项数据之间的相似度；

将相似度小于目标阈值的视频数据从待过滤视频数据中滤除，获得过滤后的视频数据；

基于过滤后的视频数据对应的用户行为数据，进行内容项投放。

在一种可能的实现方式中，上述确定相同视频类别的待过滤视频数据和内容项数据之间的数据相似度包括：

对于一个视频类别，获取视频类别对应的待过滤视频特征向量和内容项特征向量之间的相似度；其中，待过滤视频特征向量为待过滤视频数据的特征向量；内容项特征向量为内容项数据的特征向量。

在一种可能的实现方式中，上述获取视频类别对应的待过滤视频特征向量和内容项特征向量之间的相似度，包括：

对待过滤视频特征向量和内容项特征向量进行点积运算，得到待过滤视频特征向量与内容项特征向量的余弦值；

基于余弦值确定为相似度。

在一种可能的实现方式中，上述确定相同视频类别的待过滤视频数据和内容项数据之间的相似度之前，包括：

基于各个待过滤视频数据中的图像帧进行特征提取，得到各个待过滤视频数据的特征向量；

基于各个待过滤视频数据的特征向量，对各个待过滤视频数据的特征向量进行分类，得到多个待过滤视频特征向量以及各个待过滤视频特征向量对应的视频类别；以及

基于各个内容项数据中的图像帧进行特征提取，得到各个内容项数据的特征向量；

基于各个内容项数据的特征向量，对各个内容项数据的特征向量进行分类，得到多个内容项特征向量以及各个内容项特征向量对应的视频类别。

在一种可能的实现方式中，上述基于过滤后的视频数据对应的用户行为数据，进行内容项投放，包括：

结合过滤后的视频数据对应的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好；

基于用户偏好，进行内容项投放。

在一种可能的实现方式中，上述结合过滤后的视频数据对应的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好，包括：

将过滤后的视频数据对应的用户行为数据映射为内容项数据的用户行为数据；

基于映射后的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好。

在一种可能的实现方式中，上述基于用户偏好，进行内容项投放，包括：

获得用户偏好权重表，用户偏好权重表包括多个用户偏好所对应的权重取值；

基于用户偏好权重表，确定出用户偏好权重；

基于用户偏好权重，投放与用户行为偏好权重相对应的内容项。

根据本公开实施例的第二方面，提供一种内容项投放装置，包括：

获取单元，被配置为获取待过滤视频数据和内容项数据；

确定单元，被配置为确定相同视频类别的待过滤视频数据和内容项数据之间的数据相似度；

过滤单元，被配置为将相似度小于目标阈值的视频数据从待过滤视频数据中滤除，获得过滤后的视频数据；

投放单元，被配置为基于过滤后的视频数据以及对应的用户行为数据，进行内容项投放。

在一种可能的实现方式中，上述确定单元具体被配置为：

基于余弦值确定为相似度。

在一种可能的实现方式中，上述装置还包括：

特征提取单元，被配置为基于各个待过滤视频数据中的图像帧进行特征提取，得到各个待过滤视频数据的特征向量；基于各个待过滤视频数据的特征向量，对各个待过滤视频数据的特征向量进行分类，得到多个待过滤视频特征向量以及各个待过滤视频特征向量对应的视频类别；以及基于各个内容项数据中的图像帧进行特征提取，得到各个内容项数据的特征向量；基于各个内容项数据的特征向量，对各个内容项数据的特征向量进行分类，得到多个内容项特征向量以及各个内容项特征向量对应的视频类别。

在一种可能的实现方式中，上述投放单元被配置为：

基于用户偏好，进行内容项投放。

在一种可能的实现方式中，上述投放单元被配置为：

基于用户偏好权重表，确定出用户偏好权重；

根据本公开实施例的第三方面，提供一种计算机设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现如上述任一项的内容项投放方法。

根据本公开实施例的第四方面，提供一种存储介质，当存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行如上述任一项的内容项投放方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括可执行指令，当计算机程序产品中的指令由计算机设备的处理器执行时，使得计算机设备能够执行如上述任一项的内容项投放方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过基于待过滤视频数据与目标内容项数据之间的相似程度，来确定出待过滤视频数据中噪声数据，并将确定出的噪声数据过滤，减少了噪声数据对用户行为数据分析过程中的负面影响，有效地解决了内容项数据的稀疏性问题，从而实现了内容项的精准投放。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一内容项投放方法的流程图。

图2为根据一示例性实施例示出的获取待过滤视频特征向量的实现流程图。

图3为根据一示例性实施例示出的对待过滤视频数据进行过滤的示意图。

图4为根据一示例性实施例示出的基于过滤后的视频数据对应的用户行为数据进行内容项投放的实现流程图。

图5为根据一示例性实施例示出的基于用户偏好向用户投放广告的示意图。

图6是根据一示例性实施例示出的一种内容项投放装置框图。

图7是根据一示例性实施例示出的一种计算机设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

某些特定领域内，比如视频广告领域中，用户对于视频广告的行为数据采集难度较高，造成了该领域内的用户行为数据存在稀疏性，因此，建立一个大规模的并且数据质量良好的用户行为数据库是非常困难的。为了解决上述问题，可以将丰富的其他视频领域的用户行为数据映射至视频广告领域中，并对引入的用户行为数据进行过滤，减少所引入的行为噪声数据，并以此来实现降低视频广告领域中用户行为数据稀疏的问题，基于过滤后的用户行为数据数据分析用户偏好，实现向用户精准投放内容项，图1是根据一示例性实施例示出的一内容项投放方法的流程图，如图1所示，该内容项投放方法用于计算机设备中，包括以下步骤。

在步骤101中，获取待过滤视频数据和内容项数据。

在一种可能的实现方式中，为了使待过滤视频数据具备分析价值，可以从与内容项数据有关联的其它领域中获取待过滤的视频数据。

例如，上述内容项数据可以是具有特定内容的视频广告数据，包含了多个视频广告视频作品，可以基于广告内容确定出与广告内容相关联的其它视频领域，从该视视频领域中获取待过滤视频数据，其中，待过滤视频数据所包含的内容与内容项数据的内容相同或相似，使待过滤视频数据具备分析价值。

在步骤102中，确定相同视频类别的待过滤视频数据和内容项数据之间的相似度。

在一种可能的实现方式中，可以基于待过滤视频数据对应的特征向量集合与内容项数据对应的特征向量集合之间的相似度，确定出待过滤视频数据和内容项数据之间的相似度。

在实际应用中，视频数据的量级通常非常庞大，在计算特征向量集合之间的相似度时，会造成非常大的计算压力和存储压力，在本公开的一个实施例中，上述视频的特征向量之间的相似度的计算范围可以是相同视频类别下的视频的特征向量之间的相似度。如此，可以在大大减少计算量的同时，将无关视频类别的视频数据所带来的噪声数据滤除，保证了用户偏好分析的准确性。

在步骤103中，将相似度小于目标阈值的视频数据从待过滤视频数据中滤除，获得过滤后的视频数据。

在一种可能的实现方式中，在统计的层面上，待过滤视频数据与内容项数据之间的相似度直接表征了他们之间的关联程度，基于此，可以根据实际需求设定一个目标阈值，将待过滤视频数据和内容项数据之间的相似度大于等于目标度阈值的待过滤视频数据确定为向内容项数据映射的视频数据，将待过滤视频数据和内容项数据之间的相似度小于目标阈值的视频数据确定为噪声数据，并将该噪声数据从待过滤视频数据中剔除，实现对待过滤视频数据的过滤，保证了后续在对用户偏好分析的准确性。

在步骤104中，基于过滤后的视频数据对应的用户行为数据，进行内容项投放。

在一种可能的实现方式中，将过滤后的视频数据对应的用户行为数据映射为内容项数据的用户行为数据，并结合于内容项数据已有的用户行为数据，对用户的兴趣进行挖掘，确定出用户偏好，基于用户偏好确定出用户可能感兴趣的内容项，并将该内容项向用户投放，以解决内容项数据中用户行为数据的稀疏性问题，同时提升了用户偏好挖掘准确性，最终实现内容项的精准投放。

其中，上述过滤后的视频数据对应的用户行为数据可能会包括用户隐私等相关私密数据，因此，对于获取对应的包含有用户隐私的用户行为数据时，需要取得该用户针对于该用户行为数据的授权后，提取该用户行为数据，相应的，当该用户行为数据的归属于多个用户时，需要问询每个用户，在充分获得每个用户的授权后，才能提取该用户行为数据。

本公开的实施例通过确定出待过滤视频数据与目标内容项数据之间的相似程度，确定出待过滤视频数据中噪声数据，并将确定出的噪声数据过滤，减少了噪声数据对用户行为数据分析过程中的负面影响，有效地解决了目标内容项数据的稀疏性问题，同时提高了所分析出用户标签的精确性，实现了内容项的精准投放。

上述实施例仅是本公开的实施方式的一个简要介绍以及各种可能实现方式的简要介绍，为了实现上述内容项投放方法，基于相同视频类别的待过滤视频数据和内容项数据之间的相似度，对待过滤视频数据进行过滤，将过滤后的是视频数据对应的用户行为数据映射为内容项数据的用户行为数据，并对用户行为数据进行挖掘，确定出用户偏好，向用户投放与用户偏好相对应的内容项。而对于具体如何确定待过滤视频数据与内容项数据之间的相似度，本公开实施例可以通过下述图2所示实现方式进行。

由于待过滤视频数据和内容项数据均是高维度的视频数据，而直接确定高维度数据之间的相似度通常是难以实现的，因此，通过对待过滤视频数据和内容项数据进行特征提取，将待过滤视频数据和内容项数据分别以低纬度的特征向量进行表征，在降低过滤视频数据和内容项数据的数据维度时，保证了过滤视频数据和内容项数据的数据完整性，参见图2，该图2为根据一示例性实施例示出的获取待过滤视频特征向量的实现流程图，具体包括如下步骤：

在步骤201中，基于各个待过滤视频数据中的图像帧进行特征提取，得到各个待过滤视频数据的特征向量。

在一种可能的实现方式中，按照预设的抽取频率从各个待过滤视频数据中抽取图像帧，对所抽取到的图像帧进行特征提取，得到各个待过滤视频数据的特征向量。

在一种可能的实现方式中，视频的封面图像是该视频内容的一种重要体现，可以表征出该视频的一定特征，因此，在对所抽取到的图像帧进行特征提取时，还可以加入对该待过滤视频数据的封面图像进行特征提取的步骤，将对图像帧的特征数据与封面图像的特征数据进行结合，得到各个待过滤视频数据的特征向量，提高了该特征向量的准确性。

例如，将待过滤视频数据的封面图像和所抽取的图像帧输入至已训练好的卷积神经网络中，输出待过滤视频数据的特征向量，其中，该卷积神经网络可以包括多个层级网络，具体可以包括：数据输入层、卷积计算层、激励层、池化层、全连接层等，通过这些层级网络依次对封面图像和所抽取的图像帧中的图像进行去均值化处理、卷积计算、非线性映射、减少过拟合、还原输入信息后，最终获得待过滤视频数据的特征向量，实现了高维度待过滤视频数据的降维处理。

在步骤202中，基于各个待过滤视频数据的特征向量，对各个待过滤视频数据的特征向量进行分类，得到多个待过滤视频特征向量以及各个待过滤视频特征向量对应的视频类别。

为了提高后续确定待过滤视频数据与内容项数据之间的相似度的效率，可以计算相同视频类别下的待过滤视频特征向量和内容项特征向量之间的相似度，因此，对得到的各个待过滤视频数据的特征向量进行分类，获得到多个待过滤视频特征向量以及各个待过滤视频特征向量对应的视频类别。

在本发明的一个实施例中，获取内容项特征向量，具体包括如下步骤：

在步骤203中，基于各个内容项数据中的图像帧进行特征提取，得到各个内容项数据的特征向量。

在步骤204中，基于各个内容项数据的特征向量，对各个内容项数据的特征向量进行分类，得到多个内容项特征向量以及各个内容项特征向量对应的视频类别。

由于上述获取内容项特征向量的实现原理与上述获取待过滤视频特征向量相同，因此，获取内容项特征向量具体内容可以参照上述获取待过滤视频特征向量的相关内容，这里不再赘述。

当通过上述步骤201-步骤204得到待过滤视频特征向量和内容项特征向量后，对相同视频类别下各待过滤视频特征向量与各内容项特征向量进行点积运算，得到待过滤视频特征向量与内容项特征向量的相似度，具体的，通过下述公式(1)计算第一特征向量集合和第二特征向量集合之间的相似度：

其中，

其中，sim<p_i,p_j′>表示点积运算函数，p_i表示第i个待过滤视频特征向量，p_j′表示第j个内容项特征向量，

表示第i个待过滤视频特征向量的倒置矩阵，v_j′表示第j个内容项特征向量的矩阵，

与v_j′是点积运算，

表示第i个待过滤视频特征向量与第j个内容项特征向量属于同一个视频类别。

在一种可能的实现方式中，可以通过上述公式(1)计算待过滤视频特征向量和内容项特征向量之间夹角余弦值来评估其之间的相似度。

例如，余弦值的取值范围是[-1,1]，两个特征向量之间的夹角所对应的余弦值可以确定像个向量的方向是否一致，当两个特征向量的方向相同时，其余弦值为1，那么，这两个特征向量之间的相似度可以是100％，当两个特征向量的方向完全相反是，其余弦值为-1，两个特征向量之间的相似度与可以是0％，当两个特征向量的夹角是90度时，其余弦值为0，可以确定两个特征向量之间是独立的。

在确定相同视频类别的待过滤视频数据和内容项数据之间的相似度后，基于该相似度对待过滤视频数据进行过滤。而对于具体如何对待过滤视频数据进行过滤，本公开实施例可以通过下述图3所示实现方式进行。

在一种可能的实现方式中，基于相同视频类别的待过滤视频数据和内容项数据之间的相似度，构建视频相似矩阵，通过该视频相似矩阵可以将待过滤视频数据选择性地映射为内容项数据，实现对待过滤视频数据进行过滤，解决了内容项数据的稀疏性问题，参照图3，该图3为根据一示例性实施例示出的对待过滤视频数据进行过滤的示意图，上述视频相似矩阵的构建依赖于对视频内容的理解，在上述步骤201-步骤204中，对待过滤视频数据和内容项数据进行特征提取后，获得对应的特征向量，该特征向量可以用来表征待过滤视频数据和内容项数据的视频内容，将各个待过滤视频特征向量和内容项特征向量之间的相似度与预设的目标阈值进行比对，将相似度小于目标阈值的视频数据从待过滤视频数据中滤除，最终获得相似度大于等于目标阈值的待过滤视频特征向量和内容项特征向量之间的相似度，基于该大于等于目标阈值的相似度，构建视频相似矩阵实现将待过滤视频数据选择性地映射为内容项数据。

例如，在视频相似矩阵中，对于视频类别C₁，待过滤视频数据中在C₁类别下视频的特征向量包括了P₁和P₂，内容项数据中由于数据的稀疏性，在C₁类别下的视频的特征向量仅有P₁’,那么，分别计算P₁与P₁’、P₂与P₁’之间的相似度，现假设计算获得P₁与P₁’的相似度是80％、P₂与P₁’的相似度是40％，并且预设的目标阈值为50％，那么，低于50％的待过滤视频数据会被滤除，即P₂的视频数据以及对应的用户行为数据不会被映射到P₁’中，当后续对P₁’进行用户偏好分析时，所分析的数据只能是包括P₁’和P₁所对应的视频数据以及对应的用户行为数据。

在一种可能的实现方式中，上述视频相似矩阵是实时基于已有的待过滤视频数据和内容项数据进行构建，省去了获取大量的样本数据进行构建对已经建立的模型在此进行训练的过程，因此，本公开所提出的基于相似度对待过滤视频数据进行过滤的方法可以实现更高效的视频数据过滤以及映射过程。

对待过滤视频数据进行过滤后，即可根据过滤后的视频数据对应的用户行为数据，进行用户偏好分析，基于所分析出的用户偏好进行内容项投放。而对于具体如何进行内容项投放，本公开实施例可以通过下述图4所示实现方式进行。参见图4，该图4为根据一示例性实施例示出的基于过滤后的视频数据对应的用户行为数据进行内容项投放的实现流程图，具体包括如下步骤：

在步骤401中，结合过滤后的视频数据对应的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好。

其中，将过滤后的视频数据对应的用户行为数据映射为内容项数据的用户行为数据，基于映射后的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好。

在一种可能的实现方式中，结合过滤后的视频数据对应的用户行为数据和内容项数据对应的用户行为数据结合后，对用户的偏好进行分析，建立一个用户偏好模型，该模型中包含各个用户的一个或多个品号，基于该模型推测出用户的兴趣，从而给用户推荐满足其兴趣的内容项。

例如，当基于用户行为数据分析来建立用户偏好模型时，必须把用户行为和兴趣主题限定在一个实体域上。比如对于视频网站，实体域包括所有的视频，称之为视频域，根据视频内容的不同，视频域还可以再被划分为多个子视频域，例如广告视频域、影视视频域、社区视频域等。

用户行为数据可以是用户在门户网站点击资讯、评论资讯，在社交网站发布状态、评论状态，在电商网站浏览商品、购买商品、点评商品等用户行为，在本公开的一个实施例中，过滤后的视频数据对应的用户行为数据是指用户在视频域上的行为，比如用户在视频上产生的大量的互动行为：点击播放、点赞、妆发、负反馈等数据；而内容项数据对应的用户行为数据可以是基本的点击、点赞行为，还可以包括下载、安装、激活、表单提交等数据。

在本公开的一个实施例中，可以通过矩阵运算的方式对用户行为数据进行转换，确定用户偏好，首先，根据用户行为数据确定出的用户行为矩阵；其次，确定转换关系矩阵，该转换关系矩阵可以是用户偏好权重信息，包括多个用户偏好所对应的权重取值；最后，基于转换关系矩阵对用户行为矩阵进行转换，获得新的矩阵用来表征用户针对与各个视频的偏好，在该矩阵中，每个值代表了用户在某个兴趣上的偏好权重。

在步骤402中，基于用户偏好，进行内容项投放。

其中，基于该用户偏好的矩阵进行筛选，比如对用户在各个兴趣上的偏好权重按照权重值从大到小的顺序，对用户的兴趣进行排序，获得兴趣排名列表，从该兴趣排名列表中选取出排名前20的用户兴趣，从内容项数据中确定出与该排名前20的用户兴趣对应的内容项，并向用户投放。

本公开的实施例通过基于待过滤视频数据与内容项数据之间的相似程度，来确定待过滤视频数据中噪声数据，并将确定出的噪声数据过滤，减少了噪声数据对用户行为数据分析过程中的负面影响，有效地解决了目标内容项数据的稀疏性问题，从而实现了内容项的精准投放。

为了加深对本公开实施例的实现方式的理解，待过滤视频数据可以是社区视频，内容项数据可以是广告视频，通过社区视频中丰富的用户社区行为数据，确定社区视频与广告视频之间的相似度，基于该相似度对用户社区行为数据进行过滤，并将过滤后的用户社区行为数据映射到广告视频的用户广告行为数据中，以解决广告视频中用户广告行为数据的稀疏性问题，从而更充分挖掘用户潜在商业意图，确定出用户偏好，从而实现了广告的精准投放，下面通过向用户投放广告的具体实施例对公开所提出的内容项投放方法进行详细阐述，

参见图5，该图5为根据一示例性实施例示出的基于用户偏好向用户投放广告的示意图，具体的，

在本公开的一个实施例中，根据用户社区视频行为数据确定用户社区视频偏好，在实际应用中，用户每天会在社区视频上产生大量的互动行为，本公开通过选取用户历史一段时间内点击播放、点赞、转发、负反馈等显式反馈的用户社区行为数据并通过行为加权来计算用户社区视频偏好，同时为了避免用户行为噪声以及热门视频产生的兴趣偏差，在计算过程中将热门视频中将突然增长的用户社区行为数据滤除，同时将视频点击播放小于3s的用户社区行为数据视为无效，最终，用户社区视频偏好可以通过下述公式(2)计算获得：

其中，f()代表模型函数，可选择相关线性加权、协同过滤以及深度学习等模型，u_i表示用户的第i个用户社区行为数据，p_i表示第i个社区视频，然后通过对视频数据对应的用户社区行为数据(u_点击,u_点赞,u_分享,u_负反馈)进行计算，精确刻画出用户社区视频偏好。

在本公开的一个实施例中，根据用户广告视频行为数据确定用户广告视频偏好，用户对广告视频的行为直接反映用户最真实的商业兴趣，并且不同于用户社区视频行为数据，用户广告视频行为数据链路更长，包括基本的点击行为、点赞行为，同时还包括：bar点击、下载、安装、激活、表单提交等，而广告负反馈行为则更能折射出用户的喜好，最终用户广告视频偏好通过下述公式(3)计算获得：

其中，g()代表模型函数，可选择相关线性加权、协同过滤以及深度学习等模型，u_i表示用户的第i个用户广告视频行为数据，p’_i表示第i个广告视频，然后通过对用户广告视频行为数据(u_点击,u_点赞,u_安装,u_激活,u_负反馈)进行计算，得到用户广告视频偏好。

在本公开的一个实施例中，将社区视频对应的用户社区视频行为数据向广告视频对应的用户广告视频行为数据映射时，主要通过构建社区视频与广告视频的视频相似矩阵实现，视频相似矩阵的构建依赖于对社区视频和广告视频的内容理解，可以通过社区视频和广告视频的图像封面与抽帧建模得到社区视频和广告视频中每个视频相应的特征向量以及每个特征向量对应的视频类别，然后计算各个特征向量之间的相似度构建该视频相似矩阵，但由于视频库存量级非常大，如果直接在笛卡尔空间内计算相似度，不仅会造成计算性能和存储的压力，同时，也会引入非常大的社区行为噪声数据，进而影响映射效果。因此，本公开所提出的相似计算范围被限制在同一视频类别下的社区视频的特征向量与广告视频的特征向量的范围中，大大减少计算量的同时，也过滤掉无关视频类别带来的行为噪声，具体的，社区视频和广告视频之间的相似度通过上述公式(1)计算获得：

其中，

其中，sim<p_i,p_j′>表示点积运算函数，p_i表示第i个社区视频特征向量，p_j′表示广告视频中第j个特征向量，

表示社区视频中第i个特征向量的倒置矩阵，v_j′表示广告视频第j个特征向量的矩阵，

与v_j′是点积运算，

表示社区视频中第i个特征向量与广告视频中第j个特征向量属于同一个视频类别。

基于前述方案，基于用户社区视频偏好和上述视频相似矩阵，将用户社区视频偏好向用户广告视频偏好映射，获得映射后的用户广告视频偏好，具体可以通过下述公式(4)计算获得：

其中，

表示用户社区视频偏好，sim<p_i,p_j′>表示相似度。

在本公开的一个实施例中，计算用户商业兴趣偏好，对广告视频的偏好进行挖掘并进行行业维度聚合得到用户商业兴趣标签，具体可以通过下述公式(5)计算获得：

其中，I_w表示行业维度，其中包括有w个行业维度，

表示视频类别，并且该视频类别属于行业维度I_w，α和β表示权重系数，

表示映射后的用户广告视频偏好，

表示用户广告视频偏好，

对于在行业维度下用户行为标签。

本公开的实施例将丰富的用户社区行为数据映射作为广告视频的用户广告行为数据，解决了用户广告行为的数据稀疏性问题，有效缓解用户商业兴趣冷启动，通过基于待过滤视频数据与内容项数据之间的相似程度，来确定社区行为数据中噪声数据，并将确定出的噪声数据过滤，有效过滤掉非商业行为的噪声，同时解决部分行业广告主冷启动问题，保证商业兴趣覆盖到广告全行业。

图6是根据一示例性实施例示出的一种业务数据检测装置框图。参照图6，该装置包括：

获取单元601，被配置为获取待过滤视频数据和内容项数据；

确定单元602，被配置为确定相同视频类别的待过滤视频数据和内容项数据之间的数据相似度；

过滤单元603，被配置为将相似度小于目标阈值的视频数据从待过滤视频数据中滤除，获得过滤后的视频数据；

投放单元604，被配置为基于过滤后的视频数据以及对应的用户行为数据，进行内容项投放。

在一种可能的实现方式中，上述确定单元602具体被配置为：

基于余弦值确定为相似度。

在一种可能的实现方式中，上述装置还包括：

特征提取单元605，被配置为基于各个待过滤视频数据中的图像帧进行特征提取，得到各个待过滤视频数据的特征向量；基于各个待过滤视频数据的特征向量，对各个待过滤视频数据的特征向量进行分类，得到多个待过滤视频特征向量以及各个待过滤视频特征向量对应的视频类别；以及基于各个内容项数据中的图像帧进行特征提取，得到各个内容项数据的特征向量；基于各个内容项数据的特征向量，对各个内容项数据的特征向量进行分类，得到多个内容项特征向量以及各个内容项特征向量对应的视频类别。

在一种可能的实现方式中，上述投放单元604被配置为：

基于用户偏好，进行内容项投放。

在一种可能的实现方式中，上述投放单元604被配置为：

基于用户偏好权重表，确定出用户偏好权重；

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种计算机设备的框图。该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条指令，至少一条指令由处理器701加载并执行以实现上述各个方法实施例提供的业务数据检测方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种内容项投放方法，其特征在于，包括：

获取待过滤视频数据和内容项数据；

确定相同视频类别的所述待过滤视频数据和所述内容项数据之间的相似度；

将所述相似度小于目标阈值的视频数据从所述待过滤视频数据中滤除，获得过滤后的视频数据；

基于所述过滤后的视频数据对应的用户行为数据，进行内容项投放。

2.根据权利要求1所述的方法，其特征在于，所述确定相同视频类别的所述待过滤视频数据和所述内容项数据之间的相似度包括：

对于一个视频类别，获取所述视频类别对应的待过滤视频特征向量和内容项特征向量之间的相似度；其中，所述待过滤视频特征向量为待过滤视频数据的特征向量；所述内容项特征向量为内容项数据的特征向量。

3.根据权利要求2所述的方法，其特征在于，所述获取所述视频类别对应的待过滤视频特征向量和内容项特征向量之间的相似度，包括：

对所述待过滤视频特征向量和所述内容项特征向量进行点积运算，得到所述待过滤视频特征向量与所述内容项特征向量的余弦值；

基于所述余弦值确定为所述相似度。

4.根据权利要求2所述的方法，其特征在于，所述确定相同视频类别的所述待过滤视频数据和所述内容项数据之间的相似度之前，包括：

基于各个待过滤视频数据中的图像帧进行特征提取，得到所述各个待过滤视频数据的特征向量；

基于所述各个待过滤视频数据的特征向量，对所述各个待过滤视频数据的特征向量进行分类，得到多个待过滤视频特征向量以及各个待过滤视频特征向量对应的视频类别；以及

基于各个内容项数据中的图像帧进行特征提取，得到所述各个内容项数据的特征向量；

基于所述各个内容项数据的特征向量，对所述各个内容项数据的特征向量进行分类，得到多个内容项特征向量以及各个内容项特征向量对应的视频类别。

5.根据权利要求1所述的方法，其特征在于，所述基于所述过滤后的视频数据对应的用户行为数据，进行内容项投放，包括：

结合所述过滤后的视频数据对应的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好；

基于所述用户偏好，进行内容项投放。

6.根据权利要求1所述的方法，其特征在于，所述结合所述过滤后的视频数据对应的用户行为数据和内容项数据对应的用户行为数据，确定出用户偏好，包括：

将所述过滤后的视频数据对应的用户行为数据映射为所述内容项数据的用户行为数据；

基于映射后的所述用户行为数据和所述内容项数据对应的用户行为数据，确定出用户偏好。

7.根据权利要求6所述的方法，其特征在于，所述基于所述用户偏好，进行内容项投放，包括：

获得用户偏好权重表，所述用户偏好权重表包括多个用户偏好所对应的权重取值；

基于用户偏好权重表，确定出用户偏好权重；

基于所述用户偏好权重，投放与所述用户行为偏好权重相对应的内容项。

8.一种内容项投放装置，其特征在于，包括：

获取单元，被配置为获取待过滤视频数据和内容项数据；

确定单元，被配置为确定相同视频类别的所述待过滤视频数据和所述内容项数据之间的数据相似度；

过滤单元，被配置为将所述相似度小于目标阈值的视频数据从所述待过滤视频数据中滤除，获得过滤后的视频数据；

投放单元，被配置为基于所述过滤后的视频数据以及对应的用户行为数据，进行内容项投放。

9.一种计算机设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的内容项投放方法。

10.一种存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行如权利要求1至7中任一项所述的内容项投放方法。