CN113255473B

CN113255473B - 视频识别方法及装置、视频封面识别模型生成方法及装置

Info

Publication number: CN113255473B
Application number: CN202110495382.XA
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2022-11-11
Anticipated expiration: 2041-05-07
Also published as: CN113255473A

Abstract

本公开关于一种视频识别方法及装置、视频封面识别模型生成方法及装置，该视频识别方法包括：从待检测视频中抽取第一预设数量的待检测图像，以及获取待检测视频的待检测封面；将待检测封面与每一待检测图像组成一组待检测图像对，得到第一预设数量的待检测图像对；将第一预设数量的待检测图像对输入预设的视频封面识别模型，得到第一预设数量的待检测图像相似度；根据第一预设数量的待检测图像相似度，确定出待检测视频的视频类型。从而，视频封面识别模型可以分两路对待检测图像对中的待检测图像和待检测封面分别进行特征的提取，得到待检测图像相似度，提高了相似度识别的准确性，进而提高了视频类型识别的准确性，降低了视频类型检测的误判率。

Description

视频识别方法及装置、视频封面识别模型生成方法及装置

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频识别方法及装置、视频封面识别模型生成方法及装置。

背景技术

随着互联网技术及智能移动终端设备的发展，近年来，出现了各种用于视频上传、下载或观看的技术。越来越多的用户也会通过观看视频来获取信息。然而，随着视频行业的不断繁荣，出现了很多在视频封面添加夸张、诱导性文字或图像的行为，用以吸引浏览者注意，骗取视频点击量。对于此种封面与视频内容不一致的视频，传统技术中，一般是通过标注人员观看视频，标注视频类型，形成训练数据，去训练一个识别视频类型的模型，通过模型来判断视频的类型。

然而，传统技术中通过标注人员人工观看视频，标注视频类型，形成训练数据的方法，高度依赖人工标注，需要耗费大量的人力物力，且人工标注的准确率和召回率不高，因此，采用传统技术，视频类型识别的误判率非常高。

发明内容

本公开提供一种视频识别方法及装置、视频封面识别模型生成方法及装置，以至少解决相关技术中视频类型识别的误判率非常高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频识别方法，包括：

从待检测视频中抽取第一预设数量的待检测图像，以及获取所述待检测视频的待检测封面；

将所述待检测封面与每一所述待检测图像组成一组待检测图像对，得到所述第一预设数量的待检测图像对；

将所述第一预设数量的待检测图像对输入预设的视频封面识别模型，得到所述第一预设数量的待检测图像相似度；

根据所述第一预设数量的待检测图像相似度，确定出所述待检测视频的视频类型；其中，所述视频类型包括第一视频类型和第二视频类型，所述第一视频类型为视频封面不能反映视频内容的视频，所述第二视频类型为视频封面能反映视频内容的视频。

在一示例性实施例中，所述根据所述第一预设数量的待检测图像相似度，确定出所述待检测视频的视频类型，包括：

比较所述第一预设数量的待检测图像相似度与第一预设阈值之间的大小，并获取小于所述第一预设阈值的待检测图像相似度的数量；

比较所述数量与第二预设阈值之间的大小，当所述数量大于所述第二预设阈值时，判定所述待检测视频为所述第一视频类型，否则判定所述待检测视频为所述第二视频类型；其中，所述第二预设阈值小于或等于所述第一预设数量。

在一示例性实施例中，所述根据所述第一预设数量的待检测图像相似度，确定出所述待检测视频的视频类型，还包括：

获取所述第一预设数量的待检测图像相似度的加权和；

比较所述加权和与所述第一预设阈值之间的大小，当所述加权和小于所述第一预设阈值时，判定所述待检测视频为所述第一视频类型，否则判定所述待检测视频为所述第二视频类型。

在一示例性实施例中，所述将所述第一预设数量的待检测图像对输入预设的视频封面识别模型之前还包括获取所述视频封面识别模型，所述获取所述视频封面识别模型，包括：

获取目标视频集，以及获取所述目标视频集中目标视频的视频类型；

对于所述目标视频集中的每一目标视频，获取所述目标视频的目标封面，以及从所述目标视频中抽取第二预设数量的目标图像；

将所述目标封面与每一所述目标图像组成一组目标图像对，得到第三预设数量的目标图像对；

以所述第三预设数量的目标图像对为输入，所述目标视频的视频类型为监督信息，对预设的模型进行训练，得到所述视频封面识别模型。

在一示例性实施例中，所述获取所述目标视频集中目标视频的视频类型，包括：

获取所述目标视频集中每一目标视频的点击率和长播率；

根据所述目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型。

在一示例性实施例中，所述根据所述目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型，包括：

根据所述目标视频集中每一目标视频的点击率和长播率，确定出点击率均值、点击率方差、长播率均值和长播率方差；

获取所述点击率与所述点击率均值的第一差值，所述点击率方差与第一预设数值的第一乘积，以及获取所述长播率均值与所述长播率的第二差值，所述长播率方差与第二预设数值的第二乘积；

根据所述第一差值、所述第一乘积、所述第二差值和所述第二乘积，确定出所述目标视频的视频类型。

在一示例性实施例中，所述根据所述第一差值、所述第一乘积、所述第二差值和所述第二乘积，确定出所述目标视频的视频类型，包括：

比较所述第一差值与所述第一乘积之间的大小，以及比较所述第二差值与所述第二乘积之间的大小；

当所述第一差值大于所述第一乘积，且所述第二差值大于所述第二乘积时，判定所述目标视频的视频类型为所述第一视频类型，否则判定所述目标视频的视频类型为所述第二视频类型。

在一示例性实施例中，所述以所述第三预设数量的目标图像对为输入，所述目标视频的视频类型为监督信息，对预设的模型进行训练，得到所述视频封面识别模型，包括：

当所述目标视频的视频类型为所述第一视频类型时，判定所述目标视频对应的第三预设数量的目标图像对的图像内容不一致；

当所述目标视频的视频类型为所述第二视频类型时，判定所述目标视频对应的第三预设数量的目标图像对的图像内容一致；

以所述第三预设数量的目标图像对为输入，所述第三预设数量的目标图像对的图像内容为监督信息，对所述预设的模型进行训练，得到所述视频封面识别模型。

在一示例性实施例中，所述视频封面识别模型为能识别两个图像之间的相似度的双塔模型。

根据本公开实施例的第二方面，提供一种视频封面识别模型生成方法，包括：

获取目标视频集，以及获取所述目标视频集中目标视频的视频类型；其中，所述视频类型包括第一视频类型和第二视频类型，所述第一视频类型为视频封面不能反映视频内容的视频，所述第二视频类型为视频封面能反映视频内容的视频；

获取所述目标视频集中每一目标视频的点击率和长播率；

比较所述第一差值与所述第一乘积之间的大小，以及比较所述第二差值与所述第二乘积之间的大小；当所述第一差值大于所述第一乘积，且所述第二差值大于所述第二乘积时，判定所述目标视频的视频类型为所述第一视频类型，否则判定所述目标视频的视频类型为所述第二视频类型。

根据本公开实施例的第三方面，提供一种视频识别装置，包括：

图像获取单元，被配置为执行从待检测视频中抽取第一预设数量的待检测图像，以及获取所述待检测视频的待检测封面；

图像对确定单元，被配置为执行将所述待检测封面与每一所述待检测图像组成一组待检测图像对，得到所述第一预设数量的待检测图像对；

相似度确定单元，被配置为执行将所述第一预设数量的待检测图像对输入预设的视频封面识别模型，得到所述第一预设数量的待检测图像相似度；

视频识别单元，被配置为执行根据所述第一预设数量的待检测图像相似度，确定出所述待检测视频的视频类型；其中，所述视频类型包括第一视频类型和第二视频类型，所述第一视频类型为视频封面不能反映视频内容的视频，所述第二视频类型为视频封面能反映视频内容的视频。

在一示例性实施例中，所述视频识别单元还被配置为执行：

获取所述第一预设数量的待检测图像相似度的加权和；

在一示例性实施例中，所述视频识别装置还包括模型生成单元，被配置为执行：

获取所述目标视频集中每一目标视频的点击率和长播率；

根据本公开实施例的第四方面，提供一种视频封面识别模型生成装置，包括：

视频获取单元，被配置为执行获取目标视频集，以及获取所述目标视频集中目标视频的视频类型；其中，所述视频类型包括第一视频类型和第二视频类型，所述第一视频类型为视频封面不能反映视频内容的视频，所述第二视频类型为视频封面能反映视频内容的视频；

图像获取单元，被配置为执行对于所述目标视频集中的每一目标视频，获取所述目标视频的目标封面，以及从所述目标视频中抽取第二预设数量的目标图像；

图像对获取单元，被配置为执行将所述目标封面与每一所述目标图像组成一组目标图像对，得到第三预设数量的目标图像对；

模型确定单元，被配置为执行以所述第三预设数量的目标图像对为输入，所述目标视频的视频类型为监督信息，对预设的模型进行训练，得到所述视频封面识别模型。

在一示例性实施例中，所述视频获取单元还被配置为执行：

获取所述目标视频集中每一目标视频的点击率和长播率；

在一示例性实施例中，所述视频获取单元还被配置为执行：

在一示例性实施例中，所述模型确定单元还被配置为执行：

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面的任一项实施例中所述的视频识别方法，或以实现上述第二方面的任一项实施例中所述的视频封面识别模型生成方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面的任一项实施例中所述的视频识别方法，或使得所述电子设备能够执行上述第二方面的任一项实施例中所述的视频封面识别模型生成方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述第一方面的任一项实施例中所述的视频识别方法，或使得设备执行上述第二方面的任一项实施例中所述的视频封面识别模型生成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过从待检测视频中抽取第一预设数量的待检测图像，以及获取待检测视频的待检测封面；将待检测封面与每一待检测图像组成一组待检测图像对，得到第一预设数量的待检测图像对；将第一预设数量的待检测图像对输入预设的视频封面识别模型，得到第一预设数量的待检测图像相似度；如此，可以利用视频封面识别模型分两路对待检测图像对中的待检测图像和待检测封面分别进行特征的提取，以得到对应的待检测图像相似度，从而根据待检测图像相似度，确定出待检测视频的视频类型，无需进行任何的人工标注，能够避免人工标注的不稳定性，提高了视频类型识别的准确性，降低了视频类型检测的误判率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频识别方法的流程图。

图2是根据一示例性实施例示出的步骤S200之前的一种可实施方式的流程图。

图3是根据一示例性实施例示出的步骤S210的一种可实施方式的流程图。

图4是根据一示例性实施例示出的步骤S213的一种可实施方式的流程图。

图5是根据一示例性实施例示出的步骤S240的一种可实施方式的流程图。

图6是根据一示例性实施例示出的一种视频封面识别模型生成方法的流程图。

图7是根据一示例性实施例示出的步骤SB210的一种可实施方式的流程图。

图8是根据一示例性实施例示出的步骤SB213的一种可实施方式的流程图。

图9是根据一示例性实施例示出的步骤SB240的一种可实施方式的流程图。

图10是根据一示例性实施例示出的一种视频识别装置框图。

图11是根据一示例性实施例示出的一种视频封面识别模型生成装置框图。

图12是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频识别方法的流程图，具体包括以下步骤：

步骤S100，从待检测视频中抽取第一预设数量的待检测图像，以及获取待检测视频的待检测封面。

步骤S200，将待检测封面与每一待检测图像组成一组待检测图像对，得到第一预设数量的待检测图像对。

步骤S300，将第一预设数量的待检测图像对输入预设的视频封面识别模型，得到第一预设数量的待检测图像相似度。

步骤S400，根据第一预设数量的待检测图像相似度，确定出待检测视频的视频类型；其中，视频类型包括第一视频类型和第二视频类型，第一视频类型为视频封面不能反映视频内容的视频，第二视频类型为视频封面能反映视频内容的视频。

其中，待检测视频是指需要进行视频类型检测的视频。第一预设数量是指从待检测视频中抽取的图像帧的数量，该第一预设数量可以为10、15、20不等。视频封面模型为能识别两个图像之间相似度的模型，该模型可以通过把两路信息分别映射到低维空间，并计算两者相似度的多层神经网络结构的模型。

具体地，获取需要进行视频类型检测的视频，得到待检测视频。从待检测视频中抽取第一预设数量的图像帧，得到第一预设数量的待检测图像。获取待检测视频的封面，得到待检测封面。将待检测封面与第一预设数量的待检测图像一一组合，组成待检测图像对，得到第一预设数量的待检测图像对。示例地，待检测封面为C0，从待检测视频中抽取了15个图像帧，该15个图像帧分别为C1、C2、……、C15。将检测封面为C0与15个图像帧C1，C2，…，C15一一组合，组成待检测图像对，得到15个待检测图像对(C0，C1)、(C0，C2)、……、(C0，C15)。

获取视频封面识别模型，在获取到视频封面识别模型后，将第一预设数量的待检测图像对输入该视频封面识别模型，以使视频封面识别模型输出第一预设数量的待检测图像相似度。并根据第一预设数量的待检测图像相似度，确定出待检测视频的视频类型。其中，视频类型包括第一视频类型(也称作封面党视频)和第二视频类型(也称作非封面党视频)，第一视频类型为视频封面不能反映视频内容的视频，第二视频类型为视频封面能反映视频内容的视频。

上述视频识别方法中，通过从待检测视频中抽取第一预设数量的待检测图像，以及获取待检测视频的待检测封面；将待检测封面与每一待检测图像组成一组待检测图像对，得到第一预设数量的待检测图像对；将第一预设数量的待检测图像对输入预设的视频封面识别模型，得到第一预设数量的待检测图像相似度；如此，可以利用视频封面识别模型分两路对待检测图像对中的待检测图像和待检测封面分别进行特征的提取，以得到对应的待检测图像相似度，从而根据待检测图像相似度，确定出待检测视频的视频类型，无需进行任何的人工标注，能够避免人工标注的不稳定性，提高了视频类型识别的准确性，降低了视频类型检测的误判率。

在一示例性实施例中，为步骤S140的一种可实施方式，包括：

比较第一预设数量的待检测图像相似度与第一预设阈值之间的大小，并获取小于第一预设阈值的待检测图像相似度的数量；比较该数量与第二预设阈值之间的大小，当该数量大于第二预设阈值时，判定待检测视频为第一视频类型，否则判定待检测视频为第二视频类型；其中，第二预设阈值小于或等于第一预设数量。

其中，第一预设阈值是为相似度设置的临界值，第一预设阈值可以为0.7、0.8、0.9不等，通过还第一预设阈值，可以判断待检测图像对的相似性。第二预设阈值是指是为相似度数量设置的临界值，第二预设阈值一般与第一预设数量相关，可以设置为第一预设数量的一半、三分之一或四分之一不等，也可以设置为小于或等于第一预设数量的任意数值。

具体地，从待检测视频中抽取的待检测图像能一定程度代表待检测视频的内容，因此，待检测图像相似度越小，说明待检测图像对中的两个图像内容越不一致，即待检测封面不能反映视频内容。因此，为判断待检测视频的视频类型，需要检测第一预设数量的待检测图像相似度与第一预设阈值之间的大小关系，并统计小于第一预设阈值的待检测图像相似度的数量。同时，比较小于第一预设阈值的待检测图像相似度的数量与第二预设阈值之间的大小，当小于第一预设阈值的待检测图像相似度的数量大于第二预设阈值时，说明待检测图像与待检测视频封面的相似性很小，则判定待检测视频为第一视频类型，否则判定待检测视频为第二视频类型。

示例地，当第一预设数量为15，第二预设阈值为8，第一预设阈值为0.5时。将15个待检测图像对(C0，C1)、(C0，C2)、……、(C0，C15)输入视频封面识别模型，得到15个待检测图像相似度。如果待检测图像相似度小于0.5，则认为该待检测图像对内容不一致，否则一致。15个待检测图像对中，存在8个以下的结果不一致，则认为该待检测视频为封面党视频(第一视频类型)，否则为非封面党视频(第二视频类型)。

可选地，获取第一预设数量的待检测图像相似度的加权和；比较加权和与第一预设阈值之间的大小，当加权和小于第一预设阈值时，判定待检测视频为第一视频类型，否则判定待检测视频为第二视频类型。

具体地，对第一预设数量的待检测图像相似度进行加权求和，得到待检测图像相似度的加权和。当加权和小于第一预设阈值时，认为该待检测图像对内容不一致，否则一致。因此，当加权和小于第一预设阈值时，判定待检测视频为第一视频类型，否则判定待检测视频为第二视频类型。

上述示例性实施例中，通过第一预设数量的待检测图像相似度与第一预设阈值之间的大小关系的两种不同形式，确定出待检测视频的视频类型，能够为确定待检测视频类型提供多样性的选择方案，并可起到相互校验的作用，能够提高视频类型识别的准确性，降低视频类型检测的误判率。

图2是根据一示例性实施例示出的步骤S200之前的一种可实施方式的流程图，具体包括以下步骤：

步骤S210，获取目标视频集，以及获取目标视频集中目标视频的视频类型。

步骤S220，对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像。

步骤S230，将目标封面与每一目标图像组成一组目标图像对，得到第三预设数量的目标图像对。

步骤S240，以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。

其中，目标视频集是指由多个目标视频形成的集合，其中，目标视频是指视频平台中包含点击率数据的视频。第二预设数量是指从目标视频中抽取的图像帧的数量，该第二预设数量可以为10、15、20不等。第三预设数量是指对目标图像对进行变换后的目标图像对的数量，一般情况下，第三预设数量可以等于第二预设数量，也可以大于第二预设数量。视频封面模型是指通过把两路信息分别映射到低维空间，并计算两者相似度的多层神经网络结构的模型。

具体地，获取目标视频集，并获取目标视频集中目标视频的视频类型。对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像，将目标封面与每一目标图像组成一组目标图像对，得到第二预设数量的目标图像对，接着对第一预设数量的目标图像对进行变换，得到第三预设数量的目标图像对。以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。该视频封面识别模型能够识别图像对的相似度，进而识别目标封面是否能反映目标图像的内容，为判断视频封面是否能反映视频内容提供基础。

上述实施例中，通过获取目标视频集，以及获取目标视频集中目标视频的视频类型；对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像，为后续模型训练提供更多的信息。接着，将目标封面与每一目标图像组成一组目标图像对，并对目标图像对进行变换，得到第三预设数量的目标图像对；以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。从而，可以利用预设的模型，分两路对目标图像对中的目标图像和目标封面分别进行特征的提取，起到对两路图像信号进行解耦的目的，并根据目标视频的视频类型对两路信号分别进行自监督学习，以确定出视频封面识别模型，提高视频封面识别的准确性，降低视频封面检测的误判率。

在一示例性实施例中，为步骤S210的一种可实施方式，具体包括：

获取目标视频集中每一目标视频的点击率和长播率；根据目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型。

其中，点击率(Click-Through-Rate，CTR)是指目标视频被点击的次数与被显示次数之比。长播率(Long-view-through-rate，LVTR)是指目标视频被点击后播放时间达到一定时长的比例，例如，当视频的播放时长达到18s时，认为为长播视频，该时长可以为18s，也可以为10s、20s不等，此处不进行具体限定。

具体地，从视频平台获取多个视频，统计搜索场景下N天的所有视频，N可以取7天、10天、30天不等。把N天中实际展示量realshow小于M的视频去掉，得到目标视频集，其中，M可以是70、80、100不等。统计目标视频集中的所有目标视频的CTR和LVTR。最后，根据目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型。

可选地，图3是根据一示例性实施例示出的步骤S210的一种可实施方式的流程图，具体包括以下步骤：

步骤S211，根据目标视频集中每一目标视频的点击率和长播率，确定出点击率均值、点击率方差、长播率均值和长播率方差。

步骤S212，获取点击率与点击率均值的第一差值，点击率方差与第一预设数值的第一乘积，以及获取长播率均值与长播率的第二差值，长播率方差与第二预设数值的第二乘积。

步骤S213，根据第一差值、第一乘积、第二差值和第二乘积，确定出目标视频的视频类型。其中，第一预设数值t1、第二预设数值t2为超参数，可以取为3。

具体地，根据目标视频集中每一目标视频的点击率和长播率，计算点击率均值μ_ctr、点击率方差σ_ctr、长播率均值μ_lvtr和长播率方差σ_lvtr。进一步计算点击率与点击率均值的第一差值ctr-μ_ctr，点击率方差与第一预设数值的第一乘积t1*σ_ctr，长播率均值与长播率的第二差值μ_lvtr-lvtr，长播率方差与第二预设数值的第二乘积t2*σ_lvtr。最后，根据第一差值ctr-μ_ctr、第一乘积t1*σ_ctr、第二差值μ_lvtr-lvtr和第二乘积t2*σ_lvtr，确定出目标视频的视频类型。

可选地，图4是根据一示例性实施例示出的步骤S213的一种可实施方式的流程图，具体包括以下步骤：

步骤S2131，比较第一差值与第一乘积之间的大小，以及比较第二差值与第二乘积之间的大小。

步骤S2132，当第一差值大于第一乘积，且第二差值大于第二乘积时，判定目标视频的视频类型为第一视频类型，否则判定目标视频的视频类型为第二视频类型。

具体地，比较ctr-μ_ctr与t1*σ_ctr之间的大小，以及比较μ_lvtr-lvtr与t2*σ_lvtr之间的大小。当ctr-μ_ctr>t1*σ_ctr且μ_lvtr-lvtr>t2*σ_lvtr时，认为点击率较高，该目标视频能吸引用户点击，但是长播率较低，视频内容不像封面展示的那样吸引人，因此，用户点进去，但没耐心观看太多视频内容。由此，可确定出目标视频的视频类型。即当第一差值大于第一乘积，且第二差值大于第二乘积时，判定目标视频的视频类型为视频封面不能反映视频内容的第一视频类型，否则判定目标视频的视频类型为视频封面能反映视频内容的第二视频类型。

上述示例性实施例中，能够根据用户的后验信号点击率和长播率，确定出目标视频的视频类型。避免过多的标注人员的消耗，节省人力物力，减少标注人员的主观影响，根据用户反馈信息确定视频类型，提高了视频封面识别的准确性，降低了视频封面检测的误判率。

图5是根据一示例性实施例示出的步骤S240的一种可实施方式的流程图，具体包括以下步骤：

步骤S241，当目标视频的视频类型为第一视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容不一致。

步骤S242，当目标视频的视频类型为第二视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容一致。

步骤S243，以第三预设数量的目标图像对为输入，第三预设数量的目标图像对的图像内容为监督信息，对预设的模型进行训练，得到视频封面识别模型。

具体地，对于第一视频类型的视频(封面党视频)，认为目标封面与从目标视频中抽取的目标图像的内容不一致，即目标视频对应的第三预设数量的目标图像对的图像内容不一致。对于第二视频类型的视频(非封面党视频)，认为目标封面与从目标视频中抽取的目标图像的内容一致，即目标视频对应的第三预设数量的目标图像对的图像内容一致。以第三预设数量的目标图像对为输入，第三预设数量的目标图像对的图像内容为监督信息，对预设的模型进行训练，得到视频封面识别模型。

可选地，视频封面识别模型为能识别两个图像之间的相似度的双塔模型(DeepStructured Semantic Models，DSSM)，双塔模型是指通过把两路信息分别映射到低维空间，并计算两者相似度的多层神经网络结构的模型。预设的模型也是双塔模型，该模型为双塔结构，构成双塔的为cnn网络，如resnet50、vgg、mobilenet、shufflenet等，经过两层fc(每层fc后跟一层激活层和一层dropout)得到一个一维向量，计算双塔结构得到的两个向量(目标封面对应一个向量，目标图像对应一个向量)的相似度，损失函数为

其中t为超参，目标为两张图片内容是否一致。为了提高模型的鲁棒性和泛化性，还可以对图片进行扩增，包括但不限于旋转、裁剪、颜色变换等，变换后的图片认为内容一致。

上述示例性实施例中，当目标视频的视频类型为第一视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容不一致；当目标视频的视频类型为第二视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容一致；以第三预设数量的目标图像对为输入，第三预设数量的目标图像对的图像内容为监督信息，对预设的模型进行训练，得到视频封面识别模型。从而可以将两路图像信号解耦，并根据是否一致的标签对两路信号分别进行自监督学习。

图6是根据一示例性实施例示出的一种视频封面识别模型生成方法的流程图，具体包括以下步骤：

步骤B210，获取目标视频集，以及获取目标视频集中目标视频的视频类型；其中，视频类型包括第一视频类型和第二视频类型，第一视频类型为视频封面不能反映视频内容的视频，第二视频类型为视频封面能反映视频内容的视频。

步骤B220，对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像。

步骤B230，将目标封面与每一目标图像组成一组目标图像对，得到第三预设数量的目标图像对。

步骤B240，以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。

上述视频封面识别模型生成方法中，通过获取目标视频集，以及获取目标视频集中目标视频的视频类型；对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像，为后续模型训练提供更多的信息。接着，将目标封面与每一目标图像组成一组目标图像对，并对目标图像对进行变换，得到第三预设数量的目标图像对；以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。从而，可以利用预设的模型，分两路对目标图像对中的目标图像和目标封面分别进行特征的提取，起到对两路图像信号进行解耦的目的，并根据目标视频的视频类型对两路信号分别进行自监督学习，以确定出视频封面识别模型，提高视频封面识别的准确性，降低视频封面检测的误判率。

在一示例性实施例中，为步骤SB210的一种可实施方式，具体包括：

可选地，图7是根据一示例性实施例示出的步骤SB210的一种可实施方式的流程图，具体包括以下步骤：

步骤SB211，根据目标视频集中每一目标视频的点击率和长播率，确定出点击率均值、点击率方差、长播率均值和长播率方差。

步骤SB212，获取点击率与点击率均值的第一差值，点击率方差与第一预设数值的第一乘积，以及获取长播率均值与长播率的第二差值，长播率方差与第二预设数值的第二乘积。

步骤SB213，根据第一差值、第一乘积、第二差值和第二乘积，确定出目标视频的视频类型。

其中，第一预设数值t1、第二预设数值t2为超参数，可以取为3。

可选地，图8是根据一示例性实施例示出的步骤SB213的一种可实施方式的流程图，具体包括以下步骤：

步骤SB2131，比较第一差值与第一乘积之间的大小，以及比较第二差值与第二乘积之间的大小。

步骤SB2132，当第一差值大于第一乘积，且第二差值大于第二乘积时，判定目标视频的视频类型为第一视频类型，否则判定目标视频的视频类型为第二视频类型。

图9是根据一示例性实施例示出的步骤SB240的一种可实施方式的流程图，具体包括以下步骤：

步骤SB241，当目标视频的视频类型为第一视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容不一致。

步骤SB242，当目标视频的视频类型为第二视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容一致。

步骤SB243，以第三预设数量的目标图像对为输入，第三预设数量的目标图像对的图像内容为监督信息，对预设的模型进行训练，得到视频封面识别模型。

应该理解的是，虽然图1-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图10是根据一示例性实施例示出的一种视频识别装置框图。参照图10，该视频识别装置包括图像获取单元101、图像对确定单元102、相似度确定单元103和视频识别单元104：

图像获取单元101，被配置为执行从待检测视频中抽取第一预设数量的待检测图像，以及获取待检测视频的待检测封面；

图像对确定单元102，被配置为执行将待检测封面与每一待检测图像组成一组待检测图像对，得到第一预设数量的待检测图像对；

相似度确定单元103，被配置为执行将预设数量的待检测图像对输入预设的视频封面识别模型，得到第一预设数量的待检测图像相似度；

视频识别单元104，被配置为执行根据第一预设数量的待检测图像相似度，确定出待检测视频的视频类型；其中，视频类型包括第一视频类型和第二视频类型，第一视频类型为视频封面不能反映视频内容的视频，第二视频类型为视频封面能反映视频内容的视频。

在一示例性实施例中，视频识别单元104还被配置为执行：比较第一预设数量的待检测图像相似度与第一预设阈值之间的大小，并获取小于第一预设阈值的待检测图像相似度的数量；比较数量与第二预设阈值之间的大小，当数量大于第二预设阈值时，判定待检测视频为第一视频类型，否则判定待检测视频为第二视频类型。

在一示例性实施例中，视频识别单元104还被配置为执行：获取第一预设数量的待检测图像相似度的加权和；比较加权和与第一预设阈值之间的大小，当加权和小于第一预设阈值时，判定待检测视频为第一视频类型，否则判定待检测视频为第二视频类型。

在一示例性实施例中，视频识别装置还包括模型生成单元，被配置为执行：获取目标视频集，以及获取目标视频集中目标视频的视频类型；对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像；将目标封面与每一目标图像组成一组目标图像对，得到第三预设数量的目标图像对；以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。

在一示例性实施例中，视频识别装置还包括模型生成单元，被配置为执行：获取目标视频集中每一目标视频的点击率和长播率；根据目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型。

在一示例性实施例中，视频识别装置还包括模型生成单元，被配置为执行：根据目标视频集中每一目标视频的点击率和长播率，确定出点击率均值、点击率方差、长播率均值和长播率方差；获取点击率与点击率均值的第一差值，点击率方差与第一预设数值的第一乘积，以及获取长播率均值与长播率的第二差值，长播率方差与第二预设数值的第二乘积；根据第一差值、第一乘积、第二差值和第二乘积，确定出目标视频的视频类型。

在一示例性实施例中，视频识别装置还包括模型生成单元，被配置为执行：比较第一差值与第一乘积之间的大小，以及比较第二差值与第二乘积之间的大小；当第一差值大于第一乘积，且第二差值大于第二乘积时，判定目标视频的视频类型为第一视频类型，否则判定目标视频的视频类型为第二视频类型。

在一示例性实施例中，视频识别装置还包括模型生成单元，被配置为执行：当目标视频的视频类型为第一视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容不一致；当目标视频的视频类型为第二视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容一致；以第三预设数量的目标图像对为输入，第三预设数量的目标图像对的图像内容为监督信息，对预设的模型进行训练，得到视频封面识别模型。

在一示例性实施例中，视频封面识别模型为能识别两个图像之间的相似度的双塔模型。图11是根据一示例性实施例示出的一种视频封面识别模型生成装置框图。参照图11，该视频识别装置包括视频获取单元111、图像获取单元112、图像对获取单元113和模型确定单元114：

视频获取单元111，被配置为执行获取目标视频集，以及获取目标视频集中目标视频的视频类型；其中，视频类型包括第一视频类型和第二视频类型，第一视频类型为视频封面不能反映视频内容的视频，第二视频类型为视频封面能反映视频内容的视频；

图像获取单元112，被配置为执行对于目标视频集中的每一目标视频，获取目标视频的目标封面，以及从目标视频中抽取第二预设数量的目标图像；

图像对获取单元113，被配置为执行将目标封面与每一目标图像组成一组目标图像对，得到第三预设数量的目标图像对；

模型确定单元114，被配置为执行以第三预设数量的目标图像对为输入，目标视频的视频类型为监督信息，对预设的模型进行训练，得到视频封面识别模型。

在一示例性实施例中，视频获取单元601还被配置为执行：获取目标视频集中每一目标视频的点击率和长播率；根据目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型。

在一示例性实施例中，视频获取单元601还被配置为执行：根据目标视频集中每一目标视频的点击率和长播率，确定出点击率均值、点击率方差、长播率均值和长播率方差；获取点击率与点击率均值的第一差值，点击率方差与第一预设数值的第一乘积，以及获取长播率均值与长播率的第二差值，长播率方差与第二预设数值的第二乘积；根据第一差值、第一乘积、第二差值和第二乘积，确定出目标视频的视频类型。

在一示例性实施例中，视频获取单元601还被配置为执行：比较第一差值与第一乘积之间的大小，以及比较第二差值与第二乘积之间的大小；当第一差值大于第一乘积，且第二差值大于第二乘积时，判定目标视频的视频类型为第一视频类型，否则判定目标视频的视频类型为第二视频类型。

在一示例性实施例中，模型确定单元604还被配置为执行：当目标视频的视频类型为第一视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容不一致；当目标视频的视频类型为第二视频类型时，判定目标视频对应的第三预设数量的目标图像对的图像内容一致；以第三预设数量的目标图像对为输入，第三预设数量的目标图像对的图像内容为监督信息，对预设的模型进行训练，得到视频封面识别模型。

在一示例性实施例中，视频封面识别模型为能识别两个图像之间的相似度的双塔模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种电子设备A00的框图。该电子设备可以用于视频识别，或用于视频封面识别模型生成。例如，设备A00可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图12，设备A00可以包括以下一个或多个组件：处理组件A02、存储器A04、电源组件A06、多媒体组件A08、音频组件A10、输入/输出(I/O)的接口A12、传感器组件A14以及通信组件A16。

处理组件A02通常控制设备A00的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件A02可以包括一个或多个处理器A20来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件A02可以包括一个或多个模块，便于处理组件A02和其他组件之间的交互。例如，处理组件A02可以包括多媒体模块，以方便多媒体组件A08和处理组件A02之间的交互。

存储器A04被配置为存储各种类型的数据以支持在设备A00的操作。这些数据的示例包括用于在设备A00上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器A04可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件A06为设备A00的各种组件提供电力。电源组件A06可以包括电源管理系统，一个或多个电源，及其他与为设备A00生成、管理和分配电力相关联的组件。

多媒体组件A08包括在所述设备A00和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件A08包括一个前置摄像头和/或后置摄像头。当设备A00处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件A10被配置为输出和/或输入音频信号。例如，音频组件A10包括一个麦克风(MIC)，当设备A00处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器A04或经由通信组件A16发送。在一些实施例中，音频组件A10还包括一个扬声器，用于输出音频信号。

I/O接口A12为处理组件A02和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件A14包括一个或多个传感器，用于为设备A00提供各个方面的状态评估。例如，传感器组件A14可以检测到设备A00的打开/关闭状态，组件的相对定位，例如所述组件为设备A00的显示器和小键盘，传感器组件A14还可以检测设备A00或设备A00一个组件的位置改变，用户与设备A00接触的存在或不存在，设备A00方位或加速/减速和设备A00的温度变化。传感器组件A14可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件A14还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件A14还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件A16被配置为便于设备A00和其他设备之间有线或无线方式的通信。设备A00可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件A16经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件A16还包括近场通信(NFC)模块，以促进短程通信。

在示例性实施例中，设备A00可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器A04，上述指令可由设备A00的处理器A20执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该程序产品包括计算机程序，计算机程序存储在可读存储介质中，设备的至少一个处理器从可读存储介质读取并执行该计算机程序，使得设备执行上述方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频识别方法，其特征在于，包括：

将所述第一预设数量的待检测图像对输入预设的视频封面识别模型，得到所述第一预设数量个所述待检测图像与所述待检测封面的待检测图像相似度；

2.根据权利要求1所述的视频识别方法，其特征在于，所述根据所述第一预设数量的待检测图像相似度，确定出所述待检测视频的视频类型，包括：

3.根据权利要求2所述的视频识别方法，其特征在于，所述根据所述第一预设数量的待检测图像相似度，确定出所述待检测视频的视频类型，还包括：

获取所述第一预设数量的待检测图像相似度的加权和；

4.根据权利要求1所述的视频识别方法，其特征在于，所述将所述第一预设数量的待检测图像对输入预设的视频封面识别模型之前还包括获取所述视频封面识别模型，所述获取所述视频封面识别模型，包括：

5.根据权利要求4所述的视频识别方法，其特征在于，所述获取所述目标视频集中目标视频的视频类型，包括：

获取所述目标视频集中每一目标视频的点击率和长播率；

6.根据权利要求5所述的视频识别方法，其特征在于，所述根据所述目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型，包括：

7.根据权利要求6所述的视频识别方法，其特征在于，所述根据所述第一差值、所述第一乘积、所述第二差值和所述第二乘积，确定出所述目标视频的视频类型，包括：

8.根据权利要求4所述的视频识别方法，其特征在于，所述以所述第三预设数量的目标图像对为输入，所述目标视频的视频类型为监督信息，对预设的模型进行训练，得到所述视频封面识别模型，包括：

9.根据权利要求1至8中任一项所述的视频识别方法，其特征在于，所述视频封面识别模型为能识别两个图像之间的相似度的双塔模型。

10.一种视频封面识别模型生成方法，其特征在于，包括：

11.根据权利要求10所述的视频封面识别模型生成方法，其特征在于，所述获取所述目标视频集中目标视频的视频类型，包括：

获取所述目标视频集中每一目标视频的点击率和长播率；

12.根据权利要求11所述的视频封面识别模型生成方法，其特征在于，所述根据所述目标视频集中每一目标视频的点击率和长播率，确定出目标视频的视频类型，包括：

13.根据权利要求12所述的视频封面识别模型生成方法，其特征在于，所述根据所述第一差值、所述第一乘积、所述第二差值和所述第二乘积，确定出所述目标视频的视频类型，包括：

14.根据权利要求10所述的视频封面识别模型生成方法，其特征在于，所述以所述第三预设数量的目标图像对为输入，所述目标视频的视频类型为监督信息，对预设的模型进行训练，得到所述视频封面识别模型，包括：

15.根据权利要求10至14中任一项所述的视频封面识别模型生成方法，其特征在于，所述视频封面识别模型为能识别两个图像之间的相似度的双塔模型。

16.一种视频识别装置，其特征在于，包括：

相似度确定单元，被配置为执行将所述第一预设数量的待检测图像对输入预设的视频封面识别模型，得到所述第一预设数量个所述待检测图像与所述待检测封面的待检测图像相似度；

17.根据权利要求16所述的视频识别装置，其特征在于，所述视频识别单元还被配置为执行：

18.根据权利要求17所述的视频识别装置，其特征在于，所述视频识别单元还被配置为执行：

获取所述第一预设数量的待检测图像相似度的加权和；

19.根据权利要求16所述的视频识别装置，其特征在于，所述视频识别装置还包括模型生成单元，被配置为执行：

20.根据权利要求19所述的视频识别装置，其特征在于，所述视频识别装置还包括模型生成单元，被配置为执行：

获取所述目标视频集中每一目标视频的点击率和长播率；

21.根据权利要求20所述的视频识别装置，其特征在于，所述视频识别装置还包括模型生成单元，被配置为执行：

22.根据权利要求21所述的视频识别装置，其特征在于，所述视频识别装置还包括模型生成单元，被配置为执行：

23.根据权利要求19所述的视频识别装置，其特征在于，所述视频识别装置还包括模型生成单元，被配置为执行：

24.根据权利要求16至23中任一项所述的视频识别装置，其特征在于，所述视频封面识别模型为能识别两个图像之间的相似度的双塔模型。

25.一种视频封面识别模型生成装置，其特征在于，包括：

26.根据权利要求25所述的视频封面识别模型生成装置，其特征在于，所述视频获取单元还被配置为执行：

获取所述目标视频集中每一目标视频的点击率和长播率；

27.根据权利要求26所述的视频封面识别模型生成装置，其特征在于，所述视频获取单元还被配置为执行：

28.根据权利要求27所述的视频封面识别模型生成装置，其特征在于，所述视频获取单元还被配置为执行：

29.根据权利要求25所述的视频封面识别模型生成装置，其特征在于，所述模型确定单元还被配置为执行：

30.根据权利要求25至29中任一项所述的视频封面识别模型生成装置，其特征在于，所述视频封面识别模型为能识别两个图像之间的相似度的双塔模型。

31.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的视频识别方法，或以实现如权利要求10至15中任一项所述的视频封面识别模型生成方法。

32.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的视频识别方法，或使得所述电子设备能够执行如权利要求10至15中任一项所述的视频封面识别模型生成方法。