CN111967302B

CN111967302B - 视频标签的生成方法、装置及电子设备

Info

Publication number: CN111967302B
Application number: CN202010610311.5A
Authority: CN
Inventors: 任晖; 杨敏; 薛学通
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-07-25
Anticipated expiration: 2040-06-30
Also published as: CN111967302A

Abstract

本申请公开了一种视频标签的生成方法、装置及电子设备，涉及图像处理技术领域、自然语言处理技术领域。具体实现方案为：获取待处理的目标视频；从目标视频中提取关键视频帧；从参考视频库中获取候选参考视频，其中，参考视频库中包含多个参考视频及每个参考视频对应的文本信息，候选参考视频中至少一个视频帧与关键视频帧的相似度大于第一阈值；根据候选参考视频对应的文本信息，确定目标视频的标签。由此，通过这种人工智能，特别是基于深度学习的视频标签的生成方法，无需利用图像分类模型对目标视频进行细粒度识别，不仅提升了视频细粒度识别的准确性和召回率，而且可以随时对参考视频库中的参考视频进行扩充，可扩展性好。

Description

视频标签的生成方法、装置及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及基于深度学习的视频图像处理技术领域，提出一种视频标签的生成方法、装置及电子设备。

背景技术

视频细粒度识别是指对视频进行识别，以提取出该视频中包括的视频内容、影视剧名称、名人信息等与该视频相关的文本信息，之后，还可以将提取的文本信息作为视频的标签，以便于视频推荐和视频分类整理。

相关技术中，通常通过对视频进行采样，以获取视频中的多帧图像，并对多帧图像分别对应的特征进行融合，进而利用图像分类模型根据融合后的特征对视频进行分类，以确定视频的细粒度识别结果。但是，由于图像分类模型可以覆盖的分类标签有限，从而导致这种视频细粒度识别方式，准确率和召回率较低，可扩展性差。

发明内容

本申请提供了一种用于视频标签的生成方法、装置、电子设备、存储介质。

根据本申请的一方面，提供了一种视频标签的生成方法，包括：获取待处理的目标视频；从所述目标视频中提取关键视频帧；从参考视频库中获取候选参考视频，其中，所述参考视频库中包含多个参考视频及每个所述参考视频对应的文本信息，所述候选参考视频中至少一个视频帧与所述关键视频帧的相似度大于第一阈值；以及根据所述候选参考视频对应的文本信息，确定所述目标视频的标签。

根据本申请的另一方面，提供了一种视频标签的生成装置，包括：第一获取模块，用于获取待处理的目标视频；提取模块，用于从所述目标视频中提取关键视频帧；第二获取模块，用于从参考视频库中获取候选参考视频，其中，所述参考视频库中包含多个参考视频及每个所述参考视频对应的文本信息，所述候选参考视频中至少一个视频帧与所述关键视频帧的相似度大于第一阈值；以及确定模块，用于根据所述候选参考视频对应的文本信息，确定所述目标视频的标签。

根据本申请的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的视频标签的生成方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的视频标签的生成方法。

根据本申请的技术方案，解决了相关技术中，基于图像分类模型的视频细粒度识别方式，由于图像分类模型可以覆盖的分类标签有限，从而导致视频细粒度识别的准确率和召回率较低，可扩展性差的问题。通过从待处理的目标视频中提取关键视频帧，并从参考视频库中获取至少一个视频帧与目标视频的关键视频帧的相似度大于第一阈值的候选参考视频，进而根据参考视频库中包含的候选参考视频对应的文本信息，确定目标视频的标签。由此，通过预先建立包含大量参考视频的参考视频库，之后即可以从参考视频库中获取与目标视频高度相关的候选参考视频，以根据候选参考视频对应的文本信息，确定目标视频的标签，从而无需利用图像分类模型对目标视频进行细粒度识别，不仅提升了视频细粒度识别的准确性和召回率，而且可以随时对参考视频库中的参考视频进行扩充，可扩展性好。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种视频标签的生成方法的流程示意图；

图2为本申请实施例所提供的另一种视频标签的生成方法的流程示意图；

图3为本申请实施例所提供的再一种视频标签的生成方法的流程示意图；

图4为本申请实施例所提供的又一种视频标签的生成方法的流程示意图；

图5为本申请实施例提供的一种视频标签的生成装置的结构示意图；

图6为用来实现本申请实施例的视频标签的生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，基于图像分类模型的视频细粒度识别方式，由于图像分类模型可以覆盖的分类标签有限，从而导致视频细粒度识别的准确率和召回率较低，可扩展性差的问题，提出一种视频标签的生成方法。

下面参考附图对本申请提供的视频标签的生成方法、装置、电子设备存储介质进行详细描述。

图1为本申请实施例所提供的一种视频标签的生成方法的流程示意图。

如图1所示，该视频标签的生成方法，包括以下步骤：

步骤101，获取待处理的目标视频。

需要说明的是，本申请实施例的视频标签的生成方法，可以由本申请实施例的视频标签的生成装置执行。本申请实施例的视频标签的生成装置可以配置在任意电子设备中，以执行本申请实施例的视频标签的生成方法。

举例来说，本申请实施例的视频标签的生成方法，应用在某视频应用程序中以确定视频应用程序内发布的视频的标签时，本申请实施例的视频标签的生成装置可以配置在该视频应用程序的服务器中，即本申请实施例的视频标签的生成方法的执行主体为该视频应用程序的服务器。

其中，目标视频，可以是指当前需要确定其对应的标签的视频。

作为一种可能的实现方式，可以以预设频率主动获取待处理的目标视频。举例来说，本申请实施例的视频标签的生成方法，应用在某视频应用程序中时，该视频应用程序的服务器可以以每天一次的获取频率，获取该视频应用程序内每天新发布的视频，作为目标视频。比如，服务器可以在2020年1月2日零点，获取该视频应用程序内发布时间处于2020年1月1日零点至24点之间的视频，作为目标视频。

作为另一种可能的实现方式，还可以在获取到用户发送的视频标签生成指令时，对视频标签生成指令进行解析处理，以获取视频标签生成指令中包括的各视频，并将视频标签生成指令中包括的各视频确定为目标视频。

举例来说，本申请实施例的视频标签的生成方法，应用在某视频应用程序中时，该视频应用程序的用户可以通过该视频应用程序的客户端上传视频，并在上传视频后通过触发客户端中提供视频标签生成控件，向该视频应用程序的服务器发送视频标签生成指令。从而，服务器可以对获取到的视频标签生成指令进行解析处理，将用户在客户端上传的视频确定为目标视频。

需要说明的是，在上例中，该视频应用程序的用户可以是普通用户，也可以是该视频应用程序的开发人员或维护人员。在用户为开发人员或维护人员时，待处理的目标视频还可以是用户通过对该视频应用程序进行开发或维护的网页、客户端等，批量上传或批量选中的大量视频，以用于丰富该视频应用程序的数据丰富度。

步骤102，从目标视频中提取关键视频帧。

需要说明的是，由于目标视频中通常包含大量视频帧，而相邻或较临近的视频帧之间通常十分相似。因此，可以从目标视频中提取部分差异较大的视频帧作为关键视频帧，以降低数据处理量。

作为一种可能的实现方式，可以首先对目标视频进行切帧处理，以确定目标视频中包括的所有视频帧，之后以预设的帧间间隔，从目标视频中提取关键视频帧。比如，预设的帧间间隔为10帧，则可以将目标视频中的第1帧视频帧、第11帧视频帧、第21帧视频帧……，依此类推，依次确定为关键视频帧。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景确定提取关键帧的方式以及帧间间隔，本申请实施例对此不做限定。

步骤103，从参考视频库中获取候选参考视频，其中，参考视频库中包含多个参考视频及每个参考视频对应的文本信息，候选参考视频中至少一个视频帧与关键视频帧的相似度大于第一阈值。

其中，参考视频库，可以是指包含大量参考视频与每个参考视频对应的文本信息的数据库。需要说明的是，可以通过大数据的方式从网络上抓取大量的视频数据及其对应的文本信息，以构成参考视频库；或者，还可以抓取到大量视频数据后，通过人工标注或通过人工智能的方式（如基于深度学习模型）确定每个视频数据对应的文本信息，以构成参考视频库。

其中，参考视频对应的文本信息，可以是参考视频的标签、标题、描述等信息中的一种或多种，本申请实施例对此不做限定。

在本申请实施例中，对于目标视频对应的一个关键视频帧，可以确定该关键视频帧与参考视频库中的每个参考视频包含的视频帧的相似度，若该关键视频帧与一个参考视频包含的一个或多个视频帧的相似度大于第一阈值，则可以确定该关键视频帧与该参考视频高度相关，从而可以将该参考视频确定为目标视频对应的候选参考视频。相应的，通过相同的方式，可以确定出与各关键视频帧分别高度相关的各参考视频，从而确定出目标视频对应的所有候选参考视频。

需要说明的是，实际使用时，第一阈值的具体取值可以根据实际需要及具体的应用场景预设，本申请实施例对此不做限定。比如，第一阈值可以为0.8。

作为一种可能的实现方式，可以利用基于深度学习的图像处理模型，确定每个关键视频帧的特征表示，以及参考视频中每个视频帧的特征表示，进而可以将关键视频帧的特征表示与参考视频中每个视频帧的特征表示间的余弦相似度，确定为关键视频帧与参考视频中每个视频帧间的相似度。

需要说明的是，实际使用时，可以根据实际需要随时扩充参考视频库，以使参考视频库中包含当前所需类型的参考视频及对应的文本信息，从而无需重新训练识别模型，即可扩充本申请实施例的视频标签的生成方法可生成的标签类型。

步骤104，根据候选参考视频对应的文本信息，确定目标视频的标签。

在本申请实施例中，由于候选参考视频都是与目标视频高度相关的视频，从而可以根据候选参考视频对应的文本信息，确定为目标视频的标签。

作为一种可能的实现方式，可以将各候选参考视频对应的文本信息进行融合，作为目标视频的标签。

作为另一种可能的实现方式，还可以将各候选参考视频对应的文本信息进行融合，以生成融合后的文本信息，进而可以利用自然语言处理算法对融合后的文本信息进行切词处理，以确定融合后的文本信息中包含的各分词，之后确定各分词在融合后的文本信息中的出现频率，进而将出现频率位于前K位的分词，确定为目标视频的标签；或者，将出现频率大于频率阈值的分词，确定为目标视频的标签；或者，还可以将出现频率大于频率阈值且位于前K位的分词，确定为目标视频的标签; 或者，还可以将出现频率最大的分词，确定为目标视频的标签。

需要说明的是，目标视频标签的确定方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，选择目标视频标签的确定方式，本申请实施例对此不做限定。

根据本申请实施例的技术方案，通过从待处理的目标视频中提取关键视频帧，并从参考视频库中获取至少一个视频帧与目标视频的关键视频帧的相似度大于第一阈值的候选参考视频，进而根据参考视频库中包含的候选参考视频对应的文本信息，确定目标视频的标签。由此，通过预先建立包含大量参考视频的参考视频库，之后即可以从参考视频库中获取与目标视频高度相关的候选参考视频，以根据候选参考视频对应的文本信息，确定目标视频的标签，从而无需利用图像分类模型对目标视频进行细粒度识别，不仅提升了视频细粒度识别的准确性和召回率，而且可以随时对参考视频库中的参考视频进行扩充，可扩展性好。

在本申请一种可能的实现形式中，可以根据目标视频中每个视频帧对应的颜色直方图，确定视频帧间的差异，并在视频帧之间的差异较大时，提取关键视频帧，以在降低数据处理量的同时，进一步提升提取的关键视频帧的准确性。

下面结合图2，对本申请实施例提供的视频标签的生成方法进行进一步说明。

图2为本申请实施例所提供的另一种视频标签的生成方法的流程示意图。

如图2所示，该视频标签的生成方法，包括以下步骤：

步骤201，获取待处理的目标视频。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，获取目标视频中每个视频帧对应的颜色直方图。

其中，颜色直方图，可以表示视频帧中像素点的像素值分布。比如，颜色直方图可以表示视频帧中每个像素值对应的像素点数量。

作为一种可能的实现方式，由于目标视频帧中的视频帧通常为彩色图像，从而可以对目标视频帧中的每个视频帧中的像素点的RGB像素值进行统计分析，以确定视频帧中包括的各像素值分别对应的像素点数量，从而生成每个视频帧对应的颜色直方图。

作为另一种可能的实现方式，还可以在RGB空间确定视频帧中各像素点对应的梯度，进而对各像素点对应的梯度值进行统计分析，以确定视频帧中各梯度值对应的像素点数量，从而生成视频帧对应的颜色梯度直方图，以更加准确的对视频帧的像素分布特征进行表示。

需要说明的是，由于目标视频中相邻视频帧的相似度非常高，因此在确定目标视频中的每个视频帧对应的颜色直方图时，可以采用插帧的方式，只确定目标视频中部分视频帧对应的颜色直方图，以降低数据处理量。比如，可以仅确定目标视频中奇数帧的视频帧对应的颜色直方图；或者仅确定目标视频中的第1、4、7、10……，等视频帧对应的颜色直方图，等等，本申请实施例对此不做限定。

步骤203，根据每个视频帧对应的颜色直方图，确定目标视频中各连续N个视频帧间的相似度，其中，N为大于1的正整数。

在本申请实施例中，确定出每个视频帧对应的颜色直方图之后，可以从所有视频帧中依次提取连续的N个视频帧，并确定连续N个视频帧中每两个视频帧之前的相似度。比如，N的取值为10，则可以确定目标视频中第1至第10个视频帧中每两个视频帧间的相似度，以及第2至第11个视频帧中每两个视频帧间的相似度，以及第3至第12个视频帧中每两个视频帧间的相似度……，直至遍历目标视频中包括的所有视频帧。

作为一种可能的实现方式，确定两个视频帧间的相似度时，可以首先确定出两个视频帧对应的颜色直方图之间的余弦距离，进而根据两个视频帧对应的颜色直方图之间的余弦距离，确定两个视频帧间的相似度。由于视频帧对应的颜色直方图之间的余弦距离越大，说明两个视频帧之间的差异越大，从而可以将两个视频帧对应的颜色直方图之间的余弦距离的倒数，确定为两个视频间的相似度；或者，还可以将1-d确定为两个视频间的相似度，其中，d为两个视频帧对应的颜色直方图之间的余弦距离。

需要说明的是，若在获取目标视频中每个视频帧的颜色直方图时，获取的是目标视频中所有视频帧的颜色直方图，则在确定视频帧间的相似度之前，可以采用插帧的方式，从所有视频帧中筛选出部分视频帧，并采用步骤203的方式仅对筛选出的部分视频帧进行处理，从而降低了数据处理量。比如，可以筛选出目标视频中奇数帧的视频帧；或者可以筛选出目标视频中的第1、4、7、10……，等视频帧，等等，本申请实施例对此不做限定。

步骤204，如果任一连续N个视频帧中第i帧与其他任一帧间的相似度小于第二阈值，则确定第i帧为关键视频帧，其中，i为小于或等于N的正整数。

在本申请实施例中，对于一组连续N个视频帧，若该组视频帧中的第i帧与该组中的任一视频帧间的相似度小于第二阈值，则可以确定该组视频帧中存在与第i帧差异较大的视频帧，即第i帧视频帧与位于其之前或之后的某个视频帧相比，已经发生了较大变化，从而可以将第i帧视频帧确定为关键视频帧。相应的，按照相同的方式可以确定出每组连续N个视频帧中包含的关键视频帧，从而确定出目标视频对应的各关键视频帧。

作为一种可能的实现方式，还可以确定出目标视频中任意两个视频帧间的相似度，并预设初始关键视频帧（如可以将目标视频中的第1帧视频帧预设为初始关键视频帧，或者将目标视频帧中的第2帧或第3帧等预设为初始关键视频帧），之后根据初始关键视频帧与位于其之后的各视频帧间的相似度，确定位于初始关键视频帧之后的关键视频帧。若目标视频中位于初始关键视频帧之后的第j个视频帧与初始关键视频帧之间的相似度小于第二阈值，且第j个与初始关键视频帧之间的各视频帧与初始关键视频帧之间的相似度均大于或等于第二阈值，则可以将目标视频中的第j个视频帧确定为关键视频帧。之后根据第j个视频帧与位于其之后的各视频帧间的相似度，确定位于第j个视频帧之后的关键视频帧；若目标视频中位于第j个视频帧之后的第k个视频帧与第j个视频帧间的相似度小于第二阈值，且第k个与第j个视频帧之间的各视频帧与第j个视频帧之间的相似度均大于或等于第二阈值，则可以将目标视频中的第k个视频帧确定为关键视频帧。依次类推，直至遍历目标视频中的所有视频帧，则可以确定出目标视频对应的所有关键视频帧。

举例来说，将目标视频中的第1个视频帧预设为初始视频帧，第二阈值为0.7，则目标视频中的第2个至第8个视频帧与第1个视频帧间的相似度均大于0.7，且第9个视频帧与第1个视频帧间的相似度小于0.7，则可以将第9个视频帧确定为关键视频帧；之后，确定出目标视频中第10个至第20个视频帧与第9个视频帧间的相似度均大于0.7，且第21个视频帧与第9个视频帧间的相似度小于0.7，则可以将第21个视频帧确定为关键视频帧，以此类推，直至遍历目标视频中的所有视频帧。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制。实际使用时，可以根据实际需要及具体的应用场景，确定第二阈值的具体取值，本申请实施例对此不做限定。

步骤205，从参考视频库中获取候选参考视频，其中，参考视频库中包含多个参考视频及每个参考视频对应的文本信息，候选参考视频中至少一个视频帧与关键视频帧的相似度大于第一阈值。

上述步骤205的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤206，对候选参考视频对应的文本信息进行切词处理，以获取候选参考视频对应的词集。

在本申请实施例中，由于确定出的候选参考视频可能有多个，如果将所有候选视频对应的文本信息均确定为目标视频的标签，容易导致目标视频的标签过于冗长，且准确性较差。因此，在本申请实施例中，可以对各候选参考视频对应的文本信息进行处理，以从候选参考视频对应的文本信息中抽取关键信息，作为目标视频的标签，进而提升目标视频标签的准确性。

作为一种可能的实现方式，可以采用自然语言处理领域的任意的分词工具对每个候选参考视频对应的文本信息进行切词处理，以获取每个候选参考视频对应的文本信息中包括的各分词，进而利用每个候选参考视频对应的文本信息中包括的各分词构成候选参考视频对应的词集。

作为另一种可能的实现方式，对每个候选参考视频对应的文本信息进行切词处理之后，还可以对每个候选参考视频对应的文本信息包含的各分词进行关键词提取，以去除每个候选参考视频对应的文本信息中不具有实际意义的分词，如介词、停用词、连接词、标点符号等，进而利用从么个候选参考视频对应的文本信息中提取出的关键词，构成候选参考视频对应的词集。

步骤207，根据词集中每个分词的词频-逆文件频率，从词集中获取目标分词作为目标视频的标签。

在本申请实施例中，分词在词集中的TF-IDF（Term Frequency - InverseDocument Frequency，词频-逆文件频率），可以反映该分词在词集中的重要程度。具体的，分词在词集中的TF-IDF越大，说明该分词在词集中的重要程度越高。因此，可以根据词集中每个分词的TF-IDF，从词集中选取重要程度较高的目标分词，确定为目标视频的标签。

作为一种可能的实现方式，可以预设TF-IDF阈值，若分词在词集中的TF-IDF大于预设的TF-IDF阈值，则可以确定该分词在词集中的重要程度较高，从而可以将该分词确定为目标视频的标签。

作为另一种可能的实现方式，还可以在确定出每个分词在词集中的TF-IDF之后，对各分词的TF-IDF进行降序排序，进而将TF-IDF最大的K个分词确定为目标视频的标签。

作为再一种可能的实现方式，还可以将TF-IDF大于TF-IDF阈值且位于前K位的分词，确定为目标视频的标签；或者，还可以将TF-IDF最大的分词确定为目标频率的标签。

需要说明的是，目标视频标签的确定方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，选择目标视频标签的确定方式，以及TF-IDF阈值与K的具体取值，本申请实施例对此不做限定。

根据本申请实施例的技术方案，通过获取目标视频中每个视频帧对应的颜色直方图，并根据每个视频帧对应的颜色直方图，确定目标视频中各连续N个视频帧间的相似度，之后根据目标视频中各连续N个视频帧间的相似度，将与前一帧关键视频帧之间的相似度小于第二阈值的视频帧确定为关键视频帧，进而从参考视频库中获取至少一个视频帧与目标视频的关键视频帧的相似度大于第一阈值的候选参考视频，以根据参考视频库中包含的候选参考视频对应的文本信息，确定目标视频的标签。由此，通过根据目标视频中每个视频帧对应的颜色直方图的变化程度，确定视频帧之间的差异，以根据视频帧间的差异程度，选取差异较大的视频帧作为关键视频帧，从而提升了关键视频帧提取的准确性，进一步提升了视频细粒度识别的准确性和召回率。

在本申请一种可能的实现形式中，可以根据目标视频对应的关键视频帧与参考视频库中各参考视频中的关键视频帧间的相似度，确定与各关键视频帧高度相关的参考视频，进而从与各关键帧高度相关的参考视频中，选取部分参考视频作为与目标视频高度相关的候选参考视频，以进一步提升生成的视频标签的准确性。

下面结合图3，对本申请实施例提供的视频标签的生成方法进行进一步说明。

图3为本申请实施例所提供的再一种视频标签的生成方法的流程示意图。

如图3所示，该视频标签的生成方法，包括以下步骤：

步骤301，获取待处理的目标视频。

步骤302，从目标视频中提取关键视频帧。

上述步骤301-302的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤303，获取关键视频帧对应的第一图像特征。

在本申请实施例中，可以将关键视频帧输入预先训练的图像识别模型，以通过图像识别模型对关键视频帧进行识别处理，并输出关键视频帧对应的第一图像特征。

步骤304，获取参考视频库中每个参考视频中的关键视频帧对应的第二图像特征。

作为一种可能的实现方式，可以按照上述实施例中提取目标视频对应的关键视频帧的方式，对参考视频库中的每个参考视频进行处理，以确定每个参考视频中的关键视频帧，具体的实现过程及原理，可以参照上述实施例的详细描述此处不再赘述。

需要说明的是，参考视频中的关键视频帧可以是在生成目标视频标签的过程中，实时提取的；也可以是在建立参考视频库时，预先从参考视频中提取出来，并存储在参考视频库中的，从而可以在实际使用时，直接从参考视频库中获取参考视频对应的关键视频帧，以提升视频标签生成的效率。

在本申请实施例中，可以将参考视频中的关键视频帧输入预先训练的图像识别模型，以通过图像识别模型对参考视频中的关键视频帧进行识别处理，并输出参考图像中的关键视频帧对应的第二图像特征。其中，确定目标视频中的关键视频帧对应的第一图像特征所使用的图像识别模型，与确定参考图像中的关键视频帧对应的第二图像特征所使用的图像识别模型可以是相同的，以保证视频帧的图像特征表达的一致性。

步骤305，根据第一图像特征与第二图像特征的相似度，确定目标视频与每个参考视频的关联度。

在本申请实施例中，对于目标视频中的一个关键视频帧，可以将该关键视频帧对应的第一图像特征与参考视频库中每个参考视频中的关键视频帧对应的第二图像特征进行比较，以确定该关键视频帧对应的第一图像特征与每个第二图像特征的相似度，进而根据该关键视频帧对应的第一图像特征与每个第二图像特征的相似度，确定与该关键视频帧与各参考视频的关联度。

具体的，若该关键视频帧对应的第一图像特征与参考视频A中的一个关键视频帧B对应的第二图像特征间的相似度大于第一阈值，则可以确定该关键视频帧与参考视频A高度相关，并将该关键视频帧对应的第一图像特征与关键视频帧B对应的第二图像特征间的相似度，确定为该关键视频帧与参考视频A的关联度。

若该关键视频帧对应的第一图像特征与参考视频A中的多个关键视频帧对应的第二图像特征间的相似度均大于第一阈值，则可以确定该关键视频帧与参考视频A高度相关，并将该关键视频帧对应的第一图像特征与多个关键视频帧对应的第二图像特征间的相似度之和或均值，确定为该关键视频帧与参考视频A的关联度。

举例来说，第一阈值为0.7，该关键视频帧对应的第一图像特征与参考视频A中的关键视频帧B对应的第二图像特征间的相似度为0.8，与参考视频A中的关键视频帧C对应的第二图像特征间的相似度为0.9，从而可以确定该关键视频帧与参考视频A高度相关，并可以将该关键视频帧与参考视频A的关联度确定为1.7；或者，还可以将该关键视频帧与参考视频A的关联度确定为0.85。

作为一种可能的实现方式，可以确定第一图像特征与第二图像特征之间的余弦距离，进而根据第一图像特征与第二图像特征之间的余弦距离，确定第一图像特征与第二图像特征的相似度。由于第一图像特征与第二图像特征之间的余弦距离越大，说明第一图像特征与第二图像特征之间的差异越大，从而可以将第一图像特征与第二图像特征之间的余弦距离的倒数，确定为两个视频间的相似度；或者，还可以将1-d确定为第一图像特征与第二图像特征的相似度，其中，d为第一图像特征与第二图像特征之间的余弦距离。

在本申请实施例中，目标视频中的每个关键视频帧可能与参考视频库中的多个参考视频高度相关，从而可以确定出每个关键视频帧对应的参考视频队列，之后可以根据每个关键视频帧与其对应的参考视频队列中各参考视频的关联度，确定目标视频与各参考视频队列中所有参考视频的关联度。

作为一种可能的实现方式，可以直接将关键视频帧与参考视频的关联度，确定为目标视频与参考视频的关联度；若多个关键视频帧对应的参考视频队列中包含相同的参考视频，则可以将多个关键视频帧与该参考视频的关联度进行融合，以确定目标视频与该参考视频的关联度。

举例来说，目标视频对应的关键视频帧有3个，关键视频帧1对应的参考视频队列中包含3个参考视频A、B、C，且关键视频帧1与参考视频A的关联度为0.8，与参考视频B的关联度为0.9，与参考视频C的关联度为0.8；关键视频帧2对应的参考视频队列中包含2个参考视频B、C，且关键视频帧2与参考视频B的关联度为0.7，与参考视频C的关联度为0.9；关键视频帧3对应的参考视频队列中包含1个参考视频B，且关键视频帧3与参考视频B的关联度为0.8；从而，可以确定目标视频与参考视频A的关联度为0.8，目标视频与参考视频B的关联度可以为(0.9+0.7+0.8)/3=0.8，，目标视频与参考视频C的关联度可以为(0.9+0.8)/2=0.85。

步骤306，根据目标视频与每个参考视频的关联度，从参考视频库中获取候选参考视频。

在本申请实施例中，确定出目标视频与参考视频的关联度之后，可以根据目标视频与参考视频的关联度，从每个关键帧对应的参考视频队列中选取候选参考视频。

作为一种可能的实现方式，可以将与目标视频的关联度位于前M位的参考视频，确定为候选参考视频。比如，M的取值为300，本申请实施例对此不做限定。

作为另一种可能的实现方式，还可以将与目标视频的关联度大于关联度阈值的参考视频，确定为候选参考视频。比如，关联度阈值可以为0.8，本申请实施例对此不做限定。

进一步的，在选取出的候选参考视频过多时，还可以对候选参考视频进行进一步筛选，以提升进一步确定的候选参考视频与目标视频的关联性。即在本申请实施例一种可能的实现形式中，若候选参考视频的数量M大于第三阈值，M为正整数，则上述步骤306之后，还可以包括：

根据每个候选参考视频中包含的目标参考视频帧的数量，确定每个候选参考视频的第一权重，其中，目标参考视频帧与关键视频帧的相似度大于第一阈值；

根据每个候选参考视频中每个目标参考视频帧与关键视频帧的相似度，确定每个候选参考视频的第二权重；以及

根据每个候选参考视频的第一权重及第二权重，从M个候选参考视频中获取目标参考视频。

其中，目标参考视频帧，是指参考视频中与目标视频中的任一个关键视频帧间的相似度大于第一阈值的视频帧。

在本申请实施例中，候选参考视频中包含的目标参考视频帧的数量，可以反映与该候选参考视频高度相关的关键视频帧的数量。具体的，候选参考视频中包含的目标参考视频帧的数量越多，则该候选参考视频高度相关的关键视频帧的数量也越多，从而该候选参考视频与目标视频的关联性越大。因此，可以根据候选参考视频中包括的目标参考视频帧的数量，确定候选参考视频的第一权重。比如，可以将候选参考视频中包括的目标参考视频帧的数量，确定为候选参考视频的第一权重。

举例来说，目标视频中包含三个关键视频帧，关键视频帧1与候选参考视频1中的视频帧A间的相似度大于第一阈值；关键视频帧2与候选参考视频1中的视频帧B的相似度大于第一阈值，与候选参考视频2中的视频帧C的相似度大于第一阈值；关键视频帧3与候选参考视频1中的视频帧D的相似度大于第一阈值，与候选参考视频2中的视频帧E的相似度大于第一阈值，与候选参考视频3中的视频帧F的相似度大于第一阈值；从而，可以确定候选参考视频1中包括的目标参考视频帧的数量为3，候选参考视频2中包括的目标参考视频帧的数量为2，候选参考视频3中包括的目标参考视频帧的数量为1；从而可以确定候选参考视频1的第一权重为3，候选参考视频2的第一权重为2，候选参考视频3的第一权重为1。

在本申请实施例中，候选参考视频中包括的目标参考视频帧与目标视频中的关键视频帧的相似度越大，则说明目标视频与候选参考视频的关联性越大，因此，可以根据候选参考视频中每个目标参考视频与关键视频帧的相似度，确定每个候选参考视频的第二权重。

可选地，在本申请实施例一种可能的实现形式中，若候选参考视频中仅包含一个目标参考视频帧，则可以将该目标参考视频帧与相应的关键视频帧的相似度，确定为该候选参考视频的第二权重；其中，相应的关键视频帧，是指与该目标参考视频帧间的相似度大于第一阈值的关键视频帧。若候选参考视频中包含多个目标参考视频帧，则可以将每个目标参考视频帧与相应的关键视频帧间的相似度的均值，确定为该候选参考视频的第二权重；或者将该候选参考视频中与相应的关键视频帧间的相似度最大的目标参考视频帧，确定为该候选参考视频帧的第二权重。

在本申请实施例中，确定出候选参考视频的第一权重和第一权重之后，可以根据候选参考视频的第一权重与第二权重对各个候选参考视频进行降序排序，进而将排序位于前L的各候选参考视频确定为目标参考视频。

作为一种可能的实现方式，可以将第一权重与第二权重归一化至相同的数值范围，比如，将第一权重与第二权重归一化至[0, 10]的数值范围。之后将候选参考视频对应的归一化后的第一权重与归一化后的第二权重的均值，确定为候选参考视频的目标权重，进而根据目标权重对各候选参考视频进行排序，并将排序位于前L的各候选参考视频确定为目标参考视频。

作为另一种可能的实现方式，还可以根据第一权重对各候选参考视频进行排序，以将第一权重最大的L个各候选参考视频确定为目标参考视频。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定L的具体取值，本申请实施例对此不做限定。比如，L可以为5、10等。

步骤307，根据候选参考视频对应的文本信息，确定目标视频的标签。

上述步骤307的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

需要说明的是，若在上述步骤中，从候选参考视频中选取出了目标参考视频，则可以仅根据目标参考视频对应的文本信息，确定目标视频的标签。其中，根据目标参考视频对应的文本信息确定目标视频的标签的方式，与上述实施例中根据候选参考视频对应的文本信息确定目标视频的标签的方式相同，此处不再赘述。

根据本申请实施例的技术方案，通过根据目标视频中的关键视频帧对应的第一图像特征与参考视频库中各参考视频中的关键视频帧间对应的第二图像特征的相似度，确定目标视频与各参考视频的关联度，以从参考视频库中选取与目标视频相关的候选参考视频，之后根据每个候选参考视频中包含的目标参考视频帧的数量，及每个候选参考视频中每个目标参考视频帧与关键视频帧的相似度，从候选参考视频中进一步筛选出与目标视频高度相关的目标参考视频，进而根据目标参考视频对应的文本信息，确定目标视频的标签。由此，通过根据关键帧视频对应的第一图像特征与参考视频帧中各关键视频帧对应的第二图像特征间的相似度，筛选与目标视频相关的候选参考视频，并根据候选参考视频对应的置信度，筛选出目标视频高度相关的目标参考视频，从而进一步提升了目标参考视频的文本信息与目标视频的相关性，进而进一步提升了视频细粒度识别的准确性和召回率。

在本申请一种可能的实现形式中，还可以利用参考视频对图像识别模型进行训练，以生成视频帧识别模型，进而利用视频帧识别模型确定关键视频帧对应的图像特征，以提升视频帧特征表达的准确性，进而达到提升视频细粒度识别的准确性和召回率的效果。

下面结合图4，对本申请实施例提供的视频标签的生成方法进行进一步说明。

图4为本申请实施例所提供的又一种视频标签的生成方法的流程示意图。

如图4所示，该视频标签的生成方法，包括以下步骤：

步骤401，获取待处理的目标视频。

步骤402，从目标视频中提取关键视频帧。

上述步骤401-402的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤403，对参考视频库中的每个参考视频进行切帧处理，以获取各个参考视频帧。

需要说明的是，由于从视频数据中提取出的视频帧图像与普通图像的图像分布是不同的，因此，视频普通的图像识别模型确定视频帧对应的图像特征，容易导致对视频帧的特征识别结果不准确。从而，在本申请实施例中，可以在获取到大量参考视频之后，利用参考视频中的视频帧作为训练样本，对图像识别模型进行训练，以生成视频帧识别模型，进而提升视频帧模型对视频帧图像的特征识别效果。

在本申请实施例中，可以首先对参考视频库中的每个参考视频分别进行切帧处理，以确定每个参考视频包括的视频帧。可选地，对参考视频进行切帧处理之后，可以将每个参考视频包括的所有视频帧均作为参考视频帧；也可以进一步对每个参考视频进行关键视频帧提取，并将提取出的每个参考视频中的关键视频帧，确定为参考视频帧，以提升后续模型训练的效率。

步骤404，利用图像识别模型，对每个参考视频帧进行识别，以获取每个参考视频帧对应的第三图像特征。

其中，图像识别模型，可以是预先训练的、用于确定普通图像对应的图像特征的识别模型。

在本申请实施例中，可以首先将每个参考视频帧输入训练完成的、用于对普通图像进行识别的图像识别模型，以使图像识别模型对每个参考视频帧进行识别，并输出每个参考视频帧对应的第三图像特征。

步骤405，根据每个参考视频帧对应的第三图像特征，将各个参考视频帧进行聚类处理，以获取各视频帧簇。

在本申请实施例中，确定出每个参考视频帧对应的第三图像特征之后，可以根据每个参考视频帧对应的第三图像特征，利用任意的聚类算法对各个参考视频帧进行聚类处理，以将参考视频帧分为类型不同的多个视频帧簇。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，选择合适的聚类算法对各参考视频帧进行聚类处理，本申请实施例对此不做限定。比如，可以采用近邻聚类算法。

步骤406，利用各视频帧簇，对图像识别模型进行训练，以生成视频帧识别模型。

在本申请实施例中，对各参考视频帧进行聚类处理之后，可以将每个参考视频帧及其所属的视频帧簇类别输入图像识别模型，以使图像识别模型分别对每个参考视频帧进行识别处理，以确定每个参考视频帧对应的预测图像特征，进而根据每个参考视频帧对应的预测图像特征，对每个参考视频帧进行分类处理，以确定每个参考视频帧所属的预测类别；之后根据每个参考视频帧所属的预测类别与视频帧簇类别的差异，确定图像识别模型的损失值，若损失值未处于预设范围，则可以根据损失值对图像识别模型的参数进行更新。之后，利用更新后的图像识别模型重复上述训练过程，直至更新后的图像识别模型的损失值处于预设范围，则结束对图像识别模型的训练，进而将损失值处于预设范围的图像识别模型，确定为视频帧识别模型。

需要说明的是，对参考视频帧进行聚类处理，并生成多个视频帧簇之后，可以对每个视频帧簇进行编码或标号，以对各视频帧簇进行区分，因此参考视频帧所属的视频帧簇类别可以是指其所属的视频帧簇的编号。比如，假设将各参考视频帧聚类为50个视频帧簇，则可以采用数字1-50对各视频帧簇进行编码；若参考视频帧A所属的视频帧簇的编号为10，则参考视频帧A所属的视频帧簇类别为10。相应的，图像识别模型在对各参考视频帧进行识别时，也可以将各参考视频帧划分为50个预测类别，从而可以利用个参考视频帧所属的预测类别与视频帧簇类别的差异，对图像识别模型进行训练。

进一步的，若图像识别模型仅具有图像特征提取能力，不具备图像分类能力，则还可以利用图像识别模型中增加图像分类层，以构建图像分类模型。即在本申请实施例一种可能的实现形式中，上述步骤406，可以包括：

根据图像识别模型，构建初始图像分类模型；

利用各视频帧簇，对初始图像分类模型进行训练，以生成目标图像分类模型；

根据目标图像分类模型，生成视频帧识别模型。

在本申请实施例中，若图像识别模型仅具备图像特征提取能力，即图像识别模型包括特征提取层，从而可以在图像识别模型的特征提取层之后增加图像分类层，以构建初始图像分类模型。

在构建出初始分类模型之后，可以将每个参考视频帧及其所属的视频帧簇类别输入初始图像分类模型，以使初始图像分类模型分别对每个参考视频帧进行识别处理，以确定每个参考视频帧对应的预测图像特征，进而根据每个参考视频帧对应的预测图像特征，对每个参考视频帧进行分类处理，以确定每个参考视频帧所属的预测类别；之后根据每个参考视频帧所属的预测类别与视频帧簇类别的差异，确定初始图像分类模型的损失值，若损失值未处于预设范围，则可以根据损失值对初始图像分类模型的参数进行更新。之后，利用更新后的图像分类模型重复上述训练过程，直至更新后的图像分类模型的损失值处于预设范围，则结束对图像分类模型的训练，并将损失值处于预设范围的图像分类模型确定为目标分类模型。进而可以将目标分类模型的特征提取层，确定为视频帧识别模型。

步骤407，利用视频帧识别模型，对关键视频帧进行识别，以获取关键视频帧对应的第一图像特征。

在本申请实施例中，训练出视频帧识别模型之后，可以将目标视频中的各关键视频帧输入视频帧识别模型，以使视频帧识别模型对关键视频帧进行识别处理，并输出各关键视频帧对应的第一图像特征。

步骤408，利用视频帧识别模型，对参考视频库中每个参考视频中的关键视频帧进行识别，以获取参考视频库中每个参考视频中的关键视频帧对应的第二图像特征。

在本申请实施例中，训练出视频帧识别模型之后，可以将参考视频中的各关键视频帧输入视频帧识别模型，以使视频帧识别模型对参考图像中的关键视频帧进行识别处理，并输出参考图像中各关键视频帧对应的第二图像特征。

步骤409，根据第一图像特征与第二图像特征的相似度，确定目标视频与每个参考视频的关联度。

步骤410，根据目标视频与每个参考视频的关联度，从参考视频库中获取候选参考视频。

步骤411，根据候选参考视频对应的文本信息，确定目标视频的标签。

上述步骤409-411的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

根据本申请实施例的技术方案，通过从参考视频库中的各参考视频中提取参考视频帧，并对参考视频帧进行聚类处理，以生成各视频帧簇，之后利用各视频帧簇对图像识别模型进行训练，以生成对视频帧图像特征具有良好识别能力的视频帧识别模型，进而利用视频帧识别模型确定目标视频中的关键视频帧对应的第一图像特征，以及参考视频中的关键帧图像对应的第二图像特征，以根据第一图像特征与第二图像特征的相似度，选取候选参考视频，进而根据候选参考视频对应的文本信息，确定目标视频的标签。由此，通过利用参考视频中视频帧作为训练样本，对图像识别模型进行训练，以生成视频帧识别模型，进而利用视频帧识别模型确定关键视频帧对应的图像特征，从而提升了视频帧特征表达的准确性，进一步提升了视频细粒度识别的准确性和召回率的效果。

为了实现上述实施例，本申请还提出一种视频标签的生成装置。

图5为本申请实施例提供的一种视频标签的生成装置的结构示意图。

如图5所示，该视频标签的生成装置50，包括：

第一获取模块51，用于获取待处理的目标视频；

提取模块52，用于从目标视频中提取关键视频帧；

第二获取模块53，用于从参考视频库中获取候选参考视频，其中，参考视频库中包含多个参考视频及每个参考视频对应的文本信息，候选参考视频中至少一个视频帧与关键视频帧的相似度大于第一阈值；以及

确定模块54，用于根据候选参考视频对应的文本信息，确定目标视频的标签。

在实际使用时，本申请实施例提供的视频标签的生成装置，可以被配置在任意电子设备中，以执行前述视频标签的生成方法。

在本申请一种可能的实现形式中，上述提取模块52，包括：

第一获取单元，用于获取目标视频中每个视频帧对应的颜色直方图；

第一确定单元，用于根据每个视频帧对应的颜色直方图，确定目标视频中各连续N个视频帧间的相似度，其中，N为大于1的正整数；以及

第二确定单元，用于在任一连续N个视频帧中第i帧与其他任一帧间的相似度小于第二阈值时，确定第i帧为关键视频帧，其中，i为小于或等于N的正整数。

在本申请另一种可能的实现形式中，上述第二获取模块53，包括：

第二获取单元，用于获取关键视频帧对应的第一图像特征；

第三获取单元，用于获取参考视频库中每个参考视频中的关键视频帧对应的第二图像特征；

第三确定单元，用于根据第一图像特征与第二图像特征的相似度，确定目标视频与每个参考视频的关联度；以及

第四获取单元，用于根据目标视频与每个参考视频的关联度，从参考视频库中获取候选参考视频。

进一步的，在本申请另一种可能的实现形式中，若候选参考视频的数量M大于第三阈值，M为正整数，则上述第二获取模块53，还包括：

第四确定单元，用于根据每个候选参考视频中包含的目标参考视频帧的数量，确定每个候选参考视频的第一权重，其中，目标参考视频帧与关键视频帧的相似度大于第一阈值；

第五确定单元，用于根据每个候选参考视频中每个目标参考视频帧与关键视频帧的相似度，确定每个候选参考视频的第二权重；以及

第五获取单元，用于根据每个候选参考视频的第一权重及第二权重，从M个候选参考视频中获取目标参考视频。

进一步的，在本申请再一种可能的实现形式中，上述第二获取模块53，还包括：

第六获取单元，用于对参考视频库中的每个参考视频进行切帧处理，以获取各个参考视频帧；

第七获取单元，用于利用图像识别模型，对每个参考视频帧进行识别，以获取每个参考视频帧对应的第三图像特征；

第八获取单元，用于根据每个参考视频帧对应的第三图像特征，将各个参考视频帧进行聚类处理，以获取各视频帧簇；以及

训练单元，用于利用各视频帧簇，对图像识别模型进行训练，以生成视频帧识别模型；

相应的，上述第二获取单元，包括：

第一获取子单元，用于利用视频帧识别模型，对关键视频帧进行识别，以获取关键视频帧对应的第一图像特征。

进一步的，在本申请又一种可能的实现形式中，上述训练单元，包括：

构建子单元，用于根据图像识别模型，构建初始图像分类模型；

训练子单元，用于利用各视频帧簇，对初始图像分类模型进行训练，以生成目标图像分类模型；以及

生成子单元，用于根据目标图像分类模型，生成视频帧识别模型。

进一步的，在本申请又一种可能的实现形式中，上述第三获取单元，包括：

第二获取子单元，用于利用视频帧识别模型，对参考视频库中每个参考视频中的关键视频帧进行识别，以获取参考视频库中每个参考视频中的关键视频帧对应的第二图像特征。

在本申请一种可能的实现形式中，上述确定模块54，包括：

第九获取单元，用于对候选参考视频对应的文本信息进行切词处理，以获取候选参考视频对应的词集；以及

第十获取单元，用于根据词集中每个分词的词频-逆文件频率，从词集中获取目标分词作为目标视频的标签。

需要说明的是，前述对图1、图2、图3、图4所示的视频标签的生成方法实施例的解释说明也适用于该实施例的视频标签的生成装置50，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质。

如图6所示，是根据本申请实施例的视频标签的生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频标签的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频标签的生成方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频标签的生成方法对应的程序指令/模块（例如，附图5所示的第一获取模块51、提取模块52、第二获取模块53及确定模块54）。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频标签的生成方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频标签的生成方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至视频标签的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频标签的生成方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与视频标签的生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS（VirtualPrivate Server，虚拟专用服务器）服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频标签的生成方法，包括：

获取待处理的目标视频；

从所述目标视频中提取关键视频帧；

从参考视频库中获取候选参考视频，其中，所述参考视频库中包含多个参考视频及每个所述参考视频对应的文本信息，所述候选参考视频中至少一个视频帧与所述关键视频帧的相似度大于第一阈值；以及

根据所述候选参考视频对应的文本信息，确定所述目标视频的标签；

所述从参考视频库中获取候选参考视频，包括：

获取所述关键视频帧对应的第一图像特征；

获取所述参考视频库中每个参考视频中的关键视频帧对应的第二图像特征；

根据所述第一图像特征与所述第二图像特征的相似度，确定所述目标视频与每个所述参考视频的关联度；以及

根据所述目标视频与每个所述参考视频的关联度，从所述参考视频库中获取候选参考视频；

其中，若候选参考视频的数量M大于第三阈值，M为正整数，则在所述从参考视频库中获取候选参考视频之后，还包括：

根据每个所述候选参考视频中包含的目标参考视频帧的数量，确定每个所述候选参考视频的第一权重，其中，所述目标参考视频帧与所述关键视频帧的相似度大于第一阈值；

根据每个所述候选参考视频中每个目标参考视频帧与所述关键视频帧的相似度，确定每个所述候选参考视频的第二权重；以及

根据每个所述候选参考视频的第一权重及第二权重，从所述M个候选参考视频中获取目标参考视频；

其中，在所述获取所述关键视频帧对应的第一图像特征之前，还包括：

对所述参考视频库中的每个参考视频进行切帧处理，以获取各个参考视频帧；

利用图像识别模型，对每个所述参考视频帧进行识别，以获取每个所述参考视频帧对应的第三图像特征；

根据每个所述参考视频帧对应的第三图像特征，将所述各个参考视频帧进行聚类处理，以获取各视频帧簇；以及

利用所述各视频帧簇，对所述图像识别模型进行训练，以生成视频帧识别模型；

所述获取所述关键视频帧对应的第一图像特征，包括：

利用所述视频帧识别模型，对所述关键视频帧进行识别，以获取所述关键视频帧对应的第一图像特征。

2.如权利要求1所述的方法，其中，所述从所述目标视频中提取关键视频帧，包括：

获取所述目标视频中每个视频帧对应的颜色直方图；

根据所述每个视频帧对应的颜色直方图，确定所述目标视频中各连续N个视频帧间的相似度，其中，N为大于1的正整数；以及

如果任一连续N个视频帧中第i帧与其他任一帧间的相似度小于第二阈值，则确定所述第i帧为关键视频帧，其中，i为小于或等于N的正整数。

3.如权利要求1所述的方法，其中，所述利用所述各视频帧簇，对所述图像识别模型进行训练，以生成视频帧识别模型，包括：

根据所述图像识别模型，构建初始图像分类模型；

利用所述各视频帧簇，对所述初始图像分类模型进行训练，以生成目标图像分类模型；以及

根据所述目标图像分类模型，生成所述视频帧识别模型。

4.如权利要求1所述的方法，其中，所述获取所述参考视频库中每个参考视频中的关键视频帧对应的第二图像特征，包括：

利用所述视频帧识别模型，对所述参考视频库中每个参考视频中的关键视频帧进行识别，以获取所述参考视频库中每个参考视频中的关键视频帧对应的第二图像特征。

5. 如权利要求1-4任一所述的方法，其中，所述根据所述候选参考视频对应的文本信息，确定所述目标视频的标签，包括：

对所述候选参考视频对应的文本信息进行切词处理，以获取所述候选参考视频对应的词集；以及

根据所述词集中每个分词的词频-逆文件频率，从所述词集中获取目标分词作为所述目标视频的标签。

6.一种视频标签的生成装置，包括：

第一获取模块，用于获取待处理的目标视频；

提取模块，用于从所述目标视频中提取关键视频帧；

第二获取模块，用于从参考视频库中获取候选参考视频，其中，所述参考视频库中包含多个参考视频及每个所述参考视频对应的文本信息，所述候选参考视频中至少一个视频帧与所述关键视频帧的相似度大于第一阈值；以及

确定模块，用于根据所述候选参考视频对应的文本信息，确定所述目标视频的标签；

其中，所述第二获取模块，包括：

第二获取单元，用于获取所述关键视频帧对应的第一图像特征；

第三获取单元，用于获取所述参考视频库中每个参考视频中的关键视频帧对应的第二图像特征；

第三确定单元，用于根据所述第一图像特征与所述第二图像特征的相似度，确定所述目标视频与每个所述参考视频的关联度；以及

第四获取单元，用于根据所述目标视频与每个所述参考视频的关联度，从所述参考视频库中获取候选参考视频；

其中，若候选参考视频的数量M大于第三阈值，M为正整数，则所述第二获取模块，还包括：

第四确定单元，用于根据每个所述候选参考视频中包含的目标参考视频帧的数量，确定每个所述候选参考视频的第一权重，其中，所述目标参考视频帧与所述关键视频帧的相似度大于第一阈值；

第五确定单元，用于根据每个所述候选参考视频中每个目标参考视频帧与所述关键视频帧的相似度，确定每个所述候选参考视频的第二权重；以及

第五获取单元，用于根据每个所述候选参考视频的第一权重及第二权重，从所述M个候选参考视频中获取目标参考视频；

其中，所述第二获取模块，还包括：

第六获取单元，用于对所述参考视频库中的每个参考视频进行切帧处理，以获取各个参考视频帧；

第七获取单元，用于利用图像识别模型，对每个所述参考视频帧进行识别，以获取每个所述参考视频帧对应的第三图像特征；

第八获取单元，用于根据每个所述参考视频帧对应的第三图像特征，将所述各个参考视频帧进行聚类处理，以获取各视频帧簇；以及

训练单元，用于利用所述各视频帧簇，对所述图像识别模型进行训练，以生成视频帧识别模型；

所述第二获取单元，包括：

第一获取子单元，用于利用所述视频帧识别模型，对所述关键视频帧进行识别，以获取所述关键视频帧对应的第一图像特征。

7.如权利要求6所述的装置，其中，所述提取模块，包括：

第一获取单元，用于获取所述目标视频中每个视频帧对应的颜色直方图；

第一确定单元，用于根据所述每个视频帧对应的颜色直方图，确定所述目标视频中各连续N个视频帧间的相似度，其中，N为大于1的正整数；以及

第二确定单元，用于在任一连续N个视频帧中第i帧与其他任一帧间的相似度小于第二阈值时，确定所述第i帧为关键视频帧，其中，i为小于或等于N的正整数。

8.如权利要求6所述的装置，其中，所述训练单元，包括：

构建子单元，用于根据所述图像识别模型，构建初始图像分类模型；

训练子单元，用于利用所述各视频帧簇，对所述初始图像分类模型进行训练，以生成目标图像分类模型；以及

生成子单元，用于根据所述目标图像分类模型，生成所述视频帧识别模型。

9.如权利要求6所述的装置，其中，所述第三获取单元，包括：

第二获取子单元，用于利用所述视频帧识别模型，对所述参考视频库中每个参考视频中的关键视频帧进行识别，以获取所述参考视频库中每个参考视频中的关键视频帧对应的第二图像特征。

10. 如权利要求6-9任一所述的装置，其中，所述确定模块，包括：

第九获取单元，用于对所述候选参考视频对应的文本信息进行切词处理，以获取所述候选参考视频对应的词集；以及

第十获取单元，用于根据所述词集中每个分词的词频-逆文件频率，从所述词集中获取目标分词作为所述目标视频的标签。

11. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。