CN112163122A

CN112163122A - 确定目标视频的标签的方法、装置、计算设备及存储介质

Info

Publication number: CN112163122A
Application number: CN202011190784.0A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-01
Anticipated expiration: 2040-10-30
Also published as: CN112163122B

Abstract

本申请公开了一种确定目标视频的标签的方法、装置、计算设备以及计算机可读存储介质。该方法包括：确定所述目标视频的特征向量；基于所述目标视频的特征向量与至少一个已有视频的特征向量，从所述至少一个已有视频中确定所述目标视频的相似视频，其中所述相似视频与所述目标视频的相似度大于预设相似度阈值，并且每个所述至少一个已有视频具有至少一个标签；基于所述相似视频的标签，确定所述目标视频的标签。本申请的方法可提高为目标视频确定的标签的准确度，提高了确定标签的过程的效率，并且减少了成本。

Description

确定目标视频的标签的方法、装置、计算设备及存储介质

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种确定目标视频的标签的方法、装置、计算设备以及计算机可读存储介质。

背景技术

在互联网和移动通信技术快速发展的时代，尤其是近些年来短视频的迅速发展，网络中视频量以指数级的速度增长，因此使用户能够准确快速地搜索到期望的视频或者向用户准确地推荐合适（例如，符合其兴趣）的视频逐渐成了关注点。这通常依赖于视频的标签。

目前，为视频确定标签的方法主要是人工观看视频并确认。这个过程需要大量的人力，时间和金钱成本都非常高。而且，对于一些特定领域的视频，往往需要该领域内的专业人士才能确定匹配度高的标签。另外，并不排除一些视频制作者为了获取更高的关注度而恶意添加与视频内容不符的标签。除了人工添加标签的方法，还可以通过机器学习等方式从视频的标题或视频涉及的文本内容中识别一些标签来供人工标记参考。但是，视频相关的文本内容通常只有一个标题，字数一般小于20，难以概括整个视频的所有关键信息。对于不以文字为主要元素或文字元素难以提取的视频来说，从中识别标签的准确度是比较低的，或者可能需要人工再次确认和选择标签，这无疑降低了识别标签的效率并且增加了识别标签的成本。

发明内容

根据本申请的第一方面，提供了一种确定目标视频的标签的方法。所述方法包括：确定所述目标视频的特征向量；基于所述目标视频的特征向量与至少一个已有视频的特征向量，从所述至少一个已有视频中确定所述目标视频的相似视频，其中所述相似视频与所述目标视频的相似度大于预设相似度阈值，并且每个所述至少一个已有视频具有至少一个标签；基于所述相似视频的标签，确定所述目标视频的标签。

在一些实施例中，所述方法还包括：确定所述至少一个已有视频的特征向量，其中确定所述目标视频的特征向量的方式与确定所述至少一个已有视频的特征向量的方式相同。

在一些实施例中，确定所述目标视频的特征向量包括：确定所述目标视频的至少一种模态数据的全局特征向量；基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量。

在一些实施例中，所述至少一种模态数据包括所述目标视频的图像数据、音频数据和文本数据中的至少一种，并且确定所述目标视频的至少一种模态数据的全局特征向量包括：确定所述图像数据的全局特征向量、确定所述音频数据的全局特征向量、确定所述文本数据的全局特征向量这三个步骤中的至少一个。并且，基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量包括：基于所述图像数据的全局特征向量、所述音频数据的全局特征向量和所述文本数据的全局特征向量中的至少一种确定所述目标视频的特征向量。

在一些实施例中，所述图像数据包括所述目标视频的图像流，并且确定所述图像数据的全局特征向量包括：从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量；从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量；从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量；基于所述场景全局特征向量、所述对象全局特征向量和所述人脸全局特征向量，得到所述图像数据的全局特征向量。

在一些实施例中，从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量包括：基于所述场景特征将所述图像流分割为多个镜头片段；基于每个所述多个镜头片段的各图像帧的场景特征，得到所述多个镜头片段各自的场景镜头特征向量；基于每个所述镜头片段在所述图像流中的时长占比对所述场景镜头特征向量加权；基于已加权的所述场景镜头特征向量得到所述场景全局特征向量。

在一些实施例中，从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量包括：基于每个所述多个镜头片段的各图像帧的对象特征，得到所述多个镜头片段各自的对象镜头特征向量；基于每个所述镜头片段在所述图像流中的时长占比对所述对象镜头特征向量加权；基于已加权的所述对象镜头特征向量得到所述对象全局特征向量。

在一些实施例中，从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量包括：基于每个所述多个镜头片段的各图像帧的人脸特征，得到所述多个镜头片段各自的人脸镜头特征向量；基于每个所述镜头片段在所述图像流中的时长占比对所述人脸镜头特征向量加权；基于已加权的所述人脸镜头特征向量得到所述人脸全局特征向量。

在一些实施例中，基于所述场景特征将所述图像流分割为多个镜头片段包括：基于所述图像流中每相邻两个图像帧之间的差异，将所述图像流分割为所述多个镜头片段。

在一些实施例中，基于所述相似视频的标签，确定所述目标视频的标签包括：对所述相似视频的标签的出现次数排名；将排名处于前n位的标签确定为所述目标视频的标签，其中n为正整数。

在一些实施例中，基于所述相似视频的标签，确定所述目标视频的标签包括：将出现次数大于预设次数的所述相似视频的标签确定为所述目标视频的标签。

根据本申请的第二方面，提供了一种确定目标视频的标签的装置，其特征在于，包括：目标视频特征向量确定模块，其配置成确定所述目标视频的特征向量；相似视频确定模块，其配置成基于所述目标视频的特征向量与至少一个已有视频的特征向量，从所述至少一个已有视频中确定与所述目标视频的相似度大于预设相似度阈值的已有视频作为相似视频，其中每个所述至少一个已有视频具有至少一个标签；目标视频标签确定模块，其配置成基于所述相似视频的标签，确定所述目标视频的标签。

根据本申请的第三方面，提供了一种计算设备，包括；存储器，其被配置成存储计算机可执行指令；处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如上所述的确定目标视频的标签的方法。

根据本申请的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如上面所述的确定目标视频的标签的方法。

在本申请要求保护的确定目标视频的标签的方法和装置，计算设备及计算机可读存储介质中，本申请利用了已经具有标签的已有视频来为目标视频确定标签。通过应用已有视频的准确性较高的标签，所确定的目标视频的标签的准确性得到了提高。此外，通过已有视频的标签的应用，提高了现有资源的利用率。并且，通过利用目标视频和已有视频的特征向量作为寻找相似视频的手段，可以更准确地在已有视频中找到目标视频的相似视频，进一步提高了所确定的标签的准确性。

附图说明

现在将更详细并且参考附图来描述本申请的实施例，其中：

图1示意性地示出了根据本申请实施例的技术方案可以实施在其中的网络架构的结构；

图2示意性地示出了根据本申请实施例的确定目标视频的标签的方法的示例性场景示意图；

图3示意性地示出了根据本申请实施例的确定目标视频的标签的方法的流程图；

图4示意性地示出了根据本申请实施例的确定视频的特征向量的示例性原理图；

图5示意性地示出了根据本申请实施例的确定图像流的全局特征向量的示例性原理图；

图6A示意性地示出了根据本申请实施例的确定图像流的全局特征向量的方法的流程图；

图6B示意性地示出了根据本申请实施例的基于镜头片段确定图像流的场景全局特征向量的方法的流程图；

图7示意性地示出了根据本申请实施例的确定视频的特征向量的流程；

图8示意性地示出了应用根据本申请实施例的确定目标视频的标签的方法的示例性系统架构的框图；

图9示意性地示出了根据本申请实施例的确定目标视频的标签的装置的结构框图；

图10示意性地示出了可以实现本申请描述的各种技术的示例计算设备。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚和完整的描述。所描述的实施例仅仅是本申请的一部分实施例，而不是全部实施例。基于本申请的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器来模拟、延伸和扩展人的智能，感知环境，获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能，并重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

计算机视觉(Computer Vision，CV)是一门研究如何使机器“看”的科学。更进一步的说，计算机视觉用摄影机和电脑代替人眼和大脑对目标进行识别、跟踪和测量，并进一步做图形处理，使经处理的图像成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

本申请涉及视频的领域，尤其涉及确定目标视频的标签的方法和装置，计算设备及计算机可读存储介质。

为了便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

Feeds：是一种呈现内容给用户并持续更新的方式。网站透过它将最新内容传播给用户。Feed流是指持续更新并呈现给用户内容的信息流。例如，每个人的微信朋友圈、微博关注页等等都是一个Feed流。Feed流中的每一条状态或者消息就是Feed，比如朋友圈中的一个状态就是一个Feed，微博中的一条微博就是一个Feed。

场景：视频领域术语，指视频的拍摄场地，体现为视频画面的背景部分。

对象：视频领域术语，指视频内存在的人或物等实体。

镜头：视频领域术语，指一台摄像机从开始拍摄直到停止拍摄之间所拍下一组连续的画面。由于每个摄像机的所拾取的场景是相对独立的，在观看视频时，场景的变换可能意味着镜头的切换。

发明人发现，现存的视频中有很多视频已经被标记了标签。这些视频的标签经过时间的验证，其准确度是非常高的。如果能够通过一些方法，在由这些已经被标记了标签的视频所组成的视频库中找到与目标视频相似的至少一个视频，那么这些相似视频的标签将很有可能适用于目标视频。尤其是，期望一种更适用于视频内容的相似度检测方法，以便检索到与目标视频的相似度更高的相似视频。进一步的，发明人还发现，如果能够按照一些规则对相似视频的所有标签进行筛选，那么经筛选的标签将与目标视频更加匹配。

本申请提供一种基于视频的特征向量为目标视频确定标签的方法，其通过已经被标记标签的已有视频来为尚未确定标签的目标视频确定标签。图1示意性地示出了根据本申请实施例的技术方案可以实施在其中的一种网络架构100的结构。如图1所示，网络架构100可以包括服务器105和终端设备的集群。终端设备集群可以包括至少一个终端设备，例如终端设备110a、终端设备110b等。本申请不对终端设备的数量进行限制。如图1所示，每个终端设备100a、110b可以分别与服务器105通过网络进行连接，以便每个终端设备可以与服务器105进行数据交互。

本申请中的服务器105例如可以是独立的物理服务器，也可以是由多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备例如可以是智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视等智能终端。

下面以终端设备110a与服务器105之间的通信为例，描述本申请的实施例。根据本申请实施例的为目标视频确定标签的方法利用已经被标记标签的已有视频为尚未确定标签的目标视频确定标签。术语“已有视频”指已经被制作好，并上传到网络存储器中的视频，也被称作“历史视频”。本申请中的“已有视频”已经标记了标签。这些标签通常由人工标记，或者经过人工验证，因此可以准确地描述相应的已有视频的内容。术语“目标视频”则指已经制作完成并需要被添加标签的视频，也可以被称作“新视频”或“源视频”。终端设备110a可以只具有视频拍摄功能，只具有视频编辑功能，或者两者兼有。目标视频在制作完后可以通过终端设备110a的应用程序被发送给服务器105。然后，在服务器105内可以为目标视频确定对应的标签。当然，这不是限制性的，为目标视频确定对应的标签还可以在终端上或者由终端和服务器协作实现。

图2示意性地示出了根据本申请实施例的一种确定目标视频的标签的方法的示例性场景示意图。例如，已有视频221、222、223已经被制作且存储于服务器105中。已有视频的集合可以被理解为已有视频库220。每个已有视频都被标记有至少一个标签。例如，已有视频221被标记有标签1、标签2和标签3，已有视频222被标记有标签1’、标签2’和标签3’，已有视频223被标记有标签1”、标签2”和标签3”。应理解，已有视频库中包含的已有视频的数量和每个已有视频各自的标签的数量并不限于图2中示意性地示出的数量。例如，除了已有视频221、222、223之外，视频库还可能包括其它已有视频，并且每个已有视频的标签的数量可能多于或少于图2中所示出的3个。

目标视频205是需要被确定标签的视频。在被上传到服务器105后，目标视频205被向量化，以得到对应于目标视频205的特征向量210。术语“向量化”表示将视频数据转化成由特征向量表示的过程。视频所包含的信息是非常丰富的，包括图像流（其中具体包括视频对象、场景和人脸）、封面图、文本（其中具体包括视频标题、视频内容文本描述、视频字幕信息以及其它视频相关信息，例如视频中出现的商品的文字介绍或视频背景音乐的文字介绍等）、音频等模态数据。不同模态数据对视频的贡献度不一样，且每个模态数据的向量化的过程不同。确定目标视频的特征向量进一步包括基于目标视频的至少一种模态数据确定目标视频的特征向量。关于每种模态数据各自的向量化过程将在后文描述。

已有视频221、222和223也需要被向量化。已有视频的向量化也可以例如在服务器105中进行。如图2所示，经过向量化后，得到了已有视频221的特征向量226，已有视频222的特征向量227和已有视频223的特征向量228。

本申请中，已有视频被向量化的时机有多种选择。已有视频可能在形成视频库之前已经被向量化，也可能在目标视频被向量化的同时被向量化。已有视频的向量化的时机选择并不被限制。已有视频已经被标记了标签。已有视频的标签反映了视频的内容。一个已有视频可以标记有多个标签，但通常一个已有视频只对应一个特征向量。所以，已有视频的特征向量与标签之间存在关联，但并不是“一一对应”的关系。通过比较目标视频的特征向量和已有视频的特征向量，例如通过确定目标视频的特征向量分别与每个已有视频的特征向量之间的向量距离，可以在已有视频中找到与目标视频相似的至少一个相似视频。术语“相似视频”表示，该视频与目标视频的相似度大于预设的相似度阈值。相似度可以由向量距离表示，具体有不同的计算方法，例如欧氏距离、余弦相似度等。例如，如果目标视频与一已有视频的特征向量的欧氏距离小于预设相似度阈值，则认为该已有视频是目标视频的相似视频。该相似度阈值可以按需设置。例如，如果在第一相似度阈值下，并未找到相似视频，则可以适当降低相似度阈值，使得更多的已有视频可以被认定为与目标视频相似。又如，如果在第二相似度阈值下，找到非常多个相似视频，则可以适当提高相似度阈值，使得所获得的相似视频与目标视频的相似度更高。在一些实施例中，已有视频向量化的方式和目标视频向量化的方式可以相同。

如图2所示，基于目标视频205的特征向量和已有视频库220中各视频的特征向量，在已有视频库220中确定了目标视频205的三个相似视频231、232、233。相似视频231的标签是标签a、标签b、标签c、标签d；相似视频232的标签是标签b、标签e、标签f、标签g、标签h；相似视频233的标签是标签i、标签j、标签g、标签k、标签h、标签b和标签l。标签a到l都是目标视频205的相似视频的标签，所以这些标签都有可能与目标视频205的内容有关。但是，这些标签各自与目标视频205的关联程度可能并不相同。例如，标签b同时是三个相似视频231、232、233的标签（换句话说，标签b出现了3次），因此更有可能准确地描述目标视频205。另外，标签g和标签h分别是两个相似视频的标签，因此这两个标签相比于除前述标签b以外的其它标签，更有可能与目标视频205的内容相关。在为目标视频确定标签时，以上因素会被考虑在内。例如，可以依据同一标签的出现次数为所有相似视频的所有标签进行排名，然后选择排名靠前的标签作为目标视频的标签。也可以例如通过设置标签出现次数的阈值来判断各标签是否符合标签出现次数的最低要求。该要求可以例如规定，如果某标签出现的次数大于或等于该阈值，则将该标签确定为目标视频的标签。以图2所描述的实施例为例，标签b出现了3次，标签g和标签h分别出现了2次，其它标签只出现了1次，所以如果按照出现次数排名，则标签b、标签g和标签h将排在前3位，如果要求目标视频的标签的个数为3，或要求所有已有视频的标签排名的前3位被确定为目标视频的标签，那么标签b、标签g和标签h可被确定为目标视频205的标签。又如，如果将标签出现次数的阈值设置为2，则标签b、标签g和标签h满足该要求，而其它标签不满足，因此标签b、标签g和标签h将被确定为目标视频205的标签。

上述为目标视频确定标签的方法能够极大地丰富视频标签的范围和标签生成的效率和准确性，直接改善用户体验并提升运营效率，很大程度上降低了视频标签标注的人力成本。特别是在短视频（例如，时长在5分钟以内的视频）的领域中，快速高效地得到视频的标签尤为重要，因为短视频内容更新快、流行期短。此外，该方法能够充分利用大量已有视频的标签，通过目标视频和已有视频的特征向量作为桥梁，实现标签的迁移，并提高了现有资源的利用率。所得到的标签可以直接应用，也可以作为人工标注的辅助，节省人力成本。并且，所得到的标签与目标视频的相关性更高，有助于将目标视频准确地推荐给对其感兴趣的受众。

图3示意性地示出了根据本申请实施例的确定目标视频的标签的方法的流程图。该方法例如可以由终端设备110a、110b执行，也可以由服务器105执行，还可以由终端设备和服务器共同协作执行。为便于理解，本申请的实施例以该方法由上述服务器执行为例进行说明。

如图3所示，该方法可以包括：步骤S310，确定目标视频的特征向量。在目标视频数据被上传到服务器后，可以在服务器内对目标视频进行向量化，以得到目标视频的特征向量。视频可以包括至少一种模态数据，所述至少一种模态数据例如可以包括图像数据（包括图像流、封面图等）、音频数据以及文本数据（包括视频标题、视频描述和视频字幕等）中的至少一种。随着目标视频的上传，这些数据都被服务器获得。服务器可以基于目标视频的至少一种模态数据确定所述目标视频的特征向量。在这些模态数据中，图像数据，尤其是图像流是视频最核心的数据，因为图像流是视频独有的，且其中含有丰富的内容，因此图像流对于视频的向量化将起到关键的作用。根据各模态数据中的至少一种得到目标视频的特征向量的具体方法将在后文详细描述。

在一些实施例中，如图3所示，该方法还可以包括：确定至少一个已有视频的特征向量。本申请中的已有视频是已经被标记了至少一个标签的视频。这些已有视频已经存在于互联网上一段时间，因此这些视频可能已经被许多观看者观看，其标签也可能经过许多观看者的确认，因此这些已有视频的标签能够匹配对应已有视频的内容。如前面所述，确定目标视频的特征向量的方式与确定已有视频的特征向量的方式可以相同。相比于采用不同方式获得目标视频的特征向量和已有视频的特征向量的实施例，通过相同方法确定目标视频和已有视频的特征向量有助于更准确地在已有视频中找到与目标视频相似的相似视频。

如图3所示，该方法还可以包括：步骤S315，基于目标视频的特征向量与至少一个已有视频的特征向量，从至少一个已有视频中确定目标视频的相似视频，其中相似视频与目标视频的相似度大于预设相似度阈值，并且每个已有视频具有至少一个标签。在目标视频和已有视频都完成向量化后，可以基于目标视频的特征向量与各个已有视频的特征向量，从至少一个已有视频中确定与目标视频相似的视频，在本申请中称之为相似视频。具体地，目标视频与已有视频之间的相似度计算可以通过特征向量的相似度的计算来实现，具体可以例如由训练后的相似度搜索模型来执行。首先将已有视频库中的大量已有视频进行向量化处理，进而利用大量视频特征向量训练一个相似度搜索模型，使之学习具备特征比对功能。然后将目标视频的特征向量输入至已训练好的相似度搜索模型中，以使相似度搜索模型遍历搜索已有视频，并且计算目标视频与各已有视频之间的相似度，从而在已有视频中找到目标视频的相似视频。例如，可以将已有视频的特征向量存储在Faiss中，基于Faiss自带的向量函数进行运算，实现相似视频的快速召回。

Faiss由Facebook AI Research开发，是一个用于相似性搜索和密集向量聚类的高性能库，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库。Faiss库包含相似性搜索的多种方法，核心模块包括高性能聚类、主成分分析PCA、乘积量化PQ。它假设实例被表示为向量，并用整数标识，同时向量可以与L2距离或点积进行比较。与查询向量类似的向量是那些与查询向量具有最低L2距离或具有最高点积的向量。它还支持余弦相似性，因为这是归一化向量上的点积。本申请将新视频生成的视频向量存储在Faiss中，利用Faiss自带的向量运算实现对视频的快速召回，推荐效率高。

经过特征向量的比较之后，可以得到每个已有视频与目标视频之间的视频相似度，可以将与目标视频的视频相似度大于或者等于相似度阈值的已有视频作为目标视频的相似视频。该相似度阈值可以按需设置。在一些实施例中，在获得目标视频与已有视频之间的相似度之后，需按一定规则对相似视频进行筛选。例如，如果预设规则规定召回10个相似视频，则首先对所计算的所有相似度进行排名，进而将相似度排名前10位的已有视频反馈至服务器。又如，若预设规则为设定相似度阈值，则在计算得到多个相似度后，可比较每个相似度与相似度阈值，满足相似度阈值的相似度即可反馈至服务器，同时将满足相似度阈值的相似度对应的已有视频确定为目标视频的相似视频。

如图3所示，该方法还可以包括：步骤S320，基于所述相似视频的标签，确定所述目标视频的标签。在一些实施例中，尤其是在前述确定相似视频的预设规则为召回少量已有视频时，可以将所有相似视频的标签都确定为目标视频的标签。这种方法速度较快，并且需要利用的资源很少。此外，在另外的实施例中，可以根据同一标签被认定为不同的相似视频的标签的次数（即，同一标签的出现次数）对所有标签进行排名，取排名高于某预设阈值的标签作为目标视频的标签。或者，可以比较同一标签的出现次数与预设的阈值次数n（n为正整数），取出现次数超过n词的标签作为目标视频的标签。

下面介绍根据本申请实施例的确定目标视频的标签的方法中根据视频内容的至少一种模态数据得到视频的特征向量的方法。该方法具体包括步骤：确定目标视频的至少一种模态数据的全局特征向量，以及，基于该至少一种模态数据的全局特征向量确定目标视频的特征向量。图4示意性地示出了确定视频（包括目标视频和已有视频）的特征向量的示例性原理图。如图4所示，视频可以包含至少一种模态数据。每种模态数据可以被提取出对应的全局特征向量405、410、415、420、425。在一些实施例中，可以仅基于一种模态数据的全局特征向量来得到视频的特征向量。在另一些实施例中，可以在获得至少两种模态数据的全局特征向量后，将这些特征向量融合，得到视频的特征向量210。这种融合方式称为后融合。融合例如可以是把不同模态数据的特征向量做拼接、平均、加权平均、或取最大值等。在一些实施例中，根据本申请的方法采用最简单的取平均的方式，该方式具有较高的计算效率。对于短视频这种内容更新快、流行期短的内容，算法需要具备快速扩展识别新标签的能力，因此取平均这种高效的融合方式是有利的。

不同模态数据的特征向量的融合方式还可以是“先融合”，其中视频可以被分成多个非常短（例如，毫秒级）的时间段。每个时间段内的各种模态数据的向量被融合，形成该时间段的特征向量。然后各个时间段的特征向量可以被融合以得到整个视频的特征向量。这种方式非常简单，很容易实现，但是不同模态数据的特征抽取方式不一样，直接融合可能会破坏预训练模型的输入一致性。例如，视频可能同时包含图像流和音频，但图像流数据的图像帧和音频数据的音频帧的采集方式并不相同，因此不能以帧为单位进行“先融合”。

还有一种融合不同模态数据的特征向量的方式是“混合融合”。混合融合介于先融合和后融合之间。在混合融合中，部分模态数据的特征向量可以提前融合，融合后得到的结果再与另外的模态数据的特征向量融合。不同种类的模态数据的特征向量的融合有各自适合的融合方式，例如，一个视频可能包含第一、第二、第三这三种模态数据，而融合第一模态数据和第二模态数据的最适合的方式与融合第一模态数据和第三模态数据的最适合的方式不同。混合融合方式有助于找到最合适的融合方式。例如，如果第一模态数据和第二模态数据都可以以帧为单位进行分割，则可以先得到每一帧的第一模态数据和第二模态数据的融合向量，然后将每一帧的融合向量拼接，得到第一模态数据和第二模态数据的融合全局向量，然后将该融合全局向量与第三模态数据的全局向量融合，得到视频的特征向量。在一些实施例中，本申请中的视频的模态数据例如可以包括图像流、封面图、音频、文本、及相关内容等中的至少一种。接下来，分别描述各模态数据的特征向量提取方式。

首先，描述音频的特征向量的提取方式。作为示例，首先，服务器可以从视频数据中分离音频数据。然后，服务器可以对所分离出的音频数据进行音频分帧。例如，可以采用均匀抽帧的方法，例如以20毫秒的间隔，来对音频数据进行分帧。通过对音频数据进行分帧，可以得到多个音频帧。其中，每个音频帧可以通过所包含的能量值表示为一个序列。接着，构建目标视频数据的视频音频信息中的每个音频帧的梅尔频谱图特征。然后，将这种格式的音频输入VGGish网络提取为128维的特征数组，由此实现了将非格式化的音频数据向格式化数据的转换。由于梅尔频谱图特征能够抽取得到音频帧的频谱图的轮廓信息，因此，通过梅尔频谱图特征来表示音频帧，更能体现出音频帧的能量变化特征。

在一些实施例中，可以使用场景识别网络，并依据场景将音频分割为不同的镜头，然后提取各镜头对应的音频特征，然后通过可学习的权重融合生成音频模态数据的全局特征向量415。例如，可以利用NetVLAD作为场景识别网络。NetVLAD是用于图像特征表示的局部聚合描述符(vector of locally aggregated descriptors，VLAD)算法改进的深度网路版本，它将局部特征向量的残差聚合到它们各自的聚类质心以生成全局描述符。NetVLAD是专门针对于弱监督视觉地点识别任务的CNN结构，可以进行端到端的训练直接用于地点识别任务，NetVLAD网络层可以轻易地嵌入到任何CNN结构中进行反向传播训练。NetVLAD网络可以将每个音频帧分别对应的音频特征向量，融合为一个特征向量，可以将融合每个音频特征向量所得到的特征向量称之为音频的全局特征向量415。此外，NetVLAD通过识别场景将帧按照镜头片段归类，得到每个镜头片段的全局特征。然后可以再次通过NetVLAD为各个镜头片段加权获得全局特征向量。为镜头加权的原理是多种的。例如，可以按照一个镜头时长在总共视频全部时长的占比来确定镜头的权重。

接着，描述文本特征向量的提取方式。视频数据的文本信息可以通过视频标题信息、视频描述信息和视频字幕信息来得到。视频字幕信息可以由服务器通过对视频画面进行图像识别来获得。例如，视频字幕信息可以通过光学字符识别(OCR)识别。OCR可以检测画面上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。替代地，视频字幕信息也可以由服务器通过对视频数据的音频数据进行语音识别而识别出来。例如，可以利用自动语音识别技术（ASR）将语音转化为文字。由于视频数据的字幕信息通常比较长，因此可以对视频字幕信息进行分词。通过分词处理，可以使后续的文本特征提取网络的输入维度更高，通过文本特征提取网络得到的表示语义信息的融合向量所包含的语义信息更丰富，例如，可以包含时态、主语、词序敏感性、主谓一致等语义信息。通过分词，可以获取到字幕信息中的字幕关键词。通常，视频标题信息和视频描述信息都比较短，因此，可以直接将视频标题信息、视频描述信息以及字幕关键词进行拼接，得到视频数据的视频文本信息。在替代的实施例中，如果视频描述信息比较长，则也可以对视频描述信息进行分词，得到视频描述信息中的关键词。然后，服务器可以将视频标题信息、视频描述信息中的关键词和字幕关键词进行拼接，得到视频数据的视频文本信息。

在得到视频文本信息之后，进一步的，利用已训练的文本特征提取网络将文本信息向量化。具体的，将待检测的文本的分词输入至已训练的文本特征提取网络，通过已训练的文本特征提取网络获得各分词中每个字符对应的字向量、文本向量以及位置向量。然后针对各分词中的每个字符对应的字向量、文本向量以及位置向量进行融合处理，以得到文本对应的融合向量。字向量用于表示字符的标识信息，不同的字符对应不同的字向量，即，不同的字符通过不同的字向量唯一标识。文本向量用于表示字符在所在分词中的语义信息。语义越接近的字符对应的文本向量距离越近。位置向量用于表示字符在待检测文本和所在分词中的位置信息。同一字符在待检测文本中的不同位置以及在分词中的不同位置会有不同的语义差别。在对每个字符对应的字向量、文本向量以及位置向量进行融合处理的过程中，首先对每个字符对应的字向量、文本向量以及位置向量进行求和处理，得到每个字符对应的和向量，再根据每个字符对应的和向量进行融合处理得到融合向量，其中融合向量表示每个字符对应的语义信息。然后，对各个融合向量进行拼接，得到视频文本的特征向量420。

在一些实施例中，文本特征提取网络可以为BERT网络。BERT的全称为用于Transformer模型的双向编码器表征(Bidirectional Encoder Representations fromTransformers)，它是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的掩码语言模型(MLM)，以致能生成深度的双向语言表征。BERT模型的根基就是Transformer，Transformer是神经语言程序学(Neuro-Linguistic Programming，NLP)领域主流的特征抽取器。BERT模型对长文本具有较好的嵌入处理效果。当然，可以使用任何其它合适的向量化处理模型或者方式进行文本的向量化处理。

此外，相关内容是指，视频并未直接针对，但与视频内容有关的数据。例如，相关内容可以包括与视频中出现的商品有关的信息，与视频背景音乐有关的信息等等。相关内容通常也包含图文信息，其中的图片信息可以采用与封面图提取特征向量的方式一样的方式来提取特征向量，而文字信息可以采用与前述文本内容提取特征向量的方式相同的方式。基于此，可以得到相关内容的特征向量425。

图像流和封面图都是图像数据，封面图是图像流的精华，两者可以互相补充。提取封面图的特征向量的方式与提取图像流的一个图像帧的特征向量的方式类似。为了简洁起见，将仅详述获取图像流的全局特征向量405的方式。

图5示意性地示出了确定图像流的全局特征向量405的示例性原理图，并且图6A示意性地示出了确定图像流的全局特征向量的方法的流程图。如前面提到的，图像流是视频模态数据的一部分。图像流是视频内容的主体，包含了主要的内容信息。图像流相较于普通的单帧图像包含了更加丰富的信息，且不同特征之间具有时序相关性。

图像流作为一种模态数据可以包含多种子模态数据，典型的子模态数据包括场景、对象和人脸。场景一般指视频的背景图像或环境图像。基于场景可以获得视频的拍摄地点。对象一般指视频内出现的特定人或物。基于对象可以获得视频的主题。人脸一般指视频中的人的相貌。基于人脸可以得到视频内人物的身份、情绪等信息。因此，确定图像流的全局特征向量405可以包括：步骤S605：从图像流的各图像帧中识别出场景特征并基于场景特征得到图像流的场景全局特征向量；步骤S610：从图像流的各图像帧中识别出对象特征并基于对象特征得到图像流的对象全局特征向量；以及步骤S615：从图像流的各图像帧中识别出人脸特征并基于人脸特征得到图像流的人脸全局特征向量。

具体的，首先，服务器可以通过视觉特征提取网络从图像流中提取每个图像帧分别对应的图像特征向量，该图像特征向量即为图像帧的一种向量表示。该视觉特征提取网络例如可以采用Inception-ResNet-v2卷积神经网络模型，当然这不是限制性的。Inception的基本思想是不需要人为决定使用哪个过滤器，或是是否需要池化，而是由网络自行确定这些参数。残差网络(ResNet)是残差块的堆叠，这样可以设计很深的网络结构，而且，ResNet随着网络深度的增加训练误差会一直减小。通过Inception-ResNet-v2卷积神经网络模型，可以分别提取出每一帧的场景特征、对象特征和人脸特征。

然后，如前所述，将各个帧的场景特征、对象特征、人脸特征分别融合，得到场景全局特征向量、对象全局特征向量和人脸全局特征向量。融合各帧的特征的过程例如可以采用NetVLAD作为视频特征的聚合网络。NetVLAD网络将每个图像帧分别对应的图像特征向量融合为一个特征向量，可以将融合每个图像特征向量所得到的特征向量称之为全局特征向量。

在视频内容中，各个模态的意义和价值并不完全等同。比如，对于以人物为主的视频，人脸子模态对于视频的重要性更高，在融合各个子模态的特征向量时的应该赋予人脸子模态更大的权重；对于以风景为主的视频，场景子模态对于视频的重要性更高，类似的，其也应当被赋予更大的权重。在一些实施例中，可以利用视觉特征提取网络提取图像流的各个图像帧中的各个子模态数据的特征。然后可以通过协同门注意力的机制来调整各子模态的权重，并对这些子模态数据各自的全局特征向量进行融合。通过这种方式，能够使得视频的特征向量更加凸显视频的核心内容。

此外，视频由镜头组成，但各个镜头的重要性也未必相同。例如，对于一段采访视频来说，拍摄被采访者的镜头往往比拍摄采访者的镜头更具意义。因此，期望得到的视频的特性向量更加能对应于被采访者而非采访者。

在一些实施例中，NetVLAD可以通过聚类中心将视频序列特征转化为多个视频镜头特征，然后通过可以学习的权重对多个视频镜头加权求和获得全局特征向量。镜头的切换一般意味着场景的切换。所以，在识别出场景特征后，可以基于场景特征将图像流分割为多个镜头片段。图6B示意性地示出了基于镜头片段确定图像流的场景全局特征向量的方法的流程图。该方法具体包括：步骤S625，基于场景特征将图像流分割为多个镜头片段。具体的，可以基于图像流中每两个相邻的图像帧之间的差异，将图像流分割为所述多个镜头片段。然后基于每个镜头片段的各图像帧的场景特征，可以得到各个镜头片段各自的场景镜头特征向量（步骤S630）。在一些实施例中，镜头的权重取决于每个镜头在整个视频中的时长占比，也就是，在得到每个镜头各自的场景镜头特征向量后，可以基于每个镜头片段在图像流中的时长占比对场景镜头特征向量加权（步骤S635）。然后可以基于已加权的场景镜头特征向量得到场景全局特征向量（步骤S640）。

在根据场景将视频分隔成镜头片段后，还可以基于每个所述多个镜头片段的各图像帧的对象特征，得到所述多个镜头片段各自的对象镜头特征向量，也可以基于每个所述多个镜头片段的各图像帧的人脸特征，得到所述多个镜头片段各自的人脸镜头特征向量。对象镜头特征向量和人脸镜头特征向量也可以基于镜头的时长占比来加权，即基于每个所述镜头片段在所述图像流中的时长占比对所述对象镜头特征向量加权，以及基于每个所述镜头片段在所述图像流中的时长占比对所述人脸镜头特征向量加权。在场景镜头特征向量、对象镜头特征向量和人脸镜头特征向量都得到加权后，可以得到场景全局特征向量、对象全局特征向量和人脸全局特征向量。通过对场景全局特征向量、对象全局特征向量和人脸全局特征向量融合，可以得到图像流的全局特征向量，即基于场景全局特征向量、对象全局特征向量和人脸全局特征向量，得到图像流的全局特征向量（步骤S620）。例如，可以通过NetVLAD网络来对场景全局特征向量对象全局特征向量和人脸全局特征向量进行特征向量融合。NetVLAD网络作为一种特征提取网络，可以实现对特征的降维，例如，将多个特征向量融合为一个特征向量，以实现对特征的降维。

视频的封面图的特征向量410可以采用确定特定的一帧图像（例如由视频创作者指定）的特征向量的方法得到，在此不再赘述。由于图像流的特征向量405和封面图的特征向量410的结构类似，因此可以先融合图像流的特征向量和封面图的特征向量，得到图像的全局特征向量。

经过上述过程，已经分别得到视频的图像数据的全局特征向量，音频数据的全局特征向量，以及文本数据的全局特征向量。图7示意性地示出了确定视频的特征向量的流程，其中，在确定图像数据的全局特征向量（步骤S705）、确定音频数据的全局特征向量（步骤S710）和确定文本数据的全局特征向量（步骤S715）这三个步骤中的至少一个之后，可以基于图像数据的全局特征向量、音频数据的全局特征向量和文本数据的全局特征向量中的对应的至少一个确定目标视频的特征向量（步骤S720）。

通过使用大量的已有视频的图像信息、音频信息和文本信息中的至少一种来训练以得到视频的特征向量，可以学习到各种图像信息、视频音频或文本信息对应的特征向量。因此，通过向服务器输入目标视频的图像信息、音频信息和文本信息中的至少一种，服务器可以对应输出目标视频的特征向量。

在一些实施例中，目标视频的特征向量可以是基于单种模态数据得到的特征向量，例如基于图像数据、音频数据或文本数据。在另一些实施例中，目标视频的特征向量可以为一个基于多种模态数据得到的特征向量。当目标视频的特征向量基于图像数据、音频数据和文本数据这三种模态数据而得到时，上述图像全局特征向量、音频全局特征向量以及文本全局特征向量的融合包括对图像全局特征向量、音频全局特征向量以及文本全局特征向量进行向量拼接，得到目标视频的特征向量。目标视频的特征向量可以为一个基于多种模态数据得到的特征向量，例如同时融合了目标视频数据的文本特征、音频特征以及图像特征。因此，目标视频的特征向量可以较为全面且准确地表示目标视频的内容。通过上述过程，可以确定目标视频的特征向量的。

图8示意性地示出了应用根据本申请实施例的确定目标视频的标签的方法的示例性系统架构的框图。所述系统包括内容生产端805和内容消费端810。内容生产端805主要是通过移动端或者后端应用程序接口API系统提供图文或者视频等内容，并通过与上下行内容接口服务单元815的通信将所拍摄的视频作为视频内容进行上传发布。上下行内容接口服务单元815将视频内容的元信息存储在内容数据库820并上报至调度中心服务单元825，将视频内容本身的视频数据上传至内容存储服务单元835中。视频内容的元信息包括文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、格式、是否原创的标识、是否为首发的标识、人工审核过程中对内容的分类等。内容存储服务单元835存储的是内容的元信息之外的内容实体，比如视频源文件和图文内容的图片源文件等。上下行内容接口服务单元815还可以用于将发布的内容同步发送至调度中心服务单元825，进行后续的内容处理和流转。

调度中心服务单元825主要用于负责内容流转的整个调度过程。其通过调度上下行内容接口服务接收单元815确定要进入内容数据库820的内容，然后从内容数据库820中获取内容的元信息。在调度中心服务单元825获取到视频内容的元信息后，调度中心服务单元825可以调度人工审核系统830对视频内容进行审核。调度中心服务单元825对内容的处理主要包括机器处理和人工审核处理。机器处理的核心是各种质量判断，比如低质过滤、标签信息分类、内容排重等，处理结果会写入内容数据库820。人工审核系统830是人工服务能力的载体，主要用于审核过滤机器无法确定判断的内容（如法律不允许的内容），同时还可以进行视频的标签标注和二次确认。重复的内容将不会进行人工二次处理。人工审核过程当中会读取内容数据库820中的信息，同时人工审核的结果和状态也会回传进入内容数据库820。审核通过后，才可以通过内容分发出口服务单元865将视频内容分发至不同的内容消费端810。

该系统还包括抽取标签服务单元840，其可以根据视频内容的文本数据进行标签抽取，抽取到的标签信息一方面存储在内容数据库820中，另一方面被相似视频召回服务单元845调用。相似视频召回服务单元845通过前文描述的技术，在已有视频库中近似近邻搜索，召回视频库中与目标视频相似的视频。然后，通过标签扩展服务单元860得到相似视频的标签，并将这些标签发送到标签排序服务单元850中。

标签排序服务单元850根据相似视频的标签构建标签的候选集合，然后对候选集去重。标签排名的依据如前文所述，可以是对相似视频的标签的出现次数排名，然后将排名处于预设位次之前的标签确定为目标视频的标签，也可以是将出现次数大于预设次数的相似视频的标签确定为目标视频的标签。最后确定的目标视频的标签写入标签扩展数据库855。

调度中心服务单元825在调用内容分发出口服务单元865分发视频内容时，可通过标签扩展服务单元860对视频内容的标签进行迁移与读取，实现使用与目标视频相关的标签作为目标视频的标签。这可以丰富和扩展视频内容的标签，提升视频内容冷启动和运营的效率。

调度中心服务单元825通过内容分发出口服务单元865将内容分发至内容消费端810，分发的主要方式是推荐算法分发和人工运营。具体的，内容消费端810可以和上下行内容接口服务单元815通信，获取视频内容的索引信息，然后根据所述索引信息与内容存储服务单元835通信，获取索引信息对应的视频内容，包括推荐的内容、订阅的内容等。内容消费端810例如可以通过Feeds流的方式展示索引信息。

另外，内容生产端805和内容消费端810还可以将上传和下载过程中的用户行为数据、卡顿情况、加载时间、播放点击等信息上报至后端，以用于统计分析。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图9示意性地示出了根据本申请实施例的确定目标视频的标签的装置900的结构框图。如图9所示，该装置包括目标视频特征向量确定模块905、相似视频确定模块910和目标视频标签确定模块915。

目标视频特征向量确定模块905配置成确定所述目标视频的特征向量。如前所述，视频可能包含至少一种模态数据。目标视频特征向量确定模块905可以被配置成确定每种模态数据各自的全局特征向量，然后基于各个全局特征向量确定目标视频的特征向量。在一些实施例中，视频的模态数据包括图像数据、音频数据和文本数据中的至少一种。相应地，目标视频特征向量确定模块905进一步配置成执行确定所述图像数据的全局特征向量、确定所述音频数据的全局特征向量、确定所述文本数据的全局特征向量这三个步骤中的至少一个，并基于所确定的至少一个全局向量确定目标视频的特征向量。

视频的图像数据包括图像流，图像流包含多种子模态，例如场景、对象和人脸。相应地，目标视频特征向量确定模块905可以进一步配置成，识别图像流中的场景特征、对象特征、人脸特征，然后确定场景特征、对象特征、人脸特征各自的全局特征向量，并基于这些全局特征向量，得到图像流的全局特征向量，从而得到图像数据的全局特征向量。

相似视频确定模块910配置成基于所述目标视频的特征向量与至少一个已有视频的特征向量，从所述至少一个已有视频中确定与所述目标视频的相似度大于预设相似度阈值的已有视频作为相似视频。例如，相似视频确定模块910可以被配置成计算目标视频的特征向量和已有视频的特征向量之间的向量距离，然后将与目标视频的向量距离小于一定阈值的已有视频的确定为目标视频的相似视频。

目标视频标签确定模块915配置成基于所述相似视频的标签，确定所述目标视频的标签。目标视频标签确定模块915可以配置成基于标签的出现次数的排名，选择排名靠前的标签作为目标视频的标签，或者将出现次数大于某阈值的标签确定为目标视频的标签。

图10图示了示例系统1000，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备1010。计算设备1010可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图9描述的确定目标视频的标签的装置900可以采取计算设备1010的形式。替换地，确定目标视频的标签的装置900可以以应用1016的形式被实现为计算机程序。

如图示的示例计算设备1010包括彼此通信耦合的处理系统1011、一个或多个计算机可读介质1012以及一个或多个I/O接口1013。尽管未示出，但是计算设备1010还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统1011代表使用硬件执行一个或多个操作的功能。因此，处理系统1011被图示为包括可被配置为处理器、功能块等的硬件元件1014。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1014不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质1012被图示为包括存储器/存储装置1015。存储器/存储装置1015表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1015可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置1015可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质1012可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口1013代表允许用户使用各种输入设备向计算设备1010输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1010可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备1010还包括应用1016。应用1016可以例如是确定目标视频的标签的装置900的软件实例，并且与计算设备1010中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1010访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备1010的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号，该信号的特征中的一个或多个被设置或改变，从而将信息编码到该信号中。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件1014和计算机可读介质1012代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1014体现的一个或多个指令和/或逻辑。计算设备1010可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件1014，可以至少部分地以硬件来实现将模块实现为可由计算设备1010作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备1010和/或处理系统1011）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备1010可以采用各种不同的配置。例如，计算设备1010可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备1010还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备1010还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备1010的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1022而在“云”1020上全部或部分地实现。

云1020包括和/或代表用于资源1024的平台1022。平台1022抽象云1020的硬件（例如，服务器）和软件资源的底层功能。资源1024可以包括在远离计算设备1010的服务器上执行计算机处理时可以使用的应用和/或数据。资源1024还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台1022可以抽象资源和功能以将计算设备1010与其他计算设备连接。平台1022还可以用于抽象资源的分级以提供遇到的对于经由平台1022实现的资源1024的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统1000内。例如，功能可以部分地在计算设备1010上以及通过抽象云1020的功能的平台1022来实现。

应当理解，为清楚起见，参考不同的功能单元对本申请的实施例进行了描述。然而，将明显的是，在不偏离本申请的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本申请可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分，但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。

尽管已经结合一些实施例描述了本申请，但是其不旨在被限于在本文中所阐述的特定形式。相反，本申请的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种确定目标视频的标签的方法，其特征在于，所述方法包括：

确定所述目标视频的特征向量；

基于所述目标视频的特征向量与至少一个已有视频的特征向量，从所述至少一个已有视频中确定所述目标视频的相似视频，其中所述相似视频与所述目标视频的相似度大于预设相似度阈值，并且每个所述至少一个已有视频具有至少一个标签；

基于所述相似视频的标签，确定所述目标视频的标签。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述至少一个已有视频的特征向量，其中确定所述目标视频的特征向量的方式与确定所述至少一个已有视频的特征向量的方式相同。

3.根据权利要求1所述的方法，其特征在于，确定所述目标视频的特征向量包括：

确定所述目标视频的至少一种模态数据的全局特征向量；

基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述至少一种模态数据包括所述目标视频的图像数据、音频数据和文本数据中的至少一种，并且确定所述目标视频的至少一种模态数据的全局特征向量包括：

确定所述图像数据的全局特征向量、确定所述音频数据的全局特征向量和确定所述文本数据的全局特征向量中的至少一个；

其中，基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量包括：

基于所述图像数据的全局特征向量、所述音频数据的全局特征向量和所述文本数据的全局特征向量中的至少一种确定所述目标视频的特征向量。

5.根据权利要求4所述的方法，其特征在于，所述图像数据包括所述目标视频的图像流，并且确定所述图像数据的全局特征向量包括：

从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量；

从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量；

从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量；

基于所述场景全局特征向量、所述对象全局特征向量和所述人脸全局特征向量，得到所述图像数据的全局特征向量。

6.根据权利要求5所述的方法，其特征在于，从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量包括：

基于所述场景特征将所述图像流分割为多个镜头片段；

基于每个所述多个镜头片段的各图像帧的场景特征，得到所述多个镜头片段各自的场景镜头特征向量；

基于每个所述镜头片段在所述图像流中的时长占比对所述场景镜头特征向量加权；

基于已加权的所述场景镜头特征向量得到所述场景全局特征向量。

7.根据权利要求6所述的方法，其特征在于，从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量包括：

基于每个所述多个镜头片段的各图像帧的对象特征，得到所述多个镜头片段各自的对象镜头特征向量；

基于每个所述镜头片段在所述图像流中的时长占比对所述对象镜头特征向量加权；

基于已加权的所述对象镜头特征向量得到所述对象全局特征向量。

8.根据权利要求6所述的方法，其特征在于，从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量包括：

基于每个所述多个镜头片段的各图像帧的人脸特征，得到所述多个镜头片段各自的人脸镜头特征向量；

基于每个所述镜头片段在所述图像流中的时长占比对所述人脸镜头特征向量加权；

基于已加权的所述人脸镜头特征向量得到所述人脸全局特征向量。

9.根据权利要求6所述的方法，其特征在于，基于所述场景特征将所述图像流分割为多个镜头片段包括：

基于所述图像流中每相邻两个图像帧之间的差异，将所述图像流分割为所述多个镜头片段。

10.根据权利要求1所述的方法，其特征在于，基于所述相似视频的标签，确定所述目标视频的标签包括：

对所述相似视频的标签的出现次数排名；

将排名处于前n位的标签确定为所述目标视频的标签，其中n为正整数。

11.根据权利要求1所述的方法，其特征在于，基于所述相似视频的标签，确定所述目标视频的标签包括：

将出现次数大于预设次数的所述相似视频的标签确定为所述目标视频的标签。

12.一种确定目标视频的标签的装置，其特征在于，所述装置包括：

目标视频特征向量确定模块，其配置成确定所述目标视频的特征向量；

相似视频确定模块，其配置成基于所述目标视频的特征向量与至少一个已有视频的特征向量，从所述至少一个已有视频中确定与所述目标视频的相似度大于预设相似度阈值的已有视频作为相似视频，其中每个所述至少一个已有视频具有至少一个标签；

目标视频标签确定模块，其配置成基于所述相似视频的标签，确定所述目标视频的标签。

13.一种计算设备，其特征在于，所述计算设备包括：

存储器，其被配置成存储计算机可执行指令；

处理器，其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-11中的任一项所述的方法。

14.一种计算机可读存储介质，其存储有计算机可执行指令，其特征在于，当所述计算机可执行指令被执行时，执行如权利要求1-11中的任一项所述的方法。