CN116150428A

CN116150428A - 视频标签获取方法、装置、电子设备及存储介质

Info

Publication number: CN116150428A
Application number: CN202111358237.3A
Authority: CN
Inventors: 熊昊奇; 饶孟良; 曹云波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-05-23

Abstract

本申请提供一种视频标签获取方法、装置、电子设备及存储介质，该方法包括：获取视频的至少一个关键帧；对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；根据各关键帧对应的第一标签集合确定所述视频的标签。本申请实施例的技术方案能精确获取视频的标签，为用户提供精准标签检索。

Description

视频标签获取方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种视频标签获取方法、装置、电子设备及存储介质。

背景技术

随着互联网的普及，视频数据也成为网络时代重要的数据存储类型之一，如电影、电视节目、动漫等娱乐向视频，以及随着线上教育的迅速普及，从而爆炸式增长的微课学习向视频。

对于海量的视频资源，如何让用户快速准确的找到自己想要的视频成为亟待解决的问题，在现有的技术实现中，常通过为这些视频打上标签，后续再通过检索或者推荐的方式呈现给用户。但现有的视频标签抽取或生成的方法大多通过人工观看视频，人为理解视频的内容，然后给视频打上相应的标签，这种方法效率低，人工成本高；还有一些标签生成方法中仅通过视频的标题提取关键字，或是仅通过提取视频语音提取关键字，然后将关键词作为视频的标签，这种方法得到的视频标签较为粗糙且无法准确全面的反应视频的内容，无法实现根据客户查询标签进行准确视频推荐。

发明内容

为解决上述技术问题，本申请的实施例提供了一种视频标签获取方法及装置、电子设备、计算机可读存储介质，能精确获取视频的标签。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种视频标签获取方法，其特征在于，包括：获取视频的至少一个关键帧；对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；根据各关键帧对应的第一标签集合确定所述视频的标签。

根据本申请实施例的一个方面，提供了一种视频标签获取装置，包括：关键帧获取模块，配置为获取视频的至少一个关键帧；识别文本获取模块，配置为对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；关键帧标签获取模块，配置为将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；视频标签获取模块，配置为根据各关键帧对应的第一标签集合确定所述视频的标签。

在一实施例中，该关键帧获取模块包括：

文字识别文本获取单元，配置为对视频含有的视频帧进行文字识别处理，得到各视频帧对应的文字识别文本；

视频段获取单元，配置为根据不同视频帧对应的文字识别文本对视频进行分段，得到多个视频段；

关键帧获取单元，配置为选取每个视频段中踪片数量最多的视频帧为关键帧。

在一实施例中，该视频段获取单元包括：

踪片获取板块，配置为获取不同视频帧对应的文字识别文本之间的特征相似度，并确定特征相似度大于第一预设阈值的不同视频帧为同一踪片；

冲突踪片对获取板块，配置为确定空间距离小于第二预设阈值的任意两个踪片为冲突踪片对；

视频段获取板块，配置为对视频进行多次分段，得到多个视频段，其中，每个视频段内的冲突踪片对的数量小于第三预设阈值。

在一实施例中，该关键帧标签获取模块包括：

编码单元，配置为将每个关键帧对应的语音识别文本和文字识别文本分别进行编码，相应得到语音表征和文字表征；

融合单元，配置为根据语音表征和文字表征之间的交叉注意力将语音表征和文字表征进行融合，得到融合表征；

第一标签集合获取单元，配置为根据融合表征进行标签分类，得到各关键帧对应的标签，由各关键帧对应的标签形成各关键帧对应的第一标签集合。

在一实施例中，该视频标签获取装置还包括：

标签库获取模块，配置为根据视频所属的领域构建对应的标签库；

标题获取模块，配置为根据各关键帧对应的语音识别文本和文字识别文本确定对应关键帧的标题；

第二标签集合获取模块，配置为根据每个关键帧的标题在标签库中进行召回处理，以得到每个关键帧的第二标签集合。

在一实施例中，该标题获取模块包括：

文本确定单元，配置为通过文本框识别各关键帧中含有的文本；

标题获取单元，配置为根据各关键帧中含有的文本的位置和大小确定对应关键帧的标题。

在一实施例中，该视频标签获取装置还包括：

评分值获取模块，配置为根据各关键帧的第一标签集合确定对应关键帧的第一评分值，以及根据各关键帧的第二标签集合确定对应关键帧的第二评分值；

关键帧的标签集获取模块，配置为对比各关键帧对应的第一评分值和第二评分值的分值大小，确定各关键帧对应的第一标签集合或第二标签集合为该关键帧的标签集；

视频的标签集获取模块，配置为将各关键帧对应的第一评分值和第二评分值相加，得到各关键帧的标签总评分值，并对比各关键帧的标签总评分值的分值大小，以确定视频的标签集，视频的标签集包括标签总评分值的分值最大的关键帧所对应的第一标签集合和第二标签集合。

根据本申请实施例的一个方面，提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述电子设备实现如上所述的视频标签获取方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的视频标签获取方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的视频标签获取方法。

在本申请的实施例所提供的技术方案中，通过提取视频的关键帧在语音和文字两个方面的识别文本，并将两种识别文本融合后进行标签分类，从多方位对视频信息进行分析，对视频的理解更加充分，能有效提高视频标签获取的精确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请的一示例性实施例示出的视频标签获取方法的流程图；

图3是图2所示实施例中的步骤S210在一示例性实施例中的流程图；

图4是图3所示实施例中的步骤S330在一示例性实施例中的流程图；

图5是图3所示实施例中的步骤S330的原理图；

图6是图2所示实施例中的步骤S250在一示例性实施例中的流程图；

图7是图2所示实施例中的步骤S250的原理图；

图8是本申请的另一示例性实施例示出的视频标签获取方法的流程图；

图9是图8所示实施例中的步骤S830在一示例性实施例中的流程图；

图10是本申请的另一示例性实施例示出的视频标签获取方法的流程图；

图11是本申请的另一示例性实施例示出的视频标签获取方法的流程图；

图12是本申请的一示例性实施例示出的视频标签获取装置的结构示意图；

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提出的视频标签获取方法及装置、电子设备、存储介质涉及人工智能技术以及机器学习技术，以下将对这些实施例进行详细说明。

首先请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端100和服务器端200，终端100和服务器端200之间通过有线或者无线网络进行通信。

终端100用于接收待获取标签的视频，同时将视频信息输入至服务器端200；服务器端200对视频的关键帧进行文字识别和语音识别，并对识别后的结果进行融合标签分类，从而视频的标签，然后服务器端200还将视频的标签发送至终端100，可通过终端100自带的显示模块可视化展示视频的标签。

示例性的，终端100在接收到待获取标签的视频，将待获取标签的视频发送至服务器端200，服务器端200获取该获取视频的至少一个关键帧；对至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；根据各关键帧对应的第一标签集合确定视频的标签。

其中，终端100包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终等，如可以是智能手机、平板、笔记本电脑、计算机等任意能够实现图片可视化的电子设备，本处不进行限制。服务器端200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，其中多个服务器可组成一区块链，而服务器为区块链上的节点，服务器端200还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处也不对此进行限制。

图2是根据一示例性实施例示出的一种视频标签获取方法的流程图。如图2所示，在一示例性实施例中，该方法可以包括步骤S210至步骤S270，详细介绍如下：

步骤S210：获取视频的至少一个关键帧。

本实施例中的视频可以包括娱乐、教育、影视等领域的视频，通过对视频的标签进行获取，后续可通过标签检索等方式快速查找相关视频，如对于微课视频，可通过对微课视频打上标签，以通过标签快速获取想要的微课视频。

对于待获取标签的视频，首先获取该视频的关键帧，本实施例中可通过选取视频中的功能用途较大的视频帧为关键帧，如用于概述视频中某一段内容的视频帧作为一个关键帧，或是通过对视频进行分段，获取每一个视频段中具有代表性的视频帧为关键帧等方式，本实施例中不对获取关键帧的方法进行限制，而对于一个待获取标签的视频，至少获取该视频的一个关键帧。

步骤S230：对至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本。

本实施例中，在获取到视频的关键帧后，对每个关键帧分别进行语音识别处理和文字识别处理，需要注意的是，本实施例对关键帧进行的语音识别，是基于将视频分段以得到每个视频段对应的关键帧的前提下，对该关键帧进行语音识别即为对该关键帧所在的视频段进行语音识别。

本实施例可通过OCR(Optical Character Recognition，光学字符识别)技术对关键帧进行文字识别，将每个关键帧的图像识别为字符串，以得到各关键帧对应的文字识别文本；还可通过ASR(Automatic Speech Recognition，自动语音识别技术)技术对关键帧所在的视频段进行语音识别，具体为将视频段中的音频识别为字符串，以得到各关键帧对应的语音识别文本。

当然，除了OCR和ASR，还可通过其他文字识别工具对关键帧进行文字识别或其他的语音识别工具对关键帧所在的视频段进行语音识别。

步骤S250：将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合。

本实施例中，将上述得到的各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，例如对于关键帧A，通过对A对应的文字识别文本和A所在的视频段的语音识别文件进行编码融合处理，然后将编码融合处理后的结果进行标签分类，则可得到该关键帧A的标签，由于在进行标签分类后，得到的标签可能不止一个，因此将一个关键帧对应得到的多个标签作为第一标签集合。

具体可将一个关键帧对应的语音识别文本和文字识别文本输入至一个多标签分类模型，该多标签分类模型包括对语音识别文本和文字识别文本同时进行编码处理的编码层，以及将编码层得到的结果进行融合的融合层，和对融合层融合的结果进行标签分类的分类层，且该分类层在得到每个关键帧对应的标签后，会对每个标签进行评分，每个标签对应有一个标签评分值，该标签评分值可用于表述该标签与对应关键帧或是视频内容的贴切程度，该标签评分值的数值在0～1的范围内，数值越高，代表对应标签的精确度更高。

步骤S270：根据各关键帧对应的第一标签集合确定视频的标签。

本实施例中，在获取到视频的各关键帧对应的标签后，可根据各关键帧的第一标签集合中的标签评分值确定视频的标签，如可通过计算各关键帧的第一标签集合所有标签对应的评分值的总和，然后比较得到第一标签集合的评分值最高的关键帧，将该关键帧对应的第一标签集合内所有标签作为视频的标签；也可比较单一关键帧的第一标签集合中的标签评分值，得到每个关键帧在第一标签集合中的标签评分值较大的几个标签，然后视频所有关键帧中标签评分值较大的几个标签同一作为该视频的标签。

本实施例中，通过对关键帧的特征提取，即可得到视频的标签，相对于需要对整个视频进行分析才得到视频关键帧的方式更加简洁且计算量较小；同时通过对关键帧进行文字和语音的多方位识别，对视频信息进行更加充分的分析和理解，从而为视频获取到更加精确的标签；另一方面，最终得到的每个标签都带有标签分数，便于在多个标签中选择与视频内容更贴切的标签。

图3是图2所示实施例中步骤S210在一示例性实施例中的流程图。如图3所示，在一示例性实施例中，步骤S210获取视频的至少一个关键帧的过程可以包括步骤S310至步骤S350，详细介绍如下：

步骤S310：对视频含有的视频帧进行文字识别处理，得到各视频帧对应的文字识别文本。

视频可以看做是连续的多个视频帧，本实施例中，对视频的所有视频帧均进行文字识别处理，如通过OCR对视频帧进行文字识别得到各视频帧对应的文字识别文本。

本实施例中得到各个视频帧对应的文字识别文本可用于图2步骤S230关键帧的文字识别文本获得，如在确定视频帧A是关键帧后，无需再次获取该关键帧的文字识别文本，查询本步骤中得到的视频A的文字识别文本即可。

步骤S330：根据不同视频帧对应的文字识别文本对视频进行分段，得到多个视频段。

本实施例中，可根据视频帧的文字识别文本的特征进行分段，具体分段方式可以是对所有文字识别文本特征进行感兴趣目标检测，获取多模特征，如位置特征、空间特征等等，然后将文字识别文本特征相似度较高的视频帧划分为一段，或将文字识别文本中按时序排列，将时序在某个范围内且特征相似的视频帧划分为一段，当然也可以是其他的划分视频段的方法，如按空间距离特征、置信度特征等等，此处不进行具体限制。

步骤S350：选取每个视频段中踪片数量最多的视频帧为关键帧。

本实施例中，踪片(Tracklet)表示在一个视频段中，多个视频帧之间具有跟踪特征关联，即多个视频帧之间的感兴趣目标位置的特征相似，则将多个视频帧之间的的感兴趣目标位置关联，本实施例中称感兴趣目标位置关联的多个视频帧两两互为同一踪片，如对于以视频段中有视频帧1、视频帧2、视频帧3……视频帧n，在进行视频分段时，已经获取了视频帧1-n感兴趣目标检测结果，该结果可能是视频帧的感兴趣目标位置，如文字识别文本中的某一段文字、公式等，再通过对视频帧1-n感兴趣目标位置进行分析，选取感兴趣目标位置特征分析结果相似的感兴趣目标位置关联成踪片，如对于视频帧1和视频帧2的感兴趣目标位置之间的特征相似度高，则将视频帧1和视频帧2的感兴趣目标位置关联成踪片。

对于一个视频段来说，其中的一个视频帧的踪片个数可以是多个，视频帧3与视频帧1、视频帧2均关联，则视频帧3的踪片数量则为3个，依次类推，选择一个视频段中踪片数量最多的视频帧作为该视频段的关键帧；当然，如果存在几个视频帧的踪片数量相同的情况，则可按照实际需求选择其中之一或所有视频帧均为该视频段的视频帧。

本实施例中，通过引入踪片，将视频中感兴趣目标位置相似的视频帧称为同一踪片，以此对视频进行分段，保证每个视频段中的视频帧均代表相似的描述内容，提高了视频分段的准确性；同时，通过视频段中踪片的数量确定关键帧，能有效找出每个视频段中最具代表性的视频帧，一方面提高了关键帧的定位精确度，另一方面，可通过分析该关键帧即可达到分析视频内容的效果，与常规的视频标签获取方法需要对整个视频进行分析相比，明显提高了视频标签获取的速度。

图4是图3所示实施例中步骤S330在一示例性实施例中的流程图。如图4所示，在一示例性实施例中，步骤S330根据不同视频帧对应的文字识别文本对视频进行分段，得到多个视频段的过程可以包括步骤S410至步骤S450，详细介绍如下：

步骤S410：获取不同视频帧对应的文字识别文本之间的特征相似度，并确定特征相似度大于第一预设阈值的不同视频帧为同一踪片。

本实施例中，通过踪片(Tracklet)关联的方式来对视频进行分段，具体地，首先提取不同视频帧对应的文字识别文本的感兴趣目标特征得到感兴趣目标位置，如在一实施例中，需对微课视频进行分段，参考图5，图5中左边三幅图分别为t₃、t₁₁、t₇₇时刻的视频帧对应的文字识别文本，而三个文字识别文本中圈出的公式则为各自得到的感兴趣目标位置；在得到感兴趣目标位置后，对感兴趣目标位置进行特征分析，将感兴趣目标位置的特征相似的多个感兴趣目标位置关联踪片，则本实施例中可认为t₃、t₁₁时刻的视频帧为同一踪片；如图5中对t₃、t₁₁时刻的感兴趣目标位置进行分析后，认为两者的感兴趣目标位置的特征一致，则将t₃、t₁₁时刻的感兴趣目标位置关联为踪片，而对t₁₁、t₇₇时刻的感兴趣目标位置进行分析后，认为两者的感兴趣目标位置的特征不相似(冲突)，则t₁₁、t₇₇时刻的感兴趣目标位置不关联；当然，在其他时刻，认为两个视频帧的感兴趣目标位置的特征相似，即可将两个视频帧的感兴趣目标位置，认为两个视频帧为同一踪片。

本实施例中，对于需要关联成踪片的感兴趣目标位置需要满足其特征相似度大于第一预设阈值，该特征相似度可以是空间距离、时间距离、文本特征、图像特征、置信度等中的一个或多个，则需要上述特征相似度中的一个或多个满足对应的预设阈值即可将对应的视频帧视为同一踪片。

如对于一视频帧A的文字识别文本a和视频帧B的文字识别文本b，得到的文字识别文本a和文字识别文本b两者的感兴趣目标位置在空间上的距离小于阈值1，和/或在时间上的距离小于阈值2，和/或文本特征或者图像特征的相似度小于阈值3和/或两者置信度均超过阈值4，则将文字识别文本a和文字识别文本b两者的感兴趣目标位置关联成踪片，即认为视频帧A和视频帧B为同一踪片。

本实施例中，可通过IoU(Intersection over Union，交并比)来衡量两个感兴趣目标位置在空间上的距离，通过视频帧在视频中的时序来确定两个感兴趣目标位置在时间上的距离，通过词向量来获取感兴趣目标位置的文本特征，通过HOG(Histogram ofOriented Gradient，方向梯度直方图)来获取感兴趣目标位置的图像特征，当然，以上只是列出的一些方法，在实际应用中，还可通过其他发来获取感兴趣目标位置的特征，此处不做具体限制。

而当两个不同的文字识别文本感兴趣目标位置不满足上述条件，则认为，对应的视频帧不属于同一踪片。

步骤S430：确定空间距离小于第二预设阈值的任意两个踪片为冲突踪片对。

本实施例中，在确定了同一踪片的视频帧后，设定为在空间距离小于第二预设阈值的不同踪片为冲突踪片对，如当踪片m与踪片n之间的空间距离有重合且距离比较近，小于第二预设阈值，则认为踪片m与踪片n之间存在冲突(canflicts)，为一组冲突踪片对。

步骤S450：对视频进行多次分段，得到多个视频段，其中，每个视频段内的冲突踪片对的数量小于第三预设阈值。

本实施例中，根据视频段中的冲突踪片对的数量对视频进行分段，具体为，可以参考视频的时序，从第一个踪片开始分析，如果第一个踪片与第二个踪片是冲突踪片对，可在第一踪片的时序最后一个视频帧和第二踪片的时序最前的一个视频帧中间进行分割，得到两个视频段，如图5中的t₁₁、t₇₇时刻两者所在的踪片是冲突踪片对，即在t₁₁、t₇₇时刻进行视频分段处理，如此重复分段，可将视频分段为多个视频段。

在一些时候，由于冲突踪片对比较多且密集，因此需要分段的时刻很多，这样得到的数据繁多处理复杂，因此，在实际应用中，可设定一第三预设阈值，只要得到的视频段中的冲突踪片对的数量小于第三预设阈值，则认为对该视频段的分段完成，具体可在分段增大第二预设阈值的数值，减少分段频率，或放宽视频帧特征相似度的比较，将一些较为相似的视频帧认为是同一踪片，减少分段频率，当然还可以是其他如人为干预、数值设定等减少分段的频率的方法，此处不做具体限制。

本实施例中提出了一种视频分段的方式/方案，将视频中描述信息相似的化为一个视频段，便于后续关键帧的获取，且能达到一个视频段对应的关键帧能代表对应视频段所描述的内容，同时对视频进行分段，能在标签获取中通过关键帧充分利用每段视频段的信息，而不是笼统的分析整段视频，能提高视频标签获取的效率。

图6是图2所示实施例中步骤S250在一示例性实施例中的流程图。如图6所示，在一示例性实施例中，步骤S250将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合的过程可以包括步骤S610至步骤S650，详细介绍如下：

步骤S610：将每个关键帧对应的语音识别文本和文字识别文本分别进行编码，相应得到语音表征和文字表征。

本实施例中标签分类的过程可参考图7，具体地先将关键帧对应的语音识别文本和文字识别文本进行编码，图7中为通过BERT(Bidirectional Encoder Representationfrom Transformers，双向表示预训练模型)分别对语音识别文本和文字识别文本进行编码，当然，也可以是其他的预训练模型对语音识别文本和文字识别文本进行编码，相应得到语音表征和文字表征。

步骤S630：根据语音表征和文字表征之间的交叉注意力将语音表征和文字表征进行融合，得到融合表征。

本实施例中，在得到了语音表征和文字表征后，基于交叉注意力机制，将语音表征和文字表征之间的注意力(Attention)进行交叉学习，以使语音表征和文字表征进行融合(Concat)，最终得到融合表征。

步骤S650：根据融合表征进行标签分类，得到各关键帧对应的标签，由各关键帧对应的标签形成各关键帧对应的第一标签集合。

在得到各关键帧的融合表征后，使用全连接+Sigmoid结构进行标签分类，具体可通过Linear+Sigmoid的激活函数应用于全连接层进行多标签分类，最后输出(Output)关键帧对应的第一标签集合。

本实施例中的得到的第一标签集合中的各标签均存在一个标签评分值，该标签评分值可用于表述该标签与对应关键帧或是视频内容的贴切程度，该标签评分值的数值在0～1的范围内，数值越高，代表对应标签的精确度更高。

本实施例中，通过将语音识别文本和文字识别文本进行融合，以基于融合结果进行标签分类，能有效提高视频标签获取的精确度。

图8是根据另一示例性实施例示出的一种视频标签获取方法的流程图。如图8所示，在一示例性实施例中，该方法可以包括步骤S810至步骤S850，详细介绍如下：

步骤S810：根据视频所属的领域构建对应的标签库。

本实施例中，先确定视频所属的领域，然后根据领域获取该领域中常用的标签，以形成标签库。

如对于一影视视频，该视频为描述的清朝故事，则获取已存在标签且与清朝相关的视频中的标签，以形成该视频的标签库，当然还可以辅以人工选择关联标签。

又如对于一微课视频，该视频为化学领域，且具体为描述元素性质的视频，则获取与化学元素性质相关的视频标签，以形成该视频的标签库，当然，获取标签的方式不仅仅是在已存在标签的相同视频领域获取，还可在所有的标签中选取与视频内容相关联的标签。

步骤S830：根据各关键帧对应的语音识别文本和文字识别文本确定对应关键帧的标题。

本实施例中，可根据各个关键帧的语音识别文本和文字识别文本确定对应帧的标题，具体为，对于文字识别文本来说，一般可通过文字识别文本中文字的大小，文字的形状、文字的位置等确定一个标题，如常见的，在文字识别文本中字体相对较大的文字为该关键帧的标题概率较高，或文字形状相对具有形状或是颜色的文字为该关键帧的标题概率较高，或者对于文字处于文字识别文本正上方或是左侧的文字为该关键帧的标题概率较高，通过如上对文字识别文本的分析，可大概确定一个标题。

而对于语音识别文本来说，如图2中的步骤S230所述，一个关键帧对应的语音识别文本为对该关键帧所在视频段的语音进行识别得到的语音识别文本，因此，还可通过对该关键帧的语音识别文本进行分析，识别在语音识别文本中出现次数较高的文字，或识别该语音识别文本所在的领域，以基于文字和领域，确定一个标题。

当然，为了提高标题确定的准确定，本实施例中基于文字识别文本和语音识别文本分别得到的标题进行分析，以确定一个与视频帧和视频帧所在视频段更未贴切的标题。

在文字识别文本和语音识别文本分别得到的标题中确定最终标题时，可对文字识别文本和语音识别文本分别得到的标题进行打分，选择分值较高的标题为最终标题，当然也可以综合文字识别文本和语音识别文本分别得到的标题进行分析，得到最终标题。

步骤S850：根据每个关键帧的标题在标签库中进行召回处理，以得到每个关键帧的第二标签集合。

本实施例中，以各个关键帧的标题为query(查询条件)，在标签库中进行检索召回处理，得到候选doc(结果)集合，即第二标签集合。

具体地，利用每个关键帧的标题在标签库中进行关键词检索和向量检索，得到各关键帧对应第二标签集合，通过该方法得到的各第二标签集合中的每个标签也各自对应有标签评分值，该标签评分值可用于表述该标签与对应关键帧或是视频内容的贴切程度。

本实施例中在得到第二标签集合后，也可根据各关键帧的第二标签集合中的标签评分值确定视频的标签，如可通过计算各关键帧的第二标签集合所有标签对应的评分值的总和，然后比较得到第二标签集合的评分值最高的关键帧，将该关键帧对应的第二标签集合内所有标签作为视频的标签；也可比较单一关键帧的第二标签集合中的标签评分值，得到每个关键帧在第二标签集合中的标签评分值较大的几个标签，然后视频所有关键帧中标签评分值较大的几个标签同一作为该视频的标签。

当然，还可以对比各关键帧的第一标签集合和第二标签集合中的标签评分值，选择合适的标签作为关键帧或视频的最终标签。

本实施例中提供另一种标签获取方法，通过对关键帧语音识别文本和文字识别文本分析确定关键帧的标题，并通过标题进行检索召回得到关键帧的标签，从语音和文字两个角度确定标题能提高关键帧标题的精确度，根据标题检索召回标签能弥补图2-图5中方法的盲区，能为关键帧得到更加完整丰富的标签数据。

图9是图8所示实施例中步骤S830在一示例性实施例中的流程图。如图9所示，在一示例性实施例中，步骤S830根据各关键帧对应的语音识别文本和文字识别文本确定对应关键帧的标题的过程可以包括步骤S910至步骤S930，详细介绍如下：

步骤S910：通过文本框识别各关键帧中含有的文本。

本实施例中，特别针对微课视频，对于微课视频来说，视频中的各帧大部分为ppt，因此可仅仅关注各个关键帧的文字识别文本来确定标题，如通过文本框识别文字识别文本中的所有字段，确定一个文字识别文本中所有文本框的位置大小等，以通过位置和大小确定标题。

步骤S930：根据各关键帧中含有的文本的位置和大小确定对应关键帧的标题。

本实施例中，可根据文本的位置和大小确定对应关键帧的标题，如对于ppt来说，一般标题位于画面的正上方或是左上方，或是标题的文字大小比一般内容的文字大小较大，因此可根据文本框是否处在文字处于文字识别正上方或是左侧，确定该关键帧的标题，或是根据各文本框在文字识别文本中大小确定该关键帧的标题。

本实施例中，针对微课视频，提出一种文本框位置确定标题的方法，能精准定位关键帧的标题，提高后续标题检索召回标签的准确度。

图10是根据另一示例性实施例示出的一种视频标签获取方法的流程图。如图10所示，在一示例性实施例中，该方法实施于步骤S850之后，具体可以包括步骤S1010至步骤S1050，详细介绍如下：

步骤S1010：根据各关键帧的第一标签集合确定对应关键帧的第一评分值，以及根据各关键帧的第二标签集合确定对应关键帧的第二评分值。

本实施例中，通过图2中的步骤S250得到各关键帧的第一标签集合，以及第一标签集合中各标签的评分值，还通过图8中的步骤S850得到各关键帧的第二标签集合，以及第二标签集合中各标签的评分值。

因此可通过对每个第一标签集合中的各标签的评分值进行相加，得到各关键帧对应的第一评分值，以及通过对每个第二标签集合中的各标签的评分值进行相加，得到各关键帧对应的第二评分值。

步骤S1030：对比各关键帧对应的第一评分值和第二评分值的分值大小，确定各关键帧对应的第一标签集合或第二标签集合为该关键帧的标签集。

本实施例中，在确定各关键帧对应的第一评分值和第二评分值后，可通过比较各关键帧对应的第一评分值和第二评分值的大小，确定分值较大的第一评分值或第二评分值对应的第一标签集合或第二标签集合为该关键帧的标签集。

如对一关键帧A，其第一评分值的数值大于第二评分值的数值，则选取第一标签集合作为关键帧A标签集。

步骤S1050：将各关键帧对应的第一评分值和第二评分值相加，得到各关键帧的标签总评分值，并对比各关键帧的标签总评分值的分值大小，以确定视频的标签集，视频的标签集包括标签总评分值的分值最大的关键帧所对应的第一标签集合和第二标签集合。

本实施例中，还可将各关键帧的第一评分值和第二评分值相加的分值，并确定标签总评分值较大的一个或多个关键帧对应的第一标签集合和第二标签集，并将确定的一个或多个关键帧对应的第一标签集合和第二标签集合进行并集处理得到该视频的标签集。

需要注意的是，步骤S1030与步骤S1050之间并无关联，且没有前后顺序，步骤S1030可以在步骤S1050之前，也可以在步骤S1050之前，步骤S1030与步骤S1050还可以同时执行。

本实施例中，通过第一标签集合和第二标签集合中各标签的标签评分值确定关键帧的标签集合视频的标签集，从两个方面来选择更加适合的标签，能有效提高视频标签的精确度。

图11是根据另一示例性实施例示出的一种视频标签获取方法的流程图。如图11所示，在一示例性实施例中，该方法参考上述实施例中的图2-图10中的方法，具体描述如下：对于一个待获取标签的视频来说，可以先抽取该视频的所有视频帧，并对该视频的所有视频帧进行OCR识别，以得到每个视频帧的文字识别文本；另一方面，同时抽取视频中的所有音频，并对音频进行ASR识别，得到整个视频的语音识别文本。

本实施例中，在得到每个视频帧的文字识别文本和整个视频的语音识别文本，可根据每个视频帧的文字识别文本对视频进行分段，具体的分段方法可参考图4中的内容，在对视频进行分段后，得到多个视频段，同时根据视频段，可将整个视频的语音识别文本按照视频段进行分割，得到每个视频段对应的语音识别文本。

在对视频进行分段后，可参考图3中的内容，为每个视频段确定一个关键帧，并获取各个关键帧对应的文字识别文本，本实施例中，还将每个视频段对应的语音识别文本视为位于该视频段的关键帧的语音识别文本，自此，即得到多个关键帧对应的文字识别文本和语音识别文本。

然后将个关键帧对应的文字识别文本和语音识别文本进行多标签分类，具体分类方法可参考图2与图5，将文字识别文本和语音识别文本进行编码融合后进行标签分类得到各关键帧对应的第一标签集合，且该第一标签集合中的每个标签均有其对应的标签评分值。

另一方面，可参考图8-图9中所描述的方式，进行检索召回标签，得到每个关键帧的第二标签集合，且该第二标签集合中的每个标签均有其对应的标签评分值。

综上，本实施例中通过两种方法，得到关键帧的第一标签集合和第二集合标签，为提高视频标签的准确性，还可根据标签评分值对第一标签集合和第二集合内的标签进行投票，选择出适当的关键帧的标签集和视频的标签集，具体投票方法可参考图10。

本实施例中，通过对关键帧进行文字和语音的多方位识别，对视频信息进行更加充分的分析和理解，从而为视频获取到更加精确的标签；同时通过两种方法得到视频的标签，从而更全面精确的获取视频标签，基于此，还通过标签评分值在第一标签集合和第二标签集合中确定更具有代表性的标签，能有效提高视频标签的精确度。

图12是根据一示例性实施例示出的一种视频标签获取装置的结构示意图。如图12所示，在一示例性实施例中，该视频标签获取装置包括：

关键帧获取模块1201，配置为获取视频的至少一个关键帧；

识别文本获取模块1203，配置为对至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；

关键帧标签获取模块1205，配置为将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；

视频标签获取模块1207，配置为根据各关键帧对应的第一标签集合确定视频的标签。

本实施例通过上述结构从语音和文字两个两面进行视频标签获取，能提高视频标签的准确度。

在一实施例中，该关键帧获取模块1201包括：

在一实施例中，该视频段获取单元包括：

在一实施例中，该关键帧标签获取模块1203包括：

在一实施例中，该视频标签获取装置还包括：

在一实施例中，该标题获取模块包括：文本确定单元，配置为通过文本框识别各关键帧中含有的文本；标题获取单元，配置为根据各关键帧中含有的文本的位置和大小确定对应关键帧的标题。

在一实施例中，该视频标签获取装置还包括：

需要说明的是，图13示出的电子设备的计算机系统1600仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1600包括中央处理单元(Central Processing Unit，CPU)1601，其可以根据存储在只读存储器(Read-Only Memory，ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(Random Access Memory，RAM)1603中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1603中，还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output，I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1607；包括硬盘等的储存部分1608；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入储存部分1608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前的视频标签获取方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的视频标签获取方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种视频标签获取方法，其特征在于，包括：

获取视频的至少一个关键帧；

对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；

将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；

根据各关键帧对应的第一标签集合确定所述视频的标签。

2.根据权利要求1所述的方法，其特征在于，所述获取视频的至少一个关键帧，包括：

对所述视频含有的视频帧进行文字识别处理，得到各视频帧对应的文字识别文本；

根据不同视频帧对应的文字识别文本对所述视频进行分段，得到多个视频段；

选取每个视频段中踪片数量最多的视频帧为关键帧。

3.根据权利要求2所述的方法，其特征在于，所述根据不同视频帧对应的文字识别文本对所述视频进行分段，得到多个视频段，包括：

获取不同视频帧对应的文字识别文本之间的特征相似度，并确定特征相似度大于第一预设阈值的不同视频帧为同一踪片；

确定空间距离小于第二预设阈值的任意两个踪片为冲突踪片对；

对所述视频进行多次分段，得到多个视频段，其中，每个视频段内的冲突踪片对的数量小于第三预设阈值。

4.根据权利要求1所述的方法，其特征在于，所述将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合，包括：

将每个关键帧对应的语音识别文本和文字识别文本分别进行编码，相应得到语音表征和文字表征；

根据所述语音表征和文字表征之间的交叉注意力将所述语音表征和所述文字表征进行融合，得到融合表征；

根据所述融合表征进行标签分类，得到各关键帧对应的标签，由各关键帧对应的标签形成各关键帧对应的第一标签集合。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述视频所属的领域构建对应的标签库；

根据所述各关键帧对应的语音识别文本和文字识别文本确定对应关键帧的标题；

根据每个关键帧的标题在所述标签库中进行召回处理，以得到每个关键帧的第二标签集合。

6.根据权利要求5所述的方法，其特征在于，所述根据所述各关键帧对应的语音识别文本和文字识别文本确定对应关键帧的标题，包括：

通过文本框识别各关键帧中含有的文本；

根据各关键帧中含有的文本的位置和大小确定对应关键帧的标题。

7.根据权利要求5所述的方法，其特征在于，在根据每个关键帧的标题在所述标签库中进行召回处理，以得到每个关键帧的第二标签集合之后，所述方法还包括：

根据各关键帧的第一标签集合确定对应关键帧的第一评分值，以及根据各关键帧的第二标签集合确定对应关键帧的第二评分值；

对比各关键帧对应的第一评分值和第二评分值的分值大小，确定各关键帧对应的第一标签集合或第二标签集合为该关键帧的标签集；或者，

将各关键帧对应的第一评分值和第二评分值相加，得到各关键帧的标签总评分值，并对比各关键帧的标签总评分值的分值大小，以确定所述视频的标签集，所述视频的标签集包括标签总评分值的分值最大的关键帧所对应的第一标签集合和第二标签集合。

8.一种视频标签获取装置，其特征在于，包括：

关键帧获取模块，配置为获取视频的至少一个关键帧；

识别文本获取模块，配置为对所述至少一个关键帧分别进行语音识别处理和文字识别处理，相应得到各关键帧对应的语音识别文本和文字识别文本；

关键帧标签获取模块，配置为将各关键帧对应的语音识别文本和文字识别文本进行编码融合处理，并对编码融合处理的结果进行标签分类，得到各关键帧对应的第一标签集合；

视频标签获取模块，配置为根据各关键帧对应的第一标签集合确定所述视频的标签。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1－7中的任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1－7中的任一项所述的方法。