CN109660865A

CN109660865A - 为视频自动打视频标签的方法及装置、介质和电子设备

Info

Publication number: CN109660865A
Application number: CN201811542174.5A
Authority: CN
Inventors: 陈方毅; 陈晓君; 李君懿; 陶建
Original assignee: Hangzhou Shaozi Street Information Technology Co Ltd
Current assignee: Hangzhou Shaozi Street Information Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2019-04-19
Anticipated expiration: 2038-12-17
Also published as: CN109660865B

Abstract

本公开是关于一种为视频自动打视频标签的方法及装置、介质和电子设备，属于视频处理技术领域。该方法包括：响应于视频的输入，获取视频的视频要素；将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素；将各预输入要素输入深度学习模型；基于所述深度学习模型的输出，为视频打视频标签。本公开通过深度学习模型，根据视频要素，自动为视频打标签，提高了打标签的准确率和效率。

Description

为视频自动打视频标签的方法及装置、介质和电子设备

技术领域

本公开涉及视频处理技术领域，具体而言，涉及一种为视频自动打视频标签的方法及装置、介质和电子设备。

背景技术

视频标签是对视频按照视频的属性进行分类而标定的标签，是对视频进行排序以及向用户个性化推荐等的依据。

近年来，通过视频进行传播信息、表现自我等具有很高的热度，用户寻找自己感兴趣的视频及某些商家或者平台推荐视频都需要依据视频的标签。通常所有的视频主要包括：视频的视频部分、视频的语音部分、视频的字幕部分，视频也是通过这些要素的一个或者多个结合起来传达信息的，只有综合这些信息才能对视频更加准确地标定标签。进一步的，如果采用人工标定的方式会造成对视频打标签的低效率、低准确度问题。

因此，需要提供一种新的为视频自动打视频标签的方法和装置、介质和电子设备。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种为视频自动打视频标签的方案，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的为视频打标签的低效率、低准确率问题。

根据本公开的一个方面，提供一种为视频自动打视频标签的方法，包括：

响应于视频的输入，获取视频的视频要素；

将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素；

将各预输入要素输入深度学习模型；

基于所述深度学习模型的输出，为视频打视频标签，

其中，所述深度学习模型按照如下方式训练：将各预输入要素样本集合中的各预输入要素样本输入所述深度学习模型，所述深度学习模型输出预输入要素样本所来自的视频的标签，与视频已知标签进行比较，如果不一致，则调整所述深度学习模型中的系数，使所述深度学习模型输出的标签与该视频已知标签一致。

在本公开的一种示例性实施例中，所述视频要素为视频，其特征在于，所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括：

将所述视频分解成帧；

将分解成的帧按照预定规则分组；

将每一组的帧串联成视频帧序列作为预输入要素。

在本公开的一种示例性实施例中，所述视频要素为音频，其特征在于，所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括：

从音频中，通过语音识别的方式识别出语音；

将语音转换成文本；

将转换后的文本进行中文分词后，通过词向量映射得到每个词的词向量；

将所述词向量进行向量拼接，获得整个文本的特征向量映射，将整个文本的特征向量映射作为预输入要素。

在本公开的一种示例性实施例中，所述视频要素为字幕，其特征在于，所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括：

通过光学字符识别的方式识别字幕，以将字幕转换成文本；

在本公开的一种示例性实施例中，所述深度学习模型的输出是要素标签，

所述基于所述深度学习模型的输出，为视频打视频标签包括：

获取各视频要素的重要度，所述重要度预先设置；

确定重要度最高的视频要素的要素标签作为视频标签。

将视频要素标签、音频要素标签、字幕要素标签都标定为视频标签。

在本公开的一种示例性实施例中，所述深度学习模型的输出是每个标签作为预输入要素样本所来自的视频的标签的正确性概率，

针对每个标签，获取在所述视频要素为视频、音频、字幕的情况下深度学习模型输出的正确性概率；

将针对每个标签获取的正确性概率进行加权和计算；

将加权和最大的标签标定为视频的标签。

根据本公开的一个方面，提供一种为视频自动打视频标签的装置，包括：

获取模块，用于响应于视频的输入，获取视频的视频要素；

处理模块，用于将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素；

输入模块，用于将各预输入要素输入深度学习模型；

标定模块，用于基于所述深度学习模型的输出，为视频打视频标签。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任一项所述方法。

本公开是关于一种为视频自动打视频标签的方案。该方案中，响应于视频的输入，获取视频的视频要素；将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素；将各预输入要素输入深度学习模型；基于所述深度学习模型的输出，为视频打视频标签。本公开通过深度学习模型自动为视频打视频标签，进一步的，利用深度学习模型综合所有视频要素(视频的视频部分、视频的语音部分、视频的字幕部分)标定视频的标签，提高了打标签的准确率和效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出一种为视频自动打视频标签的方法的流程图。

图2示意性示出一种为视频自动打视频标签的方法的应用场景示例图。

图3示意性示出一种视频要素为视频时按照预定规则处理的方法的流程图。

图4示意性示出一种视频要素为音频时按照预定规则处理的方法的流程图。

图5示意性示出一种视频要素为字幕时按照预定规则处理的方法的流程图。

图6示意性示出一种为视频自动打视频标签的装置的方框图。

图7示意性示出一种用于实现上述为视频自动打视频标签的方法的电子设备示例框图。

图8示意性示出一种用于实现上述为视频自动打视频标签的方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种为视频自动打视频标签的方法，

该方法的一种应用场景中，首先，根据用户视频使用的需求获取一些视频，这些使用的需求可以包括商业目的的推荐、视频展示平台的分类展示等；这些视频可以爬取自公共网络，也可以来自具有拍摄功能的拍摄设备，同时这些视频可以是具有字幕或者语音的，也可以不具有字幕或者语音，本示例性实施例中对此不做特殊限定。然后，为这些视频标定标签，视频在推荐或者分类等过程中可以按照为视频标定的标签进行推荐或者分类。本方法中，为这些视频标定标签是采用深度学习模型，综合所有视频要素自动标定视频标签，这样可以综合所有视频要素利用深度学习模型为视频自动标定标签，有效提高标定的视频标签的准确率；在利用深度学习模型为这些视频要素自动标定标签之前，将这些视频要素分别进行处理得到输入深度学习模型的预输入要素，然后将这些预输入要素输入深度学习模型进行分析，这样既可以提高深度学习模型的效率，又可以降低机器学习的处理压力。

该为视频自动打视频标签的方法可以运行于服务器，也可以运行于服务器集群或云服务器等，当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该为视频自动打视频标签的方法可以包括以下步骤：

步骤S110.响应于视频的输入，获取视频的视频要素；

步骤S120.将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素；

步骤S130.将各预输入要素输入深度学习模型；

步骤S140.基于所述深度学习模型的输出，为视频打视频标签，

上述为视频自动打视频标签的方法中，一方面，为视频标定标签是采用深度学习模型，综合所有视频要素自动标定视频标签，这样可以综合所有视频要素利用深度学习模型为视频自动标定标签，有效提高标定的视频标签的准确率。另一方面，在利用深度学习模型为这些视频要素自动标定标签之前，将这些视频要素分别进行处理得到输入深度学习模型的预输入要素，然后将这些预输入要素输入深度学习模型进行分析，这样既可以提高深度学习模型的效率，又可以降低机器学习的处理压力。

下面，将结合附图对本示例实施方式中上述为视频自动打视频标签的方法中的各步骤进行详细的解释以及说明。

在步骤S110中，响应于视频的输入，获取视频的视频要素。

在本示例的一种实施方式中，参考图2所示，首先，服务器201从用户终端202或者其它服务器203获取视频。其中，该用户终端可以是移动终端设备(例如可以是手机)，也可以是其他具有存储或者拍摄视频功能的终端设备(例如可以是相机、手表等等)，本示例对此不做特殊限制。进一步的，该用户终端可以包括一个，也可以包括多个，本示例对此不做特殊限制；该其它服务器可以是来自互联网的任何可以存储有视频的服务器或者其它存储设备，该其它服务器可以包括一个，也可以包括多个，本示例对此不做特殊限制。然后，基于获取的视频，获取视频的视频要素，其中，视频要素就是用来组成视频内容、表达视频信息的主要元素，主要包括视频，音频、字幕。视频要素中视频就是由图像、画面组成的视频部分，这一要素是直接从当前输入的视频上获取；视频要素中音频就是视频中的声音部分，比如人物对话、歌声等，这一要素是通过一些例如声卡等装置采集得到的；视频要素中字幕就是出现在视频画面上的文词部分，例如人物对话字幕、弹幕等，这一要素是通过光学词符识别(OCR)的技术识别得到的。

在步骤S120中，将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素。

在本示例实施方式中，从视频中获取到视频、音频、字幕各要素后，直接输入深度学习模型的不利于深度学习模型进行处理，不仅输入速率慢，同时会增加深度学习模型的处理负荷；因此，在将这些视频要素输入深度学习模型之前，需要将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素。其中不同的视频要素对应的预定规则是不相同的。

在本示例的一种实施方式中，所述视频要素是视频时，参考图2所示，将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素可以包括步骤S310，步骤S320以及步骤S330。其中：

在步骤S310中，将所述视频分解成帧。

在步骤S320中，将分解成的帧按照预定规则分组。

在步骤S330中，将每一组的帧串联成视频帧序列作为预输入要素。

下面，对步骤S310，步骤S320以及步骤S330进行解释以及说明。

首先，将视频分解成帧。可以根据每个帧的帧头标识来进行。每个帧，即视频的一个画面，在传输时会加入帧头，该帧头带有帧头标识。通过该帧头标识，可以准确地将视频分解成帧。

然后，将分解成的帧按照预定规则分组。该预定规则可以是规则1：将连续预定数目个帧作为一组；包括：将视频分解成帧后，根据深度学习模型的适配帧数将连续的多个帧分为一组，例如用于标定标签的深度学习模型识别的每个叠加帧中包含的视频最佳帧数为12个，则将视频分解得到的帧中连续的12个帧分为一组；进一步的，每组含有的帧数可以不是必须为最佳帧数。可以是规则2：从分解的帧中随机取预定数目个帧作为一组；包括：将分解后得到的视频帧根据深度学习模型的适配帧数随机抽取M个作为一组；进一步的，每组含有的帧数可以不是必须为最佳帧数。也可以是，规则3：将所述视频分解成的帧等分为N组，N为正整数，叠加帧的数目也是N，将帧号为aN+i的帧组成第i个组，其中，a和i为正整数，0≦a≦N-1，1≦i≦N；也可以是，规则1、规则2、规则3的任意两两组合。最后，将每一组的帧叠加成叠加帧作为预输入要素。例如，将视频分解为120个帧后等分为20组，然后将帧号为1、6、11、16、21、26的帧组合为一组，将帧号为2、7、12、17、22、27的帧组合为一组，后面各组依次类推，这样的组合方式即可以使得组内的帧在视频中分布均匀，又可以带来一部分随机性，在一定程度提高深度学习模型标定标签的准确性和扩大深度学习模型标定视频的范围。进一步的，分组的方式可以是规则1、规则2、规则3中任意两种不同规则的组合。通过这种分组方式可以提高分组的随机性，从而在一定程度上提高视频标定的准确率。

最后，将每一组的帧串联成视频帧序列作为预输入要素。将所有视频帧分组后的每一组中的视频帧串联起来成为视频帧序列，分解后得到的视频帧是单个分开的，输入机器学习模型效率会比较低，将视频帧序列输入可以有效提高输入效率，进而提高标定效率。

在本示例的一种实施方式中，将每一组的帧串联成视频帧序列包括：按照每一帧的帧号的先后顺序将每一组的帧串联成视频帧序列。例如，在一个分组中，包括帧号为11、1、6、26、16、21等的帧，就可以按照1、6、11、16、21、26等的顺序将所有帧串联起来。这样就可以使得帧的顺序与原视频中保持一致，有效提高标定的准确率。

在本示例的一种实施方式中，所述视频要素是音频时，参考图4所示，将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素包括步骤S410，步骤S420，步骤S430以及步骤S440。其中：

在步骤S410中，从音频中，通过语音识别的方式识别出语音。

在步骤S420中，将语音转换成文本。

在步骤S430中，将转换后的文本进行中文分词后，通过词向量映射得到每个词的词向量；

在步骤S440中，将所述词向量进行向量拼接，获得整个文本的特征向量映射，将整个文本的特征向量映射作为预输入要素。

下面，对步骤S410，步骤S420以及步骤S430进行解释以及说明。

首先，从音频中，通过语音识别的方式识别出语音。通常我们获取的音频中含有除声音外的很多干扰，所以需要在采集得到的音频中，排除静音、背景噪声、音乐等，判断男女，检测出可靠的语音。然后，将语音转换成文本。直接针对语音进行后续的处理是比困难的，所以利用通过语音文本转换技术(voice-to-text)将识别出的语音转换成文本。然后，将转换后的文本进行中文分词后，进行词向量映射，通过查找词向量词典获取文本中词对应的词向量，所述词向量与词一一对应。深度学习模型处理的一般是数学化的语言，所以需要将转化后的文本转化成数学化形式在输入深度学习模型，词向量就是用来将自然语言中的词进行数学化的一种表达，例如，转化后得到一句话“我爱大海”，通过中文分词，可以将这句话分为“我”，“爱”，“大海”几个词，这样就可以查询到“我”的字向量是(45,5,122,6,89)，“爱”的字向量是(105,65,8,125,32)，“大海”的词向量是(23,6,166,5,66)，每个词都有一个与其一一对应的向量。

最后，通过向量拼接方式获取整个文本的特征向量映射，将整个文本的特征向量映射作为预输入要素，也就是将字词向量按照文本中字词的顺序串联后得到字词向量串作为预输入要素。例如，将“我”的字向量(45,5,122,6,89)，“爱”的字向量(105,65,8,125,32)，“大海”的词向量(23,6,166,5,66)串联成一串后作为预输入要素，串联后得到的字词向量串就是(45,5,122,6,89，105,65,8,125,32，23,6,166,5,66)，这样预处理音频可以有效提高深度学习模型的识别速率和正确率。

在本示例的一种实施方式中，所述视频要素是字幕时，参考图5所示，将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素包括步骤S510，步骤S520以及步骤S530。其中：

在步骤S510中，通过光学词符识别的方式识别字幕，以将字幕转换成文本。

在步骤S520中，将转换后的文本进行中文分词后，通过词向量映射得到每个词的词向量；

在步骤S530中，将所述词向量进行向量拼接，获得整个文本的特征向量映射，将整个文本的特征向量映射作为预输入要素。

下面，对步骤S510，步骤S520以及步骤S530进行解释以及说明。

首先，通过光学词符识别的方式识别字幕，以将字幕转换成文本。然后，将转换后的文本进行中文分词后，进行词向量映射，也就是通过查找词向量词典获取文本中词对应的词向量，所述词向量与词一一对应。深度学习模型处理的一般是数学化的语言，所以需要将转化后的文本转化成数学化形式在输入深度学习模型，词向量就是用来将自然语言中的词进行数学化的一种表达，例如，转化后同样也得到一句话“我爱大海”，通过中文分词，可以将这句话分为“我”，“爱”，“大海”几个词，这样就可以查询到“我”的字向量是(45,5,122,6,89)，“爱”的字向量是(105,65,8,125,32)，“大海”的词向量是(23,6,166,5,66)，每个字词都有一个与其一一对应的向量。最后，通过向量拼接方式获取整个文本的特征向量映射，将整个文本的特征向量映射作为预输入要素，也就是将字词向量按照文本中字词的顺序串联后得到字词向量串作为预输入要素。例如，将“我”的字向量(45,5,122,6,89)，“爱”的字向量(105,65,8,125,32)，“大海”的词向量(23,6,166,5,66)串联成一串后作为预输入要素，串联后得到的字词向量串就是(45,5,122,6,89，105,65,8,125,32，23,6,166,5,66)，这样预处理音频可以有效提高深度学习模型的识别速率和正确率。

在步骤S130中，将各预输入要素输入深度学习模型。

在本示例的实施方式中，将包括对视频要素处理后得到的叠加帧，对音频要素处理后得到的词向量串，对字幕要素处理后得到的词向量串各预输入要素分别输入深度学习模型。

在步骤S140中，基于所述深度学习模型的输出，为视频打视频标签，其中，所述深度学习模型按照如下方式训练：将各预输入要素样本集合中的各预输入要素样本输入所述深度学习模型，所述深度学习模型输出预输入要素样本所来自的视频的标签，与视频已知标签进行比较，如果不一致，则调整所述深度学习模型中的系数，使所述深度学习模型输出的标签与该视频已知标签一致。

在本示例的实施方式中，深度学习模型根据不同预输入要素分别输出对所述预输入要素来源的要素进行的判断结果，然后综合对不同要素的判断结果，为视频打标签。

其中，深度学习模型的训练过程包括：预输入要素是对视频要素处理后得到的叠加帧，将叠加帧样本集合中的叠加帧样本输入深度学习模型，深度学习模型输出叠加帧所来自的视频的标签，与视频已知标签进行比较，如果不一致，则调整所述深度学习模型中的系数，使所述深度学习模型输出的标签与该视频已知标签一致。

预输入要素是对音频要素处理后得到的词向量串，将词向量串样本集合中的词向量串样本输入深度学习模型，深度学习模型输出词向量串所来自的音频的标签，与视频已知标签进行比较，如果不一致，则调整所述深度学习模型中的系数，使所述深度学习模型输出的标签与该视频已知标签一致。

预输入要素是对字幕要素处理后得到的词向量串，将词向量串样本集合中的词向量串样本输入深度学习模型，深度学习模型输出词向量串所来自的音频的标签，与视频已知标签进行比较，如果不一致，则调整所述深度学习模型中的系数，使所述深度学习模型输出的标签与该视频已知标签一致。

在本示例的一种实施方式中，深度学习模型的输出是要素标签，基于所述深度学习模型的输出，为视频打视频标签，包括：首先，获取各视频要素的重要度，所述重要度预先设置；各视频要素的重要度就是该要素在视频传达信息过程中相对于其它要素的重要程度，例如某个视频主要通过视频画面来传达信息，然后通过字幕进行辅助，最后音频作用最弱，则依次设置三个要素的重要度从高到低为：视频>字幕>音频。然后，确定重要度最高的视频要素的要素标签作为视频标签；按照重要度顺序：视频>字幕>音频，例如，根据视频要素获得的标签是“搞笑”，根据字幕要素获得的标签是“户外”，根据音频要素获得的标签是“美景”，则选定根据视频要素标定的要素标签“搞笑”作为视频标签。进一步的，基于每种要素获得的标签可以是多个。这一标定方式可以根据标签直接确定出视频最重要的信息，可以有效保证根据视频推荐的有效性、准确性。

在本示例的一种实施方式中，深度学习模型的输出是要素标签，所述基于所述深度学习模型的输出，为视频打视频标签，包括：将视频要素标签、音频要素标签、字幕要素标签都标定为视频标签。例如，根据视频要素获得的标签是“娱乐”，根据字幕要素获得的标签是“美食”，根据音频要素获得的标签是“户外”，则选定“娱乐”、“美食”、“户外”三个标签都作为视频标签。进一步的，基于每种要素获得的标签可以是多个，则选定标签数量最多的前N个标签作为视频的标签。这一标定方式可以使得标定的标签覆盖视频所有表达的信息，有效保证视频的利用率，提高标签标定的准确率。

在本示例的一种实施方式中，深度学习模型的输出是每个标签作为预输入要素样本所来自的视频的标签的正确性概率。基于所述深度学习模型的输出，为视频打视频标签，包括：首先，针对每个标签，获取在所述视频要素为视频、音频、字幕的情况下深度学习模型输出的正确性概率；然后，将针对每个标签获取的正确性概率进行加权和计算；最后，将加权和最大的标签标定为视频的标签。例如，当视频要素为视频时，输出标签及其正确性概率为：“搞笑-98％”，“户外-80％”，“美食-75％”，“美景-55％”；当视频要素为字幕时，输出标签及其正确性概率为：“搞笑-92％”，“户外-50％”，“美食-70％”；当视频要素为语音时，输出标签及其正确性概率为：“搞笑-99％”，“户外-70％”，“美食-88％”，“美景-60％”；同时，视频要素标签的权重为0.5，字幕要素标签的权重为0.3，音频要素标签的权重为0.2.然后，计算各标签的加权和，例如，搞笑标签加权和为：98％*0.5+92％*0.3+99％*0.2＝1.48；户外：0.69，美食：0.76，美景：0.395；最后则选定加权和最大的搞笑作为视频标签。这样可以根据标签确定出视频最重要的信息，可以有效保证根据视频推荐的有效性、准确性。进一步的，可以选定加权和最大的前N的作为视频标签，例如，选定加权和最大的前3个作为视频标签，则选定：“搞笑”，“美食”，“户外”三个标签作为视频的标签，这样可以使得准确率高的视频都作为视频的标签，有效提高标签的准确性，扩大根据标签检索视频时的范围。

本公开还提供了一种为视频自动打视频标签的装置。参考图6所示，该坐席分配装置可以包括获取模块610、处理模块620、输入模块630以及标定模块640。其中：

获取模块610可以用于响应于视频的输入，获取视频的视频要素。

处理模块620可以用于将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素。

输入模块630可以用于将各预输入要素输入深度学习模型。

标定模块640可以用于基于所述深度学习模型的输出，为视频打视频标签。

上述为视频自动打视频标签的装置中各模块的具体细节已经在对应的为视频自动打视频标签的方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S110：响应于视频的输入，获取视频的视频要素；步骤S120：将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素；步骤S130：将各预输入要素输入深度学习模型；步骤S140：基于所述深度学习模型的输出，为视频打视频标签，其中，所述深度学习模型按照如下方式训练：将各预输入要素样本集合中的各预输入要素样本输入所述深度学习模型，所述深度学习模型输出预输入要素样本所来自的视频的标签，与视频已知标签进行比较，如果不一致，则调整所述深度学习模型中的系数，使所述深度学习模型输出的标签与该视频已知标签一致。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种为视频自动打视频标签的方法，其特征在于，包括：

响应于视频的输入，获取视频的视频要素；

将各预输入要素输入深度学习模型；

基于所述深度学习模型的输出，为视频打视频标签，

2.根据权利要求1所述的方法，所述视频要素为视频，其特征在于，所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括：

将所述视频分解成帧；

将分解成的帧按照预定规则分组；

将每一组的帧串联成视频帧序列作为预输入要素。

3.据权利要求1所述的方法，所述视频要素为音频，其特征在于，所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括：

从音频中，通过语音识别的方式识别出语音；

将语音转换成文本；

4.根据权利要求1所述的方法，所述视频要素为字幕，其特征在于，所述将视频要素分别按照与视频要素对应的预定规则处理得到预输入要素具体包括：

通过光学词符识别的方式识别字幕，以将字幕转换成文本；

5.根据权利要求1所述的方法，其特征在于，所述深度学习模型的输出是要素标签，

获取各视频要素的重要度，所述重要度预先设置；

确定重要度最高的视频要素的要素标签作为视频标签。

6.根据权利要求1所述的方法，其特征在于，所述深度学习模型的输出是要素标签，

7.根据权利要求1所述的方法，其特征在于，所述深度学习模型的输出是每个标签作为预输入要素样本所来自的视频的标签的正确性概率，

将针对每个标签获取的正确性概率进行加权和计算；

将加权和最大的标签标定为视频的标签。

8.一种为视频自动打视频标签的装置，其特征在于，包括：

获取模块，用于响应于视频的输入，获取视频的视频要素；

输入模块，用于将各预输入要素输入深度学习模型；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。