CN115329132A

CN115329132A - 生成视频标签的方法、装置、设备以及存储介质

Info

Publication number: CN115329132A
Application number: CN202210793191.6A
Authority: CN
Inventors: 徐国进
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-11-11

Abstract

本公开提供了一种生成视频标签的方法、装置、设备以及存储介质。本公开涉及人工智能技术领域，尤其涉及知识图谱应用技术。具体实现方案为：获取目标视频；对所述目标视频进行类别识别，得到类别识别结果；提取所述目标视频中的内容特征信息，并基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别，得到内容识别结果；基于所述类别识别结果和所述内容识别结果，生成所述目标视频的标签，所述标签用于标识所述类别识别结果与所述内容识别结果之间的对应关系。通过本公开可以为视频生成贴合视频实际内容的视频标签。

Description

生成视频标签的方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及知识图谱应用技术。

背景技术

随着网络的发展，以视频为代表的多模态数据占据了当前主要的流量，其中较大部分是标题结合短视频的数据形式。如何去理解并生成这类视频数据的内容标签对于视频的搜索与推荐有着重要的作用。

发明内容

本公开提供了一种生成视频标签的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种生成视频标签的方法。

获取目标视频；对所述目标视频进行类别识别，得到类别识别结果；提取所述目标视频中的内容特征信息，并基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别，得到内容识别结果；基于所述类别识别结果和所述内容识别结果，生成所述目标视频的标签，所述标签用于标识所述类别识别结果与所述内容识别结果之间的对应关系。

根据本公开的另一方面，提供了一种生成视频标签的装置，包括：

获取模块，用于获取目标视频；处理模块，用于对所述目标视频进行类别识别，得到类别识别结果；提取所述目标视频中的内容特征信息，并基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别，得到内容识别结果；生成模块，用于基于所述类别识别结果和所述内容识别结果，生成所述目标视频的标签，所述标签用于标识所述类别识别结果与所述内容识别结果之间的对应关系。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述涉及的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述涉及的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述涉及的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开提出的一种生成视频标签的方法流程图。

图2是根据本公开提出的一种以事件类型分类的方式，对目标视频进行类别识别的流程图。

图3是根据本公开提出的一种得到目标视频中的内容特征信息的方法流程图。

图4是根据本公开提出的一种对文本信息进行特征转化，得到目标视频的文本特征信息的方法流程图。

图5是根据本公开提出的另一种得到目标视频中的内容特征信息的方法流程图。

图6是根据本公开提出的一种基于内容特征信息和类别识别结果，对目标视频进行内容识别的方法流程图。

图7是根据本公开提出的一种为目标视频生成标签的流程示意图。

图8是根据本公开的生成视频标签的装置框图。

图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的方法可以应用于对视频进行标注的场景中，例如可应用于基于视频分析的标签生成场景。

相关技术中，通常采用分类模型对视频文件进行分类，用以得到视频文件的类别标签。例如，利用一级神经网络模型对视频文件进行识别，确定视频文件的一级视频标签，然后对生成的一级视频标签进行分类，得到第一标签的所属类别。在此基础上，根据一级视频标签的所属类别，利用对应的二级神经网络模型对视频文件进行识别，生成视频文件的二级视频标签，并通过对二级视频标签进行分类，得到视频最终的类别标签。由于类别标签属于有限集合，且标注内容较为简单，因此，相关技术中所生成的视频标签往往无法真实表征视频的实际内容。

鉴于此，本申请提供了一种生成视频标签的方法，该方法通过对视频进行类别标注，得到视频的类别标签，并在此基础上进一步引入视频信息与类别标签一并参与对视频的内容标注，得到最终所需的内容标签。由于本申请中最终的视频标注结果为内容标签，因此，所生成的标签具有更高的标注精度。并且，由于内容标签的生成是以视频内容及先前生成的类别标签为参考，因此，该方法可以实现更加细致的标注。

图1是根据本公开提出的一种生成视频标签的方法流程图，如图1所示，包括以下步骤S101至步骤S104。

在步骤S101中，获取目标视频。

本公开实施例中，目标视频可以理解为待标注的视频。

在步骤S102中，对目标视频进行类别识别，得到类别识别结果。

在步骤S103中，提取目标视频中的内容特征信息，并基于内容特征信息和类别识别结果，对目标视频进行内容识别，得到内容识别结果。

在步骤S104中，基于类别识别结果和内容识别结果，生成目标视频的标签。

本公开实施例提供的生成视频标签的方法中，优先对目标视频进行类别识别，得到类别识别结果。进一步的，提取目标视频中的内容特征信息，并通过内容特征信息和类别识别结果，对目标视频进行内容识别，得到内容识别结果，该方法可以便捷地得到较为准确的内容识别结果，进而保证了目标视频的标签精度。

本公开实施例中，可以通过包括文本信息和视觉信息在内的双模态信息，实现对对目标视频进行类别识别。其中，文本信息例如可以包括目标视频所关联的指定文本信息、光学字符识别(Optical Character Recognition，OCR)信息以及语音识别信息。视觉信息例如可以包括对目标视频进行帧下采样得到的视频帧。其中，指定文本信息是指预先通过其他方式对目标视频进行内容提炼并标注的文字信息，例如可以是目标视频的视频文件命名，或是目标视频在所处页面内对应的视频标题。OCR识别信息可以理解为对目标视频的字幕进行信息提取而得到的文字信息。此外，语音识别(Automatic Speech Recognition，ASR)信息可以理解为通过对目标视频中音频数据进行语音识别得到的文字结果。一示例中，对目标视频进行类别识别，例如可以是通过多模态深度神经网络模型对上述文本信息和视觉信息进行的事件类型分类，以下对类别识别的实现方式进行示例性说明。

图2是根据本公开提出的一种以事件类型分类的方式，对目标视频进行类别识别的流程图。示例的，如图2所示，一方面的，可以在对目标视频进行帧下采样的情况下，对采样得到的视频帧进行图像特征提取，进而得到目标视频的图像特征信息。另一方面的，可以分别对OCR信息、语音识别信息以及目标视频所关联的指定文本信息进行特征转化，得到文字特征信息(也即，与OCR信息、语音识别信息以及指定文本信息分别对应的OCR特征信息、语音识别特征信息以及指定文本特征信息)。其中，以指定文本信息为目标视频的标题信息为例，可以将OCR特征信息、语音识别特征信息以及通过标题信息得到标题特征信息，与图像特征信息一并输入用于进行事件类型识别的神经网络，以此得到目标视频所属的事件类型，也即目标视频的类别识别结果。其中，进行事件类型识别的神经网络，例如可以是前述涉及的多模态深度神经网络模型。

上述实施例中，对目标视频进行图像特征提取，例如可以是通过对视频的帧下采样后得到的视频帧序列进行图像特征提取。具体的，可以以1秒为抽帧间隔，对视频进行帧下采样，得到目标视频的一组视频帧，进而对得到的视频帧执行特征提取。此外，在进行帧下采样前，还可以根据实际需求预设视频时长，以对目标视频进行预裁剪，用以减小后续步骤中针对视觉信息的处理量。当然，若为得到更加准确的识别结果而不考虑整体的处理耗时，也可以不对目标视频进行预裁剪。

此外，本公开预先配置有多种不同标签模板，并预先构建了类别识别结果、内容识别结果以及标签模板之间的对应关系，在此基础上，标签用于标识类别识别结果与内容识别结果之间的对应关系。进一步的，在得到一个类别识别结果和一个内容识别结果的情况下，可以生成与之对应的唯一标签。

若通过对目标视频进行类别识别，得到类别识别结果，以及通过对目标视频进行内容识别，得到内容识别结果，即可根据上述对应关系查找得到唯一对应的标签模板，用以作为目标视频的标签。

本公开实施例中，可以通过对目标视频进行特征提取的方式得到目标视频的内容特征信息。

图3是根据本公开提出的一种得到目标视频中的内容特征信息的方法流程图，如图3所示，包括以下步骤S201至步骤S203。

在步骤S201中，对目标视频进行图像特征提取，得到目标视频的图像特征信息。

在步骤S202中，提取目标视频所对应的文本信息，并对文本信息进行特征转化，得到目标视频的文本特征信息。

本公开实施例中，与前述类别识别过程相应的，在内容识别过程中，文本信息同样可以包括以下至少一项：OCR信息、语音识别信息或目标视频的指定文本信息。其中，指定文本信息是指预先通过其他方式对目标视频进行内容提炼并标注的文字信息，例如可以是目标视频的视频文件命名，或是目标视频在所处页面内对应的视频标题。

在步骤S203中，基于图像特征信息和文本特征信息，得到目标视频中的内容特征信息。

本公开实施例中，通过包括视觉信息及文本信息在内的双模态信息提取目标视频中的内容特征信息，使得最终得到的内容特征信息能够更优的表征目标视频的实际内容，便于后续为目标视频添加更符合实际内容的视频标签。

此外，需要说明的是，本申请涉及的上述步骤S201和步骤S202用于对目标视频的文本信息和图像信息进行分别提取，二者之间并无固定的执行顺序。例如，可以先执行步骤S202后执行步骤S201，又或是两步骤同时执行。

上述实施例中，对目标视频进行内容识别，例如可以是通过预训练语言表征模型(Bidirectional Encoder Representation from Transformers，BERT)，对目标视频进行论元角色抽取。在此基础上，本公开通过确定目标视频所属事件类型以及目标视频所属论元角色的方式，得到与事件类型及论元角色相匹配的视频标签。

示例的，针对文本信息同时包括OCR信息、语音识别信息以及指定文本信息之间的情况，会分别通过OCR信息、语音识别信息以及指定文本信息之间得到OCR特征信息、语音识别特征信息以及指定文本特征信息。针对此类情况，还需要对所得到的各个特征信息进行拼接，用以得到最终的文本特征信息。本公开以下为便于描述，将预先配置且用于对OCR特征信息、语音识别特征信息以及指定文本特征信息进行有序拼接的优先级顺序称为第一优先级顺序。

图4是根据本公开提出的一种对文本信息进行特征转化，得到目标视频的文本特征信息的方法流程图，如图4所示，包括以下步骤S301至步骤S302。

在步骤S301中，对OCR信息、语音识别信息以及指定文本信息之间分别进行特征信息转化，得到OCR特征信息、语音识别特征信息以及指定文本特征信息。

在步骤S302中，按照OCR信息、语音识别信息以及指定文本信息之间的第一优先级顺序，对OCR特征信息、语音识别特征信息以及指定文本特征信息进行有序拼接，得到文本特征信息。

本公开实施例中，由于OCR信息以及语音识别信息往往存在噪声，因此，相较于OCR信息以及语音识别信息，指定文本信息具有更高的可信度。在此基础上，本公开为OCR信息、语音识别信息以及指定文本信息之间配置了第一优先级顺序，以使指定文本信息在三者间为最高优先级，OCR信息和/或语音识别信息为最低优先级，该方法可以保证神经网络在进行特征识别的过程中优先考量可信度较高的有用信息，进而提高类别识别结果的准确度。

以下便于理解，对第一优先级顺序的可能排序方式进行列举。

方式一：指定文本信息＞语音识别信息＞OCR信息

方式二：指定文本信息＞OCR信息＞语音识别信息

方式三：指定文本信息＞OCR信息＝语音识别信息

其中，针对方式三，在OCR信息与语音识别信息之间为相同优先级的情况，可在OCR信息与语音识别信息之间进行随机选取，并将选取的信息所对应的特征信息作为在指定文本特征信息之后的特征信息。

此外，相应的，对于图像特征信息与文本特征信息而言，图像特征信息具有较高的可信度。基于此，可以通过为图像特征信息设置高优先级的方式，对图像特征信息与文本特征信息进行有序拼接，进一步提高类别识别结果的准确度。本公开以下为便于描述，将在图像特征信息与文本特征信息之间配置的优先级顺序称为第二优先级顺序。

图5是根据本公开提出的另一种得到目标视频中的内容特征信息的方法流程图，如图5所示，本公开实施例中的步骤S401和步骤S402与图3中的步骤S201和步骤S202的执行方法相似，在此不做赘述。

在步骤S403中，按照图像特征信息与文本特征信息之间的第二优先级顺序，将图像特征信息与文本特征信息进行有序拼接，得到内容特征信息。

其中，第二优先级顺序满足使图像特征信息为高优先级，文本特征信息为低优先级。

示例的，基于上述第一优先级顺序及第二优先级顺序，所得到的特征信息可被按照“图像特征信息---指定文本特征信息---OCR特征信息(或语音识别信息)---语音识别特征信息(或OCR信息)”的顺序进行有序拼接，神经网络基于这一顺序进行特征读取及类别识别，可以得到较为准确的识别结果。

本公开实施例中，在得到类别识别结果的基础上，后续还需要通过内容特征信息与类别识别结果，对目标视频进行内容识别。而在此过程中，还会涉及到内容特征信息与类别特征信息(示例的，类别特征信息为表征类别识别结果的特征信息)之间的特征拼接。对此，本公开将类别特征信息赋予更高的优先级，并以此将内容特征信息与类别特征信息进行有需拼接，用以对拼接后的特征信息进行内容识别。本公开以下为便于描述，将在内容特征信息与类别特征信息之间配置的优先级顺序称为第三优先级顺序。

图6是根据本公开提出的一种基于内容特征信息和类别识别结果，对目标视频进行内容识别的方法流程图，如图6所示，包括以下步骤S501和步骤S502。

在步骤S501中，针对表征类别识别结果的类别特征信息，按照内容特征信息与类别特征信息之间的第三优先级顺序，将内容特征信息与类别特征信息进行有序拼接，得到目标视频的目标特征信息。

其中，第三优先级顺序满足使类别特征信息为最高优先级，内容特征信息为低优先级。

在步骤S502中，对目标特征信息进行内容识别。

通过本公开实施例提供的方法，可以进一步提高内容识别的准确度，以使最终生成的标签更加贴合目标视频的实际内容。

本公开实施例中，可以通过事件类型分类的方式实现对目标视频的类别识别，进而通过角色论元抽取的方式实现对目标视频的内容识别。如下以事件类型分类及角色论元抽取为例，对目标视频的标签生成方式进行示例性说明。

示例的，如图7所示，可以在获取到目标视频的情况下，优先对目标视频进行事件类型识别。其中，识别网络可采用基于多模态的深度神经网络模型，该模型对文本信息与视觉信息两个模态进行深入分析，进而求解得到目标视频的目标事件类型。进一步的，获取包括OCR信息、语音识别信息以及指定文本信息之间在内的文本信息，并通过特征转化及有序拼接得到文本特征信息。同时，将以拆解或抽帧的方式得到目标视频的多个视频帧，并通过图像识别的方式得到目标视频的图像特征信息。在此基础上，将图像特征信息及文本特征信息进行有序拼接，并输入至前述涉及的多模态深度神经网络。

此外，针对上述实施例，文本特征信息和/或图像特征信息可通过向量(Embedding)形式表示，具体可包括表征文本或图片本身的第一向量、表征文本或图片在拼接序列中所处位置的第二向量以及表征文本或图片所对应片段的第三向量。针对神经网络的输出向量，其数量与输入向量相匹配，后续可通过池化操作得到归一表征的池化结果，进而通过对池化结果的分析，得到目标视频所属事件类型。

进一步的，可以通过对类别特征信息与内容特征信息的有序拼接的方式，得到待进行内容识别的输入信息。其中，输入的内容特征信息可以仅包括文本特征信息或图像特征信息，或为对文本特征信息与图像特征信息进行有序拼接后得到的特征信息。在此基础上，可以通过基于BERT模型的双指针命名实体识别(Named Entity Recognition，NER)模型，对由类别特征信息与内容特征信息拼接得到的目标特征信息进行论元角色抽取。其中，模型的输出是一个多层指针的结构，每一层表示为一个论元角色，每一层包含头尾指针分别表示为论元在文本中的起始位置和结束位置。

在此基础上，可以通过所得到的事件类型和论元角色，以及通过事件类型、论元角色以及模板标签之间一一对应的关系，得到目标视频的标签。其中，针对标签模板的构建，本公开可根据视频中每个垂类中的事件类型的数据模式(schema)定义，为每个事件类型构建相应的标签模板。

基于相同的构思，本公开实施例还提供一种生成视频标签的装置。

可以理解的是，本公开实施例提供的生成视频标签的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的模块及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图8是根据本公开的生成视频标签的装置框图。参照图8，该装置600包括获取模块601、处理模块602和生成模块603。

获取模块601，用于获取目标视频。处理模块602，用于对目标视频进行类别识别，得到类别识别结果。提取目标视频中的内容特征信息，并基于内容特征信息和类别识别结果，对目标视频进行内容识别，得到内容识别结果。生成模块603，用于基于类别识别结果和内容识别结果，生成目标视频的标签，标签用于标识类别识别结果与内容识别结果之间的对应关系。

一种实施方式中，处理模块602采用如下方式提取目标视频中的内容特征信息：对目标视频进行图像特征提取，得到目标视频的图像特征信息。提取目标视频所对应的文本信息，并对文本信息进行特征转化，得到目标视频的文本特征信息。其中，文本信息包括以下至少一项：光学字符识别OCR信息、语音识别信息或目标视频所关联的指定文本信息。基于图像特征信息和文本特征信息，得到目标视频中的内容特征信息。

一种实施方式中，文本信息包括光学字符识别OCR信息、语音识别信息以及指定文本信息。处理模块602采用如下方式对文本信息进行特征转化，得到目标视频的文本特征信息：对OCR信息、语音识别信息以及指定文本信息之间分别进行特征信息转化，得到OCR特征信息、语音识别特征信息以及指定文本特征信息。按照OCR信息、语音识别信息以及指定文本信息之间的第一优先级顺序，对OCR特征信息、语音识别特征信息以及指定文本特征信息进行有序拼接，得到文本特征信息。其中，第一优先级顺序满足使指定文本信息为最高优先级，OCR信息和/或语音识别信息为最低优先级。

一种实施方式中，处理模块602采用如下方式基于图像特征信息和文本特征信息，得到目标视频中的内容特征信息：按照图像特征信息与文本特征信息之间的第二优先级顺序，将图像特征信息与文本特征信息进行有序拼接，得到内容特征信息。其中，第二优先级顺序满足使图像特征信息为高优先级，文本特征信息为低优先级。

一种实施方式中，处理模块602采用如下方式基于内容特征信息和类别识别结果，对目标视频进行内容识别：针对表征类别识别结果的类别特征信息，按照内容特征信息与类别特征信息之间的第三优先级顺序，将内容特征信息与类别特征信息进行有序拼接，得到目标视频的目标特征信息。其中，第三优先级顺序满足使类别特征信息为最高优先级，内容特征信息为低优先级。对目标特征信息进行内容识别。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如生成视频标签的方法。例如，在一些实施例中，生成视频标签的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的生成视频标签的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行生成视频标签的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种生成视频标签的方法，包括：

获取目标视频；

对所述目标视频进行类别识别，得到类别识别结果；

提取所述目标视频中的内容特征信息，并基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别，得到内容识别结果；

基于所述类别识别结果和所述内容识别结果，生成所述目标视频的标签，所述标签用于标识所述类别识别结果与所述内容识别结果之间的对应关系。

2.根据权利要求1所述的方法，其中，所述提取所述目标视频中的内容特征信息，包括：

对所述目标视频进行图像特征提取，得到所述目标视频的图像特征信息；

提取所述目标视频所对应的文本信息，并对所述文本信息进行特征转化，得到所述目标视频的文本特征信息；其中，所述文本信息包括以下至少一项：光学字符识别OCR信息、语音识别信息或所述目标视频所关联的指定文本信息；

基于所述图像特征信息和所述文本特征信息，得到所述目标视频中的内容特征信息。

3.根据权利要求2所述的方法，其中，所述文本信息包括所述OCR信息、所述语音识别信息以及所述指定文本信息；

所述对所述文本信息进行特征转化，得到所述目标视频的文本特征信息，包括：

对所述OCR信息、所述语音识别信息以及所述指定文本信息分别进行特征信息转化，得到OCR特征信息、语音识别特征信息以及指定文本特征信息；

按照OCR信息、语音识别信息以及指定文本信息之间的第一优先级顺序，对所述OCR特征信息、语音识别特征信息以及指定文本特征信息进行有序拼接，得到所述文本特征信息；

其中，所述第一优先级顺序满足使所述指定文本信息为最高优先级，所述OCR信息和/或所述语音识别信息为最低优先级。

4.根据权利要求2或3所述的方法，其中，所述基于所述图像特征信息和所述文本特征信息，得到所述目标视频中的内容特征信息，包括：

按照图像特征信息与文本特征信息之间的第二优先级顺序，将所述图像特征信息与所述文本特征信息进行有序拼接，得到所述内容特征信息；

其中，所述第二优先级顺序满足使所述图像特征信息为高优先级，所述文本特征信息为低优先级。

5.根据权利要求1至4中任一项所述的方法，其中，所述基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别，包括：

针对表征所述类别识别结果的类别特征信息，按照内容特征信息与类别特征信息之间的第三优先级顺序，将所述内容特征信息与所述类别特征信息进行有序拼接，得到所述目标视频的目标特征信息；其中，所述第三优先级顺序满足使所述类别特征信息为最高优先级，所述内容特征信息为低优先级；

对所述目标特征信息进行内容识别。

6.一种生成视频标签的装置，包括：

获取模块，用于获取目标视频；

处理模块，用于对所述目标视频进行类别识别，得到类别识别结果；提取所述目标视频中的内容特征信息，并基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别，得到内容识别结果；

生成模块，用于基于所述类别识别结果和所述内容识别结果，生成所述目标视频的标签，所述标签用于标识所述类别识别结果与所述内容识别结果之间的对应关系。

7.根据权利要求6所述的装置，其中，所述处理模块采用如下方式提取所述目标视频中的内容特征信息：

提取所述目标视频所对应的文本信息，并对所述文本信息进行特征转化，得到所述目标视频的文本特征信息；其中，所述文本信息包括以下至少一项：光学字符识别OCR信息、语音识别信息以及所述目标视频所关联的指定文本信息；

8.根据权利要求7所述的装置，其中，所述文本信息包括光学字符识别OCR信息、语音识别信息以及指定文本信息、；

所述处理模块采用如下方式对所述文本信息进行特征转化，得到所述目标视频的文本特征信息：

9.根据权利要求7或8所述的装置，其中，所述处理模块采用如下方式基于所述图像特征信息和所述文本特征信息，得到所述目标视频中的内容特征信息：

10.根据权利要求6至9中任一项所述的装置，其中，所述处理模块采用如下方式基于所述内容特征信息和所述类别识别结果，对所述目标视频进行内容识别：

对所述目标特征信息进行内容识别。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。