CN113704549A

CN113704549A - 视频标签的确定方法和装置

Info

Publication number: CN113704549A
Application number: CN202110352802.9A
Authority: CN
Inventors: 徐启东; 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-11-26

Abstract

本申请公开了一种视频标签的确定方法和装置。其中，该方法包括：通过视频的视频信息，根据标签识别模型得到第一视频标签集合和标签分类模型得到的第二视频标签集合，确定目标视频的视频标签，结合视频标签识别模型与标签分类模型，相较于现有技术中检索方法得到视频标签，由于可以通过标签识别模型和标签分类模型，两种方式得到视频标签集合，并从视频标签集合中确定视频的视频标签，进而可以更准确的确定出视频的视频标签，进而解决了现有技术中，确定的视频标签准确性较低的技术问题。

Description

视频标签的确定方法和装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种视频标签的确定方法和装置。

背景技术

随着网络技术的快速发展，多媒体的推广应用，各种视频源源不断地产生，视频等媒体数据已经成为大数据的主体，视频标签是视频内容的一种高度概括，是视频管理的重要依据。在视频推荐系统中，视频标签可用于计算视频相似度，进而基于用户喜好向用户推荐相似视频。针对大量视频如何自动生成相关的标签，将对满足用户的信息获取需求有重大意义。但是，目前得到视频标签的方法难以得到准确性较高的视频标签。

发明内容

本申请实施例提供了一种视频标签的确定方法和装置，以至少解决现有技术中，确定的视频标签准确性较低的技术问题。

根据本申请实施例的一个方面，提供了一种视频标签的确定方法，包括：获取目标视频的视频信息；将所述目标视频的视频信息转换成目标文本特征；通过预训练的标签分类模型，根据所述目标文本特征，在预设的目标视频标签集合中确定与所述目标视频匹配的第一视频标签集合；通过预训练的标签识别模型，根据所述目标文本特征，确定与所述目标视频匹配的第二视频标签集合；根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签。

根据本申请实施例的另一方面，还提供了一种视频标签的确定装置，包括：第一获取单元，用于获取目标视频的视频信息；转换单元，用于将所述目标视频的视频信息转换成目标文本特征；第一确定单元，用于通过预训练的标签分类模型，根据所述目标文本特征，在预设的目标视频标签集合中确定与所述目标视频匹配的第一视频标签集合；第二确定单元，用于通过预训练的标签识别模型，根据所述目标文本特征，确定与所述目标视频匹配的第二视频标签集合；第三确定单元，用于根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频标签的确定方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的视频标签的确定方法。

根据本申请实施例的又一方面，还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频标签的确定方法。

在本申请实施例中，通过视频的多种视频信息，根据标签识别模型得到第一视频标签集合和标签分类模型得到的第二视频标签集合，确定目标视频的视频标签，结合视频标签识别模型与标签分类模型，相较于现有技术中检索方法得到视频标签，由于可以通过标签识别模型和标签分类模型，两种方式得到视频的视频标签集合，并从视频标签集合中确定视频的视频标签，进而可以更准确的确定出视频的视频标签，进而解决了现有技术中，确定的视频标签准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的视频标签的确定方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的视频标签的确定方法的应用环境的示意图；

图3是根据本申请实施例的一种可选的目标视频的视频标签应用流程图；

图4是根据本申请实施例的一种可选的视频核心标签识别方法；

图5是根据本申请实施例的一种可选的目标视频的标签识别的流程图；

图6是根据本申请实施例的一种可选的视频中实体标签识别的结构图；

图7是根据本申请实施例的一种可选的视频的标签识别的结构图；

图8是根据本申请实施例的一种可选的视频标签的确定装置的结构示意图；

图9是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种视频标签的确定方法，可选地，作为一种可选的实施方式，上述视频标签的确定方法可以但不限于应用于如图1所示的环境中。

结合图1所示，用户登录视频应用帐号，通过帐号将拍摄的视频或录制的视频或剪辑的视频上传至视频应用，视频应用对上传的视频标注标签，视频应用会根据视频标签将视频自动推送给对应标签帐号。

在本实施例中，上述视频标签的确定过程可以包括但不限于：获取目标视频的视频信息；将目标视频的视频信息转换成目标文本特征；通过预训练的标签分类模型，根据目标文本特征，在预设的目标视频标签集合中确定与目标视频匹配的第一视频标签集合；通过预训练的标签识别模型，根据目标文本特征，确定与目标视频匹配的第二视频标签集合；根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签。

在本实施例中，上述视频信息可以包括但不限于目标视频的字幕信息、描述信息、评论信息以及已有标签信息等等，其中，上述视频信息可以理解为文本信息，在目标视频文件夹中包括目标视频的字幕信息时，可以直接从目标视频文件夹中直接拉取字幕信息，在目标视频文件夹中不包括目标视频的字幕信息时，可以通过语音识别模型，识别目标视频语音信息，得到字幕信息。需要说明的是，上述目标视频的已有标签信息可以理解为用户登录帐号上传目标视频时，为目标视频标注的视频信息。

其中，在得到文本信息之后，将视频信息转化为目标文本特征，进而将目标文本特征输入标签分类模型，得到目标视频对应的第一视频标签集合，还可以将目标文本特征输入至标签识别模型，得到目标视频对应的第二视频标签集合，进一步的，可以从第一视频标签集合和第二视频标签集合的中，得到目标视频的视频标签。

例如，目标视频的视频信息包括：“沈三，贾四，你好，李焕英”，将该视频信息中的每个词转换为对应的字符，得到字符对应的字符特征，将字符特征输入到标签分类模型，得到所述标签分类模型输出的第一视频标签集合，如第一视频标签集合为(沈三，你好，李焕英)；将字符特征输入到标签识别模型，得到所述标签识别模型输出的第二视频标签集合，如第二视频标签集合为(贾四，你好，李焕英)，进而可以根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签，如(你好，李焕英)。目标视频的视频标签还可以是(贾四，你好，李焕英)，或是(沈三，你好，李焕英)。

需要说明的是，在本实施例中，目标视频的视频标签的确定方式可以包括以下之一：

方式一，将第一视频标签集合中和第二视频标签集合中同时出现的词，作为目标视频的识别标签。

方式二，将第一视频标签集合中和第二视频标签集合合并，计算合并后的集合中每个词出现的概率，如，第一视频标签集合中“沈三”出现的概率0.8、“你好”出现的概率是0.7、“李焕英”出现的概率是0.9，第二视频标签集合中“贾四”出现的概率是0.9。设于阈值，出现概率大于0.6的词可以作为目标视频标签，则目标视频的视频标签为(沈三，贾四，你好，李焕英)。

可选地，作为一种可选的实施方式，如图2所示，上述视频标签的确定方法可以包括：

步骤S202，获取目标视频的视频信息。

步骤S204，将目标视频的视频信息转换成目标文本特征。

步骤S206，通过预训练的标签分类模型，根据目标文本特征，在预设的目标视频标签集合中确定与目标视频匹配的第一视频标签集合。

步骤S208，通过预训练的标签识别模型，根据目标文本特征，确定与目标视频匹配的第二视频标签集合。

步骤S210，根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签。

可选的，在本实施例中，上述确定的视频标签可以包括但不限应用于视频推荐、视频检索、视频广告投放等领域。在视频推荐领域，视频标签可有效归纳用户感兴趣的视频垂类，并在后续推荐具有相同或相似标签的视频；在视频检索领域，视频标签可直接决定检索结果的准确性；在视频广告投放领域，视频标签发挥用户精准定位功能，关联用户感兴趣内容的广告及投放，实现广告精确化、个性化。

在本实施例中，用户可以通过帐号登录视频应用，并上传视频，系统可以从数据库中获取一个无标签的目标视频，进而目标视频进行标签标注。

可选的，在本实施例中，目标视频的视频标签确定方案可以辅助视频标准化生产，即内容提供者将视频上传后，平台对用户的视频进行标签描述，一方面可以减少标注人员的标注工作量，另一方面高质量的核心标签有助于提升平台分发质量。标签作为视频的重要特征之一，可以通过标签给用户推荐其感兴趣的视频，提升用户观看体验。此外，用户在搜索视频时，高质量的标签也有助于用户精确获取相关视频。

需要说明的是，上述核心标签是用于描述视频重点内容的短语或词语，如电影“你好，李焕英”，该电影视频的核心标签可以包括：李焕英。也就是说，核心标签是最能代表目标视频的短语或词语。相对于核心标签，非核心标签是用于辅助对目标视频的描述，如电影视频中贾四，是该电影的主演，其贾四可以作为非核心标签。

其中，平台可以包括但不限于短视频应用、即时通讯应用、游戏应用等等。

如图3所示，目标视频的视频标签应用流程图。具体过程为：视频提供者将视频上传平台，平台对上传的视频进行视频标准化，将标准化的视频应用于下游任务。当上传的视频被自动标记相关标签后，审查人员可以快速在此基础上进行标注或修改，得到核心标签结果。

其中，视频标准化，即对视频标注标签，先获取视频信息(视频的文本信息)，将该视频信息通过核心标签识别模型识别，得到核心标签集合，得到视频的核心标签。

可选的，目标文本特征包括视频信息中每个字符的字符特征，通过预训练的标签识别模型，根据目标文本特征，确定与属目标视频匹配的第二视频标签集合，可以包括：通过标签识别模型对视频信息中每个字符的字符特征进行标签识别，得到标签识别结果，其中，标签识别结果包括每个字符所属的标签类型；根据标签识别结果，确定第一目标词集合，其中，第一目标词集合中的每个词是由视频信息中的多个字符所构成的词，多个字符所属的标签类型相同、且为预设的标签类型集合中的一个；根据第一目标词集合，确定第二视频标签集合。

在本实施例中，目标视频的视频信息是由一个个词组成的，其中，一个个词之间可以组成词语，词语之间可以组成句子，文本信息包括词、词语、句子，每个词都可以转换为一个或多个字符，如可以转换为one-hot字符，根据字符可以得到字符特征，进而将视频信息的字符特征输入到标签识别模型，得到标签识别模型输出的第二视频标签集合。

例如，目标视频的视频信息包括：“沈三，贾四，你好，李焕英”，将该视频信息中的每个词转换为对应的字符，得到字符对应的字符特征，将字符特征输入到标签识别模型，得到所述标签识别模型输出的第二视频标签集合，如果预设的标签类型集合中包括(相声、演员、贾四，你好，李焕英)，标签识别模型输出的第二视频标签集合可以为(贾四，你好，李焕英)。

其中，根据第一目标词集合，确定第二视频标签集合，可以包括：将第一目标词集合与预设的完整实体词集合进行相似性匹配，得到相互匹配的第一目标词子集和第二目标词子集；其中，第一目标词子集包括第一目标词集合中与预设的完整实体词集合匹配的第一目标词，第二目标词子集包括完整实体词集合中与第一目标词相匹配的第二目标词；将第一目标词集合中的第一目标词子集替换成第二目标词子集，得到第二视频标签集合。

其中，在本实施例中，在视频信息中获取标签类型属于标签类型集合的字符，得到一组字符；将一组字符中标签类型相同的连续字符构成的词，确定为第一目标词集合中的词。

例如，在视频信息中“沈三，贾四，你好，李焕英”的“贾”、“四”、“沈”、“三”、“李”、“焕”、“英”标签类型都属于人名，则可以得到一组字符，将一组字符中标签类型相同的连续字符构成的词，即得到“沈三”、“贾四”、“李焕英”。

在本实施例中，标签识别模型可以包括但不限于包括自然语言处理模型中的长短期记忆网络模型(Long Short-Term Memory，简称LSTM)和条件随机场(ConditionalRandom Fields，简称CRF)模型，通过LSTM模型可以将一组字符中标签类型相同的连续字符构成词，通过CRF模型可以根据预设的标签类型集合从第一目标词集合，确定出第二视频标签集合。

还需要说明的是，标签分类模型还可以对简称或昵称进行识别，输出对应的第二视频标签集合。如视频信息包括“沈三、贾四、你好、焕英”，标签识别模型输出的第二视频集合可以包括(贾四、你好、李焕英)。

可选的，标签识别结果包括每个字符所属的标签类型以及对应的识别概率，根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签，可以包括：在第二视频标签集合中，将识别概率大于或等于预设阈值的词确定为第三目标词，得到第三目标词子集；其中，第二视频标签集合中的每个词的识别概率由每个词所包含字符的所属标签类型对应的识别概率确定；将第一视频标签集合与第三目标词子集的并集确定为目标视频的视频标签。

在本实施例中，第二视频集合可以包括(贾四、你好、李焕英)，其中，贾四的识别概率是0.8、李焕英的识别概率是0.9，你好的识别概率是0.8，即第二视频集合中的词大于预设阈值0.7，即得到第三目标词子集(贾四、你好、李焕英)，需要说明的是，预设阈值可以任意设置。

可选的，根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签之前，上述方法还可以包括：基于视频信息在预设词库中进行匹配，得到第三视频标签集合，其中，第三视频标签集合包括预设词库中与视频信息匹配的词。

在本实施例中，可以包括但不限于通过词典匹配的方式得到第三视频标签集合，其中，词典匹配方式包括：将视频信息与预设词库中的词进行匹配，得到视频信息对应的第三视频标签集合。

例如，视频信息为“你好，李焕英，贾四，沈三”，通过词典匹配的方式，即将视频信息与预设词库中的词进行匹配，得到第三视频标签，其中，第三视频标签集合可以包括“李焕英，贾四，沈三”，第三视频标签集合可以是空集，也就是说，预设词库中不存在与视频信息匹配的词。

根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签，可以包括：根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签；其中，目标视频标签集合包括预设的第二目标词集合，第一视频标签集合包括第二目标词集合中与视频信息中的字符匹配的第三目标词集合。

在本实施例中，在第三视频集合为空集合的情况下，可以将第一视频标签集合和第二视频标签集合进行求并集，得到目标视频的视频标签。在第三视频标签集合不为空集合的情况下，可以将第一视频标签集合、第二视频标签集合以及第三视频标签集合进行求并集，得到目标视频的视频标签。

可选的，标签识别结果包括每个字符所属的标签类型以及对应的识别概率，根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签，可以包括：在第二视频标签集合中不存在识别概率大于或等于预设阈值的词时，将第一视频标签集合和第三视频标签集合的并集确定为目标视频的视频标签；其中，第二视频标签集合中的每个词的识别概率由每个词所包含字符的所属标签类型对应的识别概率确定；在第二视频标签集合中存在识别概率大于或等于预设阈值的词时，根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签。

其中，在第二视频标签集合中存在识别概率大于或等于预设阈值的词时，根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签，可以包括：在第二视频标签集合中存在识别概率大于或等于预设阈值的词、且第三视频标签集合不为空时，根据每个字符所属的标签类型对应的识别概率，在第二视频标签集合以及第三视频标签集合中确定第四目标词子集；将第一视频标签集合与第四目标词子集的并集确定为目标视频的视频标签。

在本实施例中，可以根据识别概率从第二视频标签集合以及第三视频标签集合中确定出识别概率大于或等于预设阈值的词，得到第四目标词子集，将第一视频标签集合与第四目标词子集的并集确定为目标视频的视频标签。

需要说明的是，根据每个字符所属的标签类型对应的识别概率，在第二视频标签集合以及第三视频标签集合中确定第四目标词子集，可以包括：在第二视频标签集合中，将识别概率大于或等于预设阈值的词确定为第五目标词，得到第五目标词子集；将第五目标词子集确定为第四目标词子集，或者将第五目标词子集与第三视频标签集合的并集确定为第四目标词子集。

可选的，根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签，可以包括：将目标视频的视频标签确定为包括第一视频标签集合与第二视频标签集合的并集，其中，第一视频标签集合包括一个或至少两个视频标签，第二视频标签集合包括一个或至少两个视频标签。

在本实施例中，获取目标视频的视频信息，包括以下至少之一：获取目标视频已有的标签，其中，视频信息包括已有的标签；获取目标视频的描述信息，其中，视频信息包括描述信息；获取目标视频的评论信息，其中，视频信息包括评论信息；获取目标视频的字幕信息，其中，视频信息包括字幕信息；对目标视频进行音频识别，得到音频识别信息，其中，视频信息包括音频识别信息。

也就是说，在本实施例中，上述视频信息可以包括但不限于目标视频的字幕信息，还包括目标视频的描述信息、目标视频的评论信息、目标视频的音频识别信息。

在本实施例中，可以利用视频多种视频信息，例如视频标题、语音识别(AutomaticSpeech Recognition，简称ASR)的视频信息、光学字符识别(Optical CharacterRecognition，简称OCR)的视频信息等视频，结合标注模型与分类模型，得到目标视频的视频标签。相较于基于视频的标题信息，在数据库中检索与之相近的其他视频，召回目标视频的标签，在本实施例中，视频标签的准确率(precision rate)和召回率(recall rate)大幅提高。进而提升平台的视频描述质量，改善用户搜索体验及平台推荐质量。

通过本申请提供的实施例，获取目标视频的视频信息；将目标视频的视频信息转换成目标文本特征；通过预训练的标签分类模型，根据目标文本特征，在预设的目标视频标签集合中确定与目标视频匹配的第一视频标签集合；通过预训练的标签识别模型，根据目标文本特征，确定与目标视频匹配的第二视频标签集合；根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签。采用视频多种视频信息，例如视频标题、描述信息、视频的已有标签等视频信息，根据标签识别模型得到第一视频标签集合和标签分类模型得到的第二视频标签集合，确定目标视频的视频标签，结合视频标签识别模型与标签分类模型，相较于现有技术中检索方法得到视频标签，由于视频信息可以包括多个维度的视频信息，以及可以通过标签识别模型和标签分类模型，两种方式确定视频的视频标签，进而可以更准确的确定出视频的视频标签，进而可以更准确的确定出视频的视频标签，进而解决了现有技术中，确定的视频标签准确性较低的技术问题。

可选的，根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签，可以包括：将第一目标词集合与预设的完整实体词集合进行相似性匹配，得到相互匹配的第一目标词子集和第二目标词子集；其中，第一目标词子集包括第一目标词集合中与预设的完整实体词集合匹配的第一目标词，第二目标词子集包括完整实体词集合中与第一目标词相匹配的第二目标词；将第一目标词集合中的第一目标词子集替换成第二目标词子集，得到第二视频标签集合。

其中，在实施例中，可以将第一目标词集合确定为第二视频标签集合。还可以在预设的完成实体词集合中查找与第一目标词集合中的相似的词，得到第二目标词子集。

例如，视频信息还是“沈三、贾四、你好，李焕英”，通过语音的词典可以得到第三视频集合为(李焕英)，进而将第一视频标签集合(沈三，你好，李焕英)、第二视频标签集合(贾四，你好，李焕英)以及第三视频标签集合(李焕英)，求并集，得到目标视频的视频标签集合中包括(李焕英)。

需要说明的是，预设的词典包括第五目标词集合，视频信息中不存在与第五目标词集合中匹配的词，即第四目标词集合可以是空集，不存，则第三视频标签集合为空集，最后目标视频的视频标签可以是(你好，李焕英)。

可选的，在本实施例中，对视频信息进行分词，得到第六目标词集合；将第五目标词集合与第六目标词集合的并集，确定为第四目标词集合；或者在视频信息中识别是否出现第五目标词集合中的词；将视频信息中识别到的词，确定为第四目标词集合。

在本实施例中，上述第五目标词集合可以与标签分类模型中的第二目标词集合可以相同。

可选的，根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签，可以包括：在第三视频标签集合不为空时，根据每个字符所属的标签类型对应的识别概率，在第二视频标签集合以及第三视频标签集合中选择对应的视频标签集合，其中，标签识别模型用于对视频信息中每个字符的字符特征进行标签识别，得到标签识别结果，标签识别结果包括每个字符所属的标签类型以及对应的识别概率；根据第一视频标签集合以及选择的对应的视频标签集合，确定目标视频的视频标签。

其中，根据每个字符所属的标签类型对应的识别概率，在第二视频标签集合以及第三视频标签集合中选择对应的视频标签集合，可以包括：在第一目标词集合包括第一词、且构成第一词的字符对应的识别概率之和大于或等于预设阈值时，将第一词确定为对应的视频标签集合中的词；在第一目标词集合包括第一词、且构成第一词的字符对应的识别概率之和小于预设阈值时，将第一词确定为不包括在对应的视频标签集合中。

在本实施例中，在第三视频标签集合不为空的情况下，可以根据每个字符所属的标签类型对应的识别概率，在第二视频标签集合以及第三视频标签集合中选择对应的视频标签集合。如识别出人名标签“李焕英”的概率为0.8、识别出人名标签“贾四”的概率为0.7、识别出人名标签“沈三”的概率为0.7、识别出虚词“你好”的概率是0.7，将标签类型对应的识别概率大于0.6的词作为视频标签集合中的词，则视频标签集合可以包括(沈三、贾四、你好、李焕英)。

可选的，根据第一视频标签集合以及选择的对应的视频标签集合，确定目标视频的视频标签，可以包括：将目标视频的视频标签确定为包括第一视频标签集合与选择的对应的视频标签集合的并集，其中，第一视频标签集合包括一个或至少两个视频标签，选择的对应的视频标签集合包括一个或至少两个视频标签。

可选的，上述方法还可以包括：在历史视频信息集合中获取样本标签集合，其中，样本标签集合中包括样本视频信息、样本视频信息对应的样本标签、以及样本标签所属的标签类型；使用样本标签集合对样本分类模型进行训练，直到样本分类模型对应的目标损失值满足预设条件，得到标签分类模型，其中，目标损失值是样本分类模型根据样本视频信息确定的预测分类标签、样本标签以及标签类型共同确定的损失值。

可选的，上述方法还可以包括：将第二视频标签集合中未出现在目标视频标签集合中的视频标签增加到目标视频标签集合中。

如第二视频集合中包括标签“贾四”，目标视频标签集合中未出现“贾四”，可以将“贾四”增加到目标视频集合中，进而可以丰富目标视频标签集合，从而可以得到目标视频多个维度的标签信息，从而可以根据标签信息将目标视频有效的推送给目标用户，提高目标视频的曝光率，如目标视频是广告信息，则可以提高广告的曝光量。

可选的，作为一种可选的实施例，如图4所示，视频核心标签识别方法。具体的过程如下：

视频上传后，首先对其进行音频和字幕识别，然后综合视频文本信息(相当于视频信息)构建标注模型与分类模型，对文本进行核心标签的识别。其中，既包括对已有核心标签的判定，也有对未在集合中的新核心标签的发现。

步骤S41，获取目标视频的文本信息(相当于视频信息)；

在本实施例中，目标视频的文本信息可以包括但不限于目标视频的字幕信息、目标视频的描述信息、目标视频的评论信息、目标视频已有的标签信息等等。其中，目标视频的字幕信息获取的方式可以包括：方式一：在目标视频文件夹中包括字幕文件的情况下，可以直接从目标视频文件夹中拉取，在目标视频文件夹中不包括字幕文件的情况下，可以通过语音识别技术，将目标视频的语音进行识别，得到目标视频的字幕信息。

其中，通过语音识别模型，如seq2seq-CTC等，来提取视频中音频文本。通过字符识别模型，如CNN-CTC等，来识别视频中出现的字幕文本。

需要说明的是，目标视频已有的标签信息可以通过频繁模式挖掘，即通过视频的视频信息(标签、ASR、OCR、描述信息、评论)，根据高曝光高播放量的视频信息，挖掘频繁连续出现的词序列，得到目标视频已有的标签信息。

还需要说明的是，频繁模式挖掘的核心思想是：如果一个集合是频繁项集，则它的所有子集都是频繁项集；如果一个集合不是频繁项集合，则它的所有子集都不是频繁项集。其中，频繁项集可以理解为出现频率超过一定阈值的元素对应的集合。

其中，频繁模式挖掘算法的过程包括：1)找到频繁的一维项集L1；2)从频繁的Lk维项集生成k+1维项集Ck+1；3)找到Ck+1中的频繁项集Lk+1；4)k＝k+1，循环执行2)-3)直至k+1＝n，n为最大项集；5)输出各个维度的频繁项集。

例如，在目标视频的视频信息中找到频繁的一维项集L1；从频繁的Lk维项集生成k+1维项集Ck+1；3)找到Ck+1中的频繁项集Lk+1；4)k＝k+1，循环执行2)-3)直至k+1＝n，n为最大项集；5)输出各个维度的视频标签的频繁项集。

可选的，目标视频已有的标签信息可以通过统计计量模式挖掘，如图5所示，目标视频的标签识别的流程图。在本实施例中，统计新词的频率(F)、短语连续元素共现程度(PMI互信息)、逆文档频率(IDF)、词性(POS)分布等统计量；以已有人工标注核心标签为正类，训练二元分类器来对候选核心标签进行打分，将得分超过一定阈值的作为标签。

在本实施例中，统计计量模式可以理解为统计模式识别(statistical approachof pattern recognition)，是对模式的统计分类方法，即结合统计概率论的贝叶斯决策系统进行模式识别的技术，又称为决策理论识别方法。

在本实施例中，在通过统计计量模式得到视频标签集合a，以及通过频繁模式挖掘得到目标视频的视频标签集合b之后，将视频标签集合a和视频标签集合b中的标签输入至训练好的视频标签的行为序列图模型中，得到标签的向量，对于标签向量，用cosine距离或者欧式距离等来度量相似性，然后对向量进行聚类，并进行非极大值抑制，即只保留距离聚类中心最近的一个，得到目标视频的核心标签，也就是说，可以基于视频标签集合a中的标签向量和视频标签集合b中的标签向量，得到标签向量之间的标签向量距离，进而可以根据向量距离确定目标视频的核心标签。

需要说明的是，上述行为序列图模型可以通过用户播放的样本视频标签训练得到，其中，获取样本视频的样本视频的视频信息，将该视频信息输入至待训练的行为序列图模型中，输出得到样本视频的预测标签；在该预测标签与样本视频对应的标注标签之间的标签向量差值满足预设条件的情况下，得到训练好的行为序列图模型。

还需要说明的是，在实际应用中，视频信息中包括N个候选标签的情况下，行为序列图模型可以根据前N-1个候选标签输出第N个候选标签，第N个候选标签可以确定为视频的核心视频标签。其中，计算过程为通过前N-1个候选标签各自对应的标签向量，确定出与第N个标签对应的标签向量之间的标签向量距离，得到最后的视频的核心视频标签。

例如，由视频标签集合a中的标签a-1得到对应标签a-1的标签向量a-1-1，由视频标签集合b中的标签b-1得到对应标签b-1的标签向量b-1-1，计算标签向量a-1-1与标签向量b-1-1之间的标签向量距离，在标签向量距离满足预定阈值的情况下，可以将标签a-1或b-1作为目标视频的标签。

步骤S42，获取文本信息的目标文本特征；

在本实施例中，根据训练好的模型，获取文本信息的文本特征。具体的，对文本进行切词，并将ASR，OCR等含噪声较大的文本按词性过滤，再与标题文本拼接作为模型输入的文本信息。制作词典，并将输入文本的每个字符映射为索引进行嵌入式表示(embedding)，然后输入albert模型进行编码得到文本特征表示。

步骤S43，将文本特征输入标签识别模型，得到第一视频标签集合；

如图6所示，视频的实体标签识别的结构图。每个标签都有其一级类别与二级类别，对于偏向实体类别的核心标签，在本实施例中，使用实体词识别模型(Named EntityRecongnition，简称NER)对文本特征进行标注，得到标签词语及其类别，其中，在实施例中，NER模块可以包括但不限于包括LSTM模型、CRF模型以及词典匹配模型。

对于非完整标签，即文本中只出现标签的部分短语。一方面，在训练数据的处理中，额外添加其部分实体进行训练。另一方面，对标签识别模型NER模型改进如下：当预测到非完整实体时，取其词向量拼接后过全连接层进行抽象表示，再与候选集中的完整实体的词向量一起经过神经网络进行相似度度量，取相似度最大者，得到完整实体。

例如，视频的描述信息为“香蜜编辑承认剧本注水”，通过标签识别模型可以得到“香蜜沉沉烬如霜”，“香蜜编辑承认剧本注水”先转换为字符特征，字符特征先输入到标签识别模型中的长短期记忆网络LSTM模型中，得到“香蜜”，标签识别模型再将“香蜜”与候选标签集合中的标签进行相似度计算，最后标签识别模型可以输出得到“香蜜沉沉烬如霜”，也就是说，第一视频标签集合中可以包括“香蜜沉沉烬如霜”。

又如，将“你好，焕英”输入到标签识别模型中，可以通过标签识别模型中的LSTM模型识别出“焕英”，再通过相似度，标签识别模型再将“焕英”与候选标签集合中的标签进行相似度计算，最后标签识别模型可以输出得到“李焕英”，也就是说，第一视频标签集合中可以包括“李焕英”。

步骤S44，将文本特征输入标签分类模型，得到第二视频标签集合；

在本实施例中，如图7所示，视频标签分类的结构图。对于未在文本中出现的核心标签，通过文本分类模型来判别。构建了多层级多标签分类模型(Hierarchical multi-label classification，简称HMC)，其中，各层级分别对应标签的一级分类、二级分类与该标签本身。添加层级与输入的文本特征attention表示，以增强模型识别效果。

步骤S45，多模型融合；

在本实施例中，将多种方式得到的视频标签集合进行融合，得到目标视频的视频标签集合。具有可以包括如下内容。

标签识别模型与词典匹配的融合。实际业务中，有些标签跨度很长，例如影视剧等使用字典匹配可能效果更佳。可以将训练好的CRF权重来对词典匹配与标签识别模型预测的第一视频标签集合的结果分别进行打分，在词典匹配出结果的情况下(相当于第三视频标签集合不为空的情况下)，相同类型对应的多个字符的概率相加，在概率大于阈值的情况下，将第一视频标签集合和第三视频标签集合选择概率大于阈值的词，得到视频集合Z，将该视频标签集合Z与第二视频标签集合进行合并，得到目标视频标签集合。

其中，在词典匹配不出结果的情况下(相当于第三视频标签集合为空的情况下)，直接将第一视频标签集合与第二视频标签集合合并，得到目标视频的视频标签集合。

在本实施例中，使用标签统计量(例如标注曝光比等)来划分标签识别模型与标签分类模型。标注曝光比可以理解为同一标签出现的次数与标签集合中的所有标签之间的比值，如分类标签识别模型得到目标视频的第一视频标签集合包括“贾四、你好、李焕英”，标签分类模型得到目标视频的第二视频标签集合包括“沈三、你好、李焕英”可以在第一视频标签集合和第二视频标签集合中，“你好、李焕英”的标注曝光率相同，均为2/6，进而可以将“你好，李焕英”作为目标视频的标签。

其中，取标签识别模型结果与标签分类模型结果的并集，得到最后的标签识别结果，进一步的，可以从标签识别结果中得到视频的视频标签。

需要说明的是，在本实施例中，综合使用视频信息，通过统计度量、模型标注与模型分类等方法，能更加精准的发现与判别视频核心标签，以便提高视频推荐的精准度。

本实施例中，视频核心标签构建与识别方法通常用于辅助视频标准化生产，即内容提供者将视频上传后，平台对用户的视频进行标签描述，一方面可以减少标注人员的标注工作量，另一方面高质量的核心标签有助于提升平台分发质量。标签作为视频的重要特征之一，可以通过标签给用户推荐其感兴趣的视频，提升用户观看体验。此外，用户在搜索视频时，高质量的标签也有助于用户精确获取相关视频。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述视频标签的确定方法的视频标签的确定装置。如图8所示，该视频标签的确定装置800可以包括：第一获取单元801、转换单元803、第一确定单元805、第二确定单元807以及第三确定单元809。

第一获取单元801，用于获取目标视频的视频信息。

转换单元803，用于将目标视频的视频信息转换成目标文本特征。

第一确定单元805，用于通过预训练的标签分类模型，根据目标文本特征，在预设的目标视频标签集合中确定与目标视频匹配的第一视频标签集合。

第二确定单元807，用于通过预训练的标签识别模型，根据目标文本特征，确定与目标视频匹配的第二视频标签集合。

第三确定单元809，用于根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签。

通过本申请提供的实施例，第一获取单元801获取目标视频的视频信息；转换单元803将目标视频的视频信息转换成目标文本特征；第一确定单元805通过预训练的标签分类模型，根据目标文本特征，在预设的目标视频标签集合中确定与目标视频匹配的第一视频标签集合；第二确定单元807通过预训练的标签识别模型，根据目标文本特征，确定与目标视频匹配的第二视频标签集合。采用视频多种视频信息，例如视频标题、描述信息、视频的已有标签等文本，根据标签识别模型得到第一视频标签集合和标签分类模型得到的第二视频标签集合，确定目标视频的视频标签，结合视频标签识别模型与标签分类模型，相较于现有技术中检索方法得到视频标签，由于视频信息可以包括多个维度的视频信息，以及可以通过标签识别模型和标签分类模型，两种方式确定视频的视频标签，进而可以更准确的确定出视频的视频标签，进而解决了现有技术中，确定的视频标签准确性较低的技术问题。

可选的，上述第二确定单元807，可以包括：识别模块，用于目标文本特征包括视频信息中每个字符的字符特征，通过标签识别模型对视频信息中每个字符的字符特征进行标签识别，得到标签识别结果，其中，标签识别结果包括每个字符所属的标签类型；第一确定模块，用于根据标签识别结果，确定第一目标词集合，其中，第一目标词集合中的每个词是由视频信息中的多个字符所构成的词，多个字符所属的标签类型相同、且为预设的标签类型集合中的一个；第二确定模块，用于根据第一目标词集合，确定第二视频标签集合。

其中，上述第二确定模块807，可以包括：第一确定子模块，用于将第一目标词集合与预设的完整实体词集合进行相似性匹配，得到相互匹配的第一目标词子集和第二目标词子集；其中，第一目标词子集包括第一目标词集合中与预设的完整实体词集合匹配的第一目标词，第二目标词子集包括完整实体词集合中与第一目标词相匹配的第二目标词；第二确定子模块，用于将第一目标词集合中的第一目标词子集替换成第二目标词子集，得到第二视频标签集合。

可选的，上述第二确定单元807，可以包括：第三确定模块，用于标签识别结果包括每个字符所属的标签类型以及对应的识别概率，在第二视频标签集合中，将识别概率大于或等于预设阈值的词确定为第三目标词，得到第三目标词子集；其中，第二视频标签集合中的每个词的识别概率由每个词所包含字符的所属标签类型对应的识别概率确定；第四确定模块，用于将第一视频标签集合与第三目标词子集的并集确定为目标视频的视频标签。

可选的，上述装置还可以包括：匹配单元，用于根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签之前，基于视频信息在预设词库中进行匹配，得到第三视频标签集合，其中，第三视频标签集合包括预设词库中与视频信息匹配的词；所述第三确定单元，可以包括：第五确定模块，用于根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签。

其中，上述第五确定模块，可以包括：第三确定子模块，用于标签识别结果包括每个字符所属的标签类型以及对应的识别概率，在第二视频标签集合中不存在识别概率大于或等于预设阈值的词时，将第一视频标签集合和第三视频标签集合的并集确定为目标视频的视频标签；其中，第二视频标签集合中的每个词的识别概率由每个词所包含字符的所属标签类型对应的识别概率确定；第四确定子模块，用于在第二视频标签集合中存在识别概率大于或等于预设阈值的词时，根据第一视频标签集合、第二视频标签集合以及第三视频标签集合，确定目标视频的视频标签。

可选的，上述第四确定子模块还用于执行如下操作：在第二视频标签集合中存在识别概率大于或等于预设阈值的词、且第三视频标签集合不为空时，根据每个字符所属的标签类型对应的识别概率，在第二视频标签集合以及第三视频标签集合中确定第四目标词子集；将第一视频标签集合与第四目标词子集的并集确定为目标视频的视频标签。

可选的，上述第四确定子模块还用于执行如下操作：在第二视频标签集合中，将识别概率大于或等于预设阈值的词确定为第五目标词，得到第五目标词子集；将第五目标词子集确定为第四目标词子集，或者将第五目标词子集与第三视频标签集合的并集确定为第四目标词子集。

可选的，上述装置还可以包括：第二获取单元，用于在历史视频信息集合中获取样本标签集合，其中，样本标签集合中包括样本视频信息、样本视频信息对应的样本标签、以及样本标签所属的标签类型；训练单元，用于使用样本标签集合对样本分类模型进行训练，直到样本分类模型对应的目标损失值满足预设条件，得到标签分类模型，其中，目标损失值是样本分类模型根据样本视频信息确定的预测分类标签、样本标签以及标签类型共同确定的损失值。

可选的，上述目标视频的视频信息，可以包括目标视频已有的标签、描述信息、评论信息、音频识别信息、图像识别信息中的一种或多种。

可选的，上述装置还可以包括：增加单元，用于将第二视频标签集合中未出现在目标视频标签集合中的视频标签增加到目标视频标签集合中。

根据本申请实施例的又一个方面，还提供了一种用于实施上述视频标签的确定方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图9所示，该电子设备包括存储器902和处理器904，该存储器902中存储有计算机程序，该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标视频的视频信息；

S2，将目标视频的视频信息转换成目标文本特征；

S3，通过预训练的标签分类模型，根据目标文本特征，在预设的目标视频标签集合中确定与目标视频匹配的第一视频标签集合；

S4，通过预训练的标签识别模型，根据目标文本特征，确定与目标视频匹配的第二视频标签集合；

S5，根据第一视频标签集合和第二视频标签集合，确定目标视频的视频标签。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器902可用于存储软件程序以及模块，如本申请实施例中的视频标签的确定方法和装置对应的程序指令/模块，处理器904通过运行存储在存储器902内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频标签的确定方法。存储器902可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器902可进一步包括相对于处理器904远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器902具体可以但不限于用于存储目标视频的文本信息、第一视频标签集合、第二视频标签集合以及目标视频的视频标签等信息。作为一种示例，如图9所示，上述存储器902中可以但不限于包括上述视频标签的确定装置中的第一获取单元801、转换单元803、第一确定单元805、第二确定单元807以及第三确定单元809。此外，还可以包括但不限于上述视频标签的确定装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置906包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置906为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器908，用于显示上述待处理的目标视频；和连接总线910，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频标签的确定方面或者视频标签的确定方面的各种可选实现方式中提供的视频标签的确定方法。其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取目标视频的视频信息；

S2，将目标视频的视频信息转换成目标文本特征；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频标签的确定方法，其特征在于，包括：

获取目标视频的视频信息；

将所述目标视频的视频信息转换成目标文本特征；

通过预训练的标签分类模型，根据所述目标文本特征，在预设的目标视频标签集合中确定与所述目标视频匹配的第一视频标签集合；

通过预训练的标签识别模型，根据所述目标文本特征，确定与所述目标视频匹配的第二视频标签集合；

根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签。

2.根据权利要求1所述的方法，其特征在于，所述目标文本特征包括所述视频信息中每个字符的字符特征，所述通过预训练的标签识别模型，根据所述目标文本特征，确定与所述目标视频匹配的第二视频标签集合，包括：

通过所述标签识别模型对所述视频信息中每个字符的字符特征进行标签识别，得到标签识别结果，其中，所述标签识别结果包括所述每个字符所属的标签类型；

根据所述标签识别结果，确定第一目标词集合，其中，所述第一目标词集合中的每个词是由所述视频信息中的多个字符所构成的词，所述多个字符所属的标签类型相同、且为预设的标签类型集合中的一个；

根据所述第一目标词集合，确定所述第二视频标签集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标词集合，确定所述第二视频标签集合，包括：

将所述第一目标词集合与预设的完整实体词集合进行相似性匹配，得到相互匹配的第一目标词子集和第二目标词子集；其中，所述第一目标词子集包括所述第一目标词集合中与预设的所述完整实体词集合匹配的第一目标词，所述第二目标词子集包括所述完整实体词集合中与所述第一目标词相匹配的第二目标词；

将所述第一目标词集合中的所述第一目标词子集替换成所述第二目标词子集，得到所述第二视频标签集合。

4.根据权利要求2或3所述的方法，其特征在于，所述标签识别结果包括所述每个字符所属的标签类型以及对应的识别概率，所述根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签，包括：

在所述第二视频标签集合中，将识别概率大于或等于预设阈值的词确定为第三目标词，得到第三目标词子集；其中，所述第二视频标签集合中的每个词的识别概率由所述每个词所包含字符的所属标签类型对应的识别概率确定；

将所述第一视频标签集合与所述第三目标词子集的并集确定为所述目标视频的视频标签。

5.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签之前，所述方法还包括：

基于所述视频信息在预设词库中进行匹配，得到第三视频标签集合，其中，所述第三视频标签集合包括所述预设词库中与所述视频信息匹配的词；

所述根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签，包括：

根据所述第一视频标签集合、所述第二视频标签集合以及所述第三视频标签集合，确定所述目标视频的视频标签。

6.根据权利要求5所述的方法，其特征在于，所述标签识别结果包括所述每个字符所属的标签类型以及对应的识别概率，所述根据所述第一视频标签集合、所述第二视频标签集合以及所述第三视频标签集合，确定所述目标视频的视频标签，包括：

在所述第二视频标签集合中不存在识别概率大于或等于预设阈值的词时，将所述第一视频标签集合和所述第三视频标签集合的并集确定为所述目标视频的视频标签；其中，所述第二视频标签集合中的每个词的识别概率由所述每个词所包含字符的所属标签类型对应的识别概率确定；

在所述第二视频标签集合中存在识别概率大于或等于所述预设阈值的词时，根据所述第一视频标签集合、所述第二视频标签集合以及所述第三视频标签集合，确定所述目标视频的视频标签。

7.根据权利要求6所述的方法，其特征在于，所述在所述第二视频标签集合中存在识别概率大于或等于所述预设阈值的词时，根据所述第一视频标签集合、所述第二视频标签集合以及所述第三视频标签集合，确定所述目标视频的视频标签，包括：

在所述第二视频标签集合中存在识别概率大于或等于所述预设阈值的词、且所述第三视频标签集合不为空时，根据所述每个字符所属的标签类型对应的识别概率，在所述第二视频标签集合以及所述第三视频标签集合中确定第四目标词子集；

将所述第一视频标签集合与所述第四目标词子集的并集确定为所述目标视频的视频标签。

8.根据权利要求7所述的方法，其特征在于，所述根据所述每个字符所属的标签类型对应的识别概率，在所述第二视频标签集合以及所述第三视频标签集合中确定第四目标词子集，包括：

在所述第二视频标签集合中，将识别概率大于或等于预设阈值的词确定为第五目标词，得到第五目标词子集；

将所述第五目标词子集确定为所述第四目标词子集，或者

将所述第五目标词子集与所述第三视频标签集合的并集确定为所述第四目标词子集。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在历史视频信息集合中获取样本标签集合，其中，所述样本标签集合中包括样本视频信息、所述样本视频信息对应的样本标签、以及所述样本标签所属的标签类型；

使用所述样本标签集合对样本分类模型进行训练，直到所述样本分类模型对应的目标损失值满足预设条件，得到所述标签分类模型，其中，所述目标损失值是所述样本分类模型根据所述样本视频信息确定的预测分类标签、所述样本标签以及所述标签类型共同确定的损失值。

10.一种视频标签的确定装置，其特征在于，包括：

第一获取单元，用于获取目标视频的视频信息；

转换单元，用于将所述目标视频的视频信息转换成目标文本特征；

第一确定单元，用于通过预训练的标签分类模型，根据所述目标文本特征，在预设的目标视频标签集合中确定与所述目标视频匹配的第一视频标签集合；

第二确定单元，用于通过预训练的标签识别模型，根据所述目标文本特征，确定与所述目标视频匹配的第二视频标签集合；

第三确定单元，用于根据所述第一视频标签集合和所述第二视频标签集合，确定所述目标视频的视频标签。