CN113901263A

CN113901263A - 一种视频素材的标签生成方法及装置

Info

Publication number: CN113901263A
Application number: CN202111164753.2A
Authority: CN
Inventors: 司马华鹏; 华冰涛; 汤毅平; 汪成
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07
Anticipated expiration: 2041-09-30
Also published as: CN113901263B

Abstract

本申请提供了一种视频素材的标签生成方法及装置，根据所确定的与待打标的视频素材库对应的目标领域的类别信息，可以获取与该目标领域对应的文本素材中的类别文本，并从这些类别文本中选择与视频内容相匹配的目标类别文本以及对应的目标类别信息作为视频素材的标签。本申请所提供的视频素材的标签生成方法，可以基于目标领域中的文本素材为该目标领域中的视频素材生成标签，避免使用人工基于主观生成的非标准化的标签，从而有效提高标签的准确性。同时，可以通过使用打标模型，有效提高标签的生成效率。

Description

一种视频素材的标签生成方法及装置

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频素材的标签生成方法及装置。

背景技术

视频，即动态影像，其可以向用户直观、动态地展示图像作品，相较于文本的呈现形式，视频更加易于用户观赏和理解。在制作视频时，可以以某一段文本为目标文本，根据该目标文本对应的内容从已有的视频素材中挑选对应的目标视频素材，并将这些目标视频素材按照顺序合成为一个视频，该合成后的视频即为与该目标文本对应的目标视频，该目标视频可以对应展示该目标文本的内容，从而可以通过该目标视频向用户更加直观地展示该目标文本的内容。

已有的视频素材通常带有相应的标签，该标签用于描述视频素材的关键信息，例如人物、地点、事件等，根据目标文本对应的内容从已有的视频素材中挑选对应的目标视频素材的具体过程通常为：将所提取到的目标文本的内容与各视频素材的标签进行匹配，并将匹配度较高的视频素材挑选为目标视频素材，用于后续合成目标视频。

可见，视频素材的标签的准确性直接影响通过匹配目标文本的内容与视频素材的标签所确定的目标视频素材的准确性，即如果视频素材的标签的准确性较低，标签无法准确反映视频素材的真实内容，那么根据该标签所匹配得到的目标视频素材也就无法准确反映目标文本的内容，例如，视频素材A的内容为甲向乙送上礼物并进行简短交流，但是，如果仅生成标签送礼，而没有交流，则所生成的标签并不准确，从而无法准确反映视频素材A的真实内容，一旦目标文本的内容包括交流，则无法通过匹配找到视频素材A，从而无法保证所挑选的目标视频素材的准确性，进而影响目标视频的准确性。而现今多采用人工打标签的方式，人工打标不仅需要人工浏览视频素材的全部内容，还需要依据人工经验从视频素材的全部内容中提取到可以代表该视频素材的内容，以作为该视频素材的标签，因此，需要耗费人工大量的精力，而且具有较强的主观性和错漏性，从而难以保证视频素材的标签的准确性。

发明内容

本申请提供了一种视频素材的标签生成方法及装置，以有效提高生成视频素材的标签效率和所生成的标签的准确性。

本申请第一方面提供了一种视频素材的标签生成方法，包括：

确定目标领域对应的类别信息，所述目标领域为待打标的视频素材库对应的领域，所述待打标的视频素材库包括至少一个待打标的视频素材，所述类别信息是指与所述目标领域对应的文本素材中指定内容所对应的类别；

获取与所述目标领域对应的文本素材；

从所述文本素材中提取与各所述类别信息对应的类别文本；

生成所述待打标的视频素材的标签，所述标签包括目标类别信息和目标类别文本，其中，所述目标类别信息是指与所述待打标的视频素材的视频内容对应的内容类别相匹配的所述类别信息，所述目标类别文本是指与所述待打标的视频素材的视频内容相匹配的所述类别文本。

在一种实现方式中，在所述生成所述待打标的视频素材的标签之后还包括：

确定待合并视频组，所述待合并视频组包括至少两个待合并视频素材，所述待合并视频素材是指内容相似度大于或者等于预设内容相似度阈值的所述待打标的视频素材；

将各所述待合并视频素材对应的标签均替换为目标标签。

在一种实现方式中，所述目标标签为所述待合并视频组中各所述待合并视频素材对应的标签的合集，或者，所述目标标签为所述待合并视频组中任意一个所述待合并视频素材对应的标签。

在一种实现方式中，所述确定待合并视频组包括：

确定比较组，所述比较组包括两个待比较视频素材，所述待比较视频素材是指任意一个所述待打标的视频素材；

计算所述比较组中所述两个待比较视频素材的内容相似度；

确定所述待合并视频组，所述待合并视频组中的待合并视频素材来自至少一个目标比较组，且所述至少一个目标比较组对应的内容相似度大于或者等于所述预设内容相似度阈值。

在一种实现方式中，所述计算所述比较组中所述两个待比较视频素材的内容相似度包括：

提取所述比较组中每个所述待比较视频素材对应的单帧图片库，所述单帧图片库包括相应的所述待比较视频素材的全部单帧图像；

根据所述单帧图片库中的灰度化处理后的每一单帧图片，生成所述单帧图片库对应的指纹码；

计算两个所述单帧图片库的指纹码的汉明距离，得到所述两个待比较视频素材的内容相似度。

统计各所述待打标的视频素材的标签中每个第一标签对应的数量，所述第一标签为各所述待打标的视频素材在同一类别信息中相同的标签；

确定第二标签和第三标签，其中，所述第二标签是指数量大于或者等于数量阈值的所述第一标签，所述第三标签是指数量小于所述数量阈值的所述第一标签；

将所述待打标的视频素材的标签替换为相应的所述第二标签。

在一种实现方式中，所述方法还包括：

获取预打标视频素材库，所述预打标视频素材库包括预打标的视频素材，所述预打标的视频素材是指所述待打标的视频素材库中的部分待打标的视频素材；

生成所述预打标视频素材的标签；

利用所述预打标视频素材库、各所述预打标视频素材的标签、以及各所述预打标视频素材的标签的生成过程，构建并训练打标模型；

利用所述打标模型生成所述待打标的视频素材库中其余待打标的视频素材的标签。

在一种实现方式中，从所述文本素材中提取与各所述类别信息对应的类别文本包括：

从所述文本素材中提取命名实体；

从所述命名实体中确定类别文本，所述类别文本为与所述类别信息对应的所述命名实体。

在一种实现方式中，所述待打标的视频素材为与所述目标领域对应的视频作品中的片段，所述视频素材为单帧图片和/或连续的多帧图片。

第二方面，本申请提供了一种视频素材的标签生成装置，包括：

类别信息确定单元，用于确定目标领域对应的类别信息，所述目标领域为待打标的视频素材库对应的领域，所述待打标的视频素材库包括至少一个待打标的视频素材，所述类别信息是指与所述目标领域对应的文本素材中指定内容所对应的类别；

领域文本素材获取单元，用于获取与所述目标领域对应的文本素材；

类别文本提取单元，用于从所述文本素材中提取与各所述类别信息对应的类别文本；

标签生成单元，用于生成所述待打标的视频素材的标签，所述标签包括目标类别信息和目标类别文本，其中，所述目标类别信息是指与所述待打标的视频素材的视频内容对应的内容类别相匹配的所述类别信息，所述目标类别文本是指与所述待打标的视频素材的视频内容相匹配的所述类别文本。

由以上技术可知，本申请提供了一种视频素材的标签生成方法及装置，根据所确定的与待打标的视频素材库对应的目标领域的类别信息，可以获取与该目标领域对应的文本素材中的类别文本，并从这些类别文本中选择与视频内容相匹配的目标类别文本以及对应的目标类别信息作为视频素材的标签。本申请所提供的视频素材的标签生成方法，可以基于目标领域中的文本素材为该目标领域中的视频素材生成标签，避免使用人工基于主观生成的非标准化的标签，从而有效提高标签的准确性。同时，可以通过使用打标模型，有效提高标签的生成效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种视频合成的交互示意图；

图2为本申请提供的一种视频素材的标签生成方法的流程示意图；

图3为本申请提供的视频素材的标签列表示意图；

图4为本申请提供的标签消歧处理的流程示意图；

图5为本申请提供的标签消歧处理的另一流程示意图；

图6为本申请提供的视频合成方法的流程示意图；

图7为本申请提供的视频素材的标签生成装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视频创作者为了令文本信息更加生动、形象，会通过视频合成器来合成与文本信息对应的视频，通过向他人展示该视频，以展示文本信息的内容。视频合成器可以是用于合成视频的应用程序(Application，App)，或者是由网页提供的视频合成功能，视频创作者在视频合成器中输入文本信息之后，通过视频合成器对该文本信息的处理，可以得到合成后的视频，该视频所呈现的内容与文本信息的内容相对应。在一些实施例中，视频合成器可以集成在视频创作者所持有的终端设备(如手机、计算机、平板电脑等)上，例如，视频合成器可以是终端设备上的处理器，或者，视频合成器也可以集成于一个外接于视频创作者所持有的终端设备(如手机、计算机、平板电脑、蓝牙耳机、相机、智能穿戴设备等)的设备(如服务器、云端服务器、手机、平板电脑等)上。

示例地，视频创作者想要上传一段文本A，例如一段评述三国赤壁之战对各个势力影响的文章，该文章的第一部分描述了赤壁之战的交战过程，第二部分介绍了曹军战后的情况，第三部分介绍了孙刘联军战后的情况。可见文本A的篇幅较长，如果用户直接阅读文本A，不仅耗时较长，而且不够直观、生动，难以准确掌握该文本所要表达的内容。由此，视频创作者可以以视频的形式展示文本A。图1以视频合成App作为视频合成器作为示例，示例性示出了视频创作者合成视频的流程，视频创作者通过点击用于视频合成App的图标以进入文本输入界面，如图1中a所示，视频创作者在该文本输入界面输入文本A(包括第一部分、第二部分和第三部分)，视频合成App响应于合成指令，如图1所示，视频合成App可以自动获取视频素材库，该视频素材库包括海量视频素材，其中，这些视频素材中包括对应展示赤壁之战的交战过程的视频素材1，对应展示曹军在赤壁之战之后的情况的视频素材2，以及对应展示孙刘联军在赤壁之战之后的情况的视频素材3。视频合成App可以从视频素材库中选择与文本A中各部分内容对应的视频素材，即视频素材1、视频素材2和视频素材3。视频合成App按照第一文本、第二文本和第三文本在文本A中的文本顺序，拼接视频素材1、视频素材2和视频素材3，得到与文本A对应的视频。在播放该视频时，如图1中b所示，首先展示视频素材1，然后展示视频素材2，最后展示视频素材3。这样，视频创作者可以通过视频合成App自动确定与文本内容对应的视频素材，并通过拼接各个视频素材以得到与文本内容对应的视频，以有效提高视频的合成效率。在上述合成视频的过程中，是通过匹配文本A的文本内容与视频素材的视频内容，确定目标视频素材，可见，所确定的目标视频素材的准确性，一方面受到与文本A相关的参数的影响，一方面受到与视频素材相关的参数的影响。本申请实施例首先针对与视频素材相关的参数进行介绍，通过保证与视频素材相关的参数的准确性，以提高确定目标视频素材的准确性。

视频素材的视频内容通常使用描述文本和标签来表示，这样，通过标签和描述文本，可以快速掌握相应的视频素材的具体视频内容。由此，在基于视频内容匹配视频素材时，实质上也是基于视频素材的描述文本和标签进行匹配的过程，可见，视频素材的描述文本和标签与视频素材的视频内容的匹配度越高，越能够有效提高通过描述文本和标签匹配到的视频素材的准确性。

在本实施例中，描述文本通常为短句形式，一个视频素材可以具有一个或多个描述文本，每个描述文本的字符数量相对较长，描述文本包括多个词语，通过多个词语的词义，以每个词语在短句中对应的句子成分，由该多个词语共同完成对视频素材的视频内容的整体描述。标签通常为词语形式，一个视频素材可以具有一个或多个标签，其中，每个标签的字符数量相对较短，标签之间无排列顺序的影响，标签之间也无词义的影响，各个标签独立存在，每个标签仅描述视频素材中与其对应的部分视频内容，多个标签对应描述的部分视频内容组合在一起可以构成整体视频素材的视频内容。基于描述文本和标签的描述逻辑，为视频素材生成准确性高的标签相对较难。在本实施例中，可以参考图2所示的方法来为视频素材生成标签，具体如下：

S201、确定目标领域对应的类别信息，所述目标领域为待打标的视频素材库对应的领域，所述待打标的视频素材库包括至少一个待打标的视频素材，所述类别信息是指与所述目标领域对应的文本素材中指定内容所对应的类别。

在本实施例中，按照视频素材的视频内容可以将视频素材划分为不同的领域，例如按照视频素材的视频内容对应的文学题材，可以将视频素材划分为诗词领域、小说领域、音乐领域、电影领域等。又如，按照视频素材的具体视频内容，可以将视频素材划分为三国演义领域、红楼梦领域、西游记领域、水浒传领域等。在本实施例中，将待打标的视频素材所属的领域称为目标领域。

在本实施例中，每个领域都有其对应的类别信息，领域对应的类别信息指示该领域所涉及的一系列信息(如文本素材、视频素材等)中较为重要的类别，例如，三国演义领域中的文本素材、视频素材等，以人物、事件等为主要内容，则该领域的类别信息包括人物、情绪、事件、地点等。

在一些实施例中，每个领域的类别信息可以通过人工确定，例如，专业人员基于个人对每个领域内的文本素材、视频素材等一些列信息的了解，为每个领域设定对应的类别信息。在一些实施例中，为了提高类别信息的准确性、同时节省人力物力，可以基于领域对应的文本素材确定领域的类别信息。例如，通过相应的句法分析模型，基于语言学(如依存句法)、统计学(如聚类统计)，确定领域对应的全部文本素材中存在的依存关系，即文本素材的每个句子中各分词对应的句法关系，并将每种句法关系确定为一种类别信息。示例地，文本素材的句子为“貂蝉在房间里正伤心地流泪”，其中，分词为“貂蝉”、“流泪”、“在房间里”、“伤心地”，通过句法分析模型可以确定“流泪”对应的依存关系为“名词主语的主动动词”，“在房间里”对应的依存关系为“名词主语的介词修饰”，“伤心地”对应的依存关系为“动词的修饰词”。由此，该句子包含三种依存关系，即“名词主语的主动动词”、“名词主语的介词修饰”和“动词的修饰词”，该领域至少包含与上述三种依存关系对应的三种类别信息。进一步地，为了便于区分类别信息，可以利用更加简短、精确的词语来表示依存关系。可以根据依存关系对应的分词的词义来命名依存关系，例如“流泪”的词义是“流眼泪”，其对应的是人物动作，通常人物动作代表事件，因此，可以用“事件(event)”命名依存关系“名词主语的主动动词”。类比于上述命名方式，可以用“地点(place)”命名依存关系“名词主语的介词修饰”，可以用“情绪(emotion)”命名依存关系“动词的修饰词”。

基于上述确定依存关系的方法，可以确定领域对应的全部依存关系，进而确定每种依存关系对应的类别信息，即得到领域对应的类别信息。在一些实施例中，可以预先存储各领域与其对应的类别信息，这样，可以根据所确定的目标领域，直接确定该目标领域对应的类别信息，从而可以提高确定类别信息的效率，进而提高标签的生成效率。在一些实施例中，可以在确定目标领域之后，按照上述过程确定该目标领域对应的类别信息，这样，可以通过实时获取目标领域对应的文本素材的方式，保证所获取到的文本素材的时效性，从而提高所确定的目标领域的类别信息的准确性。

在本实施例中，待打标的视频素材可以为影视作品中的片段，待打标的视频素材的形式可以为单帧图片和/或连续的多帧图片。示例地，可以采用镜头切割的方式，将一个影视作品划分为多个视频素材，例如，针对三国演义电视剧中的某一集视频，通过镜头切割的方式，以所涉及的人物或者事件为线索，将该集视频切割为多个视频片段，将每一个视频片段作为一个视频素材，可见，该视频素材的视频内容具有单一性，即对应一个事件，具有内容单一性的视频素材，更有利于提高后续合成视频时匹配视频素材的效率和准确性。

S202、获取与目标领域对应的文本素材。

在本实施例中，所获取的与目标领域对应的文本素材就是指S201中用于确定目标领域的类别信息的文本素材。

S203、从文本素材中提取与各类别信息对应的类别文本。

在一种实现方式中，在按照S201中所述的方式，基于目标领域的全部文本素材确定目标领域的类别信息的过程中，同时确定每个类别信息对应的类别文本。根据确定类别信息的过程，文本素材的每个句子中与依存关系对应的分词，实际上就是与该依存关系对应的文本，又由于依存关系即为领域的类别信息，因此，这些分词就是与类别信息对应的类别文本。这样，可以在确定目标领域的类别信息之后，直接确定与每个类别信息对应的类别文本。在一些实施例中，也可以预先存储“领域-类别信息-类别文本”的对应关系，这样，在确定目标领域之后，可以根据预先存储的对应关系，直接确定相应的类别信息以及类别文本。

在一种实现方式中，如果是基于预存的领域与类别信息的对应关系，确定目标领域对应的类别信息，则可以从实时获取的文本素材中提取与各类别信息对应的文本内容，即类别文本。在该实现方式中，类别信息可以分为两类，即核心类别和非核心类别。其中，核心类别可以反映一个领域的核心内容，例如，三国演义领域的核心内容是“刘备、关羽、张飞”等，则其对应的核心类别是人物；而诗词领域的核心内容是“沁园春、卜算子等”，则其对应的核心类别是词牌名。非核心类别可以反映一个领域的非核心内容，例如，三国演义领域的非核心内容是“战场、负荆请罪、生气”等，则其对应的非核心类别是场景、事件、情感等。诗词领域的非核心内容是“悯农，锄禾日当午，汗滴禾下土，举头望明月，低头思故乡”等，则其对应的非核心类别是人物、场景、情感等。在本实施例中，分别提取将文本素材中与核心类别对应的类别文本定义为第一文本，将待处理文本中与非核心类别对应的类别文本定义为第二文本，可以采用提取模型提取第一文本和第二文本。

在一些实施例中，可以采用命名实体识别(Named Entity Recognition，NER)模型识别并提取各文本素材中的第一文本，NER模型可以为BERT-BLSTM-CRF模型等，NER模型可以识别到文本素材中与核心类别对应的实体名词，并将所提取到的实体名词作为文本素材的第一文本。进一步地，为了提高NER模型所提取的第一文本的准确度，可以根据目标领域的领域词表来修正所提取到的实体名词，其中，领域词表包含目标领域内与核心类别对应的全部文本内容。例如，可以通过爬取等方式，从该目标领域对应的全部文本素材中提取与核心类别对应的词语。通过匹配NER所提取的实体名词与领域词表中的各个词语，确定错误实体名词，判断错误实体名词的错误类型，其中，如果错误类型为部分错误，则将错误实体名词替换为领域词表中对应的词语；如果错误类型为全部错误，则将错误实体名词剔除。在一些实施例中，上述修正过程可以通过NER模型完成，此时的NER模型为训练为带有修正功能的实体名词识别模型。

在一些实施例中，可以采用分类模型识别并提取各文本素材中与非核心类别对应的第二文本，分类模型可以为BLSTM-CNN模型等，分类模型可以通过分类算法对文本素材所描述的事件、情绪等进行分类，以确定与文本素材对应的分类标签(分类模型中预先训练的标签，例如与“事件”类别对应的分类标签包括“骑马”、“打仗”、“谈话”等，与“情绪”类别对应的分类标签包括“开心”、“不开心”、“愤怒”等)，即第二文本。

在该种实现方式中，可以通过各提取模型，从目标领域的各文本素材中快速、准确地提取相应的类型文本。进一步地，采用此种类型文本的提取方式，还可以同时确定与类型文本对应的类别种类(核心类别和非核心类别)。

S204、生成所述待打标的视频素材的标签，所述标签包括目标类别信息和目标类别文本，其中，所述目标类别信息是指与所述待打标的视频素材的视频内容对应的内容类别相匹配的所述类别信息，所述目标类别文本是指与所述待打标的视频素材的视频内容相匹配的所述类别文本。

通过上述过程得到的类别文本可以作为各视频素材的标签。首先，这些类别文本源于目标领域中的文本素材，而后续用于合成视频的待处理文本也属于目标领域中的文本素材，由此，待处理文本与视频素材的标签具有可匹配性。其次，这些类别文本几乎可以涵盖目标领域中相关的全部文本内容，从而可以良好地匹配视频素材的视频内容，而降低出现视频素材没有可使用的标签的概率。

通过分析待打标的视频素材的视频内容与各类别信息及类别信息对应的类别文本，可以确定与待打标的视频素材相匹配的类别信息，即目标类别信息，以及相匹配的类别文本，即目标类别文本。示例地，可以根据计算机视觉方法自动分析待打标的视频素材的视频内容，并通过计算该视频内容与类别信息和类别文本之间的相似度，以确定相似度高于预设相似度阈值的目标类别信息和目标类别文本。最后，将目标类别信息和目标类别文本作为该待打标的视频素材的标签。以待打标的视频素材“桃园三结义的片段”为例，生成的标签可以参考图3，如图3所示，该标签包括“person-刘备、张飞、关羽；event-谈话；place-户外；emotion-开心”。

如图3所示，在一些实施例中，该视频素材还可以包括标题“title-桃园三结义”，描述文本“description-刘备、张飞、关羽在户外正开心地谈话”等相关的视频参数，此处不赘述。

将每一个待打标的视频素材均采用S204的方式进行打标，可以生成每个待打标的视频素材的标签。

在一些情况下，不同的视频素材可能表示同一个视频内容，例如，从不同拍摄版本的三国演义中剪切的视频素材1和视频素材2，其中，视频素材1和视频素材2虽为两个视频素材，但是，对应相同的视频内容“赵云与刘备在帐篷中谈话”。由于上述所获得的类别文本形式丰富，即会存在较多的同义词、近义词，因此，采用S204为相同视频内容的不同视频素材打标，可能会使用同义词、近义词作为同一个标签。例如，视频素材1的标签为“赵子龙、刘备、谈话、营帐”，视频素材2的标签为“赵云、刘备、说话、军营”。

首先，由于后续为待处理文本匹配目标视频素材的过程，需要计算待处理文本与各视频素材的标签的匹配度，由此，如果进行匹配的视频素材所对应的标签的总数量越多，相应的，计算量越大，匹配效率越低。其次，为视频素材生成标签的过程，相当于对视频素材的标准化过程，标准化的目的在于，具有相同视频内容的视频素材可以使用统一的标签进行索引，从而提高对视频素材管理的集成度，显然，具有相同视频内容的视频素材对应不同的标签，这种现象并未实现彻底的视频素材的标准化，即必须采用不同的标签，经过多次索引才能够查找到具有相同视频内容的全部视频素材。

为了解决上述问题，可以对经过S204打标之后的各个视频素材对应的标签做进一步的消歧处理，可以参考图4，具体如下：

S401、确定待合并视频组，所述待合并视频组包括至少两个待合并视频素材，所述待合并视频素材是指内容相似度大于或者等于预设内容相似度阈值的所述待打标的视频素材。

对视频素材的标签进行消歧处理的本质在于，通过将视频内容相同的视频素材的标签合并，以统一化标签。因此，对视频素材的标签消歧处理之前，首先确定视频内容相同或相近，即视频内容的内容相似度大于或者等于预设内容相似度阈值的待合并视频素材，并由各待合并视频素材组成的待合并视频组。其中，确定待合并视频素材的具体过程如下：

S4011、确定比较组，所述比较组包括两个待比较视频素材，所述待比较视频素材是指任意一个所述待打标的视频素材。

S4012、计算所述比较组中所述两个待比较视频素材的内容相似度。

在本实施例中，采用视频素材两两比较的方式，即以每两个已经生成标签的视频素材作为同一个比较组中的待比较视频素材。通过比较每个比较组中两个待比较视频素材的内容相似度，确定该比较组是否为待合并视频组，即如果待比较视频素材的内容相似度大于或者等于预设内容相似度阈值，则该比较组为待合并视频组，该比较组中的待比较视频素材即为待合并视频素材。

在本实施例中，可以按照如下方法来计算待比较视频素材的内容相似度：

S40121、提取所述比较组中每个所述待比较视频素材对应的单帧图片库，所述单帧图片库包括相应的所述待比较视频素材的全部单帧图像。

S40122、根据所述单帧图片库中的灰度化处理后的每一单帧图片，生成所述单帧图片库对应的指纹码。

S40123、计算两个所述单帧图片库的指纹码的汉明距离，得到所述两个待比较视频素材的内容相似度。

可以通过动态图像专家组(Fast Forward Moving Picture Expert Group，FFMPEG)框架，提取每个待比较视频素材的全部单帧图像，对应同一待比较视频素材的全部单帧图像组成一个单帧图片库。将同一个单帧图片库中的单帧图像进行灰度化处理，并将灰度化处理后的图片进行离散余弦变换(Discrete Cosine Transform，DCT)转换，可以得到该单帧图片库对应的指纹码，该指纹码具有唯一标识性，即与单帧图片库(待比较视频素材)唯一对应。通过计算两个单帧图片库的指纹码的汉明距离，可以得到两个待比较视频素材的内容相似度。其中，将汉明距离大于或者等于预设内容相似度阈值的比较组确定为目标比较组。

S4013、确定所述待合并视频组，所述待合并视频组中的待合并视频素材来自至少一个目标比较组，且所述至少一个目标比较组对应的内容相似度大于或者等于所述预设内容相似度阈值。

待合并视频组包括至少一个目标比较组，即包括至少两个待合并视频素材。

S402、将各所述待合并视频素材对应的标签均替换为目标标签。

确定待合并视频素材之后，将这些待合并视频素材当前的标签全部替换为目标标签。在一些实施例中，目标标签可以是各待合并视频素材对应的标签的合集，示例地，待合并视频素材为视频素材1和视频素材2，其中，视频素材1的标签为“赵子龙、刘备、谈话、营帐”，视频素材2的标签为“赵云、刘备、说话、军营”，目标标签为“赵子龙、刘备、谈话、营帐、赵云、刘备、说话、军营”。

在一些实施例中，目标标签可以是待合并视频组中任意一个待合并视频素材对应的标签，仍以上述视频素材1和视频素材2为例，可以将视频素材1的标签作为目标标签，此时，只需要将视频素材2的标签替换为目标标签，即“赵子龙、刘备、谈话、营帐”即可。这样，视频素材消歧后的标签的数量较少，便于后续进行待处理文本与视频素材的匹配计算。在一些实施例中，还可以根据各待打标的视频素材的标签数量，从待打标的视频素材的整体上统一标签，参考图5，具体如下：

S501、统计各所述待打标的视频素材的标签中每个第一标签对应的数量，所述第一标签为各所述待打标的视频素材在同一类别信息中相同的标签。

对各待打标的视频素材的标签进行数量统计，其中，将对应于同一类别信息的相同标签称为第一标签。示例地，视频素材1的标签为“赵子龙、刘备、谈话、营帐”，视频素材2的标签为“赵云、刘备、说话、军营”，其中，对应于类别信息“事件”的第一标签包括“谈话”、“说话”，可见，该类别信息中第一标签“谈话”、“说话”的数量均为1，对应于类别信息“地点”的第一标签包括“营帐”、“军营”，可见，该类别信息中第一标签“营帐”、“军营”的数量均为1。

S502、确定第二标签和第三标签，其中，所述第二标签是指数量大于或者等于数量阈值的所述第一标签，所述第三标签是指数量小于所述数量阈值的所述第一标签。

将对应同一类别信息的第一标签中数量大于或者等于数量阈值的第一标签称为第二标签，将数量小于数量阈值的第一标签称为第三标签。示例地，全部待打标的视频素材的标签中对应于类别信息“事件”下的第一标签包括“夜谈”和“交谈”，其中，“夜谈”的数量为1，“交谈”的数量为20。如果数量阈值为5，则“夜谈”为第三标签，“交谈”为第二标签。

S503、将所述待打标的视频素材的标签替换为相应的所述第二标签。

可以认为，数量过少的标签说明该标签的出现频次较低，相应的，该标签具有较低的实际使用意义，由此，可以使用数量较多的标签来代替数量较少的标签，即使用第二标签来代替第三标签。接S502中的示例，使用“交谈”代替“夜谈”作为对应于“事件”的标签。

为了进一步提高标签的生成效率，可以先对待打标的视频素材中的部分视频素材，即预打标的视频素材执行上述标签的生成过程，得到各预打标的视频素材的标签，进而可以将这些预打标的视频素材作为训练样本，构建打标模型。这样，在获得打标模型之后，可以直接使用该打标模型为待打标视频素材库中的其余待打标的视频素材生成标签，从而提高这部分待打标的视频素材的标签生成效率。

通过本申请实施例所提供的视频素材的标签生成方法，可以基于目标领域中的文本素材为该目标领域中的视频素材生成标签，避免使用人工基于主观生成的非标准化的标签，从而有效提高标签的准确性。同时，可以通过使用打标模型，有效提高标签的生成效率。

基于上述过程获得的各目标领域对应的每个视频素材的标签，可以确定与待处理文本匹配的目标视频素材，并用目标视频素材合成目标视频。

在本实施例中，视频合成器可以参考图6所示的流程生成与待处理文本对应的目标视频，具体如下：

S601、获取待生成相应视频的待处理文本，所述待处理文本包括至少一个目标文本，其中，不同的所述目标文本对应不同的文本内容。

在本申请中，可以将待生成相应视频的文本信息称为待处理文本，可以将生成的与待处理文本对应的视频称为目标视频，可以将用于指示视频合成器将待处理文本生成目标视频的指令称为视频生成指令，可以将用于构成目标视频的视频素材称为目标视频素材。

待处理文本可以为视频创作者实时输入的文本信息，也可以为视频合成器从网络或者本地获取的文本信息等。

由上文通过以事件等为线索切割视频得到视频素材的方式可知，每一个视频素材仅对应展示一个事件，因此，为了提高所确定的目标视频素材的准确性，首先要确保待处理文本对应的文本内容(事件)的单一性。在一些实施例中，如果待处理文本包含多个文本内容，则可以先对待处理文本进行划分，以得到多个子文本，不同的子文本对应不同的文本内容。然后以每一个子文本为目标文本来确定对应的目标视频素材。这样，以对应独立事件的每个子文本为目标文本，来确定相应的目标视频素材，可以有效降低对应不同事件的子文本之间的语义影响，从而增加对每个目标文本进行分析的准确度，以提高所确定的目标视频素材的准确度。以每个目标文本为单位，确定目标视频素材。

S602、获取所述目标文本中的第一文本和第二文本，以及所述目标文本的文本摘要，其中，所述第一文本是指所述目标文本中与所述待处理文本所属目标领域中预设的核心类别对应的文本，所述第二文本是指所述目标文本中与所述目标领域中预设的非核心类别对应的文本。

在本实施例中，目标领域是指与待处理文本对应的领域，与上文待打标的视频素材库对应的目标领域对应的具体领域可以相同，也可以不同。

在本实施例中，核心类别与非核心类别与上文中目标领域对应的类别信息(包括核心类别和非核心类别)一致。目标文本在本质上也是目标领域对应的文本素材，其确定第一文本和第二文本的过程与上文S203中从文本素材中提取与各类别信息对应的类别文本的过程一致，此处不赘述。

在本实施例中，文本摘要是指目标文本中可以代表目标文本的语义的一个或多个句子，这些句子构成的向量与目标文本的向量之间的相似度符合向量相似度阈值，示例地，目标文本为“刘备、关羽、张飞在桃园结义，三人虽为异姓，既结为兄弟，则同心协力，救困扶危，上报国家，下安黎庶。”其中，最能够代表目标文本的语义的一个句子为“刘备、关羽、张飞在桃园结义”，则该目标文本的文本摘要为“刘备、关羽、张飞在桃园结义”。

通过上述过程，视频合成器可以自动、准确地获得待处理文本中各目标文本的第一文本、第二文本以及文本摘要。

S603、获取目标领域对应的视频素材库，所述视频素材库包括多个视频素材，其中，每个视频素材具有相应的标签和描述文本。

此处的目标领域仍指待处理文本对应的领域，根据该领域可以确定对应的视频素材库。在本实施例中，各视频素材均带有描述文本以及标签，其中，视频素材的标签基于上文所提供的方式获得，此处不赘述。

S604、根据所述第一文本与每个所述视频素材的标签的文本相似度、所述第二文本与每个所述视频素材的标签的概率相似度、以及所述文本摘要与每个所述视频素材的描述文本的句子相似度，从所述视频素材库中提取目标视频素材。

S6041、视频合成器计算每个视频素材的标签与目标文本的第一文本的文本相似度。

第一文本代表目标文本的核心内容，与第一文本相匹配的视频素材，说明该视频素材的视频内容与目标文本的核心内容是高度匹配的，即视频素材的视频内容一定包含了第一文本。可以通过计算标签与第一文本的文本相似度来进行匹配，当标签与第一文本的文本相似度大于或者等于预设的文本相似度阈值时，则可以认为该标签与第一文本相匹配，否则，该标签与第一文本不匹配。如果一个视频素材带有多个标签，其中，每个标签与第一文本的文本相似度均可以按照上述方法进行计算。在一些实施例中，预设的文本相似度阈值包括第一文本相似度阈值和第二文本相似度阈值，其中，第一文本相似度阈值对应于第一文本与每一个标签的文本相似度；第二文本相似度阈值对应于符合第一文本相似度阈值的标签数量，即视频素材对应的全部标签中，大于或者等于第一文本相似度阈值的标签的数量大于或者等于第二文本相似度阈值时，该视频素材的标签与第一文本相匹配。其中，第二文本相似度阈值N满足：1≤N≤M，M为视频素材的标签总数量，可见，N的取值越高，与第一文本相匹配的标签的数量越多，由此所确定的视频素材越准确。

示例地，第一文本为“张飞”，视频素材1带有标签“张飞”，通过第一文本与标签的匹配，视频素材1的标签与第一文本的匹配度大于匹配度阈值，则说明视频素材1所展示的视频内容一定包含了目标文本中的第一文本，即与人物“张飞”相关的内容。

S6042、视频合成器确定每个视频素材的标签与目标文本的第二文本的概率相似度。

第二文本代表目标文本的非核心内容，需要说明的是，非核心内容并非是指目标文本中不重要的内容，相反地，目标文本的非核心内容与核心内容相结合能够更加精准地描述目标文本所要表达的语义。示例地，目标文本1为“张飞在战场上兴奋地骑马飞奔”，其核心内容(第一文本)为“张飞”，目标文本2为“张飞在草原上兴奋地骑马飞奔”，其核心内容(第一文本)为“张飞”，显然，仅凭借核心内容(第一文本)是无法区分两个目标文本的真正语义的，而目标文本1的非核心内容(第二文本)为“战场”、“兴奋地”、“骑马飞奔”，目标文本2的非核心内容(第二文本)为“草原”、“兴奋地”、“骑马飞奔”，显然，两个目标文本通过结合各自的第一文本和第二文本可以得到各自更加完整的语义，即目标文本1的语义是“张飞在战场上兴奋地骑马飞奔”，突出地点“战场”，而目标文本2的语义是“张飞在草原上兴奋地骑马飞奔”，突出地点“草原”。可见，第二文本是区分两个目标文本的关键。由此，不仅要计算视频素材的标签与第一文本的匹配度，为了更加完善语义匹配，还需要计算视频素材的标签与第二文本的匹配度。在本实施例中，第二文本与视频素材的标签的概率相似度是指第二文本被划分到分类模型中每个类别标签的概率。

示例地，第二文本为“战场”，通过分类模型可以得到第二文本被分类到分类标签“战场”、“户外”和“室内”的概率分别为0.857、0.143、0，视频素材1带有标签“战场”，视频素材2带有标签“户外”，视频素材3带有标签“室内”，相应的，第二文本与视频素材1的标签的概率相似度为0.857，第二文本与视频素材2的标签的概率相似度为0.143，第二文本与视频素材3的标签的概率相似度为0。

在一些实施例中，非核心类别的种类较多，相应的，目标文本的第二文本通常会包括多个词语，例如，非核心类别包括“场景”、“情感”、“事件”，目标文本为“张飞在战场上兴奋地骑马”，相应的，第二文本为“战场”、“兴奋”、“骑马”。由此，通过上述分类过程，可以得到目标文本中各第二文本被归类到同一个视频素材的各个相应非核心类别的标签的概率。

S6043、视频合成器计算每个视频素材的描述文本与目标文本的文本摘要的句子相似度。

由上文对视频素材的描述文本，以及目标文本的文本摘要的描述可知，描述文本可以较为准确地描述视频素材的整体视频内容，文本摘要可以较为准确地描述目标文本的整体文本内容。由此，通过计算两者的句子相似度，可以反应视频素材与目标文本在整体内容上的相似度。具体地，首先分别生成与视频素材的描述文本对应的第一句向量，以及与目标文本的文本摘要对应的第二句向量，然后通过计算第一句向量与第二句向量之间的余弦相似度，得到描述文本与文本摘要之间的句子相似度。

示例地，视频素材的描述文本为“张飞在战场上骑马杀敌”，目标文本为“张飞在战场上骑马飞奔”，通过计算两者的句子相似度，如果句子相似度大于或者等于相似度阈值，则说明该视频素材可以较为准确地反应目标文本的整体文本内容。

由上述三个具体的匹配过程可知，每个匹配过程具有不同的匹配侧重点，为了避免仅通过匹配一个方面所带来的匹配误差，综合考虑上述三个匹配过程的结果，即只有标签与第一文本的匹配度大于或者等于匹配度阈值，标签与第二文本的概率相似度大于或者等于概率相似度阈值，且描述文本与文本摘要的句子相似度大于或者等于句子相似度阈值的视频素材才会被筛选为目标视频素材。

示例地，目标文本为“刘备、关羽、张飞在桃园结义，三人虽为异姓，既结为兄弟，则同心协力，救困扶危，上报国家，下安黎庶。”，第一文本为“刘备”、“关羽”、“张飞”，第二文本为“桃园”、“结义”、“结为兄弟”、“同心协力”、“救困扶危”、“上报国家”、“下安黎庶”，文本摘要为“刘备、关羽、张飞在桃园结义”。视频素材1的标签为“刘备”、“关羽”、“张飞”、“结义”，描述文本为“刘、关、张桃园三结义”。示例地，计算标签与第一文本的匹配度P1为1，计算标签与第二文本的概率相似度P2为0.8，计算文本摘要与描述文本的句子相似度P3为1。如果设定匹配度阈值为0.8，概率相似度阈值为0.7，句子相似度阈值为0.7，通过对比可知，P1＞0.8，P2＞0.7，P3＞0.7，由此，视频素材1是目标文本的目标视频素材。

在一些实施例中，为了进一步提高第一文本、第二文本、文本摘要之间的关联性，可以综合计算匹配度、概率相似度和句子相似度，以得到目标文本与视频素材之间的内容匹配度。

将上述过程得到的第一文本和第二文本相关联，可以共同计算得到目标文本与视频素材的第一相似度。具体的，第一相似度满足如下公式：A1＝xa*score(a)+xb*score(b)，其中，A1代表第一相似度，score(a)代表第一文本与视频素材的标签之间的占比，score(a)满足公式score(a)＝k1*C/A+k2*C/B，其中，A表示目标文本中出现第一文本的总数量，B表示视频素材的标签中出现与核心类别对应的标签的总数量，C表示目标文本的第一文本与视频素材的标签中出现与核心类别对应的标签的交集数量，k1和k2为系数，且k1+k2＝1，可以根据实际侧重点设定k1与k2的数值，例如，更加侧重体现目标文本，则可以设定k1＞k2，如果更加侧重体现视频素材，则可以设定k1＜k2。score(b)代表每个第二文本被归类到视频素材的标签中相应非核心类别的标签的概率，xa和xb分别为与score(a)和score(b)对应的权重值，xa和xb的值可以根据需要自行设定，但是需要保证xa+xb＝1。

示例地，第一文本为“张飞”、第二文本为“战场”、“兴奋”、“骑马”，则score(a)具体为score(person)，score(b)具体为score(place)、score(emotion)和score(event)，为人物分配权重值x0，为场景分配权重值x1，为情感分配权重值x2，为事件分配权重值x3，其中，x0+x1+x2+x3＝1。由此，A1＝x0*score(person)+x1*score(place)+x2*score(emotion)+x3*score(event)。如果x0＝0，x1＝0.1，x2＝0.2，x3＝0.7，针对视频素材1，通过上述计算得到：score(person)＝0.4、score(place)＝0.1、score(emotion)＝0.9、score(event)＝0.1，则目标文本与视频素材1的标签的第一相似度为A1＝0*0.4+0.1*0.1+0.2*0.9+0.7*0.1＝0.26。

进一步地，将第一文本、第二文本和文本摘要相关联，可以共同计算得到目标文本与视频素材的第二相似度，即目标文本与视频素材的内容匹配度。具体的，第二相似度满足如下公式：A2＝Q1*A1+Q2*P3，其中，A2代表第二相似度(内容匹配度)，A1代表第一相似度，P3代表文本摘要与描述文本的句子相似度，Q1和Q2分别为与A1和P3对应的权重值，其中，Q1+Q2＝1，0≤Q1≤1，0≤Q2≤1，权重值Q1和Q2可以自行设定，例如，如果比较侧重于视频素材的细节信息，则可以设定Q1＞Q2，如果比较侧重于视频素材的整体信息，则可以设定Q2＞Q1。相应的，设定内容匹配度阈值，如果A3大于或者等于该内容匹配度阈值，则可以确定该视频素材为目标视频素材，否则，该视频素材不是目标视频素材。

上述筛选目标视频素材的过程，需要将目标文本与目标视频素材库中的每个视频素材进行匹配。通常，目标视频素材库中也会包含数量较为庞大的视频素材，由此，上述筛选目标视频素材的过程也需要庞大的计算量，耗费较长的匹配时间。由此，可以以目标视频素材库为基础，构建一个视频素材数量较少的候选视频素材库，其中，候选视频素材的标签与第一文本的文本相似度大于或者等于预设的文本相似度阈值，再对该候选视频素材库内的候选视频素材进行匹配。

这样，在获得候选视频素材库之后，只需要对候选视频素材库中的各个候选视频素材进行匹配即可，可以有效减少运算量，提高目标视频素材的识别效率。其中，通过计算视频素材的标签与第一文本的匹配度获得候选视频素材的过程，以及后续计算候选视频素材与目标文本的内容匹配度的过程，均可以参考上文中相应的匹配过程，此处不再赘述。

在一些实施例中，可以对由上述过程确定的目标视频素材进行进一步筛选，以提高所确定的目标视频素材的准确度，例如，对匹配度、概率相似度和句子相似度分别符合预设阈值的视频素材，分别按照从高到低排序，取综合排序最高的X个目标视频素材作为最终使用的目标视频素材。或者，将视频素材按照内容匹配度从高到低排序，取排序最高的X个目标视频素材作为最终使用的目标视频素材。

S605、根据各所述目标文本对应的目标视频素材，生成与所述待处理文本对应的目标视频。

基于S601～S605，匹配得到待处理文本中每个目标文本对应的目标视频素材之后，将这些目标视频素材合成为对应于待处理文本的目标视频，每个目标视频素材在该目标视频中具有固定的位置，其位置与目标文本在文本信息中对应的位置相一致。示例地，待处理文本包括目标文本1和目标文本2，其中，目标文本1位于目标文本2之前，目标文本1对应目标视频素材1，目标文本2对应目标视频素材2，拼接目标视频素材1与目标视频素材2得到对应于待处理文本的目标视频，其中，目标视频素材1位于目标视频素材2之前，这样，目标视频素材1先于目标视频素材2显示，以匹配目标文本1在目标文本2之前的文本顺序。

由上述方案可知，通过视频合成器可以通过自动匹配目标文本与视频素材，以快速确定目标视频素材。同时，视频合成器在确定目标视频素材时，综合考虑了目标文本中对应不同内容类别的文本与视频素材的标签的匹配度，以及目标文本的文本摘要与视频素材的描述文本的匹配度，以确保所确定的目标视频素材与目标文本的内容准确对应。而且，基于S201～S204生成的视频素材的标签，具有较高的准确性，可以准确表示视频素材的视频内容，从而可以进一步保证基于视频素材的标签所确定的目标视频素材的准确性，进而保证由目标视频素材合成的目标视频可以准确展示待处理文本所要表达的内容。

相应的，上述生成标签的方法可以通过相应硬件之间的配合实现，图7示例性示出了视频素材的标签生成装置的硬件结构，如图7所示，视频素材的标签生成装置包括：类别信息确定单元1，用于确定目标领域对应的类别信息，所述目标领域为待打标的视频素材库对应的领域，所述待打标的视频素材库包括至少一个待打标的视频素材，所述类别信息是指与所述目标领域对应的文本素材中指定内容所对应的类别；文本素材获取单元2，用于获取与所述目标领域对应的文本素材；类别文本提取单元3，用于从所述文本素材中提取与各所述类别信息对应的类别文本；标签生成单元4，用于生成所述待打标的视频素材的标签，所述标签包括目标类别信息和目标类别文本，其中，所述目标类别信息是指与所述待打标的视频素材的视频内容对应的内容类别相匹配的所述类别信息，所述目标类别文本是指与所述待打标的视频素材的视频内容相匹配的所述类别文本。

在一些实施例中，标签生成单元4还用于，在生成所述待打标的视频素材的标签之后确定待合并视频组，所述待合并视频组包括至少两个待合并视频素材，所述待合并视频素材是指内容相似度大于或者等于预设内容相似度阈值的所述待打标的视频素材；将各所述待合并视频素材对应的标签均替换为目标标签。

在一些实施例中，所述目标标签为所述待合并视频组中各所述待合并视频素材对应的标签的合集，或者，所述目标标签为所述待合并视频组中任意一个所述待合并视频素材对应的标签。

在一些实施例中，标签生成单元4还用于确定比较组，所述比较组包括两个待比较视频素材，所述待比较视频素材是指任意一个所述待打标的视频素材；计算所述比较组中所述两个待比较视频素材的内容相似度；确定所述待合并视频组，所述待合并视频组中的待合并视频素材来自至少一个目标比较组，且所述至少一个目标比较组对应的内容相似度大于或者等于所述预设内容相似度阈值。

在一些实施例中，标签生成单元4还用于提取所述比较组中每个所述待比较视频素材对应的单帧图片库，所述单帧图片库包括相应的所述待比较视频素材的全部单帧图像；根据所述单帧图片库中的灰度化处理后的每一单帧图片，生成所述单帧图片库对应的指纹码；计算两个所述单帧图片库的指纹码的汉明距离，得到所述两个待比较视频素材的内容相似度。

在一些实施例中，标签生成单元4还用于统计各所述待打标的视频素材的标签中每个第一标签对应的数量，所述第一标签为各所述待打标的视频素材在同一类别信息中相同的标签；确定第二标签和第三标签，其中，所述第二标签是指数量大于或者等于数量阈值的所述第一标签，所述第三标签是指数量小于所述数量阈值的所述第一标签；将所述待打标的视频素材的标签替换为相应的所述第二标签。

在一些实施例中，所述装置还包括模型构建单元，用于获取预打标视频素材库，所述预打标视频素材库包括预打标的视频素材，所述预打标的视频素材是指所述待打标的视频素材库中的部分待打标的视频素材；生成所述预打标视频素材的标签；利用所述预打标视频素材库、各所述预打标视频素材的标签、以及各所述预打标视频素材的标签的生成过程，构建并训练打标模型；利用所述打标模型生成所述待打标的视频素材库中其余待打标的视频素材的标签。

在一些实施例中，文本素材获取单元2还用于从所述文本素材中提取命名实体；从所述命名实体中确定类别文本，所述类别文本为与所述类别信息对应的所述命名实体。

在一些实施例中，所述待打标的视频素材为与所述目标领域对应的视频作品中的片段，所述视频素材为单帧图片和/或连续的多帧图片。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频素材的标签生成方法，其特征在于，包括：

获取与所述目标领域对应的文本素材；

从所述文本素材中提取与各所述类别信息对应的类别文本；

2.根据权利要求1所述的方法，其特征在于，在所述生成所述待打标的视频素材的标签之后还包括：

将各所述待合并视频素材对应的标签均替换为目标标签。

3.根据权利要求2所述的方法，其特征在于，所述目标标签为所述待合并视频组中各所述待合并视频素材对应的标签的合集，或者，所述目标标签为所述待合并视频组中任意一个所述待合并视频素材对应的标签。

4.根据权利要求2所述的方法，其特征在于，所述确定待合并视频组包括：

计算所述比较组中所述两个待比较视频素材的内容相似度；

5.根据权利要求4所述的方法，其特征在于，所述计算所述比较组中所述两个待比较视频素材的内容相似度包括：

6.根据权利要求1所述的方法，其特征在于，在所述生成所述待打标的视频素材的标签之后还包括：

7.根据权利要求1-6中任一所述的方法，其特征在于，所述方法还包括：

生成所述预打标视频素材的标签；

8.根据权利要求1所述的方法，其特征在于，从所述文本素材中提取与各所述类别信息对应的类别文本包括：

从所述文本素材中提取命名实体；

9.根据权利要求1所述的方法，其特征在于，所述待打标的视频素材为与所述目标领域对应的视频作品中的片段，所述视频素材为单帧图片和/或连续的多帧图片。

10.一种视频素材的标签生成装置，其特征在于，包括：