CN110555136B

CN110555136B - 一种视频标签的生成方法、装置及计算机存储介质

Info

Publication number: CN110555136B
Application number: CN201810273066.6A
Authority: CN
Inventors: 盛骁杰
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2022-07-08
Anticipated expiration: 2038-03-29
Also published as: CN110555136A

Abstract

本申请实施方式公开了一种视频标签的生成方法、装置及计算机存储介质，其中，所述方法提供有标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述方法包括：获取目标视频的视频信息；根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇；确定所述特征词汇组中包含的描述词汇组，并将确定的所述描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签。本申请提供的技术方案，能够在生成与视频内容相契合的视频标签的同时，提高视频标签的生成效率。

Description

一种视频标签的生成方法、装置及计算机存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种视频标签的生成方法、装置及计算机存储介质。

背景技术

当前，为了让用户在短时间内获知视频的内容，视频播放平台通常会为上传的视频制作对应的视频标签。目前，为视频添加标签的方式有多种：一种是让观看视频的用户为视频添加标签，这种方式比较快捷，但是添加的标签是否与视频内容相契合则无法把控；一种是通过视频播放平台的管理人员手动添加标签，这种方式需要耗费相当大的人力物力，由于管理人员的数量有限，这种方式效率太低。

发明内容

本申请实施方式的目的是提供一种视频标签的生成方法、装置及计算机存储介质，能够在生成与视频内容相契合的视频标签的同时，提高视频标签的生成效率。

为实现上述目的，本申请实施方式提供一种视频标签的生成方法，提供有标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述方法包括：获取目标视频的视频信息，所述视频信息中包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息；根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇；确定所述特征词汇组中包含的描述词汇组，并将确定的所述描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签。

为实现上述目的，本申请实施方式还提供一种视频标签的生成装置，所述装置包括存储器和处理器，所述存储器中存储计算机程序和标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述计算机程序被所述处理器执行时，实现以下步骤：获取目标视频的视频信息，所述视频信息中包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息；根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇；确定所述特征词汇组中包含的描述词汇组，并将确定的所述描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签。

为实现上述目的，本申请实施方式还提供一种计算机存储介质，所述计算机存储介质中存储计算机程序和标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述计算机程序被处理器执行时，实现以下步骤：获取目标视频的视频信息，所述视频信息中包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息；根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇；确定所述特征词汇组中包含的描述词汇组，并将确定的所述描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签。

由上可见，本申请提供的技术方案，可以通过描述词汇的组合来确定目标视频的视频标签。在本申请中，可以通过对大量的视频信息进行分析，从而归纳出标签库。在该标签库中，可以包括各个视频标签以及与视频标签相关联的描述词汇组，所述描述词汇组中可以包括多个描述词汇。这样，多个描述词汇的组合可以最终确定视频标签。举例来说，标签库中包括“惊险”这样的标签，该标签关联的描述词汇组中包括“大叫”、“惊恐”这两个描述词汇，那么“大叫”和“惊恐”这两个描述词汇的组合可以生成对应的标签“惊险”。那么在生成目标视频的标签时，可以预先对目标视频的视频信息进行分析，从而根据同一场景下的视频信息识别得到特征词汇组。该特征词汇组中的特征词汇可以表征目标视频的内容。这样，通过将特征词汇组中的特征词汇与标签库中的描述词汇进行对比，可以确定出特征词汇组中包含的描述词汇组，从而可以将确定出的描述词汇组关联的视频标签作为所述目标视频的视频标签。由上可见，本申请提供的技术方案，能够在生成与视频内容相契合的视频标签的同时，提高视频标签的生成效率。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式中标签库的示意图；

图2为本申请实施方式中视频标签的生成方法流程图；

图3为本申请实施方式中描述词汇组的示意图；

图4为本申请实施方式中视频标签的生成装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种视频标签的生成方法，所述方法可以应用于视频播放网站的业务服务器中。所述业务服务器在接收到用户或者管理员上传的视频之后，可以生成该视频的视频标签。

在本实施方式中，所述业务服务器可以针对大量的视频信息，归纳出包含视频标签的标签库。其中，所述视频信息可以是与视频相关的文字、图像、语音等信息。具体地，所述视频信息可以包括视频的语音信息、图像信息、字幕信息以及标题信息。其中，所述语音信息可以是视频中的背景音和人物发出的声音，所述字幕信息可以是视频画面中出现的字幕以及注释，所述图像信息可以是视频的画面，所述标题信息可以是视频的标题。

在本实施方式中，通过对所述视频信息进行分析，可以识别出与视频内容相符的一系列词汇。具体地，针对语音信息，可以通过自动化语音识别(Automatic SpeechRecognition,ASR)的技术，将语音信息转换为机器能够识别的二进制编码或者字符序列，然后通过语义识别的技术，识别出与视频内容相符的词汇；针对字幕信息，可以通过光学字符识别(Optical Character Recognition，OCR)的技术，从视频画面中提取出文字信息，然后通过语义识别的技术提取出能够表征文字信息含义的词汇；针对图像信息，则可以通过图像识别技术，识别出图像信息中包含的目标对象，并确定能够表征目标对象的词汇；对于标题信息，可以通过语义识别的技术提取出能够表征标题信息含义的词汇。

在本实施方式中，在从视频信息中识别出与视频内容相符的词汇之后，可以基于这些词汇，构建出上述的标签库。具体地，可以采用知识图谱(Knowledge Graph/Vault)的方式，将多个词汇进行组合，并将构成组合的多个词汇共同表征的含义作为视频标签。例如，在图1中，“帮忙”和“妈妈”这两个词汇组合在一起，可以表征“孝顺”的含义，因此“孝顺”可以作为“帮忙”和“妈妈”这两个词汇的组合表征的视频标签。又例如，在图1中，“大叫”和“害怕”这两个词汇的组合可以对应视频标签“惊险”。这样，通过知识图谱的方式表现的标签库中，可以包含多个视频标签，各个视频标签可以与描述词汇组相关联，在所述描述词汇组中，可以包括至少两个用于描述视频标签的描述词汇。例如，上述的“帮忙”和“妈妈”可以作为一个描述词汇组中的描述词汇，“孝顺”则可以作为该描述词汇组关联的视频标签。

请参阅图2，本申请提供的视频标签的生成方法，可以包括以下步骤。

S1：获取目标视频的视频信息，所述视频信息中包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息。

在本实施方式中，针对待分析的目标视频，可以预先获取该目标视频的视频信息。具体地，所述视频信息可以包括语音信息、图像信息、字幕信息以及标题信息这四个方面的信息。其中，所述语音信息可以是所述目标视频中的背景音和人物发出的声音，所述语音信息可以从所述目标视频的音频中获取。所述字幕信息可以是所述目标视频的视频画面中出现的字幕以及注释，所述字幕信息可以通过OCR的技术从视频画面中识别得到。所述图像信息可以是所述目标视频的画面，所述图像信息中可以包含所述目标视频的每一帧画面。所述标题信息可以是所述目标视频的标题。

S3：根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇。

在本实施方式中，上述的语音信息、图像信息以及字幕信息通常可以与目标视频的播放进度相绑定。在不同的播放进度处，通常会对应的不同的语音信息、图像信息以及字幕信息。为了使得语音信息、图像信息以及字幕信息能够反映相同的视频内容，可以针对所述目标视频中处于同一场景下的视频信息进行分析。

在一个实施方式中，所述目标视频中的同一场景可以通过目标视频中的场景切换帧来确定。所述场景切换帧可以作为所述目标视频中相邻的两个不同的场景之间的视频帧。为了能够获取所述目标视频的各个场景对应的场景切换帧，在本实施方式中可以通过逐帧对比的方式进行提取。具体地，首先可以在所述目标视频中确定基准帧，并依次计算所述基准帧之后的各个视频帧与所述基准帧之间的相似度。

在本实施方式中，所述基准帧可以在一定范围内随机指定的一帧画面。例如，所述基准帧可以是在所述目标视频的开篇2分钟内随机选取的一帧画面。当然，为了不遗漏所述目标视频中的场景，可以将所述目标视频的第一帧作为所述基准帧。

在本实施方式中，当确定了所述基准帧之后，可以从所述基准帧开始，将所述基准帧之后的各帧画面依次与所述基准帧进行对比，以计算后续的各帧画面与所述基准帧之间的相似度。具体地，在计算各个视频帧与所述基准帧之间的相似度时，可以分别提取所述基准帧和当前帧的第一特征向量和第二特征向量。

在本实施方式中，所述第一特征向量和所述第二特征向量可以具备多种形式。其中，可以基于每帧画面中像素点的像素值构建该帧画面的特征向量。每帧画面通常都是由若干的像素点按照一定的顺序排列而成的，像素点对应各自的像素值，从而可以构成色彩斑斓的画面。所述像素值可以是处于指定区间内的数值。例如，所述像素值可以是灰度值，所述灰度值可以是0至255中的任意一个数值，数值的大小可以表示灰度的深浅。当然，所述像素值还可以是其它色系空间中多个色系分量各自的数值。例如，在RGB(Red，Green，Blue，红绿蓝)色系空间中，所述像素值可以包括R分量数值、G分量数值以及B分量数值。

在本实施方式中，可以获取每帧画面中各个像素点的像素值，并通过获取的像素值构成该帧画面的特征向量。例如，对于具备9*9＝81个像素点的当前帧而言，可以依次获取其中像素点的像素值，然后根据从左向右从上至下的顺序，将获取的像素值依次排列，从而构成81维的向量。该81维的向量便可以作为所述当前帧的特征向量。

在本实施方式中，所述特征向量还可以是每帧画面的CNN(Convolutional NeuralNetwork，卷积神经网络)特征。具体地，可以将所述基准帧以及所述基准帧之后的各帧画面输入卷积神经网络中，然后该卷积神经网络便可以输出所述基准帧以及其它各帧画面对应的特征向量。

在本实施方式中，为了能够准确地表征所述基准帧和当前帧中所展示的内容，所述第一特征向量和所述第二特征向量还可以分别表示所述基准帧和所述当前帧的尺度不变特征。这样，即使改变图像的旋转角度、图像亮度或拍摄视角，提取出的第一特征向量和所述第二特征向量仍然能够很好地体现所述基准帧和当前帧中的内容。具体地，所述第一特征向量和所述第二特征向量可以是Sift(Scale-invariant feature transform，尺度不变特征转换)特征、surf特征(Speed Up Robust Feature，快速鲁棒性特征)或者颜色直方图特征等。

在本实施方式中，在确定了所述第一特征向量和所述第二特征向量之后，可以计算所述第一特征向量和所述第二特征向量之间的相似度。具体地，所述相似度在向量空间中可以表示为两个向量之间的距离。距离越近，表示两个向量越相似，因此相似度越高。距离越远，表示两个向量差别越大，因此相似度越低。因此，在计算所述基准帧和所述当前帧之间的相似度时，可以计算所述第一特征向量和所述第二特征向量之间的空间距离，并将所述空间距离的倒数作为所述基准帧与所述当前帧之间的相似度。这样，空间距离越小，其对应的相似度越大，表明所述基准帧和所述当前帧之间越相似。相反地，空间距离越大，其对应的相似度越小，表明所述基准帧和所述当前帧之间越不相似。

在本实施方式中，按照上述方式可以依次计算所述基准帧之后的各个视频帧与所述基准帧之间的相似度。相似度较高的两帧画面中所展示的内容也通常是比较相似的，为了确定出目标视频中的不同场景，在本实施方式中，当所述基准帧与当前帧之间的相似度小于或者等于指定阈值时，可以将所述当前帧确定为一个场景切换帧。其中，所述指定阈值可以是预先设定的一个数值，该数值根据实际情况可以灵活地进行调整。例如，当根据该指定阈值筛选出的场景切换帧的数量过多时，可以适当减小该指定阈值的大小。又例如，当根据该指定阈值筛选出的场景切换帧的数量过少时，可以适当增大该指定阈值的大小。在本实施方式中，相似度小于或者等于指定阈值，可以表示两帧画面中的内容已经具备明显的不同，因此可以认为当前帧所展示的场景，与所述基准帧所展示的场景发生了改变。此时，所述当前帧便可以作为场景切换的一帧画面进行保留。

在本实施方式中，在将所述当前帧确定为一个场景切换帧时，可以继续确定后续的其它场景切换帧。具体地，从所述基准帧到所述当前帧，可以视为场景发生了一次改变，因此当前的场景便是所述当前帧所展示的内容。基于此，可以将所述当前帧作为新的基准帧，并依次计算所述新的基准帧之后的各个视频帧与所述新的基准帧之间的相似度，从而根据计算的所述相似度确定下一个场景切换帧。同样地，在确定下一个场景切换帧时，依然可以通过提取特征向量以及计算空间距离的方式确定出两帧画面之间的相似度，并且可以将确定出的相似度依然与所述指定阈值进行对比，从而确定出从新的基准帧之后场景再次发生变化的下一个场景切换帧。

在本实施方式中，通过上述的方式，可以从所述目标视频中依次提取出各个场景切换帧，这样，相邻两个场景切换帧之间的视频帧便可以作为相同场景帧，这些相同场景帧从而构成了所述目标视频中的同一场景。在本实施方式中，可以针对这些相同场景帧对应的视频信息进行分析，从而可以保证分析得到的结果能够反映相同的视频内容。

在本实施方式中，根据同一场景下的视频信息，可以识别得到特征词汇组，所述特征词汇组中可以包括多个特征词汇，这些特征词汇均可以用于表征目标视频的内容。具体地，由于同一场景可以由相同场景帧构成，那么在识别得到特征词汇组时，可以从所述相同场景帧对应的视频信息中识别表征所述相同场景帧的内容的多个特征词汇，这样，所述多个特征词汇便可以构成所述相同场景帧对应的特征词汇组。

在一个实施方式中，针对不同的视频信息，可以采用不同的方式识别特征词汇。具体地，针对语音信息，可以通过ASR的技术，将语音信息转换为文字信息，然后可以将转换得到的文字信息和字幕信息、标题信息一并作为待识别的文本。在对这些待识别的文本进行识别时，可以将所述待识别的文本拆分为多个词汇。具体地，可以通过字符串匹配或者机器学习的方法对文本进行分词。在通过字符串匹配时，可以通过正向/反向最大匹配、长词优先等原则，对文本进行字符串扫描，并将扫描得到的字符串对应的词汇作为分词结果。在通过机器学习的方式进行分词时，可以采用序列标注模型对文本中可能出现的词汇计算概率值，并根据概率值来确定分词结果。其中，常用的序列标注模型例如可以是CRF(Conditional Random Field algorithm，条件随机场算法)模型、HMM(Hidden MarkovModel，隐马尔可夫模型)等。在本实施方式中，在将待识别的文本拆分为多个词汇之后，可以将拆分得到的词汇作为所述视频信息中包含的特征词汇。

此外，针对图像信息而言，可以采用图像识别的技术，识别各个视频帧中包含的对象。所述对象可以包括人物、建筑、树木等实体对象，还可以包括开心、苦恼、惊讶等表情对象。在识别出图像信息中包含的对象之后，可以将表征所述对象的词汇作为所述视频信息中包含的特征词汇。例如，在当前的视频帧中识别出一个在哭泣的妇女，那么可以将“哭泣”、“女人”作为该视频帧识别出的特征词汇。这样，通过上述的方式，便可以从同一场景下的视频信息中识别出特征词汇组。当然，在实际应用中，可以同时结合多个信息来生成一个特征词汇。例如，可以通过结合画面信息和语音信息，来生成当前场景的一个特征词汇。举例来说，在一个场景中，可以从图像信息中识别出一个表情很紧张的男人，而从语音信息中可以识别出旋律比较紧急的背景音乐，那么此时可以结合图像信息和语音信息得到特征词汇“紧张”。

在一个实施方式中，考虑到视频信息中识别出的词汇的数量会比较多，而大部分词汇可能无法明显地表征目标视频的内容。因此，为了从识别出的大量词汇中筛选出能够明显表征目标视频内容的词汇，可以分别计算拆分得到的所述词汇的权重值以及表征所述对象的词汇的权重值。所述权重值可以是TF-IDF(Term Frequency–Inverse DocumentFrequency，词频-逆向文件频率)值。其中，TF可以指拆分得到的词汇在目标视频的视频信息中出现的次数，IDF可以指拆分得到的词汇在大量的视频信息中共计出现的次数。TF-IDF值的含义在于，如果一个词汇在目标视频中出现次数较多，同时在大量的视频信息中出现的次数较少，那么该词汇对应的TF-IDF值便会较高，该词汇便能够明显地表征目标视频的内容。举例来说，“我们”、“大家”、“你好”这样的词汇，尽管在目标视频中出现的次数较多，但是在大量的视频信息中出现的次数同样较多，因此这样的词汇会具备较低的TF-IDF值，也就是说，这类词汇并不具备特殊性，无法明显地表征目标视频的内容。而诸如“思维殿堂”、“推理”、“福尔摩斯”这样的词汇，在目标视频中出现的次数较多，同时在大量的视频信息中出现的次数较少，因此这样的词汇会具备较高的TF-IDF值，也就是说，这类词汇对于目标视频而言具备特殊性，可以明显地表征目标视频的内容。

在本实施方式中，在计算得到各个词汇的权重值之后，可以从拆分得到的所述词汇以及表征所述对象的词汇中筛选出权重值满足指定关系的目标词汇，并将所述目标词汇作为所述视频信息中包含的特征词汇。其中，权重值满足指定关系可以指：权重值大于或者等于指定权重值阈值，或者按照权重值进行排序之后，排名最靠前的预设数量个权重值。这样，通过将权重值较高的词汇作为从视频信息中识别出的特征词汇，能够更加准确地反映目标视频的内容。

S5：确定所述特征词汇组中包含的描述词汇组，并将确定的所述描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签。

在本实施方式中，在识别得到特征词汇组之后，可以判断特征词汇组中是否包含标签库中的描述词汇组，从而可以确定特征词汇组所表征的视频标签。具体地，在确定所述特征词汇组中包含的描述词汇组时，可以在所述标签库中查询与所述特征词汇组中的特征词汇相匹配的描述词汇。在一个实施方式中，可以通过计算特征词汇与描述词汇之间的相似度，来判断与特征词汇相匹配的描述词汇。具体地，针对所述特征词汇组中的当前特征词汇，可以计算所述当前特征词汇与所述标签库中各个描述词汇之间的相似度。在计算这两者之间的相似度时，可以通过词向量(wordvector)的方式来分别表示所述当前特征词汇和标签库中的描述词汇。这样，可以通过两个词向量之间的空间距离来表示这两者之间的相似度。两个词向量之间的空间距离越近，表明两者之间的相似度越高；相反地，两个词向量之间的空间距离越远，表明两者之间的相似度越低。这样，在实际应用场景中，可以将两个词向量之间的空间距离的倒数，作为当前特征词汇和标签库中的描述词汇之间的相似度。将依次计算所述当前特征词汇与各个描述词汇之间的相似度之后，可以将计算得到的最高相似度对应的描述词汇作为所述当前特征词汇在所述标签库中相匹配的描述词汇。例如，针对特征词汇“开心”而言，计算得到的最高相似度对应的描述词汇为“喜悦”，那么可以将“喜悦”作为与该特征词汇相匹配的描述词汇。当然，在实际应用中，若该最高相似度低于预设的相似度阈值，则表明该特征词汇在标签库中不存在相匹配的描述词汇。例如，计算得到的最高相似度为48％，低于预设的相似度阈值80％，则表明该特征词汇在标签库中不存在相匹配的描述词汇。

在本实施方式中，在查询出与各个特征词汇相匹配的描述词汇之后，可以判断查询得到的各个描述词汇中是否存在处于同一个目标描述词汇组中的描述词汇。若存在，可以进一步判断查询得到的所述描述词汇中处于所述目标描述词汇组中的描述词汇的数量是否达到所述目标描述词汇组中包含的描述词汇的标准数量。所述标准数量可以指在所述标签库中所述目标描述词汇组中包含的描述词汇的数量。例如，在标签库中，与视频标签“言情”相关联的描述词汇组中，共计包含了3个描述词汇，那么3便可以作为该描述词组的标准数量。只有在查询得到的所述描述词汇中处于所述目标描述词汇组中的描述词汇的数量达到所述目标描述词汇组中包含的描述词汇的标准数量后，才能将所述目标描述词汇组作为所述特征词汇组中包含的描述词汇组，并可以将所述特征词汇组中包含的描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签。举例来说，请参阅图3，查询得到的各个描述词汇中存在处于同一个目标描述词汇组中的描述词汇“感情”和“感动”，而在标签库中，该目标描述词汇组中还包括另一个描述词汇“恋爱”，因此，仅通过“感情”和“感动”是无法生成该目标描述词汇组关联的视频标签“言情”。而如果查询得到的描述词汇中还包括“恋爱”，那么“感情”、“感动”和“恋爱”便可以达到描述词汇组的标准数量，从而可以将“言情”作为所述目标视频的视频标签。

在一个实施方式中，为了更加精确地生成视频的标签，所述标签库可以预先根据视频的类型划分为多个子标签库。这样，在确定特征词汇组中包含的描述词汇时，首先可以在所述标签库中识别与所述目标视频的类型相适配的目标子标签库，然后再基于目标子标签库来进行描述词汇的匹配。具体地，可以在所述目标子标签库中查询与所述特征词汇组中的特征词汇相匹配的描述词汇，并判断查询得到的所述描述词汇中是否存在处于同一个目标描述词汇组中的描述词汇。若存在，可以进一步判断查询得到的所述描述词汇中处于所述目标描述词汇组中的描述词汇的数量是否达到所述目标描述词汇组中包含的描述词汇的标准数量。若达到，表明查询得到的描述词汇中包含标签库的目标描述词汇组中的全部描述词汇，此时可以将所述目标描述词汇组作为所述特征词汇组中包含的描述词汇组。

在一个实施方式中，考虑到生成的视频标签的数量可能会较多，可以从生成的视频标签中筛选出较精准的视频标签。具体地，可以统计当前视频标签在所述目标视频的视频标签中出现的次数，次数越多，则越能表征目标视频的内容。若统计的所述次数小于指定次数阈值，则可以将所述当前视频标签舍弃，剩下的视频标签便可以作为目标视频最终的视频标签。此外，还可以统计所述目标视频的各个视频标签在所述目标视频的视频标签中出现的次数，并按照统计的次数对所述目标视频的视频标签进行排序。例如，可以按照次数从大到小的顺序对视频标签进行排序，然后可以保留排名最靠前的预设数量个视频标签，并舍弃其余的视频标签，保留下来的视频标签可以作为目标视频最终的视频标签。

在一个实施方式中，考虑到目标视频的标题信息通常能表明目标视频的主题，那么在生成目标视频的视频标签之后，可以确定视频标签与目标视频的主题之间的关联度，从而衡量视频标签是否需要采用。具体地，首先可以通过语义识别技术，识别所述标题信息表征的语义，所述语义可以通过一个词汇或者一个短语来表示。然后，可以确定所述目标视频的各个视频标签与所述语义之间的关联度。在确定关联度时，可以通过词向量或者句向量的方式来分别表示所述目标视频的语义和生成的视频标签。这样，可以通过两个词向量之间的空间距离来表示这两者之间的关联度。两个词向量之间的空间距离越近，表明两者之间的关联度越高；相反地，两个词向量之间的空间距离越远，表明两者之间的关联度越低。这样，在实际应用场景中，可以将两个词向量/句向量之间的空间距离的倒数，作为所述目标视频的语义和生成的视频标签之间的关联度。最终，可以将确定的所述关联度小于指定关联度阈值的视频标签舍弃，剩下的视频标签便可以作为目标视频最终的视频标签。

请参阅图4，本申请还提供一种视频标签的生成装置，所述装置包括存储器和处理器，所述存储器中存储计算机程序和标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述计算机程序被所述处理器执行时，实现以下步骤：

在一个实施方式中，所述计算机程序被所述处理器执行时，还实现以下步骤：

从所述目标视频中依次提取场景切换帧，并将相邻两个场景切换帧之间的视频帧作为相同场景帧；

从所述相同场景帧对应的视频信息中识别表征所述相同场景帧的内容的多个特征词汇；其中，所述多个特征词汇构成所述相同场景帧对应的特征词汇组。

将所述语音信息转换为文字信息，并将转换得到的所述文字信息和所述字幕信息、所述标题信息作为待识别的文本；

将所述待识别的文本拆分为多个词汇，并将拆分得到的所述词汇作为所述视频信息中包含的特征词汇；

识别所述图像信息中包含的对象，并将表征所述对象的词汇作为所述视频信息中包含的特征词汇。

在所述标签库中查询与所述特征词汇组中的特征词汇相匹配的描述词汇，并判断查询得到的所述描述词汇中是否存在处于同一个目标描述词汇组中的描述词汇；

若存在，判断查询得到的所述描述词汇中处于所述目标描述词汇组中的描述词汇的数量是否达到所述目标描述词汇组中包含的描述词汇的标准数量；

若达到，将所述目标描述词汇组作为所述特征词汇组中包含的描述词汇组。

识别所述标题信息表征的语义，并确定所述目标视频的各个视频标签与所述语义之间的关联度；

将确定的所述关联度小于指定关联度阈值的视频标签舍弃。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的视频标签的生成装置，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

本申请还提供一种计算机存储介质，所述计算机存储介质中存储计算机程序和标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述计算机程序被处理器执行时，实现以下步骤：

S1：获取目标视频的视频信息，所述视频信息中包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息；

S3：根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现装置和计算机存储介质以外，完全可以通过将方法步骤进行逻辑编程来使得装置和计算机存储介质以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种装置和计算机存储介质可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对装置和计算机存储介质的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种视频标签的生成方法，其特征在于，提供有标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述方法包括：

获取目标视频的视频信息，所述视频信息中包括所述目标视频的语音信息、图像信息、字幕信息以及标题信息；

根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组，所述特征词汇组中包括用于表征所述目标视频的内容的特征词汇；

确定所述特征词汇组中包含的描述词汇组，并将确定的所述描述词汇组在所述标签库中关联的视频标签作为所述目标视频的视频标签；所述确定所述特征词汇组中包含的描述词汇组包括：在所述标签库中查询与所述特征词汇组中的特征词汇相匹配的描述词汇，并判断查询得到的所述描述词汇中是否存在处于同一个目标描述词汇组中的描述词汇；若存在，判断查询得到的所述描述词汇中处于所述目标描述词汇组中的描述词汇的数量是否达到所述目标描述词汇组中包含的描述词汇的标准数量；若达到，将所述目标描述词汇组作为所述特征词汇组中包含的描述词汇组。

2.根据权利要求1所述的方法，其特征在于，根据在所述目标视频中处于同一场景下的视频信息识别得到特征词汇组包括：

3.根据权利要求2所述的方法，其特征在于，从所述目标视频中依次提取场景切换帧包括：

在所述目标视频中确定基准帧，并依次计算所述基准帧之后的视频帧与所述基准帧之间的相似度；

若当前帧与所述基准帧之间的相似度小于或者等于指定阈值时，将所述当前帧确定为一个场景切换帧；

将所述当前帧作为新的基准帧，并依次计算所述新的基准帧之后的视频帧与所述新的基准帧之间的相似度，并根据计算的所述相似度确定下一个场景切换帧。

4.根据权利要求1或2所述的方法，其特征在于，从视频信息中识别特征词汇的步骤包括：

5.根据权利要求4所述的方法，其特征在于，在将所述待识别的文本拆分为多个词汇之后以及识别所述图像信息中包含的对象之后，所述方法还包括：

分别计算拆分得到的所述词汇的权重值以及表征所述对象的词汇的权重值，并从拆分得到的所述词汇以及表征所述对象的词汇中筛选出权重值满足指定关系的目标词汇，并将所述目标词汇作为所述视频信息中包含的特征词汇。

6.根据权利要求1所述的方法，其特征在于，在所述标签库中查询与所述特征词汇组中的特征词汇相匹配的描述词汇包括：

针对所述特征词汇组中的当前特征词汇，计算所述当前特征词汇与所述标签库中描述词汇之间的相似度；

将计算得到的最高相似度对应的描述词汇作为所述当前特征词汇在所述标签库中相匹配的描述词汇。

7.根据权利要求1所述的方法，其特征在于，所述标签库中包括多个按照视频的类型进行划分的子标签库；

相应地，确定所述特征词汇组中包含的描述词汇组包括：

在所述标签库中识别与所述目标视频的类型相适配的目标子标签库；

在所述目标子标签库中查询与所述特征词汇组中的特征词汇相匹配的描述词汇，并判断查询得到的所述描述词汇中是否存在处于同一个目标描述词汇组中的描述词汇；

8.根据权利要求1所述的方法，其特征在于，在得到所述目标视频的视频标签之后，所述方法还包括：

统计当前视频标签在所述目标视频的视频标签中出现的次数，若统计的所述次数小于指定次数阈值，将所述当前视频标签舍弃；

或者

统计所述目标视频的各个视频标签在所述目标视频的视频标签中出现的次数，并按照统计的次数对所述目标视频的视频标签进行排序；保留排名最靠前的预设数量个视频标签，并舍弃其余的视频标签。

9.根据权利要求1所述的方法，其特征在于，在得到所述目标视频的视频标签之后，所述方法还包括：

将确定的所述关联度小于指定关联度阈值的视频标签舍弃。

10.一种视频标签的生成装置，所述装置包括存储器和处理器，其特征在于，所述存储器中存储计算机程序和标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述计算机程序被所述处理器执行时，实现以下步骤：

11.根据权利要求10所述的装置，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：

12.根据权利要求10或11所述的装置，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：

13.根据权利要求10所述的装置，其特征在于，所述计算机程序被所述处理器执行时，还实现以下步骤：

将确定的所述关联度小于指定关联度阈值的视频标签舍弃。

14.一种计算机存储介质，其特征在于，所述计算机存储介质中存储计算机程序和标签库，所述标签库中包括视频标签以及所述视频标签关联的描述词汇组，所述描述词汇组中包括至少两个描述词汇，所述计算机程序被处理器执行时，实现以下步骤：