CN111368140B

CN111368140B - 一种视频标签生成方法及系统

Info

Publication number: CN111368140B
Application number: CN202010102731.2A
Authority: CN
Inventors: 孔杰
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2023-07-04
Anticipated expiration: 2040-02-19
Also published as: CN111368140A

Abstract

本发明披露一种视频标签生成方法及系统，包括构建视频标签库；根据视频标签库内标签训练多标签的图像分类模型；对待标注的视频抽取关键帧，获取每一关键帧对应时间戳，将关键帧送入训练好的图像分类模型，得到关键帧的标签向量；对得到的关键帧的标签向量进行整合，输出视频标签和标签对应的时间戳。本发明是一种带时间戳的多标签的视频标签生成方法和系统，能够对一段输入视频自动打上视频标签，并输出每个视频标签对应的在视频中的时间戳，从而得到完整精细的视频标签。

Description

一种视频标签生成方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种自动视频标签生产方法及系统。

背景技术

视频标签是指用于描述视频特征的特定短语，给视频打上标签可以帮助用户对视频内容进行快速而高效的检索。目前视频标签的生成方法主要是靠人工打标，对于在线的视频标签生成方法，主要基于对图像、视频或语音文本理解等方面入手。从图像角度出发，主要是从视频中提取帧，得到图片，然后对图片进行打标，最后将视频的图像标签进行整合，得到视频标签。从视频角度出发，主要是运用视频理解的方法得到视频标签。从语音文本角度出发，主要是先提取视频的语音或字幕等信息，运用对语音文本的分析方法得到视频标签。

现有技术的主要缺陷有：(1)人工视频标签标注耗费大量的人力，效率极低；(2)现有的在线视频标签生成方法通常是对整段视频的描述，不能精确到视频的具体时间点，不包含时间信息，不够精细；(3)基于图像的视频标签生成方法，通常训练的是单标签的分类模型，对抽取的视频帧图像进行分类得到单标签的分类结果，但实际上视频帧图像可能对应多个标签，这样生成的视频标签不完整，不能充分描述视频特征。

发明内容

本发明针对现有技术中的缺点，提供了一种带时间戳的多标签的视频标签生成方法和系统。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种视频标签生成方法，包括

构建视频标签库；

根据视频标签库内标签训练多标签的图像分类模型；

对待标注的视频抽取关键帧，获取每一关键帧对应时间戳，将关键帧送入训练好的图像分类模型，得到关键帧的标签向量；

对得到的关键帧的标签向量进行整合，输出视频标签和标签对应的时间戳。

其中，每一关键帧对应所述标签向量维度为1*N，抽取M组关键帧，将所有关键帧标签向量按行拼接，得到标签矩阵

i为关键帧编号，j为标签编号，*表示乘号；

对于标签T_j(j＝0，1，…，N-1），若存在关键帧F_i(i＝0，1，…，M-1)，使得G_ij＝1，则输出视频标签T_j，此时，对所有关键帧F_i(i＝0，1，…，M-1)，若G_ij＝1，则输出视频标签T_j对应的时间戳为t_i。

可选的，训练多标签的图像分类模型步骤包括：

收集和整理与标签库内标签类别对应的图像，打上相应的类别标签；

将卷积神经网络最后一层设置为N个全连接层，每个全连接层的输出通道为2，共2N个输出通道；

训练时对每一张输入图像的真值表示为长度为2N的向量；

计算每个batch的损失函数；

训练模型迭代至指定迭代次数或损失函数收敛至指定值；

使用训练好的图像分类模型进行预测，得到标签向量。

可选的，所述真值采用独热编码，标签为T_k的图片的真值表示为(a₀，a₁，…，a_2N-1)，其中

k为标签编号。

其中，计算第j个样本对应于标签T_i(i＝0，1，…，N-1)的损失函数：

式中，/>

分别表示第j个样本第2i个通道的真值和输出值，/>

分别表示第j个样本第2i+1个通道的真值和输出值(i＝0，1，…，N-1)；

计算每个batch的损失函数为：

式中，BS表示batchsize。

其中，使用训练好的图像分类模型进行预测，具体步骤如下：

输入待预测的关键帧至训练好的分类模型，模型输出2N个输出值分别为y₀，y₁，…，y_2N-1；

对输出值做sigmoid运算得到待预测的图像属于每一个类别标签的概率分别为p₀，p₁，…，p_N-1，其中

对p₀，p₁，…，p_N-1进行阈值判断，得到标签向量为G＝(b₀，b₁，…，b_N-1)，其中

其中ths为标签阈值。

本发明还披露一种视频标签生成系统，包括：

输入端，输入待打标视频；

输出端，输出视频标签和每个视频标签对应在视频中的时间戳；

处理模块，连接输入端和输出端，包括图像分类模型和时间获取模块，图像分类模型用于对视频打标，时间获取模块用于获取每个标签对应时间。

本发明还披露一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述视频标签生成方法。

本发明还披露一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述视频标签生成方法。

本发明的有益效果：

1、本发明能够对一段输入视频自动打上视频标签；

2、输出的视频标签带有对应的在视频中的时间戳，从而得到完整精细的视频标签，更利于视频内容检索；

3、本发明方法输出的视频标签为多标签，对视频特征描述更充分、具体。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明视频标签生成方法流程图；

图2是实施例中待标注视频关键帧时间关系示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

如图1是视频标签生成方法流程图，步骤如下：

步骤1：构建视频标签库；

步骤2：根据视频标签库内标签训练多标签的图像分类模型；

步骤3：对待标注的视频抽取关键帧，获取每一关键帧对应时间戳，将关键帧送入训练好的图像分类模型，得到关键帧的标签向量；

步骤4：对得到的关键帧的标签向量进行整合，输出视频标签和标签对应的时间戳。

具体的：

步骤1：构建视频标签库，规定视频标签的标签类别，分别计为T_i(i＝0，1，…，N-1)，其中N为标签库内标签的数量。

本实施例中，构建的视频标签库为：“云海”,“山”,“日出日落”,“星空”,“梯田”,“沙漠”,“水域”,“瀑布”,“竹林”,“雪景”,“兰花”,“塔”,“桥梁”,“樱花”,“熊猫”,“菊花”,“银杏”,“向日葵”,“枫树”,“梅花”,“油菜花”,“荷花”,“郁金香”等。其中构建的标签库类型越多，打标越精准，本实施例以景观作为标签库，可选的在其他实施例中可以有其他各类标签。

步骤2：训练多标签的图像分类模型，具体步骤如下：

(1)收集和整理与标签库内标签类别对应的图片，打上相应的类别标签，每类图片不宜少于5000张；

(2)图像分类模型采用基础的Resnet18网络，将网络最后一层的单个全连接层改为N个全连接层，每个全连接层的输出通道为2，共2N个输出通道；

(3)训练时对每一张输入图片的真值表示为长度为2N的向量，并采用独热编码，标签为T_k的图片的真值表示为(a₀，a₁，…，a_2N-1)，其中

(4)计算每个batch的损失函数，具体步骤为：

I.计算第j个训练样本对应于标签T_i(i＝0，1，…，N-1)的损失函数：

式中，/>

分别表示第j个样本第2i个通道的真值和输出值，/>

分别表示第j个样本第2i+1个通道的真值和输出值(i＝0，1，…，N-1)。

II.计算每个batch的损失函数为：

式中，BS表示batchsize。

(5)训练模型迭代至指定迭代次数或损失函数收敛至指定值。

(6)利用训练好的分类模型进行预测，具体步骤如下：

I.输入待预测的图像至训练好的分类模型，模型输出2N个输出值分别为y₀，y₁，…，y_2N-1；

II.对输出值做sigmoid运算得到待预测的图像属于每一个类别标签的概率分别为p₀，p₁，…，p_N-1，其中

III.对p₀，p₁，…，p_N-1进行阈值判断，得到标签向量为G＝(b₀，b₁，…，b_N-1)，其中

其中ths为标签阈值，本实施例中ths＝0.6。

步骤3：对待标注的视频抽取关键帧，得到关键帧图像F_i(i＝0，1，…，M-1)，关键帧对应的时间戳分别为t_i(i＝0，1，…，M-1)，其中，M为抽取的关键帧总帧数。将每一帧的图像送入步骤2中训练好的多标签图像分类模型，得到关键帧F_i的标签向量为

步骤4：对关键帧标签向量进行处理，得到待标注视频的视频标签和对应的时间戳，具体步骤为：

(1)将步骤3中得到的M帧标签向量按行拼接，得到视频标签矩阵

i为关键帧编号，j为标签编号；

(2)对于标签T_j(j＝0，1，…，N-1)，若存在关键帧F_i(i＝0，1，…，M-1)，使得G_ij＝1，则输出视频标签T_j，此时，对所有关键帧F_i(i＝0，1，…，M-1)，若G_ij＝1，则输出视频标签T_j对应的时间戳为t_i。

实施例2:

一种视频标签生成系统，包括：

输入端，输入待打标视频；

有待标注视频输入视频标签生成系统，输出结果为:

视频标签	时间戳
		山	00:00:07
水域	00:00:05、00:00:12、00:00:41、00:00:45
		塔	00:00:34

如图2，实施例中待标注视频关键帧时间关系为：视频关键帧1(时间戳00:00:05)，视频关键帧2(时间戳00:00:07)，视频关键帧3(时间戳00:00:12)，视频关键帧4(时间戳00:00:34)，视频关键帧5(时间戳00:00:41)，视频关键帧6(时间戳00:00:45)。对比上表输出结果可知，本系统生成的视频标签带有时间戳信息，更加精细，更利于视频内容检索；输出的视频标签为多标签，对视频特征描述更充分、具体。

本发明实施例还提供一种计算机存储介质，包括指令，执行上述方法步骤。具体的各个步骤之间的执行顺序详见上述实施例，本申请在此不再赘述。

本发明实施例还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，该计算机执行指令存储在计算机可读存储介质中；至少一个处理器执行该计算机执行指令使得上述实施例的方法步骤执行。需要说明的是，上述步骤的具体执行顺序可以参见上述实施例中的描述，本申请在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。