CN114329060A

CN114329060A - 基于神经网络模型的视频帧多标签自动生成方法及系统

Info

Publication number: CN114329060A
Application number: CN202111601273.8A
Authority: CN
Inventors: 王晶
Original assignee: Space Shichuang Chongqing Technology Co ltd
Current assignee: Space Shichuang Chongqing Technology Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本发明属于视频标签生成领域，尤其涉及基于神经网络模型的视频帧多标签自动生成方法及系统，其中方法包括：获取待处理的目标视频文件；从所述目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录；根据抽取的视频帧进行预处理，并将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征；将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合；返回目标视频文件的多标签集合和抽取记录。本发明能够解决视频帧多标签分类生成问题。

Description

基于神经网络模型的视频帧多标签自动生成方法及系统

技术领域

本发明属于视频标签生成领域，尤其涉及基于神经网络模型的视频帧多标签自动生成方法及系统。

背景技术

随着短视频形式的兴起与发展，短视频时常活跃用户不断攀升，且用户使用时长不断增长，因此，如何根据短视频内容自动生成标签以做到更精准的视频推荐变得尤为重要，而根据短视频内容自动生成标签属于视频帧多标签分类的领域的问题。

在现有的计算机视觉领域中，主要采用图像二分类和多分类的方法，但这些方法主要用于单标签分类生成，而视频帧中的标签通常属于多个不同的类别，使用图像二分类和多分类的方法对视频帧中的场景进行标签识别时，常会出现存在感较低的标签，即该标签在视频帧中出现场景较少或者因为视频帧中的场景遮挡造成该标签并不明显，而图像二分类和多分类的方法常将该类存在感较低的标签反馈给用户，造成视频帧标签集合繁多且不准确的问题。

发明内容

本发明所解决的技术问题在于提供一种基于神经网络模型的视频帧多标签自动生成方法及系统，用以解决现有技术中针对视频帧多标签分类生成集合中标签种类繁多且不准确的问题。

本发明提供的基础方案一：基于神经网络模型的视频帧多标签自动生成方法，包括：

获取待处理的目标视频文件；

从所述目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录；

根据抽取的视频帧进行预处理，并将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征；

将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合；

返回目标视频文件的多标签集合和抽取记录。

本发明提供的基础方案一的原理及优点在于：在相关技术中，面对视频帧多标签分类生成问题，现有的图像二分类法和多分类法常将存在感较低的标签反馈给用户，造成视频帧标签集合繁多且不准确的问题。

因此，为解决相关技术中存在的问题，本发明首先获取需要进行多标签分类生成的目标视频文件，将获取的目标视频文件根据预设的视频抽帧间隔值进行抽取视频帧，并对抽取完成的视频帧进行预处理，随后传输至训练好的神经网络模型中，提取出多维度的帧级特征，随后将提取出的多维度帧级特征传输至神经网络模型中的全连接层，提取出类别置信度，根据提取出的类别置信度与预设的标签阈值进行对比，生成相对应的标签集合，最后返回输出的多标签集合和抽取视频帧的记录。因此，本发明的优点在与：(1)通过神经网络模型进行多标签类别生成，实现自主学习功能，能够不断丰富视频帧的标签集合；(2)面对视频场景繁杂的情况，通过神经网络模型进行识别，输出类别置信度，与标签的预设阈值进行比对，进而判断出标签类型，能够有效解决现有技术针对视频帧多标签分类生成集合中标签种类繁多且不准确的问题。

进一步，所述从所述目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录包括：

检查目标视频文件是否为有效视频格式，若视频格式无效，则重新获取待处理的目标视频文件；

根据用户主观意识设置目标视频文件的视频抽帧间隔值；

将有效格式的目标视频文件根据设置的视频抽帧间隔值抽取视频帧，并记录对应的帧号和时间。

有益效果：检查目标视频文件是否为有效格式，按照用户的主要意识设置视频抽帧间隔值，能够避免出现视频抽帧错误的情况出现，将抽取的视频帧的帧号和时间记录下来，便于用户后期查询视频帧标签的分布情况。

进一步，所述根据抽取的视频帧进行预处理，并将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征包括：

构建和训练注意力驱动的神经网络模型，并加载出N个类别标签；

将提取的视频帧进行裁剪、压缩以及归一化处理；

将处理后的视频帧传输至训练完成的神经网络模型，提取出多维度帧级特征。

有益效果：通过构建和训练基于注意力驱动的神经网络模型，将预处理好的视频帧传输至神经网络模型，进而提取出视频帧的多维度帧级特征，便于根据帧级特征获取类别置信度，从而生成视频帧的标签。

进一步，所述将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合包括：

将多维度帧级特征接入神经网络模型中的全连接层，得到Y个类别置信度，将Y个类别置信度与预设的标签阈值进行对比，获取类别置信度大于预设的标签阈值的对应标签；

重复获取目标视频文件的视频帧中多维度帧级特征的类别置信度对应的标签，并生成多标签集合。

有益效果：通过帧级特征获取类别置信度，从而得到关于视频帧的标签，并将视频帧的标签生成多标签集合，便于用户获取查看目标视频的多标签情况。

本发明提供的基础方案二：基于神经网络模型的视频帧多标签自动生成系统，包括：

视频获取模块：用于获取待处理的目标视频文件；

视频抽帧模块：用于从所述的目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录；

预处理模块：将抽取的视频帧进行预处理；

帧级特征提取模块：将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征；

置信度获取模块：用于将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合；

返回模块：返回目标视频文件的多标签集合和抽取记录。

本发明提供的基础方案二的原理及优点在于：在相关技术中，面对视频帧多标签分类生成问题，现有的图像二分类法和多分类法无法被有效的运用在视频帧多标签分类生成问题上，主要原因在于是频场景复杂，类别繁多，不同视频标签场景中互相遮挡和影响。

因此，为解决相关技术中存在的问题，本发明首先通过视频获取模块获取需要进行多标签分类生成的目标视频文件，将获取的目标视频文件通过视频抽帧模块根据预设的视频抽帧间隔值进行抽取视频帧，并预处理模块对抽取完成的视频帧进行预处理，随后通过帧级特征提取模块传输至训练好的神经网络模型中，提取出多维度的帧级特征，随后将提取出的多维度帧级特征通过置信度获取模块传输至神经网络模型中的全连接层，提取出类别置信度，根据提取出的类别置信度与预设的标签阈值进行对比，生成相对应的标签集合，最后通过返回模块返回输出的多标签集合和抽取视频帧的记录。因此，本发明的优点在与：(1)通过神经网络模型进行多标签类别生成，实现自主学习功能，能够不断丰富视频帧的标签集合；(2)面对视频场景繁杂的情况，通过神经网络模型进行识别，输出类别置信度，进而判断出标签类型，能够有效解决视频帧多标签分类生成的问题。

进一步，所述视频抽帧模块预设有视频抽帧间隔值，所述视频抽帧模块包括判断模块和记录模块，所述判断模块用于判断目标视频文件是否为有效视频格式，所述记录模块用于将有效格式的目标视频文件根据设置的视频抽帧间隔值抽取视频帧，并记录对应的帧号和时间。

有益效果：通过判断模块检查目标视频文件是否为有效格式，通过视频抽帧模块按照用户的主要意识设置视频抽帧间隔值，能够避免出现视频抽帧错误的情况出现，通过记录模块将抽取的视频帧的帧号和时间记录下来，便于用户后期查询视频帧标签的分布情况。

进一步，所述预处理包括裁剪、压缩以及归一化处理；所述帧级特征提取模块中包括神经网络建模模块和提取模块，所述神经网络建模模块用于构建和训练注意力驱动的神经网络模型，并加载出N个类别标签，所述提取模块用于将处理后的视频帧传输至训练完成的神经网络模型，提取出多维度帧级特征。

有益效果：通过神经网络建模模块构建和训练基于注意力驱动的神经网络模型，通过提取模块将预处理好的视频帧传输至神经网络模型，进而提取出视频帧的多维度帧级特征，便于根据帧级特征获取类别置信度，从而生成视频帧的标签。

进一步，所述置信度获取模块中将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合具体为：

附图说明

图1为本发明实施例的流程框图；

图2为本发明实施例的原理框图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明，同时，虽然在实施例中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或所描述的步骤。

下面通过具体实施方式进一步详细说明：

实施例基本如附图1所示：基于神经网络模型的视频帧多标签自动生成方法，包括：

步骤一：获取待处理的目标视频文件。

在本实施例中，主要用于获取待多标签分类生成的视频文件，我们在日常所浏览的视频或者电影中，所包含的标签达到十万级甚至百万级，若通过图像分类的方法进行视频标签分类生成，一方面对时间成本和硬件负荷的要求都是极大的，另一方面视频场景繁杂，场景之间互相遮挡和影响，不利于准确的标签生成，因此，本发明目的在于解决视频帧多标签分类难以生成的问题。

步骤二：从所述目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录。

在步骤二中，还包括：

根据用户主观意识设置目标视频文件的视频抽帧间隔值；

在本实施例中，根据获取的目标视频文件，一方面需要进行视频格式检查，另一方面需要进行帧级划分，首先对视频格式进行检查，视频格式包括MPEG、AVI、3GP、MP4等格式，在本实施例中选择MPEG的视频格式，若获取的目标视频文件的视频格式不为MPEG，则重新获取正确的视频格式的目标视频文件，或者通过格式转换工具进行视频格式的转换，本实施例不做详细描述；对于帧级划分，主要依靠用户的主要意识来设置视频抽帧间隔值，在本实施例中，视频抽帧间隔值为5帧，将一个完整的视频按照每5帧进行抽帧处理，低于5帧的部分按照实际帧数直接获取，视频抽帧完成后，记录下对应的视频帧号和时间，便于视频帧多标签分类生成完成后用户可以查看详细情况。

步骤三：根据抽取的视频帧进行预处理，并将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征。

其中，步骤三包括：

将提取的视频帧进行裁剪、压缩以及归一化处理；

在本实施例中，首先构建和训练注意力驱动的神经网络模型，在本实施例中，选取注意力驱动的动态图卷积网络模型，其包括语义注意模块和动态GCN模块，语义注意模块内设有具有内容感知的类别表示V，语义注意模块接收一组具有标签样本的动态特征图，每个类别表示V都会从动态特征图中描述与特定标签有关的内容，具体为，语义注意模块首先计算特定类别的激活映射M，然后使用M将转换后的特征映射X转换为可感知内容的类别表示V；动态GCN模块接收语义注意模块中的内容感知类别表示V，并自适应地变换V的相干相关性，最终进行标签的分类。

因此，在构建好注意力驱动的动态图卷积网络模型后，将提取的视频帧进行预处理，预处理包括裁剪、压缩及归一化处理，首先将视频帧进行裁剪，将视频帧中的无效视频帧裁剪掉，例如黑屏部分，随后将裁剪好的视频帧进行压缩，压缩完成的视频帧进行归一化处理，具体为，将视频帧中的音频数据的峰值标准化，将音频最大值调到特定的大小，其余值进行相应的增或者减，使得音频大小保持一致。

最后将预处理好的视频帧传输至训练好的动态图卷积网络模型中进行多维度的帧级特征提取，具体为，首先将经过抽帧处理和预处理的视频帧采用汉明窗以平滑每帧视频的边缘，即：

接着，进行FFT处理ω[H_i]得到帧级信号P_i：

其中，N_size表示FFT分析的长度，ω[H_i]表示第i帧的信号。

最终对视频帧取对数操作：

x_i＝log P_i

即视频帧可被提取成特征x＝(x₁，…x_i)^T。

步骤三：将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合。

其中，在步骤三中包括：

在本实施例中，将提取出的帧级特征接入动态图卷积网络模型的全连接层中，获取类别置信度，即全连接层的最后一层输出值的数量为类别数目，称该输出值为logits，如下式所示：

logits＝(θ_i)，0≤i≤N

其中N为类别标签数目；

得到logits之后，利用Sigmoid激活函数进行激活值计算，Sigmoid激活函数得到的激活值即视为N个类别的置信度，Sigmoid激活函数如下式所示：

通过上式获取到所有类别的置信度后，通过设定一个阈值τ，选定所有大于阈值τ的f(x)对应的类别的标签；在本实施例的其他实施例中，还通过对比的方式决定位置i是否有标签，具体为，对所有位置的置信度进行从大到小的方式排序，然后选定前K个f(x)对应的类别的标签。

步骤四：返回目标视频文件的多标签集合和抽取记录。

如图2所示，在本实施例的另一实施例中，还包括基于神经网络模型的视频帧多标签自动生成系统，包括：

视频获取模块：用于获取待处理的目标视频文件；

视频抽帧模块：用于从所述的目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录；视频抽帧模块预设有视频抽帧间隔值，视频抽帧模块包括判断模块和记录模块，判断模块用于判断目标视频文件是否为有效视频格式，记录模块用于将有效格式的目标视频文件根据设置的视频抽帧间隔值抽取视频帧，并记录对应的帧号和时间；

预处理模块：将抽取的视频帧进行预处理；预处理包括裁剪、压缩以及归一化处理；

帧级特征提取模块：将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征；帧级特征提取模块中包括神经网络建模模块和提取模块，神经网络建模模块用于构建和训练注意力驱动的神经网络模型，并加载出N个类别标签，提取模块用于将处理后的视频帧传输至训练完成的神经网络模型，提取出多维度帧级特征；

置信度获取模块：用于将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合；置信度获取模块中将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合具体为：

返回模块：返回目标视频文件的多标签集合和抽取记录。

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于神经网络模型的视频帧多标签自动生成方法，其特征在于：包括：

获取待处理的目标视频文件；

返回目标视频文件的多标签集合和抽取记录。

2.根据权利要求1所述的基于神经网络模型的视频帧多标签自动生成方法，其特征在于：所述从所述目标视频文件中根据预设的视频抽帧间隔值抽取视频帧，并生成抽取记录包括：

根据用户主观意识设置目标视频文件的视频抽帧间隔值；

3.根据权利要求1所述的基于神经网络模型的视频帧多标签自动生成方法，其特征在于：所述根据抽取的视频帧进行预处理，并将预处理的视频帧传输至神经网络模型中，提取出多维度帧级特征包括：

将提取的视频帧进行裁剪、压缩以及归一化处理；

4.根据权利要求1所述的基于神经网络模型的视频帧多标签自动生成方法，其特征在于：所述将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合包括：

5.基于神经网络模型的视频帧多标签自动生成系统，其特征在于：包括：

视频获取模块：用于获取待处理的目标视频文件；

预处理模块：将抽取的视频帧进行预处理；

返回模块：返回目标视频文件的多标签集合和抽取记录。

6.根据权利要求5所述的基于神经网络模型的视频帧多标签自动生成系统，其特征在于：所述视频抽帧模块预设有视频抽帧间隔值，所述视频抽帧模块包括判断模块和记录模块，所述判断模块用于判断目标视频文件是否为有效视频格式，所述记录模块用于将有效格式的目标视频文件根据设置的视频抽帧间隔值抽取视频帧，并记录对应的帧号和时间。

7.根据权利要求5所述的基于神经网络模型的视频帧多标签自动生成系统，其特征在于：所述预处理包括裁剪、压缩以及归一化处理；所述帧级特征提取模块中包括神经网络建模模块和提取模块，所述神经网络建模模块用于构建和训练注意力驱动的神经网络模型，并加载出N个类别标签，所述提取模块用于将处理后的视频帧传输至训练完成的神经网络模型，提取出多维度帧级特征。

8.根据权利要求5所述的基于神经网络模型的视频帧多标签自动生成系统，其特征在于：所述置信度获取模块中将提取的多维度帧级特征经过神经网络模型中的全连接层获取类别置信度，并根据类别置信度生成多标签集合具体为：