CN111813996B

CN111813996B - 基于单帧和连续多帧抽样并行的视频搜索方法

Info

Publication number: CN111813996B
Application number: CN202010713098.0A
Authority: CN
Inventors: 梁敏
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-03-01
Anticipated expiration: 2040-07-22
Also published as: CN111813996A

Abstract

本发明公开了一种基于单帧和连续多帧抽样并行的视频搜索方法，包括：训练多路神经网络；将待搜索视屏按时序分堆处理为多个视频堆，对每个视频堆的帧随机连续采样得到若干帧，得到堆采样视频数据集，再对每个视屏堆分别进行随机图像帧采样，每个视屏堆随机采样获取一个单帧，得到单帧采样视屏数据集；将所述堆采样视频数据集和单帧采样视屏数据集分别输入到所述多路神经网络中进行堆采样特征向量的获取以及单帧采样特征向量的获取，并利用该多路神经网络将提取的图像特征向量抽取得到最终的视频特征进行视频搜索；本发明可提高视频搜索的准确性。

Description

基于单帧和连续多帧抽样并行的视频搜索方法

技术领域

本发明涉及人工智能计算机视觉处理技术领域，特别是一种基于单帧和连续多帧抽样并行的视频搜索方法。

背景技术

随着传统实体经济越来越智能化，人们开始不断使用快速发展的互联网技术，以此来提高日常的生活品质。视频搜索作为智能终端目前的主要功能之一，在现实中的使用频率越来越高，而对于视频的搜索多基于文字信息和图片信息。针对图片信息的神经网络结构中，依赖单帧的神经网络搜索的网络越来越多，但是当前网络的效果并不好，搜索系统在进行图像特征提取时，所使用的单帧内容采样零散随机，并没有覆盖整个视频，因此丢失了较多的信息，使得网络本身对于本身视频信息的获取有偏差。

现有利用神经网络依赖提取图像帧特征来搜索视频的方法，在采样时均是采集一定数量的图像帧，再将它们作为单帧考虑成独立的图片来提取共同特征，再去和目标视频进行比对后确定搜索对象。这种方法有两个问题：首先，采样图像帧时，采样间隔过大，或是帧数采集数量过少，都会导致模型本身对于原视频的特征捕获不够准确，对图像之间相关性较强的部分不能有效捕捉。其次，目前方法提取的特征较少，比较适应采样的图像帧局部特征有微小变化的情况，相对的容错率较低，对于图像特征的提取和统计都容易产生一定的偏差。图像特征的提取效果直接影响视频识别的效率，所以目前的方案缺陷降低了视频搜索的准确率。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种基于单帧和连续多帧抽样并行的视频搜索方法，首先对视频流采样，采样方式分为堆采样和单帧采样两种；单帧采样以单个图像帧为采样输出(RGB图像)，表示视频中某一帧的静态信息；堆采样是以单帧为基准，采样时序连续的多帧图像(RGB)堆叠在一起为输入；将两路采样数据的特征向量，分别输入到神经网络训练，将提取的图像特征向量抽取得到最终的视频特征进行视频搜索，提高视频搜索的准确性。

为实现上述目的，本发明采用的技术方案是：一种基于单帧和连续多帧抽样并行的视频搜索方法，包括：

训练多路神经网络；

将待搜索视屏按时序分堆处理为多个视频堆，对每个视频堆的帧随机连续采样得到若干帧，得到堆采样视频数据集，再对每个视屏堆分别进行随机图像帧采样，每个视屏堆随机采样获取一个单帧，得到单帧采样视屏数据集；

将所述堆采样视频数据集和单帧采样视屏数据集分别输入到所述多路神经网络中进行堆采样特征向量的获取以及单帧采样特征向量的获取，并利用该多路神经网络将提取的图像特征向量抽取得到最终的视频特征进行视频搜索。

作为一种优选的实施方式，训练多路神经网络具体包括以下步骤：

数据的随机采样，按间隔将数据分为多堆进行数据采样，将基于单帧和连续多帧抽样取样的数据放到接下来每一路神经网络之中进行特征向量提取；

将每一堆数据都放入一路神经网络之中，训练提取特征的卷积层，一路神经网络有多个由残差模块组成的卷积层，最终将由卷积层提取出一定的相应特征；

对于每一路神经网络，最后将接入一个全连接层，对于输入的特征图进行一定程度地分类，最后得出该视频在各种类上的得分；

对于每一路上相关神经网络得分，对于它们求和，再平均，得出最后的一个得分类别，当最高得分比其他类别高0.1以上时，将该类别作为当前类别，当最高得分与次高得分差别不及0.1的时候，将原模型类别设定为最高和次高类别，重新进行训练，此后，选定最后得出的类别作为该类别；

对于判定出类别的整个模型，判断正确记为0，错误记为1；以此作为损失函数进行整个模型的判定。

作为另一种优选的实施方式，还包括对多路神经网络进行验证，具体包括以下步骤：

对于作为验证的视频，将其分成多堆，将每堆视屏放进一路神经网络之中；

将每堆视屏对应得到的分类得分进行总的平均，最终平均多路的结果，最终得出来分类结果最高的类别，直接作为视频最终的分类结果；

将视频下该类别与之特征图最为相似的结果，选择该视频作为视频搜索的结果。

作为另一种优选的实施方式，在堆采样特征向量获取中，多路神经网络采用二值法对每个帧提取特征向量，具体包括：

首先将检测窗口划分为多个小区域；

对于每个小区域的像素，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0；得到该窗口中心像素点的数据；

计算每个小区域的直方图，即每个数字出现的频率；

将每个小区域的直方图统计后生成一个特征向量，也就是整幅图的特征向量；

获取每个堆的连续多帧特征向量，即为堆采样特征向量。

作为另一种优选的实施方式，多路神经网络将提取的图像特征向量抽取得到最终的视频特征具体包括：

在连续多帧数据处理时，对多个特征向量的数据进行网络训练，对特征向量进行特征降维，压缩数据和参数的数量；把图像单堆的特征向量转化为线性矩阵，采用多路神经网络进行训练，通过线性变换将高维空间中的样本数据投影到低维空间中，丢弃某些特征，统合每一个堆特征数据的抽取特征，再对提取的特征值全连接进行最终的分类确认。

本发明的有益效果是：

本发明通过基于单帧和连续多帧抽样并行的方法，可以优化基于单帧的神经网络的特征提取方法，同时本方法依据的核心是随机采样，所以该模型有着对整个视频特征有着更好的拟合能力；通过本发明，可以完成绝大部分实际生活中的多媒体资源推荐并且更好地优化用户体验。

附图说明

图1为本发明实施例中提取特征数据的神经网络结构示意图；

图2为本发明实施例中每一路神经网络的内部结构示意图；

图3为本发明实施例中特征数据的抽取示意图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例

本实施例视频搜索的数据集将采用Youtube-8M数据集，主要利用其中的视频资源。首先对数据集进行术语说明：

训练集：指的是用于训练的样本集合，用来训练对应的神经网络中的参数。

验证集：验证对应网络模型的数据集合。网络在训练集上训练结束后,通过数据集来比较判断网络模型的性能。

测试集：对于训练完成的网络，检测评价神经网络的性能。

如图1-图3所示，一种基于单帧和连续多帧抽样并行的视频搜索方法，包括：

视频数据采集：

采用完整的公开数据集作为数据样本。适用完整的数据集作为测试机，将样本按照8：1：1的比例随机裁剪，分为训练集，验证集和测试集。

数据的随机采样：

1)按间隔进行数据采样：

例如：对于25分钟视频之中的原连续的若干帧，按间隔为5分钟提取出若干帧数。从而将原视频的连续帧划分成5个堆，抽样成5个连续的帧数堆。

2)将基于单帧和连续多帧抽样取样的数据放到接下来每一路网络之中进行特征提取。

多路神经网络的训练：

1)将每一堆数据都放入一路神经网络之中，训练提取特征的卷积层。如图2所示，本实施例中一路神经网络有4个由残差模块组成的卷积层，最终将由卷积层提取出一定的相应特征。

2)对于每一路神经网络，最后将接入一个全连接层，对于输入的特征图进行一定程度地分类。最后得出一路视频所得出的该视频在各种类上的得分问题。(例如视频A在动作类别0.1，爱情类别0.2，…最终得分总和为1分)

3)对于每一路上相关神经网络得分，对于它们求和，再平均。得出最后的一个得分类别。当最高得分比其他类别高0.1以上时，将该类别作为当前类别。当最高得分与次高得分差别不及0.1的时候，将原模型类别设定为最高和次高类别，重新进行训练。此后，选定最后得出的类别作为该类别。

4)对于判定出类别的整个模型，判断正确记为0，错误记为1。以此作为损失函数进行整个模型的判定。

多路神经网络的验证：

1)对于作为验证的视频，将其一样分成多堆。之后每堆放进一路神经网络之中。

2)将每堆对应得到的分类得分进行总的平均，最终平均多路的结果。最终得出来分类结果最高的类别，直接作为视频最终的分类结果。

3)将视频下该类别与之特征图最为相似的结果，选择该视频作为视频搜索的结果。

堆采样特征向量的获取：

对给定视频使用固定时间间隔将视频流分成N段，每段的时长不一定相等，每一段为一个堆，也就是将视频流数据集分成若干堆。这些堆的并集可以组成完整的堆数据集，同时彼此之间相互独立。

再对每个视频堆的帧随机连续采样得到若干帧，得到堆采样视频数据集。将它们放到每一路神经网络之中进行特征提取，获取堆采样特征向量。

神经网络采用二值法对每个帧提取特征向量：

(1)首先将检测窗口划分为多个小区域(比如像素值3×3)；

(2)对于每个小区域的像素，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0；得到该窗口中心像素点的数据；

(3)计算每个小区域的直方图，即每个数字出现的频率；

(4)将每个小区域的直方图统计后生成一个特征向量，也就是整幅图的特征向量；

(5)连续多帧图像的特征向量获取：比如一个堆有5帧图像，每帧提取的特征向量为1列，5帧即为5个特征向量。获取每个堆的连续多帧特征向量，即为堆采样特征向量。

单帧采样特征向量获取：

对给定视频的每个堆分别进行随机图像帧采样，每个堆随机采样获取1个单帧，采集图像帧的特征向量，获取多个堆的单帧特征向量，即为单帧采样特征向量数据集。

特征数据的抽取：

参考单帧的特征向量为N维；在连续多帧数据处理时，考虑帧与帧之间的相关性，对多个特征向量的数据进行网络训练，对特征向量进行特征降维，压缩数据和参数的数量。网络训练的函数输入是从K个不同的线性函数得到的结果，而样本向量x属于第j个分类的概率为：

实际提取是把图像单堆的特征向量转化为线性矩阵，采用多路神经网络进行训练，通过线性变换将高维空间中的样本数据投影到低维空间中，丢弃某些特征，更加精确进行特征抽取。如图3所示，统合每一个堆特征数据的抽取特征(结果取均值)，再对提取的特征值全连接进行最终的分类确认。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于单帧和连续多帧抽样并行的视频搜索方法，其特征在于，包括：

训练多路神经网络；

将待搜索视频按时序分堆处理为多个视频堆，对每个视频堆的帧随机连续采样得到若干帧，得到堆采样视频数据集，再对每个视频堆分别进行随机图像帧采样，每个视频堆随机采样获取一个单帧，得到单帧采样视频数据集；

将所述堆采样视频数据集和单帧采样视频数据集分别输入到所述多路神经网络中进行堆采样特征向量的获取以及单帧采样特征向量的获取，并利用该多路神经网络将提取的图像特征向量抽取得到最终的视频特征进行视频搜索；

训练多路神经网络具体包括以下步骤：

2.根据权利要求1所述的基于单帧和连续多帧抽样并行的视频搜索方法，其特征在于，还包括对多路神经网络进行验证，具体包括以下步骤：

对于作为验证的视频，将其分成多堆，将每堆视频放进一路神经网络之中；

将每堆视频对应得到的分类得分进行总的平均，最终平均多路的结果，最终得出来分类结果最高的类别，直接作为视频最终的分类结果；

3.根据权利要求1所述的基于单帧和连续多帧抽样并行的视频搜索方法，其特征在于，在堆采样特征向量获取中，多路神经网络采用二值法对每个帧提取特征向量，具体包括：

首先将检测窗口划分为多个小区域；

计算每个小区域的直方图，即每个数字出现的频率；

获取每个堆的连续多帧特征向量，即为堆采样特征向量。

4.根据权利要求1所述的基于单帧和连续多帧抽样并行的视频搜索方法，其特征在于，多路神经网络将提取的图像特征向量抽取得到最终的视频特征具体包括：