CN111813996B - 基于单帧和连续多帧抽样并行的视频搜索方法 - Google Patents

基于单帧和连续多帧抽样并行的视频搜索方法 Download PDF

Info

Publication number
CN111813996B
CN111813996B CN202010713098.0A CN202010713098A CN111813996B CN 111813996 B CN111813996 B CN 111813996B CN 202010713098 A CN202010713098 A CN 202010713098A CN 111813996 B CN111813996 B CN 111813996B
Authority
CN
China
Prior art keywords
video
sampling
pile
neural network
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010713098.0A
Other languages
English (en)
Other versions
CN111813996A (zh
Inventor
梁敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202010713098.0A priority Critical patent/CN111813996B/zh
Publication of CN111813996A publication Critical patent/CN111813996A/zh
Application granted granted Critical
Publication of CN111813996B publication Critical patent/CN111813996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单帧和连续多帧抽样并行的视频搜索方法,包括:训练多路神经网络;将待搜索视屏按时序分堆处理为多个视频堆,对每个视频堆的帧随机连续采样得到若干帧,得到堆采样视频数据集,再对每个视屏堆分别进行随机图像帧采样,每个视屏堆随机采样获取一个单帧,得到单帧采样视屏数据集;将所述堆采样视频数据集和单帧采样视屏数据集分别输入到所述多路神经网络中进行堆采样特征向量的获取以及单帧采样特征向量的获取,并利用该多路神经网络将提取的图像特征向量抽取得到最终的视频特征进行视频搜索;本发明可提高视频搜索的准确性。

Description

基于单帧和连续多帧抽样并行的视频搜索方法
技术领域
本发明涉及人工智能计算机视觉处理技术领域,特别是一种基于单帧和连续多帧抽样并行的视频搜索方法。
背景技术
随着传统实体经济越来越智能化,人们开始不断使用快速发展的互联网技术,以此来提高日常的生活品质。视频搜索作为智能终端目前的主要功能之一,在现实中的使用频率越来越高,而对于视频的搜索多基于文字信息和图片信息。针对图片信息的神经网络结构中,依赖单帧的神经网络搜索的网络越来越多,但是当前网络的效果并不好,搜索系统在进行图像特征提取时,所使用的单帧内容采样零散随机,并没有覆盖整个视频,因此丢失了较多的信息,使得网络本身对于本身视频信息的获取有偏差。
现有利用神经网络依赖提取图像帧特征来搜索视频的方法,在采样时均是采集一定数量的图像帧,再将它们作为单帧考虑成独立的图片来提取共同特征,再去和目标视频进行比对后确定搜索对象。这种方法有两个问题:首先,采样图像帧时,采样间隔过大,或是帧数采集数量过少,都会导致模型本身对于原视频的特征捕获不够准确,对图像之间相关性较强的部分不能有效捕捉。其次,目前方法提取的特征较少,比较适应采样的图像帧局部特征有微小变化的情况,相对的容错率较低,对于图像特征的提取和统计都容易产生一定的偏差。图像特征的提取效果直接影响视频识别的效率,所以目前的方案缺陷降低了视频搜索的准确率。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种基于单帧和连续多帧抽样并行的视频搜索方法,首先对视频流采样,采样方式分为堆采样和单帧采样两种;单帧采样以单个图像帧为采样输出(RGB图像),表示视频中某一帧的静态信息;堆采样是以单帧为基准,采样时序连续的多帧图像(RGB)堆叠在一起为输入;将两路采样数据的特征向量,分别输入到神经网络训练,将提取的图像特征向量抽取得到最终的视频特征进行视频搜索,提高视频搜索的准确性。
为实现上述目的,本发明采用的技术方案是:一种基于单帧和连续多帧抽样并行的视频搜索方法,包括:
训练多路神经网络;
将待搜索视屏按时序分堆处理为多个视频堆,对每个视频堆的帧随机连续采样得到若干帧,得到堆采样视频数据集,再对每个视屏堆分别进行随机图像帧采样,每个视屏堆随机采样获取一个单帧,得到单帧采样视屏数据集;
将所述堆采样视频数据集和单帧采样视屏数据集分别输入到所述多路神经网络中进行堆采样特征向量的获取以及单帧采样特征向量的获取,并利用该多路神经网络将提取的图像特征向量抽取得到最终的视频特征进行视频搜索。
作为一种优选的实施方式,训练多路神经网络具体包括以下步骤:
数据的随机采样,按间隔将数据分为多堆进行数据采样,将基于单帧和连续多帧抽样取样的数据放到接下来每一路神经网络之中进行特征向量提取;
将每一堆数据都放入一路神经网络之中,训练提取特征的卷积层,一路神经网络有多个由残差模块组成的卷积层,最终将由卷积层提取出一定的相应特征;
对于每一路神经网络,最后将接入一个全连接层,对于输入的特征图进行一定程度地分类,最后得出该视频在各种类上的得分;
对于每一路上相关神经网络得分,对于它们求和,再平均,得出最后的一个得分类别,当最高得分比其他类别高0.1以上时,将该类别作为当前类别,当最高得分与次高得分差别不及0.1的时候,将原模型类别设定为最高和次高类别,重新进行训练,此后,选定最后得出的类别作为该类别;
对于判定出类别的整个模型,判断正确记为0,错误记为1;以此作为损失函数进行整个模型的判定。
作为另一种优选的实施方式,还包括对多路神经网络进行验证,具体包括以下步骤:
对于作为验证的视频,将其分成多堆,将每堆视屏放进一路神经网络之中;
将每堆视屏对应得到的分类得分进行总的平均,最终平均多路的结果,最终得出来分类结果最高的类别,直接作为视频最终的分类结果;
将视频下该类别与之特征图最为相似的结果,选择该视频作为视频搜索的结果。
作为另一种优选的实施方式,在堆采样特征向量获取中,多路神经网络采用二值法对每个帧提取特征向量,具体包括:
首先将检测窗口划分为多个小区域;
对于每个小区域的像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;得到该窗口中心像素点的数据;
计算每个小区域的直方图,即每个数字出现的频率;
将每个小区域的直方图统计后生成一个特征向量,也就是整幅图的特征向量;
获取每个堆的连续多帧特征向量,即为堆采样特征向量。
作为另一种优选的实施方式,多路神经网络将提取的图像特征向量抽取得到最终的视频特征具体包括:
在连续多帧数据处理时,对多个特征向量的数据进行网络训练,对特征向量进行特征降维,压缩数据和参数的数量;把图像单堆的特征向量转化为线性矩阵,采用多路神经网络进行训练,通过线性变换将高维空间中的样本数据投影到低维空间中,丢弃某些特征,统合每一个堆特征数据的抽取特征,再对提取的特征值全连接进行最终的分类确认。
本发明的有益效果是:
本发明通过基于单帧和连续多帧抽样并行的方法,可以优化基于单帧的神经网络的特征提取方法,同时本方法依据的核心是随机采样,所以该模型有着对整个视频特征有着更好的拟合能力;通过本发明,可以完成绝大部分实际生活中的多媒体资源推荐并且更好地优化用户体验。
附图说明
图1为本发明实施例中提取特征数据的神经网络结构示意图;
图2为本发明实施例中每一路神经网络的内部结构示意图;
图3为本发明实施例中特征数据的抽取示意图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
本实施例视频搜索的数据集将采用Youtube-8M数据集,主要利用其中的视频资源。首先对数据集进行术语说明:
训练集:指的是用于训练的样本集合,用来训练对应的神经网络中的参数。
验证集:验证对应网络模型的数据集合。网络在训练集上训练结束后,通过数据集来比较判断网络模型的性能。
测试集:对于训练完成的网络,检测评价神经网络的性能。
如图1-图3所示,一种基于单帧和连续多帧抽样并行的视频搜索方法,包括:
视频数据采集:
采用完整的公开数据集作为数据样本。适用完整的数据集作为测试机,将样本按照8:1:1的比例随机裁剪,分为训练集,验证集和测试集。
数据的随机采样:
1)按间隔进行数据采样:
例如:对于25分钟视频之中的原连续的若干帧,按间隔为5分钟提取出若干帧数。从而将原视频的连续帧划分成5个堆,抽样成5个连续的帧数堆。
2)将基于单帧和连续多帧抽样取样的数据放到接下来每一路网络之中进行特征提取。
多路神经网络的训练:
1)将每一堆数据都放入一路神经网络之中,训练提取特征的卷积层。如图2所示,本实施例中一路神经网络有4个由残差模块组成的卷积层,最终将由卷积层提取出一定的相应特征。
2)对于每一路神经网络,最后将接入一个全连接层,对于输入的特征图进行一定程度地分类。最后得出一路视频所得出的该视频在各种类上的得分问题。(例如视频A在动作类别0.1,爱情类别0.2,…最终得分总和为1分)
3)对于每一路上相关神经网络得分,对于它们求和,再平均。得出最后的一个得分类别。当最高得分比其他类别高0.1以上时,将该类别作为当前类别。当最高得分与次高得分差别不及0.1的时候,将原模型类别设定为最高和次高类别,重新进行训练。此后,选定最后得出的类别作为该类别。
4)对于判定出类别的整个模型,判断正确记为0,错误记为1。以此作为损失函数进行整个模型的判定。
多路神经网络的验证:
1)对于作为验证的视频,将其一样分成多堆。之后每堆放进一路神经网络之中。
2)将每堆对应得到的分类得分进行总的平均,最终平均多路的结果。最终得出来分类结果最高的类别,直接作为视频最终的分类结果。
3)将视频下该类别与之特征图最为相似的结果,选择该视频作为视频搜索的结果。
堆采样特征向量的获取:
对给定视频使用固定时间间隔将视频流分成N段,每段的时长不一定相等,每一段为一个堆,也就是将视频流数据集分成若干堆。这些堆的并集可以组成完整的堆数据集,同时彼此之间相互独立。
再对每个视频堆的帧随机连续采样得到若干帧,得到堆采样视频数据集。将它们放到每一路神经网络之中进行特征提取,获取堆采样特征向量。
神经网络采用二值法对每个帧提取特征向量:
(1)首先将检测窗口划分为多个小区域(比如像素值3×3);
(2)对于每个小区域的像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;得到该窗口中心像素点的数据;
(3)计算每个小区域的直方图,即每个数字出现的频率;
(4)将每个小区域的直方图统计后生成一个特征向量,也就是整幅图的特征向量;
(5)连续多帧图像的特征向量获取:比如一个堆有5帧图像,每帧提取的特征向量为1列,5帧即为5个特征向量。获取每个堆的连续多帧特征向量,即为堆采样特征向量。
单帧采样特征向量获取:
对给定视频的每个堆分别进行随机图像帧采样,每个堆随机采样获取1个单帧,采集图像帧的特征向量,获取多个堆的单帧特征向量,即为单帧采样特征向量数据集。
特征数据的抽取:
参考单帧的特征向量为N维;在连续多帧数据处理时,考虑帧与帧之间的相关性,对多个特征向量的数据进行网络训练,对特征向量进行特征降维,压缩数据和参数的数量。网络训练的函数输入是从K个不同的线性函数得到的结果,而样本向量x属于第j个分类的概率为:
Figure BDA0002597273790000071
实际提取是把图像单堆的特征向量转化为线性矩阵,采用多路神经网络进行训练,通过线性变换将高维空间中的样本数据投影到低维空间中,丢弃某些特征,更加精确进行特征抽取。如图3所示,统合每一个堆特征数据的抽取特征(结果取均值),再对提取的特征值全连接进行最终的分类确认。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种基于单帧和连续多帧抽样并行的视频搜索方法,其特征在于,包括:
训练多路神经网络;
将待搜索视频按时序分堆处理为多个视频堆,对每个视频堆的帧随机连续采样得到若干帧,得到堆采样视频数据集,再对每个视频堆分别进行随机图像帧采样,每个视频堆随机采样获取一个单帧,得到单帧采样视频数据集;
将所述堆采样视频数据集和单帧采样视频数据集分别输入到所述多路神经网络中进行堆采样特征向量的获取以及单帧采样特征向量的获取,并利用该多路神经网络将提取的图像特征向量抽取得到最终的视频特征进行视频搜索;
训练多路神经网络具体包括以下步骤:
数据的随机采样,按间隔将数据分为多堆进行数据采样,将基于单帧和连续多帧抽样取样的数据放到接下来每一路神经网络之中进行特征向量提取;
将每一堆数据都放入一路神经网络之中,训练提取特征的卷积层,一路神经网络有多个由残差模块组成的卷积层,最终将由卷积层提取出一定的相应特征;
对于每一路神经网络,最后将接入一个全连接层,对于输入的特征图进行一定程度地分类,最后得出该视频在各种类上的得分;
对于每一路上相关神经网络得分,对于它们求和,再平均,得出最后的一个得分类别,当最高得分比其他类别高0.1以上时,将该类别作为当前类别,当最高得分与次高得分差别不及0.1的时候,将原模型类别设定为最高和次高类别,重新进行训练,此后,选定最后得出的类别作为该类别;
对于判定出类别的整个模型,判断正确记为0,错误记为1;以此作为损失函数进行整个模型的判定。
2.根据权利要求1所述的基于单帧和连续多帧抽样并行的视频搜索方法,其特征在于,还包括对多路神经网络进行验证,具体包括以下步骤:
对于作为验证的视频,将其分成多堆,将每堆视频放进一路神经网络之中;
将每堆视频对应得到的分类得分进行总的平均,最终平均多路的结果,最终得出来分类结果最高的类别,直接作为视频最终的分类结果;
将视频下该类别与之特征图最为相似的结果,选择该视频作为视频搜索的结果。
3.根据权利要求1所述的基于单帧和连续多帧抽样并行的视频搜索方法,其特征在于,在堆采样特征向量获取中,多路神经网络采用二值法对每个帧提取特征向量,具体包括:
首先将检测窗口划分为多个小区域;
对于每个小区域的像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;得到该窗口中心像素点的数据;
计算每个小区域的直方图,即每个数字出现的频率;
将每个小区域的直方图统计后生成一个特征向量,也就是整幅图的特征向量;
获取每个堆的连续多帧特征向量,即为堆采样特征向量。
4.根据权利要求1所述的基于单帧和连续多帧抽样并行的视频搜索方法,其特征在于,多路神经网络将提取的图像特征向量抽取得到最终的视频特征具体包括:
在连续多帧数据处理时,对多个特征向量的数据进行网络训练,对特征向量进行特征降维,压缩数据和参数的数量;把图像单堆的特征向量转化为线性矩阵,采用多路神经网络进行训练,通过线性变换将高维空间中的样本数据投影到低维空间中,丢弃某些特征,统合每一个堆特征数据的抽取特征,再对提取的特征值全连接进行最终的分类确认。
CN202010713098.0A 2020-07-22 2020-07-22 基于单帧和连续多帧抽样并行的视频搜索方法 Active CN111813996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010713098.0A CN111813996B (zh) 2020-07-22 2020-07-22 基于单帧和连续多帧抽样并行的视频搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010713098.0A CN111813996B (zh) 2020-07-22 2020-07-22 基于单帧和连续多帧抽样并行的视频搜索方法

Publications (2)

Publication Number Publication Date
CN111813996A CN111813996A (zh) 2020-10-23
CN111813996B true CN111813996B (zh) 2022-03-01

Family

ID=72862052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010713098.0A Active CN111813996B (zh) 2020-07-22 2020-07-22 基于单帧和连续多帧抽样并行的视频搜索方法

Country Status (1)

Country Link
CN (1) CN111813996B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051236B (zh) * 2021-03-09 2022-06-07 北京沃东天骏信息技术有限公司 审核视频的方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657639A (zh) * 2018-12-29 2019-04-19 中国电子科技集团公司第二十七研究所 一种基于全景视觉的态势感知系统和方法
CN111026915A (zh) * 2019-11-25 2020-04-17 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733465B2 (en) * 2017-09-20 2020-08-04 Tusimple, Inc. System and method for vehicle taillight state recognition
CN109711454B (zh) * 2018-12-21 2020-07-31 电子科技大学 一种基于卷积神经网络的特征匹配方法
CN109992679A (zh) * 2019-03-21 2019-07-09 腾讯科技(深圳)有限公司 一种多媒体数据的分类方法及装置
CN110738101B (zh) * 2019-09-04 2023-07-25 平安科技(深圳)有限公司 行为识别方法、装置及计算机可读存储介质
CN110738211A (zh) * 2019-10-17 2020-01-31 腾讯科技(深圳)有限公司 一种对象检测的方法、相关装置以及设备
CN110942484B (zh) * 2019-11-26 2022-07-12 福州大学 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN111260697A (zh) * 2020-01-19 2020-06-09 上海云从汇临人工智能科技有限公司 目标对象的识别方法、系统、设备及介质
CN111291223B (zh) * 2020-01-21 2023-01-24 河南理工大学 四胞胎卷积神经网络视频指纹方法
CN111382555B (zh) * 2020-03-19 2023-08-29 杭州网易智企科技有限公司 数据处理方法、介质、装置和计算设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657639A (zh) * 2018-12-29 2019-04-19 中国电子科技集团公司第二十七研究所 一种基于全景视觉的态势感知系统和方法
CN111026915A (zh) * 2019-11-25 2020-04-17 Oppo广东移动通信有限公司 视频分类方法、视频分类装置、存储介质与电子设备

Also Published As

Publication number Publication date
CN111813996A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN109993040B (zh) 文本识别方法及装置
CN110263215B (zh) 一种视频情感定位方法及系统
US20210019872A1 (en) Detecting near-duplicate image
CN111353395A (zh) 一种基于长短期记忆网络的换脸视频检测方法
CN111178120B (zh) 一种基于作物识别级联技术的害虫图像检测方法
CN110677639B (zh) 一种基于特征融合和循环神经网络的无参考视频质量评价方法
CN102385592B (zh) 图像概念的检测方法和装置
CN113449727A (zh) 一种基于深度神经网络的伪装目标检测识别方法
CN115994230A (zh) 一种融合人工智能和知识图谱技术的智慧档案构建方法
CN108595422B (zh) 一种过滤不良彩信的方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN104778470A (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN111597983B (zh) 基于深度卷积神经网络实现生成式虚假人脸图像鉴定的方法
CN111028203B (zh) 一种基于显著性的cnn盲图像质量评估方法
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN111488487A (zh) 一种面向全媒体数据的广告检测方法及检测系统
CN110610500A (zh) 基于动态语义特征的新闻视频自适应拆条方法
CN111507467A (zh) 神经网络模型的训练方法、装置、计算机设备及存储介质
CN111813996B (zh) 基于单帧和连续多帧抽样并行的视频搜索方法
CN111259792A (zh) 基于dwt-lbp-dct特征的人脸活体检测方法
CN112348809A (zh) 基于多任务深度学习的无参考屏幕内容图像质量评价方法
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
CN116563205A (zh) 基于小目标检测和改进YOLOv5的麦穗计数检测方法
CN112149564B (zh) 一种基于小样本学习的面容分类识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant