CN107527010A - 一种根据局部特征和运动矢量抽取视频基因的方法 - Google Patents

一种根据局部特征和运动矢量抽取视频基因的方法 Download PDF

Info

Publication number
CN107527010A
CN107527010A CN201710568363.9A CN201710568363A CN107527010A CN 107527010 A CN107527010 A CN 107527010A CN 201710568363 A CN201710568363 A CN 201710568363A CN 107527010 A CN107527010 A CN 107527010A
Authority
CN
China
Prior art keywords
video
surf
motion vector
characteristic points
transition frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710568363.9A
Other languages
English (en)
Other versions
CN107527010B (zh
Inventor
张勇
朱立松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Original Assignee
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCTV INTERNATIONAL NETWORKS WUXI Co Ltd filed Critical CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority to CN201710568363.9A priority Critical patent/CN107527010B/zh
Publication of CN107527010A publication Critical patent/CN107527010A/zh
Application granted granted Critical
Publication of CN107527010B publication Critical patent/CN107527010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种根据局部特征和运动矢量抽取视频基因的方法,属于视频处理技术领域,首先寻找并获取转场帧,然后计算出转场帧中的SURF特征,抽取转场帧中所有SURF特征的64位的二进制比特串,最后将这些比特串接起来形成该视频片段的视频基因;解决了如何提取视频的视频基因的技术问题,本发明计算视频的基因序列后,该基因序列可被用于视频之间的快速比对,实现了每一个64比特的序列对应一个镜头场景的检索方法。

Description

一种根据局部特征和运动矢量抽取视频基因的方法
技术领域
本发明属于视频处理技术领域,特别涉及一种根据局部特征和运动矢量抽取视频基因的方法。
背景技术
随着技术的发展,视频的拍摄、存储变得越来越廉价。视频数据量出现了爆发式的增长。视频属于非结构化数据,与传统的结构化数据不同。由于视频的原始数据量非常庞大,所以传输和存储的视频都是经过压缩的数据。为了适应不同的用户需求、不同播放设备的限制以及存储的需求。视频经常被转码为不同的码率、分辨率等版本。视频编辑人员也会根据具体的应用场景的需要对视频进行编辑,例如剪辑、加标等等。基于以上种种原因,视频的检索就成为一个非常棘手的问题。
现阶段的解决办法是给视频加上各种编目信息。例如:文件名称、节目名称、播出时间、节目类别(新闻、电影、记录片、综艺节目等)。在添加了编目信息之后,用户根据编目信息进行查询检索视频。
用户在已获取某一视频片段而没有编目信息的条件下,无法通过现阶段的解决办法来判断该视频片段是否来自于数据库中已有的视频。
发明内容
本发明的目的是提供一种根据局部特征和运动矢量抽取视频基因的方法,解决了如何提取视频的视频基因的技术问题。
为实现上述目的,本发明采用以下技术方案:
一种根据局部特征和运动矢量抽取视频基因的方法,包括如下步骤:
步骤1:通过摄像头获取视频后,再通过视频解码器对视频进行解码,再然后对视频中的每一帧图像进行SURF特征的抽取,每一帧图像的SURF特征均包括数个SURF特征点;
步骤2:计算每个SURF特征点的描述向量,由于每个图像包含的SURF特征点数目不相同,所以只选取描述向量最强的SURF特征点作为预处理特征点;设定每一幅图片的预处理特征点的个数均为N;
步骤3:寻找转场帧:比较相邻两个帧图像的SURF特征,设定前一帧图像有J个SURF特征点,J<=N;设定后一帧图像有K个SURF特征点,K<=N;设定L为变量;若J小于K,则, L=J;若K小于J,则, L=K;设定前一帧图像与后一帧图像相互匹配的SURF特征点的数量为S1;
若S1小于p%×L个,则后一帧图像为转场帧;p的取值范围是1-99之间,一般情况取50;
步骤4:设定某一个转场帧Q和与其相邻的下一帧图像P相互匹配的SURF特征点的数量至少为M对,M=p%×L,当相互匹配的SURF特征点的数量多于M时,取最强的M个相互匹配的SURF特征点;在转场帧Q的特征点以及在P中与之匹配的特征点,如果视频画面是完全静止的,那么每一对特诊点都会出现在完全相同的位置,如果画面不是静止的,则匹配特征点会出现位移运动;
计算所述最强的M个相互匹配的SURF特征点的运动矢量;设定转场帧Q中的某一个SURF特征点A1为起点,在下一帧图像P中与该SURF特征点相互匹配的SURF特征点B1为终点,SURF特征点A1向SURF特征点B1移动的方向即为SURF特征点A1的运动矢量,设定所述运动矢量的水平分量为x个像素,垂直分量为y个像素;
步骤5:按照视频中帧图像的长和宽对运动矢量进行归一化:水平运动矢量=x/视频的宽度,垂直运动矢量=y/视频的高度;
步骤6:所述M个SURF特征点中,每一个SURF特征点均由64维向量描述,并且均存在一个到下一帧的运动矢量,所述运动矢量由2维向量描述;即,所述M个SURF特征点中的每一个SURF特征点均一个66维的向量描述,即,转场帧Q对应一个B维度的描述向量, B=66×M,其中,B为维度值;使用栈式自动编码器将该B维度的描述向量映射为64维二进制特征向量;
步骤7:对于一个视频片段,使用栈式自动编码器可以将转场帧的描述向量映射为一个64位二进制比特串,设定该视频片段包含F个转场帧,则对每一个转场帧均采用步骤4到步骤6的方法抽取64位的二进制比特串,然后将这些比特串接起来形成该视频片段的视频基因。
所述SURF特征点的描述向量为一个64维的向量。
执行步骤3时,需要注意的特殊情况是视频的第一帧总是转场帧。
本发明所述的一种根据局部特征和运动矢量抽取视频基因的方法,解决了如何提取视频的视频基因的技术问题,本发明计算视频的基因序列后,该基因序列可被用于视频之间的快速比对,实现了每一个64比特的序列对应一个镜头场景的检索方法。
附图说明
图1是本发明的SURF特征示意图;
图2是本发明的转场帧与下一帧之间的运动矢量的示意图;
图3是本发明的栈式自动编码器示意图。
具体实施方式
如图1-图3所示的一种根据局部特征和运动矢量抽取视频基因的方法,包括如下步骤:
步骤1:通过摄像头获取视频后,再通过视频解码器对视频进行解码,再然后对视频中的每一帧图像进行SURF特征(所述SURF特征为现有技术,固不详细叙述)的抽取,每一帧图像的SURF特征均包括数个SURF特征点;
步骤2:计算每个SURF特征点的描述向量,由于每个图像包含的SURF特征点数目不相同,所以只选取描述向量最强的SURF特征点作为预处理特征点;设定每一幅图片的预处理特征点的个数均为N;
步骤3:寻找转场帧:比较相邻两个帧图像的SURF特征,设定前一帧图像有J个SURF特征点,J<=N;设定后一帧图像有K个SURF特征点,K<=N;设定L为变量;若J小于K,则, L=J;若K小于J,则, L=K;设定前一帧图像与后一帧图像相互匹配的SURF特征点的数量为S1;
若S1小于p%×L个,则后一帧图像为转场帧;p的取值范围是1-99之间,一般情况取50;
步骤4:设定某一个转场帧Q和与其相邻的下一帧图像P相互匹配的SURF特征点的数量至少为M对,M=p%×L,当相互匹配的SURF特征点的数量多于M时,取最强的M个相互匹配的SURF特征点;在转场帧Q的特征点以及在P中与之匹配的特征点,如果视频画面是完全静止的,那么每一对特诊点都会出现在完全相同的位置,如果画面不是静止的,则匹配特征点会出现位移运动;
计算所述最强的M个相互匹配的SURF特征点的运动矢量;设定转场帧Q中的某一个SURF特征点A1为起点,在下一帧图像P中与该SURF特征点相互匹配的SURF特征点B1为终点,SURF特征点A1向SURF特征点B1移动的方向即为SURF特征点A1的运动矢量,设定所述运动矢量的水平分量为x个像素,垂直分量为y个像素;
步骤5:按照视频中帧图像的长和宽对运动矢量进行归一化:水平运动矢量=x/视频的宽度,垂直运动矢量=y/视频的高度;
步骤6:所述M个SURF特征点中,每一个SURF特征点均由64维向量描述,并且均存在一个到下一帧的运动矢量,所述运动矢量由2维向量描述;即,所述M个SURF特征点中的每一个SURF特征点均一个66维的向量描述,即,转场帧Q对应一个B维度的描述向量, B=66×M,其中,B为维度值;使用栈式自动编码器将该B维度的描述向量映射为64维二进制特征向量;
假设M=100,则每一个转场帧有一个维度为6600维的描述向量,使用一个栈式自动编码器将6600维的描述向量映射为64维二进制特征向量;
步骤7:对于一个视频片段,使用栈式自动编码器(所述栈式自动编码器为现有技术,固不详细叙述)可以将转场帧的描述向量映射为一个64位二进制比特串,设定该视频片段包含F个转场帧,则对每一个转场帧均采用步骤4到步骤6的方法抽取64位的二进制比特串,然后将这些比特串接起来形成该视频片段的视频基因。
所述SURF特征点的描述向量为一个64维的向量。
执行步骤3时,需要注意的特殊情况是视频的第一帧总是转场帧。
本发明所述的一种根据局部特征和运动矢量抽取视频基因的方法,解决了如何提取视频的视频基因的技术问题,本发明计算视频的基因序列后,该基因序列可被用于视频之间的快速比对,实现了每一个64比特的序列对应一个镜头场景的检索方法。
所述SURF特征是一种图像局部特征提取方法,具体可参见论文“Speed-upRobustFeatures(SURF)”,图 1给出了SURF特征提取的示意图,图1中的圆圈即为SURF特征点。
如图 2所示转场帧中的A圆点和下一帧中的B圆点分别表示这两帧中相互匹配的两个SURF特征。转场帧中的箭头表示特征点的运动矢量,它表示该特征点在下一帧中将沿箭头所指的方向运动至C圆点所表示的位置。
栈式自动编码器是一种神经网络,它可用来提取高维度数据的特征,从而达到将数据维度降低的目的,如图3所示,输入层有6600个输入神经元,输出层有64个二进制神经元,相邻层之间的连线表示神经元之间的连接权值。
本发明所述的一种根据局部特征和运动矢量抽取视频基因的方法,解决了如何提取视频的视频基因的技术问题,本发明计算视频的基因序列后,该基因序列可被用于视频之间的快速比对,实现了每一个64比特的序列对应一个镜头场景的检索方法。

Claims (3)

1.一种根据局部特征和运动矢量抽取视频基因的方法,其特征在于:包括如下步骤:
步骤1:通过摄像头获取视频后,再通过视频解码器对视频进行解码,再然后对视频中的每一帧图像进行SURF特征的抽取,每一帧图像的SURF特征均包括数个SURF特征点;
步骤2:计算每个SURF特征点的描述向量,由于每个图像包含的SURF特征点数目不相同,所以只选取描述向量最强的SURF特征点作为预处理特征点;设定每一幅图片的预处理特征点的个数均为N;
步骤3:寻找转场帧:比较相邻两个帧图像的SURF特征,设定前一帧图像有J个SURF特征点,J<=N;设定后一帧图像有K个SURF特征点,K<=N;设定L为变量;若J小于K,则,L=J;若K小于J,则,L=K;设定前一帧图像与后一帧图像相互匹配的SURF特征点的数量为S1;
若S1小于p%×L个,则后一帧图像为转场帧;
步骤4:设定某一个转场帧Q和与其相邻的下一帧图像P相互匹配的SURF特征点的数量至少为M对,M=p%×L,当相互匹配的SURF特征点的数量多于M时,取最强的M个相互匹配的SURF特征点;在转场帧Q的特征点以及在P中与之匹配的特征点,如果视频画面是完全静止的,那么每一对特诊点都会出现在完全相同的位置,如果画面不是静止的,则匹配特征点会出现位移运动;
计算所述最强的M个相互匹配的SURF特征点的运动矢量;设定转场帧Q中的某一个SURF特征点A1为起点,在下一帧图像P中与该SURF特征点相互匹配的SURF特征点B1为终点,SURF特征点A1向SURF特征点B1移动的方向即为SURF特征点A1的运动矢量,设定所述运动矢量的水平分量为x个像素,垂直分量为y个像素;
步骤5:按照视频中帧图像的长和宽对运动矢量进行归一化:水平运动矢量=x/视频的宽度,垂直运动矢量=y/视频的高度;
步骤6:所述M个SURF特征点中,每一个SURF特征点均由64维向量描述,并且均存在一个到下一帧的运动矢量,所述运动矢量由2维向量描述;即,所述M个SURF特征点中的每一个SURF特征点均一个66维的向量描述,即,转场帧Q对应一个B维度的描述向量,B=66×M,其中,B为维度值;使用栈式自动编码器将该B维度的描述向量映射为64维二进制特征向量;
步骤7:对于一个视频片段,使用栈式自动编码器可以将转场帧的描述向量映射为一个64位二进制比特串,设定该视频片段包含F个转场帧,则对每一个转场帧均采用步骤4到步骤6的方法抽取64位的二进制比特串,然后将这些比特串接起来形成该视频片段的视频基因。
2.如权利要求1所述的一种根据局部特征和运动矢量抽取视频基因的方法,其特征在于:所述SURF特征点的描述向量为一个64维的向量。
3.如权利要求1所述的一种根据局部特征和运动矢量抽取视频基因的方法,其特征在于:执行步骤3时,需要注意的特殊情况是视频的第一帧总是转场帧。
CN201710568363.9A 2017-07-13 2017-07-13 一种根据局部特征和运动矢量抽取视频基因的方法 Active CN107527010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710568363.9A CN107527010B (zh) 2017-07-13 2017-07-13 一种根据局部特征和运动矢量抽取视频基因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710568363.9A CN107527010B (zh) 2017-07-13 2017-07-13 一种根据局部特征和运动矢量抽取视频基因的方法

Publications (2)

Publication Number Publication Date
CN107527010A true CN107527010A (zh) 2017-12-29
CN107527010B CN107527010B (zh) 2020-07-10

Family

ID=60749021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710568363.9A Active CN107527010B (zh) 2017-07-13 2017-07-13 一种根据局部特征和运动矢量抽取视频基因的方法

Country Status (1)

Country Link
CN (1) CN107527010B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108882016A (zh) * 2018-07-31 2018-11-23 成都华栖云科技有限公司 一种视频基因数据提取的方法及系统
CN109635747A (zh) * 2018-12-14 2019-04-16 央视国际网络无锡有限公司 视频封面自动抽取方法及装置
CN110321858A (zh) * 2019-07-08 2019-10-11 北京字节跳动网络技术有限公司 视频相似度确定方法、装置、电子设备及存储介质
CN113139095A (zh) * 2021-05-06 2021-07-20 北京百度网讯科技有限公司 视频检索方法及装置、计算机设备和介质
CN115883873A (zh) * 2021-09-28 2023-03-31 山东云缦智能科技有限公司 一种基于视频基因的视频对比方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102769714A (zh) * 2012-03-26 2012-11-07 新奥特(北京)视频技术有限公司 一种消除闪光引起转场误报的方法
CN104980625A (zh) * 2015-06-19 2015-10-14 新奥特(北京)视频技术有限公司 视频转场检测的方法和装置
CN105263025A (zh) * 2015-11-05 2016-01-20 成都瑞贝英特信息技术有限公司 一种基于时空域的视频零水印方法
CN105912981A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频转场判断方法及装置
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统
CN106331849A (zh) * 2016-09-14 2017-01-11 北京金山安全软件有限公司 一种视频图像处理方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102769714A (zh) * 2012-03-26 2012-11-07 新奥特(北京)视频技术有限公司 一种消除闪光引起转场误报的方法
CN104980625A (zh) * 2015-06-19 2015-10-14 新奥特(北京)视频技术有限公司 视频转场检测的方法和装置
CN105263025A (zh) * 2015-11-05 2016-01-20 成都瑞贝英特信息技术有限公司 一种基于时空域的视频零水印方法
CN105912981A (zh) * 2016-03-31 2016-08-31 乐视控股(北京)有限公司 视频转场判断方法及装置
CN105930402A (zh) * 2016-04-15 2016-09-07 乐视控股(北京)有限公司 基于卷积神经网络的视频检索方法及系统
CN106331849A (zh) * 2016-09-14 2017-01-11 北京金山安全软件有限公司 一种视频图像处理方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
任东月: ""基于MPEG-2的视频内容分析技术与应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108882016A (zh) * 2018-07-31 2018-11-23 成都华栖云科技有限公司 一种视频基因数据提取的方法及系统
CN109635747A (zh) * 2018-12-14 2019-04-16 央视国际网络无锡有限公司 视频封面自动抽取方法及装置
CN110321858A (zh) * 2019-07-08 2019-10-11 北京字节跳动网络技术有限公司 视频相似度确定方法、装置、电子设备及存储介质
CN110321858B (zh) * 2019-07-08 2022-06-14 北京字节跳动网络技术有限公司 视频相似度确定方法、装置、电子设备及存储介质
CN113139095A (zh) * 2021-05-06 2021-07-20 北京百度网讯科技有限公司 视频检索方法及装置、计算机设备和介质
CN115883873A (zh) * 2021-09-28 2023-03-31 山东云缦智能科技有限公司 一种基于视频基因的视频对比方法

Also Published As

Publication number Publication date
CN107527010B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN107527010A (zh) 一种根据局部特征和运动矢量抽取视频基因的方法
US12112539B2 (en) Video processing method, electronic device and storage medium
Duan et al. Overview of the MPEG-CDVS standard
Liu et al. Parallel fractal compression method for big video data
Takacs et al. Outdoors augmented reality on mobile phone using loxel-based visual feature organization
WO2021129435A1 (zh) 视频清晰度评估模型训练方法、视频推荐方法及相关装置
US20090289942A1 (en) Image learning, automatic annotation, retrieval method, and device
Sun et al. Video hashing based on appearance and attention features fusion via DBN
Yu et al. Multi-level video frame interpolation: Exploiting the interaction among different levels
CN108491856B (zh) 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN106778571B (zh) 一种基于深度神经网络的数字视频特征提取方法
CN113779303B (zh) 视频集合的索引方法、装置和存储介质及电子设备
CN114339360B (zh) 一种视频处理的方法、相关装置及设备
CN106503112B (zh) 视频检索方法和装置
CN112085031A (zh) 目标检测方法及系统
CN109949234A (zh) 基于深度网络的视频复原模型训练方法及视频复原方法
CN116257648A (zh) 基于噪声网络和图像预处理的图像检索防御方法及系统
Kumar et al. High-performance video retrieval based on spatio-temporal features
Mahum et al. A generic framework for generation of summarized video clips using transfer learning (SumVClip)
CN107979766A (zh) 内容串流系统及方法
Dai et al. HEVC video steganalysis based on PU maps and multi-scale convolutional residual network
CN111031390B (zh) 一种输出大小固定序列行列式点过程视频概要方法
CN107194961B (zh) 群体图像编码中多参考图像的确定方法
CN107563391B (zh) 一种基于专家模型的数字图像特征提取方法
Dai et al. IMShare: Instantly sharing your mobile landmark images by search-based reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant