CN110830734B - 一种突变和渐变镜头切换识别方法及系统 - Google Patents
一种突变和渐变镜头切换识别方法及系统 Download PDFInfo
- Publication number
- CN110830734B CN110830734B CN201911044888.8A CN201911044888A CN110830734B CN 110830734 B CN110830734 B CN 110830734B CN 201911044888 A CN201911044888 A CN 201911044888A CN 110830734 B CN110830734 B CN 110830734B
- Authority
- CN
- China
- Prior art keywords
- shot
- switching
- gradual
- abrupt
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及镜头切换识别技术领域,具体地说,涉及一种突变和渐变镜头切换识别方法及系统。其方法步骤如下:准备训练数据,获取神经网络分类模型,将镜头切换识别问题转换为连续视频帧的分类问题;利用训练好的神经网络分类模型,识别出候选镜头切换序列;获取搜索区间;特征重定位,得到准确切换位置。该种突变和渐变镜头切换识别方法,利用神经网络,通过大量数据训练模型识别渐变和突变镜头切换,初步定位镜头切换搜索区间,同时在神经网络初步定位之后,利用图像特征定位镜头切换的准确位置。
Description
技术领域
本发明涉及镜头切换识别技术领域,具体地说,涉及一种突变和渐变镜头切换识别方法及系统。
背景技术
申请号为CN201610687298.7的“一种识别镜头切换的方法及装置”中等间隔提取出待检测视频的关键帧,然后将关键帧分为若干子区域,通过计算不同关键帧子区域的颜色或亮度直方图的加权距离来判断是否存在镜头切换,其缺陷在于:(1)无法准确定位切换的位置;(2)只通过关键帧抽样检测,在镜头晃动剧烈情况下容易误识别;(3)无法区分是渐变还是突变镜头切换。而申请号为CN201410831291.9的“基于帧差聚类的视频镜头切换检测方法及其装置”计算连续三帧中每两帧图像的灰度值差生成三维向量,通过聚类器将三维向量映射成空间坐标系中的点,设置半径参数生成包含球,点在球内为有镜头切换,其缺陷在于:(1)使用连续三帧的特征,特征采样长度短,对于过渡时间较长的渐变镜头无法识别;(2)无法区分是渐变还是突变镜头切换;(3)在镜头晃动剧烈情况下容易误识别。
发明内容
本发明的目的在于提供一种突变和渐变镜头切换识别方法及系统,对上述现有技术中存在的问题作出改进,识别并准确定位视频中的渐变镜头和突变镜头切换,克服在镜头晃动、虚焦等不利条件下的误识别问题。
为实现上述目的,本发明提供一种突变和渐变镜头切换识别方法,其方法步骤如下:
S1、准备训练数据,获取神经网络分类模型,将镜头切换识别问题转换为连续视频帧的分类问题;
S2、利用S1中训练好的神经网络分类模型,识别出候选镜头切换序列;
S3、获取搜索区间;
S4、特征重定位,得到准确切换位置。
作为优选,S1中,准备训练数据包括如下步骤:
步骤一:正样本,正样本为以镜头切换位置为中心同时向前向后总共采样N帧连续图像,镜头切换类型尽可能包含突变以及渐变中的淡入淡出、棋盘格、缩放、划变、锯齿等不同种类的镜头切换;
步骤二:负样本,负样本为在不存在镜头切换的位置随机采样N帧连续图像序列。
作为优选,采用视频分类网络对连续帧训练模型进行视频分类,这里的视频分类网络可以是3DCNN或者双流网络其中之一。
作为优选,S2中,识别出候选镜头切换序列步骤如下:
①、对视频流进行解码,得到总长度为L的视频序列;
②、使用长度为N、步长为S的滑动窗口遍历所述总长度为L的视频序列,每次取出由N幅图像组成的片段C;
③、输入到训练好的神经网络分类模型进行分类,获取类别。
作为优选,获取搜索区间包括以下步骤:
对于某个片段C,如果输出类别是突变镜头切换,则定义搜索区间为Search_Clip=C;如果输出类别是渐变镜头切换,继续向后搜索直到第一个非渐变镜头切换的片段CE,则定义搜索区间Search_Clip为C-CE之间的片段。
作为优选,特征重定位步骤如下:
①、得到搜索区间Search_Clip;
②、对Search_Clip中的所有图像提取特征,计算帧间的特征变化,变化量最大的位置为镜头切换的准确位置。
作为优选,图像提取特征方法可以包括以下一种或者多种:
①、频域特征,对图像做DCT变换,然后累加DCT低频区域的差值作为特征;
②、空间域特征,利用训练数据集提取sift特征进行聚类构造词典Dict;
③、训练神经网络提取图片特征;
本发明还提出一种突变和渐变镜头切换识别系统,用于执行上述任意一项所述的突变和渐变镜头切换识别方法,包括以下模块:
模块一:图像序列提取模块,图像序列提取模块用于从视频源获取连续的图像片段;
模块二:候选序列识别模块,候选序列识别模块使用训练好的神经网络分类模型,对图像序列提取模块得到的图像片段进行分类,区分是连续镜头、渐变镜头或者突变镜头;
模块三:搜索区间获取模块,搜索区间获取模块对从候选序列识别模块中得到的渐变镜头和突变镜头计算搜索区间,对突变镜头搜索区间为本片段,对渐变镜头则向后搜索直到第一个非渐变镜头位置;
模块四:特征重定位模块,特征重定位模块包括特征提取子模块和距离度量子模块,特征提取子模块对搜索区间中的图像提取频域、空间域等特征,距离度量子模块对特征提取子模块得到的特征选用合适的度量函数计算距离,得到镜头切换的准确位置。
与现有技术相比,本发明的有益效果:
1、该突变和渐变镜头切换识别方法中,通过神经网络的输入为N帧的连续视频,能判断是否为镜头切换并且输出类别为渐变切换或者突变切换其中之一。
2、该突变和渐变镜头切换识别方法中,通过对搜索区间中的每个图像提取特征并计算特征的距离,能准确定位镜头切换的位置。
附图说明
图1为本发明的整体方法流程图;
图2为本发明的识别出候选镜头切换序列步骤图;
图3为本发明的整体结构模块图;
图4为本发明的特征重定位模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4所示,本发明提供一种技术方案:
本发明提供一种突变和渐变镜头切换识别方法,其方法步骤如下:
S1、准备训练数据,获取神经网络分类模型,将镜头切换识别问题转换为连续视频帧的分类问题;
S2、利用S1中训练好的神经网络分类模型,识别出候选镜头切换序列;
S3、获取搜索区间;
S4、特征重定位,得到准确切换位置。
S1中,准备训练数据包括如下步骤:
步骤一:正样本,正样本为以镜头切换位置为中心同时向前向后总共采样N帧连续图像,镜头切换类型尽可能包含突变以及渐变中的淡入淡出、棋盘格、缩放、划变、锯齿等不同种类的镜头切换;
步骤二:负样本,负样本为在不存在镜头切换的位置随机采样N帧连续图像序列,为了扩充数据集和增强泛化能力,可以在正样本采样位置随机前后移动若干帧作为扩充正样本,而负样本采样位置包括常规拍摄镜头、摄像机剧烈运动、虚焦等各种场景,可有效减小困难场景的误报。
具体的,神经网络的一个实施例可采用采用3DCNN中的C3D分类网络,C3D分类网络包括卷积层、最大池化层、全连接层和SoftMax层;
进一步的,S2中,识别出候选镜头切换序列步骤如下:
①、对视频流进行解码,得到总长度为L的视频序列;
②、使用长度为N、步长为S的滑动窗口遍历所述总长度为L的视频序列,每次取出由N幅图像组成的片段C;
③、输入到训练好的神经网络分类模型进行分类,获取类别。
再进一步的,获取搜索区间包括以下步骤:
对于某个片段C,如果输出类别是突变镜头切换,则定义搜索区间为Search_Clip=C;如果输出类别是渐变镜头切换,继续向后搜索直到第一个非渐变镜头切换的片段CE,则定义搜索区间Search_Clip为C-CE之间的片段。
值得说明的是,特征重定位中,镜头切换的准确位置必然是Search_Clip中视觉信息变化最大的位置。对Search_C1ip中的所有图像提取特征,计算帧间的特征变化,变化量最大的位置为镜头切换的准确位置。
图像提取特征包括以下方法中的一种或者多种:
方法一:频域特征,对图像做DCT变换,然后累加DCT低频区域的差值作为特征,能够抑制高频细节变化等原因(例如虚焦、散粒噪声等)带来的像素值突变的误检,相应的距离度量方法为Euclidean距离。
方法二:空间域特征,利用训练数据集提取SIFT特征进行聚类构造词典Dict,对于每张图像,提取SIFT特征,然后计算在Dict的特征直方图作为特征,相应的距离度量方法为直方图距离度量方法如Manhattan距离、Euclidean距离、Hausdorff距离。
其中,Manhattan距离为曼哈顿距离,两个n维向量a(x11,x12,…,xln)与b(x21,x22,…,x2n)间的曼哈顿距离公式为:
其中,Hausdorff距离定义为:给定两个有限集合A={a1,a2,...,ap}和B={b1,b2,...,bp},则A,B之间的Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(B,A))
其中
式中,||·||表示点集,A,B之间的距离范数,函数h(A,B)和h(B,A)分别称为前向和后向Hausdorff距离,如果h(A,B)=d,则表示A中所有点到B中点的距离不超过d,也就是说A中点都在B中点的距离为d的范围之内
方法三:训练神经网络提取图片特征,相应的距离度量方法采用余弦距离,余弦距离定义如下:两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦公式为:
执行上述任意一项所述的突变和渐变镜头切换识别方法的系统,包括以下模块:
模块一:图像序列提取模块,图像序列提取模块用于从视频源获取连续的图像片段;
模块二:候选序列识别模块,候选序列识别模块使用训练好的神经网络分类模型,对图像序列提取模块得到的图像片段进行分类,区分是连续镜头、渐变镜头或者突变镜头;
模块三:搜索区间获取模块,搜索区间获取模块对从候选序列识别模块中得到的渐变镜头和突变镜头计算搜索区间,对突变镜头搜索区间为本片段,对渐变镜头则向后搜索直到第一个非渐变镜头位置;
模块四:特征重定位模块,特征重定位模块包括特征提取子模块和距离度量子模块,特征提取子模块对搜索区间中的图像提取频域、空间域等特征,距离度量子模块对特征提取子模块得到的特征选用合适的度量函数计算距离,得到镜头切换的准确位置。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种突变和渐变镜头切换识别方法,其方法步骤如下:
S1、准备训练数据,获取神经网络分类模型,将镜头切换识别问题转换为连续视频帧的分类问题;
S2、利用S1中训练好的神经网络分类模型,识别出候选镜头切换序列,包括以下步骤:
①、对视频流进行解码,得到总长度为L的视频序列;
②、使用长度为N、步长为S的滑动窗口遍历所述总长度为L的视频序列,每次取出由N幅图像组成的片段C;
③、将所得片段C输入到训练好的神经网络分类模型进行分类,获取所得片段C的类别;
S3、获取搜索区间,包括以下步骤:
对于某个片段C,如果输出类别是突变镜头切换,则定义搜索区间为Search_Clip=C;如果输出类别是渐变镜头切换,继续向后搜索直到第一个非渐变镜头切换的片段CE,则定义搜索区间Search_Clip为C-CE之间的片段;
S4、特征重定位,得到准确切换位置。
2.根据权利要求1所述的突变和渐变镜头切换识别方法,其特征在于:S1中,准备训练数据包括如下步骤:
步骤一:正样本,正样本为以镜头切换位置为中心同时向前向后总共采样N帧连续图像,镜头切换类型包含突变以及渐变中的淡入淡出、棋盘格、缩放、划变和锯齿的镜头切换;
步骤二:负样本,负样本为在不存在镜头切换的位置随机采样N帧连续图像序列。
3.根据权利要求2所述的突变和渐变镜头切换识别方法,其特征在于:采用视频分类网络对连续帧训练模型进行分类,这里的视频分类网络是3DCNN或者双流网络。
4.根据权利要求1至3任一所述的突变和渐变镜头切换识别方法,其特征在于:特征重定位步骤如下:
①、得到搜索区间Search_Clip;
②、对Search_Clip中的所有图像提取特征,计算帧间的特征变化,变化量最大的位置为镜头切换的准确位置。
5.根据权利要求4所述的突变和渐变镜头切换识别方法,其特征在于:图像提取特征方法包括以下一种或者多种:
①、频域特征,对图像做DCT变换,然后累加DCT低频区域的差值作为特征;
②、空间域特征,利用训练数据集提取sift特征进行聚类构造词典Dict;
③、训练神经网络提取图片特征。
6.一种突变和渐变镜头切换识别系统,用于执行权利要求1至5任意一项所述的突变和渐变镜头切换识别方法,其特征在于:包括以下模块:
模块一:图像序列提取模块,图像序列提取模块用于从视频源获取连续的图像片段;
模块二:候选序列识别模块,候选序列识别模块使用训练好的神经网络分类模型,对图像序列提取模块得到的图像片段进行分类,区分是连续镜头、渐变镜头或者突变镜头;
模块三:搜索区间获取模块,搜索区间获取模块对从候选序列识别模块中得到的渐变镜头和突变镜头计算搜索区间,对突变镜头搜索区间为本片段,对渐变镜头则向后搜索直到第一个非渐变镜头位置;
模块四:特征重定位模块,特征重定位模块包括特征提取子模块和距离度量子模块,特征提取子模块对搜索区间中的图像提取频域特征和/或空间域特征,距离度量子模块对特征提取子模块得到的特征选用合适的度量函数计算距离,得到镜头切换的准确位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911044888.8A CN110830734B (zh) | 2019-10-30 | 2019-10-30 | 一种突变和渐变镜头切换识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911044888.8A CN110830734B (zh) | 2019-10-30 | 2019-10-30 | 一种突变和渐变镜头切换识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110830734A CN110830734A (zh) | 2020-02-21 |
CN110830734B true CN110830734B (zh) | 2022-03-18 |
Family
ID=69551382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911044888.8A Active CN110830734B (zh) | 2019-10-30 | 2019-10-30 | 一种突变和渐变镜头切换识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110830734B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428589B (zh) * | 2020-03-11 | 2023-05-30 | 新华智云科技有限公司 | 一种渐变转场的识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236604A (zh) * | 2008-01-11 | 2008-08-06 | 北京航空航天大学 | 一种快速的镜头边界检测方法 |
CN104318207A (zh) * | 2014-10-08 | 2015-01-28 | 合肥工业大学 | 一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法 |
CN104952073A (zh) * | 2015-06-15 | 2015-09-30 | 上海交通大学 | 基于深度学习的镜头边缘检测方法 |
CN106327513A (zh) * | 2016-08-15 | 2017-01-11 | 上海交通大学 | 基于卷积神经网络的镜头边界检测方法 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8433136B2 (en) * | 2009-03-31 | 2013-04-30 | Microsoft Corporation | Tagging video using character recognition and propagation |
CN101650830B (zh) * | 2009-08-06 | 2012-08-15 | 中国科学院声学研究所 | 一种压缩域视频镜头突变与渐变联合自动分割方法 |
CN102982553A (zh) * | 2012-12-21 | 2013-03-20 | 天津工业大学 | 一种镜头边界检测方法 |
CN104966104B (zh) * | 2015-06-30 | 2018-05-11 | 山东管理学院 | 一种基于三维卷积神经网络的视频分类方法 |
CN108540833A (zh) * | 2018-04-16 | 2018-09-14 | 北京交通大学 | 一种基于镜头的电视广告识别方法 |
CN109934188B (zh) * | 2019-03-19 | 2020-10-30 | 上海大学 | 一种幻灯片切换检测方法、系统、终端及存储介质 |
-
2019
- 2019-10-30 CN CN201911044888.8A patent/CN110830734B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236604A (zh) * | 2008-01-11 | 2008-08-06 | 北京航空航天大学 | 一种快速的镜头边界检测方法 |
CN104318207A (zh) * | 2014-10-08 | 2015-01-28 | 合肥工业大学 | 一种利用快速鲁棒特征和支持向量机来判断切变镜头和渐变镜头的方法 |
CN104952073A (zh) * | 2015-06-15 | 2015-09-30 | 上海交通大学 | 基于深度学习的镜头边缘检测方法 |
CN106327513A (zh) * | 2016-08-15 | 2017-01-11 | 上海交通大学 | 基于卷积神经网络的镜头边界检测方法 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110830734A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635686B (zh) | 结合人脸与外观的两阶段行人搜索方法 | |
CN104598883B (zh) | 一种多摄像机监控网络中目标再识别的方法 | |
CN109145708B (zh) | 一种基于rgb和d信息融合的人流量统计方法 | |
CN104978567B (zh) | 基于场景分类的车辆检测方法 | |
CN110263712B (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN104200495A (zh) | 一种视频监控中的多目标跟踪方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN110309810B (zh) | 一种基于批次中心相似度的行人重识别方法 | |
CN109859246B (zh) | 一种结合相关滤波与视觉显著性的低空慢速无人机跟踪方法 | |
Xiong et al. | Automatic video data structuring through shot partitioning and key-frame computing | |
CN104376334A (zh) | 一种多尺度特征融合的行人比对方法 | |
CN116030396B (zh) | 一种用于视频结构化提取的精确分割方法 | |
CN112883940A (zh) | 静默活体检测方法、装置、计算机设备及存储介质 | |
CN110458019B (zh) | 稀缺认知样本条件下的排除倒影干扰的水面目标检测方法 | |
CN116977937A (zh) | 一种行人重识别的方法及系统 | |
CN111444817A (zh) | 一种人物图像识别方法、装置、电子设备和存储介质 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
CN110830734B (zh) | 一种突变和渐变镜头切换识别方法及系统 | |
CN110825916A (zh) | 一种基于形体识别技术的寻人方法 | |
CN104504162B (zh) | 一种基于机器人视觉平台的视频检索方法 | |
CN109583361A (zh) | 基于能量最小化的场景视频文本跟踪方法 | |
Ghaleb et al. | Vision-based hand gesture spotting and recognition using CRF and SVM | |
CN111160099B (zh) | 一种视频图像目标的智能化分割方法 | |
Almomani et al. | Segtrack: A novel tracking system with improved object segmentation | |
CN115393788B (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |