CN113177445B - 一种视频运镜的识别方法及系统 - Google Patents

一种视频运镜的识别方法及系统 Download PDF

Info

Publication number
CN113177445B
CN113177445B CN202110413792.5A CN202110413792A CN113177445B CN 113177445 B CN113177445 B CN 113177445B CN 202110413792 A CN202110413792 A CN 202110413792A CN 113177445 B CN113177445 B CN 113177445B
Authority
CN
China
Prior art keywords
mirror
neural network
video stream
category
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110413792.5A
Other languages
English (en)
Other versions
CN113177445A (zh
Inventor
刘辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Fusion Media Technology Development Beijing Co ltd
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202110413792.5A priority Critical patent/CN113177445B/zh
Publication of CN113177445A publication Critical patent/CN113177445A/zh
Application granted granted Critical
Publication of CN113177445B publication Critical patent/CN113177445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种视频运镜的识别方法及系统,方法包括:获取训练数据集,训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;对训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列;将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数;获取待识别视频流的识别运镜类别。有益效果:提高运镜类别的识别精确度。

Description

一种视频运镜的识别方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频运镜的识别方法及系统。
背景技术
视频剪辑在视频制作中具有重要的作用,在视频剪辑过程中,使用不同的运镜类别可以呈现不同的效果,传递出不同的情感。
然而目前通常采用人工的方式识别运镜类别,即通过人工观看视频,来对视频的运镜类别进行识别,不仅需要消耗大量人力成本和时间成本,而且采用需要识别人员具有专业的摄影知识,人工标记成本高;
目前也可以常采用编撰规则的方式进行识别,即将根据预先设置的运镜类别的特征规则来识别视频的运镜类别,然而上述现有技术中的特征规则需要人员输入,并且每条特征规则的适用范围小,每条特征规则的识别准确率较低,多条特征规则之间容易出现冲突,从而导致视频中的每个片段符合多特征规则,进而导致特征规则的更新成本高。
发明内容
针对现有技术中存在的上述问题,现提供一种视频运镜的识别方法及系统,实现了对视频的运镜类别进行识别。
具体技术方案如下:
一种视频运镜的识别方法,其中,方法包括:
获取训练数据集,训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;
对训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;
其中,第一运镜类别与第二运镜类别不同;
获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列;
将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;
将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数;
获取待识别视频流的第二图像输入序列,并依次输入到第一神经网络,以及进行参数调整后的第二神经网络和第三神经网络中,获得识别运镜类别。
优选的,视频运镜的识别方法,其中,对训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别,具体包括以下步骤:
获取训练数据集的每个视频流对应的第一运镜类别;
根据视频流对应的第一运镜类别对视频流进行运镜转换,以转换得到与第一运镜类别不同的第二运镜类别。
优选的,视频运镜的识别方法,其中,将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别,具体包括以下步骤:
将每个视频流的第一图像输入序列输入到第一神经网络中,以得到对应的第一视觉特征向量序列;
将第一视觉特征向量序列依照顺序依次输入到第二神经网络中,得到对应的第一时序编码信息;
将第一时序编码信息输入到第三神经网络中,得到预测运镜类别。
优选的,视频运镜的识别方法,其中,第一运镜类别与第二运镜类别相反。
优选的,视频运镜的识别方法,其中,获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列,具体包括以下步骤:
获取运镜转换前的训练数据集的每个视频流;
获取运镜转换后的训练数据集的每个视频流;
对获取得到的每个视频流进行取帧处理,以得到每个视频流的图像输入序列。
优选的,视频运镜的识别方法,其中,对获取得到的每个视频流进行取帧处理,以得到每个视频流的图像输入序列,具体包括:按照预设时间周期获取视频流的预设数量的视频帧,根据获取到视频帧的时间顺序生成图像输入序列。
优选的,视频运镜的识别方法,其中,获取待识别视频流的第二图像输入序列,并依次输入到第一神经网络,以及进行参数调整后的第二神经网络和第三神经网络中,获得识别运镜类别,具体包括:
获取待识别视频流的第二图像输入序列;
将待识别视频流的第二图像输入序列输入到第一神经网络中,以得到对应的第二视觉特征向量序列;
将第二视觉特征向量序列依照顺序依次输入到参数调整后的第二神经网络中,得到对应的第二时序编码信息;
将第二时序编码信息输入到参数调整后的第三神经网络中,得到识别运镜类别。
优选的,视频运镜的识别方法,其中,第一神经网络为Resnet神经网络,第二神经网络为循环神经网络,第三神经网络为全连接神经网络。
优选的,视频运镜的识别方法,其中,预设算法为梯度下降算法。
还提供一种视频运镜的识别系统,其中,包括:训练模块和识别模块;
训练模块包括:
数据集获取单元,用于获取训练数据集,训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;
运镜转换单元,用于对训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;
其中,第一运镜类别与第二运镜类别不同;
序列获取单元,用于获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列;
预测单元,用于将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;
参数调整单元,用于将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数;
识别模块,用于获取待识别视频流的第二图像输入序列,并依次输入到第一神经网络,以及进行参数调整后的第二神经网络和第三神经网络中,获得识别运镜类别。
上述技术方案具有如下优点或有益效果:
通过对视频流进行运镜转换,来使得转换前后的不同训练数据集中的同一视频流的视频内容一致,但是运镜类别存在不同,从而增强运镜类别,并且模糊视频流中出现的物体,进而提高运镜类别识别的精确度。
附图说明
参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
图1为本发明视频运镜的识别方法的实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明包括一种视频运镜的识别方法,如图1所示,方法包括:
步骤S1,获取训练数据集,训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;
步骤S2,对训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;
其中,第一运镜类别与第二运镜类别不同;
步骤S3,获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列;
步骤S4,将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;
步骤S5,将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数;
步骤S6,获取待识别视频流的第二图像输入序列,并依次输入到第一神经网络,以及进行参数调整后的第二神经网络和第三神经网络中,获得识别运镜类别。
在上述实施例中,通过对视频流进行运镜转换,来使得转换前后的不同训练数据集中的同一视频流的视频内容一致,但是运镜类别存在不同,从而增强运镜类别,并且模糊视频流中出现的物体,进而提高运镜类别识别的精确度。
在上述实施例中,步骤S1到步骤S5是采用训练数据集对第二神经网络和第三神经网络的训练过程,如图1中实线箭头流程所示;
步骤S6是采用第一神经网络,以及进行参数调整后的第二神经网络和第三神经网络对待识别视频流的运镜类别的识别多次,如图1中虚线箭头流程所示。
在上述实施例中,可以对每个视频流进行一次或多次运镜转换。
进一步地,在上述实施例中,步骤S2具体包括以下步骤:
步骤S21,获取训练数据集的每个视频流对应的第一运镜类别;
步骤S22,根据视频流对应的第一运镜类别对视频流进行运镜转换,以转换得到与第一运镜类别不同的第二运镜类别。
在上述实施例中,通过对视频流进行运镜转换,使得第二运镜类别与第一运镜类别不同,从而转换前后的不同训练数据集中的同一视频流的视频内容一致但是运镜类别存在不同,进而增强运镜类别,并且模糊视频流中出现的物体。
进一步地,在上述实施例中,第一运镜类别和第二运镜类别均包括:推运镜类别、拉运镜类别、移运镜类别、跟运镜类别、甩运镜类别、升降运镜类别和静态运镜类别等运镜类别。
需要说明的是,推运镜类别的具体应用可以为:被摄体不动,由拍摄机器作向前的运动拍摄,取景范围由大变小,向前推进镜头可以让画面迅速拉近,吸引观众的注意力聚焦在一点。
拉运镜类别的具体应用可以为:被摄体不动,由拍摄机器作向后的拉摄运动,取景范围由小变大,也可分为慢拉、快拉、猛拉。在画面上的效果是倒退,能起到交代环境背景的效果。
摇运镜类别的具体应用可以为:摄影、摄像机位置不动,机身依托于三脚架上的底盘作上下、左右、旋转等运动,使观众如同站在原地环顾、打量周围的人或事物。
移运镜类别又称移动拍摄,具体应用可以为:将摄影、摄像机安放在运载工具上,沿水平面在移动中拍摄对象。
跟运镜类别指的是跟踪拍摄,其中,跟拍的手法灵活多样,使观众的眼睛始终盯牢在被跟摄人体、物体上。
甩运镜类别指的是甩镜头,也即扫摇镜头,具体应用可以为:从一个被摄体甩向另一个被摄体,表现急剧的变化,作为场景变换的手段时不露剪辑的痕迹。
最后升运镜类别指的是拍摄镜头上升,降运镜类别指的是镜头下降。
进一步地,在上述实施例中,采用视频处理工具对视频流进行运镜转换。
优选的,视频处理工具可以为ffmpeg工具,也可以选用其他视频处理工具。
进一步地,作为优选的实施方式,第一运镜类别可以与第二运镜类别正好相反。
在上述优选的实施方式中,通过运镜转换,使得第一运镜类别可以与第二运镜类别正好相反,更进一步地对视频流的运镜类别进行增强处理,更方便后续的运镜识别。
在上述优选的实施方式中,推运镜类别的相反运镜类别可以为拉运镜类别;
在上述优选的实施方式中,静态运镜类别的相反运镜类别可以为推运镜类别、拉运镜类别、移运镜类别、跟运镜类别、甩运镜类别、升降运镜类别等动态运镜类别。
举例说明,推运镜类别为:被摄体不动,由拍摄机器作向前的运动拍摄;
而拉运镜类别为:被摄体不动,由拍摄机器作向后的拉摄运动;
当视频流对应的第一运镜类别为推运镜类别时,可以使用ffmpeg工具对视频流进行倒放从而实现对视频流进行运镜转换,以得到拉运镜类别的视频流。
举例说明,当视频流对应的第一运镜类别为静态运镜类别时,可以使用ffmpeg工具对视频流处理,从而将静态运镜类别转换为动态运镜类别中的至少一种。
进一步地,在上述实施例中,步骤S3具体包括以下步骤:
步骤S31,获取运镜转换前的训练数据集的每个视频流;和
获取运镜转换后的训练数据集的每个视频流;
需要说明的是,运镜转换后的训练数据集可以为一个或多个;
步骤S32,对获取得到的每个视频流进行取帧处理,以得到每个视频流的图像输入序列;
需要说明的是,每个视频流对应一个图像输入序列;
步骤S32具体包括:按照预设时间周期获取视频流的预设数量的视频帧,根据获取到视频帧的时间顺序生成图像输入序列;
作为优选的实施方式,预设时间周期和预设数量均由用户自定义。
例如,可以将预设时间周期定义为1秒,将预设数量定义为2帧;
对每个视频流取帧,具体为:平均每秒获取视频流的两帧视频帧,生成每个视频的图像输入序列;相当于对每个视频流每秒截两张视频帧(相当于对每个视频流每秒截两张图),每个视频流就得到了2*n秒数量的视频帧,该2*n秒数量的视频帧就是图像输入序列;
进一步地,在上述实施例中,步骤S4具体包括:
步骤S41,将每个视频流的第一图像输入序列输入到第一神经网络中,以得到对应的第一视觉特征向量序列;
步骤S42,将第一视觉特征向量序列依照顺序依次输入到第二神经网络中,得到对应的第一时序编码信息;
步骤S43,将第一时序编码信息输入到第三神经网络中,得到预测运镜类别。
进一步地,在上述实施例中,第一神经网络可以为Resnet神经网络(残差神经网络)。
作为优选的实施方式,将每个视频流的第一图像输入序列输入到Resnet神经网络中,使得第一图像输入序列的每张图像都获取得到对应的一个2048维度的视觉特征向量,将视频流的每张图像对应的视觉特征向量设置为第一视觉特征向量序列。
在上述实施例中,第二神经网络为循环神经网络,第三神经网络为全连接神经网络。
在上述实施例中,将第一视觉特征向量序列依照顺序依次输入到循环神经网络中,得到整个视频流对应的第一时序编码信息;将第一时序编码信息输入到全连接神经网络中,得到预测运镜类别;
进一步地,在上述实施例中,预设算法为梯度下降算法。
在上述实施例中,步骤S6具体包括:
步骤S61,获取待识别视频流的第二图像输入序列;
步骤S62,将待识别视频流的第二图像输入序列输入到第一神经网络中,以得到对应的第二视觉特征向量序列;
步骤S63,将第二视觉特征向量序列依照顺序依次输入到参数调整后的第二神经网络中,得到对应的第二时序编码信息;
步骤S64,将第二时序编码信息输入到参数调整后的第三神经网络中,得到识别运镜类别。
需要说明的是,获取待识别视频流的第二图像输入序列的具体实施方式可以和获取第一图像输入序列的具体实施方式一致。
还包括一种视频运镜的识别系统,包括:训练模块和识别模块;
训练模块包括:
数据集获取单元,用于获取训练数据集,训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;
运镜转换单元,用于对训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;
其中,第一运镜类别与第二运镜类别不同;
序列获取单元,用于获取运镜转换前、后的训练数据集的每个视频流的第一图像输入序列;
预测单元,用于将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;
参数调整单元,用于将同一视频流对应的预测运镜类别与第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据比对结果采用预设算法更新第二神经网络和第三神经网络的参数;
识别模块,用于获取待识别视频流的第二图像输入序列,并依次输入到第一神经网络,以及进行参数调整后的第二神经网络和第三神经网络,获得识别运镜类别。
需要说明的是,本实施例中的视频运镜的识别系统的各实施例和视频运镜的识别方法的各实施例基本一致,在此不做赘述。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。

Claims (8)

1.一种视频运镜的识别方法,其特征在于,所述方法包括:
获取训练数据集,所述训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;
对所述训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;
其中,所述第一运镜类别与所述第二运镜类别不同;
获取运镜转换前、后的所述训练数据集的每个视频流的第一图像输入序列;
将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;
将同一视频流对应的所述预测运镜类别与所述第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据所述比对结果采用预设算法更新所述第二神经网络和所述第三神经网络的参数;
获取待识别视频流的第二图像输入序列,并依次输入到所述第一神经网络,以及进行参数调整后的所述第二神经网络和所述第三神经网络中,获得识别运镜类别;
所述第一神经网络为Resnet神经网络,所述第二神经网络为循环神经网络,所述第三神经网络为全连接神经网络;
所述获取待识别视频流的第二图像输入序列,并依次输入到所述第一神经网络,以及进行参数调整后的所述第二神经网络和所述第三神经网络中,获得识别运镜类别,具体包括:
获取所述待识别视频流的所述第二图像输入序列;
将所述待识别视频流的所述第二图像输入序列输入到所述第一神经网络中,以得到对应的第二视觉特征向量序列;
将所述第二视觉特征向量序列依照顺序依次输入到参数调整后的所述第二神经网络中,得到对应的第二时序编码信息;
将所述第二时序编码信息输入到参数调整后的所述第三神经网络中,得到所述识别运镜类别。
2.如权利要求1所述的视频运镜的识别方法,其特征在于,所述对所述训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别,具体包括以下步骤:
获取所述训练数据集的每个视频流对应的所述第一运镜类别;
根据视频流对应的所述第一运镜类别对视频流进行运镜转换,以转换得到与所述第一运镜类别不同的所述第二运镜类别。
3.如权利要求1所述的视频运镜的识别方法,其特征在于,所述将每个视频流的第一图像输入序列输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别,具体包括以下步骤:
将每个视频流的第一图像输入序列输入到所述第一神经网络中,以得到对应的第一视觉特征向量序列;
将所述第一视觉特征向量序列依照顺序依次输入到所述第二神经网络中,得到对应的第一时序编码信息;
将所述第一时序编码信息输入到所述第三神经网络中,得到预测运镜类别。
4.如权利要求1所述的视频运镜的识别方法,其特征在于,所述第一运镜类别与所述第二运镜类别相反。
5.如权利要求1所述的视频运镜的识别方法,其特征在于,所述获取运镜转换前、后的所述训练数据集的每个视频流的第一图像输入序列,具体包括以下步骤:
获取运镜转换前的所述训练数据集的每个视频流;
获取运镜转换后的所述训练数据集的每个视频流;
对获取得到的每个视频流进行取帧处理,以得到每个视频流的图像输入序列。
6.如权利要求5所述的视频运镜的识别方法,其特征在于,所述对获取得到的每个视频流进行取帧处理,以得到每个视频流的图像输入序列,具体包括:按照预设时间周期获取视频流的预设数量的视频帧,根据获取到视频帧的时间顺序生成所述图像输入序列。
7.如权利要求1所述的视频运镜的识别方法,其特征在于,所述预设算法为梯度下降算法。
8.一种视频运镜的识别系统,其特征在于,包括:训练模块和识别模块;
所述训练模块包括:
数据集获取单元,用于获取训练数据集,所述训练数据集包括至少一个视频流和每个视频流对应的第一运镜类别;
运镜转换单元,用于对所述训练数据集的每个视频流进行运镜转换,以将每个视频流的第一运镜类别转换为第二运镜类别;
其中,所述第一运镜类别与所述第二运镜类别不同;
序列获取单元,用于获取运镜转换前、后的所述训练数据集的每个视频流的第一图像输入序列;
预测单元,用于将每个视频流的第一图像输入序列依次输入到第一神经网络、第二神经网络和第三神经网络中,得到预测运镜类别;其中,所述第一神经网络为Resnet神经网络,所述第二神经网络为循环神经网络,所述第三神经网络为全连接神经网络;
参数调整单元,用于将同一视频流对应的预测运镜类别与所述第一运镜类别或第二运镜类别进行比对,以得到比对结果,根据所述比对结果采用预设算法更新所述第二神经网络和所述第三神经网络的参数;
所述识别模块,用于获取待识别视频流的第二图像输入序列,并依次输入到所述第一神经网络,以及进行参数调整后的所述第二神经网络和所述第三神经网络中,获得识别运镜类别,具体包括:
获取所述待识别视频流的所述第二图像输入序列;将所述待识别视频流的所述第二图像输入序列输入到所述第一神经网络中,以得到对应的第二视觉特征向量序列;将所述第二视觉特征向量序列依照顺序依次输入到参数调整后的所述第二神经网络中,得到对应的第二时序编码信息;将所述第二时序编码信息输入到参数调整后的所述第三神经网络中,得到所述识别运镜类别。
CN202110413792.5A 2021-04-16 2021-04-16 一种视频运镜的识别方法及系统 Active CN113177445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110413792.5A CN113177445B (zh) 2021-04-16 2021-04-16 一种视频运镜的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110413792.5A CN113177445B (zh) 2021-04-16 2021-04-16 一种视频运镜的识别方法及系统

Publications (2)

Publication Number Publication Date
CN113177445A CN113177445A (zh) 2021-07-27
CN113177445B true CN113177445B (zh) 2022-07-12

Family

ID=76923681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110413792.5A Active CN113177445B (zh) 2021-04-16 2021-04-16 一种视频运镜的识别方法及系统

Country Status (1)

Country Link
CN (1) CN113177445B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002536746A (ja) * 1999-02-01 2002-10-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 動画シーケンスを表す記述子とその記述子を使用する画像検索システム
CN109101876A (zh) * 2018-06-28 2018-12-28 东北电力大学 基于长短时记忆网络的人体行为识别方法
RU2698414C1 (ru) * 2018-09-21 2019-08-26 Владимир Александрович Свириденко Способ и устройство сжатия видеоинформации для передачи по каналам связи с меняющейся пропускной способностью и запоминания в системах хранения данных с использованием машинного обучения и нейросетей
CN110009565A (zh) * 2019-04-04 2019-07-12 武汉大学 一种基于轻量化网络的超分辨率图像重建方法
CN110084197A (zh) * 2019-04-28 2019-08-02 苏州清研微视电子科技有限公司 基于深度学习的公交车客流量统计方法和系统
CN111629230B (zh) * 2020-05-29 2023-04-07 北京市商汤科技开发有限公司 视频处理、脚本生成方法、装置、计算机设备及存储介质
CN111757149B (zh) * 2020-07-17 2022-07-05 商汤集团有限公司 视频剪辑方法、装置、设备及存储介质
CN111783729A (zh) * 2020-07-17 2020-10-16 商汤集团有限公司 视频分类方法、装置、设备及存储介质
CN112016434A (zh) * 2020-08-25 2020-12-01 安徽索贝数码科技有限公司 一种基于注意力机制3d残差网络的镜头运动识别方法

Also Published As

Publication number Publication date
CN113177445A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN110569702B (zh) 视频流的处理方法和装置
CN111726518A (zh) 用于捕获图像的系统和相机设备
CN110033463B (zh) 一种前景数据生成及其应用方法、相关装置和系统
CN112149459A (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN105095853B (zh) 图像处理装置及图像处理方法
CN111582150A (zh) 一种人脸质量评估的方法、装置和计算机存储介质
CN112648994B (zh) 基于深度视觉里程计和imu的相机位姿估计方法及装置
Zuckerman et al. Across scales and across dimensions: Temporal super-resolution using deep internal learning
CN112584076B (zh) 视频的插帧方法、装置及电子设备
CN111756996A (zh) 视频处理方法、视频处理装置、电子设备及计算机可读存储介质
CN112085768A (zh) 光流信息预测方法、装置、电子设备和存储介质
DE112021005070T5 (de) Multi-hop-transformer für räumlich-zeitliches denken und lokalisierung
CN110223245A (zh) 基于深度神经网络的模糊图片清晰化处理方法及系统
CN113283319A (zh) 人脸模糊度的评价方法及装置、介质和电子设备
CN114359789B (zh) 视频图像的目标检测方法、装置、设备及介质
CN113177445B (zh) 一种视频运镜的识别方法及系统
CN112258560B (zh) 一种用于获取物体的高光谱图像的方法及装置
CN110418148A (zh) 视频生成方法、视频生成设备及可读存储介质
CN117690175A (zh) 婴幼儿脸部图像抓取及增强方法、装置、设备及存储介质
KR101437898B1 (ko) 단일 영상을 이용한 hdr 영상 생성 장치 및 방법
Corcoran et al. Deep learning for consumer devices and services 3—Getting more from your datasets with data augmentation
CN112070061A (zh) 基于无人机的运动监控方法及装置
CN112418399A (zh) 训练姿态估计模型的方法、装置、姿态估计的方法及装置
CN110084306B (zh) 用于生成动态图像的方法和装置
CN114663299A (zh) 适用于煤矿井下的图像去雾模型的训练方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221213

Address after: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Patentee after: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd.

Patentee after: Xinhua fusion media technology development (Beijing) Co.,Ltd.

Address before: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Patentee before: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right