CN113591761B - 一种视频镜头语言识别方法 - Google Patents
一种视频镜头语言识别方法 Download PDFInfo
- Publication number
- CN113591761B CN113591761B CN202110908072.6A CN202110908072A CN113591761B CN 113591761 B CN113591761 B CN 113591761B CN 202110908072 A CN202110908072 A CN 202110908072A CN 113591761 B CN113591761 B CN 113591761B
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- data
- input
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种视频镜头语言识别方法,涉及视频拍摄镜头识别技术领域,所述识别方法包括:S1、准备模型训练和测试数据:逐帧计算视频序列的光流场得到相邻两帧的光流场序列,对每一帧光流场数据进行设置得到模型训练和测试的输入图像,并对输入图像进行标签标记;S2、构建深度学习神经网络模型,并根据训练数据及其对应的标签训练该模型,通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型。本发明的优点在于:使用了高效的光流算法和深度学习技术,使得视频镜头的实时分析,识别得到8种拍摄动作进而帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术,充分利用视频拍摄技巧来表达创作意图。
Description
技术领域
本发明涉及视频拍摄识别技术领域,尤其涉及一种视频镜头语言识别方法。
背景技术
影视镜头语言是一种艺术语言,它直接诉诸观众的视听感官,并且以直观的、具体的和鲜明的形象传达含义,具有强烈的艺术感染力;由摄像机的运动和不同镜头的剪辑所产生的蒙太奇不仅形成了银幕形象的构成法则,并且给观众带来了不同的全新感受。
视频拍摄过程的拍摄动作主要包括推、拉、升、降、左右摇动、跟随和静止镜头等,对这些拍摄动作进行分析可以帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术,充分利用视频拍摄技巧来表达创作意图,但是,目前并没有关于对这些拍摄动作进行分析的技术方案。
发明内容
本发明的目的在于克服现有技术的缺点,提供了一种视频镜头语言识别方法,能够对拍摄过程中对拍摄动作进行分析识别,进而帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术,充分利用视频拍摄技巧来表达创作意图。
本发明的目的通过以下技术方案来实现:一种视频镜头语言识别方法,所述识别方法包括:
S1、准备模型训练和测试数据:逐帧计算视频序列的光流场得到相邻两帧的光流场序列,对每一帧光流场数据进行设置得到模型训练和测试的输入图像,并对输入图像进行标签标记;
S2、构建深度学习神经网络模型,并根据训练数据及其对应的标签训练该模型,通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型。
所述对每一帧光流场数据进行设置包括:
A1、将每一帧光流场数据的幅值和角度数据都映射到0到255范围之间;
A2、与每一帧光流场数据对应,生成一帧高宽与输入视频高宽一样的RGB图像数据,并将A1中的光流场的幅值作为R分量的数据,将A1中的角度值作为G分量的数据,将B 分量数据全部设置为255;
A3、以上述图像的中心为圆心坐标,以高宽中较小的值的一半为半径画圆,将该图像圆内的像素的G分量全部设置为1;
A4、将上述图像缩小为阈值大小,作为模型训练和测试的输入图像。
所述对输入图像进行标签标记包括:
将拍摄动作类型为推镜头的图像标记为1、拉镜头的图像标记为2、升镜头的图像标记为 3、降镜头的图像标记为4、左摇镜头的图像标记为5、右摇镜头的图像标记为6、跟随镜头的图像标记为7、静止镜头的图像标记为8;
将标记结果写入文本文件,文件行数对于用于训练的图像个数,每一行记录本行对应的训练图像的路径以及该训练图像所属的镜头类型。
所述构建深度学习神经网络模型包括:
输入层为卷积层Conv2D,包含32个卷积核,卷积核大小为3*3*3,输入大小为64*64*3,输出大小为64*64*32;
在输入层后面跟一个激活层,激活函数为relu函数;
接着是2*2的最大池化层,再接一个丢弃层,丢弃概率为0.25,再接一个卷积层,包含 64个卷积核,卷积核大小为3*3*32.输出大小为32*32*64;
再接一个激活层,激活函数为relu函数;再接一层2*2的最大池化层;再接一个丢弃层,丢弃概率为0.25;再接一层flatten层,将输出展平为1*16384;再接入一个全连接层,输出为1*64;再接一个激活层,激活函数为relu函数;再接一个丢弃层,丢弃概率为0.25;再接入一个全连接层,输出为1*8;再接入一个激活层,激活函数为softmax,输出为1*8。
所述通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型包括:
输入测试数据到模型中,模型最后一个激活层softmax输出8个浮点数;
判断8个浮点数中最大值对应的标签数是多少,根据标签数确定测试数据的镜头类型。
本发明具有以下优点:一种视频镜头语言识别方法,使用了高效的光流算法和深度学习技术,使得视频镜头的实时分析,识别得到8种拍摄动作进而帮助影视相关从业人员和学生更好更快的理解和掌握视频创作技术,充分利用视频拍摄技巧来表达创作意图。
具体实施方式
本发明涉及一种视频镜头语言识别方法,利用视频中光流场,以及深度学习技术,识别电影和电视制作中的各种镜头语言,如:推镜头,拉镜头,镜头上下移动,镜头左右移动,静止镜头、镜头跟随;所述识别方法包括:
S1、准备模型训练和测试数据:逐帧计算视频序列的光流场得到相邻两帧的光流场序列,对每一帧光流场数据进行设置得到模型训练和测试的输入图像,并对输入图像进行标签标记;
进一步地,使用Dense Inverse Search算法来计算视频序列的光流场。
S2、构建深度学习神经网络模型,并根据训练数据及其对应的标签训练该模型,通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型。
进一步地,对每一帧光流场数据进行设置包括:
A1、将每一帧光流场数据的幅值和角度数据都映射到0到255范围之间;
A2、与每一帧光流场数据对应,生成一帧高宽与输入视频高宽一样的RGB图像数据,并将A1中的光流场的幅值作为R分量的数据,将A1中的角度值作为G分量的数据,将B 分量数据全部设置为255;
A3、设置一个遮罩区域:以上述图像的中心为圆心坐标,以高宽中较小的值的一半为半径画圆,将该图像圆内的像素的G分量全部设置为1;
进一步地,设置该遮罩区域是为了避免镜头中心区域像素对推、拉、升、降、左右摇动这些动作识别的影响。因为一般情况下,画面中心的物体大多都是近处物体,摄像机做上述运动时带来的变化较小。设置中心区域的遮罩是为了避免这些较近物体对摄像机动作判断带来的影响。但遮罩只是在G分量做了设置,在R分量还是保持了所有像素信息,这是为了仍然保持一部分中心区域的信息,在做镜头跟随和静止镜头识别时得到更加准确的结果。
A4、将上述图像缩小为64×64大小的图像,作为模型训练和测试的输入图像。
所述对输入图像进行标签标记包括:
将拍摄动作类型为推镜头的图像标记为1、拉镜头的图像标记为2、升镜头的图像标记为 3、降镜头的图像标记为4、左摇镜头的图像标记为5、右摇镜头的图像标记为6、跟随镜头的图像标记为7、静止镜头的图像标记为8;
将标记结果写入文本文件,文件行数对于用于训练的图像个数,每一行记录本行对应的训练图像的路径以及该训练图像所属的镜头类型。
所述构建深度学习神经网络模型包括:
输入层为卷积层Conv2D,包含32个卷积核,卷积核大小为3*3*3,输入大小为64*64*3,输出大小为64*64*32;
在输入层后面跟一个激活层,激活函数为relu函数;
接着是2*2的最大池化层,再接一个丢弃层,丢弃概率为0.25,再接一个卷积层,包含 64个卷积核,卷积核大小为3*3*32.输出大小为32*32*64;
再接一个激活层,激活函数为relu函数;再接一层2*2的最大池化层;再接一个丢弃层,丢弃概率为0.25;再接一层flatten层,将输出展平为1*16384;再接入一个全连接层,输出为1*64;再接一个激活层,激活函数为relu函数;再接一个丢弃层,丢弃概率为0.25;再接入一个全连接层,输出为1*8;再接入一个激活层,激活函数为softmax,输出为1*8。
进一步地,模型训练的停止条件为满足以下两中情况之一即可:相邻5次训练迭代的误差小于预设精度;或者总得训练迭代次数等于40次。
模型训练好后,使用训练好的模型预测输入的测试数据,模型可以输出输入的测试数据属于推、拉、升、降、左摇,右摇、跟随、静止这8种分类中的某一种。
进一步地,通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型包括:
输入测试数据到模型中,模型最后一个激活层softmax输出8个浮点数;
判断8个浮点数中最大值对应的标签数是多少,根据标签数确定测试数据的镜头类型。比如输出的8个值中,如果第二个值最大,则输入的数据为拉这种分类。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (4)
1.一种视频镜头语言识别方法,其特征在于:所述识别方法包括:
S1、准备模型训练和测试数据:逐帧计算视频序列的光流场得到相邻两帧的光流场序列,对每一帧光流场数据进行设置得到模型训练和测试的输入图像,并对输入图像进行标签标记;
S2、构建深度学习神经网络模型,并根据训练数据及其对应的标签训练该模型,通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型;
所述对每一帧光流场数据进行设置包括:
A1、将每一帧光流场数据的幅值和角度数据都映射到0到255范围之间;
A2、与每一帧光流场数据对应,生成一帧高宽与输入视频高宽一样的RGB图像数据,并将A1中的光流场的幅值作为R分量的数据,将A1中的角度值作为G分量的数据,将B分量数据全部设置为255;
A3、以上述图像的中心为圆心坐标,以高宽中较小的值的一半为半径画圆,将该图像圆内的像素的G分量全部设置为1;
A4、将上述图像缩小为阈值大小,作为模型训练和测试的输入图像,阈值为64×64大小的图像。
2.根据权利要求1所述的一种视频镜头语言识别方法,其特征在于:所述对输入图像进行标签标记包括:
将拍摄动作类型为推镜头的图像标记为1、拉镜头的图像标记为2、升镜头的图像标记为3、降镜头的图像标记为4、左摇镜头的图像标记为5、右摇镜头的图像标记为6、跟随镜头的图像标记为7、静止镜头的图像标记为8;
将标记结果写入文本文件,文件行数对应于用于训练的图像个数,每一行记录本行对应的训练图像的路径以及该训练图像所属的镜头类型。
3.根据权利要求1所述的一种视频镜头语言识别方法,其特征在于:所述构建深度学习神经网络模型包括:
输入层为卷积层Conv2D,包含32个卷积核,卷积核大小为3*3*3,输入大小为64*64*3,输出大小为64*64*32;
在输入层后面跟一个激活层,激活函数为relu函数;
接着是2*2的最大池化层,再接一个丢弃层,丢弃概率为0.25,再接一个卷积层,包含64个卷积核,卷积核大小为3*3*32.输出大小为32*32*64;
再接一个激活层,激活函数为relu函数;再接一层2*2的最大池化层;再接一个丢弃层,丢弃概率为0.25;再接一层flatten层,将输出展平为1*16384;再接入一个全连接层,输出为1*64;再接一个激活层,激活函数为relu函数;再接一个丢弃层,丢弃概率为0.25;再接入一个全连接层,输出为1*8;再接入一个激活层,激活函数为softmax,输出为1*8。
4.根据权利要求3所述的一种视频镜头语言识别方法,其特征在于:所述通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型包括:
输入测试数据到模型中,模型最后一个激活层softmax输出8个浮点数;
判断8个浮点数中最大值对应的标签数是什么,根据标签数确定测试数据的镜头类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908072.6A CN113591761B (zh) | 2021-08-09 | 2021-08-09 | 一种视频镜头语言识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110908072.6A CN113591761B (zh) | 2021-08-09 | 2021-08-09 | 一种视频镜头语言识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591761A CN113591761A (zh) | 2021-11-02 |
CN113591761B true CN113591761B (zh) | 2023-06-06 |
Family
ID=78256364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110908072.6A Active CN113591761B (zh) | 2021-08-09 | 2021-08-09 | 一种视频镜头语言识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591761B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114500851A (zh) * | 2022-02-23 | 2022-05-13 | 广州博冠信息科技有限公司 | 视频录制方法及装置、存储介质、电子设备 |
CN114882422A (zh) * | 2022-06-08 | 2022-08-09 | 北京奇艺世纪科技有限公司 | 一种视频检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255284A (zh) * | 2018-07-10 | 2019-01-22 | 西安理工大学 | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 |
CN110287805A (zh) * | 2019-05-31 | 2019-09-27 | 东南大学 | 基于三流卷积神经网络的微表情识别方法及系统 |
CN111008616A (zh) * | 2019-12-25 | 2020-04-14 | 南京猫头鹰智能科技有限公司 | 一种基于卷积神经网络和深度核网络的视频行为识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228129B (zh) * | 2016-07-18 | 2019-09-10 | 中山大学 | 一种基于matv特征的人脸活体检测方法 |
CN108304755B (zh) * | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
CN108985192A (zh) * | 2018-06-29 | 2018-12-11 | 东南大学 | 一种基于多任务深度卷积神经网络的视频烟雾识别方法 |
CN110175596B (zh) * | 2019-06-04 | 2022-04-22 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
CN110516571B (zh) * | 2019-08-16 | 2022-02-11 | 东南大学 | 基于光流注意力神经网络的跨库微表情识别方法及装置 |
CN111539879B (zh) * | 2020-04-15 | 2023-04-14 | 清华大学深圳国际研究生院 | 基于深度学习的视频盲去噪方法及装置 |
CN112348125B (zh) * | 2021-01-06 | 2021-04-02 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
-
2021
- 2021-08-09 CN CN202110908072.6A patent/CN113591761B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255284A (zh) * | 2018-07-10 | 2019-01-22 | 西安理工大学 | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 |
CN110287805A (zh) * | 2019-05-31 | 2019-09-27 | 东南大学 | 基于三流卷积神经网络的微表情识别方法及系统 |
CN111008616A (zh) * | 2019-12-25 | 2020-04-14 | 南京猫头鹰智能科技有限公司 | 一种基于卷积神经网络和深度核网络的视频行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113591761A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325454B (zh) | 一种基于YOLOv3的静态手势实时识别方法 | |
CN106875373B (zh) | 基于卷积神经网络剪枝算法的手机屏幕mura缺陷检测方法 | |
CN113591761B (zh) | 一种视频镜头语言识别方法 | |
US8280158B2 (en) | Systems and methods for indexing presentation videos | |
CN110633610B (zh) | 一种基于yolo的学员状态检测方法 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
CN110766050B (zh) | 模型生成方法、文本识别方法、装置、设备及存储介质 | |
WO2020207203A1 (zh) | 一种前景数据生成及其应用方法、相关装置和系统 | |
CN112084927B (zh) | 一种融合多种视觉信息的唇语识别方法 | |
CN107273870A (zh) | 一种监控场景下融合上下文信息的行人位置检测方法 | |
US20210056464A1 (en) | Training apparatus, image recognition apparatus, training method, and program | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN103810500A (zh) | 一种基于有监督学习概率主题模型的地点图像识别方法 | |
CN110689000A (zh) | 一种基于生成复杂环境下车牌样本的车辆车牌识别方法 | |
CN108921023A (zh) | 一种确定低质量人像数据的方法及装置 | |
CN115953836A (zh) | 线下课堂学生课堂行为智能识别和认知状态关联方法 | |
CN113159146A (zh) | 样本生成、目标检测模型训练、目标检测方法及装置 | |
CN113989608A (zh) | 基于顶部视觉的学生实验课堂行为识别方法 | |
CN107392246A (zh) | 一种基于特征模型到背景模型距离的背景建模方法 | |
CN109829887B (zh) | 一种基于深度神经网络的图像质量评估方法 | |
CN116883663A (zh) | 基于深度学习的视频流中飞行目标主要部件语义分割方法 | |
CN111160147A (zh) | 一种书法作品图像的裁剪和识别方法 | |
US20220157050A1 (en) | Image recognition device, image recognition system, image recognition method, and non-transitry computer-readable recording medium | |
CN105354833A (zh) | 一种阴影检测的方法和装置 | |
CN114519887A (zh) | 一种基于深度学习的中小学课堂学生转脸检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |