CN118102033A - 视频处理方法、装置及计算机可读存储介质 - Google Patents
视频处理方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN118102033A CN118102033A CN202410226674.7A CN202410226674A CN118102033A CN 118102033 A CN118102033 A CN 118102033A CN 202410226674 A CN202410226674 A CN 202410226674A CN 118102033 A CN118102033 A CN 118102033A
- Authority
- CN
- China
- Prior art keywords
- image
- main object
- video frame
- area
- frame image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请实施例提供一种视频处理方法、装置及计算机可读存储介质,涉及视频处理技术领域。在上述方法中,通过图像对象的权重值确定图像主对象及对应显示的目标图像区域,可以将第一视频帧图像(横屏视频帧图像)转换成第二视频帧图像(竖屏视频帧图像)后仍保留关键的影像信息,并可使竖屏的视频帧图像与显示设备适配,有效提升视频从横屏显示转换为竖屏显示的视频质量,提高观众的观影体验。
Description
技术领域
本申请涉及视频处理技术领域,具体而言,涉及一种视频处理方法、装置及计算机可读存储介质。
背景技术
随着短视频的发展,竖屏视频显示模式越来越流行,但并非所有视频从制作之初便是针对竖屏条件下观看而设计拍摄的。在现有技术中,可以保留横屏视频的横向长宽比,将视频在竖屏模式下居中显示,视频本身只占据屏幕中的一小部分区域,为了填充剩余的屏幕空间,可以在视频的上下添加固定的文字模板或者将原视频背景虚化后作为填充背景。在上述横屏显示转竖屏显示的技术中,由于视频(比如,游戏视频)仅占据屏幕中心的一小块区域,相较于全屏展示,其细节难以被观察到,导致游戏内容不够突出,影响观看体验。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种视频处理方法、装置及计算机可读存储介质。
第一方面,本申请实施例提供一种视频处理方法,所述视频处理方法包括:
获取第一视频帧图像,其中,所述第一视频帧图像的横向长度大于所述第一视频帧图像的竖向长度;
对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域,其中,所述第二视频帧图像的横向长度小于所述第二视频帧图像的竖向长度;
基于所述图像主对象的位置变化更新所述目标图像区域的图像画面,得到所述第二视频帧图像。
在一种可能的实现方式中,所述对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域的步骤,包括:
采用训练好的图像对象检测模型对所述第一视频帧图像进行对象检测,得到图像对象;
获取所述图像对象所对应的权重值,并基于所述图像对象的权重值确定出所述图像主对象及所述第二视频帧图像对应显示的目标图像区域。
在一种可能的实现方式中,所述采用训练好的图像对象检测模型对所述第一视频帧图像进行对象检测,得到图像对象的步骤之前,所述方法还包括训练得到图像检测模型的步骤,该步骤包括:
获取包括各种图像对象的样本图像,并对所述图像对象进行标注得到验证样本图像,由所述样本图像及所述验证样本图像组成样本图像对;
对所述样本图像及所述验证样本图像进行预处理,并将预处理后的样本图像输入图像训练模型中进行训练,得到图像对象提取结果;
基于所述图像对象提取结果及对应所述验证样本图像中的标注信息计算所述图像训练模型的损失函数值,将所述损失函数值与预设的损失函数阈值进行比较,在所述损失函数值大于所述预设的损失函数阈值时,将所述图像训练模型中的模型参数进行更新并重复上述步骤,直到所述损失函数值小于所述预设的损失函数阈值或所述模型参数迭代更新的次数达到预设次数,结束对所述图像训练模型的训练,将训练完成时对应的图像训练模型作为所述训练好的图像对象检测模型。
在一种可能的实现方式中,所述获取所述图像对象所对应的权重值,并基于所述图像对象的权重值确定出所述图像主对象及所述第二视频帧图像对应显示的目标图像区域的步骤,包括:
从预先配置的权重参数表中获取所述图像对象所对应的权重值;
获取所述图像对象的像素中心,并将像素中心距离小于预设距离的图像对象进行融合,得到包含至少两个所述图像对象的图像区域,其中,所述图像区域的权重值为所述图像区域中的所有图像对象的权重值之和;
基于所述图像对象及所述图像区域的权重值确定出图像主对象,并基于所述图像主对象确定所述第二视频帧图像对应显示的目标图像区域。
在一种可能的实现方式中,所述基于所述图像对象及所述图像区域的权重值确定出图像主对象,并基于所述图像主对象确定所述第二视频帧图像对应显示的目标图像区域的步骤,包括:
将所述图像对象及所述图像区域按照权重值的大小进行排序,并将最大权重值对应的图像对象作为所述图像主对象;
基于所述图像主对象确定出所述第二视频帧图像对应显示的目标图像区域,其中,所述图像主对象的像素中心位于所述图像区域的中心位置。
在一种可能的实现方式中,所述基于所述图像主对象的位置变化更新所述目标图像区域的图像画面,得到所述第二视频帧图像的步骤,包括:
检测上一时刻的图像主对象与当前时刻的图像主对象是否相同,在上一时刻的图像主对象与当前时刻的图像主对象相同时,所述目标图像区域随着上一时刻的图像主对象的移动而移动;
在上一时刻的图像主对象与当前时刻的图像主对象不相同时,所述目标图像区域由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域。
在一种可能的实现方式中,所述在上一时刻的图像主对象与当前时刻的图像主对象不相同时,所述目标图像区域由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域的步骤,包括:
在上一时刻的图像主对象与当前时刻的图像主对象不相同时,获取上一时刻的图像主对象与当前时刻的图像主对象在所述第一视频帧图像中的位置坐标;
基于所述上一时刻的图像主对象与当前时刻的图像主对象在所述第一视频帧图像中的位置坐标确定所述目标图像区域的移动方向;
基于所述第一视频帧图像的帧率及预先配置的运镜速度计算所述目标图像区域在每一帧中的移动距离,将所述目标图像区域由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域。
在一种可能的实现方式中,所述基于所述上一时刻的图像主对象与当前时刻的图像主对象在所述第一视频帧图像中的位置坐标确定所述目标图像区域的移动方向的步骤,包括:
获取所述上一时刻的图像主对象及所述当前时刻的图像主对象在所述第一视频帧图像中的位置坐标,所述上一时刻的图像主对象的位置坐标包括第一横坐标及第一纵坐标,所述当前时刻的图像主对象的位置坐标包括第二横坐标及第二纵坐标;
基于所述第一横坐标及所述第二横坐标的大小关系确定所述目标图像区域在横坐标轴上的第一移动方向;
基于所述第一纵坐标及所述第二纵坐标的大小关系确定所述目标图像区域在纵坐标轴上的第二移动方向;
基于所述第一移动方向及所述第二移动方向确定所述目标图像区域的移动方向。
第二方面,本申请实施例还提供一种视频处理装置,所述装置包括:
获取模块,用于获取第一视频帧图像,其中,所述第一视频帧图像的横向长度大于所述第一视频帧图像的竖向长度;
检测模块,用于对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域,其中,所述第二视频帧图像的横向长度小于所述第二视频帧图像的竖向长度;
更新模块,用于基于所述图像主对象更新的位置变化所述目标图像区域的图像画面,得到所述第二视频帧图像。
第三方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任意一种所述的方法。
基于上述任意一个方面,本申请实施例提供的视频处理方法、装置及计算机可读存储介质,通过图像对象的权重值确定图像主对象及对应显示的目标图像区域,可以确保将第一视频帧图像(横屏视频帧图像)转换成第二视频帧图像(竖屏视频帧图像)后仍保留关键的影像信息,并可使得竖屏的视频帧图像与显示设备适配,有效提升视频从横屏显示转换为竖屏显示的视频质量,提高观众的观影体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要调用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的视频处理方法的一种可能的流程示意图;
图2为图1中步骤S120的子流程示意图;
图3为一种可能的权重查询表;
图4为图2中步骤S122的子流程示意图;
图5为目标图像区域的一种可能的移动示意图;
图6为目标图像区域的另一种可能的移动示意图;
图7为本申请实施例提供的视频处理装置的一种可能的功能方框图;
图8为本申请实施例提供的计算机设备的一种可能的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请的实施例中的不同特征之间可以相互结合。
请参考图1,本申请实施例提供的视频处理方法可以由计算机设备执行,在本申请实施例的视频处理方法中的部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除,该计算机设备执行的视频处理方法的详细步骤介绍如下。
步骤S110:获取第一视频帧图像。
在本步骤中,第一视频帧图像的横向长度大于第一视频帧图像的竖向长度,示例性地,第一视频帧图像的宽高比可以是16∶9。
步骤S120:对第一视频帧图像进行对象检测,得到图像对象,基于图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域。
在本步骤中,可以采用识别模型在第一视频帧图像中识别出图像对象,也可以通过人工识别的方式从第一视频帧图像中识别出图像对象,并在得到图像对象以后获取用于表征图像对象重要程度的权重值,根据权重值可以确定视频帧图像中的主要对象,即图像主对象,随后根据第二视频帧图像的尺寸确定出对应显示的目标图像区域,其中,第二视频帧图像的横向长度小于第二视频帧图像的竖向长度,示例性地,第二视频帧图像的宽高比可以是9∶16。
步骤S130:基于图像主对象的位置变化更新目标图像区域的图像画面,得到第二视频帧图像。
在本步骤中,可以根据图像主对象在第一视频帧图像中的位置变化更新目标图像区域的图像画面,以确保图像主对象在第二视频帧图像正确显示,其中更新目标图像区域的图像画面的过程可能涉及到图像的剪裁、平移、旋转等操作。
在本实施例中,通过图像对象的权重值确定图像主对象及对应显示的目标图像区域,可以确保将第一视频帧图像(横屏视频帧图像)转换成第二视频帧图像(竖屏视频帧图像)后仍保留关键的影像信息,并使得竖屏的视频帧图像与显示设备适配,有效提升视频从横屏显示转换为竖屏显示的视频质量,提高观众的观影体验。
作为本申请实施例的一种可能实现方式,请参考图2,步骤S120可以通过以下方式实现。
步骤S121:采用训练好的图像对象检测模型对第一视频帧图像进行对象检测,得到图像对象。
在本步骤中,图像对象检测模型可以采用神经网络模型(例如,yoloV5模型)训练得到。
步骤S122:获取图像对象所对应的权重值,并基于图像对象的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域。
在本步骤中,权重值可以用于表征图像对象在第一视频帧图像中的优先级,权重值越大,对应图像对象的优先级越高。示例性地,可以根据图像对象的重要性、出现频率及空间位置等因素预先对不同图像对象的权重值进行配置。具体地,图像对象的权重值可以由人工根据第一视频帧图像的视频信息评估得到,也可以基于图像对象的占屏比、中心位置及检测置信度等信息利用特定的算法计算得到。比如,请参考图3,图像对象的权重值可以以权重参数表的形式存在,权重参数表中包括各个图像对象以及各自对应的权重值,以第一视频帧图像为游戏录像图像为例,图像对象可以包括游戏角色、重要游戏元素(例如,游戏技能、野怪等)、背景及其他次要元素等,其中,游戏角色和重要游戏元素的优先级大于背景及其他次要元素的优先级,根据上述优先级关系配置权重值时,主英雄的权重值可以为100,召唤师水晶的权重值可以为5。
在本实施例中,采用图像对象检测模型检测第一视频帧图像中的图像对象,并根据检测得到的图像对象对应的权重值确定第二视频帧图像的图像主对象及对应显示的目标图像区域,可以更为全面、准确地评估第一视频帧图像中各图像对象的优先级,从而确保将第一视频帧图像转换成第二视频帧图像后仍保留关键的影像信息。
需要说明的是,在步骤S121之前,还可以包括训练图像对象检测模型的步骤,该步骤可以由以下方法实现。
首先,获取包括各种图像对象的样本图像,并对图像对象进行标注得到验证样本图像,由样本图像及验证样本图像组成样本图像对。具体地,可以采用LabelImg、CVAT等标注工具对图像对象进行标注,通常包括图像对象的位置(边界框)以及类别标签。
然后,对样本图像及验证样本图像进行预处理(包括调整图像大小、归一化、数据增强等),并将预处理后的样本图像输入图像训练模型中进行训练,得到图像对象提取结果,包括图像对象的位置(边界框)以及类别标签。
基于图像对象提取结果及对应验证样本图像中的标注信息计算图像训练模型的损失函数值,将损失函数值与预设的损失函数阈值进行比较,在损失函数值大于预设的损失函数阈值时,将图像训练模型中的模型参数进行更新并重复上述步骤,直到损失函数值小于预设的损失函数阈值或模型参数迭代更新的次数达到预设次数,结束对图像训练模型的训练,将训练完成时对应的图像训练模型作为训练好的图像对象检测模型。在本步骤中,损失函数值可以衡量图像对象提取结果与验证样本图像中的标注信息之间的差异,利用损失函数值可以优化图像训练模型的参数,提高图像训练模型的性能,示例性地,可以采用反向传播算法来更新图像训练模型的参数。
在本实施例中,可以采用神经网络模型作为图像训练模型进行训练,得到图像对象检测模型,再通过图像对象监测模型识别检测第一视频帧图像中的图像对象,并基于各图像对象的权重值确定视频帧图像中的图像主对象,进而得到视频帧图像中的关键信息。
进一步地,请参考图4,步骤S122可以通过以下方法实现。
步骤S1221:从预先配置的权重参数表中获取图像对象所对应的权重值。
在本步骤中,图像对象的权重值可以通过查询预先配置的权重参数表(如图3所示的表)得到,也可以基于图像对象的占屏比、中心位置及检测置信度等信息利用特定的算法直接计算得到。
步骤S1222:获取图像对象的像素中心,并将像素中心距离小于预设距离的图像对象进行融合,得到包含至少两个图像对象的图像区域,其中,图像区域的权重值为图像区域中的所有图像对象的权重值之和。
在本步骤中,当检测到任意两个图像对象的像素中心距离小于预设距离时,可以将其进行融合得到包含至少两个图像对象的图像区域,并将图像区域中的所有图像对象的权重值之和作为该图像区域的权重值,以衡量该图像区域在第一视频帧图像中的重要程度。
步骤S1223:基于图像对象及图像区域的权重值确定出图像主对象,并基于图像主对象确定第二视频帧图像对应显示的目标图像区域。
在本步骤中,可以先将图像对象及图像区域按照权重值的大小进行排序,并将最大权重值对应的图像对象或图像区域中的图像对象作为图像主对象,接着,基于图像主对象确定出第二视频帧图像对应显示的目标图像区域,其中,图像主对象的像素中心可以位于图像区域的中心位置。具体地,当最大权重值对应某一图像对象时,可将该图像对象作为图像主对象,而当最大权重值对应某一图像区域时,可将该图像区域内所有的图像对象视为一融合对象,并将该融合作为图像主对象。
更进一步地,步骤S130的具体实现方法如下。
实时检测上一时刻的图像主对象与当前时刻的图像主对象是否相同,在上一时刻的图像主对象与当前时刻的图像主对象相同时,目标图像区域随着该相邻时刻中图像主对象的位置变化而进行移动,具体请参考图5,在图像主对象(图中的人物)朝向三角形靠近时,目标图像区域随着该图像主对象的位置变化而进行移动。
不难理解的是,当图像主对象发生变化时,假设上一时刻的图像主对象的画面中心为C0,当前时刻的图像主对象的画面中心为C1,若直接从C0位置剪辑至C1位置,画面的跳变可能会影响画面的连贯性,影响观众的观影体验,为此,可以将目标图像区域由上一时刻的图像主对象所在的图像区域逐帧移动至当前时刻的图像主对象所在的图像区域,以保证画面的连贯性。
因此,在上一时刻的图像主对象与当前时刻的图像主对象不相同时,目标图像区域可以由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域,而在移动过程中,可以先基于上一时刻的图像主对象与当前时刻的图像主对象在第一视频帧图像中的位置坐标确定目标图像区域的移动方向。具体地,获取上一时刻的图像主对象及当前时刻的图像主对象在第一视频帧图像中的位置坐标,其中,上一时刻的图像主对象的位置坐标包括第一横坐标及第一纵坐标,当前时刻的图像主对象的位置坐标包括第二横坐标及第二纵坐标,根据第一横坐标及第二横坐标的大小关系可以确定目标图像区域在横坐标轴上的第一移动方向,基于第一纵坐标及第二纵坐标的大小关系可以确定目标图像区域在纵坐标轴上的第二移动方向,最后,根据第一移动方向及第二移动方向确定目标图像区域的移动方向。此外,可以根据第一视频帧图像的帧率fps及预先配置的运镜速度v计算目标图像区域在每一帧中的移动距离L。示例性地,移动距离L可以等于帧率fps与运镜速度v的乘积,即L=fps*v,其中,v可以根据游戏品类进行设置,且v可以是定值也可以是变量值。示例性地,目标图像区域在横坐标轴上的移动过程如下,上一时刻的图像主对象的第一横坐标可以为x0,当前时刻的图像主对象的第二横坐标可以为x1,当x0大于或等于x1时,上一时刻的图像主对象的第一横位置坐标可以更新为min(x0+L,x1),而当x0小于x1时,上一时刻的图像主对象的第一横位置坐标可以更新为max(x0+L,x1),目标图像区域在纵坐标轴上的移动过程同理。具体请参考图6,当上一时刻的图像主对象(图中的人物)变换为当前时刻的图像主对象(图中的人物与三角形)时,目标图像区域逐帧从上一时刻的图像主对象所在的区域(即,图中的人物所在的区域)移动至当前时刻的图像主对象所在的图像区域(即,图中的人物与三角形所在的图像区域)。
基于相同的发明构思,本申请实施还提供一种视频处理装置,请参照图7,图7为本申请实施例提供的视频处理装置的一种功能模块示意图。本申请实施例可以根据客户端执行的方法实施例对视频处理装置200进行功能模块的划分,也即该视频处理装置200所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中,该视频处理装置200可以包括获取模块210、检测模块220及更新模块230,下面分别对该视频处理装置200的各个功能模块的功能进行详细阐述。
获取模块210,用于获取第一视频帧图像。
具体地,第一视频帧图像的横向长度大于第一视频帧图像的竖向长度,示例性地,第一视频帧图像的宽高比可以是16∶9。
本实施例中,获取模块210可以用于执行上述的步骤S110,关于获取模块210的详细实现方式可以参照上述针对步骤S110的详细描述。
检测模块220,用于对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域。
具体地,可以采用识别模型在第一视频帧图像中识别出图像对象,也可以通过人工识别的方式从第一视频帧图像中识别出图像对象,并在得到图像对象以后获取用于表征图像对象重要程度的权重值,根据权重值可以确定视频内容的主要内容,即图像主对象,确定图像主对象以后可以采用图像的剪裁、平移等操作得到第二视频帧图像对应显示的目标图像区域,其中,第二视频帧图像的横向长度小于第二视频帧图像的竖向长度,示例性地,第二视频帧图像的宽高比可以是9∶16。
本实施例中,检测模块220可以用于执行上述的步骤S120,关于检测模块220的详细实现方式可以参照上述针对步骤S120的详细描述。
更新模块230,用于基于图像主对象的位置变化更新目标图像区域的图像画面,得到第二视频帧图像。
具体地,可以根据图像主对象在第一视频帧图像中的位置变化更新目标图像区域的图像画面,以确保图像主对象在第二视频帧图像正确显示,其中更新目标图像区域的图像画面的过程可能涉及到图像的剪裁、平移、旋转等操作。
本实施例中,更新模块230可以用于执行上述的步骤S130,关于更新模块230的详细实现方式可以参照上述针对步骤S130的详细描述。
需要说明的是,应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以在物理上分开。且这些模块可以全部以软件(比如,开源软件)可以通过处理器调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理器调用软件的形式实现,部分模块通过硬件的形式实现。作为一种示例,检测模块220可以由单独处理器运行实现,可以以程序代码的形式存储于上述装置或系统的存储器中,由上述装置或系统的某一个处理器调用并执行以上检测模块220的功能,其它模块的实现与之类似,在此就不再赘述。此外这些模块可以全部或部分集成在一起,也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路,在实现过程中,上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。
请参照图8,图8示出了本公开实施例提供的用于实现上述的视频处理方法的计算机设备300的硬件结构示意图。如图7所示,计算机设备300可包括处理器310、计算机可读存储介质320、总线330及通信单元340。
在具体实现过程中,处理器310执行计算机可读存储介质存储320的计算机执行指令(例如图7中所示的视频处理装置200中的各个模块),使得处理器310可以执行如上方法实施例的视频处理方法,其中,处理器310、计算机可读存储介质320以及通信单元340可以通过总线330连接。
处理器310的具体实现过程可参见上述计算机设备300执行的各个方法实施例,其实现原理和技术效果类似,本申请实施例此处不再赘述。
计算机可读存储介质320可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器用于存储程序或者数据。
总线330可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
在本申请实施例提供的交互场景中,通信单元340可用于与服务器通信,以实现计算机设备300与服务器之间的数据交互。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上的视频处理方法。
综上所述,本申请实施例提供一种视频处理方法、装置及计算机可读存储介质,通过图像对象的权重值确定图像主对象及对应显示的目标图像区域,可以确保将第一视频帧图像转换成第二视频帧图像后仍保留关键的影像信息,使得竖屏模式下的视频与移动设备适配,有效提升竖屏模式下的视频质量,提高观众的观影体验。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种视频处理方法,其特征在于,所述方法包括:
获取第一视频帧图像,其中,所述第一视频帧图像的横向长度大于所述第一视频帧图像的竖向长度;
对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域,其中,所述第二视频帧图像的横向长度小于所述第二视频帧图像的竖向长度;
基于所述图像主对象的位置变化更新所述目标图像区域的图像画面,得到所述第二视频帧图像。
2.根据权利要求1所述的视频处理方法,其特征在于,所述对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域的步骤,包括:
采用训练好的图像对象检测模型对所述第一视频帧图像进行对象检测,得到图像对象;
获取所述图像对象所对应的权重值,并基于所述图像对象的权重值确定出所述图像主对象及所述第二视频帧图像对应显示的目标图像区域。
3.根据权利要求2所述的视频处理方法,其特征在于,所述采用训练好的图像对象检测模型对所述第一视频帧图像进行对象检测,得到图像对象的步骤之前,所述方法还包括训练得到图像检测模型的步骤,该步骤包括:
获取包括各种图像对象的样本图像,并对所述图像对象进行标注得到验证样本图像,由所述样本图像及所述验证样本图像组成样本图像对;
对所述样本图像及所述验证样本图像进行预处理,并将预处理后的样本图像输入图像训练模型中进行训练,得到图像对象提取结果;
基于所述图像对象提取结果及对应所述验证样本图像中的标注信息计算所述图像训练模型的损失函数值,将所述损失函数值与预设的损失函数阈值进行比较,在所述损失函数值大于所述预设的损失函数阈值时,将所述图像训练模型中的模型参数进行更新并重复上述步骤,直到所述损失函数值小于所述预设的损失函数阈值或所述模型参数迭代更新的次数达到预设次数,结束对所述图像训练模型的训练,将训练完成时对应的图像训练模型作为所述训练好的图像对象检测模型。
4.根据权利要求2所述的视频处理方法,其特征在于,所述获取所述图像对象所对应的权重值,并基于所述图像对象的权重值确定出所述图像主对象及所述第二视频帧图像对应显示的目标图像区域的步骤,包括:
从预先配置的权重参数表中获取所述图像对象所对应的权重值;
获取所述图像对象的像素中心,并将像素中心距离小于预设距离的图像对象进行融合,得到包含至少两个所述图像对象的图像区域,其中,所述图像区域的权重值为所述图像区域中的所有图像对象的权重值之和;
基于所述图像对象及所述图像区域的权重值确定出图像主对象,并基于所述图像主对象确定所述第二视频帧图像对应显示的目标图像区域。
5.根据权利要求4所述的视频处理方法,其特征在于,所述基于所述图像对象及所述图像区域的权重值确定出图像主对象,并基于所述图像主对象确定所述第二视频帧图像对应显示的目标图像区域的步骤,包括:
将所述图像对象及所述图像区域按照权重值的大小进行排序,并将最大权重值对应的图像对象作为所述图像主对象;
基于所述图像主对象确定出所述第二视频帧图像对应显示的目标图像区域,其中,所述图像主对象的像素中心位于所述图像区域的中心位置。
6.根据权利要求2所述的视频处理方法,其特征在于,所述基于所述图像主对象的位置变化更新所述目标图像区域的图像画面,得到所述第二视频帧图像的步骤,包括:
检测上一时刻的图像主对象与当前时刻的图像主对象是否相同,在上一时刻的图像主对象与当前时刻的图像主对象相同时,所述目标图像区域随着上一时刻的图像主对象的移动而移动;
在上一时刻的图像主对象与当前时刻的图像主对象不相同时,所述目标图像区域由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域。
7.根据权利要求6所述的视频处理方法,其特征在于,所述在上一时刻的图像主对象与当前时刻的图像主对象不相同时,所述目标图像区域由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域的步骤,包括:
在上一时刻的图像主对象与当前时刻的图像主对象不相同时,获取上一时刻的图像主对象与当前时刻的图像主对象在所述第一视频帧图像中的位置坐标;
基于所述上一时刻的图像主对象与当前时刻的图像主对象在所述第一视频帧图像中的位置坐标确定所述目标图像区域的移动方向;
基于所述第一视频帧图像的帧率及预先配置的运镜速度计算所述目标图像区域在每一帧中的移动距离,将所述目标图像区域由上一时刻的图像主对象所在的图像区域移动至当前时刻的图像主对象所在的图像区域。
8.根据权利要求7所述的视频处理方法,其特征在于,所述基于所述上一时刻的图像主对象与当前时刻的图像主对象在所述第一视频帧图像中的位置坐标确定所述目标图像区域的移动方向的步骤,包括:
获取所述上一时刻的图像主对象及所述当前时刻的图像主对象在所述第一视频帧图像中的位置坐标,所述上一时刻的图像主对象的位置坐标包括第一横坐标及第一纵坐标,所述当前时刻的图像主对象的位置坐标包括第二横坐标及第二纵坐标;
基于所述第一横坐标及所述第二横坐标的大小关系确定所述目标图像区域在横坐标轴上的第一移动方向;
基于所述第一纵坐标及所述第二纵坐标的大小关系确定所述目标图像区域在纵坐标轴上的第二移动方向;
基于所述第一移动方向及所述第二移动方向确定所述目标图像区域的移动方向。
9.一种视频处理装置,其特征在于,所述装置包括:
获取模块,用于获取第一视频帧图像,其中,所述第一视频帧图像的横向长度大于所述第一视频帧图像的竖向长度;
检测模块,用于对所述第一视频帧图像进行对象检测,得到图像对象,基于所述图像对象所对应的权重值确定出图像主对象及第二视频帧图像对应显示的目标图像区域,其中,所述第二视频帧图像的横向长度小于所述第二视频帧图像的竖向长度;
更新模块,用于基于所述图像主对象的位置变化更新所述目标图像区域的图像画面,得到所述第二视频帧图像。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410226674.7A CN118102033A (zh) | 2024-02-29 | 2024-02-29 | 视频处理方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410226674.7A CN118102033A (zh) | 2024-02-29 | 2024-02-29 | 视频处理方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118102033A true CN118102033A (zh) | 2024-05-28 |
Family
ID=91154736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410226674.7A Pending CN118102033A (zh) | 2024-02-29 | 2024-02-29 | 视频处理方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118102033A (zh) |
-
2024
- 2024-02-29 CN CN202410226674.7A patent/CN118102033A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598091A (zh) | 图像识别方法、装置、电子设备及计算可读存储介质 | |
CN108197618B (zh) | 用于生成人脸检测模型的方法和装置 | |
CN109711508B (zh) | 图像处理方法和装置 | |
JP2012234494A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN110781823B (zh) | 录屏检测方法、装置、可读介质及电子设备 | |
CN110062157B (zh) | 渲染图像的方法、装置、电子设备和计算机可读存储介质 | |
CN109815854B (zh) | 一种用于在用户设备上呈现图标的关联信息的方法与设备 | |
EP4322109A1 (en) | Green screen matting method and apparatus, and electronic device | |
CN108597034B (zh) | 用于生成信息的方法和装置 | |
CN111340865B (zh) | 用于生成图像的方法和装置 | |
CN112381092A (zh) | 跟踪方法、装置及计算机可读存储介质 | |
CN108573192B (zh) | 匹配人脸的眼镜试戴方法和装置 | |
CN111881740A (zh) | 人脸识别方法、装置、电子设备及介质 | |
CN106910207B (zh) | 用于识别图像局部区域的方法、装置及终端设备 | |
CN118102033A (zh) | 视频处理方法、装置及计算机可读存储介质 | |
CN114663418A (zh) | 图像处理的方法及装置、存储介质及电子设备 | |
CN114972500A (zh) | 查验方法、标注方法、系统、装置、终端、设备及介质 | |
CN111787081B (zh) | 基于物联网交互和智能通信的信息处理方法及云计算平台 | |
CN113468066A (zh) | 用户界面测试方法及装置 | |
CN108921097B (zh) | 人眼视角检测方法、装置及计算机可读存储介质 | |
CN113963363A (zh) | 一种基于ar技术的检测方法及装置 | |
CN113516674A (zh) | 一种图像数据检测方法、装置、计算机设备和存储介质 | |
CN112634460B (zh) | 基于Haar-like特征的户外全景图生成方法及装置 | |
CN112634469A (zh) | 用于处理图像的方法和装置 | |
CN117290627B (zh) | 一种服务器端页面组件渲染方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |