CN116017010B

CN116017010B - 基于视频的ar融合处理方法、电子设备和计算机可读介质

Info

Publication number: CN116017010B
Application number: CN202211533418.XA
Authority: CN
Inventors: 刘勇; 林晓鑫; 鲜菲; 何志豪; 刘凯
Original assignee: Fanyou Online Technology Chengdu Co ltd
Current assignee: Fanyou Online Technology Chengdu Co ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2024-05-17
Anticipated expiration: 2042-12-01
Also published as: CN116017010A

Abstract

本发明为解决传统的视频编辑手段均不能达到很好的添加外部道具来增加视频的表现力的作用，而且添加的外部道具也很容易识别出来，或者效果很突兀的问题，提供一种基于视频的AR融合处理方法、电子设备和存储介质。该方法包括以下步骤：从视频中提取多个图像帧；内容识别，得到该图像帧中存在的主要对象；选定目标对象和操作帧；选定操作帧中的部分区域为ROI区域；位置映射；获取待显示的3D模型图像，3D模型图像与视频融合显示。本发明首先对视频进行内容识别找出主要对象，然后确定视频的图像帧中的ROI的位置，3D模型图像添加到ROI区域内融合显示，增加视频内容的丰富度，由此实现了AR增强效果。

Description

基于视频的AR融合处理方法、电子设备和计算机可读介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于视频的AR融合处理方法、电子设备和计算机可读介质。

背景技术

增强现实（Augmented Reality，简称 AR），是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术。目前，AR需要借助相机的雷达定位出ROI区域，若需要对已经完成录制的视频进行后期制作时，AR则无法利用。

另一方面，传统的视频编辑软件中可通过将视频解析成多张图片，然后在选定的图片上加上文字或者贴图等并显示出来。部分短视频平台也提供了类似的粘贴道具到脸部的技术，比如人脸上的眼睛处添加眼镜。然而，传统的视频编辑手段均不能达到很好的添加外部道具以增加视频的表现力的作用，而且添加的外部道具也很容易识别出来，或者效果很突兀。同时，由于添加进入视频中的外部道具无法与视频中的内容比较好的融合，导致后期处理人员工作量大，难度高等特点。

发明内容

本发明为解决传统的视频编辑手段均不能达到很好的添加外部道具来增加视频的表现力的作用，而且添加的外部道具也很容易识别出来，或者效果很突兀的问题，提供一种基于视频的AR融合处理方法、电子设备和存储介质。本发明首先对视频进行内容识别找出视频中涉及的全部的主要对象，然后确定视频的图像帧中的ROI的位置，3D模型图像添加到ROI区域内，3D模型图像与视频融合显示，增加视频内容的丰富度，由此实现了AR增强效果。

本发明采用的技术方案是：

基于视频的AR融合处理方法，所述基于视频的AR融合处理方法包括以下步骤：

步骤S1，确立待后期制作处理的视频，从该视频中提取多个图像帧，每个图像帧的尺寸大小相同；

步骤S2，逐一对每个图像帧进行内容识别，得到该图像帧中存在的主要对象，由此得到该视频中涉及的全部主要对象；

步骤S3，从该视频中的全部主要对象中选取一个主要对象，并将该主要对象设定为目标对象；选取存在该目标对象的一个图像帧，并将该图像帧设定为操作帧；

步骤S4，基于操作帧、目标对象在操作帧中的位置以及制作需求，选定操作帧中的部分区域为ROI区域，得到ROI区域的图像面积大小，以及ROI区域与目标对象的相对位置关系；

步骤S5，将该ROI区域的位置映射是视频中的全部图像帧中；

步骤S6，从3D模型图像库中获取待显示的3D模型图像，当视频中出现目标对象时，将该3D模型图像添加到ROI区域内，3D模型图像与视频融合显示，或者视频从始至终均作3D模型图像与视频融合显示。

进一步地，所述步骤S2中，逐一对每个图像帧进行内容识别时，调用YOLO模型，而后逐一将每个图像帧导入YOLO模型中，识别出每个图像帧中的主要对象。

进一步地，所述步骤S2中额，YOLO模型采用机器深度学习的方式获得，具体过程包括：

步骤S21，设置YOLO模型的待定参数，将训练集输入到构建的YOLO模型进行运算；

步骤S22，通过尺寸聚类方法生成锚框尺寸，将输入的每张训练图片分割成m*m网格，每个网格预测输出n个边框和p个类别概率值数据；

步骤S23，将所有网格的输出数据与标记文件中数据进行比较，得到YOLO模型的预测值与标记文件的真实值之间的预测误差；

步骤S24，基于预测误差，使用梯度下降方法，更新YOLO模型的参数，反复训练直至预测误差小于阈值。

进一步地，所述步骤S4中，当操作帧中仅存在目标对象时，ROI区域的备选位置为目标对象在操作帧中图层的位置，或者ROI区域的备选位置为操作帧中除目标对象外的图层空白区域。

进一步地，所述步骤S4中，当操作帧中除目标对象外，还存在其他x个主要对象时，先判断目标对象和其他x个主要对象之间的层次关系，而后确定ROI区域的备选位置为目标对象和其他x个主要对象中的一个在操作帧中图层的位置，或者ROI区域的备选位置为目标对象和其他x个主要对象中的一个在操作帧中所在图层的空白区域，或者操作帧中除目标对象和其他x个主要对象外的图层空白区域；

或者所述步骤S4中，判断目标对象与其他x个主要对象的层次关系时，依据操作帧中目标对象和其他x个主要对象的图像面积大小、图像轮廓的完整性、图像位置重叠部分的归属以及先验知识进行。

进一步地，所述步骤S4中，若操作帧的前一帧图像帧中和/或后一帧图像帧中存在目标对象时，则提取视频中含有目标对象的全部图像帧，并对目标对象在该图像帧中的位置进行跟踪，由此动态调整ROI区域的位置。

进一步地，所述步骤S4中，对目标对象进行前后位置进行跟踪时，采用比较前后图像帧中目标对象的中心点的位置方式进行。

进一步地，所述步骤S6，3D模型图像与视频融合显示前，先获取图像帧的亮度信息，并调节3D模型图像的亮度和大小比例，使得3D模型图像的亮度大致与图像帧的亮度一致，然后通过边缘自适应的图像融合算法对3D模型图像和图像帧的重叠区域进行拼接，完成3D模型图像和视频融合。

基于同样的发明构思，本发明还提供了一种电子设备，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行，一个或多个所述应用程序配置用于执行前述的基于视频的AR融合处理方法。

基于同样的发明构思，本发明还提供了一种计算机可读介质，所述计算机可读介质存储有处理器可执行的指令，所述指令被所述处理器执行时使所述处理器执行前述的基于视频的AR融合处理方法。

本发明的有益效果是：

本发明为解决传统的视频编辑手段均不能达到很好的添加外部道具来增加视频的表现力的作用，而且添加的外部道具也很容易识别出来，或者效果很突兀的问题，提供一种基于视频的AR融合处理方法、电子设备和存储介质。该方法包括：步骤S1，确立待后期制作处理的视频，从该视频中提取多个图像帧，每个图像帧的尺寸大小相同；步骤S2，逐一对每个图像帧进行内容识别，得到该图像帧中存在的主要对象，由此得到该视频中涉及的全部主要对象；步骤S3，从该视频中的全部主要对象中选取一个主要对象，并将该主要对象设定为目标对象；选取存在该目标对象的一个图像帧，并将该图像帧设定为操作帧；步骤S4，基于操作帧、目标对象在操作帧中的位置以及制作需求，选定操作帧中的部分区域为ROI区域，得到ROI区域的图像面积大小，以及ROI区域与目标对象的相对位置关系；步骤S5，将该ROI区域的位置映射是视频中的全部图像帧中；步骤S6，从3D模型图像库中获取待显示的3D模型图像，当视频中出现目标对象时，将该3D模型图像添加到ROI区域内，3D模型图像与视频融合显示，或者视频从始至终均作3D模型图像与视频融合显示。本发明中，为了实现对已完成拍摄的视频后期制作处理，首先对视频进行内容识别找出视频中涉及的全部的主要对象，然后确定视频的图像帧中的ROI的位置，3D模型图像添加到ROI区域内，3D模型图像与视频融合显示，增加视频内容的丰富度，由此实现了AR增强效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或有现技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例中，基于视频的AR融合处理方法的流程示意图。

图2为实施例中，YOLO模型识别原理图。

图3为实施例中，YOLO模型识别的识别结果和ROI区域示意图。

图4为实施例中，融合后的效果示意图。

图5为实施例中，ROI区域动态调整示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

下文的公开提供了许多不同的实施方式或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。

下面结合附图对发明的实施例进行详细说明。

基于视频的AR融合处理方法，其流程如附图1中。该基于视频的AR融合处理方法包括以下步骤：

步骤S5，将该ROI区域的位置映射是视频中的全部图像帧中；

本实施例中采用YOLO模型进行内容识别，除YOLO模型外，其他内容识别方法也可用于本申请中。

采用上述步骤后，可以明确图像帧上各个主要目标的图层层次，在综合基于操作帧、目标对象在操作帧中的位置以及制作需求后便可选定ROI区域。

以下以一个具体示例进行说明。

从某待后期制作的视频中提取了一幅图像帧。将该图像帧导入YOLO模型。在YOLO模型中，该图像帧划分为7*7个网格。经过YOLO模型识别后，该图像帧的主要对象为狗（dog）、自行车（bicycle）和货车（truck），其过程如附图2中所示。然后根据主要对象的层叠关系从图片帧中将主要对象划分为不同的层次，这种通过主要对象大小的先验知识规则判断，来获得图层的前后关系。比如通常理解，truck的体积和面积大于bicycle和dog。而通过图像帧的图像面积可以明确truck比 bicycle小，则可判定truck比bicycle远。Dog和bicycle的图层无法通过简单图像面积大小判断时，则通过轮廓完整性和位置重叠部分的所属，bicyle部分像素和 dog重叠，而重叠部分识别为dog的可能性更大，则识别为dog。由此也有得到了由近及远的三个图层为dog图层、bicycle图层和truck图层。将该图像帧设置为操作帧，由此得到ROI区域的备选位置为图中的A区域或者B区域。A区域为dog图层外的空白区域，B区域为bicycle图层的空白区域，如附图3中所示。选择A区域为ROI区域。选择添加的3D模型为足球，调节足球的亮度与大小比例，通过边缘自适应的图像融合算法对足球图像和图像帧的重叠区域进行拼接，添加后的效果如附图4中所示。假设后一图像帧中，dog图片的右方移动，那么ROI区域以及足球则向图片的左边方向移动，如附图5中所示。

采用本实施例中的方法，可以灵活实现对已经录制好的视频进行处理，AR融合效果逼真。

本实施例中还提供了一种电子设备，该电子设备包括一个或多个处理器和存储器以及一个或多个应用程序。其中，一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行，一个或多个所述应用程序配置用于执行前述实施例中记载的基于视频的AR融合处理方法。

本实施例中还提供一种计算机可读介质，所述计算机可读介质存储有处理器可执行的指令，所述指令被所述处理器执行时使所述处理器执行前述实施例中记载的基于视频的AR融合处理方法。

计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkupLanguage)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

Claims

1.一种基于视频的AR融合处理方法，其特征在于，所述基于视频的AR融合处理方法包括以下步骤：

步骤S5，将该ROI区域的位置映射至视频中的全部图像帧中；

步骤S6，从3D模型图像库中获取待显示的3D模型图像，当视频中出现目标对象时，将该3D模型图像添加到ROI区域内，3D模型图像与视频融合显示；

其中，所述步骤S4中，若操作帧的前一帧图像帧中和/或后一帧图像帧中存在目标对象时，则提取视频中含有目标对象的全部图像帧，并对目标对象在该图像帧中的位置进行跟踪，由此动态调整ROI区域的位置。

2.根据权利要求1所述的基于视频的AR融合处理方法，其特征在于，所述步骤S2中，逐一对每个图像帧进行内容识别时，调用YOLO模型，而后逐一将每个图像帧导入YOLO模型中，识别出每个图像帧中的主要对象。

3.根据权利要求2所述的基于视频的AR融合处理方法，其特征在于，所述步骤S2中，YOLO模型采用机器深度学习的方式获得，具体过程包括：

4.根据权利要求1、2或3所述的基于视频的AR融合处理方法，其特征在于，所述步骤S4中，当操作帧中仅存在目标对象时，ROI区域的备选位置为目标对象在操作帧中图层的位置，或者ROI区域的备选位置为操作帧中除目标对象外的图层空白区域；

或者所述步骤S4中，当操作帧中除目标对象外，还存在其他x个主要对象时，先判断目标对象和其他x个主要对象之间的层次关系，而后确定ROI区域的备选位置为目标对象和其他x个主要对象中的一个在操作帧中图层的位置，或者ROI区域的备选位置为目标对象和其他x个主要对象中的一个在操作帧中所在图层的空白区域，或者操作帧中除目标对象和其他x个主要对象外的图层空白区域。

5.根据权利要求4所述的基于视频的AR融合处理方法，其特征在于，所述步骤S4中，判断目标对象与其他x个主要对象的层次关系时，依据操作帧中目标对象和其他x个主要对象的图像面积大小、图像轮廓的完整性、图像位置重叠部分的归属以及先验知识进行。

6.根据权利要求1所述的基于视频的AR融合处理方法，其特征在于，所述步骤S4中，对目标对象进行前后位置进行跟踪时，采用比较前后图像帧中目标对象的中心点的位置方式进行。

7.根据权利要求1、2或3所述的基于视频的AR融合处理方法，其特征在于，所述步骤S6，3D模型图像与视频融合显示前，先获取图像帧的亮度信息，并调节3D模型图像的亮度和大小比例，使得3D模型图像的亮度大致与图像帧的亮度一致，然后通过边缘自适应的图像融合算法对3D模型图像和图像帧的重叠区域进行拼接，完成3D模型图像和视频融合。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行，一个或多个所述应用程序配置用于执行如权利要求1~7中任意一项所述的基于视频的AR融合处理方法。

9.一种计算机可读介质，其特征在于，所述计算机可读介质存储有处理器可执行的指令，所述指令被所述处理器执行时使所述处理器执行权利要求1~7中任意一项所述的基于视频的AR融合处理方法。