CN118474328A - 裸眼三维视频生成方法、装置、计算机设备及介质 - Google Patents
裸眼三维视频生成方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN118474328A CN118474328A CN202410393172.3A CN202410393172A CN118474328A CN 118474328 A CN118474328 A CN 118474328A CN 202410393172 A CN202410393172 A CN 202410393172A CN 118474328 A CN118474328 A CN 118474328A
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- naked eye
- dimensional video
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 34
- 230000008859 change Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本申请实施例公开了一种裸眼三维视频生成方法、装置、计算机设备及介质。通过获取二维视频中的多个关键帧图像;确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;根据裸眼三维图像生成二维视频对应的裸眼三维视频。以此,通过确定二维视频中的关键帧图像中像素的深度信息,得到深度图像,再通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,从而减少了对二维视频的数据处理量,提高了将二维视频转换成裸眼三维视频的转换效率。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种裸眼三维视频生成方法、装置、计算机设备及介质。
背景技术
随着裸眼3D技术的发展,目前在电视上、商场的广告牌上、演唱会展示屏上等多种场景都能够显示出裸眼3D图像,实现裸眼3D效果的显示。
由于一些视频拍摄时是所拍摄的格式是二维格式的,想要将这些二维视频转换成裸眼三维视频,相关技术中,一种方式是对二维视频中的对象进行三维建模,才能够得到裸眼三维视频,这样做的需要花费大量的人力物力,并且效率很低。另一种方式是通过人工智能转换的方式将二维视频转换成裸眼三维视频,这样需要大量的算力资源,导致计算成本过高。
因此,相关技术中,在将二维视频转换成裸眼三维视频的过程中,存在转换效率低和转换成本高的问题。
发明内容
本申请实施例提供一种裸眼三维视频生成方法、装置、计算机设备及介质。能够提高将二维视频转换成裸眼三维视频的转换效率。
根据本申请的一方面,本申请实施例提供了一种裸眼三维视频生成方法,包括:
获取二维视频中的多个关键帧图像;
确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
根据裸眼三维图像生成二维视频对应的裸眼三维视频。
根据本申请的一方面,本申请实施例提供了一种裸眼三维视频生成装置,包括:
获取模块,用于获取二维视频中的多个关键帧图像;
确定模块,用于确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
第一图像生成模块,用于根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
第二图像生成模块,用于根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
视频生成模块,用于根据裸眼三维图像生成二维视频对应的裸眼三维视频。
在一些实施方式中,获取模块,用于:
获取二维视频,并确定二维视频对应的帧率;
根据帧率确定出单位时长内对应的抽取帧数和抽取帧数间隔;
根据抽取帧数和抽取帧数间隔在二维视频的每个单位时长内抽取出多个关键帧图像。
在一些实施方式中,确定模块,用于:
将每个关键帧图像输入到训练后的像素深度推理模型中,输出每个关键帧图像中每个像素对应的深度信息;
其中,像素深度推理模型为根据样本二维图像和标签深度图像生成的模型损失训练得到,标签深度图像为根据样本二维图像对应的真实深度信息得到。
在一些实施方式中,裸眼三维视频生成装置,还包括训练模块,用于:
获取样本二维图像以及样本二维图像对应的真实深度信息;
根据真实深度信息生成样本二维图像对应的标签深度图像;
将样本二维图像输入到基础像素深度推理模型中,输出样本二维图像中每个像素对应的预测深度信息;
确定预测深度信息和标签深度图像之间的模型损失;
根据模型损失对基础像素深度推理模型进行迭代训练,得到训练后的像素深度推理模型。
在一些实施方式中,第一图像生成模块,用于:
在关键帧图像中确定出目标像素,并在关键帧图像对应的深度图像中确定出目标像素对应的深度值;
根据目标像素的深度值确定目标像素向左移动的左移距离以及向右移动的右移距离;
在关键帧图像的基础上,根据左移距离移动目标像素,生成左视图;
在关键帧图像的基础上,根据右移距离移动目标像素,生成右视图。
在一些实施方式中,视频生成模块,包括补帧子模块和视频生成子模块;在根据裸眼三维图像生成二维视频对应的裸眼三维视频之后,补帧子模块,用于在裸眼三维视频中,对每两个相邻帧的图像进行图像补帧处理,得到每两个相邻帧的图像之间的插帧图像;
视频生成子模块,用于根据图像和插帧图像生成二维视频对应的目标裸眼三维视频。
在一些实施方式中,补帧子模块,用于:
在裸眼三维视频中,确定每两个相邻帧的图像中第一图像内每个像素对应的第一亮度值和第一颜色值,以及确定每两个相邻帧的图像中第二图像内每个像素对应的第二亮度值和第二颜色值;
在第一图像中确定出第一像素,以及第一像素的目标第一亮度值和目标第一颜色值;
根据目标第一亮度值、目标第一颜色值、第二亮度值和第二颜色值在第二图像中确定出第一像素相同的第二像素;
根据第一像素的第一坐标和第二像素的第二坐标,确定第一像素和第二像素对应的位置变化量;
根据位置变化量、第一坐标和第二坐标,确定出第一像素和第二像素对应的插帧像素的坐标;
基于插帧像素的坐标对插帧像素设置目标第一亮度值和目标第一颜色值,以得到每两个相邻帧的图像之间的插帧图像。
在一些实施方式中,补帧子模块,用于:
将目标第一亮度值和第二亮度值相匹配,以在第二图像中确定出与目标第一亮度值相同的相关第二像素;
将目标第一颜色值和相关第二像素的第二颜色值相匹配,以在相关第二像素中确定出第一像素相同的第二像素。
在一些实施方式中,补帧子模块,用于:
确定位置变化量是否大于预设位置变化量;
当位置变化量不大于预设位置变化量时,根据第一坐标和第二坐标和第一位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标;
当位置变化量大于预设位置变化量时,根据第一坐标和第二坐标和第二位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标。
根据本申请的一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例提供的裸眼三维视频生成方法。
根据本申请的一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可以在处理器上运行的计算机程序,处理器执行计算机程序时实现本申请实施例提供的裸眼三维视频生成方法。
在本申请实施例中,通过获取二维视频中的多个关键帧图像;确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;根据裸眼三维图像生成二维视频对应的裸眼三维视频。以此,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的裸眼三维视频生成方法对应的场景示意图;
图2是本申请实施例提供的裸眼三维视频生成方法的总体流程示意图;
图3是本申请实施例提供的像素深度推理模型的训练流程示意图;
图4是本申请实施例提供的左视图和右视图生成的流程示意图;
图5是本申请实施例提供的获取插帧图像的流程示意图;
图6是本申请实施例提供的裸眼三维视频生成方法的另一流程示意图;
图7是本申请实施例提供的裸眼三维视频生成装置的结构示意图;
图8是本申请实施例提供的服务器的结构示意图;
图9是本申请实施例提供的终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
可以理解的是,在本申请的具体实施方式中,涉及到视频相应的视频数据等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,在说明书、权利要求书和上述附图所描述的一些流程中,包含了按照特定顺序出现的多个步骤,但应该清楚了解,这些步骤可以不按照其在本文中出现的顺序来执行或并行执行,步骤序号仅仅是用于区分开各个不同的步骤,序号本身不代表任何的执行顺序。此外,本文中的“第一”、“第二”或者“目标”等描述,是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释:
裸眼3D(Autostereoscopy):是对不借助偏振光眼镜等外部工具,实现立体视觉效果的技术的统称。
正视差:在显示屏上物体的左眼图像在左侧、右眼图像在右侧时的视差。观看正视差的物体时,感觉到的物体的画面位于显示屏幕后面。
负视差:在显示屏上物体的左眼图像在右侧,右眼图像在左侧时的视差。观看负视差的物体时,感觉到的物体的画面位于显示屏幕前面。
立体视觉效果可以给人的双眼分别提供具有视差的图像,再经大脑合成产生立体感觉,这是被公认是形成立体视觉的主要机制之一。比如,计算机设备将具有视差信息的图像信号再现为具有视差的图像,从而使观察者产生了立体视觉。
3D(Three Dimensions,即三维)技术就是实现在原有二维平面图像的基础上增加一维,人眼睛看到的物体就是三维的,不仅有平面上左右的区分,还有前后、远近的区分,所以感觉看到的物体就是立体的。
裸眼3D图像就是利用人双眼观看显示屏角度不同的视差和会聚功能制作的可产生立体效果的3D图像。在裸眼3D图像正常显示的情况下,观察者左眼看到从左视角拍摄的画面,右眼看到从右视角拍摄的画面,通过双眼会聚功能,合成为立体视觉的3D图像。
首先,对现有技术中所存在的技术问题进行描述。
随着裸眼3D技术的发展,目前在电视上、商场的广告牌上、演唱会展示屏上等多种场景都能够显示出裸眼3D图像,实现裸眼3D效果的显示。
由于一些视频拍摄时是所拍摄的格式是二维格式的,想要将这些二维视频转换成裸眼三维视频,相关技术中,一种方式是对二维视频中的对象进行三维建模,才能够得到裸眼三维视频,这样做的需要花费大量的人力物力,并且效率很低。另一种方式是通过人工智能转换的方式将二维视频转换成裸眼三维视频,这样需要大量的算力资源,导致计算成本过高。
因此,相关技术中,在将二维视频转换成裸眼三维视频的过程中,存在转换效率低和转换成本高的问题。
在本申请实施例中,为了解决上述技术问题,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
以下将对本申请实施例提供的裸眼三维视频生成方法、装置、计算机设备及存储介质进行详细描述。
具体地,本申请实施例将从裸眼三维视频生成装置的维度进行描述,该裸眼三维视频生成装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。其中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能家电、车载终端、智能语音交互设备、飞行器等,但并不局限于此。
请参阅图1,图1是本申请实施例提供的裸眼三维视频生成方法对应的场景示意图。
首先,可以获取二维视频,二维视频不具备空间深度信息,因此对象在观看二维视频的时候,并不能观看到二维视频中不同主体的立体视觉效果。二维视频可以是不同帧率的视频,比如60帧每秒、30帧每秒、24帧每秒等不同的帧率。
在得到二维视频后,可以对二维视频进行抽帧处理,从而得到多个关键帧图像,比如,从24帧每秒的视频中,在一秒时长的二维视频中抽取12帧画面为关键帧图像。然后利用关键帧图像来生成裸眼三维视频,比如,可以获取每个关键帧图像中每个像素的深度信息,然后根据深度信息生成每个关键帧图像对应的深度图像。
再根据每个关键帧图像和每个深度图像生成对应的左视图和右视图,根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像,最终确定每个裸眼三维图像的图像顺序,根据图像顺序将多帧裸眼三维图像合成裸眼三维视频。
这样,从而实现了将二维视频转换为裸眼三维视频,其中通过采用获取关键帧图像中像素对应的深度图像的方式,通过关键帧图像和深度图像来得到裸眼三维图像,通过裸眼三维图像合成裸眼三维视频,相比于相关技术中从头开始重新制作裸眼三维视频或者通过大模型运算的方式来生成裸眼三维视频,本申请实施例提供的方案能够极大的提高将二维视频转换为裸眼三维视频的效率,降低了将二维视频转换为裸眼三维视频的成本。
为了更加详细的了解本申请实施例提供的裸眼三维视频生成方法,请继续参阅图2,图2是本申请实施例提供的裸眼三维视频生成方法的总体流程示意图。该裸眼三维视频生成方法的执行主体可以是终端或者服务器。该裸眼三维视频生成方法可以包括如下步骤:
步骤110、获取二维视频中的多个关键帧图像;
步骤120、确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
步骤130、根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
步骤140、根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
步骤150、根据裸眼三维图像生成二维视频对应的裸眼三维视频。
以下将对步骤110至步骤150进行详细描述。
在步骤110中,获取二维视频中的多个关键帧图像。
其中,二维视频可以是任意一种帧率下的视频,比如每秒60帧、每秒48帧、每秒30帧、每秒24帧等多种帧率下的二维视频。可以在该二维视频中获取多个关键帧图像。
在一些实施方式中,获取二维视频中的多个关键帧图像,包括:
(1.1)获取二维视频,并确定二维视频对应的帧率;
(1.2)根据帧率确定出单位时长内对应的抽取帧数和抽取帧数间隔;
(1.3)根据抽取帧数和抽取帧数间隔在二维视频的每个单位时长内抽取出多个关键帧图像。
其中,在得到二维视频之后,可以读取二维视频的格式信息,从而确定出二维视频对应的帧率,比如二维视频的帧率为每秒24帧。
然后根据帧率每秒24帧可以确定出单位时间内对应的抽取帧数为8帧,抽取帧数间隔为2帧,抽取帧数和抽取帧数间隔可以根据实际需求而设置。然后根据抽取帧数和抽取帧数间隔在二维视频的每个单位时长内抽取出多个关键帧图像,比如,在二维视频的第一秒时长的视频中,总共有24帧图像,可以根据抽取帧数8帧和抽取帧数间隔2帧,在第一秒时长的24帧图像中抽取第1、4、7、10、13、16、19、22帧的图像为关键帧图像,总共8帧关键帧图像。或者,抽取帧数为12帧,抽取帧数间隔为1帧,那么可以在第一秒时长的24帧图像中抽取第1、3、5、7、9、11、13、15、17、19、21、23帧图像为关键帧图像,总共12帧关键帧图像。
可以理解的是,在整个二维视频中,每秒时长的视频均可以采取上述方式来抽取出对应的关键帧图像。其中,抽取帧数8帧和抽取帧数间隔2帧,这种抽取方式比较注重抽取效率。抽取帧数12帧和抽取帧数间隔1帧,这种抽取方式比较注重后续生成的裸眼三维视频的质量。
在步骤120中,确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像。
在每个关键帧图像中,存在不同的主体,比如有一些主体为背景,有一些主体为前景,因此不同主体之间在空间中的景深是不同的,那么不同主体对应的像素的景深信息也会有所不同。
在一些实施方式中,确定每个关键帧图像中每个像素对应的深度信息,包括:
将每个关键帧图像输入到训练后的像素深度推理模型中,输出每个关键帧图像中每个像素对应的深度信息;
其中,像素深度推理模型为根据样本二维图像和标签深度图像生成的模型损失训练得到,标签深度图像为根据样本二维图像对应的真实深度信息得到。
例如,像素深度推理模型的作用是在获取到二维图像之后,可以推算出二维图像中每个像素对应的深度信息。像素深度推理模型是经过对基础像素深度推理模型进行训练后得到的。
请一并参阅图3,图3是本申请实施例提供的像素深度推理模型的训练流程示意图。像素深度推理模型的训练过程,可以包括如下步骤:
步骤201、获取样本二维图像以及样本二维图像对应的真实深度信息。
样本二维图像为训练样本,样本二维图像可以包含多种场景下的图像,比如街道场景、办公室场景、学校场景、草原场景、森林场景等多种场景下的图像,同时每个样本二维图像具备相应的真实深度信息,比如每个样本二维图像中,每个主体在空间中都对应有一定的空间深度信息。
比如,样本二维图像在拍摄的过程中,可以设置一个红外相机获取场景的深度信息,设置一个普通相机来获取场景中的画面信息,从而得到样本二维图像和样本二维图像的真实深度信息。
样本二维图像可以是海量且不同的,并且每个样本二维图像都对应有相应的真实深度信息,将样本二维图像确定为训练样本,将样本二维图像对应的真实深度信息确定为标签,这样就得到了大量的训练样本,以及每个训练样本对应的标签。
步骤202、根据真实深度信息生成样本二维图像对应的标签深度图像。
可以理解的是,每个样本二维图像对应的真实深度信息可以是样本二维图像中每个像素的深度信息,那么将每个像素的像素位置以及每个像素的深度信息设置在一张图像中,就可以形成样本二维图像对应的标签深度图像。
步骤203、将样本二维图像输入到基础像素深度推理模型中,输出样本二维图像中每个像素对应的预测深度信息。
然后通过样本二维图像和样本二维图像对应的标签深度图像来对基础像素深度推理模型进行训练。首先,将样本二维图像输入到基础像素深度推理模型中,基础像素深度推理模型可以确定出二维图像中不同主体对应的像素,然后推理出每个主体的每个像素的预测深度信息,最终基础像素深度推理模型在本轮训练中输出样本二维图像中每个像素对应的预测深度信息。
步骤204、确定预测深度信息和标签深度图像之间的模型损失。
在一些实施方式中,针对于某一个像素,可以在标签深度图像中确定出该像素的真实深度信息,然后确定出真实深度信息和该像素的预设深度信息之间的差值。针对于一张样本二维图像中的所有像素,可以确定出所有像素分别对应的真实深度信息和预测深度信息之间的差值,那么就可以将这些差值确定为模型损失。
可选地,还可以确定出某个像素的差值是否超过预设差值阈值,若某个像素的差值超过预设差值阈值,则将该像素确定为选定像素。通过该方式,可以在样本二维图像中的所有像素中确定出选定像素,然后确定出选定像素占据所有像素的比例,将该比例确定为预测深度信息和标签深度图像之间的模型损失。
步骤205、根据模型损失对基础像素深度推理模型进行迭代训练,得到训练后的像素深度推理模型。
在得到模型损失之后,可以确定模型损失是否小于预设损失值,当模型损失值小于预设损失值的时候,说明此时基础像素深度推理模型输出的预测深度信息和标签深度图像中的深度信息之间相差不大,基础像素深度推理模型的预测结果比较准确,此时认为基础像素深度推理模型训练完成,得到训练后的像素深度推理模型。
比如选定像素占据所有像素的比例小于预设比例,那么说明此时基础像素深度推理模型对大多数像素的深度推理是比较准确的,此时认为基础像素深度推理模型训练完成,得到训练后的像素深度推理模型。
当模型损失值大于或等于预设损失值的时候,说明此时基础像素深度推理模型输出的预测深度信息和标签深度图像中的深度信息之间相差较大,此时基础像素深度推理模型还需要进行继续训练。比如,可以对基础像素深度推理模型的模型参数进行调整,从而实现对基础像素深度推理模型进行迭代,然后将下一轮样本二维图像输入到迭代后的基础像素深度推理模型中进行继续训练,直至模型损失小于预设损失值的时候,此时认为基础像素深度推理模型训练完成,得到训练后的像素深度推理模型。
由步骤201至步骤205上述可知,在本申请实施例中,像素深度推理模型是通过样本二维图像和样本二维图像对应的真实深度信息训练得到,其中样本二维图像作为训练样本,而真实深度信息作为训练标签,这样训练出的像素深度推理模型能够实现对二维图像中的像素进行深度信息推理,从而得到二维图像中每个像素的深度信息。这样可以极大的提高获取二维图像中像素的深度信息的效率。
在得到训练后的像素深度推理模型之后,可以将每个关键帧图像输入到该模型中,从而输出每个关键帧图像中每个像素对应的深度信息,然后根据每个关键帧图像中每个像素的深度信息生成每个关键帧图像对应的深度图像。
在步骤130中,根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图。
其中,左视图可以理解为是左眼需要看到的图像,右视图可以理解为是右眼需要看到的图像,通过左视图和右视图显示可以使得人眼在观看时能够形成视差,从而观看到裸眼三维画面。
请一并参阅图4,图4是本申请实施例提供的左视图和右视图生成的流程示意图。其中,根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图,可以包括如下步骤:
步骤301、在关键帧图像中确定出目标像素,并在关键帧图像对应的深度图像中确定出目标像素对应的深度值。
在关键帧图像中,可以确定出目标像素以及目标像素的坐标,然后根据目标像素的坐标在深度图像中确定出该目标像素对应的深度值,比如深度值为0-1这个范围内的值,可以在这个范围内确定目标像素的深度值。
步骤302、根据目标像素的深度值确定目标像素向左移动的左移距离以及向右移动的右移距离。
其中,深度值和左移距离之间有一定的对应关系,当深度值越大的时候,那么目标像素向左移动的左移距离越小,比如深度值为1,那么左移距离为0。当深度值越小的时候,那么目标像素向左移动的左移距离越大,比如深度值为0,那么左移距离为1。
深度值和右移距离之间有一定的对应关系,当深度值越大的时候,那么目标像素向右移动的右移距离越小,比如深度值为1,那么右移距离为0。当深度值越小的时候,那么目标像素向右移动的右移距离越大,比如深度值为0,那么右移距离为1。
也就是说,通过确定出目标像素的深度值,然后根据深度值和左移距离之间的对应关系,就能够确定出每个目标像素的左移距离。通过确定出目标像素的深度值,然后根据深度值和右移距离之间的对应关系,就能够确定出每个目标像素的右移距离。
步骤303、在关键帧图像的基础上,根据左移距离移动目标像素,生成左视图。
针对于一个关键帧图像,将其作为基础,然后根据每个像素的左移距离来移动像素,从而实现对像素的移动,得到第一处理图像。在第一处理图像中有一些像素被移动后,该像素原来的位置产生了空白像素,此时可以根据该空白像素周围的像素参数来进行插值,从而确定出该空白像素对应的像素参数,像素参数可以是颜色亮度等,从而得到该关键帧图像对应的左视图。
步骤304、在关键帧图像的基础上,根据右移距离移动目标像素,生成右视图。
针对于一个关键帧图像,将其作为基础,然后根据每个像素的右移距离来移动像素,从而实现对像素的移动,得到第一处理图像。在第一处理图像中有一些像素被移动后,该像素原来的位置产生了空白像素,此时可以根据该空白像素周围的像素参数来进行插值,从而确定出该空白像素对应的像素参数,像素参数可以是颜色亮度等,从而得到该关键帧图像对应的右视图。
由步骤301至步骤304可知,通过每个关键帧图像和每个关键帧图像的深度图像,能够实现对关键帧图像中的像素移动,从而生成左视图和右视图。这样,可以快速的生成左视图和右视图,提高了左视图和右视图的生成效率。
在步骤140中,根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像。
在得到每个关键帧图像对应的左视图和右视图之后,可以根据左视图和右视图合成每个关键帧图像对应的裸眼三维图像,该裸眼三维图像可以被立体显示设备所展示,从而展示出三维立体视觉的画面。
在步骤150中,根据裸眼三维图像生成二维视频对应的裸眼三维视频。
可以先确定出每个裸眼三维图像的顺序,然后根据抽取帧数来设置对应的帧率,比如一秒12帧。然后选取对应的视频格式的视频编码器,按照裸眼三维图像的顺序将裸眼三维图像输入到视频编码器中,从而输出对应格式的裸眼三维视频。
可以理解的是,当前生成的裸眼三维视频对应的帧率是小于二维视频的帧率的,这是因为裸眼三维图像是基于抽帧的关键帧图像得到的。但是,当前的裸眼三维视频具备立体显示效果,且在生成的过程中计算机所需要的计算量较少,因此将二维视频生成裸眼三维视频的效率较高,成本较低。
在一些实施方式中,在根据裸眼三维图像生成二维视频对应的裸眼三维视频之后,还包括:
(1.1)在裸眼三维视频中,对每两个相邻帧的图像进行图像补帧处理,得到每两个相邻帧的图像之间的插帧图像;
(1.2)根据图像和插帧图像生成二维视频对应的目标裸眼三维视频。
其中,针对于裸眼三维视频中的每两个相邻帧的图像,可以对每两个相邻帧的图像进行图像补帧处理,比如在中间补上一帧或两帧或者多帧插帧图像,最后根据每个图像和每个插帧图像的图像顺序再进行视频合成,从而生成二维视频对应的目标裸眼三维视频。该目标裸眼三维视频的帧率可以和原二维视频的帧率相同,该目标裸眼三维视频的帧率也可以大于原二维视频的帧率。
具体地,请一并参阅图5,图5是本申请实施例提供的获取插帧图像的流程示意图。在裸眼三维视频中,对每两个相邻帧的图像进行图像补帧处理,得到每两个相邻帧的图像之间的插帧图像,可以包括如下步骤:
步骤401、在裸眼三维视频中,确定每两个相邻帧的图像中第一图像内每个像素对应的第一亮度值和第一颜色值,以及确定每两个相邻帧的图像中第二图像内每个像素对应的第二亮度值和第二颜色值。
在裸眼三维视频中,包含了多个图像组成的图像序列,在该图像序列中,每两个相邻帧的图像中前一张图像为第一图像,后一张图像为第二图像,然后确定第一图像内每个像素对应的第一亮度值和第一颜色值,以及确定每两个相邻帧的图像中第二图像内每个像素对应的第二亮度值和第二颜色值。
步骤402、在第一图像中确定出第一像素,以及第一像素的目标第一亮度值和目标第一颜色值。
在第一图像中,可以确定出第一像素,第一像素为当前所选定的像素,然后确定出第一像素的目标第一亮度值和目标第一颜色值。
步骤403、根据目标第一亮度值、目标第一颜色值、第二亮度值和第二颜色值在第二图像中确定出第一像素相同的第二像素。
具体地,根据目标第一亮度值、目标第一颜色值、第二亮度值和第二颜色值在第二图像中确定出第一像素相同的第二像素,包括:
(2.1)将目标第一亮度值和第二亮度值相匹配,以在第二图像中确定出与目标第一亮度值相同的相关第二像素;
(2.2)将目标第一颜色值和相关第二像素的第二颜色值相匹配,以在相关第二像素中确定出第一像素相同的第二像素。
例如,通过目标第一亮度值和第二亮度值相匹配,就能够确定出亮度和目标第一亮度值相同的相关第二像素,相关第二像素的数量可能是多个。因此,还需要将目标第一颜色值和相关第二像素的第二颜色值相匹配,比如,目标第一颜色值包括R、G、B值,通过R、G、B值和相关第二像素中每个像素的R、G、B值匹配,最终将第二颜色值和目标第一颜色值相同的像素确定为第二像素。
也就是说,第二像素可以理解为是发生了移动后,在第二画面中的像素。
步骤404、根据第一像素的第一坐标和第二像素的第二坐标,确定第一像素和第二像素对应的位置变化量。
具体地,可以根据第一像素的第一坐标和第二像素的第二坐标,计算出第一像素发生移动的距离,该距离就是第一像素和第二像素对应的位置变化量。
步骤405、根据位置变化量、第一坐标和第二坐标,确定出第一像素和第二像素对应的插帧像素的坐标。
具体地,根据位置变化量、第一坐标和第二坐标,确定出第一像素和第二像素对应的插帧像素的坐标,包括:
(3.1)确定位置变化量是否大于预设位置变化量;
(3.2)当位置变化量不大于预设位置变化量时,根据第一坐标和第二坐标和第一位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标;
(3.3)当位置变化量大于预设位置变化量时,根据第一坐标和第二坐标和第二位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标。
可以理解的是,一个像素的位置变化量能够反映出该像素在画面中移动时对应的移动幅度,不同的移动幅度可以对应不同的补帧策略,比如对移动幅度较大的,对该像素的在插帧图像中的位置变化相对于原位置也要偏大。
因此,可以设置一个预设位置变化量,该预设位置变化量可以理解为是一个预设距离。
当位置变化量不大于预设位置变化量时,根据第一坐标和第二坐标和第一位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标。比如,第一位置调整权重为0.5,那么可以将第一像素的横坐标和第二像素的横坐标相加,然后再乘以0.5,则得到第一像素和第二像素对应的插帧像素的横坐标。将第一像素的纵坐标和第二像素的纵坐标相加,然后再乘以0.5,则得到第一像素和第二像素对应的插帧像素的纵坐标。
当位置变化量大于预设位置变化量时,根据第一坐标和第二坐标和第二位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标。比如,第二位置调整权重为0.23,那么可以将第一像素的横坐标和第二像素的横坐标相加,然后再乘以0.23,则得到第一像素和第二像素对应的插帧像素的横坐标。将第一像素的纵坐标和第二像素的纵坐标相加,然后再乘以0.23,则得到第一像素和第二像素对应的插帧像素的纵坐标。
其中,插帧像素可以理解为是第一像素发生移动后,在插帧图像中对应的位置的像素,插帧像素的颜色、亮度和第一像素的颜色、亮度相同。关于,第一位置调整权重和第二位置调整权重的数值,是多次实验后经人眼验证效果最广泛收到认可的参数,第一位置调整权重和第二位置调整权重可以根据实际需求而设置。
步骤406、基于插帧像素的坐标对插帧像素设置目标第一亮度值和目标第一颜色值,以得到每两个相邻帧的图像之间的插帧图像。
在一些实施方式中,可以确定插帧像素在插帧图像中坐标,然后根据坐标对插帧像素设置目标第一亮度值和目标第一颜色值。同理,针对于其他插帧像素,也可以通过该方式对其设置亮度值和颜色值。
可以理解的是,由于裸眼三维中的像素是发生移动的,在插帧图像中,会存在一些坐标上的像素无法准确确定出颜色和亮度,此时可以根据周围的像素的颜色和亮度进行插值处理,从而得到这部分像素的颜色和亮度。
由步骤401至步骤406可知,通过像素的位置变化量以及像素的位置调整权重,能够确定出像素在发生移动时,在插帧图像中的具体位置,从而能够准确的得到插帧图像,实现对裸眼三维视频中每两个相邻帧的图像进行图像补帧处理。最后,基于裸眼三维视频中的图像和插帧图像,再进行视频合成,从而生成目标裸眼三维视频。目标裸眼三维视频拥有更高的帧率,同时对应有更好的显示效果。
由上述可知,在本申请实施例中,通过获取二维视频中的多个关键帧图像;确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;根据裸眼三维图像生成二维视频对应的裸眼三维视频。以此,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
请参阅图6,图6是本申请实施例提供的裸眼三维视频生成方法的另一流程示意图。该裸眼三维视频生成方法还可以包括如下步骤:
步骤501、获取二维视频中的多个关键帧图像;
步骤502、将每个关键帧图像输入到训练后的像素深度推理模型中,输出每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
步骤503、在关键帧图像中确定出目标像素,并在关键帧图像对应的深度图像中确定出目标像素对应的深度值;
步骤504、根据目标像素的深度值确定目标像素向左移动的左移距离以及向右移动的右移距离;
步骤505、在关键帧图像的基础上,根据左移距离移动目标像素,生成左视图;
步骤506、在关键帧图像的基础上,根据右移距离移动目标像素,生成右视图;
步骤507、根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
步骤508、根据裸眼三维图像生成二维视频对应的裸眼三维视频;
步骤509、在裸眼三维视频中,确定每两个相邻帧的图像中第一图像内每个像素对应的第一亮度值和第一颜色值,以及确定每两个相邻帧的图像中第二图像内每个像素对应的第二亮度值和第二颜色值;
步骤510、在第一图像中确定出第一像素,以及第一像素的目标第一亮度值和目标第一颜色值;
步骤511、根据目标第一亮度值、目标第一颜色值、第二亮度值和第二颜色值在第二图像中确定出第一像素相同的第二像素;
步骤512、根据第一像素的第一坐标和第二像素的第二坐标,确定第一像素和第二像素对应的位置变化量;
步骤513、根据位置变化量、第一坐标和第二坐标,确定出第一像素和第二像素对应的插帧像素的坐标;
步骤514、基于插帧像素的坐标对插帧像素设置目标第一亮度值和目标第一颜色值,以得到每两个相邻帧的图像之间的插帧图像。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对裸眼三维视频生成方法的详细描述,此处不再赘述。
由上述可知,在本申请实施例中,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
请参阅图7,图7是本申请实施例提供的裸眼三维视频生成装置的示意图。该裸眼三维视频生成装置设置在计算机设备中,该裸眼三维视频生成装置可以用于执行上述实施例中描述的裸眼三维视频生成方法。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
如图7所示,裸眼三维视频生成装置600可以包括:
获取模块610,用于获取二维视频中的多个关键帧图像;
确定模块620,用于确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
第一图像生成模块630,用于根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
第二图像生成模块640,用于根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
视频生成模块650,用于根据裸眼三维图像生成二维视频对应的裸眼三维视频。
在一些实施方式中,获取模块610,用于:
获取二维视频,并确定二维视频对应的帧率;
根据帧率确定出单位时长内对应的抽取帧数和抽取帧数间隔;
根据抽取帧数和抽取帧数间隔在二维视频的每个单位时长内抽取出多个关键帧图像。
在一些实施方式中,确定模块620,用于:
将每个关键帧图像输入到训练后的像素深度推理模型中,输出每个关键帧图像中每个像素对应的深度信息;
其中,像素深度推理模型为根据样本二维图像和标签深度图像生成的模型损失训练得到,标签深度图像为根据样本二维图像对应的真实深度信息得到。
在一些实施方式中,裸眼三维视频生成装置,还包括训练模块,用于:
获取样本二维图像以及样本二维图像对应的真实深度信息;
根据真实深度信息生成样本二维图像对应的标签深度图像;
将样本二维图像输入到基础像素深度推理模型中,输出样本二维图像中每个像素对应的预测深度信息;
确定预测深度信息和标签深度图像之间的模型损失;
根据模型损失对基础像素深度推理模型进行迭代训练,得到训练后的像素深度推理模型。
在一些实施方式中,第一图像生成模块630,用于:
在关键帧图像中确定出目标像素,并在关键帧图像对应的深度图像中确定出目标像素对应的深度值;
根据目标像素的深度值确定目标像素向左移动的左移距离以及向右移动的右移距离;
在关键帧图像的基础上,根据左移距离移动目标像素,生成左视图;
在关键帧图像的基础上,根据右移距离移动目标像素,生成右视图。
在一些实施方式中,视频生成模块650,包括补帧子模块和视频生成子模块;在根据裸眼三维图像生成二维视频对应的裸眼三维视频之后,补帧子模块,用于在裸眼三维视频中,对每两个相邻帧的图像进行图像补帧处理,得到每两个相邻帧的图像之间的插帧图像;
视频生成子模块,用于根据图像和插帧图像生成二维视频对应的目标裸眼三维视频。
在一些实施方式中,补帧子模块,用于:
在裸眼三维视频中,确定每两个相邻帧的图像中第一图像内每个像素对应的第一亮度值和第一颜色值,以及确定每两个相邻帧的图像中第二图像内每个像素对应的第二亮度值和第二颜色值;
在第一图像中确定出第一像素,以及第一像素的目标第一亮度值和目标第一颜色值;
根据目标第一亮度值、目标第一颜色值、第二亮度值和第二颜色值在第二图像中确定出第一像素相同的第二像素;
根据第一像素的第一坐标和第二像素的第二坐标,确定第一像素和第二像素对应的位置变化量;
根据位置变化量、第一坐标和第二坐标,确定出第一像素和第二像素对应的插帧像素的坐标;
基于插帧像素的坐标对插帧像素设置目标第一亮度值和目标第一颜色值,以得到每两个相邻帧的图像之间的插帧图像。
在一些实施方式中,补帧子模块,用于:
将目标第一亮度值和第二亮度值相匹配,以在第二图像中确定出与目标第一亮度值相同的相关第二像素;
将目标第一颜色值和相关第二像素的第二颜色值相匹配,以在相关第二像素中确定出第一像素相同的第二像素。
在一些实施方式中,补帧子模块,用于:
确定位置变化量是否大于预设位置变化量;
当位置变化量不大于预设位置变化量时,根据第一坐标和第二坐标和第一位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标;
当位置变化量大于预设位置变化量时,根据第一坐标和第二坐标和第二位置调整权重确定出第一像素和第二像素对应的插帧像素的坐标。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对裸眼三维视频生成方法的详细描述,此处不再赘述。
由上述可知,在本申请实施例中,获取模块610通过获取二维视频中的多个关键帧图像;确定模块620确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;第一图像生成模块630根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;第一图像生成模块640根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;视频生成模块650根据裸眼三维图像生成二维视频对应的裸眼三维视频。以此,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
本申请实施例提供了一种计算机设备,该计算机设备可以是服务器,如图8所示,图8是本申请实施例提供的服务器的结构示意图,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图8中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器701是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体控制。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。
存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。
计算机设备还包括给各个部件供电的电源703,可选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
计算机设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现前述实施例提供的各种方法步骤,如下:
获取二维视频中的多个关键帧图像;
确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
根据裸眼三维图像生成二维视频对应的裸眼三维视频。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对裸眼三维视频生成方法的详细描述,此处不再赘述。
由上述可知,在本申请实施例中,通过获取二维视频中的多个关键帧图像;确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;根据裸眼三维图像生成二维视频对应的裸眼三维视频。以此,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
本申请实施例还提供一种计算机设备,该计算机设备可以为终端,如图9所示,图9是本申请实施例提供的终端的结构示意图,其示出了本申请实施例所涉及的终端的结构示意图,具体来讲:
该计算机设备可以包括射频(RF,Radio Frequency)电路801、包括有一个或一个以上计算机可读存储介质的存储器802、输入单元803、显示单元804、传感器805、音频电路806、无线保真(WiFi,Wireless Fidelity)模块807、包括有一个或者一个以上处理核心的处理器808、以及电源809等部件。本领域技术人员可以理解,图9中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路801可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器808处理;另外,将涉及上行的数据发送给基站。通常,RF电路801包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、对象身份模块(SIM,Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路801还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobile communication)、通用分组无线服务(GPRS,GeneralPacket Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,Long TermEvolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
存储器802可用于存储软件程序以及模块,处理器808通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及信息检索。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器802还可以包括存储器控制器,以提供处理器808和输入单元803对存储器802的访问。
输入单元803可用于接收输入的数字或字符信息,以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元803可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集对象在其上或附近的触摸操作(比如对象使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测对象的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器808,并能接收处理器808发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元803还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元804可用于显示由对象输入的信息或提供给对象的信息以及终端的各种图形对象接口,这些图形对象接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元804可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器808以确定触摸事件的类型,随后处理器808根据触摸事件的类型在显示面板提供相应的视觉输出。虽然在图9中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
终端还可包括至少一种传感器805,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路806、扬声器,传声器可提供对象与终端之间的音频接口。音频电路806可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路806接收后转换为音频数据,再将音频数据输出处理器808处理后,经RF电路801以发送给比如另一终端,或者将音频数据输出至存储器802以便进一步处理。音频电路806还可能包括耳塞插孔,以提供外设耳机与终端的通信。
WiFi属于短距离无线传输技术,终端通过WiFi模块807可以帮助对象收发电子邮件、浏览网页和访问流式媒体等,它为对象提供了无线的宽带互联网访问。虽然图9示出了WiFi模块807,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器808是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监测。可选的,处理器808可包括一个或多个处理核心;优选的,处理器808可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、对象界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器808中。
终端还包括给各个部件供电的电源809(比如电池),优选的,电源可以通过电源管理系统与处理器808逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源809还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器808会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器808来运行存储在存储器802中的应用程序,从而实现各种功能:
获取二维视频中的多个关键帧图像;
确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
根据裸眼三维图像生成二维视频对应的裸眼三维视频。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对裸眼三维视频生成方法的详细描述,此处不再赘述。
由上述可知,在本申请实施例中,通过获取二维视频中的多个关键帧图像;确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;根据裸眼三维图像生成二维视频对应的裸眼三维视频。以此,通过获取二维视频中的关键帧图像,然后确定关键帧图像中像素的深度信息,得到深度图像,最终通过深度图像和关键帧图像生成裸眼三维图像,并通过裸眼三维图像生成裸眼三维视频,这样减少了对二维视频的数据处理量,并且能够通过二维视频生成裸眼三维视频,从而提高了将二维视频转换成裸眼三维视频的转换效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种裸眼三维视频生成方法中的步骤。例如,该指令可以执行如下步骤:
获取二维视频中的多个关键帧图像;
确定每个关键帧图像中每个像素对应的深度信息,并根据深度信息生成每个关键帧图像对应的深度图像;
根据每个关键帧图像和深度图像生成每个关键帧图像对应的左视图和右视图;
根据左视图和右视图生成每个关键帧图像对应的裸眼三维图像;
根据裸眼三维图像生成二维视频对应的裸眼三维视频。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对裸眼三维视频生成方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的裸眼三维视频生成方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种裸眼三维视频生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种裸眼三维视频生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种裸眼三维视频生成方法、装置、计算机设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种裸眼三维视频生成方法,其特征在于,包括:
获取二维视频中的多个关键帧图像;
确定每个所述关键帧图像中每个像素对应的深度信息,并根据所述深度信息生成每个所述关键帧图像对应的深度图像;
根据每个所述关键帧图像和所述深度图像生成每个所述关键帧图像对应的左视图和右视图;
根据所述左视图和所述右视图生成每个所述关键帧图像对应的裸眼三维图像;
根据所述裸眼三维图像生成所述二维视频对应的裸眼三维视频。
2.根据权利要求1所述的裸眼三维视频生成方法,其特征在于,所述获取二维视频中的多个关键帧图像,包括:
获取二维视频,并确定所述二维视频对应的帧率;
根据所述帧率确定出单位时长内对应的抽取帧数和抽取帧数间隔;
根据所述抽取帧数和所述抽取帧数间隔在所述二维视频的每个单位时长内抽取出多个关键帧图像。
3.根据权利要求1所述的裸眼三维视频生成方法,其特征在于,所述确定每个所述关键帧图像中每个像素对应的深度信息,包括:
将每个所述关键帧图像输入到训练后的像素深度推理模型中,输出每个所述关键帧图像中每个像素对应的深度信息;
其中,所述像素深度推理模型为根据样本二维图像和标签深度图像生成的模型损失训练得到,所述标签深度图像为根据所述样本二维图像对应的真实深度信息得到。
4.根据权利要求3所述的裸眼三维视频生成方法,其特征在于,所述像素深度推理模型的训练过程,包括:
获取样本二维图像以及所述样本二维图像对应的真实深度信息;
根据所述真实深度信息生成所述样本二维图像对应的标签深度图像;
将所述样本二维图像输入到基础像素深度推理模型中,输出所述样本二维图像中每个像素对应的预测深度信息;
确定所述预测深度信息和所述标签深度图像之间的模型损失;
根据所述模型损失对所述基础像素深度推理模型进行迭代训练,得到训练后的像素深度推理模型。
5.根据权利要求1所述的裸眼三维视频生成方法,其特征在于,所述根据每个所述关键帧图像和所述深度图像生成每个所述关键帧图像对应的左视图和右视图,包括:
在所述关键帧图像中确定出目标像素,并在所述关键帧图像对应的所述深度图像中确定出所述目标像素对应的深度值;
根据所述目标像素的深度值确定所述目标像素向左移动的左移距离以及向右移动的右移距离;
在所述关键帧图像的基础上,根据所述左移距离移动所述目标像素,生成左视图;
在所述关键帧图像的基础上,根据所述右移距离移动所述目标像素,生成右视图。
6.根据权利要求1所述的裸眼三维视频生成方法,其特征在于,在所述根据所述裸眼三维图像生成所述二维视频对应的裸眼三维视频之后,还包括:
在所述裸眼三维视频中,对每两个相邻帧的图像进行图像补帧处理,得到每两个相邻帧的图像之间的插帧图像;
根据所述图像和所述插帧图像生成所述二维视频对应的目标裸眼三维视频。
7.根据权利要求6所述的裸眼三维视频生成方法,其特征在于,所述在所述裸眼三维视频中,对每两个相邻帧的图像进行图像补帧处理,得到每两个相邻帧的图像之间的插帧图像,包括:
在所述裸眼三维视频中,确定每两个相邻帧的图像中第一图像内每个像素对应的第一亮度值和第一颜色值,以及确定每两个相邻帧的图像中第二图像内每个像素对应的第二亮度值和第二颜色值;
在所述第一图像中确定出第一像素,以及所述第一像素的目标第一亮度值和目标第一颜色值;
根据所述目标第一亮度值、所述目标第一颜色值、所述第二亮度值和所述第二颜色值在所述第二图像中确定出所述第一像素相同的第二像素;
根据所述第一像素的第一坐标和所述第二像素的第二坐标,确定所述第一像素和所述第二像素对应的位置变化量;
根据所述位置变化量、所述第一坐标和所述第二坐标,确定出所述第一像素和所述第二像素对应的插帧像素的坐标;
基于所述插帧像素的坐标对所述插帧像素设置所述目标第一亮度值和所述目标第一颜色值,以得到每两个相邻帧的图像之间的插帧图像。
8.根据权利要求7所述的裸眼三维视频生成方法,其特征在于,所述根据所述目标第一亮度值、所述目标第一颜色值、所述第二亮度值和所述第二颜色值在所述第二图像中确定出所述第一像素相同的第二像素,包括:
将所述目标第一亮度值和所述第二亮度值相匹配,以在所述第二图像中确定出与所述目标第一亮度值相同的相关第二像素;
将所述目标第一颜色值和所述相关第二像素的第二颜色值相匹配,以在所述相关第二像素中确定出所述第一像素相同的第二像素。
9.根据权利要求7所述的裸眼三维视频生成方法,其特征在于,所述根据所述位置变化量、所述第一坐标和所述第二坐标,确定出所述第一像素和所述第二像素对应的插帧像素的坐标,包括:
确定所述位置变化量是否大于预设位置变化量;
当所述位置变化量不大于所述预设位置变化量时,根据所述第一坐标和所述第二坐标和第一位置调整权重确定出所述第一像素和所述第二像素对应的插帧像素的坐标;
当所述位置变化量大于所述预设位置变化量时,根据所述第一坐标和所述第二坐标和第二位置调整权重确定出所述第一像素和所述第二像素对应的插帧像素的坐标。
10.一种裸眼三维视频生成装置,其特征在于,包括:
获取模块,用于获取二维视频中的多个关键帧图像;
确定模块,用于确定每个所述关键帧图像中每个像素对应的深度信息,并根据所述深度信息生成每个所述关键帧图像对应的深度图像;
第一图像生成模块,用于根据每个所述关键帧图像和所述深度图像生成每个所述关键帧图像对应的左视图和右视图;
第二图像生成模块,用于根据所述左视图和所述右视图生成每个所述关键帧图像对应的裸眼三维图像;
视频生成模块,用于根据所述裸眼三维图像生成所述二维视频对应的裸眼三维视频。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的裸眼三维视频生成方法。
12.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的裸眼三维视频生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410393172.3A CN118474328A (zh) | 2024-04-02 | 2024-04-02 | 裸眼三维视频生成方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410393172.3A CN118474328A (zh) | 2024-04-02 | 2024-04-02 | 裸眼三维视频生成方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118474328A true CN118474328A (zh) | 2024-08-09 |
Family
ID=92150433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410393172.3A Pending CN118474328A (zh) | 2024-04-02 | 2024-04-02 | 裸眼三维视频生成方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118474328A (zh) |
-
2024
- 2024-04-02 CN CN202410393172.3A patent/CN118474328A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107592466B (zh) | 一种拍照方法及移动终端 | |
WO2018120657A1 (zh) | 一种共享虚拟现实数据的方法和设备 | |
CN112272311B (zh) | 花屏修复方法、装置、终端、服务器及介质 | |
CN109068063B (zh) | 一种三维图像数据的处理、显示方法、装置及移动终端 | |
CN108320263A (zh) | 一种图像处理的方法、装置及移动终端 | |
CN103869977B (zh) | 图像显示方法、装置和电子设备 | |
CN102413306A (zh) | 基于3d电视机的三维立体视频通话方法及3d电视机 | |
CN108665510B (zh) | 连拍图像的渲染方法、装置、存储介质及终端 | |
CN111556337B (zh) | 一种媒体内容植入方法、模型训练方法以及相关装置 | |
CN115170400A (zh) | 一种视频修复的方法、相关装置、设备以及存储介质 | |
US20200090309A1 (en) | Method and device for denoising processing, storage medium, and terminal | |
CN109348212B (zh) | 一种图像噪声确定方法及终端设备 | |
CN102540690A (zh) | 在便携式终端中产生三维图像的设备和方法 | |
CN109104573B (zh) | 一种确定对焦点的方法及终端设备 | |
US10482671B2 (en) | System and method of providing a virtual environment | |
CN112053372B (zh) | 一种屏幕显示类型的识别方法以及相关装置 | |
CN111385481A (zh) | 图像处理方法及装置、电子设备及存储介质 | |
CN106651762A (zh) | 一种照片处理方法、装置及终端 | |
CN118474328A (zh) | 裸眼三维视频生成方法、装置、计算机设备及介质 | |
CN105184750A (zh) | 一种在移动终端对实时视频图像去噪的方法和装置 | |
CN113780291B (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN110136570B (zh) | 一种屏幕显示方法及终端 | |
CN108537836A (zh) | 一种深度数据获取方法及移动终端 | |
CN114155142A (zh) | 图像处理方法、装置、计算机可读存储介质及计算机设备 | |
CN113705309A (zh) | 一种景别类型判断方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |