CN114051128B - 一种2d视频转3d视频的方法、装置、设备及介质 - Google Patents
一种2d视频转3d视频的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114051128B CN114051128B CN202111333590.6A CN202111333590A CN114051128B CN 114051128 B CN114051128 B CN 114051128B CN 202111333590 A CN202111333590 A CN 202111333590A CN 114051128 B CN114051128 B CN 114051128B
- Authority
- CN
- China
- Prior art keywords
- image
- parallax
- map
- sample
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000006243 chemical reaction Methods 0.000 claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 78
- 238000004364 calculation method Methods 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 63
- 230000008439 repair process Effects 0.000 claims description 56
- 238000004422 calculation algorithm Methods 0.000 claims description 48
- 230000008859 change Effects 0.000 claims description 41
- 238000002372 labelling Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000006073 displacement reaction Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/261—Image signal generators with monoscopic-to-stereoscopic image conversion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明实施例提供了一种2D视频转3D视频的方法、装置、电子设备及存储介质,涉及人工智能技术领域,包括获得待进行3D转换的2D视频片段,所述2D视频片段包含多帧第一单目视图,所述第一单目视图为左目视图或右目视图;将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过所述视差图预测模型预测各个第一单目视图对应的视差图;利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,所述第二单目视图为所述第一单目视图的另一侧视图;通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到所述2D视频片段对应的3D视频片段。应用本发明实施例提供的方案,可以提高转换后的3D视频的质量。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种2D视频转3D视频的方法、装置、电子设备及存储介质。
背景技术
在观看视频时,为了提高视觉感官体验,可以将视频中的2D图像转化为3D图像,其中3D图像通常由2D的左目视图和2D的右目视图通过预设图像处理方式形成。为了将2D图像转化为3D图像,需要首先计算2D图像对应的视差图,然后利用上述视差图对上述2D图像进行视图转换处理,得到上述2D图像对应的另一侧视图,再对上述2D图像和另一侧视图进行处理,得到3D图像。
现有技术中,通常会独立计算视频中每一帧图像的视差图,进而独立获得每一帧图像对应的另一侧视图,最终得到每一帧图像对应的3D图像。这样由于转换后的3D视频中每一帧3D图像是独立计算得到的,可能导致转换后的3D视频存在抖动,导致转换后的3D视频的质量较低。
发明内容
本发明实施例的目的在于提供一种2D视频转3D视频的方法、装置、电子设备及存储介质,以提高转换后的3D视频的质量。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种2D视频转3D视频的方法,所述方法包括:
获得待进行3D转换的2D视频片段,其中,所述2D视频片段包含多帧第一单目视图,所述第一单目视图为左目视图或右目视图;
将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过所述视差图预测模型预测各个第一单目视图对应的视差图;
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,所述第二单目视图为所述第一单目视图的另一侧视图;
通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到所述2D视频片段对应的3D视频片段。
本发明的一个实施例中,所述视差图预测模型通过以下方法训练得到:
获得用于进行模型训练的2D样本视频片段,其中,所述2D样本视频片段包含多帧第一样本图像,所述第一样本图像为左目视图或右目视图;
按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;
将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;
按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,所述损失计算方式基于线性变化原则得到,所述线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;
基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
本发明的一个实施例中,所述按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图,包括:
分别利用不同的视差图计算算法计算各个第一样本图像的视差图,得到每一第一样本图像的多个视差图,作为多个候选视差图;
针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,并基于该第一样本图像不同的候选视差图中各个有效位置处的视差值,预测该第一样本图像的视差标注图中各个有效位置处的视差值,得到该第一样本图像的视差标注图。
本发明的一个实施例中,所述针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,包括:
针对每一第一样本图像的多个候选视差图中的每一图像位置,计算该第一样本图像不同的候选视差图中该图像位置的视差值之间的差值,判断所计算的差值中的最大差值是否小于等于预设的差值阈值,若为是,判断该图像位置为有效位置。
本发明的一个实施例中,所述按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,包括:
利用以下公式计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失L(d,d*):
其中,所述M表示所述视差预测图的像素点数量,所述valid_mask表示所述有效位置的数量,所述N表示所述第一样本图像的数量,所述di表示所述视差预测图中第i个像素点的像素值,所述表示所述视差标注图中第i个像素点的像素值,所述s表示所述线性视差变化规律中的尺度参数,所述t表示所述线性视差变化规律中的平移参数,所述h表示每一帧第一样本图像对应的s、t的表达式,所述hopt表示每一帧第一样本图像对应的s、t的最优解求取函数,所述hzopt表示对所有第一样本图像对应的s、t的求取函数,所述f表示所述2D样本视频片段中的一帧第一样本图像,所述sf表示基于第f帧第一样本图像计算得到的尺度参数,所述tf表示基于第f帧第一样本图像计算得到的平移参数,所述表示第f帧第一样本图像对应的视差预测图中第i个像素点的像素值,所述表示第f帧第一样本图像对应的视差标注图中第i个像素点的像素值。
本发明的一个实施例中,在所述基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练之前,所述方法还包括:
按照除所述预设的损失计算方式之外的辅助损失计算方法,计算反映各个第一样本图像的视差预测图相对视差标注图的差异的辅助损失;
所述基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练,包括:
基于所述第一目标损失、辅助损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
本发明的一个实施例中,所述按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图,包括:
按照预设的视差图计算算法,确定各个第一样本图像对应的第一视差图;
针对每一第一样本图像,利用该第一样本图像的第一视差图对该第一样本图像进行视图转换处理,得到该第一样本图像对应的另一侧视图,作为第一目标图像,按照所述视差图计算算法,确定所述第一目标图像对应的第二视差图,将所述第一视差图、第二视差图作为所述第一样本图像的视差标注图;
所述将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图,包括:
将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到所述视差图预测模型输出的各个第一样本图像对应的第三视差图、以及第二目标图像对应的第四视差图,将所述第三视差图、第四视差图作为所述第一样本图像的视差预测图,其中,所述第二目标图像为:利用所述第三视差图对各个第一样本图像进行视图转换处理,得到的各个第一样本图像对应的另一侧视图;
所述按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,包括:
按照预设的损失计算方式,计算所述第三视差图相对第一视差图的第一损失,并按照所述损失计算方式计算所述第四视差图相对第二视差图的第二损失,将所述第一损失、第二损失作为第一目标损失。
本发明的一个实施例中,所述利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,包括:
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个参考单目视图;
将各个参考单目视图输入到所述视差图预测模型中,通过所述视差图预测模型预测各个参考单目视图对应的视差图;
基于各个第一单目视图对应的视差图、参考单目视图对应的视差图,确定所述参考单目视图中处于空洞区域的像素点,作为空洞像素点;
将所述参考单目视图、空洞像素点输入训练完成的空洞修复模型,利用所述空洞修复模型对所述参考单目视图中的空洞像素点进行填充,实现对所述参考单目视图的修复,得到第二单目视图。
本发明的一个实施例中,所述空洞修复模型通过以下方式训练得到:
从已有的3D视频源中获取第二样本图像,其中,所述第二样本图像包括第一目图像、第二目图像,所述第一目图像为左目视图或右目视图,所述第二目图像为所述第一目图像的另一侧视图;
将所述第一目图像输入所述视差图预测模型,利用所述视差图预测模型预测输入的第一目图像对应的第五视差图、第二目图像对应的第六视差图;
利用所述第五视差图对所述第一目图像进行视图转换处理,得到所述第一目图像对应的第三目标图像;
基于所述第五视差图、第六视差图,确定所述第三目标图像中处于空洞区域的像素点,作为待修复像素点;
将所述第三目标图像、所确定的待修复像素点输入待训练的空洞修复模型,利用所述空洞修复模型对所述第三目标图像中的待修复像素点进行填充,实现对所述第三目标图像的修复,得到所述空洞修复模型输出的修复后图像;
计算所述修复后图像与所述第二目图像之间的第二目标损失,基于所述第二目标损失对所述空洞修复模型进行参数调整,实现对所述空洞修复模型的训练。
本发明的一个实施例中,所述基于所述第五视差图、第六视差图,确定所述第三目标图像中处于空洞区域的像素点,作为待修复像素点,包括:
对所述第六视差图进行视图转换处理,得到视图转换后的第六视差图;
利用所述第五视差图对所述视图转换后的第六视差图进行视图转换处理,得到转换视差图;
针对所述转换视差图中的每一图像位置,判断所述转换视差图中该图像位置的像素点的第一视差值、相对所述第五视差图中处于该图像位置的像素点的第二视差值之间的差值,是否大于等于预设的修复阈值,若为是,确定所述第三目标图像中该图像位置的像素点为待修复像素点。
在本发明实施的第二方面,还提供了一种2D视频转3D视频的装置,所述装置包括:
2D视频片段获得模块,用于获得待进行3D转换的2D视频片段,其中,所述2D视频片段包含多帧第一单目视图,所述第一单目视图为左目视图或右目视图;
模型输入模块,用于将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过所述视差图预测模型预测各个第一单目视图对应的视差图;
第二单目视图获得模块,用于利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,所述第二单目视图为所述第一单目视图的另一侧视图;
3D视频获得模块,用于通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到所述2D视频片段对应的3D视频片段。
本发明的一个实施例中,所述装置还包括:
样本视频片段获得模块,用于获得用于进行模型训练的2D样本视频片段,其中,所述2D样本视频片段包含多帧第一样本图像,所述第一样本图像为左目视图或右目视图;
视差标注图获得模块,用于按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;
视差预测图获得模块,用于将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;
第一目标损失计算模块,用于按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,所述损失计算方式基于线性变化原则得到,所述线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;
第一模型训练模块,用于基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
本发明的一个实施例中,所述视差标注图获得模块,包括:
候选视差图获得单元,用于分别利用不同的视差图计算算法计算各个第一样本图像的视差图,得到每一第一样本图像的多个视差图,作为多个候选视差图;
视差标注图获得单元,用于针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,并基于该第一样本图像不同的候选视差图中各个有效位置处的视差值,预测该第一样本图像的视差标注图中各个有效位置处的视差值,得到该第一样本图像的视差标注图。
本发明的一个实施例中,所述视差标注图获得单元,具体用于:
针对每一第一样本图像的多个候选视差图中的每一图像位置,计算该第一样本图像不同的候选视差图中该图像位置的视差值之间的差值,判断所计算的差值中的最大差值是否小于等于预设的差值阈值,若为是,判断该图像位置为有效位置。
本发明的一个实施例中,所述第一目标损失计算模块,具体用于:
利用以下公式计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失L(d,d*):
其中,所述M表示所述视差预测图的像素点数量,所述valid_mask表示所述有效位置的数量,所述N表示所述第一样本图像的数量,所述di表示所述视差预测图中第i个像素点的像素值,所述表示所述视差标注图中第i个像素点的像素值,所述s表示所述线性视差变化规律中的尺度参数,所述t表示所述线性视差变化规律中的平移参数,所述h表示每一帧第一样本图像对应的s、t的表达式,所述hopt表示每一帧第一样本图像对应的s、t的最优解求取函数,所述hzopt表示对所有第一样本图像对应的s、t的求取函数,所述f表示所述2D样本视频片段中的一帧第一样本图像,所述sf表示基于第f帧第一样本图像计算得到的尺度参数,所述tf表示基于第f帧第一样本图像计算得到的平移参数,所述表示第f帧第一样本图像对应的视差预测图中第i个像素点的像素值,所述表示第f帧第一样本图像对应的视差标注图中第i个像素点的像素值。
本发明的一个实施例中,所述装置还包括:
辅助损失计算模块,用于在基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练之前,按照除所述预设的损失计算方式之外的辅助损失计算方法,计算反映各个第一样本图像的视差预测图相对视差标注图的差异的辅助损失;
所述第一模型训练模块,具体用于:
基于所述第一目标损失、辅助损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
本发明的一个实施例中,所述视差标注图获得模块,具体用于:
按照预设的视差图计算算法,确定各个第一样本图像对应的第一视差图;
针对每一第一样本图像,利用该第一样本图像的第一视差图对该第一样本图像进行视图转换处理,得到该第一样本图像对应的另一侧视图,作为第一目标图像,按照所述视差图计算算法,确定所述第一目标图像对应的第二视差图,将所述第一视差图、第二视差图作为所述第一样本图像的视差标注图;
所述视差预测图获得模块,具体用于:
将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到所述视差图预测模型输出的各个第一样本图像对应的第三视差图、以及第二目标图像对应的第四视差图,将所述第三视差图、第四视差图作为所述第一样本图像的视差预测图,其中,所述第二目标图像为:利用所述第三视差图对各个第一样本图像进行视图转换处理,得到的各个第一样本图像对应的另一侧视图;
所述第一目标损失计算模块,具体用于:
按照预设的损失计算方式,计算所述第三视差图相对第一视差图的第一损失,并按照所述损失计算方式计算所述第四视差图相对第二视差图的第二损失,将所述第一损失、第二损失作为第一目标损失。
本发明的一个实施例中,所述第二单目视图获得模块,具体用于:
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个参考单目视图;
将各个参考单目视图输入到所述视差图预测模型中,通过所述视差图预测模型预测各个参考单目视图对应的视差图;
基于各个第一单目视图对应的视差图、参考单目视图对应的视差图,确定所述参考单目视图中处于空洞区域的像素点,作为空洞像素点;
将所述参考单目视图、空洞像素点输入训练完成的空洞修复模型,利用所述空洞修复模型对所述参考单目视图中的空洞像素点进行填充,实现对所述参考单目视图的修复,得到第二单目视图。
本发明的一个实施例中,所述装置还包括:
第二样本图像获得模块,用于从已有的3D视频源中获取第二样本图像,其中,所述第二样本图像包括第一目图像、第二目图像,所述第一目图像为左目视图或右目视图,所述第二目图像为所述第一目图像的另一侧视图;
第一目图像输入模块,用于将所述第一目图像输入所述视差图预测模型,利用所述视差图预测模型预测输入的第一目图像对应的第五视差图、第二目图像对应的第六视差图;
第三目标图像获得模块,用于利用所述第五视差图对所述第一目图像进行视图转换处理,得到所述第一目图像对应的第三目标图像;
待修复像素点确定模块,用于基于所述第五视差图、第六视差图,确定所述第三目标图像中处于空洞区域的像素点,作为待修复像素点;
修复后图像获得模块,用于将所述第三目标图像、所确定的待修复像素点输入待训练的空洞修复模型,利用所述空洞修复模型对所述第三目标图像中的待修复像素点进行填充,实现对所述第三目标图像的修复,得到所述空洞修复模型输出的修复后图像;
第二模型训练模块,用于计算所述修复后图像与所述第二目图像之间的第二目标损失,基于所述第二目标损失对所述空洞修复模型进行参数调整,实现对所述空洞修复模型的训练。
本发明的一个实施例中,所述待修复像素点确定模块,具体用于:
对所述第六视差图进行视图转换处理,得到视图转换后的第六视差图;
利用所述第五视差图对所述视图转换后的第六视差图进行视图转换处理,得到转换视差图;
针对所述转换视差图中的每一图像位置,判断所述转换视差图中该图像位置的像素点的第一视差值、相对所述第五视差图中处于该图像位置的像素点的第二视差值之间的差值,是否大于等于预设的修复阈值,若为是,确定所述第三目标图像中该图像位置的像素点为待修复像素点。
在本发明实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的2D视频转3D视频的方法。
本发明实施例提供的2D视频转3D视频的方案中,可以获得待进行3D转换的2D视频片段,其中,2D视频片段包含多帧第一单目视图,第一单目视图为左目视图或右目视图;将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过视差图预测模型预测各个第一单目视图对应的视差图;利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,第二单目视图为第一单目视图的另一侧视图;通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到2D视频片段对应的3D视频片段。这样可以利用视差图预测模型,对视频片段中连续的图像进行视差图预测,进而根据预测的视差图获得连续的图像的另一侧视图,最后基于连续图像及连续图像的另一侧视图得到3D视频,3D视频中的各个3D图像不再是独立计算得到的,从而可以避免所获得的3D视频发生抖动。由此可见,应用本发明实施例提供的方案,可以提高转换后的3D视频的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种2D视频转3D视频的方法的流程示意图;
图2为本申请实施例提供的一种模型训练方法的流程示意图;
图3a和图3b分别为本发明实施例提供的一种视差图;
图4为本发明实施例提供的一种视差标注图获得方法的流程示意图;
图5为本发明实施例提供的第二单目视图获得方法的流程示意图;
图6为本申请实施例提供的一种空洞修复模型的训练方法的流程示意图;
图7为本发明实施例提供的一种2D视频转3D视频的装置的结构示意图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高转换后的3D视频的质量,本发明实施例提供了一种2D视频转3D视频的方法、装置、电子设备及存储介质。
本发明的一个实施例中,提供了一种2D视频转3D视频的方法,该方法包括:
获得待进行3D转换的2D视频片段,其中,2D视频片段包含多帧第一单目视图,第一单目视图为左目视图或右目视图;
将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过视差图预测模型预测各个第一单目视图对应的视差图;
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,第二单目视图为第一单目视图的另一侧视图;
通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到2D视频片段对应的3D视频片段。
这样可以利用视差图预测模型,对视频片段中连续的图像进行视差图预测,进而根据预测的视差图获得连续的图像的另一侧视图,最后基于连续图像及连续图像的另一侧视图得到3D视频,3D视频中的各个3D图像不再是独立计算得到的,从而可以避免所获得的3D视频发生抖动。由此可见,应用本发明实施例提供的方案,可以提高转换后的3D视频的质量。
下面通过具体实施例对本发明实施例提供的2D视频转3D视频的方法、装置、电子设备及存储介质进行详细介绍。
参见图1,图1为本发明实施例提供的一种2D视频转3D视频的方法的流程示意图,该方法包括如下步骤S101至S104:
S101,获得待进行3D转换的2D视频片段。
其中,2D视频片段包含多帧第一单目视图,第一单目视图为左目视图或右目视图。
具体的,3D视频片段中包含多帧3D图像,每一帧3D图像由左目视图、右目视图通过预设的图像处理方式处理得到。可以获得待进行3D转换的2D视频片段,上述视频片段通常为同一图像采集设备采集得到的,该视频片段中包含多帧连续的2D图像,每一2D图像可以作为转换后3D视频中每一帧3D图像的左目视图或右目视图,为便于表述,可以将2D视频片段中的每一帧2D图像作为第一单目视图。
S102,将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过视差图预测模型预测各个第一单目视图对应的视差图。
具体的,针对上述2D视频片段中的每一第一单目视图,可以将该单目图像输入到预先训练完成的视差图预测模型中,利用该模型预测每一第一单目视图对应的视差图。
S103,利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图。
其中,第二单目视图为第一单目视图的另一侧视图。在第一单目视图为左目视图的情况下,第二单目视图为右目视图;在第一单目视图为右目视图的情况下,第二单目视图为左目视图。
具体的,上述视差图可以反映左目视图与右目视图之间像素点的像素值的偏移,因此,针对每一单目视图,可以以该第一单目视图对应的视差图为位移信息,对该第一单目视图中像素点的像素值进行搬移,得到该第一单目视图对应的第二单目视图。
S104,通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到2D视频片段对应的3D视频片段。
具体的,可以将各个第一单目视图和第二单目视图分别作为左目视图、右目视图,通过现有的3D设备观看各个第一单目视图及第二单目视图,得到3D视频。或者通过现有对第一单目视图及第二单目视图进行处理得到3D图像的方式,处理各个第一单目视图及第二单目视图,得到3D视频。或者对上述第一单目视图、第二单目视图进行深度融合,得到融合后的深度图像,作为转换后的3D视频。本发明实施例中具体不做限定。
上述实施例提供的方案中,可以利用视差图预测模型,对视频片段中连续的图像进行视差图预测,进而根据预测的视差图获得连续的图像的另一侧视图,最后基于连续图像及连续图像的另一侧视图得到3D视频,3D视频中的各个3D图像不再是独立计算得到的,从而可以避免所获得的3D视频发生抖动。由此可见,应用上述实施例提供的方案,可以提高转换后的3D视频的质量。
下面对上述实施例中的视差图预测模型的训练方法进行详细介绍。
参见图2,图2为本申请实施例提供的一种模型训练方法的流程示意图,该方法包括如下步骤S201至S205:
S201,获得用于进行模型训练的2D样本视频片段。
其中,2D样本视频片段包含多帧第一样本图像,第一样本图像为左目视图或右目视图。
具体的,可以获得用于进行模型训练的、2D的视频片段,作为样本视频片段,将上述样本视频片段中所包含的连续视频帧作为第一样本图像,上述第一样本图像可以作为左目图像,或者右目图像。
本发明的一个实施例中,可以获得同一图像采集设备对不同的场景进行图像采集得到的、连续的左目图像或者右目图像,作为第一样本图像。也可以直接获得2D或3D电影中属于同一分镜视频片段的视频帧,作为第一样本图像,其中,上述分镜视频片段为:由同一图像采集设备采集的、连续的视频片段。
S202,按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图。
其中,上述视差图计算算法可以是PWC-net算法,该算法是一种基于多金字塔匹配代价量的视差估计算法,除此之外,还可以是VAE(Variational Autoencoder,变分自编码器)算法等。
具体的,可以利用预设的视差图计算算法,对上述第一样本图像进行计算,得到第一样本图像的视差标注图,作为后续对视差图预测模型进行训练的标注。
S203,将各个第一样本图像分别输入待训练的视差图预测模型,利用视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图。
其中,视差图预测模型用于预测输入的图像对应的视差图。
具体的,可以将上述第一样本图像分别输入待训练的视差图预测模型,视差图预测模型可以预测所输入的图像的视差图,并输出预测结果,从而可以得到每一第一样本图像的视差预测图。
S204,按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失。
其中,损失计算方式基于线性变化原则得到,线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律。
具体的,可以设计一种损失计算方式,该损失计算方式的原则为:同一图像采集设备采集的图像的不同视差图之间,不同图像位置的视差满足相同的、线性视差变化规律。按照上述损失计算方式,可以计算得到上述S203中模型输出的每一第一样本图像的视差预测图相对S202中计算的该第一样本图像的视差标注图之间的损失,该损失即为待训练的模型的输出结果相对标注的损失。
发明人发现,双目图像的视差图中的视差值,与采集该双目图像的双目相机的焦距B、双目光点间距f相关。具体的,双目图像的DIBR(Depth Image Based Rendering,深度图像渲染)中每一像素点的视差值D可以利用以下公式计算得到:
D=B(Z-f)/Z
其中,Z表示该像素点对应的深度值。
由上可见,针对同一场景,在对应的深度值保持不变的情况下,不同焦距B、双目光点间距f的双目相机采集的双目图像的视差图中的视差值也不相同。
假设第一双目相机的焦距为B1、双目光点间距为f1,第二双目相机的焦距为B2、双目光点间距为f2,上述第一双目相机、第二双目相机分别针对同一场景进行图像采集,第一双目相机可以得到双目图像P1,第二双目相机可以得到双目图像P2。则双目图像P1的视差图中的视差值D1为:
D1=B1(Z1-f1)/Z1
双目图像P2的视差图中的视差值D2为:
D2=B2(Z2-f2)/Z2
其中,Z1、Z2分别表示图像中像素点对应的深度值,由于P1、P2是对同一场景进行采集得到的图像,因此图像中像素点对应的深度值Z1、Z2相同,均为Z,基于此,对上述视差值D1、D2的表达式进行转换,可以得到:
发明人基于上述公式发现,同一场景下,不同双目相机采集的双目图像的视差图的视差值之间,成倍数关系,进而推导得出,同一图像采集设备采集的图像的不同视差图之间,不同图像位置的像素点的视差值,符合相同的线性变化规律。
例如,参见图3a和图3b,图3a和图3b分别为本发明实施例提供的一种视差图。图3a中包含像素点a1、a2,图3b中包含像素点b1、b2,其中a1、b1均处于图像中心位置,属于同一图像位置;a2、b2均处于图像左下角顶点位置,属于同一图像位置,a1的视差值为2,a2的视差值为3,b1的视差值为5,b2的视差值为7,可见b1的视差值等于a1的视差值乘2再加1,b2的视差值等于a2的视差值乘2再加1,两个图像位置处的像素点的视差值均符合y=2x+1的线性变化规律。
本发明的一个实施例中,基于上述发现,可以设计一种尺度及平移不变性的损失计算方式,上述尺度表示线性函数y=ax+b中的参数a,,平移表示上述线性函数中的参数b,针对同一图像采集设备采集的图像,这种尺度及平移不变性的损失计算方式满足不同图像位置的视差满足同一线性视差变化规律的原则。基于上述所设计的计算方式可以计算各个第一样本图像的视差预测图相对视差标注图的损失,所得到的损失值准确度更高。
S205,基于第一目标损失对视差图预测模型进行参数调整,实现对视差图预测模型的训练。
具体的,基于上述S204中计算得到的、各个第一样本图像的视差预测图相对视差标注图的第一目标损失,可以对待训练的视差图预测模型进行参数调整,从而实现对该模型的训练。
本发明的一个实施例中,可以重复执行上述步骤S201-S205对待训练的视差图预测模型进行多次训练,直至达到预设的训练次数,认为训练完成,从而得到训练后的视差图预测模型。上述预设训练次数可以是50000次、100000次等。
除此之外,还可以重复利用上述步骤对待训练的视差图预测模型进行多次训练,直至第一目标损失达到预设的损失阈值,认为模型收敛,视差图预测模型训练完成。
上述实施例提供的模型训练方案中,可以获得用于进行模型训练的2D样本视频片段,其中,2D样本视频片段包含多帧第一样本图像,第一样本图像为左目视图或右目视图;按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;将各个第一样本图像分别输入待训练的视差图预测模型,利用视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,损失计算方式基于线性变化原则得到,线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;基于第一目标损失对视差图预测模型进行参数调整,实现对视差图预测模型的训练。这样以视频片段中的图像作为样本,以预设的视差图计算算法计算得到的视差标注图作为标注,并且以视频片段中各图像不同图像位置的视差满足同一线性视差变化规律为原则,利用设计的损失计算方式计算得到模型输出的视差预测图相对上述视差标注图的损失,基于该损失可以对模型进行参数调整。由此可见,应用上述实施例提供的方案,可以训练得到视差图预测模型。
参见图4,图4为本发明实施例提供的一种视差标注图获得方法的流程示意图,对于上述步骤S202在获得视差标注图时,可以包括如下步骤S401-S402:
S401,分别利用不同的视差图计算算法计算各个第一样本图像的视差图,得到每一第一样本图像的多个视差图,作为多个候选视差图。
其中,上述不同的视差图计算算法可以是2种、3种、5种视差图计算算法等,具体可以是PWC-net算法、VAE算法等,本发明实施例并不对此进行限定。
具体的,可以利用不同的视差图计算算法对上述各个第一样本图像进行计算,其中每一种算法可以计算得到第一样本图像的一视差图,多种不同的算法从而可以得到第一样本图像多种不同的视差图,将上述由多种不同的视差图计算算法计算得到的多种不同的视差图作为候选视差图。
S402,针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,并基于该第一样本图像不同的候选视差图中各个有效位置处的视差值,预测该第一样本图像的视差标注图中各个有效位置处的视差值,得到该第一样本图像的视差标注图。
其中,上述有效位置反映:该位置的像素点的视差值为有效的视差值。
具体的,针对每一第一样本图像,可以获得该第一样本图像不同的候选视差图中各个图像位置的像素点的视差值,针对每一图像位置,根据该第一样本图像的各个候选视差图中该图像位置的视差值,判断该图像位置是否为有效位置。在获得有效位置后,针对每一有效位置,可以根据不同的候选视差图中该有效位置处的视差值,确定该有效位置处最终的目标视差值,最后再获得包含上述各个有效位置的视差标注图,视差标注图中每一有效位置的视差值为该有效位置计算得到的目标视差值。
本发明的一个实施例中,针对每一第一样本图像的多个候选视差图中的每一图像位置,可以计算该第一样本图像不同的候选视差图中该图像位置的视差值之间的差值,判断所计算的差值中的最大差值是否小于等于预设的差值阈值,若为是,判断该图像位置为有效位置。
其中,上述差值阈值可以是5、10、15等。
具体的,可以两两计算第一样本图像的各个候选视差图中同一图像位置处像素点的视差值之间的差值,确定所计算的差值中的最大值,作为最大差值,判断该最大差值是否小于等于上述差值阈值,若为是,则说明不同的视差图计算算法计算得到的该图像位置的视差值之间的差异较小,进而可以说明该图像位置的视差值的准确度较高,因此可以将该图像位置作为有效位置。
例如,假设候选视察图包括Q1、Q2,Q1的中心位置处像素点的视差值为35,Q2的中心位置处像素点的视差值为33,预设的差值阈值为5,可知上述中心位置处候选视差图Q1、Q2之间的视差值的最大差值为2,小于差值阈值5,因此可以将中心位置作为有效位置。
除此之外,本发明的一个实施例中,针对每一图像位置,还可以计算不同的候选视差图中该图像位置的视差值之间的方差,判断所计算的方差是否小于等于预设的方差阈值,若为是,判断该图像位置为有效位置。
本发明的一个实施例中,针对每一有效位置,可以计算不同的候选视差图中该有效位置处的视差值均值,作为该有效位置处的目标视差值。例如,假设有效位置为左下角顶点位置,第一候选视差图中该左下角顶点位置的视差值为25,第二候选视差图中该左下角顶点位置的视差值为27,可以计算得到该左下角顶点位置的目标视差值为26。
除此之外,还可以计算不同的候选视差图中该有效位置处的视差值的中位数等,作为该有效位置处的目标视差值,本发明实施例并不对此进行限定。
本发明的一个实施例中,对于上述步骤S203,可以利用以下公式计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失L(d,d*):
其中,M表示视差预测图的像素点数量,valid_mask表示有效位置的数量,N表示第一样本图像的数量,di表示视差预测图中第i个像素点的像素值,表示视差标注图中第i个像素点的像素值,s表示线性视差变化规律中的尺度参数,t表示线性视差变化规律中的平移参数,h表示每一帧第一样本图像对应的s、t的表达式,hopt表示每一帧第一样本图像对应的s、t的最优解求取函数,hzopt表示对所有第一样本图像对应的s、t的求取函数,f表示2D样本视频片段中的一帧第一样本图像,sf表示基于第f帧第一样本图像计算得到的尺度参数,tf表示基于第f帧第一样本图像计算得到的平移参数,表示第f帧第一样本图像对应的视差预测图中第i个像素点的像素值,表示第f帧第一样本图像对应的视差标注图中第i个像素点的像素值。
为便于表述,将上述L(d,d*)函数作为目标损失函数。
具体的,可由h表示每一帧第一样本图像对应的尺度参数s和平移参数t之间的关系,令针对每一第一样本图像,利用hopt求得h的最优解,得到s、t的值,然后再由hzopt求得上述基于各个第一样本图像得到的s、t的均值,最后利用上述s、t的值求取第一样本图像的视差预测图相对视差标注图的第一目标损失L(d,d*)。
利用上述目标损失函数对视差预测图相对视差标注图的第一目标损失进行计算,可以实现以同一图像采集设备采集的图像的不同图像位置的视差满足同一线性视差变化规律为原则,计算得出第一目标损失。
除此之外,还可以利用目标损失函数与其他损失函数相结合的方式,计算视差预测图相对视差标注图的损失,作为目标损失。
本发明的一个实施例中,可以按照除预设的损失计算方式之外的辅助损失计算方法,计算反映各个第一样本图像的视差预测图相对视差标注图的差异的辅助损失。这样可以基于第一目标损失、辅助损失对视差图预测模型进行参数调整,实现对视差图预测模型的训练。
其中,辅助损失用于:反映各个第一样本图像的视差预测图相对视差标注图的差异。上述辅助损失计算方法可以是除上述预设的损失计算方式之外的其他损失计算方式,如grad loss函数损失计算方式等。
具体的,可以分别利用目标损失函数和其他损失函数计算视差预测图相对视差标注图的损失,然后对计算得到的损失进行融合,将融合结果作为第一目标损失。上述融合的方式可以是计算不同的损失之间的算数平均值、加权平均值等,本发明实施例并不对此进行限定。
本发明的一个实施例中,对于上述步骤S202在获得视差标注图时,可以按照预设的视差图计算算法,确定各个第一样本图像对应的第一视差图;针对每一第一样本图像,利用该第一样本图像的第一视差图对该第一样本图像进行视图转换处理,得到该第一样本图像对应的另一侧视图,作为第一目标图像,按照视差图计算算法,确定第一目标图像对应的第二视差图,将第一视差图、第二视差图作为第一样本图像的视差标注图。
其中,在第一样本图像为左目图像的情况下,第一目标图像为:左目图像对应的右目图像;在第一样本图像为右目图像的情况下,第一目标图像为:右目图像对应的左目图像。
具体的,在第一样本图像为左目图像的情况下,可以首先利用预设的视差计算算法计算,计算得到上述左目图像对应的视差图,作为第一视差图,然后利用上述第一视差图,对左目图像中的像素点的像素值进行搬移,实现对第一样本图像的视图转换处理,从而得到该左目图像对应的右目图像,然后再利用上述视差计算算法,计算得到该右目图像的视差图,作为第二视差图,最后将上述第一视差图、第二视差图作为该第一样本图像的视差标注图;
在第一样本图像为右目图像的情况下,可以首先利用预设的视差计算算法计算,计算得到上述右目图像对应的视差图,作为第一视差图,然后利用上述第一视差图,对右目图像中的像素点的像素值进行搬移,实现对第一样本图像的视图转换处理,从而得到该右目图像对应的左目图像,然后再利用上述视差计算算法,计算得到该左目图像的视差图,作为第二视差图,最后将上述第一视差图、第二视差图作为该第一样本图像的视差标注图。
同样的,在获得视差预测图时,可以将各个第一样本图像分别输入待训练的视差图预测模型,利用视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差图预测模型输出的各个第一样本图像对应的第三视差图、以及第二目标图像对应的第四视差图,将第三视差图、第四视差图作为第一样本图像的视差预测图。
其中,第二目标图像为:利用第三视差图对各个第一样本图像进行视图转换处理,得到的各个第一样本图像对应的另一侧视图。
具体的,在第一样本图像为左目图像的情况下,视差图预测模型可以首先预测得到上述左目图像对应的视差图,作为第三视差图,然后利用上述第三视差图,对左目图像中的像素点的像素值进行搬移,实现对第一样本图像的视图转换处理,从而得到该左目图像对应的右目图像,然后再预测得到该右目图像的视差图,作为第四视差图,最后将上述第三视差图、第四视差图作为该第一样本图像的视差预测图;
在第一样本图像为右目图像的情况下,视差图预测模型可以首先预测得到上述右目图像对应的视差图,作为第三视差图,然后利用上述第三视差图,对右目图像中的像素点的像素值进行搬移,实现对第一样本图像的视图转换处理,从而得到该右目图像对应的左目图像,然后再预测得到该左目图像的视差图,作为第四视差图,最后将上述第三视差图、第四视差图作为该第一样本图像的视差预测图。
这样在计算视差预测图相对视差标注图的第一目标损失时,可以按照预设的损失计算方式,计算第三视差图相对第一视差图的第一损失,并按照损失计算方式计算第四视差图相对第二视差图的第二损失,将第一损失、第二损失作为第一目标损失。
具体的,可以按照上述损失计算方式,计算视差图预测模型预测得到的第三视差图相对上述作为视差标注图的第一视差图的第一损失,并计算视差图预测模型预测得到的第四视差图相对上述作为视差标注图的第二视差图的第二损失,并将上述第一损失、第二损失作为第一目标损失。
这样后续在步骤S205进行参数调整时,可以基于上述第一损失、第二损失对待训练的视差图预测模型进行参数调整,实现对该视差图预测模型的训练。
本发明的一个实施例中,上述方法还可以计算第三视差图与第四视差图之间的损失,作为图像损失。
具体的,可以在步骤S205对视差图预测模型进行参数调整之前,计算第三视差图与第四视差图之间的损失,作为图像损失。其中,可以利用lr_check_loss算法等计算上述图像损失,本发明实施例并不对此进行限定。
本发明的一个实施例中,计算图像损失时,可以计算第一目标图像与第二目标图像之间的损失,作为第三损失;以第四视差图为位移信息,对第一目标图像中像素点的像素值进行搬移,实现对第一样本图像的视图转换处理,得到第一目标图像对应的另一侧视图,作为第三目标图像;以第二视差图为位移信息,对第二目标图像中像素点的像素值进行搬移,实现对第一样本图像的视图转换处理,得到第二目标图像对应的另一侧视图,作为第四目标图像;计算第三目标图像与第四目标图像之间的损失,作为第四损失,将上述第三损失、第四损失作为图像损失。
具体的,上述第一目标图像为:以计算得到的视差标注图为位移信息,对第一样本图像中像素点的像素值进行搬移得到的图像,上述第二目标图像为:以模型预测得到的视差预测图为位移信息,对第一样本图像中像素点的像素值进行搬移得到的图像,可以首先计算得到上述第一目标图像与第二目标图像之间的损失,作为第三损失;
然后,可以以预测得到的第二目标图像对应的第四视差图为位移信息,对上述第一目标图像中像素点的像素值进行搬移,得到第一目标图像对应的目标图像,作为第三目标图像;
以计算得到的第二视差图为位移信息,对上述第二目标图像中像素点的像素值进行搬移,得到第二目标图像对应的目标图像,作为第四目标图像;
从而可以计算第三目标图像与第四目标图像之间的损失,作为第四损失,最终可以将上述第三损失、第四损失作为图像损失。
上述步骤中,在对视差图预测模型的训练时,可以基于第一目标损失、图像损失对视差图预测模型进行参数调整,实现对视差图预测模型的训练。
具体的,上述第一目标损失为:视差预测图相对视差标注图的损失,图像损失为:以同一第一样本图像为输入得到的不同的视差预测图之间的损失,基于第一目标损失、图像损失对待训练的视差图预测模型进行训练,可以提高模型训练的准确度,有助于模型收敛,加快模型训练速度。
上述实施例提供的模型训练方案中,可以获得用于进行模型训练的2D样本视频片段,其中,2D样本视频片段包含多帧第一样本图像,第一样本图像为左目视图或右目视图;按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;将各个第一样本图像分别输入待训练的视差图预测模型,利用视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,损失计算方式基于线形变化原则得到,线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;基于第一目标损失对视差图预测模型进行参数调整,实现对视差图预测模型的训练。这样以视频片段中的图像作为样本,以预设的视差图计算算法计算得到的视差标注图作为标注,并且以视频片段中各图像不同图像位置的视差满足同一线性视差变化规律为原则,利用设计的损失计算方式计算得到模型输出的视差预测图相对上述视差标注图的损失,基于该损失可以对模型进行参数调整。由此可见,应用上述实施例提供的方案,可以训练得到视差图预测模型。
参见图5,图5为本发明实施例提供的第二单目视图获得方法的流程示意图。如图5所示,在步骤S103获得第二单目视图时,可以包括以下步骤S501-S504:
S501,利用各个视差图对各个第一单目视图进行视图转换处理,得到各个参考单目视图。
具体的,针对每一第一单目视图,可以基于该第一单目视图对应的视差图,对该第一单目视图进行视图转换处理,从而得到该第一单目视图对应的另一侧视图,作为该第一单目视图对应的参考单目视图。
S502,将各个参考单目视图输入到视差图预测模型中,通过视差图预测模型预测各个参考单目视图对应的视差图。
具体的,针对每一参考单目视图,可以将该参考单目视图输入上述视差图预测模型中,利用上述模型预测该参考单目视图的视差图。
S503,基于各个第一单目视图对应的视差图、参考单目视图对应的视差图,确定参考单目视图中处于空洞区域的像素点,作为空洞像素点。
具体的,对于3D图像而言,3D图像中所包含的左目图像和右目图像中包含的场景并不是完全相同的,可以将左目图像、右目图像之间场景不同的区域作为空洞区域。鉴于此,第一单目视图和参考单目视图中同样存在空洞区域,上述空洞像素点即为上述空洞区域中的像素点。利用第一单目视图对应的视差图、参考单目视图对应的视差图,可以确定参考单目视图中的空洞像素点。
本发明的一个实施例中,可以对参考单目视图对应的视差图进行视图转换处理,得到视图转换后的视差图,作为第一视差转换图;利用第一单目视图对应的视差图,对第一视差转换图再次进行视图转换处理,得到第二视差转换图;针对第二视差转换图中的每一图像位置,判断第二视差转换图中该图像位置的像素点的视差值、相对第一单目视图对应的视差图中处于该图像位置的像素点的视差值之间的差值,是否大于等于预设的修复阈值,若为是,确定参考单目视图中该图像位置的像素点为处于空洞区域的空洞像素点。
其中,上述修复阈值可以是1、2、4等。上述视图转换指的是:通过取反操作,将左目图像到右目图像的视差图,转换为右目图像到左目图像的视差图;或者,通过取反操作,将右目图像到左目图像的视差图,转换为左目图像到右目图像的视差图。
具体的,可以首先对参考单目视图对应的视差图进行取反操作,得到取反后的视差图,作为第一视差转换图,然后以第一单目视图对应的视差图为位移信息,对第一视差转换图中像素点的视差进行搬移,实现对第一视差转换图的视图转换处理,得到第二视差转换图;
然后针对每一图像位置,判断上述第二视差转换图中该图像位置的像素点的视差值、相对第一单目视图对应的视差图中该图像位置的像素点的视差值之间的差值,是否大于等于预设的修复阈值,若为是,说明该图像位置的像素点的视差值差异较大,该像素点属于空洞区域,因此确定该图像位置的像素点为处于空洞区域待修复的空洞像素点;否则确定该图像位置的像素点无需进行修复。
S504,将参考单目视图、空洞像素点输入训练完成的空洞修复模型,利用空洞修复模型对参考单目视图中的空洞像素点进行填充,实现对参考单目视图的修复,得到第二单目视图。
具体的,可以将上述参考单目视图、空洞像素点输入训练完成的空洞修复模型,然后上述模型可以对参考单目视图中的空洞像素点进行填充,实现对参考单目视图的修复,输出修复完成的第二单目视图。
下面对上述空洞修复模型的训练方式进行介绍。
参见图6,图6为本申请实施例提供的一种空洞修复模型的训练方法的流程示意图,上述方法还包括如下步骤S601-S606:
S601,从已有的3D视频源中获取第二样本图像。
其中,第二样本图像包括第一目图像、第二目图像,第一目图像为左目视图或右目视图,第二目图像为第一目图像的另一侧视图。
具体的,3D视频源中的每一组图像包括一帧左目图像和右目图像,在第一目图像为左目图像的情况下,上述第二目图像即为右目图像;在第一目图像为右目图像的情况下,上述第二目图像即为左目图像。
S602,将第一目图像输入视差图预测模型,利用视差图预测模型预测输入的第一目图像对应的第五视差图、第二目图像对应的第六视差图。
具体的,可以将第一目图像输入上述训练完成的视差图预测模型,视差图预测模型可以预测得到第一目图像的第五视差图,并预测得到该第一目图像对应的另一侧图像的第六视差图。
S603,利用第五视差图对第一目图像进行视图转换处理,得到第一目图像对应的第三目标图像。
具体的,可以以上述第五视差图为位移信息,对该第一目图像中像素点的像素值进行搬移,实现对第一目图像的视图转换处理,得到该第一目图像对应的目标图像,作为第三目标图像。其中,在第一目图像为左目图像的情况下,上述第三目标图像即为根据第五视差图预测得到的上述左目图像对应的右目图像;在第一目图像为右目图像的情况下,上述第三目标图像即为根据第五视差图预测得到的上述右目图像对应的左目图像。
S604,基于第五视差图、第六视差图,确定第三目标图像中处于空洞区域的像素点,作为待修复像素点。
具体的,3D视频源的每一组图像中,左目图像和右目图像中包含的场景并不是完全相同的,可以将左目图像、右目图像之间场景不同的区域作为空洞区域。由于第一目图像和第五视差图得到的第三目标图像中同样存在空洞区域,上述待修复像素点即为上述空洞区域中的像素点。利用第五视差图和第六视差图,可以确定第三目标图像中的待修复像素点。
本发明的一个实施例中,可以对第六视差图进行视图转换处理,得到视图转换后的第六视差图;利用第五视差图对视图转换后的第六视差图进行视图转换处理,得到转换视差图;针对转换视差图中的每一图像位置,判断转换视差图中该图像位置的像素点的第一视差值、相对第五视差图中处于该图像位置的像素点的第二视差值之间的差值,是否大于等于预设的修复阈值,若为是,确定转换视差图中该图像位置的像素点为待修复像素点。
其中,上述修复阈值可以是1、2、4等。上述视图转换指的是:通过取反操作,将左目图像到右目图像的视差图,转换为右目图像到左目图像的视差图;或者,通过取反操作,将右目图像到左目图像的视差图,转换为左目图像到右目图像的视差图。
具体的,可以首先对第六视差图进行取反操作,得到取反后的第六视差图,然后以第五视差图为位移信息,对取反后的第六视差图中像素点的视差进行搬移,得到转换视差图,该转换视差图可以理解为:通过取反操作,预测得到的第六视差图对应的第五视差预测图。
然后针对每一图像位置,判断上述转换视差图中该图像位置的像素点的第一视差值、相对第五视差图中该图像位置的像素点的第二视差值之间的差值,是否大于等于预设的修复阈值,若为是,说明该图像位置的像素点的视差值差异较大,该像素点属于空洞区域,因此确定该图像位置的像素点为待修复像素点;否则确定该图像位置的像素点无需进行修复。
本发明的一个实施例中,针对每一图像位置的像素点,可以按照以下公式计算该图像位置的像素点的修复值mask:
mask=abs(resample1d(-displ,dispr)-dispr)
其中,上述displ表示第六视差图中该图像位置的像素点的视差值,上述dispr表示第五视差图中该图像位置的像素点的视差值,resample1d(-displ,dispr)表示基于视差值-displ对视差值dispr进行插值操作所得到的结果,abs表示求绝对值函数。
在利用上述公式计算得到该图像位置的像素点的修复值之后,判断该修复值是否大于等于修复阈值,若为是,则可以将该图像位置的像素点作为待修复像素点。
S605,将第三目标图像、所确定的待修复像素点输入待训练的空洞修复模型,利用空洞修复模型对第三目标图像中的待修复像素点进行填充,实现对第三目标图像的修复,得到空洞修复模型输出的修复后图像。
其中,上述空洞修复模型可以是基于gated-conv结构的卷积网络模型。该模型中可以包括卷积层、池化层等。
具体的,可以将预测得到的第一目图像对应的目标图像,即第三目标图像,以及所确定的第三目标图像中的待修复像素点输入上述空洞修复模型,得到该模型输出的修复后的图像。
本发明的一个实施例中,上述空洞修复模型的输入数据的维度channel可以是4维,分别包括R颜色通道维度、G颜色通道维度、B颜色通道维度、修复参数维度。
其中,上述R颜色通道维度、G颜色通道维度、B颜色通道维度的数据的取值可以是0~255,也可以按照预设比例对上述R颜色通道维度、G颜色通道维度、B颜色通道维度的数据进行缩放,以使得上述R颜色通道维度、G颜色通道维度、B颜色通道维度的数据的取值范围是0~1,上述预设比例可以是256、500、1000等。
上述修复参数维度的数据的取值可以是1或0,0表示该像素点不为待修复像素点,1表示该像素点为待修复像素点。
S606,计算修复后图像与第二目图像之间的第二目标损失,基于第二目标损失对空洞修复模型进行参数调整,实现对空洞修复模型的训练。
具体的,修复后图像为:基于第五视差图预测得到的第一目图像对应的目标图像,第二目图像为第一目图像实际对应的目标图像,因此可以将上述第二目图像作为标注图像,计算修复后图像与第二目图像之间的第二目标损失,然后基于第二目标损失对空洞修复模型进行参数调整,实现对空洞修复模型的训练。
本发明的一个实施例中,可以利用基于vgg16的perceptual loss函数、l1 loss函数等,计算修复后图像与第二目图像之间的第二目标损失。
参见下表1,下表1为本发明实施例提供的一种空洞修复模型的结构示意表。
表1
如上表1所示,该空洞修复模型可以是基于编解码结构的卷积神经网络模型,可以由卷积层对输入的数据进行编码操作,然后由池化层对编码后的数据进行上采样处理,再由反卷积层对上述上采样处理后的数据进行解码操作,最终实现对输入的图像进行空洞修复。
参见图7,图7为本发明实施例提供的一种2D视频转3D视频的装置的结构示意图,所述装置包括:
2D视频片段获得模块701,用于获得待进行3D转换的2D视频片段,其中,所述2D视频片段包含多帧第一单目视图,所述第一单目视图为左目视图或右目视图;
模型输入模块702,用于将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过所述视差图预测模型预测各个第一单目视图对应的视差图;
第二单目视图获得模块703,用于利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,所述第二单目视图为所述第一单目视图的另一侧视图;
3D视频获得模块704,用于通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到所述2D视频片段对应的3D视频片段。
本发明的一个实施例中,所述装置还包括:
样本视频片段获得模块,用于获得用于进行模型训练的2D样本视频片段,其中,所述2D样本视频片段包含多帧第一样本图像,所述第一样本图像为左目视图或右目视图;
视差标注图获得模块,用于按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;
视差预测图获得模块,用于将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;
第一目标损失计算模块,用于按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,所述损失计算方式基于线形变化原则得到,所述线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;
第一模型训练模块,用于基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
本发明的一个实施例中,所述视差标注图获得模块,包括:
候选视差图获得单元,用于分别利用不同的视差图计算算法计算各个第一样本图像的视差图,得到每一第一样本图像的多个视差图,作为多个候选视差图;
视差标注图获得单元,用于针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,并基于该第一样本图像不同的候选视差图中各个有效位置处的视差值,预测该第一样本图像的视差标注图中各个有效位置处的视差值,得到该第一样本图像的视差标注图。
本发明的一个实施例中,所述视差标注图获得单元,具体用于:
针对每一第一样本图像的多个候选视差图中的每一图像位置,计算该第一样本图像不同的候选视差图中该图像位置的视差值之间的差值,判断所计算的差值中的最大差值是否小于等于预设的差值阈值,若为是,判断该图像位置为有效位置。
本发明的一个实施例中,所述第一目标损失计算模块,具体用于:
利用以下公式计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失L(d,d*):
其中,所述M表示所述视差预测图的像素点数量,所述valid_mask表示所述有效位置的数量,所述N表示所述第一样本图像的数量,所述di表示所述视差预测图中第i个像素点的像素值,所述表示所述视差标注图中第i个像素点的像素值,所述s表示所述线性视差变化规律中的尺度参数,所述t表示所述线性视差变化规律中的平移参数,所述h表示每一帧第一样本图像对应的s、t的表达式,所述hopt表示每一帧第一样本图像对应的s、t的最优解求取函数,所述hzopt表示对所有第一样本图像对应的s、t的求取函数,所述f表示所述2D样本视频片段中的一帧第一样本图像,所述sf表示基于第f帧第一样本图像计算得到的尺度参数,所述tf表示基于第f帧第一样本图像计算得到的平移参数,所述表示第f帧第一样本图像对应的视差预测图中第i个像素点的像素值,所述表示第f帧第一样本图像对应的视差标注图中第i个像素点的像素值。
本发明的一个实施例中,所述装置还包括:
辅助损失计算模块,用于在基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练之前,按照除所述预设的损失计算方式之外的辅助损失计算方法,计算反映各个第一样本图像的视差预测图相对视差标注图的差异的辅助损失;
所述第一模型训练模块,具体用于:
基于所述第一目标损失、辅助损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
本发明的一个实施例中,所述视差标注图获得模块,具体用于:
按照预设的视差图计算算法,确定各个第一样本图像对应的第一视差图;
针对每一第一样本图像,利用该第一样本图像的第一视差图对该第一样本图像进行视图转换处理,得到该第一样本图像对应的另一侧视图,作为第一目标图像,按照所述视差图计算算法,确定所述第一目标图像对应的第二视差图,将所述第一视差图、第二视差图作为所述第一样本图像的视差标注图;
所述视差预测图获得模块,具体用于:
将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到所述视差图预测模型输出的各个第一样本图像对应的第三视差图、以及第二目标图像对应的第四视差图,将所述第三视差图、第四视差图作为所述第一样本图像的视差预测图,其中,所述第二目标图像为:利用所述第三视差图对各个第一样本图像进行视图转换处理,得到的各个第一样本图像对应的另一侧视图;
所述第一目标损失计算模块,具体用于:
按照预设的损失计算方式,计算所述第三视差图相对第一视差图的第一损失,并按照所述损失计算方式计算所述第四视差图相对第二视差图的第二损失,将所述第一损失、第二损失作为第一目标损失。
本发明的一个实施例中,所述第二单目视图获得模块703,具体用于:
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个参考单目视图;
将各个参考单目视图输入到所述视差图预测模型中,通过所述视差图预测模型预测各个参考单目视图对应的视差图;
基于各个第一单目视图对应的视差图、参考单目视图对应的视差图,确定所述参考单目视图中处于空洞区域的像素点,作为空洞像素点;
将所述参考单目视图、空洞像素点输入训练完成的空洞修复模型,利用所述空洞修复模型对所述参考单目视图中的空洞像素点进行填充,实现对所述参考单目视图的修复,得到第二单目视图。
本发明的一个实施例中,所述装置还包括:
第二样本图像获得模块,用于从已有的3D视频源中获取第二样本图像,其中,所述第二样本图像包括第一目图像、第二目图像,所述第一目图像为左目视图或右目视图,所述第二目图像为所述第一目图像的另一侧视图;
第一目图像输入模块,用于将所述第一目图像输入所述视差图预测模型,利用所述视差图预测模型预测输入的第一目图像对应的第五视差图、第二目图像对应的第六视差图;
第三目标图像获得模块,用于利用所述第五视差图对所述第一目图像进行视图转换处理,得到所述第一目图像对应的第三目标图像;
待修复像素点确定模块,用于基于所述第五视差图、第六视差图,确定所述第三目标图像中处于空洞区域的像素点,作为待修复像素点;
修复后图像获得模块,用于将所述第三目标图像、所确定的待修复像素点输入待训练的空洞修复模型,利用所述空洞修复模型对所述第三目标图像中的待修复像素点进行填充,实现对所述第三目标图像的修复,得到所述空洞修复模型输出的修复后图像;
第二模型训练模块,用于计算所述修复后图像与所述第二目图像之间的第二目标损失,基于所述第二目标损失对所述空洞修复模型进行参数调整,实现对所述空洞修复模型的训练。
本发明的一个实施例中,所述待修复像素点确定模块,具体用于:
对所述第六视差图进行视图转换处理,得到视图转换后的第六视差图;
利用所述第五视差图对所述视图转换后的第六视差图进行视图转换处理,得到转换视差图;
针对所述转换视差图中的每一图像位置,判断所述转换视差图中该图像位置的像素点的第一视差值、相对所述第五视差图中处于该图像位置的像素点的第二视差值之间的差值,是否大于等于预设的修复阈值,若为是,确定所述第三目标图像中该图像位置的像素点为待修复像素点。
上述实施例提供的2D视频转3D视频的方案中,可以获得待进行3D转换的2D视频片段,其中,2D视频片段包含多帧第一单目视图,第一单目视图为左目视图或右目视图;将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过视差图预测模型预测各个第一单目视图对应的视差图;利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,第二单目视图为第一单目视图的另一侧视图;通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到2D视频片段对应的3D视频片段。这样可以利用视差图预测模型,对视频片段中连续的图像进行视差图预测,进而根据预测的视差图获得连续的图像的另一侧视图,最后基于连续图像及连续图像的另一侧视图得到3D视频,3D视频中的各个3D图像不再是独立计算得到的,从而可以避免所获得的3D视频发生抖动。由此可见,应用上述实施例提供的方案,可以提高转换后的3D视频的质量。
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现2D视频转3D视频的方法。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的2D视频转3D视频的方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的2D视频转3D视频的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种2D视频转3D视频的方法,其特征在于,所述方法包括:
获得待进行3D转换的2D视频片段,其中,所述2D视频片段包含多帧第一单目视图,所述第一单目视图为左目视图或右目视图;
将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过所述视差图预测模型预测各个第一单目视图对应的视差图;
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,所述第二单目视图为所述第一单目视图的另一侧视图;
通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到所述2D视频片段对应的3D视频片段;
所述视差图预测模型通过以下方法训练得到:
获得用于进行模型训练的2D样本视频片段,其中,所述2D样本视频片段包含多帧第一样本图像,所述第一样本图像为左目视图或右目视图;
按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;
将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;
按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,所述损失计算方式基于线性变化原则得到,所述线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;
基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图,包括:
分别利用不同的视差图计算算法计算各个第一样本图像的视差图,得到每一第一样本图像的多个视差图,作为多个候选视差图;
针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,并基于该第一样本图像不同的候选视差图中各个有效位置处的视差值,预测该第一样本图像的视差标注图中各个有效位置处的视差值,得到该第一样本图像的视差标注图。
3.根据权利要求2所述的方法,其特征在于,所述针对每一第一样本图像的多个候选视差图中的每一图像位置,在该第一样本图像不同的候选视差图中该图像位置的视差值之间的差异满足预设的差异条件的情况下,确定该图像位置为有效位置,包括:
针对每一第一样本图像的多个候选视差图中的每一图像位置,计算该第一样本图像不同的候选视差图中该图像位置的视差值之间的差值,判断所计算的差值中的最大差值是否小于等于预设的差值阈值,若为是,判断该图像位置为有效位置。
4.根据权利要求2所述的方法,其特征在于,所述按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,包括:
利用以下公式计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失L(d,d*):
其中,所述M表示所述视差预测图的像素点数量,所述valid_mask表示所述有效位置的数量,所述N表示所述第一样本图像的数量,所述di表示所述视差预测图中第i个像素点的像素值,所述表示所述视差标注图中第i个像素点的像素值,所述s表示视差线性变化规律中的尺度参数,所述t表示视差线性变化规律中的平移参数,所述h表示每一帧第一样本图像对应的s、t的表达式,所述hopt表示每一帧第一样本图像对应的s、t的最优解求取函数,所述hzopt表示对所有第一样本图像对应的s、t的求取函数,所述f表示所述2D样本视频片段中的一帧第一样本图像,所述sf表示基于第f帧第一样本图像计算得到的尺度参数,所述tf表示基于第f帧第一样本图像计算得到的平移参数,所述表示第f帧第一样本图像对应的视差预测图中第i个像素点的像素值,所述表示第f帧第一样本图像对应的视差标注图中第i个像素点的像素值。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练之前,所述方法还包括:
按照除所述预设的损失计算方式之外的辅助损失计算方法,计算反映各个第一样本图像的视差预测图相对视差标注图的差异的辅助损失;
所述基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练,包括:
基于所述第一目标损失、辅助损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
6.根据权利要求1-4中任一项所述的方法,其特征在于,所述按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图,包括:
按照预设的视差图计算算法,确定各个第一样本图像对应的第一视差图;
针对每一第一样本图像,利用该第一样本图像的第一视差图对该第一样本图像进行视图转换处理,得到该第一样本图像对应的另一侧视图,作为第一目标图像,按照所述视差图计算算法,确定所述第一目标图像对应的第二视差图,将所述第一视差图、第二视差图作为所述第一样本图像的视差标注图;
所述将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图,包括:
将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到所述视差图预测模型输出的各个第一样本图像对应的第三视差图、以及第二目标图像对应的第四视差图,将所述第三视差图、第四视差图作为所述第一样本图像的视差预测图,其中,所述第二目标图像为:利用所述第三视差图对各个第一样本图像进行视图转换处理,得到的各个第一样本图像对应的另一侧视图;
所述按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,包括:
按照预设的损失计算方式,计算所述第三视差图相对第一视差图的第一损失,并按照所述损失计算方式计算所述第四视差图相对第二视差图的第二损失,将所述第一损失、第二损失作为第一目标损失。
7.根据权利要求1所述的方法,其特征在于,所述利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,包括:
利用各个视差图对各个第一单目视图进行视图转换处理,得到各个参考单目视图;
将各个参考单目视图输入到所述视差图预测模型中,通过所述视差图预测模型预测各个参考单目视图对应的视差图;
基于各个第一单目视图对应的视差图、参考单目视图对应的视差图,确定所述参考单目视图中处于空洞区域的像素点,作为空洞像素点;
将所述参考单目视图、空洞像素点输入训练完成的空洞修复模型,利用所述空洞修复模型对所述参考单目视图中的空洞像素点进行填充,实现对所述参考单目视图的修复,得到第二单目视图。
8.根据权利要求7所述的方法,其特征在于,所述空洞修复模型通过以下方式训练得到:
从已有的3D视频源中获取第二样本图像,其中,所述第二样本图像包括第一目图像、第二目图像,所述第一目图像为左目视图或右目视图,所述第二目图像为所述第一目图像的另一侧视图;
将所述第一目图像输入所述视差图预测模型,利用所述视差图预测模型预测输入的第一目图像对应的第五视差图、第二目图像对应的第六视差图;
利用所述第五视差图对所述第一目图像进行视图转换处理,得到所述第一目图像对应的第三目标图像;
基于所述第五视差图、第六视差图,确定所述第三目标图像中处于空洞区域的像素点,作为待修复像素点;
将所述第三目标图像、所确定的待修复像素点输入待训练的空洞修复模型,利用所述空洞修复模型对所述第三目标图像中的待修复像素点进行填充,实现对所述第三目标图像的修复,得到所述空洞修复模型输出的修复后图像;
计算所述修复后图像与所述第二目图像之间的第二目标损失,基于所述第二目标损失对所述空洞修复模型进行参数调整,实现对所述空洞修复模型的训练。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第五视差图、第六视差图,确定所述第三目标图像中处于空洞区域的像素点,作为待修复像素点,包括:
对所述第六视差图进行视图转换处理,得到视图转换后的第六视差图;
利用所述第五视差图对所述视图转换后的第六视差图进行视图转换处理,得到转换视差图;
针对所述转换视差图中的每一图像位置,判断所述转换视差图中该图像位置的像素点的第一视差值、相对所述第五视差图中处于该图像位置的像素点的第二视差值之间的差值,是否大于等于预设的修复阈值,若为是,确定所述转换视差图中该图像位置的像素点为待修复像素点。
10.一种2D视频转3D视频的装置,其特征在于,所述装置包括:
2D视频片段获得模块,用于获得待进行3D转换的2D视频片段,其中,所述2D视频片段包含多帧第一单目视图,所述第一单目视图为左目视图或右目视图;
模型输入模块,用于将各个第一单目视图输入到预先训练完成的视差图预测模型中,通过所述视差图预测模型预测各个第一单目视图对应的视差图;
第二单目视图获得模块,用于利用各个视差图对各个第一单目视图进行视图转换处理,得到各个第二单目视图,其中,所述第二单目视图为所述第一单目视图的另一侧视图;
3D视频获得模块,用于通过预设图像处理方式对各个第一单目视图及第二单目视图进行处理,得到所述2D视频片段对应的3D视频片段;
样本视频片段获得模块,用于获得用于进行模型训练的2D样本视频片段,其中,所述2D样本视频片段包含多帧第一样本图像,所述第一样本图像为左目视图或右目视图;
视差标注图获得模块,用于按照预设的视差图计算算法计算各个第一样本图像对应的视差图,作为视差标注图;
视差预测图获得模块,用于将各个第一样本图像分别输入待训练的视差图预测模型,利用所述视差图预测模型预测输入的各个第一样本图像对应的视差图,得到视差预测图;
第一目标损失计算模块,用于按照预设的损失计算方式,计算各个第一样本图像的视差预测图相对视差标注图的第一目标损失,其中,所述损失计算方式基于线性变化原则得到,所述线性变化原则为:视频片段中每一帧图像对应的视差图之间,不同图像位置的视差值满足相同的线性变化规律;
第一模型训练模块,用于基于所述第一目标损失对所述视差图预测模型进行参数调整,实现对所述视差图预测模型的训练。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111333590.6A CN114051128B (zh) | 2021-11-11 | 2021-11-11 | 一种2d视频转3d视频的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111333590.6A CN114051128B (zh) | 2021-11-11 | 2021-11-11 | 一种2d视频转3d视频的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114051128A CN114051128A (zh) | 2022-02-15 |
CN114051128B true CN114051128B (zh) | 2023-09-05 |
Family
ID=80208415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111333590.6A Active CN114051128B (zh) | 2021-11-11 | 2021-11-11 | 一种2d视频转3d视频的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114051128B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9736449B1 (en) * | 2013-08-12 | 2017-08-15 | Google Inc. | Conversion of 2D image to 3D video |
CN110084742A (zh) * | 2019-05-08 | 2019-08-02 | 北京奇艺世纪科技有限公司 | 一种视差图预测方法、装置及电子设备 |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN110602474A (zh) * | 2018-05-24 | 2019-12-20 | 杭州海康威视数字技术股份有限公司 | 一种图像视差的确定方法、装置及设备 |
CN112543317A (zh) * | 2020-12-03 | 2021-03-23 | 东南大学 | 高分辨率单目2d视频到双目3d视频的转制方法 |
US11062471B1 (en) * | 2020-05-06 | 2021-07-13 | Nvidia Corporation | Neural network system for stereo image matching |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9185388B2 (en) * | 2010-11-03 | 2015-11-10 | 3Dmedia Corporation | Methods, systems, and computer program products for creating three-dimensional video sequences |
JP6016061B2 (ja) * | 2012-04-20 | 2016-10-26 | Nltテクノロジー株式会社 | 画像生成装置、画像表示装置及び画像生成方法並びに画像生成プログラム |
-
2021
- 2021-11-11 CN CN202111333590.6A patent/CN114051128B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9736449B1 (en) * | 2013-08-12 | 2017-08-15 | Google Inc. | Conversion of 2D image to 3D video |
WO2019223382A1 (zh) * | 2018-05-22 | 2019-11-28 | 深圳市商汤科技有限公司 | 单目深度估计方法及其装置、设备和存储介质 |
CN110602474A (zh) * | 2018-05-24 | 2019-12-20 | 杭州海康威视数字技术股份有限公司 | 一种图像视差的确定方法、装置及设备 |
CN110084742A (zh) * | 2019-05-08 | 2019-08-02 | 北京奇艺世纪科技有限公司 | 一种视差图预测方法、装置及电子设备 |
US11062471B1 (en) * | 2020-05-06 | 2021-07-13 | Nvidia Corporation | Neural network system for stereo image matching |
CN112543317A (zh) * | 2020-12-03 | 2021-03-23 | 东南大学 | 高分辨率单目2d视频到双目3d视频的转制方法 |
Non-Patent Citations (1)
Title |
---|
基于视差和帧差运动检测的立体视频对象提取与压缩编码;王世刚;林青;付庆兴;卫瑞平;;中国体视学与图像分析(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114051128A (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102326391B (zh) | 多视点图像编码装置及方法、多视点图像译码装置及方法 | |
JP6016061B2 (ja) | 画像生成装置、画像表示装置及び画像生成方法並びに画像生成プログラム | |
KR102464523B1 (ko) | 이미지 속성 맵을 프로세싱하기 위한 방법 및 장치 | |
US10708619B2 (en) | Method and device for generating predicted pictures | |
JP2011511532A (ja) | 2d画像データを立体画像データに変換する方法およびシステム | |
CN111028281B (zh) | 基于光场双目系统的深度信息计算方法及装置 | |
US8917954B2 (en) | Method and apparatus for converting 2D video image into 3D video image | |
EP2061005A2 (en) | Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same | |
CN111311667B (zh) | 一种内容自适应双目匹配方法和装置 | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN110084742B (zh) | 一种视差图预测方法、装置及电子设备 | |
CN103150729A (zh) | 一种虚拟视图渲染方法 | |
CN115170637A (zh) | 虚拟视角图像构建方法及装置、控制设备和可读存储介质 | |
Yang et al. | Dynamic 3D scene depth reconstruction via optical flow field rectification | |
CN114640885B (zh) | 视频插帧方法、训练方法、装置和电子设备 | |
CN114445480A (zh) | 基于Transformer的热红外图像立体匹配方法及装置 | |
CN115115690A (zh) | 视频残差解码装置和关联方法 | |
EP2741503A1 (en) | Method and apparatus for color transfer between images | |
CN114051128B (zh) | 一种2d视频转3d视频的方法、装置、设备及介质 | |
CN113269823A (zh) | 深度数据获取方法、装置、存储介质与电子设备 | |
CN115937290B (zh) | 一种图像深度估计方法、装置、电子设备及存储介质 | |
CN107845108B (zh) | 一种光流值计算方法、装置及电子设备 | |
CN115861145A (zh) | 一种基于机器视觉的图像处理方法 | |
CN112203023B (zh) | 一种十亿像素视频生成方法及装置、设备、介质 | |
CN116152321A (zh) | 模型训练方法及装置、图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |