CN109891880A - 通过机器学习技术改进2d至3d的自动转换质量的方法 - Google Patents

通过机器学习技术改进2d至3d的自动转换质量的方法 Download PDF

Info

Publication number
CN109891880A
CN109891880A CN201780060262.9A CN201780060262A CN109891880A CN 109891880 A CN109891880 A CN 109891880A CN 201780060262 A CN201780060262 A CN 201780060262A CN 109891880 A CN109891880 A CN 109891880A
Authority
CN
China
Prior art keywords
image
depth
objects
new
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780060262.9A
Other languages
English (en)
Other versions
CN109891880B (zh
Inventor
李应樵
林浩生
李天惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent 3d Co ltd
Original Assignee
Marvel Digital Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marvel Digital Ltd filed Critical Marvel Digital Ltd
Publication of CN109891880A publication Critical patent/CN109891880A/zh
Application granted granted Critical
Publication of CN109891880B publication Critical patent/CN109891880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种通过机器学习技术改进2D至3D的自动转换质量的方法,该方法包括:接收用户输入的新的2D图像(S101);通过机器学习演算法识别该新的2D图像中的多个对象(S102);根据该多个对象的特征确定各对像的层次关系(S103);根据该层次关系改进3D图像的质量(S104)。通过实施本发明,能够对2D图像中各对像进行更加明确地划分,从而改进将2D图像转换至3D图像的效果。

Description

通过机器学习技术改进2D至3D的自动转换质量的方法
技术领域
本发明是关于图像转换技术,具体地,是关于一种通过机器学习技术改进2D至3D的自动转换质量的方法。
背景技术
关于2D图像至3D图像转换的技术,现有的一些方法是:1.选择2D图像;2..分析所选的2D图像;3.使用转换引擎创建自动深度图(automatic depth map);4.如果该自动深度图属于较差深度图(bad depth map),则调整以下参数:深度场景(Depth Scene)、角度设置(Perspective Setting)、高动态范围图像(High-Dynamic Range,简称HDR)、深度等级(Depth Level)、零平面位置(Zero Plane Position)、深度完善(Depth Refine)、修缮面块(Roto the mass);5.人工调整面块、边界的深度值;6.创建新的深度图像。
一些现有的转换2D图像至3D图像的技术,转换引擎是使用颜色的对比度、边界进行转换。在深度图像中,不同图块的深度应取决于目标距离。由于前景靠近观测者,前景应当更明亮,且接近于白色。背景则应当接近于黑色。
这就产生了如下的问题:
a)当背景的颜色与主要目标的颜色向近似时,转换引擎可能会给主要目标和背景赋值错误的深度值。例如,一个男人,穿着一双白色的鞋站在白色地面上。转换引擎可能将鞋和白色地面作为同一图层和同一深度进行处理。
b)在通过转换引擎创建了深度图像之后,调整参数来完善深度图像是必需的。这个过程是通过人工来完成。当每次进行相似的2D图像的转换时,都需要重复一遍该处理过程。这是很耗费时间的。
c)转换过程需针对视频中的每一个单独帧。深度图像是不能在相似帧中重复使用的。
发明内容
本发明实施例的主要目的在于提供一种通过机器学习技术改进2D至3D的自动转换质量的方法,通过加入机器学习技术,使得对图像的识别更加准确,提高2D至3D转换的质量与效果。
为了实现上述目的,本发明创作实施例提供一种通过机器学习技术改进2D至3D的自动转换质量的方法,该方法包括:接收用户输入的新的2D图像;通过机器学习算法识别所述新的2D图像中的多个对象;根据所述对象的特征确定各所述对象的层次关系;根据所述层次关系改进3D图像的质量。
在一实施例中,在接收用户输入的新的2D图像之前,所述的方法还包括:根据用户输入的多个图像数据生成对象集K={k1,k2,...,kN},其中,因素kN为所述对象集K中的对象数据;N为因素kN的个数;确定所述对象集K中各对象之间的关系指标;将所述对象集K及关系指标存储至一数据库。
在一实施例中,上述的根据用户输入的多个图像数据生成对象集K,具体包括:
步骤a:接收用户输入的多对基准2D图像及其深度图像;步骤b:针对所述基准2D图像,为2D至3D的转换创建多个图层;步骤c:获取用户对每一所述图层中多个对象所做的标签,并为每一所述图层赋值深度值;步骤d:将包含所述标签、深度值及对象的数据组合创建为所述基准2D图像的所述对象数据;对于每一基准2D图像,重复所述步骤a至步骤d,以根据多个基准2D图像的所述对象数据创建所述对象集K,所述对象集K中的因素kN表示所述对象集K中的各个所述对象。
在一实施例中,上述的确定所述对象集K中各对象之间的关系指标,包括:分析每对所述基准2D图像及其深度图像,并通过数据转换和图案识别学习所述基准2D图像及其深度图像之间的映射关系;对于所述对象集K中的每个所述对象,使用条件概率计算各所述对象之间的关系,生成所述关系指标;所述关系指标为P(kj|ki+n...ki+2ki+1ki),其中,i=1,2,...,N且j不等于i。
在一实施例中,上述的根据所述对象的特征确定各所述对象的层次关系,具体包括:判断两所述对象之间的所述关系指标是否小于一阈值;当所述关系指标小于或等于所述阈值时,则判定两所述对象之间属于同一深度等级;当所述关系指标大于所述阈值时,则判定两所述对象之间不属于同一深度等级,并进一步根据两所述对象的深度值判定两所述对象的深度等级的大小。
在一实施例中,上述的根据所述对象的特征确定各所述对象的层次关系,具体包括:通过机器学习算法基于所述数据库判断所述新的2D图像中各所述对象的完整性;根据各所述对象的完整性判定各所述对象是否属于同一深度等级。
在一实施例中,上述的根据各所述对象的完整性判定各所述对象是否属于同一深度等级,具体包括:若两所述对象的完整性并不一致,则判定两所述对象不属于同一深度等级,且完整的对象位于不完整的对象之前;若两所述对象的完整性一致,则进一步根据两所述对象的深度值判定两所述对象的深度等级的大小。
在一实施例中,根据所述层次关系改进3D图像的质量,具体包括:根据所述新的2D图像中的对象创建一数据集A={a1,a2,...,an},其中,所述数据集A为所述对象集K的子集,an为所述新的2D图像中识别的对象;n为在所述新的2D图像中识别的对象的个数;在所述数据集A中,将其中一所述带有标签的对象定义为主要对象;在一预设的检索距离β内,检索所述主要对象周围的多个第一对象,其中,所述多个第一对象与所述主要对象属于同一深度等级;使用预测函数创建并调整所述新的2D图像的深度图像;根据所述新的2D图像及调整后的深度图像生成3D图像。
在一实施例中,上述的预测函数具体执行以下步骤:创建所述新的2D图像的深度图像;确定所述深度图像每个对象的深度值质量的中心,并表示为集合C{c1,c2,...,cn};通过以下公式分别计算各所述第一对象与所述主要对象之间的空间距离:其中,ai为所述主要对象;aj为所述第一对象;是集合C中的因素,该集合C中存储有所有的数据集A中的因素的深度值质量的中心;指数i不等于j;以及通过以下公式调整所述深度图像的深度值:Depthnew=Depthold+Spatial Distance,其中,Depthold为所述深度图像的原始深度值;Depthnew为所述深度图像调整后的深度值。
本发明创作的有益效果在于,能够对2D图像中各对象进行更加明确地划分,从而改进将2D图像转换至3D图像的效果。
附图说明
为了更清楚地说明本发明创作实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明创作的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明创作实施例的通过机器学习技术改进2D至3D的自动转换质量的方法的流程图;
图2为根据本发明创作实施例的训练数据集的准备阶段的具体步骤流程图;
图3为根据本发明创作实施例的步骤S104的具体处理步骤流程图;
图4为根据本发明创作实施例的新的2D图像中数据集A中的对象关系结构示意图;
图5为根据本发明创作实施例的新的2D图像中识别的对象的层次关系示意图;
图6为根据本发明创作实施例的新的2D图像中识别的对象重新整合的关系结构示意图;
图7为现有的2D转3D技术的流程示意图;
图8为根据本发明创作实施例的2D转3D技术的流程示意图。
具体实施方式
下面将结合本发明创作实施例中的附图,对本发明创作实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明创作一部分实施例,而不是全部的实施例。基于本发明创作中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明创作保护的范围。
本发明创作实施例提供一种通过机器学习技术改进2D至3D的自动转换质量的方法。以下结合附图对本发明创作进行详细说明。
如图1所示,本发明创作实施例的该通过机器学习技术改进2D至3D的自动转换质量的方法主要包括以下步骤:
步骤S101:接收用户输入的新的2D图像;
步骤S102:通过机器学习算法识别新的2D图像中的多个对象;
步骤S103:根据对象的特征确定各对象的层次关系;
步骤S104:根据层次关系改进3D图像的质量。
通过上述的步骤S101至步骤S104,本发明创作的实施例提出的通过机器学习技术改进2D至3D的自动转换质量的方法,能够对2D图像中各对象进行明确划分,从而改进将2D图像转换至3D图像的质量。
以下将结合具体示例,对本发明创作实施例的通过机器学习技术改进2D至3D的自动转换质量的方法中的各个步骤进行详细说明。
在本发明创作的实施例中所采用的机器学习技术,是基于一个机器学习的数据库进行的。在一实施例中,该数据库主要通过以下步骤构建:
步骤S201:根据用户输入的图像数据生成对象集K={k1,k2,...,kN};
步骤S202:确定对象集K中各对象之间的关系指标;
步骤S203:将对象集K及关系指标存储至一数据库。
其中,上述的步骤S201,根据用户输入的图像数据生成对象集K={k1,k2,...,kN},其中,因素kN为对象集K中的对象数据;N为因素kN的个数。
具体实施时,此步骤是属于训练数据集的准备阶段。如图2所示:
步骤S2011:接收用户输入的多对基准2D图像及其深度图像;
步骤S2012:针对该基准2D图像,为2D至3D的转换创建多个图层;
步骤S2013:获取用户对每一个图层中的多个对象所做的标签,并为每一图层赋值深度值;
步骤S2014:将包含标签、深度值及对象的数据组合创建为该基准2D图像的对象数据:
然后,对于用户输入的每一基准2D图像,重复执行上述的步骤S2011至步骤S2014,从而根据多个基准2D图像的对象数据创建该对象集K,该对象集K中的因素kN表示该对象集K中的各个对象数据。
上述的步骤S202,确定对象集K中各对象之间的关系指标。
在生成该对象集K之后,针对对象集K中的各个对象,确定各个对象之间的关系指标。具体地,确定该关系指标的过程主要包括:
分析每对2D图像及其深度图像,并通过数据转换和图案识别学习该2D图像及其深度图像之间的映射关系;
对于对象集K中的每个对象,使用条件概率计算各对象之间的关系,生成关系指标,该关系指标为P(kj|ki+n...ki+2ki+1ki),其中,i=1,2,...,N且j不等于i。
上述的步骤S203,将对象集K及关系指标存储至一数据库。
在生成了该对象集K及其中各对象之间的关系指标后,将该对象集K及对应的关系指标存储至一数据库,用以作为后续进行图像分析、识别处理的数据基础。
通过上述步骤S201至步骤S203构建的机器学习的数据库后,可执行上述的步骤S101,接收用户输入的新的2D图像。在实际应用中,该图像可以是静态的图像数据,也可以是流媒体中的一帧图像数据(例如流媒体的i帧)等,在此实施例中,并不以此为限。
上述的步骤S102,通过机器学习算法识别新的2D图像中的多个对象。通过机器学习算法,根据上述步骤S201至步骤S203构建的数据库,识别用户新输入的新的2D图像中的多个对象,用以对该2D图像中的对象进行层次划分。
在本发明的实施例中,该机器学习算法可以例如是统计对象驱动深度图校正方法(Statistical Object Driven Depth Map Correction Method),但本发明并不以此为限,也可使用例如深层神经网络算法(DNN)来实行该机器学习算法;或者,基于GPU提供的强大和高效的并行计算能力,也可使用CUDA编程(CUDA programming)算法来实行该机器学习算法。
上述的步骤S103,根据对象的特征确定各对象的层次关系。在一实施例中,根据对象的特征确定各对象的层次关系主要包含两方面,一方面为上文提及的通过条件概率计算所得的各对象之间的关系指标,通过该关系指标确定两对象之间是否属于同一深度等级;另一方面是指根据该新的2D图像中,该对象的完整性数据,通过机器学习算法,识别2D图像中各对象的完整性,并根据各对象完整性的关系确定两对象之间是否属于同一深度等级。
具体地,根据两对象之间的关系指标判断这两个对象是否属于同一深度等级是指,通过判断两对象之间的关系指标是否小于一阈值来进行判断。当两对象之间的关系指标小于或等于该阈值时,则判定这两个对象是属于同一深度等级。
而当两对象之间的关系指标大于该阈值时,则判定两对象不属于同一深度等级。此时,进一步根据两对象的深度值判定这两个对象的深度等级的大小,从而判定这两个对象在转换为3D图像后的位置关系。其中,深度值越大,说明该对象的深度图像越接近于白色,其在3D图像中的位置则越靠前。
在另一实施例中,根据两对象之间的完整性的关系确定这两个对象是否属于同一深度等级是指,通过机器学习算法基于上述的数据库判断新的2D图像中各对象的完整性;根据各对象的完整性判定各对象是否属于同一深度等级,若这两个对象的完整性并不一致,则说明这两个对象之间,其中一个对象遮挡住了另一个对象的一部分。
例如,在一2D图像中,一个人物站在墙前面,通过机器学习算法可识别出该图像中的对象为墙、人物,且墙的图像是不完整的,被人物进行了遮挡。因此,可判定这两个对象不属于同一深度等级,且完整的对象位于不完整的对象的前面。
若两对象的完整性一致,则进一步根据两对象的深度值判定两对象的深度等级的大小,从而判定这两个对象在转换为3D图像后的位置关系。其中,深度值越大,说明该对象的深度图像越接近于白色,其在3D图像中的位置则越靠前。
上述步骤S104:根据层次关系改进3D图像的质量。具体地,如图3所示,该步骤主要包括:
步骤S1041:根据新的2D图像中带有标签的对象创建一数据集A={a1,a2,...,an},其中,数据集A为对象集K的子集,an为新的2D图像中识别的对象;n为在新的2D图像中识别的对象的个数;
步骤S1042:在数据集A中,将其中一对象定义为主要对象;
步骤S1043:在一预设的检索距离β内,检索主要对象周围的多个第一对象,在该检索距离β内,以人作为主要对象,检索到其周围的多个第一对象为包、衣服、手套、围巾、裤子等。其中,多个第一对象与主要对象属于同一深度等级,由于包、衣服、手套、围巾、裤子与人作为对象时,属于同一深度等级,在后续进行图像转换时,保证了包、衣服、手套、围巾、裤子与人处于同一个的图层或层次,而不会将包、衣服、手套、围巾、裤子与背景相混淆。
步骤S1044:使用预测函数创建并调整新的2D图像的深度图像。
其中,该预测函数具体用于执行以下步骤:
首先,创建用户输入的新的2D图像的深度图像;
定义Depth Value=z=D(x,y)是2D深度图像中一特定像素的深度值的表达式;
然后,a)基于自动生成的深度图像(例如在使用统计对象驱动深度图校正方法前所生成的深度图)找到每个对象的深度值质量的中心,并表示为集合C{c1,c2,...,cn};
对于该集合中的因素
其中,D(x,y)是坐标(x,y)基于自动生成的深度图(例如在使用统计对象驱动深度图校正方法前所生成的深度图)的深度值;
Rn是新的2D图像的数据集A中的特定对象;
对于上述的特定对象,例如,在新的2D图像中,包含有苹果、云、人物等对象,则上述数据集A={a1=苹果,a2=云,a3=人},则是在新的2D画面的苹果边界及边界里面的像素;是在新的2D画面的边界及边界里面的像素;是在新的2D画面的人边界及边界里面的像素;
关于坐标平面的深度函数的第一轴距:
b)测量对象之间的空间距离:
Spatial Distance=Centre of Depth-Value-Massai-Centre of Depth-Value-Massaj
上述公式可进一步简写为:其中,SD(i,j)是对象的空间距离;
ai和aj是数据集A中的因素;
下标i和j并不相等;
是集合C中的因素,该集合C中存储有所有的数据集A中的因素的深度值质量的中心。
进一步地,可通过以下公式调整该深度图像的深度值:
Depthnew=Depthold+Spatial Distance,
其中,Dnew和Dold可表示为一个矩阵。该矩阵中的各项是在特定对象的一个特定像素的深度值:
进一步地,执行步骤S1045,基于上述的调整后的深度图像,以及确定的各对象之间的层次关系,将2D图像转换为3D图像。由于通过上述的各步骤,对2D图像中各个对象之间的深度等级进行了定义,并调整了其深度图像。因此,在此步骤中,将2D图像转换生成的3D图像,在该3D图像中各对象之间的关系应当是更加清晰的,改进了2D图像转换至3D图像的质量。
在一些现有的转换2D图像至3D图像的技术中,如图7所示,其主要过程包括:针对输入的2D图像,自动估算深度,然后由用户判断所估算的深度质量是好还是坏。对于好的深度图像,则与输入的2D图像进行视图合成,生成3D图像并输出;对于坏的深度图像,通过一些现有的转换引擎或技术进行深度校正(分为手动校正和自动校正)。
而在本发明实施例的通过机器学习技术改进2D至3D的自动转换质量的方法中,如图8所示,其所包含的主要过程为:
针对输入的2D图像,为图像中的多个对象标记标签,并进行对象识别及层次划分从而确定各对象的层次关系;然后,针对各类图像(好的深度图像、坏的深度图像),通过本发明创作实施例的通过机器学习技术改进2D至3D的自动转换质量的方法进行深度自动校正,生成改进的深度图像,与2D图像进行视图合成,生成3D图像输出,从而改进2D图像至3D图像的转换质量。
可见,本发明创作实施例的通过机器学习技术改进2D至3D的自动转换质量的方法,主要具有以下优势:
1.转换图案识别层面。可以适应2D图像中出现的新的特征和图案,并可改善输出结果(改善转换的3D图像的效果);
2.决策行为层面。由于可以创建一个更加精确的深度图像,可以有助于减少3D转换的时间。并且,也可减少转换过程中人为工作的参与。
3.知识获取层面。在2D至3D的转换过程中,可以学习并获取人类的知识,并可以对在整个处理过程中获取的知识进行重复利用。
在一具体应用实例中,本发明创作实施例的通过机器学习技术改进2D至3D的自动转换质量的方法对用户输入的新的2D图像的处理过程如下:
a)接收用户输入的新的2D图像;
b)通过检索对象集K识别该新的2D图像中的对象。该对象包括:帽子、背包,人物、鞋。这些对象均属于数据集A,且数据集A为对象集K的子集使用如图4所示的对象关系表来表述该数据集A中的初步结构。
c)由于在上述各对象中,鞋、背包、帽子属于人物的一部分,因此,鞋、背包、帽子应当和人物处于相同的深度等级,因此,将这三个对象和“人物”一起合并成为“组合1”,“组合1”中各对象的层次关系如图5所示。
d)将“组合1”重命名为“人物”,这样可将多个对象与人物对象之间的关系整合到一起,如图6所示。相应地,人物的关系指标也需进行更新。下次处理过程中,当一个新的2D图像中显示有鞋、背包、帽子在人物的周围时,如果这些对象输入该组合的概率较高,将很可能自动将它们进行合并,并识别它们属于“人物”标签。
e)由于鞋、背包、帽子属于人物对象的一部分,这些对象的当前的深度等级将被调整。
例如:
假设人物对象的深度值为178,鞋、背包、帽子的深度值为129,人物与(鞋、背包、帽子)之间的空间距离为:
Spatial Distance=Centre of Depth-Value-Massperson-Centre of Depth-Value-Mass(Shoes,Bag,Hat)=178-129=49。
(鞋、背包、帽子)的深度图像的深度值通过下式进行调整:
Depthnew=Depthold+Spatial Distance
因此,进行调整后,(鞋、背包、帽子)对象与人物对象具有相同的深度值,在后续的图像转换过程中,将会把(鞋、背包、帽子)对象与人物对象作为同一组合进行转换,而不会因为(鞋、背包、帽子)对象与背景的颜色较为接近,而将(鞋、背包、帽子)转换为背景。由此,进一步改善和提高了将2D图像转换为3D图像的质量。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,比如ROM/RAM、磁碟、光盘等。
以上所述的具体实施例,对本发明创作的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明创作的具体实施例而已,并不用于限定本发明创作的保护范围,凡在本发明创作的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明创作的保护范围之内。

Claims (9)

1.一种通过机器学习技术改进2D至3D的自动转换质量的方法,其中,所述的方法包括:
接收用户输入的新的2D图像;
通过机器学习算法识别所述新的2D图像中的多个对象;
根据所述对象的特征确定各所述对象的层次关系;
根据所述层次关系改进3D图像的质量。
2.根据权利要求1所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,在接收用户输入的新的2D图像之前,所述的方法还包括:
根据用户输入的多个图像数据生成对象集K={k1,k2,...,kN},其中,因素kN为所述对象集K中的对象数据;N为因素kN的个数;
确定所述对象集K中各对象之间的关系指标;
将所述对象集K及关系指标存储至一数据库。
3.根据权利要求2所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,根据用户输入的多个图像数据生成对象集K,具体包括:
步骤a:接收用户输入的多对基准2D图像及其深度图像;
步骤b:针对所述基准2D图像,为2D至3D的转换创建多个图层;
步骤c:获取用户对每一所述图层中多个对象所做的标签,并为每一所述图层赋值深度值:
步骤d:将包含所述标签、深度值及对象的数据组合创建为所述基准2D图像的所述对象数据;
对于每一基准2D图像,重复所述步骤a至步骤d,以根据多个基准2D图像的所述对象数据创建所述对象集K,所述对象集K中的因素表示所述对象集K中的各个所述对象。
4.根据权利要求3所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,确定所述对象集K中各对象之间的关系指标,具体包括:
分析每对所述基准2D图像及其深度图像,并通过数据转换和图案识别学习所述基准2D图像及其深度图像之间的映射关系;
对于所述对象集K中的每个所述对象,使用条件概率计算各所述对象之间的关系,生成所述关系指标;
所述关系指标为P(kj|ki+n...ki+2ki+1ki),其中,i=1,2,...,N且j不等于i。
5.根据权利要求4所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,根据所述对象的特征确定各所述对象的层次关系,具体包括:
判断两所述对象之间的所述关系指标是否小于一阈值;
当所述关系指标小于或等于所述阈值时,则判定两所述对象之间属于同一深度等级;
当所述关系指标大于所述阈值时,则判定两所述对象之间不属于同一深度等级,并进一步根据两所述对象的深度值判定两所述对象的深度等级的大小。
6.根据权利要求2所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,根据所述对象的特征确定各所述对象的层次关系,具体包括:
通过机器学习算法基于所述数据库判断所述新的2D图像中各所述对象的完整性;
根据各所述对象的完整性判定各所述对象是否属于同一深度等级。
7.根据权利要求6所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,根据各所述对象的完整性判定各所述对象是否属于同一深度等级,具体包括:
若两所述对象的完整性并不一致,则判定两所述对象不属于同一深度等级,且完整的对象位于不完整的对象之前;
若两所述对象的完整性一致,则进一步根据两所述对象的深度值判定两所述对象的深度等级的大小。
8.根据权利要求5或7所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,根据所述层次关系改进3D图像的质量,具体包括:
根据所述新的2D图像中的对象创建一数据集A={a1,a2,...,an},其中,所述数据集A为所述对象集K的子集,an为所述新的2D图像中识别的对象;n为在所述新的2D图像中识别的对象的个数;
在所述数据集A中,将其中一所述对象定义为主要对象;
在一预设的检索距离β内,检索所述主要对象周围的多个第一对象,其中,所述多个第一对象与所述主要对象属于同一深度等级;
使用预测函数创建并调整所述新的2D图像的深度图像;
根据所述新的2D图像及调整后的深度图像生成3D图像。
9.根据权利要求8所述的通过机器学习技术改进2D至3D的自动转换质量的方法,其中,所述的预测函数具体执行以下步骤:
创建所述新的2D图像的深度图像;
确定所述深度图像中每个对象的深度值质量的中心,并表示为集合C{c1,c2,...,cn};
通过以下公式分别计算各所述第一对象与所述主要对象之间的空间距离:
其中,ai为所述主要对象;aj为所述第一对象;是集合C中的因素,该集合C中存储有所有的数据集A中的因素的深度值质量的中心;指数i不等于j;以及
通过以下公式调整所述深度图像的深度值:
Depthnew=Depthold+Spatial Distance,其中,Depthold为所述深度图像的原始深度值;Depthnew为所述深度图像调整后的深度值。
CN201780060262.9A 2016-10-14 2017-10-13 通过机器学习技术改进2d至3d的自动转换质量的方法 Active CN109891880B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
HK16111899.1A HK1224513A (zh) 2016-10-14 2016-10-14 通過機器學習技術改進 的自動轉換質量的方法
HK16111899.1 2016-10-14
PCT/CN2017/106019 WO2018068755A1 (en) 2016-10-14 2017-10-13 Method for improving quality of 2d-to-3d automatic conversion by using machine learning techniques

Publications (2)

Publication Number Publication Date
CN109891880A true CN109891880A (zh) 2019-06-14
CN109891880B CN109891880B (zh) 2020-11-13

Family

ID=59626743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780060262.9A Active CN109891880B (zh) 2016-10-14 2017-10-13 通过机器学习技术改进2d至3d的自动转换质量的方法

Country Status (4)

Country Link
US (1) US10595006B2 (zh)
CN (1) CN109891880B (zh)
HK (1) HK1224513A (zh)
WO (1) WO2018068755A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HK1224513A (zh) 2016-10-14 2017-08-18 萬維數碼有限公司 通過機器學習技術改進 的自動轉換質量的方法
KR102061408B1 (ko) * 2017-03-24 2019-12-31 (주)제이엘케이인스펙션 가상 3차원 심층 신경망을 이용하는 영상 분석 장치 및 방법
WO2019147939A1 (en) * 2018-01-26 2019-08-01 Nvidia Corporation Detection of hazardous driving using machine learning
CN111444170B (zh) * 2018-12-28 2023-10-03 第四范式(北京)技术有限公司 基于预测业务场景的自动机器学习方法和设备
WO2020167573A1 (en) * 2019-02-15 2020-08-20 Xliminal, Inc. System and method for interactively rendering and displaying 3d objects
US11062183B2 (en) * 2019-05-21 2021-07-13 Wipro Limited System and method for automated 3D training content generation
US12056791B2 (en) * 2021-08-20 2024-08-06 Adobe Inc. Generating object-based layers for digital image editing using object classification machine learning models
US11907841B1 (en) 2023-05-01 2024-02-20 Ian Truitner Machine learning based consumer product identification system and method therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381346B1 (en) * 1997-12-01 2002-04-30 Wheeling Jesuit University Three-dimensional face identification system
US20040032980A1 (en) * 1997-12-05 2004-02-19 Dynamic Digital Depth Research Pty Ltd Image conversion and encoding techniques
CN101593349A (zh) * 2009-06-26 2009-12-02 福州华映视讯有限公司 将二维影像转换为三维影像的方法
CN101631257A (zh) * 2009-08-06 2010-01-20 中兴通讯股份有限公司 一种实现二维视频码流立体播放的方法及装置
US20150254499A1 (en) * 2014-03-07 2015-09-10 Chevron U.S.A. Inc. Multi-view 3d object recognition from a point cloud and change detection

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10872535B2 (en) * 2009-07-24 2020-12-22 Tutor Group Limited Facilitating facial recognition, augmented reality, and virtual reality in online teaching groups
CN101702781A (zh) 2009-09-07 2010-05-05 无锡景象数字技术有限公司 基于光流法的2d转3d方法
CN101917643B (zh) 2010-07-09 2012-05-30 清华大学 一种全自动2d转3d技术中的实时镜头检测方法和装置
CN102427539B (zh) 2011-08-26 2014-08-27 庞志勇 视频图像2d转3d的方法
CN103135889B (zh) * 2011-12-05 2017-06-23 Lg电子株式会社 移动终端及其3d图像控制方法
CN105791803B (zh) * 2016-03-16 2018-05-18 深圳创维-Rgb电子有限公司 一种将二维图像转化为多视点图像的显示方法及系统
CN105979244A (zh) * 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
HK1224513A (zh) 2016-10-14 2017-08-18 萬維數碼有限公司 通過機器學習技術改進 的自動轉換質量的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381346B1 (en) * 1997-12-01 2002-04-30 Wheeling Jesuit University Three-dimensional face identification system
US20040032980A1 (en) * 1997-12-05 2004-02-19 Dynamic Digital Depth Research Pty Ltd Image conversion and encoding techniques
CN101593349A (zh) * 2009-06-26 2009-12-02 福州华映视讯有限公司 将二维影像转换为三维影像的方法
CN101631257A (zh) * 2009-08-06 2010-01-20 中兴通讯股份有限公司 一种实现二维视频码流立体播放的方法及装置
US20150254499A1 (en) * 2014-03-07 2015-09-10 Chevron U.S.A. Inc. Multi-view 3d object recognition from a point cloud and change detection

Also Published As

Publication number Publication date
WO2018068755A1 (en) 2018-04-19
CN109891880B (zh) 2020-11-13
US20180109776A1 (en) 2018-04-19
US10595006B2 (en) 2020-03-17
HK1224513A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN109891880A (zh) 通过机器学习技术改进2d至3d的自动转换质量的方法
KR102134405B1 (ko) 적대적 생성망을 이용한 저조도 영상 개선을 위한 장치 및 방법
Kuznichov et al. Data augmentation for leaf segmentation and counting tasks in rosette plants
WO2019154035A1 (zh) 一种在视频中植入广告的方法及计算机设备
JP3740065B2 (ja) 領域分割された映像の領域特徴値整合に基づいた客体抽出装置およびその方法
CN111445488B (zh) 一种弱监督学习自动识别和分割盐体的方法
CN108848422B (zh) 一种基于目标检测的视频摘要生成方法
CN102831580B (zh) 基于运动检测的手机拍摄图像修复方法
CN113705579B (zh) 一种视觉显著性驱动的图像自动标注方法
CN111325661B (zh) 一种名为msgan的图像的季节风格转换模型及方法
WO2018053952A1 (zh) 一种基于场景样本库的影视图像深度提取方法
CN107169417A (zh) 基于多核增强和显著性融合的rgbd图像协同显著性检测方法
CN109087330A (zh) 一种基于由粗到精图像分割的运动目标检测方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN110555822B (zh) 一种面向实时视频融合的颜色一致性调整方法
CN109410158B (zh) 一种基于卷积神经网络的多焦点图像融合方法
CN109544694A (zh) 一种基于深度学习的增强现实系统虚实混合建模方法
CN105957124A (zh) 具有重复场景元素的自然图像颜色编辑方法及装置
Han et al. An enhanced image binarization method incorporating with Monte-Carlo simulation
Avi-Aharon et al. Differentiable histogram loss functions for intensity-based image-to-image translation
CN111832508B (zh) 基于die_ga的低照度目标检测方法
Zhang et al. Automatic colorization with improved spatial coherence and boundary localization
CN111064905B (zh) 面向自动驾驶的视频场景转换方法
CN104778468B (zh) 图像处理装置、图像处理方法以及监控设备
Saba et al. The optimazation of multi resolution segmentation of remotely sensed data using genetic alghorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230627

Address after: The British Virgin Islands

Patentee after: Intelligent 3D Co.,Ltd.

Address before: Sha Tin, Hongkong, China

Patentee before: Marvel Digital Ltd.