CN112862006A - 图像深度信息获取模型的训练方法、装置及电子设备 - Google Patents

图像深度信息获取模型的训练方法、装置及电子设备 Download PDF

Info

Publication number
CN112862006A
CN112862006A CN202110320859.0A CN202110320859A CN112862006A CN 112862006 A CN112862006 A CN 112862006A CN 202110320859 A CN202110320859 A CN 202110320859A CN 112862006 A CN112862006 A CN 112862006A
Authority
CN
China
Prior art keywords
depth information
image
pixel point
information
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110320859.0A
Other languages
English (en)
Other versions
CN112862006B (zh
Inventor
蒋旻悦
谭啸
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110320859.0A priority Critical patent/CN112862006B/zh
Publication of CN112862006A publication Critical patent/CN112862006A/zh
Application granted granted Critical
Publication of CN112862006B publication Critical patent/CN112862006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像深度信息获取模型的训练方法、装置及电子设备,涉及人工智能领域,具体为计算机视觉、智能交通和深度学习技术领域。该方案为:获取样本图像及样本点云信息;将样本图像和样本点云信息输入图像深度信息获取模型中,获取初始深度信息和特征信息;根据初始深度信息和特征信息,识别出深度信息不稳定的目标像素点;根据目标像素点的深度信息,确定损失函数中的权重值;根据权重值对损失函数进行调整,直至模型训练结束,生成目标图像深度信息获取模型,充分利用了模型训练过程中深度信息不稳定的目标像素点的深度信息,使得训练好的模型输出的深度信息能够更加接近真实值,点云信息更加稠密。

Description

图像深度信息获取模型的训练方法、装置及电子设备
技术领域
本申请的实施例总体上涉及图像处理技术领域,并且更具体地涉及人工智能领域,具体为计算机视觉、智能交通和深度学习技术领域。
背景技术
图像的深度信息作为支持计算机视觉技术的重要信息,对三维重建有着重要的意义。举例而言,针对自动驾驶等领域,深度信息更是不可或缺的信息之一。
相关技术中,通常采用激光雷达技术确定深度信息。然而,此种情况下,所获取到的深度信息的稠密度较低,无法达到实用的要求。因此,进一步地,通常会将获取到的图像和深度信息输入训练好的图像深度信息获取模型,以获取稠密的深度信息。
然而,相关技术中的图像深度信息获取模型的训练方法并不完善,导致训练效果不理想,进一步导致获取到的深度信息无法满足用户的需求。因此,如何提高图像深度信息获取模型的训练过程中的有效性和可靠性,已成为了重要的研究方向之一。
发明内容
本申请提供了一种图像深度信息获取模型的训练方法、装置及电子设备。
根据第一方面,提供了一种图像深度信息获取模型的训练方法,包括:
获取样本图像以及所述样本图像对应的样本点云信息;
将所述样本图像和所述样本点云信息输入图像深度信息获取模型中,获取所述样本图像中每个像素点的初始深度信息和特征信息;
根据所述像素点的初始深度信息和所述特征信息,从所有所述像素点中识别出深度信息不稳定的目标像素点;
根据所述目标像素点的深度信息,确定所述目标像素点对应的所述图像深度信息获取模型的损失函数中的权重值;
根据所述权重值对所述损失函数进行调整,并返回所述获取样本图像以及所述样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
根据第二方面,提供了一种图像深度信息获取模型的训练装置,包括:
第一获取模块,用于获取样本图像以及所述样本图像对应的样本点云信息;
第二获取模块,用于将所述样本图像和所述样本点云信息输入图像深度信息获取模型中,获取所述样本图像中每个像素点的初始深度信息和特征信息;
识别模块,用于根据所述像素点的初始深度信息和所述特征信息,从所有所述像素点中识别出深度信息不稳定的目标像素点;
确定模块,用于根据所述目标像素点的深度信息,确定所述目标像素点对应的所述图像深度信息获取模型的损失函数中的权重值;
生成模块,用于根据所述权重值对所述损失函数进行调整,并返回所述获取样本图像以及所述样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面所述的图像深度信息获取模型的训练方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面所述的图像深度信息获取模型的训练方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现本公开第一方面所述的图像深度信息获取模型的训练方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是一种邻接矩阵的示意图;
图4是根据本申请第三实施例的示意图;
图5是另一种邻接矩阵的示意图;
图6是根据本申请第四实施例的示意图;
图7是根据本申请第五实施例的示意图;
图8是用来实现本申请实施例的图像深度信息获取模型的训练方法的图像深度信息获取模型的训练装置的框图;
图9是用来实现本申请实施例的图像深度信息获取模型的训练方法的图像深度信息获取模型的训练装置的框图;
图10是用来实现本申请实施例的图像深度信息获取模型的训练的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下对本申请的方案涉及的技术领域进行简要说明:
图像处理(DataProcessing),(Image Processing),用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组,该数组的元素称为像素,其值称为灰度值。图像处理技术一般包括图像压缩,增强和复原,匹配、描述和识别3个部分。
AI(Artificial Intelligence,人工智能),是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术,也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。
计算机视觉,是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
智能交通,(Intelligent Traffic),又称智能运输系统,是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
DL(Deep Learning,深度学习),是ML机器学习(Machine Learning,机器学习)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
下面参考附图描述本申请实施例的一种图像深度信息获取模型的训练方法、装置及电子设备。
图1是根据本申请第一实施例的示意图。其中,需要说明的是,本实施例的图像深度信息获取模型的训练方法的执行主体为图像深度信息获取模型的训练装置,图像深度信息获取模型的训练装置具体可以为硬件设备,或者硬件设备中的软件等。其中,硬件设备例如终端设备、服务器等。如图1所示,本实施例提出的图像深度信息获取模型的训练方法,包括如下步骤:
S101、获取样本图像以及样本图像对应的样本点云信息。
其中,样本图像,可以为通过相机等图像采集装置获取到的彩色图像。
其中,样本图像对应的样本点云(Point Cloud)信息,可以为通过激光雷达传感器等采集装置获取到的稀疏的点云信息。
需要说明的是,获取到的样本图像的数量与样本点云信息的数量一致。本申请中,对于获取到的样本图像与样本点云信息的数量不作限定,可以根据实际情况进行获取。例如,可以获取1000组样本图像与样本点云信息。
S102、将样本图像和样本点云信息输入图像深度信息获取模型中,获取样本图像中每个像素点的初始深度信息和特征信息。
其中,图像深度信息获取模型中至少包括编码解码网络。
可选地,将样本图像和样本点云信息输入图像深度信息获取模型中后,编码解码网络可以通过对样本图像和样本点云信息进行多层卷积、反卷积操作,可以得到样本图像中每个像素点的初始深度信息和特征信息。
需要说明的是,由于在对模型进行训练前,仅能够得到部分像素点的深度信息,因此,针对未能获取到深度信息的像素点,其对应的初始深度信息可以为0。
S103、根据像素点的初始深度信息和特征信息,从所有像素点中识别出深度信息不稳定的目标像素点。
需要说明的是,在图像深度信息获取模型训练的过程中,经过多轮训练,针对每个像素点,可以得到多个深度信息。通过比较深度信息的差值、比值、偏移量等变化情况,能够从所有像素点中识别出深度信息不稳定的目标像素点。
作为一种可能的实现方式,可以根据特征信息,获取每个像素点的邻接矩阵。进一步地,可以基于邻接矩阵和初始深度信息,从所有像素点中识别出深度信息不稳定的目标像素点。
S104、根据目标像素点的深度信息,确定目标像素点对应的图像深度信息获取模型的损失函数中的权重值。
需要说明的是,相关技术中,目标像素点的信息通常未能得到充分利用,甚至被忽略。然而,有效地利用目标像素点的深度信息,能够提高模型训练的有效性和可靠性。
由此,本申请实施例中,可以根据目标像素点的深度信息,确定目标像素点对应的模型的损失函数中的权重值。
其中,损失函数,可以为L1范数损失函数。L1范数损失函数,也被称为最小绝对值偏差(Least absolute deviations,简称LAD)。总体而言,L1范数损失函数是为了将目标值与估计值的绝对差值的总和最小化。
举例而言,图像深度信息获取模型的损失函数L1如下公式所示:
L1=weight*||gt-pred||
其中,weight表示损失函数的初始的权重值,gt表示深度信息的真实值(目标值),pred表示基于模型获取到的深度信息值(估计值)。
进一步地,可以根据目标像素点的深度信息,确定对应的初始的权重值的修正方式,并依此对初始的权重值进行调整,以获取到损失函数的权重值。
S105、根据权重值对损失函数进行调整,并返回获取样本图像以及样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
需要说明的是,本申请中对于根据权重值对损失函数进行调整,并返回重新训练的次数不作限定,可以根据实际情况进行设定。例如,可以对损失函数进行3次调整;又例如,可以对损失函数进行调整直至估计值与目标值之间的差异符合预先设定的条件,则可以停止训练。
由此,生成的目标图像深度信息获取模型中对应的损失函数为最后一次调整后确定的损失函数。
根据本申请实施例的图像深度信息获取模型的训练方法,可以获取样本图像以及对应的样本点云信息;将样本图像和样本点云信息输入图像深度信息获取模型中,获取每个像素点的初始深度信息和特征信息,并根据初始深度信息和特征信息,从所有像素点中识别出深度信息不稳定的目标像素点,然后根据目标像素点的深度信息,确定目标像素点对应的损失函数中的权重值,进而根据权重值对损失函数进行调整,并返回重新训练直至模型训练结束,生成目标图像深度信息获取模型,以实现图像深度信息获取模型的训练,充分利用了模型训练过程中深度信息不稳定的目标像素点的深度信息,准确地对模型中的损失函数的权重值进行调整,以使得训练好的模型输出的深度信息能够更加接近真实值,点云信息更加稠密,能够达到更高的实用要求,提高了模型训练过程中的有效性和可靠性。
需要说明的是,本申请中,在试图根据像素点的初始深度信息和特征信息,从所有像素点中识别出深度信息不稳定的目标像素点时,可以根据特征信息,获取每个像素点的邻接矩阵,并基于邻接矩阵和初始深度信息,从所有像素点中识别出深度信息不稳定的目标像素点。
图2是根据本申请第二实施例的示意图。如图2所示,在上一实施例的基础上,本实施例提出的图像深度信息获取模型的训练方法,包括如下步骤:
S201、获取样本图像以及样本图像对应的样本点云信息。
S202、将样本图像和样本点云信息输入图像深度信息获取模型中,获取样本图像中每个像素点的初始深度信息和特征信息。
该步骤S201~S202与上一实施例中的步骤S101~S102相同,此处不再赘述。
上一实施例中的步骤S103具体可包括以下步骤S203~S205。
S203、根据每个像素点的特征信息,获取每个像素点与其相邻点之间的特征相似度。
需要说明的是,像素点的特征信息能够表示当前图像各像素点之间的特征,通过对特征之间进行相似度计算,可以获取每个像素点与其相邻点之间的特征相似度。
举例而言,以A点作为中心点,与其相邻的8个点分别标记为点1~8,通过进行余弦相似度(Cosine similarity)计算,可以得到每个像素点与其相邻点之间的特征相似度分别为0.1、0.2、0.3、0.4、1、0.5、0.6、0.7、0.8。
S204、根据特征相似度,获取每个像素点的邻接矩阵。
可选地,在获取到特征相似度后,可以利用该相似度进行卷积,得到邻接矩阵,该邻接矩阵表示了当前像素点与其相邻点之间的深度关系。
举例而言,如图3所示,以A点作为中心点,与其相邻的8个点分别标记为点1~8,通过进行余弦相似度(Cosine similarity)计算,可以得到邻接矩阵3-1。
S205、根据每个像素点的初始深度信息和邻接矩阵,从所有像素点中识别出目标像素点。
作为一种可能的实现方式,如图4所示,在上述实施例的基础上,上述步骤S205中根据每个像素点的初始深度信息和邻接矩阵,从所有像素点中识别出目标像素点的具体过程,包括以下步骤:
S401、从每个像素点的初始深度信息起,根据像素点对应的邻接矩阵,对每个像素点的深度信息进行迭代更新。
可选地,可以求得邻接矩阵中的每个元素分别与每个像素点的初始深度信息的乘积,并将合作为对该像素点进行第一次更新后的深度信息。依次类推,对每个像素点的深度信息进行迭代更新。
举例而言,如图5所示,针对9个像素点1~9,从像素点1的初始深度信息起,根据邻接矩阵5-1,对像素点1的深度信息进行迭代更新。此种情况下,经过第一次更新后,像素点1的深度信息将被更新为1*0.1+1*0.2+1*0.3+1*0.4+1*1+1*0.5+1*0.6+1*0.7+1*0.8=4.6(米)。依次类推,对9个像素点的深度信息进行迭代更新。
S402、针对每个像素点,将累计迭代更新次数达到第一预设次数时的深度信息作为第一深度信息,并将累计迭代达到第二预设次数时的深度信息作为第二深度信息。
其中,第一预设次数和第二预设次数不一致,且可以根据实际情况进行设定。例如,可以设定第一预设次数为5次,设定第二预设次数为10次。
举例而言,针对像素点A,累计迭代更新次数达到5次时的深度信息为12.5米,累计迭代达到10次时的深度信息为12.8米。此种情况下,第一深度信息为12.5米,第二深度信息为12.8米。
S403、根据第一深度信息和第二深度信息,从所有像素点中识别出目标像素点。
作为一种可能的实现方式,如图6所示,在上述实施例的基础上,上述步骤S403中根据第一深度信息和第二深度信息,从所有像素点中识别出目标像素点的具体过程,包括以下步骤:
S601、获取第一深度信息和第二深度信息的差值。
举例而言,若第一深度信息为12.5米,第二深度信息为12.8米,此种情况下,第一深度信息和第二深度信息的差值为0.3。
S602、根据差值,从所有像素点中识别出差值是否大于或者等于预设差值阈值的点,并将其作为目标像素点。
其中,预设差值阈值可以根据实际情况进行设定。例如,可以设定预设差值阈值为2。
举例而言,设定预设差值阈值为2,若像素点1的第一深度信息为12.5米,第二深度信息为12.8米,第一深度信息和第二深度信息的差值为0.3。此种情况下,像素点1为非目标像素点。若像素点2的第一深度信息为12米,第二深度信息为15米,第一深度信息和第二深度信息的差值为3。此种情况下,像素点2为目标像素点。
上一实施例中的步骤S104具体可包括以下步骤S206~S207。
S206、根据差值,确定差值所处的差值区间。
需要说明的是,本申请中预先设定有多个差值区间。
举例而言,共设置有3个差值区间,其中,差值为3~4对应第一差值区间;差值为4~5对应第二差值区间;差值为5~6对应第三差值区间。此种情况下,若差值为3.5,则可知差值所处的区间为第一差值区间。
S207、根据差值区间,确定目标像素点对应的权重值,其中,权重值与差值呈正相关。
需要说明的是,本申请中预先设置有差值区间与目标像素点对应的权重值之间的映射关系。在确定差值区间后,通过查询映射关系可以确定目标像素点对应的权重值,其中,权重值与差值呈正相关。
S208、根据权重值对损失函数进行调整,并返回获取样本图像以及样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
该步骤S208与上一实施例中的步骤S105相同,此处不再赘述。
根据本申请实施例的图像深度信息获取模型的训练方法,可以根据特征信息,获取每个像素点的邻接矩阵,并基于邻接矩阵和初始深度信息,从所有像素点中识别出深度信息不稳定的目标像素点,基于邻接矩阵对每个像素点的深度信息进行迭代更新,并根据迭代过程中识别出的不稳定的目标像素点的深度信息,准确地对模型中的损失函数的权重值进行调整,进一步提高了模型训练过程中的有效性和可靠性。
进一步地,在生成目标图像深度信息获取模型后,可以根据待获取图像、对应的点云信息以及目标图像深度信息获取模型,补全待获取图像的稠密的点云。
图7是根据本申请第五实施例的示意图。如图7所示,在上一实施例的基础上,本实施例提出的图像深度信息获取模型的训练方法,包括如下步骤:
S701、获取待获取图像以及待获取图像对应的点云信息。
其中,待获取图像,可以为通过相机等图像采集装置获取到的彩色图像。
其中,待获取图像对应的点云信息,可以为通过激光雷达传感器等采集装置获取到的稀疏的点云信息。
S702、将待获取图像和点云信息输入至目标图像深度信息获取模型中,以获取待获取图像中每个像素点的目标深度信息。
综上所述,针对有效显示格式为1920×1080p的待获取图像,在对模型进行训练前,若仅能获取到其中500个点的深度信息,基于本申请提出的训练方法对模型进行训练后得到的目标图像深度信息获取模型,能够实现点云的补齐,使得1920×1080个点上的深度信息均可输出。也就是说,目标图像深度信息获取模型输出的目标深度信息对应待获取图像中每个像素点的深度信息。
与上述几种实施例提供的图像深度信息获取模型的训练方法相对应,本申请的一个实施例还提供一种图像深度信息获取模型的训练装置,由于本申请实施例提供的图像深度信息获取模型的训练装置与上述几种实施例提供的图像深度信息获取模型的训练方法相对应,因此在图像深度信息获取模型的训练方法的实施方式也适用于本实施例提供的图像深度信息获取模型的训练装置,在本实施例中不再详细描述。
图8是根据本申请一个实施例的图像深度信息获取模型的训练装置的结构示意图。
如图8所示,该图像深度信息获取模型的训练装置800,包括:第一获取模块810、第二获取模块820、识别模块830、确定模块840和生成模块850。其中:
第一获取模块810,用于获取样本图像以及所述样本图像对应的样本点云信息;
第二获取模块820,用于将所述样本图像和所述样本点云信息输入图像深度信息获取模型中,获取所述样本图像中每个像素点的初始深度信息和特征信息;
识别模块830,用于根据所述像素点的初始深度信息和所述特征信息,从所有所述像素点中识别出深度信息不稳定的目标像素点;
确定模块840,用于根据所述目标像素点的深度信息,确定所述目标像素点对应的所述图像深度信息获取模型的损失函数中的权重值;
生成模块850,用于根据所述权重值对所述损失函数进行调整,并返回所述获取样本图像以及所述样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
图9是根据本申请另一个实施例的图像深度信息获取模型的训练装置的结构示意图。
如图9所示,该图像深度信息获取模型的训练装置900,包括:第一获取模块910、第二获取模块920、识别模块930、确定模块940和生成模块950。
其中:识别模块930,包括:
第一获取子模块931,用于根据每个所述像素点的特征信息,获取每个所述像素点与其相邻点之间的特征相似度;
第二获取子模块932,用于根据所述特征相似度,获取每个所述像素点的邻接矩阵;
识别子模块933,用于根据每个所述像素点的初始深度信息和所述邻接矩阵,从所有所述像素点中识别出所述目标像素点。
其中,识别子模块933,包括:
更新单元9331,用于从每个所述像素点的初始深度信息起,根据所述像素点对应的所述邻接矩阵,对每个所述像素点的深度信息进行迭代更新;
确定单元9332,用于针对每个所述像素点,将累计迭代更新次数达到第一预设次数时的深度信息作为第一深度信息,并将累计迭代达到第二预设次数时的深度信息作为第二深度信息;
识别单元9333,用于根据所述第一深度信息和所述第二深度信息,从所有所述像素点中识别出所述目标像素点。
其中,识别单元9333,包括:
获取子单元93331,用于获取所述第一深度信息和所述第二深度信息的差值;
确定子单元93332,用于根据所述差值,从所有所述像素点中识别出所述差值是否大于或者等于预设差值阈值的点,并将其作为所述目标像素点。
其中,确定模块940,包括:
第一确定子模块941,用于根据所述差值,确定所述差值所处的差值区间;
第二确定子模块942,用于根据所述差值区间,确定所述目标像素点对应的所述权重值,其中,所述权重值与所述差值呈正相关。
其中,该图像深度信息获取模型的训练装置900,还包括:
第三获取模块960,用于获取待获取图像以及所述待获取图像对应的点云信息;
第四获取模块970,用于将所述待获取图像和所述点云信息输入至所述目标图像深度信息获取模型中,以获取所述待获取图像中每个所述像素点的目标深度信息。
需要说明的是,第一获取模块810、第二获取模块820和生成模块850与第一获取模块910、第二获取模块920和生成模块950具有相同功能和结构。
根据本申请实施例的图像深度信息获取模型的训练装置,可以获取样本图像以及对应的样本点云信息;将样本图像和样本点云信息输入图像深度信息获取模型中,获取每个像素点的初始深度信息和特征信息,并根据初始深度信息和特征信息,从所有像素点中识别出深度信息不稳定的目标像素点,然后根据目标像素点的深度信息,确定目标像素点对应的损失函数中的权重值,进而根据权重值对损失函数进行调整,并返回重新训练直至模型训练结束,生成目标图像深度信息获取模型,以实现图像深度信息获取模型的训练,充分利用了模型训练过程中深度信息不稳定的目标像素点的深度信息,准确地对模型中的损失函数的权重值进行调整,以使得训练好的模型输出的深度信息能够更加接近真实值,点云信息更加稠密,能够达到更高的实用要求,提高了模型训练过程中的有效性和可靠性。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如图像深度信息获取模型的训练方法。例如,在一些实施例中,图像深度信息获取模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的图像深度信息获取模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像深度信息获取模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程人物图像的修复装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网以及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务端可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务(“Virtual Private Server”,或简称“VPS”)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种图像深度信息获取模型的训练方法,包括:
获取样本图像以及所述样本图像对应的样本点云信息;
将所述样本图像和所述样本点云信息输入图像深度信息获取模型中,获取所述样本图像中每个像素点的初始深度信息和特征信息;
根据所述像素点的初始深度信息和所述特征信息,从所有所述像素点中识别出深度信息不稳定的目标像素点;
根据所述目标像素点的深度信息,确定所述目标像素点对应的所述图像深度信息获取模型的损失函数中的权重值;
根据所述权重值对所述损失函数进行调整,并返回所述获取样本图像以及所述样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
2.根据权利要求1所述的训练方法,其中,所述根据所述像素点的初始深度信息和所述特征信息,从所有所述像素点中识别出深度信息不稳定的目标像素点,包括:
根据每个所述像素点的特征信息,获取每个所述像素点与其相邻点之间的特征相似度;
根据所述特征相似度,获取每个所述像素点的邻接矩阵;
根据每个所述像素点的初始深度信息和所述邻接矩阵,从所有所述像素点中识别出所述目标像素点。
3.根据权利要求2所述的训练方法,其中,所述根据每个所述像素点的初始深度信息和所述邻接矩阵,从所有所述像素点中识别出所述目标像素点,包括:
从每个所述像素点的初始深度信息起,根据所述像素点对应的所述邻接矩阵,对每个所述像素点的深度信息进行迭代更新;
针对每个所述像素点,将累计迭代更新次数达到第一预设次数时的深度信息作为第一深度信息,并将累计迭代达到第二预设次数时的深度信息作为第二深度信息;
根据所述第一深度信息和所述第二深度信息,从所有所述像素点中识别出所述目标像素点。
4.根据权利要求3所述的训练方法,其中,所述根据所述第一深度信息和所述第二深度信息,从所有所述像素点中识别出所述目标像素点,包括:
获取所述第一深度信息和所述第二深度信息的差值;
根据所述差值,从所有所述像素点中识别出所述差值是否大于或者等于预设差值阈值的点,并将其作为所述目标像素点。
5.根据权利要求4所述的训练方法,其中,所述根据所述目标像素点的深度信息,确定所述目标像素点对应的所述图像深度信息获取模型的损失函数中的权重值,包括:
根据所述差值,确定所述差值所处的差值区间;
根据所述差值区间,确定所述目标像素点对应的所述权重值,其中,所述权重值与所述差值呈正相关。
6.根据权利要求1-5所述的训练方法,其中,还包括:
获取待获取图像以及所述待获取图像对应的点云信息;
将所述待获取图像和所述点云信息输入至所述目标图像深度信息获取模型中,以获取所述待获取图像中每个所述像素点的目标深度信息。
7.一种图像深度信息获取模型的训练装置,包括:
第一获取模块,用于获取样本图像以及所述样本图像对应的样本点云信息;
第二获取模块,用于将所述样本图像和所述样本点云信息输入图像深度信息获取模型中,获取所述样本图像中每个像素点的初始深度信息和特征信息;
识别模块,用于根据所述像素点的初始深度信息和所述特征信息,从所有所述像素点中识别出深度信息不稳定的目标像素点;
确定模块,用于根据所述目标像素点的深度信息,确定所述目标像素点对应的所述图像深度信息获取模型的损失函数中的权重值;
生成模块,用于根据所述权重值对所述损失函数进行调整,并返回所述获取样本图像以及所述样本图像对应的样本点云信息步骤重新训练直至模型训练结束,生成目标图像深度信息获取模型。
8.根据权利要求7所述的训练之中,其中,所述识别模块,包括:
第一获取子模块,用于根据每个所述像素点的特征信息,获取每个所述像素点与其相邻点之间的特征相似度;
第二获取子模块,用于根据所述特征相似度,获取每个所述像素点的邻接矩阵;
识别子模块,用于根据每个所述像素点的初始深度信息和所述邻接矩阵,从所有所述像素点中识别出所述目标像素点。
9.根据权利要求8所述的训练之中,其中,所述识别子模块,包括:
更新单元,用于从每个所述像素点的初始深度信息起,根据所述像素点对应的所述邻接矩阵,对每个所述像素点的深度信息进行迭代更新;
确定单元,用于针对每个所述像素点,将累计迭代更新次数达到第一预设次数时的深度信息作为第一深度信息,并将累计迭代达到第二预设次数时的深度信息作为第二深度信息;
识别单元,用于根据所述第一深度信息和所述第二深度信息,从所有所述像素点中识别出所述目标像素点。
10.根据权利要求9所述的训练之中,其中,所述识别单元,包括:
获取子单元,用于获取所述第一深度信息和所述第二深度信息的差值;
确定子单元,用于根据所述差值,从所有所述像素点中识别出所述差值是否大于或者等于预设差值阈值的点,并将其作为所述目标像素点。
11.根据权利要求10所述的训练装置,其中,所述确定模块,包括:
第一确定子模块,用于根据所述差值,确定所述差值所处的差值区间;
第二确定子模块,用于根据所述差值区间,确定所述目标像素点对应的所述权重值,其中,所述权重值与所述差值呈正相关。
12.根据权利要求7-11所述的训练装置,其中,还包括:
第三获取模块,用于获取待获取图像以及所述待获取图像对应的点云信息;
第四获取模块,用于将所述待获取图像和所述点云信息输入至所述目标图像深度信息获取模型中,以获取所述待获取图像中每个所述像素点的目标深度信息。
13.一种电子设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一所述的图像深度信息获取模型的训练方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的图像深度信息获取模型的训练方法。
15.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令处理器执行时实现如权利要求1-6中任一所述的图像深度信息获取模型的训练方法。
CN202110320859.0A 2021-03-25 2021-03-25 图像深度信息获取模型的训练方法、装置及电子设备 Active CN112862006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110320859.0A CN112862006B (zh) 2021-03-25 2021-03-25 图像深度信息获取模型的训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110320859.0A CN112862006B (zh) 2021-03-25 2021-03-25 图像深度信息获取模型的训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112862006A true CN112862006A (zh) 2021-05-28
CN112862006B CN112862006B (zh) 2024-02-06

Family

ID=75992887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110320859.0A Active CN112862006B (zh) 2021-03-25 2021-03-25 图像深度信息获取模型的训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112862006B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408661A (zh) * 2021-07-16 2021-09-17 北京百度网讯科技有限公司 误匹配确定方法、装置、设备和介质
CN113553904A (zh) * 2021-06-16 2021-10-26 北京百度网讯科技有限公司 人脸防伪模型的训练方法、装置及电子设备
CN113592932A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 深度补全网络的训练方法、装置、电子设备及存储介质
CN113674421A (zh) * 2021-08-25 2021-11-19 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
CN115880435A (zh) * 2022-12-21 2023-03-31 北京百度网讯科技有限公司 图像重建方法、模型训练方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037150A (zh) * 2020-09-07 2020-12-04 贝壳技术有限公司 孔洞修复模型训练及修复方法、装置、系统
GB202019743D0 (en) * 2020-06-26 2021-01-27 Beijing Baidu Netcom Sci & Tec Model training method and apparatus, and prediction method and apparatus
CN112541482A (zh) * 2020-12-25 2021-03-23 北京百度网讯科技有限公司 深度信息补全模型训练方法、装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB202019743D0 (en) * 2020-06-26 2021-01-27 Beijing Baidu Netcom Sci & Tec Model training method and apparatus, and prediction method and apparatus
CN112037150A (zh) * 2020-09-07 2020-12-04 贝壳技术有限公司 孔洞修复模型训练及修复方法、装置、系统
CN112541482A (zh) * 2020-12-25 2021-03-23 北京百度网讯科技有限公司 深度信息补全模型训练方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林杰;李如意;: "基于深度学习的图像识别处理", 网络安全技术与应用, no. 11 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553904A (zh) * 2021-06-16 2021-10-26 北京百度网讯科技有限公司 人脸防伪模型的训练方法、装置及电子设备
CN113553904B (zh) * 2021-06-16 2024-04-16 北京百度网讯科技有限公司 人脸防伪模型的训练方法、装置及电子设备
CN113592932A (zh) * 2021-06-28 2021-11-02 北京百度网讯科技有限公司 深度补全网络的训练方法、装置、电子设备及存储介质
CN113408661A (zh) * 2021-07-16 2021-09-17 北京百度网讯科技有限公司 误匹配确定方法、装置、设备和介质
CN113408661B (zh) * 2021-07-16 2022-02-18 北京百度网讯科技有限公司 误匹配确定方法、装置、设备和介质
CN113674421A (zh) * 2021-08-25 2021-11-19 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
CN113674421B (zh) * 2021-08-25 2023-10-13 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
CN115880435A (zh) * 2022-12-21 2023-03-31 北京百度网讯科技有限公司 图像重建方法、模型训练方法、装置、电子设备和介质
CN115880435B (zh) * 2022-12-21 2023-10-10 北京百度网讯科技有限公司 图像重建方法、模型训练方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN112862006B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN112862006B (zh) 图像深度信息获取模型的训练方法、装置及电子设备
CN113012210B (zh) 深度图的生成方法、装置、电子设备和存储介质
CN112949710A (zh) 一种图像的聚类方法和装置
CN113674421B (zh) 3d目标检测方法、模型训练方法、相关装置及电子设备
CN113361710B (zh) 学生模型训练方法、图片处理方法、装置及电子设备
CN113177472A (zh) 动态手势识别方法、装置、设备以及存储介质
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
CN114511661A (zh) 图像渲染方法、装置、电子设备及存储介质
CN113902696A (zh) 图像处理方法、装置、电子设备和介质
CN114926549B (zh) 三维点云处理方法、装置、设备以及存储介质
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
CN112561879A (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
CN115880435A (zh) 图像重建方法、模型训练方法、装置、电子设备和介质
CN116188893A (zh) 基于bev的图像检测模型训练及目标检测方法和装置
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN114299242A (zh) 高精地图中图像处理方法、装置、设备以及存储介质
CN114092708A (zh) 特征图像的处理方法、装置和存储介质
CN117746125A (zh) 图像处理模型的训练方法、装置及电子设备
CN113592932A (zh) 深度补全网络的训练方法、装置、电子设备及存储介质
CN114881227B (zh) 模型压缩方法、图像处理方法、装置和电子设备
CN113591969B (zh) 面部相似度评测方法、装置、设备以及存储介质
CN114494782B (zh) 图像处理方法、模型训练方法、相关装置及电子设备
CN113920273B (zh) 图像处理方法、装置、电子设备和存储介质
CN112861811B (zh) 目标识别方法、装置、设备、存储介质及雷达
CN114398434A (zh) 结构化信息抽取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant