CN111583321A - 图像处理装置、方法及介质 - Google Patents

图像处理装置、方法及介质 Download PDF

Info

Publication number
CN111583321A
CN111583321A CN201910124348.4A CN201910124348A CN111583321A CN 111583321 A CN111583321 A CN 111583321A CN 201910124348 A CN201910124348 A CN 201910124348A CN 111583321 A CN111583321 A CN 111583321A
Authority
CN
China
Prior art keywords
depth
image
confidence
input image
true
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910124348.4A
Other languages
English (en)
Inventor
田虎
李斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201910124348.4A priority Critical patent/CN111583321A/zh
Priority to JP2020018676A priority patent/JP2020135879A/ja
Publication of CN111583321A publication Critical patent/CN111583321A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Abstract

公开了一种图像处理装置、方法及介质,所述图像处理装置包括:第一训练单元,其使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;第二训练单元,其使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及第三训练单元,其使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。

Description

图像处理装置、方法及介质
技术领域
本公开涉及计算机视觉的技术领域,具体地涉及从单幅图像中进行深度估计的图像处理装置及方法。
背景技术
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。
从单幅图像中进行深度估计是计算机视觉领域非常重要的一个课题,其目的在于为图像中的每个像素点都分配一个深度。如果图像的深度信息能够被准确地估计出来,就可以得到场景中物体之间的空间位置信息,这对于进行场景理解和三维重建可以起到很大的帮助。
深度的估计通常通过有监督学习的方法来实现,也就是说需要图像和其对应的真实深度图来训练模型。卷积神经网络是进行有监督学习的非常有效的模型。这些年,基于卷积神经网络的方法极大地提升了深度估计的精度。然而,训练这些深度网络需要大量的有标签样本。即便有一些消费级的摄像头如Kinect可以用来直接获取场景的真实深度,但这仍需要大量的人力和时间。
发明内容
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。
为了解决获取真实深度数据成本较高的问题,本公开提出了一种基于置信度学习的半监督的深度估计方案。根据本公开的半监督深度估计的方案首先通过具有真实深度的数据训练一个置信度模型,该模型可以预测输入的深度是否是准确的置信度,输出的置信图中某位置的置信度越高表明该位置上的深度估计越接近真实深度。然后,对于不具有真实深度的数据,通过该置信度模型来预测其估计深度的置信度,并在深度图上选取置信度较高的位置处的估计深度作为伪真实深度。最后,在下轮迭代中,这些具有伪真实深度的数据和真实深度的数据一块训练深度估计的网络。与完全有监督的方案相比,在相同的具有真实深度的数据量的前提下,根据本公开的半监督方案能够获得更好的性能,从而一定程度上缓解对于大量真实深度的需求。
根据本公开的一方面,提供了一种图像处理装置,包括:第一训练单元,其使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;第二训练单元,其使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及第三训练单元,其使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
根据本公开的另一方面,提供了一种图像处理方法,包括:使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
根据本公开的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的图像处理方法。
根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有根据本公开的程序产品。
使用根据本公开的基于置信度学习的半监督方法可以预测估计深度的置信度,进而获取未标记数据的可信赖区域。并且,这些未标记数据与标记数据一起用于训练深度估计模型。与全监督方法相比,根据本公开的半监督方法可以获得更好的性能,从而减少了对大量标记训练数据的需求。
从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
图1为根据本公开的一个实施例的图像处理装置的框图;
图2为根据本公开的一个实施例的置信度模型训练的系统框架;
图3为根据本公开的一个实施例的图像处理方法的流程图;以及
图4为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。
虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。
提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
为了解决获取真实深度数据成本较高的问题,本公开提出了一种基于置信度学习的半监督的深度估计方法。半监督指的是在训练图像数据中,一部分图像具有真实深度,一部分图像不具有真实深度。
根据本公开的深度估计方法的总体构思是:首先通过具有真实深度的数据训练一个置信度模型,该置信度模型可以预测输入的深度是否是准确的置信度,其中,输出的置信图中某位置的置信度越高表明该位置上的深度估计越接近真实深度;然后,对于不具有真实深度的数据,通过该置信度模型来预测其估计深度的置信度,并在深度图上选取置信度较高的位置处的估计深度作为该不具有真实深度数据的伪真实深度;最后,在下轮迭代中,这些具有伪真实深度的数据和具有真实深度的数据一块训练深度估计的网络。
与完全有监督的方法相比,在相同的具有真实深度的数据量的前提下,根据本公开的半监督深度估计方法能够获得更好的性能,从而一定程度上缓解对于大量真实深度的需求。
根据本公开的一个实施例,提供了一种图像处理装置。所述图像处理装置包括:第一训练单元,其使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;第二训练单元,其使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及第三训练单元,其使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
如图1所述,根据本公开的图像处理装置100可以包括第一训练单元101、第二训练单元102以及第三训练单元103。
第一训练单元101可以使用有标签输入图像(具有真实深度的图像)来训练深度网络,以获得所述有标签输入图像的估计深度图像。接下来,第二训练单元102可以使用所述有标签的输入图像和所获得的估计深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述估计深度图像的估计深度接近真实深度的区域。然后,第三训练单元103可以使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述估计深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
如图2所示,根据本公开的图像处理装置可以用来训练两个网络:深度网络和置信度网络。深度网络的输入可以是例如彩色图像或者灰度图像,输出则是估计的深度图像。置信度网络的输入可以是彩色图像和估计的深度图像,输出则是置信度图像。在置信度图像中,每个位置上的置信度(例如0-1之间的数值)表示在估计的深度图像中该位置上的估计深度与其真实深度之间的相近程度。置信度越大则表示越相近即估计的深度越接近真实深度,反之,置信度越小则表示越不相近即估计的深度越不准确。换言之,置信度图像可以用作一种有监督的信息,对于不具有真实深度的图像,可以获得在其由深度网络输出的估计深度图像上,深度更接近其真实深度的位置。然后,可以将这些位置上的估计深度作为不具有真实深度图像的伪真实深度(亦即将这些伪真实深度视为所述不具有真实深度图像的真实深度),从而增加了深度估计中具有真实深度的训练样本。
根据本公开的一个实施例,所述第一训练单元101可以针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述深度网络。
换言之,所述第一训练单元101采用有监督学习,即针对所述有标签(具有真实深度)的输入图像来训练所述深度网络。深度网络的训练目标就是让其输出的深度等于输入图像的真实深度。
例如,根据本公开的一个实施例,所述第一训练单元101的有监督学习的损失函数
Figure BDA0001972166450000051
可以表示为估计深度和真实深度之间的欧式距离:
Figure BDA0001972166450000052
其中,n表示第n幅输入图像,p表示像素点的位置,Dn表示第n幅输入图像In的真实深度,En表示该第n幅输入图像In的估计深度。这里,本领域技术人员应该清楚,所述有监督学习的损失函数的定义仅是示例性的,本公开并不限于此。
然后,根据本公开的一个实施例,所述第二训练单元102可以针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述置信度网络。
这里,置信度网络的训练也是有监督学习。所述置信度网络输出的置信度能够反映由深度网络输出的估计深度的准确性。置信度越高对应估计的深度精度越高,反之,置信度越低对应估计的深度精度越低。为了实现这一目标,可以将真实的置信度Y由估计深度和真实深度之间的相对误差来表示:
Figure BDA0001972166450000053
其中,α是一常数,p表示像素点的位置,n表示第n幅输入图像,Dn表示第n幅输入图像In的真实深度,En表示该第n幅输入图像In的估计深度。这里,本领域技术人员应该清楚,真实置信度的表示仅是示例性的,本公开并不限于公式(2)。
根据本公开的一个实施例,像素点位置上的置信度(例如0-1之间的数值)可以表示在估计的深度图像中该像素点位置上的估计深度与其真实深度之间的相近程度。例如,第n幅输入图像在第p像素点的真实的置信度Yn(p)=1可以表示该幅图像该像素点的估计的深度等于真实的深度。换言之,根据本实施例,像素点位置上的置信度越接近1表示该像素点位置上的估计的深度越接近其真实深度。另外,本领域技术人员应该清楚。根据本公开的一个实施例,可以根据所述深度图像的估计深度和真实深度之间的相对误差来获得所述置信度网络的置信度图像。根据本公开的其他实施例,也可以利用绝对误差等其他表示方式,通常只要满足两个条件即可:置信度在0-1之间;且置信度与误差之间呈反比关系,换言之,误差越小置信度越大。那么,训练置信度网络的损失函数
Figure BDA0001972166450000061
可以表示为:
Figure BDA0001972166450000062
其中,n表示第n幅输入图像,p表示像素点的位置,而Cn为置信度网络输出的置信度图像。这里,本领域技术人员应该清楚,上述训练置信度网络的损失函数仅是示例性的,本公开并不限于此。
本领域技术人员清楚,深度估计通常采用有监督学习方式,亦即对应着在训练过程中具有真实深度的情形。而根据本公开的半监督学习方式的深度估计对应着部分训练数据不存在真实深度的情形。
根据本公开的一个实施例,可以通过所述置信度网络来预测所述无标签(不具有真实深度的)输入图像的置信度图像。
根据本实施例,置信度网络的训练可以使得所述置信度网络输出的置信度越来越接近真实的置信度,从而对于任意输入的估计深度图像(其不具有真实深度图像),可以得到其可靠的置信度图像。从置信度图像上可以判断估计的深度图像中深度是准确的位置,而这些位置处的估计的深度将用作为不具有真实深度图像的伪真实深度。亦即,将这些伪真实深度视为所述不具有真实深度图像的真实深度,从而增加了深度估计中具有真实深度的训练样本。
接下来,根据本公开的一个实施例,所述第三训练单元103可以同时优化所述有标签输入图像(具有真实深度的图像)和所述无标签输入图像(不具有真实深度的图像)的深度图像的估计深度与真实深度之间的距离。
换言之,本公开可以采用半监督(一部分训练数据不具有真实深度)的方法来训练深度网络,根据本公开的一个实施例,训练所述深度网络的损失函数
Figure BDA0001972166450000071
可以包含训练有监督训练的损失函数
Figure BDA0001972166450000072
以及半监督训练的损失函数
Figure BDA0001972166450000073
两项:
Figure BDA0001972166450000074
其中,λ是一个平衡两项权重的系数。本领域技术人员可以根据实际经验来设定该平衡系数。
根据本公开的半监督式的训练过程可以同时采用具有真实深度和不具有真实深度的数据进行训练,进而扩大了深度估计的训练样本。
由于上面已经对有监督训练进行了描述,以下将仅针对半监督训练中不同之处进行描述而不再对与有监督训练的相同之处进行赘述。
例如,针对不具有真实深度的输入图像Im,首先,可以通过深度网络获得其估计的深度图像
Figure BDA0001972166450000075
然后,通过训练好的置信度网络可以获得置信度图像Cm。从置信度图像Cm可以获得深度图像
Figure BDA0001972166450000076
中深度估计准确的位置。最后,将这些位置处的估计的深度作为不具有真实深度的输入图像Im的伪真实深度。
根据本公开的一个实施例,可以针对所述无标签(不具有真实深度的)输入图像的像素,将所述无标签输入图像的置信度图像中的大于预定阈值的区域的估计深度作为所述无标签输入图像的伪真实深度。
例如,本领域技术人员可以根据经验设定一个置信度的阈值T,然后可以获得置信度高于该阈值T的区域,并将其视为可信赖的区域,可以表示为二值化的掩模:
初始化:Bm=0,掩模生成:Bm(Cm>T)=1(5)。
由此,对于不具有真实深度的图像Im,通过该方法可以记录其基于掩模的深度估计结果
Figure BDA0001972166450000077
其中,在Bm等于1的位置上,将
Figure BDA0001972166450000078
在这些位置上的估计深度作为伪真实深度(即作为不具有真实深度图像的真实深度)。那么,基于半监督学习的损失函数
Figure BDA0001972166450000079
可以表示为掩模的欧式距离:
Figure BDA00019721664500000710
其中,m表示第m幅输入图像,p表示像素点的位置,Em为深度网络输出的估计深度。在优化该公式(6)时,
Figure BDA00019721664500000711
可以看作是常数。对于不具有真实深度的图像Im,其基于掩模的估计结果
Figure BDA00019721664500000712
在训练中是可以被不断更新的。随着深度网络和置信度网络的不断训练,深度估计结果和置信度估计结果也越来越准确,这也就意味着
Figure BDA0001972166450000081
的结果也会越来越准确,因此其需要在训练中被不断更新。换言之,当前迭代中记录的
Figure BDA0001972166450000082
被用于下一轮的半监督学习中。然而,本领域技术人员应该清楚,半监督训练的损失函数仅是示例性的,本公开并不限于此。
根据本公开的一个实施例,深度网络和置信度网络可以由多个具有卷积结构的网络来实现。整个训练步骤如下:
步骤1:进行有监督训练,其利用具有真实深度的数据,例如通过优化公式(1)来训练深度网络,并且同时例如通过优化公式(3)来训练置信度网络。该训练过程可以进行N1次迭代。
步骤2:记录基于掩模的伪真实深度,其中,对于不具有真实深度的数据Im,首先通过深度网络获取其估计深度图
Figure BDA0001972166450000083
然后通过置信度网络获取其置信图Cm,最后二值化Cm得到掩模Bm,并将
Figure BDA0001972166450000084
记录下来。
步骤3:进行半监督训练,其利用具有真实深度的数据以及记录的具有伪真实深度的数据,例如通过优化公式(4)来训练深度网络;并且利用具有真实深度的数据,例如通过优化公式(3)来训练置信度网络。该训练过程可以进行N2次迭代。
重复步骤2和步骤3N3次。
根据本公开的半监督式的方法可以同时采用具有真实深度和不具有真实深度的数据进行训练,进而扩大了深度估计的训练样本。
下面将结合图3来描述根据本公开的实施例的图像处理方法。如图3所示,根据本公开的实施例的图像处理方法开始于步骤S310。
在步骤S310中,使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像。
接下来,在步骤S320中,使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域。
然后,在步骤S330中,使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
根据本公开的一个实施例的图像处理方法还包括针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述深度网络的步骤。
根据本公开的一个实施例的图像处理方法还包括针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述置信度网络的步骤。
根据本公开的一个实施例的图像处理方法还包括根据所述深度图像的估计深度和真实深度之间的相对误差来获得所述置信度网络的置信度图像的步骤。
根据本公开的一个实施例的图像处理方法还包括通过所述置信度网络来预测所述无标签输入图像的置信度图像的步骤。
根据本公开的一个实施例的图像处理方法还包括针对所述无标签输入图像的像素,将所述无标签输入图像的置信度图像中的大于预定阈值的区域的估计深度作为所述无标签输入图像的伪真实深度的步骤。
根据本公开的一个实施例的图像处理方法还包括同时优化所述有标签输入图像和所述无标签输入图像的深度图像的估计深度与真实深度之间的距离的步骤。
根据本公开的一个实施例的图像处理方法,其中,所述有标签输入图像和所述无标签输入图像是单幅彩色图像。
根据本公开的实施例的图像处理方法的上述步骤的各种具体实施方式前面已经作过详细描述,在此不再重复说明。
显然,根据本公开的图像处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其他适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本公开的技术方案。
图4为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机1300的示例性结构的框图。
如图4所示,CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中,也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。
下述部件连接到输入/输出接口1305:输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要,驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上,使得从中读出的计算机程序根据需要被安装到存储部分1308中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在本公开的系统和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开,而并不构成对本公开的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此,本公开的范围仅由所附的权利要求及其等效含义来限定。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种图像处理装置,包括:
第一训练单元,其使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;
第二训练单元,其使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及
第三训练单元,其使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
附记2.根据附记1所述的装置,其中,所述第一训练单元针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述深度网络。
附记3.根据附记1所述的装置,其中,所述第二训练单元针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述置信度网络。
附记4.根据附记3所述的装置,其中,根据所述深度图像的估计深度和真实深度之间的相对误差来获得所述置信度网络的置信度图像。
附记5.根据附记1或附记4所述的装置,其中,通过所述置信度网络来预测所述无标签输入图像的置信度图像。
附记6.根据附记5所述的装置,其中,针对所述无标签输入图像的像素,将所述无标签输入图像的置信度图像中的大于预定阈值的区域的估计深度作为所述无标签输入图像的伪真实深度。
附记7.根据附记1所述的装置,其中,所述第三训练单元同时优化所述有标签输入图像和所述无标签输入图像的深度图像的估计深度与真实深度之间的距离。
附记8.根据附记1所述的装置,其中,所述有标签输入图像和所述无标签输入图像是单幅彩色图像。
附记9.一种图像处理方法,包括:
使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;
使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及
使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
附记10.根据附记9所述的方法,其中,针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述深度网络。
附记11.根据附记9所述的方法,其中,针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述置信度网络。
附记12.根据附记11所述的方法,其中,根据所述深度图像的估计深度和真实深度之间的相对误差来获得所述置信度网络的置信度图像。
附记13.根据附记9或附记12所述的方法,其中,通过所述置信度网络来预测所述无标签输入图像的置信度图像。
附记14.根据附记13所述的方法,其中,针对所述无标签输入图像的像素,将所述无标签输入图像的置信度图像中的大于预定阈值的区域的估计深度作为所述无标签输入图像的伪真实深度。
附记15.根据附记9所述的方法,其中,使用所述有标签输入图像和无标签输入图像一起训练所述深度网络包括同时优化所述有标签输入图像和所述无标签输入图像的深度图像的估计深度与真实深度之间的距离。
附记16.根据附记9所述的方法,其中,所述有标签输入图像和所述无标签输入图像是单幅彩色图像。
附记17.一种程序产品,包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记9-16中任何一项所述的方法。

Claims (10)

1.一种图像处理装置,包括:
第一训练单元,其使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;
第二训练单元,其使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及
第三训练单元,其使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
2.根据权利要求1所述的装置,其中,所述第一训练单元针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述深度网络。
3.根据权利要求1所述的装置,其中,所述第二训练单元针对所述有标签输入图像的像素,通过优化所述深度图像的估计深度与真实深度之间的距离来训练所述置信度网络。
4.根据权利要求3所述的装置,其中,根据所述深度图像的估计深度和真实深度之间的相对误差来获得所述置信度网络的置信度图像。
5.根据权利要求1或4所述的装置,其中,通过所述置信度网络来预测所述无标签输入图像的置信度图像。
6.根据权利要求5所述的装置,其中,针对所述无标签输入图像的像素,将所述无标签输入图像的置信度图像中的大于预定阈值的区域的估计深度作为所述无标签输入图像的伪真实深度。
7.根据权利要求1所述的装置,其中,所述第三训练单元同时优化所述有标签输入图像和所述无标签输入图像的深度图像的估计深度与真实深度之间的距离。
8.根据权利要求1所述的装置,其中,所述有标签输入图像和所述无标签输入图像是单幅彩色图像。
9.一种图像处理方法,包括:
使用有标签输入图像来训练深度网络,以获得所述有标签输入图像的深度图像;
使用所述有标签的输入图像和所获得的深度图像来训练置信度网络,以获得置信度图像,所述置信度图像指示所述深度图像的估计深度接近真实深度的区域;以及
使用所述有标签输入图像和无标签输入图像一起训练所述深度网络,其中,通过所述深度图像和所述置信度图像获得所述无标签输入图像的伪真实深度,并且将所述伪真实深度视为所述无标签输入图像的真实深度。
10.一种机器可读存储介质,其上携带有程序产品,所述程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据权利要求9所述的方法。
CN201910124348.4A 2019-02-19 2019-02-19 图像处理装置、方法及介质 Pending CN111583321A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910124348.4A CN111583321A (zh) 2019-02-19 2019-02-19 图像处理装置、方法及介质
JP2020018676A JP2020135879A (ja) 2019-02-19 2020-02-06 画像処理装置、方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910124348.4A CN111583321A (zh) 2019-02-19 2019-02-19 图像处理装置、方法及介质

Publications (1)

Publication Number Publication Date
CN111583321A true CN111583321A (zh) 2020-08-25

Family

ID=72116722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910124348.4A Pending CN111583321A (zh) 2019-02-19 2019-02-19 图像处理装置、方法及介质

Country Status (2)

Country Link
JP (1) JP2020135879A (zh)
CN (1) CN111583321A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738454A (zh) * 2020-08-28 2020-10-02 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备
CN112488104A (zh) * 2020-11-30 2021-03-12 华为技术有限公司 深度及置信度估计系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465737B (zh) * 2020-12-07 2023-11-07 中国工商银行股份有限公司 图像处理模型训练方法、图像处理方法及图像处理装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021224A (zh) * 2014-06-25 2014-09-03 中国科学院自动化研究所 基于逐层标签融合深度网络的图像标注方法
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN107194336A (zh) * 2017-05-11 2017-09-22 西安电子科技大学 基于半监督深度距离度量网络的极化sar图像分类方法
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN108596203A (zh) * 2018-03-13 2018-09-28 北京交通大学 并联池化层对受电弓碳滑板表面磨耗检测模型的优化方法
CN108596915A (zh) * 2018-04-13 2018-09-28 深圳市未来媒体技术研究院 一种基于无标注数据的医疗图像分割方法
CN108734291A (zh) * 2018-05-25 2018-11-02 电子科技大学 一种利用正确性反馈训练神经网络的伪标签生成器
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN109034205A (zh) * 2018-06-29 2018-12-18 西安交通大学 基于直推式半监督深度学习的图像分类方法
CN109035169A (zh) * 2018-07-19 2018-12-18 西安交通大学 一种无监督/半监督ct图像重建深度网络训练方法
CN109146847A (zh) * 2018-07-18 2019-01-04 浙江大学 一种基于半监督学习的晶圆图批量分析方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021224A (zh) * 2014-06-25 2014-09-03 中国科学院自动化研究所 基于逐层标签融合深度网络的图像标注方法
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN107194336A (zh) * 2017-05-11 2017-09-22 西安电子科技大学 基于半监督深度距离度量网络的极化sar图像分类方法
CN108596203A (zh) * 2018-03-13 2018-09-28 北京交通大学 并联池化层对受电弓碳滑板表面磨耗检测模型的优化方法
CN108596915A (zh) * 2018-04-13 2018-09-28 深圳市未来媒体技术研究院 一种基于无标注数据的医疗图像分割方法
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
CN108734291A (zh) * 2018-05-25 2018-11-02 电子科技大学 一种利用正确性反馈训练神经网络的伪标签生成器
CN109034205A (zh) * 2018-06-29 2018-12-18 西安交通大学 基于直推式半监督深度学习的图像分类方法
CN109146847A (zh) * 2018-07-18 2019-01-04 浙江大学 一种基于半监督学习的晶圆图批量分析方法
CN109035169A (zh) * 2018-07-19 2018-12-18 西安交通大学 一种无监督/半监督ct图像重建深度网络训练方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DONG-HYUN LEE: "Pseudo-Label:The Simple and Efficent Semi-Supervised Learning Method for Deep Neural Networks" *
卢忱;王晶;: "一种基于自动标签机制的行为识别模型迁移方法" *
戴鹏;王胜春;杜馨瑜;韩强;王昊;任盛伟;: "基于半监督深度学习的无砟轨道扣件缺陷图像识别方法" *
景陈勇;詹永照;姜震;: "基于混合式协同训练的人体动作识别算法研究" *
李帷韬;陶海;吴四茜;王建平;徐晓冰;: "基于深度学习的青梅品级半监督智能认知方法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738454A (zh) * 2020-08-28 2020-10-02 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备
CN111738454B (zh) * 2020-08-28 2020-11-27 腾讯科技(深圳)有限公司 一种目标检测方法、装置、存储介质及设备
CN112488104A (zh) * 2020-11-30 2021-03-12 华为技术有限公司 深度及置信度估计系统
CN112488104B (zh) * 2020-11-30 2024-04-09 华为技术有限公司 深度及置信度估计系统

Also Published As

Publication number Publication date
JP2020135879A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
CN110929780B (zh) 视频分类模型构建、视频分类的方法、装置、设备及介质
CN108154222B (zh) 深度神经网络训练方法和系统、电子设备
CN108133222B (zh) 为数据库确定卷积神经网络cnn模型的装置和方法
CN108229287B (zh) 图像识别方法和装置、电子设备和计算机存储介质
CN110570433B (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
CN111583321A (zh) 图像处理装置、方法及介质
CN113469186B (zh) 一种基于少量点标注的跨域迁移图像分割方法
US11605156B2 (en) Iterative image inpainting with confidence feedback
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN112346126B (zh) 低级序断层的识别方法、装置、设备及可读存储介质
CN115880533A (zh) 基于自适应子集搜索和深度学习的桥梁表观裂缝识别方法
CN113327265B (zh) 一种基于指导学习策略的光流估计方法和系统
CN115082840A (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN105335935B (zh) 图像处理装置和方法
CN114078197A (zh) 一种基于支撑样本特征增强的小样本目标检测方法及装置
CN110414845B (zh) 针对目标交易的风险评估方法及装置
CN115937870A (zh) 字符级文本检测模型的训练方法及装置、介质、终端
CN114510592A (zh) 图像分类方法、装置、电子设备及存储介质
CN108875630B (zh) 一种基于视频的雨天环境下移动目标检测方法
CN115827876B (zh) 未标注文本的确定方法、装置和电子设备
CN115546780B (zh) 车牌识别方法、模型及装置
CN113537295B (zh) 基于离群点引导的视线估计跨场景适配方法和装置
JP2023120158A (ja) 画像処理装置、画像処理方法及び機器読み取り可能な記憶媒体
CN115393752A (zh) 视频图像数据的处理方法及装置
CN116824299A (zh) 一种交通基础设施裂缝图像数据增广方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination