CN113066001A - 一种图像处理方法及相关设备 - Google Patents
一种图像处理方法及相关设备 Download PDFInfo
- Publication number
- CN113066001A CN113066001A CN202110218462.0A CN202110218462A CN113066001A CN 113066001 A CN113066001 A CN 113066001A CN 202110218462 A CN202110218462 A CN 202110218462A CN 113066001 A CN113066001 A CN 113066001A
- Authority
- CN
- China
- Prior art keywords
- image frame
- sub
- current image
- region
- pixel point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000033001 locomotion Effects 0.000 claims abstract description 168
- 238000012545 processing Methods 0.000 claims abstract description 121
- 238000000034 method Methods 0.000 claims abstract description 96
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000013528 artificial neural network Methods 0.000 claims description 92
- 230000015654 memory Effects 0.000 claims description 73
- 230000008859 change Effects 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 10
- 230000003287 optical effect Effects 0.000 claims description 10
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 35
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000012549 training Methods 0.000 description 74
- 230000008569 process Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 30
- 239000011159 matrix material Substances 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 16
- 238000004091 panning Methods 0.000 description 11
- 230000001537 neural effect Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 8
- 239000000872 buffer Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 230000000306 recurrent effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000012886 linear function Methods 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了人工智能领域中的计算机视觉技术的一种图像处理方法及相关设备,可对当前图像帧的背景区域进行不同程度的模糊处理,从而使得当前图像帧的背景区域具备层次化的模糊效果,即具备更加真实的模糊效果。本申请的方法包括:获取当前图像帧的背景区域的深度信息;根据深度信息将背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同;在多个子区域中,获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况;根据每个子区域的运动矢量对该子区域进行模糊处理。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法及相关设备。
背景技术
摇摄是指对运动中的目标物体进行追踪的拍摄方式,通过该拍摄方式得到的图像,可呈现出清晰的前景区域(包含目标物体)和模糊的背景区域。用户使用终端设备实现摇摄时,通常需要把握好快门速度,若快门速度过高,会导致图像的背景区域不具备明显的模糊效果,若快门速度过慢,会导致图像的前景区域不够清晰。
鉴于摇摄的操作难度以及不可控性,用户可通过终端设备以较高的快门速度获取一组图像帧(由于快门速度过高,故这组图像帧的背景区域不具备明显的模糊效果),再对其进行处理。具体地,设该组图像帧包含按时间排序的三个图像帧(以其中任意一个图像帧为当前图像帧),终端设备可先将这三个图像帧基于目标物体进行对齐,并在相邻的图像帧之间进行插帧,从而得到更多的图像帧。然后,终端设备将原始的图像帧以及插入的图像帧进行帧混合,使得当前图像帧的背景区域具备模糊效果。
在上述过程中,由于帧混合技术的局限性,若进行帧混合的图像帧数量较少,往往会导致当前图像帧的背景区域的模糊效果不够真实,如背景区域出现重影、虚化等现象。
发明内容
本申请实施例提供了一种图像处理方法及相关设备,可对当前图像帧的背景区域进行不同程度的模糊处理,从而使得当前图像帧的背景区域具备层次化的模糊效果,即具备更加真实的模糊效果。
本申请实施例的第一方面提供了一种图像处理方法,该方法包括:
当用户需要对运动中的目标物体进行摇摄时,可通过终端设备的摄像头以较高的快门速度获取一组连续的图像帧。在该组图像帧中,每个图像帧均包含前景区域以及背景区域,其中,前景区域和背景区域均包含(呈现)有被摄物体,前景区域包含的被摄物体一般为用户关注的目标物体,则背景区域包含的被摄物体为用户不关注的非目标物体。
由于该组图像帧的背景区域不具备明显的模糊效果,故终端设备需对其进行处理。在该组图像帧中,终端设备可挑选其中一个图像帧作为待处理的图像帧,即当前图像帧。接着,终端设备可获取当前图像帧的背景区域的深度信息,当前图像帧的背景区域的深度信息用于指示背景区域包含的各个被摄物体到摄像头的距离,即这些被摄物体在实际环境(三维空间)中的位置到摄像头的距离。
值得注意的是,不同被摄物体到摄像头的距离不同,例如,当前图像帧中,前景区域包含行驶中的车辆,背景区域包含车辆后方的树以及树后方的房子,故树到摄像头的距离以及房子到摄像头的距离不同。因此,终端设备可根据当前图像帧的背景区域的深度信息,将当前图像帧的背景区域划分为多个子区域,依旧如前述例子,可将当前图像真的背景区域划分为两个子区域,一个子区域包含车辆后方的树,另一个子区域包含树后方的房子。如此一来,不同子区域对应(包含)的被摄物体到摄像头的距离不同。
最后,终端设备对不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧。
从上述方法可以看出:终端设备在获取当前图像帧的背景区域的深度信息后,则根据深度信息将背景区域划分为多个子区域。由于不同的子区域对应的被摄物体到摄像头的距离不同,导致不同的子区域相对于前一图像帧的运动情况也不同。因此,终端设备可对不同的子区域进行不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
在一种可能的实现方式中,当前图像帧的背景区域的深度信息包括当前图像帧的背景区域中每个像素点的深度值,根据深度信息将背景区域划分为多个子区域具体包括:根据当前图像帧的背景区域中每个像素点的深度值,确定当前图像帧的背景区域中每个像素点的深度变化率,每个像素点的深度变化率根据该像素点的深度值以及该像素点周围的其余像素点的深度值确定;根据每个像素点的深度变化率以及预置的变化率阈值,将背景区域划分为多个子区域。前述实现方式中,对于当前图像帧的背景区域中的任意一个像素点,该像素点的深度值用于指示该像素点在实际环境中的对应位置到摄像头的距离。因此,终端设备可根据每个像素点的深度值以及该像素点周围的其余像素点的深度值,确定该像素点的深度变化率,该像素点的深度变化率用于指示该像素点在实际环境中的对应位置到摄像头的距离,与周围像素点在实际环境中的对应位置到摄像头的距离之间的差值。那么,终端设备得到当前图像帧的背景区域中所有像素点的深度变化率后,可按深度变化率的大小,准确地将当前图像帧的背景区域划分为多个子区域,不同子区域对应的被摄物体到摄像头的距离不同。
在一种可能的实现方式中,对不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧具体包括:在多个子区域中,获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况;根据每个子区域的运动矢量对该子区域进行模糊处理,得到处理后的当前图像帧。前述实现方式中,摄像头在追踪目标物体时,一般会发生旋转或者平移。当摄像头在移动中进行拍摄时,不同远近的被摄物体相对于摄像头的运动情况(也可理解为移动程度)不同,例如,较近的被摄物体的移动程度较大,较远的被摄物体的移动程度较小,这一情况被呈现在摄像头所拍摄的连续图像帧中。具体地,在当前图像帧的背景区域的多个子区域中,由于不同子区域对应的被摄物体到摄像头的距离不同,故不同子区域对应的被摄物体相对于摄像头的运动情况不同。因此,以当前图像帧的前一图像帧为参考基准,当前图像帧的背景区域的不同子区域相对于前一图像帧的运动情况不同,例如,设当前图像帧的背景区域包含两个子区域A和B。那么,子区域A从前一图像帧到当前图像帧的运动情况,与子区域B从前一图像帧到当前图像帧的运动情况不同。为了确定当前图像帧的背景区域中每个子区域的运动情况,终端设备可获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况。然后,终端设备根据每个子区域的运动矢量对该子区域进行模糊处理。完成所有子区域的模糊处理后,当前图像帧的背景区域可具备真实的模糊效果。
从该实现方式可以看出:终端设备在获取当前图像帧的背景区域的深度信息后,则根据深度信息将背景区域划分为多个子区域。由于不同的子区域对应的被摄物体到摄像头的距离不同,导致不同的子区域相对于前一图像帧的运动情况也不同。因此,终端设备可获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况。由于不同的子区域的运动情况不同,即不同的子区域的运动矢量不同,故终端设备可根据每个子区域的运动矢量对该子区域进行模糊处理,即终端设备可根据不同子区域的运动情况,对不同的子区域进行不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
在一种可能的实现方式中,每个子区域的运动矢量包含该子区域的运动速度以及该子区域的运动方向,在多个子区域中,获取每个子区域的运动矢量包括:对于多个子区域中的每个子区域,终端设备可根据该子区域中至少一个目标像素点从前一图像帧到当前图像帧的运动速度,确定该子区域的运动速度,例如,终端设备可根据这部分目标像素点的运动速度的平均值作为该子区域的运动速度。进一步地,终端设备还可根据至少一个目标像素点从前一图像帧到当前图像帧的运动方向,确定该子区域的运动方向,例如,这部分目标像素点的运动方向通常是相同的,故终端设备这部分目标像素点的运动方向作为该子区域的运动方向。通过前述实现方式,终端设备可以较为准确地估计出每个子区域的运动速度以及运动方向,即较为准确地估计出每个子区域相对于前一图像帧的运动情况。
在一种可能的实现方式中,根据每个子区域的运动矢量对该子区域进行模糊处理具体包括:对于每个子区域,根据该子区域的运动速度以及该子区域的运动方向构建该子区域对应的卷积核;通过该子区域对应的卷积核对该子区域进行卷积处理。前述实现方式中,由于不同子区域的运动矢量不同(一般地,不同子区域的运动速度不同,不同子区域的运动方向相同),故基于不同子区域的运动矢量可构建不同子区域对应的卷积核,并利用不同子区域对应的卷积核对相应的子区域进行卷积处理,从而对不同的子区域实现不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
在一种可能的实现方式中,至少一个目标像素点为角点。前述实现方式中,某个子区域中的目标像素点一般为该子区域中的角点,由于角点的特征比较明显,故该子区域中的角点的运动情况更能代表该子区域的运动情况。
在一种可能的实现方式中,至少一个目标像素点的运动速度和运动方向通过光流法获取。前述实现方式中,终端设备可通过光流法确定目标像素点从前一图像帧到当前图像帧的运动距离、目标像素点在前一图像帧中的位置以及目标像素点在当前图像帧中的位置。如此一来,终端设备可基于目标像素点从前一图像帧到当前图像帧的运动距离确定目标像素点的运动速度,并基于目标像素点在前一图像帧中的位置以及目标像素点在当前图像帧中的位置确定目标像素点的运动方向。
在一种可能的实现方式中,获取当前图像帧的背景区域的深度信息具体包括:获取当前图像帧中每个像素点的深度值以及当前图像帧的背景区域;从当前图像帧中所有像素点的深度值中,确定当前图像帧的背景区域中每个像素点的深度值。前述实现方式中,当前图像帧包括前景区域和背景区域,终端设备可对当前图像帧进行区域分割,得到当前图像帧的背景区域。进一步地,终端设备还可获取当前图像帧中所有像素点的深度值,并从中确定当前图像帧的背景区域中每个像素点的深度值,以利用这部分深度值将当前图像帧的背景区域划分为多个子区域。
在一种可能的实现方式中,获取当前图像帧中每个像素点的深度值具体包括:通过第一神经网络获取当前图像帧中每个像素点的深度值。前述实现方式中,通过第一神经网络可对当前图像帧进行准确的单目深度估计,从而得到当前图像帧中所有像素点的深度值。
在一种可能的实现方式中,摄像头为深度摄像头,获取当前图像帧中每个像素点的深度值具体包括:通过深度摄像头获取当前图像帧中每个像素点的深度值。前述实现方式中,通过深度摄像头可准确获取当前图像帧中所有像素点的深度值。
在一种可能的实现方式中,获取当前图像帧的背景区域具体包括:通过第二神经网络获取当前图像帧的背景区域。前述实现方式中,通过第二神经网络可对当前图像帧进行准确的显著目标检测,从而将当前图像帧的前景区域和背景区域区分开来,得到当前图像帧的背景区域。
在一种可能的实现方式中,深度摄像头为飞行时间(time of flight,TOF)摄像头或结构光摄像头。
在一种可能的实现方式中,第一神经网络或第二神经网络为多层感知机、卷积神经网络、递归神经网络以及循环神经网络中的任意一种。
本申请实施例的第二方面提供了一种模型训练方法,该方法包括:通过第一待训练模型获取待训练图像帧中每个像素点的深度值;通过预置的目标损失函数,计算待训练图像帧中每个像素点的深度值以及待训练图像帧中每个像素点的真实深度值之间的偏差;根据该偏差对第一待训练模型的参数进行更新,直至满足模型训练条件,得到第一神经网络。
从上述方法可以看出:通过该方法训练得到的第一神经网络,可对任意一个图像帧进行准确的单目深度估计,从而得到该图像帧中所有像素点的深度值。
本申请实施例的第三方面提供了一种模型训练方法,该方法包括:通过第二待训练模型获取待训练图像帧的背景区域;通过预置的目标损失函数,计算待训练图像帧的背景区域以及待训练图像帧的真实背景区域之间的偏差;根据该偏差对第二待训练模型的参数进行更新,直至满足模型训练条件,得到第二神经网络。
从上述方法可以看出:通过该方法训练得到的第二神经网络,可对任意一个图像帧进行准确的显著目标检测,从而得到该图像帧的背景区域。
本申请实施例的第四方面提供了一种图像处理装置,该装置即为前述的终端设备,该装置包括:获取模块,用于获取待训练图像帧的背景区域的深度信息;划分模块,用于根据深度信息将背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同,该摄像头用于拍摄当前图像帧;处理模块,用于对不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧。
从上述装置可以看出:终端设备在获取当前图像帧的背景区域的深度信息后,则根据深度信息将背景区域划分为多个子区域。由于不同的子区域对应的被摄物体到摄像头的距离不同,导致不同的子区域相对于前一图像帧的运动情况也不同。因此,终端设备可对不同的子区域进行不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
在一种可能的实现方式中,当前图像帧的背景区域的深度信息包括当前图像帧的背景区域中每个像素点的深度值,划分模块具体用于:根据当前图像帧的背景区域中每个像素点的深度值,确定当前图像帧的背景区域中每个像素点的深度变化率,每个像素点的深度变化率根据该像素点的深度值以及该像素点周围的其余像素点的深度值确定;根据每个像素点的深度变化率以及预置的变化率阈值,将背景区域划分为多个子区域。
在一种可能的实现方式中,处理模块具体用于:在多个子区域中,获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况;根据每个子区域的运动矢量对该子区域进行模糊处理,得到处理后的当前图像帧。
在一种可能的实现方式中,处理模块具体用于:对于多个子区域中的每个子区域,根据该子区域中至少一个目标像素点从前一图像帧到当前图像帧的运动速度,确定该子区域的运动速度;根据至少一个目标像素点从前一图像帧到当前图像帧的运动方向,确定该子区域的运动方向。
在一种可能的实现方式中,处理模块具体用于:对于每个子区域,根据该子区域的运动速度以及该子区域的运动方向构建该子区域对应的卷积核;通过该子区域对应的卷积核对该子区域进行卷积处理。
在一种可能的实现方式中,至少一个目标像素点为角点。
在一种可能的实现方式中,至少一个目标像素点的运动速度和运动方向通过光流法获取。
在一种可能的实现方式中,获取模块具体用于:获取当前图像帧中每个像素点的深度值以及当前图像帧的背景区域;从当前图像帧中所有像素点的深度值中,确定当前图像帧的背景区域中每个像素点的深度值。
在一种可能的实现方式中,获取模块具体用于通过第一神经网络获取当前图像帧中每个像素点的深度值。
在一种可能的实现方式中,摄像头为深度摄像头,获取模块具体用于通过深度摄像头获取当前图像帧中每个像素点的深度值。
在一种可能的实现方式中,获取模块具体用于通过第二神经网络获取当前图像帧的背景区域。
在一种可能的实现方式中,深度摄像头为TOF摄像头或结构光摄像头。
在一种可能的实现方式中,第一神经网络或第二神经网络为多层感知机、卷积神经网络、递归神经网络以及循环神经网络中的任意一种。
本申请实施例的第五方面提供了一种模型训练装置,该装置包括:获取模块,用于通过第一待训练模型获取待训练图像帧中每个像素点的深度值;计算模块,用于通过预置的目标损失函数,计算待训练图像帧中每个像素点的深度值以及待训练图像帧中每个像素点的真实深度值之间的偏差;更新模块,用于根据该偏差对第一待训练模型的参数进行更新,直至满足模型训练条件,得到第一神经网络。
从上述装置可以看出:通过该装置训练得到的第一神经网络,可对任意一个图像帧进行准确的单目深度估计,从而得到该图像帧中所有像素点的深度值。
本申请实施例的第六方面提供了一种模型训练装置,该装置包括:获取模块,用于通过第二待训练模型获取待训练图像帧的背景区域;计算模块,用于通过预置的目标损失函数,计算待训练图像帧的背景区域以及待训练图像帧的真实背景区域之间的偏差;更新模块,用于根据该偏差对第二待训练模型的参数进行更新,直至满足模型训练条件,得到第二神经网络。
从上述装置可以看出:通过该装置训练得到的第二神经网络,可对任意一个图像帧进行准确的显著目标检测,从而得到该图像帧的背景区域。
本申请实施例的第七方面提供了一种图像处理装置,该装置包括存储器和处理器;存储器存储有代码,处理器被配置为执行代码,当代码被执行时,图像处理装置执行如第一方面或第一方面中任意一种可能的实现方式所述的方法。
本申请实施例的第八方面提供了一种模型训练装置,该装置包括存储器和处理器;存储器存储有代码,处理器被配置为执行代码,当代码被执行时,模型训练装置执行如第二方面或第三方面所述的方法。
本申请实施例第九方面提供了一种电路系统,该电路系统包括处理电路,该处理电路配置为执行如第一方面、第一方面中任意一种可能的实现方式、第二方面或第三方面所述的方法。
本申请第十方面提供了一种芯片系统,该芯片系统包括处理器,用于调用存储器中存储的计算机程序或计算机指令,以使得该处理器执行如第一方面、第一方面中任意一种可能的实现方式、第二方面或第三方面所述的方法。
在一种可能的实现方式中,该处理器通过接口与存储器耦合。
在一种可能的实现方式中,该芯片系统还包括存储器,该存储器中存储有计算机程序或计算机指令。
本申请实施例的第十一方面提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该程序在由计算机执行时,使得计算机实施如第一方面、第一方面中任意一种可能的实现方式、第二方面或第三方面所述的方法。
本申请实施例第十二方面提供了一种计算机程序产品,该计算机程序产品存储有指令,该指令在由计算机执行时,使得计算机实施如第一方面、第一方面中任意一种可能的实现方式、第二方面或第三方面所述的方法。
本申请实施例中,终端设备在获取当前图像帧的背景区域的深度信息后,则根据深度信息将背景区域划分为多个子区域。由于不同的子区域对应的被摄物体到摄像头的距离不同,导致不同的子区域相对于前一图像帧的运动情况也不同。因此,终端设备可获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况。由于不同的子区域的运动情况不同,即不同的子区域的运动矢量不同,故终端设备可根据每个子区域的运动矢量对该子区域进行模糊处理,即终端设备可根据不同子区域的运动情况,对不同的子区域进行不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
附图说明
图1为人工智能主体框架的一种结构示意图;
图2a为本申请实施例提供的图像处理系统的一个结构示意图;
图2b为本申请实施例提供的图像处理系统的另一结构示意图;
图2c为本申请实施例提供的图像处理的相关设备的一个示意图;
图3a是本申请实施例提供的系统100架构的一个示意图;
图3b为摇摄镜头的一个示意图;
图4为本申请实施例提供的图像处理方法的一个流程示意图;
图5为本申请实施例提供的图像处理方法的一个应用场景示意图;
图6为本申请实施例提供的图像处理方法的应用例的一个示意图;
图7为本申请实施例提供的图像处理方法的应用例的另一示意图;
图8为本申请实施例提供的模型训练方法的一个流程示意图;
图9为本申请实施例提供的模型训练方法的另一流程示意图;
图10为本申请实施例提供的图像处理装置的一个结构示意图;
图11为本申请实施例提供的模型训练装置的一个结构示意图;
图12为本申请实施例提供的模型训练装置的另一结构示意图;
图13为本申请实施例提供的执行设备的一个结构示意图;
图14为本申请实施例提供的训练设备的一个结构示意图;
图15为本申请实施例提供的芯片的一个结构示意图。
具体实施方式
本申请实施例提供了一种图像处理方法及相关设备,可对当前图像帧的背景区域进行不同程度的模糊处理,从而使得当前图像帧的背景区域具备层次化的模糊效果,即具备更加真实的模糊效果。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
摇摄是指对运动中的目标物体进行追踪的拍摄方式,通过该拍摄方式得到的图像,可呈现出清晰的前景区域(包含目标物体)和模糊的背景区域。然而,摇摄通常具备一定的操作难度以及不可控性。为了得到较为理想的摇摄镜头,用户可通过终端设备以较高的快门速度获取一组图像帧(由于快门速度过高,故这组图像帧的背景区域不具备明显的模糊效果),再通过帧混合技术对当前图像帧(即该组图像帧中的任意一个图像帧)进行处理,从而使得当前图像帧的背景区域具备模糊效果。
由于帧混合技术的局限性,若进行帧混合的图像帧数量较少,往往会导致当前图像帧的背景区域的模糊效果不够真实,如背景区域出现重影、虚化等现象。
为了解决上述问题,本申请提供了一种图像处理方法,该方法可结合人工智能(artificial intelligence,AI)技术实现。AI技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能的技术学科,AI技术通过感知环境、获取知识并使用知识获得最佳结果。换句话说,人工智能技术是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。利用人工智能进行图像处理是人工智能常见的一个应用方式。
首先对人工智能系统总体工作流程进行描述,请参见图1,图1为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、平安城市等。
接下来介绍几种本申请的应用场景。
图2a为本申请实施例提供的图像处理系统的一个结构示意图,该图像处理系统包括用户设备以及数据处理设备。其中,用户设备包括手机、个人电脑或者信息处理中心等智能终端。用户设备为图像处理的发起端,作为图像处理请求的发起方,通常由用户通过用户设备发起请求。
上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的图像处理请求,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习,深度学习,搜索,推理,决策等方式的图像处理。数据处理设备中的存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,数据库可以在数据处理设备上,也可以在其它网络服务器上。
在图2a所示的图像处理系统中,用户设备可以接收用户的指令,例如用户设备可以获取用户输入/选择的一张图像,然后向数据处理设备发起请求,使得数据处理设备针对用户设备得到的该图像执行图像处理应用(例如,图像深度估计、图像目标检测、图像模糊处理等等),从而得到针对该图像的对应的处理结果。示例性的,用户设备可以获取用户输入的一张图像,然后向数据处理设备发起图像深度估计请求,使得数据处理设备对该图像进行单目深度估计,从而得到图像的深度信息。
在图2a中,数据处理设备可以执行本申请实施例的图像处理方法。
图2b为本申请实施例提供的图像处理系统的另一结构示意图,在图2b中,用户设备直接作为数据处理设备,该用户设备能够直接获取来自用户的输入并直接由用户设备本身的硬件进行处理,具体过程与图2a相似,可参考上面的描述,在此不再赘述。
在图2b所示的图像处理系统中,用户设备可以接收用户的指令,例如用户设备可以获取用户在用户设备中所选择的一张图像,然后再由用户设备自身针对该图像执行图像处理应用(例如图像深度估计、图像目标检测、图像模糊处理等),从而得到针对该图像的对应的处理结果。
在图2b中,用户设备自身就可以执行本申请实施例的图像处理方法。
图2c为本申请实施例提供的图像处理的相关设备的一个示意图。
上述图2a和图2b中的用户设备具体可以是图2c中的本地设备301或者本地设备302,图2a中的数据处理设备具体可以是图2c中的执行设备210,其中,数据存储系统250可以存储执行设备210的待处理数据,数据存储系统250可以集成在执行设备210上,也可以设置在云上或其它网络服务器上。
图2a和图2b中的处理器可以通过神经网络模型或者其它模型(例如,基于支持向量机的模型)进行数据训练/机器学习/深度学习,并利用数据最终训练或者学习得到的模型针对图像执行图像处理应用,从而得到相应的处理结果。
图3a是本申请实施例提供的系统100架构的一个示意图,在图3a中,执行设备110配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,所述输入数据在本申请实施例中可以包括:各个待调度任务、可调用资源以及其他参数。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理(比如进行本申请中神经网络的功能实现)过程中,执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统150中。
最后,I/O接口112将处理结果返回给客户设备140,从而提供给用户。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的目标模型/规则,该相应的目标模型/规则即可以用于实现上述目标或完成上述任务,从而为用户提供所需的结果。其中,训练数据可以存储在数据库130中,且来自于数据采集设备160采集的训练样本。
在图3a中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,图3a仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在图3a中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。如图3a所示,可以根据训练设备120训练得到神经网络。
本申请实施例还提供的一种芯片,该芯片包括神经网络处理器NPU。该芯片可以被设置在如图3a所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图3a所示的训练设备120中,用以完成训练设备120的训练工作并输出目标模型/规则。
神经网络处理器NPU,NPU作为协处理器挂载到主中央处理器(centralprocessing unit,CPU)(host CPU)上,由主CPU分配任务。NPU的核心部分为运算电路,控制器控制运算电路提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路内部包括多个处理单元(process engine,PE)。在一些实现中,运算电路是二维脉动阵列。运算电路还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)中。
向量计算单元可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元可以用于神经网络中非卷积/非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(localresponse normalization)等。
在一些实现种,向量计算单元能将经处理的输出的向量存储到统一缓存器。例如,向量计算单元可以将非线性函数应用到运算电路的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器(direct memory access controller,DMAC)将外部存储器中的输入数据搬运到输入存储器和/或统一存储器、将外部存储器中的权重数据存入权重存储器,以及将统一存储器中的数据存入外部存储器。
总线接口单元(bus interface unit,BIU),用于通过总线实现主CPU、DMAC和取指存储器之间进行交互。
与控制器连接的取指存储器(instruction fetch buffer),用于存储控制器使用的指令;
控制器,用于调用指存储器中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器,输入存储器,权重存储器以及取指存储器均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory,DDRSDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
神经网络中的每一层的工作可以用数学表达式y=a(Wx+b)来描述:从物理层面神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作,完成输入空间到输出空间的变换(即矩阵的行空间到列空间),这五种操作包括:1、升维/降维;2、放大/缩小;3、旋转;4、平移;5、“弯曲”。其中1、2、3的操作由Wx完成,4的操作由+b完成,5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物,而是一类事物,空间是指这类事物所有个体的集合。其中,W是权重向量,该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换,即每一层的权重W控制着如何变换空间。训练神经网络的目的,也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此,神经网络的训练过程本质上就是学习控制空间变换的方式,更具体的就是学习权重矩阵。
因为希望神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到神经网络能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么神经网络的训练就变成了尽可能缩小这个loss的过程。
(2)反向传播算法
神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
(3)摇摄
摇摄是指一种利用慢速快门跟踪目标物体的拍摄手法,具体做法是将摄像头跟着运动中的目标物体,以相对接近的速度,做同方向摇动并进行拍摄,该技巧主要用于运动题材摄影。摇摄镜头指的是采用前述拍摄手法拍摄到的图像,此类图像可以呈现一种背景动态模糊的艺术效果,即此类图像的前景区域(包含目标物体)清晰而背景区域模糊。如图3b所示(图3b为摇摄镜头的一个示意图),该摇摄镜头中,前景区域(即行驶中的汽车)是清晰的,而背景区域(即汽车附近的周围环境和其余物体)则是模糊的。
下面从神经网络的训练侧和神经网络的应用侧对本申请提供的方法进行描述。
本申请实施例提供的模型训练方法,涉及图像的处理,具体可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据(如本申请中的待训练图像帧)进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的神经网络(如本申请中的第一神经网络和第二神经网络);并且,本申请实施例提供的图像处理方法可以运用上述训练好的神经网络,将输入数据(如本申请中的当前图像帧)输入到所述训练好的神经网络中,得到输出数据(如本申请中当前图像帧的深度信息、当前图像帧的背景区域等等)。需要说明的是,本申请实施例提供的模型训练方法和图像处理方法是基于同一个构思产生的发明,也可以理解为一个系统中的两个部分,或一个整体流程的两个阶段:如模型训练阶段和模型应用阶段。
图4为本申请实施例提供的图像处理方法的一个流程示意图,通过该方法处理的图像帧,其背景区域可具备真实的模糊效果。如图5所示(图5为本申请实施例提供的图像处理方法的一个应用场景示意图),终端设备可在一组连续的图像帧中,选择某一个图像帧,并对其进行处理,从而使得该图像帧的背景区域具备真实的动态模糊效果。此外,终端设备也可对该组图像帧的每个图像帧进行处理,从而使得每个像帧的背景区域具备真实的动态模糊效果。
下面将对本申请实施例提供的图像处理方法进行详细的介绍,如图4所示,该方法包括:
401、获取当前图像帧的深度信息以及当前图像帧的背景区域。
当用户需要对运动中的目标物体进行摇摄时,可通过终端设备(即前述的用户设备或客户设备)的摄像头以较高的快门速度获取一组连续的图像帧。具体地,用户可通过多种方式拍摄该组图像帧。例如,用户可将终端设备的摄像头的模式设置为图像连拍模式,然后长按快门从而获取该组图像帧。又如,用户可不断地点按快门,从而获取该组图像帧。再如,用户可通过终端设备的感知技术判断当前的拍摄场景是否符合特定场景(目标物体处于运动状态的场景),若符合,则触发连拍或多次拍摄,从而得到该组图像帧。还如,用户可将终端设备的摄像头的模式设置为视频录制模式,从而得到该组图像帧等等。
在该组图像帧中,所有图像帧按时间先后进行排序,且每个图像帧均包含前景区域以及背景区域,其中,前景区域和背景区域均包含(呈现)有被摄物体,前景区域包含的被摄物体一般为用户关注的目标物体,则背景区域包含的被摄物体为用户不关注的非目标物体。例如,前景区域包含的被摄物体可以为行驶中的汽车,背景区域包含的被摄物体可以汽车周围的天空、花草、道路、路灯等等。又如,前景区域包含的被摄物体可以为滑雪中的人,背景区域包含的被摄物体可以为人周围的房子、雪地、树木等等。
由于该组图像帧的背景区域不具备明显的模糊效果,故终端设备需对其进行处理,使得某个图像帧或某些图像帧的背景区域具备真实的模糊效果。在该组图像帧中,终端设备可挑选其中任意一个图像帧作为待处理的图像帧,即当前图像帧。具体地,终端设备可通过多种方式挑选出当前图像帧。例如,终端设备可根据用户输入的指令,从该组图像帧中确定出当前图像帧,即当前图像帧为用户指定的图像帧。又如,终端设备可根据美学评价算法,对该组图像帧的每个图像帧进行打分,并将得分最高的图像帧确定为当前图像帧。
确定当前图像帧中,终端设备可获取当前图像帧的深度信息以及当前图像帧的背景区域,其中,当前图像帧的深度信息即为当前图像帧中每个像素点的深度值,即当前图像帧中所有像素点的深度值。在当前图像帧中,每个像素点的深度值用于该像素点在实际环境(三维空间)中的对应位置到摄像头的距离。如此一来,当前图像帧的深度信息即可用于指示当前图像帧包含的各个被摄物体到摄像头的距离,即这些被摄物体在实际环境中的位置到摄像头的距离。
值得注意的是,终端设备可通过多种方式获取当前图像帧中每个像素点的深度值。例如,终端设备可通过第一神经网络获取当前图像帧中每个像素点的深度值,即通过第一神经网络对当前图像帧进行单目深度估计,从而得到当前图像帧中所有像素点的深度值。又如,终端设备具备深度摄像头,故终端设备通过深度摄像头得到当前图像帧后,也可同时得到当前图像帧中所有像素点的深度值。进一步地,终端设备的深度摄像头可以为TOF摄像头或结构光摄像头。
终端设备还可通过多种方式获取当前图像帧的背景区域。例如,终端设备可通过第二神经网络获取当前图像帧的背景区域,即终端设备可通过第二神经网络对当前图像帧进行显著目标检测(直接检测出当前图像帧中最明显的物体,即目标物体),直接将当前图像帧的前景区域和背景区域区分开来,或,终端设备可通过第二神经网络对当前图像帧进行目标检测(检测出当前图像帧中的各个被摄物体)和目标分割(从所被摄物体中确定目标物体)。又如,终端设备可根据用户的指令,在当前图像帧中划分出前景区域和背景区域等等。
应理解,第一神经网络可以为多层感知机(multi-layer perceptron,MLP)、卷积神经网络(convolutional neural networks,CNN)、递归神经网络(recursive neuralnetwork)、循环神经网络(recurrent neural network,RNN)等模型中的任意一种,第二神经网路也可以为MLP、CNN、递归神经网络、RNN等模型中的任意一种,此处不做限制。
还应理解,本申请实施例中的第一神经网络和第二神经网络均为经过训练后的神经网络模型。下文将对第一神经网络和第二神经网络的训练过程进行简单的介绍:
(1)在进行模型训练前,获取某一批待训练图像帧,并提前确定每个待训练图像帧中所有像素点的真实深度值。开始训练后,可向第一待训练模型输入某个待训练图像帧。然后,通过第一待训练模型获取该待训练图像帧中每个像素点的深度值。最后,通过预置的目标损失函数计算第一待训练模型输出的该待训练图像帧中每个像素点的深度值和真实深度值之间的差距,若该差距在合格范围内,则将该待训练图像帧视为合格的待训练图像帧,若在合格范围外,则视为不合格的待训练图像帧。对于该批待训练图像帧,每一个训练图像帧均需进行前述过程,此处不再赘述。若该批待训练图像帧中,仅有少量合格的待训练图像帧,则调整第一待训练模型的参数,并重新用另一批待训练图像帧进行训练,直至存在大量合格的待训练图像帧,以得到第一神经网络。
(2)在进行模型训练前,获取某一批待训练图像帧,并提前确定每个待训练图像的真实背景区域。开始训练后,可向第二待训练模型输入某个待训练图像帧。然后,通过第二待训练模型获取该待训练图像帧的背景区域。最后,通过目标损失函数计算第二待训练模型输出的该待训练图像帧的背景区域和真实背景区域之间的差距,若该差距在合格范围内,则将该待训练图像帧视为合格的待训练图像帧,若在合格范围外,则视为不合格的待训练图像帧。对于该批待训练图像帧,每一个训练图像帧均需进行前述过程,此处不再赘述。若该批待训练图像帧中,仅有少量合格的待训练图像帧,则调整第二待训练模型的参数,并重新用另一批待训练图像帧进行训练,直至存在大量合格的待训练图像帧,以得到第二神经网络。
402、从当前图像帧的深度信息中,确定当前图像帧的背景区域的深度信息。
终端设备得到当前图像帧的深度信息以及当前图像帧的背景区域后,可从当前图像帧的深度信息中,确定当前图像帧的背景区域的深度信息,当前图像帧的背景区域的深度信息用于指示背景区域包含的各个被摄物体到摄像头的距离,即这些被摄物体在实际环境中的位置到摄像头的距离。具体地,终端设备可从当前图像帧中所有像素点的深度值中,确定当前图像帧的背景区域中每个像素点的深度值,即终端设备可从当前图像帧的所有像素点中,确定哪一部分像素点位于当前图像帧的背景区域中,那么这部分像素点的深度值即为当前图像帧的背景区域中所有像素点的深度值。
403、根据当前图像帧的背景区域的深度信息,将背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同。
终端设备得到当前图像帧的背景区域的深度信息后,可根据该深度信息将将背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同。具体地,终端设备得到当前图像帧的背景区域中所有像素点的深度值后,则根据每个像素点的深度值计算该像素点的深度变化率,其计算公式为:
G(i,j)=dx(i,j)+dy(i,j)
dx(i,j)=D(i+1,j)-D(i,j)
dy(i,j)=D(i,j+1)-D(i,j)
上式中,G(i,j)为该像素点的深度变化率,D(i,j)为该像素点的深度值,D(i,j+1)、D(i+1,j)为该像素点周围的其余像素点的深度值,i=1,2,3,…,N,j=1,2,3,…,N。
如此一来,终端设备可得到当前图像帧的背景区域中所有像素点的深度变化率,对于任意一个像素点而言,该像素点的深度变化率用于指示该像素点的深度值与周围像素点的深度值之间的差值,即该像素点在实际环境中的对应位置到摄像头的距离,与周围像素点在实际环境中的对应位置到摄像头的距离之间的差值。由此可见,当某个像素点的深度变化率较小时,说明该像素点的实际位置到摄像头的距离(在实际环境中的对应位置)与周围像素点的实际位置到摄像头的距离之间的差距较小,当某个像素点的深度变化率较大时,说明该像素点的实际位置到摄像头的距离与周围像素点的实际位置到摄像头的距离之间的差距较大。因此,终端设备可根据深度变化率的大小,将当前图像帧的背景区域划分为多个子区域。具体地,终端设备可根据当前图像帧的背景区域中每个像素点的深度变化率以及预置的变化率阈值,将当前图像帧的背景区域划分为多个子区域。需要说明的是,该变化率阈值等于或约等于每个子区域的边缘点的深度变化率,且变化率阈值一般被设置得较大,故边缘点的深度值与边缘点周围的像素点的深度值存在很大的差值,即深度值在边缘点处发生了突变。也就是说,边缘点的实际位置到摄像头的距离与周围像素点的实际位置到摄像头的距离之间存在很大的差值。因此,通过当前图像帧的背景区域中每个像素点的深度变化率以及预置的变化率阈值可确定背景区域中各个子区域的边缘点,进而确定多个子区域。如此一来,不同的子区域对应了不同远近的实际位置,故位于同一子区域内的被摄物体到摄像头的距离是相同或相似的,不同子区域包含的被摄物体到摄像头的距离则是差异较为明显的。
例如,终端设备根据当前图像帧的背景区域中所有像素点的深度变化率,将当前图像帧的背景区域划分为三个子区域,第一个子区域即为汽车行驶的道路,第二个子区域即为道路后方的植物,第三个子区域即为植物后方的楼房。可见,第一子区域包含的被摄物体离摄像头最近,第三个子区域包含的被摄物体离摄像头最远。
404、在多个子区域中,获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况。
摄像头在追踪目标物体时,一般会发生旋转或者平移。当摄像头在移动中进行拍摄时,不同远近的被摄物体相对于摄像头的运动情况(也可理解为移动程度)不同,例如,较近的被摄物体的移动程度较大,较远的被摄物体的移动程度较小,这一情况被呈现在摄像头所拍摄的连续图像帧中。具体地,在当前图像帧的背景区域的多个子区域中,由于不同子区域包含的被摄物体到摄像头的距离不同,故不同子区域对应的被摄物体相对于摄像头的运动情况不同。当摄像头拍摄相邻的两个图像帧时,某个子区域(也可理解为该子区域包含的被摄物体)在当前图像帧中的位置,较之该子区域在前一图像帧中的位置,肯定发生了一定的变化,且不同子区域的位置变化情况不同,即不同子区域的运动情况不同。可见,以当前图像帧的前一图像帧为参考基准,当前图像帧的背景区域的不同子区域相对于前一图像帧的运动情况不同。
依旧如上述例子,设当前图像帧的背景区域包含三个子区域,第一个子区域即为汽车行驶的道路,第二个子区域即为道路后方的植物,第三个子区域即为植物后方的楼房。那么,第一个子区域从前一图像帧到当前图像帧的移动程度最大,第二个子区域从前一图像帧到当前图像帧的移动程度次之,第三个子区域从前一图像帧到当前图像帧的移动程度最小。
为了确定当前图像帧的背景区域中每个子区域的运动情况,终端设备可获取每个子区域的运动矢量,每个子区域的运动矢量包含该子区域的运动速度以及该子区域的运动方向,每个子区域的运动适量用于指示该子区域相对于前一图像帧的运动情况。具体地,对于多个子区域中的每个子区域,终端设备可先对该子区域进行角点检测,确定出至少一个目标像素点(即角点),这部分目标像素点通常为该子区域中特证比较明显的像素点。然后,终端设备通过光流法确定这部分目标像素点从前一图像帧到当前图像帧的运动距离、这部分目标像素点在前一图像帧中的位置以及这部分目标像素点在当前图像帧中的位置。接着,终端设备根据这部分目标像素点的运动距离,前一图像帧与当前图像帧之间的时间差计算出这部分目标像素点从前一图像帧到当前图像帧的运动速度,并根据这部分目标像素点在前一图像帧中的位置以及这部分目标像素点在当前图像帧中的位置,确定这部分目标像素点从前一图像帧到当前图像帧的运动方向。最后,终端设备可通过这部分目标像素点的运动速度确定该子区域的运动速度(例如,这部分目标像素点的运动速度的平均值等等),并将这部分目标像素点的运动方向确定为该子区域的运动方向。
需要说明的是,其余子区域的运动速度以及运动方向的确定过程可参考前述说明部分,此处不在赘述。
405、根据每个子区域的运动矢量对该子区域进行模糊处理。
得到当前图像帧的背景区域中每个子区域的运动速度和运动方向后,对于每一个子区域,终端设备根据该子区域的运动速度以及该子区域的运动方向构建该子区域对应的卷积核,再通过该子区域对应的卷积核对该子区域进行卷积处理。由于不同子区域的运动不同,故不同子区域对应的卷积核也不同,那么,终端设备可这部分卷积核,对不同子区域进行不同程度的模糊处理。如此一来,当前图像帧的背景区域中,不同子区域可具备不同程度的模糊效果,从而实现层次化且更加真实的动态模糊效果。
本申请实施例中,终端设备在获取当前图像帧的背景区域的深度信息后,则根据深度信息将背景区域划分为多个子区域。由于不同的子区域对应的被摄物体到摄像头的距离不同,导致不同的子区域相对于前一图像帧的运动情况也不同。因此,终端设备可获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况。由于不同的子区域的运动情况不同,即不同的子区域的运动矢量不同,故终端设备可根据每个子区域的运动矢量对该子区域进行模糊处理,即终端设备可根据不同子区域的运动情况,对不同的子区域进行不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
为了进一步理解,下文结合一个应用例对本申请实施例提供的图像处理方法做进一步的介绍。图6为本申请实施例提供的图像处理方法的应用例的一个示意图,图7为本申请实施例提供的图像处理方法的应用例的另一示意图,如图6和图7所示,该应用例包括:
(1)终端设备确定当前图像帧601后,通过第一神经网络获取当前图像帧的深度图像602(即前述当前图像帧的深度信息),其中,深度图像602中不同颜色的区域到摄像头的距离不同。
(2)终端设备通过第二神经网络获取当前图像帧的显著图像603,其中,当前图像帧的显著图像603用于突出显示当前图像帧的背景区域,即显著图像603中的深色部分。
(3)终端设备结合当前图像帧的显著图像603以及当前图像帧601的深度图像602,确定出当前图像帧的背景区域的深度图像(即前述当前图像帧的背景区域的深度信息)。
(4)终端设备可根据当前图像帧的背景区域的深度图像,计算背景区域中每个像素点的深度变化率,并根据深度变化率的大小,将当前图像帧的背景区域划分为多个子区域。
(5)终端设备通过光流法,以前一图像帧605为参考,在当前图像帧601中,标记出背景区域中每个子区域的角点的运动矢量(包含运动速度和运动方向),并根据每个子区域的角点的运动矢量确定该子区域的运动速度和运动方向。
(6)终端设备根据每个子区域的运动速度和运动方向确定该子区域对应的卷积核,利用该子区域对应的卷积核完成该子区域的卷积操作,使得该子区域具备一定程度的模糊效果。如此一来,不同子区域可具备不同程度的模糊效果,使得当前图像帧的背景区域具备层次化的模糊效果,即具备更加真实的模糊效果。
以上是对本申请实施例提供的图像处理方法所进行的详细说明,以下将对本申请实施例提供的模型训练方法进行介绍,图8为本申请实施例提供的模型训练方法的一个流程示意图,该方法包括:
801、通过第一待训练模型获取待训练图像帧中每个像素点的深度值;
802、通过预置的目标损失函数,计算待训练图像帧中每个像素点的深度值以及待训练图像帧中每个像素点的真实深度值之间的偏差;
803、根据该偏差对第一待训练模型的参数进行更新,直至满足模型训练条件,得到第一神经网络。
需要说明的是,关于步骤801至步骤803的说明可参考前述步骤401中第一神经网络的训练过程的相关说明,此处不再赘述。可以理解的是,通过步骤801至步骤803可得到前述步骤401中的第一神经网络,该第一神经网络可对任意一个图像帧进行准确的单目深度估计,从而得到该图像帧中所有像素点的深度值。
图9为本申请实施例提供的模型训练方法的另一流程示意图,该方法包括:
901、通过第二待训练模型获取待训练图像帧的背景区域;
902、通过预置的目标损失函数,计算待训练图像帧的背景区域以及待训练图像帧的真实背景区域之间的偏差;
903、根据该偏差对第二待训练模型的参数进行更新,直至满足模型训练条件,得到第二神经网络。
需要说明的是,关于步骤901至步骤903的说明可参考前述步骤401中第二神经网络的训练过程的相关说明,此处不再赘述。可以理解的是,通过步骤901至步骤903可得到前述步骤401中的第二神经网络,该第二神经网络可对任意一个图像帧进行准确的显著目标检测,从而得到该图像帧的背景区域。
以上是对本申请实施例提供的模型训练方法所进行的详细说明,以下将对本申请实施例提供的图像处理装置进行介绍。图10为本申请实施例提供的图像处理装置的一个结构示意图,如图10所示,该装置即为前述的终端设备,该装置包括:
获取模块1001,用于获取待训练图像帧的背景区域的深度信息;
划分模块1002,用于根据所述深度信息将所述背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同,该摄像头用于拍摄当前图像帧;
处理模块1003,用于对不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧。
本实施例中,终端设备在获取当前图像帧的背景区域的深度信息后,则根据深度信息将背景区域划分为多个子区域。由于不同的子区域对应的被摄物体到摄像头的距离不同,导致不同的子区域相对于前一图像帧的运动情况也不同。因此,终端设备可获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况。由于不同的子区域的运动情况不同,即不同的子区域的运动矢量不同,故终端设备可根据每个子区域的运动矢量对该子区域进行模糊处理,即终端设备可根据不同子区域的运动情况,对不同的子区域进行不同程度上的模糊处理,使得当前图像帧的背景区域具备更加真实的模糊效果。
在一种可能的实现方式中,当前图像帧的背景区域的深度信息包括当前图像帧的背景区域中每个像素点的深度值,划分模块1002具体用于:根据当前图像帧的背景区域中每个像素点的深度值,确定当前图像帧的背景区域中每个像素点的深度变化率,每个像素点的深度变化率根据该像素点的深度值以及该像素点周围的其余像素点的深度值确定;根据每个像素点的深度变化率以及预置的变化率阈值,将背景区域划分为多个子区域。
在一种可能的实现方式中,处理模块1003具体用于:在多个子区域中,获取每个子区域的运动矢量,每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况;根据每个子区域的运动矢量对该子区域进行模糊处理,得到处理后的当前图像帧。
在一种可能的实现方式中,处理模块1003具体用于:对于多个子区域中的每个子区域,根据该子区域中至少一个目标像素点从前一图像帧到当前图像帧的运动速度,确定该子区域的运动速度;根据至少一个目标像素点从前一图像帧到当前图像帧的运动方向,确定该子区域的运动方向。
在一种可能的实现方式中,处理模块1003具体用于:对于每个子区域,根据该子区域的运动速度以及该子区域的运动方向构建该子区域对应的卷积核;通过该子区域对应的卷积核对该子区域进行卷积处理。
在一种可能的实现方式中,至少一个目标像素点为角点。
在一种可能的实现方式中,至少一个目标像素点的运动速度和运动方向通过光流法获取。
在一种可能的实现方式中,获取模块1001具体用于:获取当前图像帧中每个像素点的深度值以及当前图像帧的背景区域;从当前图像帧中所有像素点的深度值中,确定当前图像帧的背景区域中每个像素点的深度值。
在一种可能的实现方式中,获取模块1001具体用于通过第一神经网络获取当前图像帧中每个像素点的深度值。
在一种可能的实现方式中,摄像头为深度摄像头,获取模块1001具体用于通过深度摄像头获取当前图像帧中每个像素点的深度值。
在一种可能的实现方式中,获取模块1001具体用于通过第二神经网络获取当前图像帧的背景区域。
在一种可能的实现方式中,深度摄像头为TOF摄像头或结构光摄像头。
在一种可能的实现方式中,第一神经网络或第二神经网络为多层感知机、卷积神经网络、递归神经网络以及循环神经网络中的任意一种。
以上是对本申请实施例提供的图像处理装置所进行的详细说明,以下将对本申请实施例提供的模型训练装置进行介绍。图11为本申请实施例提供的模型训练装置的一个结构示意图,如图11所示,该装置包括:
获取模块1101,用于通过第一待训练模型获取待训练图像帧中每个像素点的深度值;
计算模块1102,用于通过预置的目标损失函数,计算待训练图像帧中每个像素点的深度值以及待训练图像帧中每个像素点的真实深度值之间的偏差;
更新模块1103,用于根据该偏差对第一待训练模型的参数进行更新,直至满足模型训练条件,得到第一神经网络。
图12为本申请实施例提供的模型训练装置的另一结构示意图,如图12所示,该装置包括:
获取模块1201,用于通过第二待训练模型获取待训练图像帧的背景区域;
计算模块1202,用于通过预置的目标损失函数,计算待训练图像帧的背景区域以及待训练图像帧的真实背景区域之间的偏差;
更新模块1203,用于根据该偏差对第二待训练模型的参数进行更新,直至满足模型训练条件,得到第二神经网络。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参考本申请实施例前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还涉及一种执行设备,图13为本申请实施例提供的执行设备的一个结构示意图。如图13所示,执行设备1300具体可以表现为手机、平板、笔记本电脑、智能穿戴设备、服务器等,此处不做限定。其中,执行设备1300上可以部署有图10对应实施例中所描述的图像处理装置,用于实现图4对应实施例中图像处理的功能。具体的,执行设备1300包括:接收器1301、发射器1302、处理器1303和存储器1304(其中执行设备1300中的处理器1303的数量可以一个或多个,图13中以一个处理器为例),其中,处理器1303可以包括应用处理器13031和通信处理器13032。在本申请的一些实施例中,接收器1301、发射器1302、处理器1303和存储器1304可通过总线或其它方式连接。
存储器1304可以包括只读存储器和随机存取存储器,并向处理器1303提供指令和数据。存储器1304的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器1304存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
处理器1303控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器1303中,或者由处理器1303实现。处理器1303可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1303中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1303可以是通用处理器、数字信号处理器(digital signal processing,DSP)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integratedcircuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1303可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1304,处理器1303读取存储器1304中的信息,结合其硬件完成上述方法的步骤。
接收器1301可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器1302可用于通过第一接口输出数字或字符信息;发射器1302还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器1302还可以包括显示屏等显示设备。
本申请实施例中,在一种情况下,处理器1303,用于执行图4对应实施例中的终端设备执行的图像处理方法。
本申请实施例还涉及一种训练设备,图14为本申请实施例提供的训练设备的一个结构示意图。如图14所示,训练设备1400由一个或多个服务器实现,训练设备1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1414(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对训练设备中的一系列指令操作。更进一步地,中央处理器1414可以设置为与存储介质1430通信,在训练设备1400上执行存储介质1430中的一系列指令操作。
训练设备1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458;或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
具体的,训练设备可以执行图8或图9对应的实施例中的步骤。
本申请实施例还涉及一种计算机存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例还涉及一种计算机程序产品,该计算机程序产品存储有指令,该指令在由计算机执行时使得计算机执行如前述执行设备所执行的步骤,或者,使得计算机执行如前述训练设备所执行的步骤。
本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述实施例描述的数据处理方法,或者,以使训练设备内的芯片执行上述实施例描述的数据处理方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
具体的,请参阅图15,图15为本申请实施例提供的芯片的一个结构示意图,所述芯片可以表现为神经网络处理器NPU 1500,NPU 1500作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路1503,通过控制器1504控制运算电路1503提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路1503内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路1503是二维脉动阵列。运算电路1503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路1503是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器1502中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器1501中取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)1508中。
统一存储器1506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct MemoryAccess Controller,DMAC)1505,DMAC被搬运到权重存储器1502中。输入数据也通过DMAC被搬运到统一存储器1506中。
BIU为Bus Interface Unit即,总线接口单元1510,用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer,IFB)1509的交互。
总线接口单元1510(Bus Interface Unit,简称BIU),用于取指存储器1509从外部存储器获取指令,还用于存储单元访问控制器1505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1506或将权重数据搬运到权重存储器1502中或将输入数据数据搬运到输入存储器1501中。
向量计算单元1507包括多个运算处理单元,在需要的情况下,对运算电路1503的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如Batch Normalization(批归一化),像素级求和,对特征平面进行上采样等。
在一些实现中,向量计算单元1507能将经处理的输出的向量存储到统一存储器1506。例如,向量计算单元1507可以将线性函数;或,非线性函数应用到运算电路1503的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元1507生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路1503的激活输入,例如用于在神经网络中的后续层中的使用。
控制器1504连接的取指存储器(instruction fetch buffer)1509,用于存储控制器1504使用的指令;
统一存储器1506,输入存储器1501,权重存储器1502以及取指存储器1509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (25)
1.一种图像处理方法,其特征在于,所述方法包括:
获取当前图像帧的背景区域的深度信息;
根据所述深度信息将所述背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同,所述摄像头用于拍摄所述当前图像帧;
对所述不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧。
2.根据权利要求1所述的方法,其特征在于,所述深度信息包括所述当前图像帧的背景区域中每个像素点的深度值,所述根据所述深度信息将所述背景区域划分为多个子区域具体包括:
根据所述当前图像帧的背景区域中每个像素点的深度值,确定所述当前图像帧的背景区域中每个像素点的深度变化率,所述每个像素点的深度变化率根据该像素点的深度值以及该像素点周围的其余像素点的深度值确定;
根据所述每个像素点的深度变化率以及预置的变化率阈值,将所述背景区域划分为多个子区域。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧具体包括:
在所述多个子区域中,获取每个子区域的运动矢量,所述每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况;
根据所述每个子区域的运动矢量对该子区域进行模糊处理,得到处理后的当前图像帧。
4.根据权利要求3所述的方法,其特征在于,所述每个子区域的运动矢量包含该子区域的运动速度以及该子区域的运动方向,所述在所述多个子区域中,获取每个子区域的运动矢量包括:
对于所述多个子区域中的每个子区域,根据该子区域中至少一个目标像素点从所述前一图像帧到所述当前图像帧的运动速度,确定该子区域的运动速度;
根据所述至少一个目标像素点从所述前一图像帧到所述当前图像帧的运动方向,确定该子区域的运动方向。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个子区域的运动矢量对该子区域进行模糊处理具体包括:
对于所述每个子区域,根据该子区域的运动速度以及该子区域的运动方向构建该子区域对应的卷积核;
通过该子区域对应的卷积核对该子区域进行卷积处理。
6.根据权利要求4或5所述的方法,其特征在于,所述至少一个目标像素点为角点。
7.根据权利要求4至6任意一项所述的方法,其特征在于,所述至少一个目标像素点的运动速度和运动方向通过光流法获取。
8.根据权利要求3至7任意一项所述的方法,其特征在于,所述获取当前图像帧的背景区域的深度信息具体包括:
获取当前图像帧中每个像素点的深度值以及所述当前图像帧的背景区域;
从所述当前图像帧中所有像素点的深度值中,确定所述当前图像帧的背景区域中每个像素点的深度值。
9.根据权利要求8所述的方法,其特征在于,所述获取当前图像帧中每个像素点的深度值具体包括:
通过第一神经网络获取当前图像帧中每个像素点的深度值。
10.根据权利要求8所述的方法,其特征在于,所述摄像头为深度摄像头,所述获取当前图像帧中每个像素点的深度值具体包括:
通过深度摄像头获取当前图像帧中每个像素点的深度值。
11.根据权利要求8至10任意一项所述的方法,其特征在于,所述获取所述当前图像帧的背景区域具体包括:
通过第二神经网络获取当前图像帧的背景区域。
12.一种图像处理装置,其特征在于,所述装置包括:
获取模块,用于获取当前图像帧的背景区域的深度信息;
划分模块,用于根据所述深度信息将所述背景区域划分为多个子区域,不同的子区域对应的被摄物体到摄像头的距离不同,所述摄像头用于拍摄所述当前图像帧;
处理模块,用于对所述不同的子区域进行不同程度的模糊处理,得到处理后的当前图像帧。
13.根据权利要求12所述的装置,其特征在于,所述深度信息包括所述当前图像帧的背景区域中每个像素点的深度值,所述划分模块具体用于:
根据所述当前图像帧的背景区域中每个像素点的深度值,确定所述当前图像帧的背景区域中每个像素点的深度变化率,所述每个像素点的深度变化率根据该像素点的深度值以及该像素点周围的其余像素点的深度值确定;
根据所述每个像素点的深度变化率以及预置的变化率阈值,将所述背景区域划分为多个子区域。
14.根据权利要求12或13所述的装置,其特征在于,所述处理模块具体用于:
在所述多个子区域中,获取每个子区域的运动矢量,所述每个子区域的运动矢量用于指示该子区域相对于前一图像帧的运动情况;
根据所述每个子区域的运动矢量对该子区域进行模糊处理,得到处理后的当前图像帧。
15.根据权利要求14所述的装置,其特征在于,所述处理模块具体用于:
对于所述多个子区域中的每个子区域,根据该子区域中至少一个目标像素点从所述前一图像帧到所述当前图像帧的运动速度,确定该子区域的运动速度;
根据所述至少一个目标像素点从所述前一图像帧到所述当前图像帧的运动方向,确定该子区域的运动方向。
16.根据权利要求15所述的装置,其特征在于,所述处理模块具体用于:
对于所述每个子区域,根据该子区域的运动速度以及该子区域的运动方向构建该子区域对应的卷积核;
通过该子区域对应的卷积核对该子区域进行卷积处理。
17.根据权利要求15或16所述的装置,其特征在于,所述至少一个目标像素点为角点。
18.根据权利要求15至17任意一项所述的装置,其特征在于,所述至少一个目标像素点的运动速度和运动方向通过光流法获取。
19.根据权利要求15至18任意一项所述的装置,其特征在于,所述获取模块具体用于:
获取当前图像帧中每个像素点的深度值以及所述当前图像帧的背景区域;
从所述当前图像帧中所有像素点的深度值中,确定所述当前图像帧的背景区域中每个像素点的深度值。
20.根据权利要求19所述的装置,其特征在于,所述获取模块具体用于通过第一神经网络获取当前图像帧中每个像素点的深度值。
21.根据权利要求19所述的装置,其特征在于,所述摄像头为深度摄像头,所述获取模块具体用于通过深度摄像头获取当前图像帧中每个像素点的深度值。
22.根据权利要求19至21任意一项所述的装置,其特征在于,所述获取模块具体用于通过第二神经网络获取当前图像帧的背景区域。
23.一种图像处理装置,其特征在于,包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述图像处理装置执行如权利要求1至11任意一项所述的方法。
24.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该程序由计算机执行时,使得所述计算机实施权利要求1至11任意一项所述的方法。
25.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时,使得所述计算机实施权利要求1至11任意一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218462.0A CN113066001B (zh) | 2021-02-26 | 一种图像处理方法及相关设备 | |
PCT/CN2022/077788 WO2022179581A1 (zh) | 2021-02-26 | 2022-02-25 | 一种图像处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218462.0A CN113066001B (zh) | 2021-02-26 | 一种图像处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113066001A true CN113066001A (zh) | 2021-07-02 |
CN113066001B CN113066001B (zh) | 2024-10-22 |
Family
ID=
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114419073A (zh) * | 2022-03-09 | 2022-04-29 | 荣耀终端有限公司 | 一种运动模糊生成方法、装置和终端设备 |
WO2022179581A1 (zh) * | 2021-02-26 | 2022-09-01 | 华为技术有限公司 | 一种图像处理方法及相关设备 |
CN115359097A (zh) * | 2022-10-20 | 2022-11-18 | 湖北芯擎科技有限公司 | 稠密光流生成方法、装置、电子设备及可读存储介质 |
CN116012675A (zh) * | 2023-02-14 | 2023-04-25 | 荣耀终端有限公司 | 一种模型训练方法、图像处理方法及电子设备 |
CN116740241A (zh) * | 2022-09-30 | 2023-09-12 | 荣耀终端有限公司 | 一种图像处理方法及电子设备 |
CN117278865A (zh) * | 2023-11-16 | 2023-12-22 | 荣耀终端有限公司 | 一种图像处理方法及相关装置 |
WO2024099327A1 (zh) * | 2022-11-11 | 2024-05-16 | 蔚来移动科技有限公司 | 基于车体抠像的图像处理方法、装置、电子设备及介质 |
WO2024109875A1 (zh) * | 2022-11-23 | 2024-05-30 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692692A (zh) * | 2009-11-02 | 2010-04-07 | 彭健 | 电子稳像方法及系统 |
KR20110094957A (ko) * | 2010-02-18 | 2011-08-24 | 중앙대학교 산학협력단 | 레인지 영상으로부터의 객체 분할 장치 및 방법 |
US20130069935A1 (en) * | 2011-09-16 | 2013-03-21 | Novatek Microelectronics Corp. | Depth generation method and apparatus using the same |
US20160127678A1 (en) * | 2013-06-05 | 2016-05-05 | Huawei Technologies Co., Ltd. | Method for Determining Small-Object Region, and Method and Apparatus for Interpolating Frame Between Video Frames |
CN108053363A (zh) * | 2017-11-30 | 2018-05-18 | 广东欧珀移动通信有限公司 | 背景虚化处理方法、装置及设备 |
CN108063894A (zh) * | 2017-12-22 | 2018-05-22 | 维沃移动通信有限公司 | 一种视频处理方法及移动终端 |
CN108076286A (zh) * | 2017-11-30 | 2018-05-25 | 广东欧珀移动通信有限公司 | 图像虚化方法、装置、移动终端和存储介质 |
CN108347558A (zh) * | 2017-12-29 | 2018-07-31 | 维沃移动通信有限公司 | 一种图像优化的方法、装置以及移动终端 |
CN108805832A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 适于隧道环境特性的改进灰度投影稳像方法 |
CN110400331A (zh) * | 2019-07-11 | 2019-11-01 | Oppo广东移动通信有限公司 | 深度图处理方法和装置 |
US20200111195A1 (en) * | 2018-10-09 | 2020-04-09 | Valve Corporation | Motion smoothing for re-projected frames |
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692692A (zh) * | 2009-11-02 | 2010-04-07 | 彭健 | 电子稳像方法及系统 |
KR20110094957A (ko) * | 2010-02-18 | 2011-08-24 | 중앙대학교 산학협력단 | 레인지 영상으로부터의 객체 분할 장치 및 방법 |
US20130069935A1 (en) * | 2011-09-16 | 2013-03-21 | Novatek Microelectronics Corp. | Depth generation method and apparatus using the same |
US20160127678A1 (en) * | 2013-06-05 | 2016-05-05 | Huawei Technologies Co., Ltd. | Method for Determining Small-Object Region, and Method and Apparatus for Interpolating Frame Between Video Frames |
CN108053363A (zh) * | 2017-11-30 | 2018-05-18 | 广东欧珀移动通信有限公司 | 背景虚化处理方法、装置及设备 |
CN108076286A (zh) * | 2017-11-30 | 2018-05-25 | 广东欧珀移动通信有限公司 | 图像虚化方法、装置、移动终端和存储介质 |
WO2019105214A1 (zh) * | 2017-11-30 | 2019-06-06 | Oppo广东移动通信有限公司 | 图像虚化方法、装置、移动终端和存储介质 |
CN108063894A (zh) * | 2017-12-22 | 2018-05-22 | 维沃移动通信有限公司 | 一种视频处理方法及移动终端 |
CN108347558A (zh) * | 2017-12-29 | 2018-07-31 | 维沃移动通信有限公司 | 一种图像优化的方法、装置以及移动终端 |
CN108805832A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 适于隧道环境特性的改进灰度投影稳像方法 |
US20200111195A1 (en) * | 2018-10-09 | 2020-04-09 | Valve Corporation | Motion smoothing for re-projected frames |
CN110400331A (zh) * | 2019-07-11 | 2019-11-01 | Oppo广东移动通信有限公司 | 深度图处理方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179581A1 (zh) * | 2021-02-26 | 2022-09-01 | 华为技术有限公司 | 一种图像处理方法及相关设备 |
CN114419073A (zh) * | 2022-03-09 | 2022-04-29 | 荣耀终端有限公司 | 一种运动模糊生成方法、装置和终端设备 |
CN114419073B (zh) * | 2022-03-09 | 2022-08-12 | 荣耀终端有限公司 | 一种运动模糊生成方法、装置和终端设备 |
CN116740241A (zh) * | 2022-09-30 | 2023-09-12 | 荣耀终端有限公司 | 一种图像处理方法及电子设备 |
CN115359097A (zh) * | 2022-10-20 | 2022-11-18 | 湖北芯擎科技有限公司 | 稠密光流生成方法、装置、电子设备及可读存储介质 |
WO2024099327A1 (zh) * | 2022-11-11 | 2024-05-16 | 蔚来移动科技有限公司 | 基于车体抠像的图像处理方法、装置、电子设备及介质 |
WO2024109875A1 (zh) * | 2022-11-23 | 2024-05-30 | 北京字跳网络技术有限公司 | 视频处理方法、装置、设备及介质 |
CN116012675A (zh) * | 2023-02-14 | 2023-04-25 | 荣耀终端有限公司 | 一种模型训练方法、图像处理方法及电子设备 |
CN116012675B (zh) * | 2023-02-14 | 2023-08-11 | 荣耀终端有限公司 | 一种模型训练方法、图像处理方法及电子设备 |
CN117278865A (zh) * | 2023-11-16 | 2023-12-22 | 荣耀终端有限公司 | 一种图像处理方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022179581A1 (zh) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446398B (zh) | 图像分类方法以及装置 | |
CN112183718B (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
CN111368972B (zh) | 一种卷积层量化方法及其装置 | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN112070207A (zh) | 一种模型训练方法及装置 | |
CN111882031A (zh) | 一种神经网络蒸馏方法及装置 | |
CN112258565B (zh) | 图像处理方法以及装置 | |
WO2023083030A1 (zh) | 一种姿态识别方法及其相关设备 | |
EP4290459A1 (en) | Augmented reality method and related device thereof | |
CN114359289A (zh) | 一种图像处理方法及相关装置 | |
CN111931901A (zh) | 一种神经网络构建方法以及装置 | |
CN113627422A (zh) | 一种图像分类方法及其相关设备 | |
CN111767947A (zh) | 目标检测模型、应用方法及相关装置 | |
CN115238909A (zh) | 一种基于联邦学习的数据价值评估方法及其相关设备 | |
CN116258176A (zh) | 一种数据处理方法及其装置 | |
CN114169393A (zh) | 一种图像分类方法及其相关设备 | |
CN113627421A (zh) | 一种图像处理方法、模型的训练方法以及相关设备 | |
CN116883961A (zh) | 一种目标感知方法以及装置 | |
CN118050087A (zh) | 一种设备测温方法及其相关设备 | |
CN116309226A (zh) | 一种图像处理方法及其相关设备 | |
CN115984963A (zh) | 一种动作计数方法及其相关设备 | |
CN116824284A (zh) | 一种图像处理方法以及相关设备 | |
CN115565104A (zh) | 一种动作预测方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |