CN114972143A - 一种图像处理方法及装置 - Google Patents
一种图像处理方法及装置 Download PDFInfo
- Publication number
- CN114972143A CN114972143A CN202210524690.5A CN202210524690A CN114972143A CN 114972143 A CN114972143 A CN 114972143A CN 202210524690 A CN202210524690 A CN 202210524690A CN 114972143 A CN114972143 A CN 114972143A
- Authority
- CN
- China
- Prior art keywords
- video frame
- frame
- video
- determining
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 230000033001 locomotion Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 61
- 230000003287 optical effect Effects 0.000 claims description 82
- 238000012549 training Methods 0.000 claims description 45
- 230000001133 acceleration Effects 0.000 claims description 42
- 238000003708 edge detection Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005111 flow chemistry technique Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000006073 displacement reaction Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- VJTAZCKMHINUKO-UHFFFAOYSA-M chloro(2-methoxyethyl)mercury Chemical compound [Cl-].COCC[Hg+] VJTAZCKMHINUKO-UHFFFAOYSA-M 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像处理方法及装置,从视频中获取至少一个第一视频帧和第二视频帧,并根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象,进一步基于主要对象,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级,以根据增强等级对第一视频帧和第二视频帧进行图像增强。由此,完全通过软件算法即可实现对视频图像的增强,可以通过多种方法对软件算法进行实时优化和升级,并且可以根据视频帧中主要对象调整增强等级,例如:对于运动变化较小或者用户注意力较低的对象使用较低级别的增强效果,如此,显著提升图像处理效率,节约计算和存储资源,并有效节约图像处理芯片的功耗。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种图像处理方法及装置。
背景技术
随着图像和视频处理技术的发展,人们对图像的清晰度和流畅性追求越来越高。目前MEMC(运动补偿技术)类图像处理芯片在对Video Stream(视频播放及游戏画面场景)进行图像处理和运动补偿处理的过程中,均使用硬件仿真算法。硬件仿真算法的原理为编码预测,编码预测是数据压缩理论的一个重要分支,可以根据离散信号之间存在一定相关性特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差值(预测误差)进行编码。但是编码预测更关注于信号本身,而不是图像中的物体与图像显示内容,如此,处理的效果较差,更容易引入画面问题。同时,使用传统预测编码进行运动补偿的过程中所采用的硬件仿真算法本身由硬件电路实现的,硬件电路升级难度较大且成本较高。例如:图1为使用传统的宏模块预测编码进行运动预测的示例。
发明内容
本发明实施例提供一种图像处理方法及装置。
根据本发明第一方面,提供了一种图像处理方法,所述方法包括:从视频中获取至少一个第一视频帧和第二视频帧,所述第一视频帧是所述第二视频帧的前向帧;根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的至少一个主要对象;基于所述主要对象,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级;根据所述增强等级对所述第一视频帧和所述第二视频帧进行图像增强。
根据本发明一实施方式,所述根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的主要对象,包括:根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的多个对象的对象运动属性;根据所述对象运动属性是否符合设定运动范围,确定所述第二视频帧的至少一个主要对象。
根据本发明一实施方式,所述根据所述对象运动属性是否符合设定运动范围,确定所述第二视频帧的至少一个主要对象,包括:对象运动属性符合设定运动范围的对象进行边缘检测,得到边缘检测结果;根据所述边缘检测结果确定所述第二视频帧的至少一个主要对象。
根据本发明一实施方式,所述基于所述主要对象,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级,包括:确定所述主要对象的运动属性;根据所述主要对象的运动属性,确定基于所述主要对象在所述第一视频帧和所述第二视频帧进行图像增强的增强等级。
根据本发明一实施方式,若运动属性包括加速度,所述根据所述主要对象的运动属性,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级,包括:在所述加速度满足第一加速度条件的情况下,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级为第一等级;在所述加速度满足第二加速度条件的情况下,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级为第二等级。
根据本发明一实施方式,所述根据所述增强等级对所述第一视频帧和所述第二视频帧进行图像增强,包括:基于所述主要对象和所述增强等级,确定所述第一视频帧和所述第二视频的中间帧光流数据;根据中间帧光流数据,对所述第一视频帧和所述第二视频帧进行图像增强。
根据本发明一实施方式,所述基于所述主要对象,确定所述第一视频帧和所述第二视频的中间帧光流数据,包括:获取所述主要对象在所述第一视频帧的第一位置和在所述第二视频帧中的第二位置;对所述第一位置和所述第二位置进行光流处理,得到所述主要对象在所述中间帧中的第一预测位置;根据所述第一预测位置进行反向训练,得到反向训练的训练结果;对所述反向训练的训练结果进行归一化处理,并基于归一化处理结果,得到所述主要对象在所述中间帧的目标预测位置。
根据本发明一实施方式,所述根据所述第一预测位置进行反向训练,包括:基于所述第一预测位置,对所述主要对象进行所述第一视频帧与所述第二视频帧之间的空间关联,得到关联结果;对所述关联结果进行稀疏处理,得到稀疏向量;基于所述稀疏向量,提取所述中间帧的图像局部特征;对所述图像局部特征进行残差处理,得到残差处理结果;对所述残差处理结果进行稠密处理,得到所述反向训练的训练结果。
根据本发明一实施方式,所述根据中间帧光流数据,对所述第一视频帧和所述第二视频帧进行图像增强,包括:根据所述第一视频帧和所述中间帧光流数据,确定前向预测帧;根据所述第二视频帧和所述中间帧光流数据,确定反向预测帧;确定所述前向预测帧和所述反向预测帧的双向预测误差;根据所述误差和所述中间帧光流数据,确定所述第一视频帧和所述第二视频帧的预测中间帧。
根据本发明第二方面,还提供了一种图像处理装置,所述装置包括:获取模块,用于从视频中获取第一视频帧和第二视频帧,所述第一视频帧是所述第二视频帧的前向帧;对象确定模块,用于根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的至少一个主要对象;等级确定模块,用于基于所述主要对象,确定基于所述主要对象对所述第一视频帧和所述第二视频进行图像增强的增强等级;增强模块,用于根据所述增强等级,对所述第一视频帧和所述第二视频帧进行图像增强。
本发明实施例图像处理方法及装置,从视频中获取至少一个第一视频帧和第二视频帧,并根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象,进一步基于主要对象,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级,以根据增强等级对第一视频帧和第二视频帧进行图像增强。由此,完全通过软件算法即可实现对视频图像的增强,可以通过多种方法对软件算法进行实时优化和升级,并且可以根据视频帧中主要对象调整增强等级,例如:对于运动变化较小或者用户注意力较低的对象使用较低级别的增强效果,如此,显著提升图像处理效率,节约计算和存储资源,并有效节约图像处理芯片的功耗。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了使用传统的宏模块预测编码进行运动预测的示例;
图2示出了本发明实施例图像处理方法的实现流程示意图;
图3示出了本发明实施例光流法的图像序列中光流场的示意图;
图4示出了本发明实施例光流法的图像光流可视化运动场的示意图;
图5示出了本发明实施例光流法中物体在连续四帧间的运动过程示意图;
图6示出了利用光流法确定的一个视频帧中的主要对象的示意图;
图7示出了本发明实施例图像处理的光流算法网络示意图;
图8示出了本发明实施例图像处理的第一视频帧和第二视频帧的图像示意图;
图9示出了本发明实施例对图8所示的第一视频帧和第二视频帧的进行图像处理得到的光流结果示意图;
图10示出了本发明实施例图像处理的组成结构示意图;
图11示出了本发明实施例设备的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图2示出了本发明实施例图像处理方法的实现流程示意图。
参考图2,本发明实施例图像处理方法,至少包括如下操作流程:操作201,从视频中获取至少一个第一视频帧和第二视频帧,第一视频帧是第二视频帧的前向帧;操作202,根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象;操作203,基于主要对象,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级;操作204,根据增强等级对第一视频帧和第二视频帧进行图像增强。
在操作201中,从视频中获取至少一个第一视频帧和第二视频帧,第一视频帧是第二视频帧的前向帧。
在本发明这一实施方式中,第一视频帧可以是第二视频帧的前一帧、前两帧或前三帧等。获取第一视频帧和第二视频帧可以是获取视频数据中的两个视频帧的图像数据,也可以是同时获取多个视频帧的图像数据,并基于其中两个视频帧进行图像增强。
举例说明,第一视频帧可以是视频中的第1帧,相应的,第二视频帧可以是视频中的第2帧,第一视频帧可以是视频中的第2帧,相应的,第二视频帧可以是视频中的第3帧,第一视频帧可以是视频中的第3帧,相应的,第二视频帧可以是视频中的第4帧……,第一视频帧可以是视频中的第n-1帧,第二视频帧可以是视频中的第n帧。第二视频帧还可以是第m帧,相应的,第一视频帧为第m帧之前的多个视频帧,在后续的操作中根据需要取需要进行处理的第一视频帧和第二视频帧进行图像增强。其中,m和n均为正整数,m<n。
在操作202中,根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象。
在本发明这一实施方式中,可以根据第一视频帧和第二视频帧,确定第二视频帧的多个对象的对象运动属性,并根据对象运动属性是否符合设定运动范围,确定第二视频帧的至少一个主要对象。
在本发明这一实施方式中,可以对对象运动属性符合设定运动范围的对象进行边缘检测,得到边缘检测结果,并根据边缘检测结果确定第二视频帧的至少一个主要对象。
在本发明这一实施方式中,可以采用光流法来确定第二视频帧中多个对象的对象运动属性。
这里,首先对光流法进行简单说明,光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。可以将二维图像平面特定坐标点上的灰度瞬时变化率定义为光流矢量。光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。当人的眼睛观察运动物体时,物体的景象在人眼的视网膜上形成一系列连续变化的图像,这一系列连续变化的信息不断“流过”视网膜,好像一种光的“流”,故称之为光流。光流表达了图像的变化。本发明中充分利用光流法所包含的目标对象的运动信息,确定目标对象的运动情况。
在使用光流法对一个图像序列中的多个对象进行区别的过程中,首先需要获得如图3所示的本发明实施例光流法的图像序列中的光流场。图像序列中的光流场是一个二维矢量场,可以描述图像序列中像素点的灰度变化。由于在连续几帧图像中同一物体的像素灰度可以认为是恒定的,所以一个图像序列的光流场可以被近似为运动场。
如图4所示,示出了本发明实施例光流法的图像光流可视化运动场的示意图。对图像的光流场进行可视化处理,我们就可以区别一个图像序列中的不同物体
假设在连续的两帧之间视频中图像的多个对象的结构是固定的,也即视频图像中的多个物体相对关系是固定的。如此,可以获得各个对象的运动过程和运动趋势,以确定图像中的主要对象和冗余对象。这里,主要对象主要是指在相邻或比较接近的两帧图像中运动较为明显的对象,而背景图像则为相邻或比较接近的两帧图像中几乎未进行运动的对象。例如:视频中存在一个车辆在城市中穿梭的场景,城市的建筑和路边的绿化带为几乎未进行运动的对象,而车辆则为多个视频帧的主要对象。将运动的物体作为视频帧的主要对象,是为了在后续操作中基于主要对象对图像进行增强,有效节约图像处理时间,提高图像处理效率,并显著提升图像处理效果。
在本发明这一实施方式中,运动属性可以是对象的加速度。
以下以图5中示出的本发明实施例光流法中物体在连续四帧间的运动过程示意图,对视频帧中对象的运动属性进行说明。
如图5所示,图中x-1、x0、x1和x2表示某一对象在图像序列中四个视频帧中的位置。xi表示该对象在x0和x1两个视频帧之间的预测位置。假定该对象在具有相同时间间隔的四个视频帧之间做变速运动,通过该对象在相邻两个视频帧之间的位移距离和相邻两个视频帧之间的时间间隔可以计算出该对象的运动加速度。进而根据当前视频帧和上一帧视频,确定当前视频中各个对象相对于上一视频帧的加速度,并由此区分当前视频帧的主要对象和冗余对象。
具体的可以采用如下公式(1),确定当前视频中各个对象相对于上一视频帧的加速度:
其中,i表示视频帧的序号;
t表示当前视频帧相对于上一视频帧的时间间隔;
fi→1表示对象从第i个视频帧到第1个视频帧的运动轨迹;
f0→1表示对象从第0个视频帧到第1个视频帧的运动轨迹;
f0→-1表示对象从第0个视频帧到第-1个视频帧的运动轨迹;
a表示对象从第0个视频帧中的位置移动至第1个视频帧中的位置过程中该对象的运动加速度;
t表示对象从第0个视频帧中的位置移动至第1个视频帧中的位置所需要的时间。
由此,可以计算出物体在两个视频帧之间的运动加速度。进一步的,如果对象的运动加速度大于预先设定的加速度阈值Threshold,则该对象可以被确定为主要对象,如果对象的运动加速度小于或等于预先设定的加速度阈值Threshold,则该对象可以被确定为冗余对象。
在本发明这一实施方式中,还可以将所确定的主要对象以高亮等方式进行可视化展示。
由于光流法是利用图像序列灰度变化建立光流场,因此,以上利用光流法进行物体甄别的过程中存在一个问题,当两个物体的颜色十分接近时会被识别为一个物体,难以区别对象的边界。例如:如果两个学生穿着同样的衣服并肩走在一起,利用光流法识别主要对象的过程中会将两个学生识别为一个对象,由此将引入较多的画面问题。针对这一问题,本发明这一实施方式中还对对象运动属性符合设定运动范围的对象进行边缘检测,并根据边缘检测结果确定第二视频帧的至少一个主要对象。
具体的,可以使用prewitt算子和Sobel算子检测主要对象的边界。如果在主要对象的图像中发现连续的对象边界,则通过连续边界将两个颜色相同的物体区分开。例如:采用如下所示的Prewitt算子:
或,如下所示的Sobel算子:
将在视频帧中主要对象的图像中从左上以一定的步长向右下滑动,利用3*3的算子矩阵与当前滑动位置的图像相乘,并将相乘得到的结果相加,作为3*3矩阵的中间位置的数值。为了保证利用算子进行边缘检测的运算之后视频帧中主要对象的图像大小不变,因此需要在利用算子之前,在视频帧中主要对象的图像数据周围补零。
图6示出了利用光流法确定的一个视频帧中的主要对象,左侧图为该视频帧的图像,右侧为经过光流法确定的主要对象的示意图。
在操作203中,基于主要对象,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级。
在本发明这一实施方式中,可以确定主要对象的运动属性,并根据主要对象的运动属性,确定基于主要对象在第一视频帧和第二视频帧进行图像增强的增强等级。
这里,主要对象的运动属性可以是主要对象的运动加速度,还可以是平均速度或位移大小,或者其他合适的运动属性,本发明对此不做限定。
在本发明这一实施方式中,若运动属性包括加速度,则可以在加速度满足第一加速度条件的情况下,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第一等级;在加速度满足第二加速度条件的情况下,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第二等级。
在本发明另一实施方式中,为了根据主要的运动属性对视频中的图像进行更精细的处理。可以在确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级的过程中,进行更精细的增强等级划分。具体的,可以在加速度满足第一加速度条件的情况下,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第一等级;在加速度满足第二加速度条件的情况下,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第二等级;在加速度满足第三加速度条件的情况下,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第三等级;在加速度满足第四加速度条件的情况下,确定基于主要对象保持第一视频帧和第二视频帧。
举例说明,可以在计算出主要对象加速度之后,可以设置2个运动加速度阈值a0和a1,当主要对象运动加速度小于a0时,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第一等级,节约功耗,降低推理时间。当画面中主要对象运动加速度大于a0但小于a1时,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第二等级。当画面中主要对象运动加速度大于a1时,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级为第三等级,使用较高的增强等级对视频帧进行图像增强,输出更高FPS的后处理VideoStream(视频流),使运动更加流畅,画面质量更高。在加速度满足小于a0的情况下,确定基于主要对象保持第一视频帧和第二视频帧。
其中,运动加速度a0和a1取主要对象运动加速度的绝对值,并且a0<a1。第一等级、第二等级和第三等级为依次增强的图像增强等级。举例说明,第一等级可以是在第一视频帧和第二视频帧中插入1个中间帧,第二等级可以是在第一视频帧和第二视频帧中插入2个中间帧,第三等级可以是在第一视频帧和第二视频帧中插入3个中间帧。
如此,使用本发明的图像处理方法,根据对象的运动速度自适应调节FPS等级。能够更加智能和灵活的控制视频图像的增强级别,增强级别越强,物体运动越流畅,FPS(Frames Per Second,每秒传输帧数)越高,运动过程越清晰。由此,有效避免了传统硬件仿真算法中对于所有对象均采用固定的图像增强等级进行图像增强的过程中对于运动较快的对象增强不足带来的拖影以及画面问题。同时,避免了对于位移较小或运动较慢的对象采用与位移较大或运动较快的对象的相同图像增强等级进行图像增强带来的算力浪费等问题。
在操作204中,根据增强等级对第一视频帧和第二视频帧进行图像增强。
在本发明这一实施方式中,可以基于主要对象和增强等级,确定第一视频帧和第二视频的中间帧光流数据,并根据中间帧光流数据,对第一视频帧和第二视频帧进行图像增强。
在本发明这一实施方式中,可以采用以下操作实现基于主要对象,确定第一视频帧和第二视频的中间帧光流数据:获取主要对象在第一视频帧的第一位置和在第二视频帧中的第二位置,并对第一位置和第二位置进行光流处理,得到主要对象在中间帧中的第一预测位置,进一步的,根据第一预测位置进行反向训练,得到反向训练的训练结果,从而对反向训练的训练结果进行归一化处理,并基于归一化处理结果,得到主要对象在中间帧的目标预测位置。
在本发明这一实施方式中,采用如图7所示的图像处理的光流算法网络,实现基于主要对象,确定第一视频帧和第二视频的中间帧光流数据。
具体的,参考图7所示光流算法网络,网络输入为主要对象在第一视频帧和第二视频帧这两个视频帧中的位置x0和x1,通过OpticalFlow Network(光流处理层)之后可以得到主要对象的光流结果,摒弃冗余对象。之后将光流结果输入至BackwardTrainingBlock(反向训练层),n表示第n个反向训练层,i表示视频帧序号。每一个反向训练层的输入包括:上一反向训练层的训练结果、作为光流算法网络输入的主要对象在两个视频帧中的位置x0和x1、以及根据上一反向训练层的训练结果推理出的主要对象在中间预测帧的位置其中,第一个反向训练层的输入是随机的,随机选取中间预测帧中主要对象的位置,其他反向训练层处理过程中可以根据反向训练层的训练结果与中间预测帧中主要对象的实际位置xi的误差Loss对光流算法网络进行更新,其中,主要对象的位置可以采用主要对象所包括的多个像素点的位置来表示,像素点的位置可以放置在二维坐标的第一象限进行处理。
误差Loss可以采用最小二乘法进行计算和确定,具体的,可以采用如下公式(2)确定:
其中,Loss表示所有参与光流预测的像素点的误差的和;
xi表示像素点i的实际位置;
ρ表示利用最小二乘法确定像素点i的单点误差;
xix表示像素点i的实际横坐标与预测横坐标之间的横坐标差值;
xiy表示像素点i的实际纵坐标与预测纵坐标之间的纵坐标差值。
在本发明这一实施方式中,可以采用如下操作实现根据第一预测位置进行反向训练:基于第一预测位置,对主要对象进行第一视频帧与第二视频帧之间的空间关联,得到关联结果;对关联结果进行稀疏处理,得到稀疏向量;基于稀疏向量,提取中间帧的图像局部特征;对图像局部特征进行残差处理,得到残差处理结果;对残差处理结果进行稠密处理,得到反向训练的训练结果。
具体的,参考图7所示光流算法网络,图7右侧所示为反向训练层的具体处理过程。基于前一反向训练层得到的主要对象在第二视频帧中的第一预测位置对主要对象进行第一视频帧与第二视频帧之间的Concat(空间关联),得到关联结果。并将关联结果输入至1/K times resize(稀疏模块)进行稀疏处理,得到稀疏向量。进一步,基于将稀疏向量输入至Conv layer(局部特征提取模块),通过使用卷积块在灰度图像滑动相乘的方法提取中间帧的图像局部特征,局部特征用于6x ResBlock(残差模块)进行神经网络训练。对图像局部特征进行残差处理,得到残差处理结果。相比于传统深层神经网络在深层的训练效果更好,有效降低训练错误,并且有助于解决梯度消失和梯度爆炸的问题,可以保证深层网络训练性能。更进一步的,将残差处理结果输入K times resize(稠密模块)进行稠密处理,得到反向训练的训练结果。
举例说明,选取960FPS的视频数据的视频帧图像序列,首先下采样至240FPS,将240FPS的采样结果输入光流算法网络进行训练,得到网络输出的960FPS图像序列,再将两个960FPS图像序列进行比较并计算误差。最后将光流算法网络向误差最小的方向进行训练,即可使得利用本发明这一实施方式中光流算法网络得到的输出与选取960FPS的视频数据的视频帧原图像序列几乎完全一致,图8示出了本发明实施例图像处理的第一视频帧和第二视频帧的图像示意图,如图8所示,上侧为第一视频帧的图像,下侧为第二视频帧的图像。图9示出了本发明实施例对图8所示的第一视频帧和第二视频帧的进行图像处理得到的光流结果示意图。其中,图9的中分为上中下三部分。上侧为第一视频帧的光流结果,中间为中间帧预测的光流结果,下侧为第二视频帧的光流结果。如此,有效保证训练得到的光流算法网络的精确度。
在本发明这一实施方式中,根据中间帧光流数据,对第一视频帧和第二视频帧进行图像增强,包括:根据第一视频帧和中间帧光流数据,确定前向预测帧;根据第二视频帧和中间帧光流数据,确定反向预测帧;确定前向预测帧和反向预测帧的双向预测误差;根据误差和中间帧光流数据,确定第一视频帧和第二视频帧的预测中间帧。
具体的,为了避免图像处理中出现较大的误差,在图像序列中引入画面问题。本发明实施例在生成中间帧的过程中,基于主要对象和增强等级,利用第一视频帧和中间帧光流数据,进行正向的中间帧预测,使用局部动态卷积生成第一预测中间帧。并且基于主要对象和增强等级,利用第二视频帧和中间帧光流数据,进行反向的中间帧预测,使用局部动态卷积生成第二预测中间帧。如果中间帧光流数据正确的话,第一预测中间帧和第二预测中间帧之间的误差应该非常小。如果中间帧光流数据有误的话,则第一预测中间帧和第二预测中间帧之间的误差就会较大。其中,第一预测中间帧和第二预测中间帧之间的误差可以采用如下公式(3)确定:
其中,e(f0→i,f1→i)表示第一预测中间帧和第二预测中间帧之间的误差;
f0→i表示对象从第0个视频帧到第i个视频帧的运动轨迹;
f1→i表示对象从第1个视频帧到第i个视频帧的运动轨迹;
‖f0→i-f1→i‖表示对象从第0个视频帧到第i个视频帧的位移与从第1个视频帧到第i个视频帧的位移之差。
当第一预测中间帧和第二预测中间帧之间的误差大于设定误差阈值时,则可以确定中间帧的预测结果有误,可以将第一视频帧拷贝一次作为中间帧。当第一预测中间帧和第二预测中间帧之间的误差小于设定误差阈值时,可以确定中间帧的预测结果正确,可以将预测得到的中间帧的图像插入到第一视频帧的第二视频帧的图像序列之间。
在本发明这一实施例中,对视频中的多个视频帧均能够进行图像处理,得到增强的图像。如此,即可以根据需求对视频进行插帧。例如:在第1视频帧和第2视频帧之间,第2视频帧和第3视频帧之间……第n-1视频帧和第n视频帧之间均可以实现插帧。进一步的,还可以在插帧之后再一次进行插帧处理。对于视频数据的更新,可以每完成一次插帧即更新一次视频数据,也可以设定完成设定数量的插帧处理之后,对视频数据进行更新,还可以在完成完整视频的插帧处理之后再对视频数据进行更新,对比,本发明不做具体限定。
本发明实施例图像处理方法及装置,从视频中获取至少一个第一视频帧和第二视频帧,并根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象,进一步基于主要对象,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级,以根据增强等级对第一视频帧和第二视频帧进行图像增强。由此,完全通过软件算法即可实现对视频图像的增强,可以通过多种方法对软件算法进行实时优化和升级,并且可以根据视频帧中主要对象调整增强等级,例如:对于运动变化较小或者用户注意力较低的对象使用较低级别的增强效果,如此,显著提升图像处理效率,节约计算和存储资源,并有效节约图像处理芯片的功耗。
同理,基于上文图像处理方法,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被处理器执行时,使得处理器至少执行如下的操作步骤:操作201,从视频中获取至少一个第一视频帧和第二视频帧,第一视频帧是第二视频帧的前向帧;操作202,根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象;操作203,基于主要对象,确定基于主要对象对第一视频帧和第二视频帧进行图像增强的增强等级;操作204,根据增强等级对第一视频帧和第二视频帧进行图像增强。
进一步,基于如上文图像处理方法,本发明实施例还提供一种图像处理装置,如图10,该装置100包括:获取模块1001,用于从视频中获取第一视频帧和第二视频帧,第一视频帧是第二视频帧的前向帧;对象确定模块1002,用于根据第一视频帧和第二视频帧,确定第二视频帧的至少一个主要对象;等级确定模块1003,用于基于主要对象,确定基于主要对象对第一视频帧和第二视频进行图像增强的增强等级;增强模块1004,用于根据增强等级,对第一视频帧和第二视频帧进行图像增强。
更进一步,基于如上文图像处理方法,本发明实施例还提供一种设备,如图11所示,设备110包括至少一个处理器1101、以及与处理器1101连接的至少一个存储器1102、总线1103;其中,处理器1101、存储器1102通过总线1103完成相互间的通信;处理器1101用于调用存储器1102中的程序指令,以执行上述图像处理方法。
这里需要指出的是:以上对针对图像处理装置及设备实施例的描述,与前述图1至9所示的方法实施例的描述是类似的,具有同前述图1至9所示的方法实施例相似的有益效果,因此不做赘述。对于本发明图像处理装置及设备实施例中未披露的技术细节,请参照本发明前述图1至9所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图像处理方法,所述方法包括:
从视频中获取至少一个第一视频帧和第二视频帧,所述第一视频帧是所述第二视频帧的前向帧;
根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的至少一个主要对象;
基于所述主要对象,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级;
根据所述增强等级对所述第一视频帧和所述第二视频帧进行图像增强。
2.根据权利要求1所述的方法,所述根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的主要对象,包括:
根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的多个对象的对象运动属性;
根据所述对象运动属性是否符合设定运动范围,确定所述第二视频帧的至少一个主要对象。
3.根据权利要求2所述的方法,所述根据所述对象运动属性是否符合设定运动范围,确定所述第二视频帧的至少一个主要对象,包括:
对象运动属性符合设定运动范围的对象进行边缘检测,得到边缘检测结果;
根据所述边缘检测结果确定所述第二视频帧的至少一个主要对象。
4.根据权利要求1所述的方法,所述基于所述主要对象,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级,包括:
确定所述主要对象的运动属性;
根据所述主要对象的运动属性,确定基于所述主要对象在所述第一视频帧和所述第二视频帧进行图像增强的增强等级。
5.根据权利要求1所述的方法,若运动属性包括加速度,所述根据所述主要对象的运动属性,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级,包括:
在所述加速度满足第一加速度条件的情况下,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级为第一等级;
在所述加速度满足第二加速度条件的情况下,确定基于所述主要对象对所述第一视频帧和所述第二视频帧进行图像增强的增强等级为第二等级。
6.根据权利要求1所述的方法,所述根据所述增强等级对所述第一视频帧和所述第二视频帧进行图像增强,包括:
基于所述主要对象和所述增强等级,确定所述第一视频帧和所述第二视频的中间帧光流数据;
根据中间帧光流数据,对所述第一视频帧和所述第二视频帧进行图像增强。
7.根据权利要求6所述的方法,所述基于所述主要对象,确定所述第一视频帧和所述第二视频的中间帧光流数据,包括:
获取所述主要对象在所述第一视频帧的第一位置和在所述第二视频帧中的第二位置;
对所述第一位置和所述第二位置进行光流处理,得到所述主要对象在所述中间帧中的第一预测位置;
根据所述第一预测位置进行反向训练,得到反向训练的训练结果;
对所述反向训练的训练结果进行归一化处理,并基于归一化处理结果,得到所述主要对象在所述中间帧的目标预测位置。
8.根据权利要求7所述的方法,所述根据所述第一预测位置进行反向训练,包括:
基于所述第一预测位置,对所述主要对象进行所述第一视频帧与所述第二视频帧之间的空间关联,得到关联结果;
对所述关联结果进行稀疏处理,得到稀疏向量;
基于所述稀疏向量,提取所述中间帧的图像局部特征;
对所述图像局部特征进行残差处理,得到残差处理结果;
对所述残差处理结果进行稠密处理,得到所述反向训练的训练结果。
9.根据权利要求6所述的方法,所述根据中间帧光流数据,对所述第一视频帧和所述第二视频帧进行图像增强,包括:
根据所述第一视频帧和所述中间帧光流数据,确定前向预测帧;
根据所述第二视频帧和所述中间帧光流数据,确定反向预测帧;
确定所述前向预测帧和所述反向预测帧的双向预测误差;
根据所述误差和所述中间帧光流数据,确定所述第一视频帧和所述第二视频帧的预测中间帧。
10.一种图像处理装置,所述装置包括:
获取模块,用于从视频中获取第一视频帧和第二视频帧,所述第一视频帧是所述第二视频帧的前向帧;
对象确定模块,用于根据所述第一视频帧和所述第二视频帧,确定所述第二视频帧的至少一个主要对象;
等级确定模块,用于基于所述主要对象,确定基于所述主要对象对所述第一视频帧和所述第二视频进行图像增强的增强等级;
增强模块,用于根据所述增强等级,对所述第一视频帧和所述第二视频帧进行图像增强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524690.5A CN114972143A (zh) | 2022-05-13 | 2022-05-13 | 一种图像处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210524690.5A CN114972143A (zh) | 2022-05-13 | 2022-05-13 | 一种图像处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972143A true CN114972143A (zh) | 2022-08-30 |
Family
ID=82983991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210524690.5A Pending CN114972143A (zh) | 2022-05-13 | 2022-05-13 | 一种图像处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972143A (zh) |
-
2022
- 2022-05-13 CN CN202210524690.5A patent/CN114972143A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110176027B (zh) | 视频目标跟踪方法、装置、设备及存储介质 | |
Xu et al. | Deep image matting | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
US9300947B2 (en) | Producing 3D images from captured 2D video | |
CN106162177B (zh) | 视频编码方法和装置 | |
US8605946B2 (en) | Moving object detection apparatus and moving object detection method | |
CN112561920A (zh) | 用于在视频中进行密集语义分割的深度学习 | |
KR100738241B1 (ko) | 이미지 처리 장치 | |
US20160284095A1 (en) | Machine learning of real-time image capture parameters | |
WO2017179511A1 (en) | Information processing apparatus and information processing method for detecting position of object | |
CN113850833A (zh) | 使用降低分辨率的神经网络和先前帧的掩模的视频帧分割 | |
CN108491763B (zh) | 三维场景识别网络的无监督训练方法、装置及存储介质 | |
US10867390B2 (en) | Computer vision processing | |
CN110738116B (zh) | 活体检测方法及装置和电子设备 | |
CN109903315B (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
KR20200128378A (ko) | 이미지 생성 네트워크의 훈련 및 이미지 처리 방법, 장치, 전자 기기, 매체 | |
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
KR102311796B1 (ko) | 지역적 신체영역 정보를 이용한 휴먼 모션 디블러링 방법 및 장치 | |
CN113592913B (zh) | 一种消除自监督三维重建不确定性的方法 | |
JP2010114752A (ja) | 撮像装置及び撮像方法及びプログラム | |
KR20030005288A (ko) | 화상 처리 장치 | |
EP1361541B1 (en) | Process and device for global motion estimation in a sequence of images, for instance for optical mice | |
CN114972143A (zh) | 一种图像处理方法及装置 | |
JP7233873B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
Teknomo et al. | Background image generation using boolean operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |