CN117593510A - 图像处理方法和电子设备 - Google Patents
图像处理方法和电子设备 Download PDFInfo
- Publication number
- CN117593510A CN117593510A CN202311573480.6A CN202311573480A CN117593510A CN 117593510 A CN117593510 A CN 117593510A CN 202311573480 A CN202311573480 A CN 202311573480A CN 117593510 A CN117593510 A CN 117593510A
- Authority
- CN
- China
- Prior art keywords
- detection frame
- image
- detection
- target
- frame set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 483
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000004044 response Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 64
- 238000011176 pooling Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000003379 elimination reaction Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 238000010422 painting Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了图像处理方法和电子设备。属于计算机技术领域。该方法的实施例包括:对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,第一检测框集合中的第一检测框包括第一图像中的图像对象,第二检测框集合中的第二检测框包括图像对象的影子,第三检测框集合中的第三检测框包括图像对象和影子;接收用户对第一图像的第一输入;响应于第一输入,确定第一检测框集中的目标第一检测框;基于目标第一检测框和第二检测框集,确定第三检测框集中的目标第三检测框;对目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
Description
技术领域
本申请实施例涉及人工智能技术领域,具体涉及图像处理方法和电子设备。
背景技术
随着图像处理技术的发展,各类图像处理工具的应用越来越广泛,且功能越来越丰富。在很多场景中,需要对图像中的某些对象进行去除处理,以满足用户要求。
现有技术中,通常仅能够进行图像对象(例如,人物,动物等)的识别和去除,无法针对图像对象的影子进行有效处理。在进行图像对象的去除操作后,由于图像对象的影子未能得到相应的消除,因而图像处理效果较差。
发明内容
本申请实施例的目的是提供一种图像处理方法和电子设备,能够解决因未对图像中图像对象的影子进行去除处理导致图像处理效果较差的技术问题。
第一方面,本申请实施例提供了一种图像处理方法,该方法包括:对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,所述第一检测框集合中的第一检测框包括所述第一图像中的图像对象,所述第二检测框集合中的第二检测框包括所述图像对象的影子,所述第三检测框集合中的第三检测框包括所述图像对象和影子;接收用户对第一图像的第一输入;响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框;基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框;对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
第二方面,本申请实施例提供了一种图像处理装置,该装置包括:检测单元,用于对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,所述第一检测框集合中的第一检测框包括所述第一图像中的图像对象,所述第二检测框集合中的第二检测框包括所述图像对象的影子,所述第三检测框集合中的第三检测框包括所述图像对象和影子;接收单元,用于接收用户对第一图像的第一输入;第一确定单元,用于响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框;第二确定单元,用于基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框;处理单元,用于对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上述第一方面所描述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所描述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,通过对第一图像进行检测,可得到第一检测框集合、第二检测框集合和第三检测框集合共三种类型的检测框,其中,第一检测框中包括图像对象,第二检测框中包括影子,第三检测框中包括图像对象和影子。在接收到用户对第一图像的输入后,可确定第一检测框集合中的目标第一检测框,从而确定出待消除的图像对象。而后可基于目标第一检测框和第二检测框集合,确定第三检测框集合中的目标第三检测框,从而确定出待消除的图像对象的影子。最后,通过对目标第三检测框中的图像对象和影子进行消除处理,即可得到同时去除了用户指定的图像对象及其影子的第二图像。由此,能够解决消除图像中的图像对象后影子残留的问题,实现在消除图像对象的同时,自动检测并消除其对应的影子,使处理后的图像更加真实、自然,提高了图像处理效果。
附图说明
图1是本申请实施例的图像处理方法的流程图;
图2是本申请实施例的图像处理方法的检测过程的流程图;
图3是本申请实施例的检测模型的结构示意图;
图4是本申请实施例的目标第三检测框的确定步骤的流程图;
图5是本申请实施例的图像处理方法的应用场景的示意图之一;
图6是本申请实施例的图像处理方法的应用场景的示意图之一;
图7是本申请实施例的图像处理方法的应用场景的示意图之一;
图8是本申请实施例的图像处理模型的结构示意图;
图9是本申请实施例提供的图像处理装置的结构示意图;
图10是本申请实施例提供的电子设备的结构示意图;
图11是适于用来实现本申请实施例的电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的图像处理方法和装置进行详细地说明。
请参考图1,其示出了本申请实施例提供的图像处理方法的流程图之一。本申请实施例提供的图像处理方法,可以应用于电子设备。实践中,上述电子设备可以是智能手机、平板电脑、膝上型便携计算机、可穿戴设备等各种具有显示屏幕的电子设备。
本申请实施例提供的图像处理方法的流程,包括以下步骤:
步骤101,对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合。
在本实施例中,第一图像可以是任一待进行图像对象及影子去除的图像。图像处理方法的执行主体可以是所述电子设备中的处理器。可以通过检测算法或者检测模型对第一图像进行检测,得到至少三种类别的检测结果。
上述至少三种类别包括图像对象类、影子类、图像对象加影子类。上述图像对象可以是预先指定的各种类别的对象,例如,人物、动物、景物等,此处不作具体限定。
上述检测模型可以是各种能够进行多类别检测的模型。检测模型可以通过机器学习方法(例如,有监督学习方法)预先训练得到。作为示例,检测模型所使用的网络结构可以包括但不限于Fast R-CNN(Fast Region-Convolutional Neural Network,快速区域卷积神经网络)、FCOS(Fully Convolutional One-Stage Object Detection,全卷积单阶段检测器)等、SSD(Single Shot MultiBox Detector,单阶段多框检测器)等,此处不作具体限定。
在本实施例中,检测结果可通过检测框的形式体现。具体地,检测结果中可包括第一检测框集合、第二检测框集合和第三检测框集合。第一检测框集合中可包括至少一个第一检测框。第二检测框集合中可包括至少一个第二检测框。第三检测框集合中可包括至少一个第三检测框。其中,第一检测框中可包括第一图像中的图像对象,第二检测框中可包括第一图像中的图像对象的影子,第三检测框中可同时包括第一图像中的图像对象及其影子。
在一些可选的实现方式中,参见图2,上述步骤101可以包括如下子步骤:
子步骤S11,将第一图像输入至检测模型。
此处,检测模型可以包括特征提取网络、区域候选网络、池化层和全连接层,参见图3所示。上述特征提取网络可用于提取图像特征。上述区域候选网络可用于生成检测框。上述池化层可用于进行池化处理,如进行特征的降采样(downsample)。上述全连接层可以用于确定检测框的类别。
作为示例,检测模型可以采用Fast R-CNN网络结构。Fast R-CNN是一种可以用于进行目标检测的神经网络结构,其可以在图像中精确找到物体所在位置。上述特征提取网络可以为ConvNet(Convolutional Neural Network,卷积神经网络),上述区域候选网络可以是RPN(Region Proposal Network,区域候选网络)。
子步骤S12,通过特征提取网络,提取第一图像的图像特征。
此处,图像特征可以采用特征图(feature map)的形式表示。
子步骤S13,通过区域候选网络对图像特征进行处理,得到候选检测框。
继续上述示例,RPN网络可采用滑动窗口的方式在特征图上滑动,对每个位置生成多个不同大小和长宽比的锚点(Anchor),然后对每个锚点预测其是否包含图像对象,以及需要调整的位置偏移量。对于每个锚点,RPN网络会输出两个得分,分别表示该锚点包含图像对象体的概率和需要调整的位置偏移量。首先,可根据包含图像对象体的概率对锚点进行筛选,保留得分最高的锚点和其对应的位置偏移量。然后,可使用位置偏移量对锚点进行调整,得到候选检测框。具体地,将锚点在特征图中的坐标与位置偏移量相加,即可得到候选检测框的位置信息。
子步骤S14,通过池化层,提取候选检测框的特征向量。
此处,对于每个候选检测框,可以使用ROI(Region of Interest,感兴趣区域)池化算法提取其对应的特征向量。具体地,在特征图上将每个候选检测框划分为固定大小的子区域,然后对每个子区域进行最大池化,将其压缩为一个固定大小的特征向量。
子步骤S15,通过全连接层对特征向量进行处理,得到候选检测框的类别信息。
此处,连接层的维度是(N,5),N表示候选检测框的数量,而每个候选检测框的输出维度是5,前4维输出的是候选检测框的位置信息,例如,坐标值,第5维输出的是候选检测框的类别(例如,图像对象类、影子类、图像对象加影子类)。
作为示例,全连接层可以使用Sigmoid函数计算候选检测框属于各个类别的概率。对于每一个类别,利用Sigmoid函数计算出的候选检测框属于该预设类别的概率可以位于区间[0,1]。
子步骤S16,基于类别信息,对各类别的候选检测框进行去重处理,得到第一检测框集合、第二检测框集合和第三检测框集合。
此处,可采用非极大值抑制(Non-Maximum Suppression,NMS)算法,对各类别的候选检测框进行去重处理,得到第一检测框集合、第二检测框集合和第三检测框集合。
可选的,检测模型在训练时可采用多任务损失函数,包括分类损失和回归损失。分类损失用于衡量ROI所属的类别是否正确,回归损失用于衡量预测的检测框与真实框之间的差距。通过多任务损失函数,能够同时得到各检测框的位置和类别。
由于检测模型中包括区域候选网络,该网络可以快速地确定出图像中包含某指定对象的区域,因而,相对于其他网络结构,可以更快地进行检测。
步骤102,接收用户对第一图像的第一输入。
在本实施例中,上述执行主体可以接收用户对第一图像的第一输入。上述第一输入可用于选定第一图像中的某一位置。上述第一输入可以是触控输入,也可以是语音指令,或者为用户输入的特定手势,或者为其他可行性输入,具体的可以根据实际使用需求确定,本申请实施例不作限定。本申请实施例中的特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种。本申请实施例中的点击输入可以为单击输入、双击输入或任意次数的点击输入等,还可以为长按输入或短按输入。
步骤103,响应于第一输入,确定第一检测框集合中的目标第一检测框。
在本实施例中,上述执行主体响应于第一输入,可以确定第一检测框集合中的目标第一检测框。目标第一检测框可以是用户所选定的位置所落入的第一检测框,也即包含待消除的图像对象的检测框。
在一些可选的实现方式中,上述执行主体响应于上述第一输入,可以首先确定上述第一图像的位置。而后,可从上述第一检测框集合中,选取上述位置所在的第一检测框,作为目标第一检测框。作为示例,第一图像中包括多个路人,用户选择消除某个路人时,上述执行主体可以获得用户点击的坐标。上述执行主体可以通过遍历第一检测框集合中的第一检测框,判断出用户点击的坐标所属的目标第一检测框。由此,可以方便快捷地确定出目标第一检测框。
步骤104,基于目标第一检测框和第二检测框集合,确定第三检测框集合中的目标第三检测框。
在本实施例中,若目标第一检测框与第三检测框集合中的任一第三检测框完全重合,说明目标第一检测框中的图像对象没有影子,无需进行影子的消除。反之,若目标第一检测框与第三检测框集合中各第三检测框均未完全重合,说明目标第一检测框中的图像对象存在影子,此时,可以基于目标第一检测框和第二检测框集合,确定第三检测框集合中的目标第三检测框。目标第三检测框即为同时包含待消除的图像对象及其影子的检测框。作为示例,可以首先基于检测框与第二检测框集合中的第二检测框的位置关系,从第二检测框集合中选取部分第二检测框,作为候选第二检测框。而后,基于候选第二检测框与第三检测框集合中的第三检测框的位置关系,从第三检测框集合中选取合适的第三检测框,作为目标第三检测框。
在一些可选的实现方式中,参见图4,上述步骤103可以包括如下子步骤:
子步骤S21,确定目标第一检测框与第二检测框集合中的第二检测框的第一交并比。
此处,上述执行主体可以分别确定目标第一检测框与第二检测框集合中的每个第二检测框的交并比(Intersection over Union,IoU),并记为第一交并比。其中,第一交并比=相交面积/(目标第一检测框面积+第二检测框-相交面积)。
作为示例,参见图5,图像中的图像对象有两个,分别为人和狗。影子有两个,分别为人影和狗影。第一检测框有两个,分别如标号501和502所示(可分别记为第一检测框501、第一检测框502)。第二检测框有两个,分别如标号503和504所示(可分别记为第二检测框503、第二检测框504)。第三检测框有两个,分别如标号505和506所示(可分别记为第三检测框505、第三检测框506)。
用户点击了图像中的人后,可将第一检测框501作为目标第一检测框,计算第一检测框501与第二检测框503的第一交并比,并计算第一检测框501与第二检测框504的第一交并比。
子步骤S22,基于第一交并比,从第二检测框集合中选取候选第二检测框。
此处,可以按照第一交并比由高到低的顺序,对第二检测框集合中的第二检测框进行排序,按照排序顺序选取目标数量(例如,3个)的第二检测框,作为候选第二检测框。
继续上述事例,由于第二检测框的数量小于目标数量,因此,可将第二检测框503和504均作为候选第二检测框。
子步骤S23,将候选第二检测框与目标第一检测框进行合并,得到合并检测框。
此处,对于每个候选第二检测框,可以确定该候选第二检测框与目标第一检测框的最小外接矩形,得到合并检测框。
继续上述示例,可以将第二检测框503与第一检测框501合并,得到如图6中的标号601所示的合并检测框,此外,可以将第二检测框504与第一检测框501合并,得到如图6中的标号602所示的合并检测框。
子步骤S24,确定合并检测框与第三检测框集合中的第三检测框的第二交并比。
此处,对于每个合并检测框,可以分别计算该合并检测框与第三检测框集合中的每个第三检测框的交并比,并记为第二交并比。
继续上述示例,参见图7,合并检测框601与第三检测框505的第二交并比为0.95,合并检测框601与第三检测框506的第二交并比为0.1,合并检测框602与第三检测框505的第二交并比为0.3,合并检测框602与第三检测框506的第二交并比为0.6。
子步骤S35,基于第二交并比,确定第三检测框集合中的目标第三检测框。
此处,可以选取第二交并比的最大值对应的第三检测框,作为目标第三检测框。继续上述示例,第二交并比的最大值为合并检测框601与第三检测框505的第二交并比0.95,因此,可将第三检测框505确定为目标第三检测框。
可以理解的是,若自动消除图中人及其影子,若直接计算第一检测框501与各第二检测框的第一交并比,并选取第一交并比最大第二检测框进行影子消除,会存在第一检测框501与第二检测框504的第一交并比大于第一检测框501与第二检测框503交并比的情况,导致人和狗影被消除,而非人和人影被消除。因此,单独计算图像对象的检测框与影子的检测框的交并比的方式不完全准确。本申请实施例中,在将目标第一检测框与候选第二检测框进行合并,并计算合并检测框与第三检测框的第二交并比,作为二次验证,能够避免上述情况出现,极大提升了待消除对象的识别的准确性。
步骤105,对目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
在本实施例中,上述执行主体可以对目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。例如,图5中的第三检测框505中的人和影子。此处,可以借助各种图像处理工具或者图像处理算法进行图像对象和影子的消除处理,此处不作具体限定。
在一些可选的实现方式中,可以通过如下步骤对目标第三检测框中的图像对象和影子进行消除处理:
第一步,接收用户的第二输入。上述第二输入可用于选定第一图像中的待消除区域,即目标第三检测框中的图像对象及影子。上述第二输入可以是触控输入,也可以是语音指令,或者为用户输入的特定手势,或者为其他可行性输入,具体的可以根据实际使用需求确定。作为示例,上述第二输入可以是对目标第三检测框中的图像对象及影子的涂抹输入。作为又一示例,上述执行主体可对第三检测框中的图像对象及影子进行标记,例如,进行高亮显示或者低亮显示,用户可通过涂抹操作、拖拽操作等修改该区域的边缘,故第二输入还可以是涂抹输入、拖拽输入等,此处不作具体限定。
第二步,响应于第二输入,获取图像掩膜。此处,可以将第一图像的待消除区域(例如,用户涂抹区域)的像素值设置为255,将其余区域的像素值设置为0,得到图像掩膜(mask)。
第三步,基于图像掩膜,对第一图像中的掩膜区域进行像素点重置,得到第三图像。此处,掩膜区域为图像掩膜中像素值为255的区域在第一图像中的对应区域。第一图像中的掩膜区域的像素点重置为0,得到第三图像。
第四步,将图像掩膜和第三图像输入至预先训练的图像处理模型,通过图像处理模型对第三图像中的像素点重置区域进行消除处理,得到第二图像。上述图像处理模型可以通过机器学习方法预先训练得到。
作为示例,参见图8,图像处理模型可以采用SD-inpaint(Stable Diffusion inPaint,用于绘画的稳定扩散模型)模型,SD-inpaint模型是一种被用来消除画面中不规则细节的图像处理模型。该模型在训练过程中通过扩散过程学习图像生成的能力,利用该模型,可对消除的区域进行背景填充并能够保持图像的连续性和自然度。上述执行主体可以将图像掩膜和第三图像输入至该模型,同时还可输入提示词“photograph of abeautifulempty scene,highest quality settings”。该模型可通过多个去噪单元对输入的第三图像进行处理,从而得到该模型输出的第二图像。通过图像处理模型能够对消除的区域进行背景填充,能够保持图像的连续性和自然度,提高了第二图像的真实性。
本申请的上述实施例提供的方法,通过对第一图像进行检测,可得到第一检测框集合、第二检测框集合和第三检测框集合共三种类别的检测框,其中,第一检测框中包括图像对象,第二检测框中包括影子,第三检测框中包括图像对象和影子。在接收到用户对第一图像的输入后,可确定第一检测框集合中的目标第一检测框,从而确定出待消除的图像对象。而后可基于目标第一检测框和第二检测框集合,确定第三检测框集合中的目标第三检测框,从而确定出待消除的图像对象的影子。最后,通过对目标第三检测框中的图像对象和影子进行消除处理,即可得到同时去除了用户指定的图像对象及其影子的第二图像。由此,能够解决消除图像中的图像对象后影子残留的问题,实现在消除图像对象的同时,自动检测并消除其对应的影子,使处理后的图像更加真实、自然,提高了图像处理效果。
需要说明的是,本申请实施例提供的图像处理方法,执行主体可以为图像处理装置。本申请实施例中以图像处理装置执行图像处理方法为例,说明本申请实施例提供的图像处理装置。
如图9所示,本实施例所述的图像处理装置900包括:检测单元901,用于对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,第一检测框中包括图像对象,第二检测框中包括影子,第三检测框中包括图像对象和影子;接收单元902,用于接收用户对第一图像的第一输入;第一确定单元903,用于响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框;第二确定单元904,用于基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框;处理单元905,用于对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
在本实施例的一些可选的实现方式中,所述第二确定单元904,进一步用于:确定所述目标第一检测框与所述第二检测框集合中的第二检测框的第一交并比;基于所述第一交并比,从所述第二检测框集合中选取候选第二检测框;将所述候选第二检测框与所述目标第一检测框进行合并,得到合并检测框;确定所述合并检测框与所述第三检测框集合中的第三检测框的第二交并比;基于所述第二交并比,确定所述第三检测框集合中的目标第三检测框。本申请实施例中,在将目标第一检测框与候选第二检测框进行合并,并计算合并检测框与第三检测框的第二交并比,作为二次验证,能够避免上述情况出现,极大提升了待消除对象的识别的准确性。
在本实施例的一些可选的实现方式中,检测单元901,进一步用于:将所述第一图像输入至检测模型,所述检测模型包括特征提取网络、区域候选网络、池化层和全连接层;通过所述特征提取网络,提取所述第一图像的图像特征;通过所述区域候选网络对所述图像特征进行处理,得到候选检测框;通过所述池化层,提取所述候选检测框的特征向量;通过所述全连接层对所述特征向量进行处理,得到所述候选检测框的类别信息;基于所述类别信息,对各类别的候选检测框进行去重处理,得到第一检测框集合、第二检测框集合和第三检测框集合。由于检测模型中包括区域候选网络,该网络可以快速地确定出图像中包含某指定对象的区域,因而,相对于其他网络结构,可以更快地进行检测。
在本实施例的一些可选的实现方式中,所述第一确定单元903,进一步用于:响应于所述第一输入,确定所述第一图像的位置;从所述第一检测框集合中,选取所述位置所在的第一检测框,作为目标第一检测框。由此,可以方便快捷地确定出目标第一检测框。
在本实施例的一些可选的实现方式中,所述处理单元905,进一步用于:接收用户的第二输入;响应于所述第二输入,获取图像掩膜;基于所述图像掩膜,对所述第一图像中的掩膜区域进行像素点重置,得到第三图像;将所述图像掩膜和所述第三图像输入至预先训练的图像处理模型,通过所述图像处理模型对所述第三图像中的像素点重置区域进行消除处理,得到第二图像。由此,通过图像处理模型能够对消除的区域进行背景填充,能够保持图像的连续性和自然度,提高了第二图像的真实性。
本申请的上述实施例提供的装置,通过对第一图像进行检测,可得到第一检测框集合、第二检测框集合和第三检测框集合共三种类别的检测框,其中,第一检测框中包括图像对象,第二检测框中包括影子,第三检测框中包括图像对象和影子。在接收到用户对第一图像的输入后,可确定第一检测框集合中的目标第一检测框,从而确定出待消除的图像对象。而后可基于目标第一检测框和第二检测框集合,确定第三检测框集合中的目标第三检测框,从而确定出待消除的图像对象的影子。最后,通过对目标第三检测框中的图像对象和影子进行消除处理,即可得到同时去除了用户指定的图像对象及其影子的第二图像。由此,能够解决消除图像中的图像对象后影子残留的问题,实现在消除图像对象的同时,自动检测并消除其对应的影子,使处理后的图像更加真实、自然,提高了图像处理效果。
本申请实施例中的图像处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的图像处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为iOS操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的图像处理装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图10所示,本申请实施例还提供一种电子设备1000,包括处理器1001和存储器1002,存储器1002上存储有可在所述处理器1001上运行的程序或指令,该程序或指令被处理器1001执行时实现上述图像处理方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图11为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1100包括但不限于:射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、以及处理器1110等部件。
本领域技术人员可以理解,电子设备1100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1110,用于对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,第一检测框中包括图像对象,第二检测框中包括影子,第三检测框中包括图像对象和影子;用户输入单元1107,用于接收用户对第一图像的第一输入;处理器1110,还用于响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框;第二确定单元904,用于基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框;对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
本申请的上述实施例提供的装置,通过对第一图像进行检测,可得到第一检测框集合、第二检测框集合和第三检测框集合共三种类别的检测框,其中,第一检测框中包括图像对象,第二检测框中包括影子,第三检测框中包括图像对象和影子。在接收到用户对第一图像的输入后,可确定第一检测框集合中的目标第一检测框,从而确定出待消除的图像对象。而后可基于目标第一检测框和第二检测框集合,确定第三检测框集合中的目标第三检测框,从而确定出待消除的图像对象的影子。最后,通过对目标第三检测框中的图像对象和影子进行消除处理,即可得到同时去除了用户指定的图像对象及其影子的第二图像。由此,能够解决消除图像中的图像对象后影子残留的问题,实现在消除图像对象的同时,自动检测并消除其对应的影子,使处理后的图像更加真实、自然,提高了图像处理效果。
可选的,处理器1110,还用于确定所述目标第一检测框与所述第二检测框集合中的第二检测框的第一交并比;基于所述第一交并比,从所述第二检测框集合中选取候选第二检测框;将所述候选第二检测框与所述目标第一检测框进行合并,得到合并检测框;确定所述合并检测框与所述第三检测框集合中的第三检测框的第二交并比;基于所述第二交并比,确定所述第三检测框集合中的目标第三检测框。本申请实施例中,在将目标第一检测框与候选第二检测框进行合并,并计算合并检测框与第三检测框的第二交并比,作为二次验证,能够避免上述情况出现,极大提升了待消除对象的识别的准确性。
可选的,处理器1110,还用于将所述第一图像输入至检测模型,所述检测模型包括特征提取网络、区域候选网络、池化层和全连接层;通过所述特征提取网络,提取所述第一图像的图像特征;通过所述区域候选网络对所述图像特征进行处理,得到候选检测框;通过所述池化层,提取所述候选检测框的特征向量;通过所述全连接层对所述特征向量进行处理,得到所述候选检测框的类别信息;基于所述类别信息,对各类别的候选检测框进行去重处理,得到第一检测框集合、第二检测框集合和第三检测框集合。由于检测模型中包括区域候选网络,该网络可以快速地确定出图像中包含某指定对象的区域,因而,相对于其他网络结构,可以更快地进行检测。
可选的,处理器1110,还用于响应于所述第一输入,确定所述第一图像的位置;从所述第一检测框集合中,选取所述位置所在的第一检测框,作为目标第一检测框。由此,可以方便快捷地确定出目标第一检测框。
可选的,处理器1110,还用于接收用户的第二输入;响应于所述第二输入,获取图像掩膜;基于所述图像掩膜,对所述第一图像中的掩膜区域进行像素点重置,得到第三图像;将所述图像掩膜和所述第三图像输入至预先训练的图像处理模型,通过所述图像处理模型对所述第三图像中的像素点重置区域进行消除处理,得到第二图像。由此,通过图像处理模型能够对消除的区域进行背景填充,能够保持图像的连续性和自然度,提高了第二图像的真实性。
应理解的是,本申请实施例中,输入单元1104可以包括图形处理器(GraphicsProcessing Unit,GPU)11041和麦克风11042,图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072中的至少一种。触控面板11071,也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器1109可用于存储软件程序以及各种数据。存储器1109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1109可以包括易失性存储器或非易失性存储器,或者,存储器1109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器1109包括但不限于这些和任意其它适合类型的存储器。
处理器1110可包括一个或多个处理单元;可选的,处理器1110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述图像处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (12)
1.一种图像处理方法,其特征在于,所述方法包括:
对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,所述第一检测框集合中的第一检测框包括所述第一图像中的图像对象,所述第二检测框集合中的第二检测框包括所述图像对象的影子,所述第三检测框集合中的第三检测框包括所述图像对象和影子;
接收用户对所述第一图像的第一输入;
响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框;
基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框;
对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框,包括:
确定所述目标第一检测框与所述第二检测框集合中的第二检测框的第一交并比;
基于所述第一交并比,从所述第二检测框集合中选取候选第二检测框;
将所述候选第二检测框与所述目标第一检测框进行合并,得到合并检测框;
确定所述合并检测框与所述第三检测框集合中的第三检测框的第二交并比;
基于所述第二交并比,确定所述第三检测框集合中的目标第三检测框。
3.根据权利要求1所述的方法,其特征在于,所述对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,包括:
将所述第一图像输入至检测模型,所述检测模型包括特征提取网络、区域候选网络、池化层和全连接层;
通过所述特征提取网络,提取所述第一图像的图像特征;
通过所述区域候选网络对所述图像特征进行处理,得到候选检测框;
通过所述池化层,提取所述候选检测框的特征向量;
通过所述全连接层对所述特征向量进行处理,得到所述候选检测框的类别信息;
基于所述类别信息,对各类别的候选检测框进行去重处理,得到所述第一检测框集合、第二检测框集合和第三检测框集合。
4.根据权利要求1所述的方法,其特征在于,所述响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框,包括:
响应于所述第一输入,确定所述第一图像的位置;
从所述第一检测框集合中,选取所述位置所在的第一检测框,作为目标第一检测框。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像,包括:
接收用户的第二输入;
响应于所述第二输入,获取图像掩膜;
基于所述图像掩膜,对所述第一图像中的掩膜区域进行像素点重置,得到第三图像;
将所述图像掩膜和所述第三图像输入至图像处理模型,通过所述图像处理模型对所述第三图像中的像素点重置区域进行消除处理,得到第二图像。
6.一种图像处理装置,其特征在于,所述装置包括:
检测单元,用于对第一图像进行检测,得到第一检测框集合、第二检测框集合和第三检测框集合,所述第一检测框集合中的第一检测框包括所述第一图像中的图像对象,所述第二检测框集合中的第二检测框包括所述图像对象的影子,所述第三检测框集合中的第三检测框包括所述图像对象和影子;
接收单元,用于接收用户对第一图像的第一输入;
第一确定单元,用于响应于所述第一输入,确定所述第一检测框集合中的目标第一检测框;
第二确定单元,用于基于所述目标第一检测框和所述第二检测框集合,确定所述第三检测框集合中的目标第三检测框;
处理单元,用于对所述目标第三检测框中的图像对象和影子进行消除处理,得到第二图像。
7.根据权利要求6所述的装置,其特征在于,检测单元,进一步用于:
将所述第一图像输入至检测模型,所述检测模型包括特征提取网络、区域候选网络、池化层和全连接层;
通过所述特征提取网络,提取所述第一图像的图像特征;
通过所述区域候选网络对所述图像特征进行处理,得到候选检测框;
通过所述池化层,提取所述候选检测框的特征向量;
通过所述全连接层对所述特征向量进行处理,得到所述候选检测框的类别信息;
基于所述类别信息,对各类别的候选检测框进行去重处理,得到第一检测框集合、第二检测框集合和第三检测框集合。
8.根据权利要求6所述的装置,其特征在于,所述第一确定单元,进一步用于:
响应于所述第一输入,确定所述第一图像的位置;
从所述第一检测框集合中,选取所述位置所在的第一检测框,作为目标第一检测框。
9.根据权利要求6所述的装置,其特征在于,所述第二确定单元,进一步用于:
确定所述目标第一检测框与所述第二检测框集合中的第二检测框的第一交并比;
基于所述第一交并比,从所述第二检测框集合中选取候选第二检测框;
将所述候选第二检测框与所述目标第一检测框进行合并,得到合并检测框;
确定所述合并检测框与所述第三检测框集合中的第三检测框的第二交并比;
基于所述第二交并比,确定所述第三检测框集合中的目标第三检测框。
10.根据权利要求6所述的装置,其特征在于,所述处理单元,进一步用于:
接收用户的第二输入;
响应于所述第二输入,获取图像掩膜;
基于所述图像掩膜,对所述第一图像中的掩膜区域进行像素点重置,得到第三图像;
将所述图像掩膜和所述第三图像输入至预先训练的图像处理模型,通过所述图像处理模型对所述第三图像中的像素点重置区域进行消除处理,得到第二图像。
11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的图像处理方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-5中任一项所述的图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311573480.6A CN117593510A (zh) | 2023-11-22 | 2023-11-22 | 图像处理方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311573480.6A CN117593510A (zh) | 2023-11-22 | 2023-11-22 | 图像处理方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117593510A true CN117593510A (zh) | 2024-02-23 |
Family
ID=89916177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311573480.6A Pending CN117593510A (zh) | 2023-11-22 | 2023-11-22 | 图像处理方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593510A (zh) |
-
2023
- 2023-11-22 CN CN202311573480.6A patent/CN117593510A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476306B (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
US11170210B2 (en) | Gesture identification, control, and neural network training methods and apparatuses, and electronic devices | |
WO2021017998A1 (zh) | 文本位置定位方法和系统以及模型训练方法和系统 | |
CN110210571B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN108960163B (zh) | 手势识别方法、装置、设备和存储介质 | |
KR20200118076A (ko) | 생체 검출 방법 및 장치, 전자 기기 및 저장 매체 | |
CN113128368B (zh) | 一种人物交互关系的检测方法、装置及系统 | |
CN112200187A (zh) | 一种目标检测方法、装置、机器可读介质及设备 | |
CN111612822B (zh) | 对象跟踪方法、装置、计算机设备和存储介质 | |
CN111160288A (zh) | 手势关键点检测方法、装置、计算机设备和存储介质 | |
CN112364799A (zh) | 一种手势识别方法及装置 | |
CN112416206A (zh) | 一种显示窗口调节方法、设备、电子设备及存储介质 | |
CN111832561B (zh) | 基于计算机视觉的字符序列识别方法、装置、设备和介质 | |
CN114332149A (zh) | 图像分割方法、装置、电子设备及存储介质 | |
CN114792285A (zh) | 图像处理方法和处理装置、电子设备和可读存储介质 | |
CN112965602A (zh) | 一种基于手势的人机交互方法及设备 | |
CN115660969A (zh) | 图像处理方法、模型训练方法、装置、设备和存储介质 | |
CN115993887A (zh) | 一种手势交互控制方法、装置、设备、存储介质 | |
CN117593510A (zh) | 图像处理方法和电子设备 | |
CN114648556A (zh) | 视觉跟踪方法、装置和电子设备 | |
CN114518859A (zh) | 显示控制方法、装置、电子设备及存储介质 | |
CN114154464A (zh) | 结构图片还原方法、装置、电子设备、介质及程序产品 | |
CN114092608A (zh) | 表情的处理方法及装置、计算机可读存储介质、电子设备 | |
CN114154467A (zh) | 结构图片还原方法、装置、电子设备、介质及程序产品 | |
CN112150486A (zh) | 图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |