CN113159026A - 图像处理方法、装置、电子设备和介质 - Google Patents

图像处理方法、装置、电子设备和介质 Download PDF

Info

Publication number
CN113159026A
CN113159026A CN202110358569.5A CN202110358569A CN113159026A CN 113159026 A CN113159026 A CN 113159026A CN 202110358569 A CN202110358569 A CN 202110358569A CN 113159026 A CN113159026 A CN 113159026A
Authority
CN
China
Prior art keywords
semantic
original image
map
image
cropping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110358569.5A
Other languages
English (en)
Inventor
邓瑞峰
林天威
李鑫
李甫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110358569.5A priority Critical patent/CN113159026A/zh
Publication of CN113159026A publication Critical patent/CN113159026A/zh
Priority to US17/479,872 priority patent/US20220027661A1/en
Priority to EP21197765.7A priority patent/EP3910590A3/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Abstract

本公开公开了一种图像处理方法、装置、电子设备和介质,涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可应用于图像采集场景下。所述图像处理方法包括:对原始图像进行显著性检测,得到原始图像的显著性图;对原始图像进行语义分割,得到原始图像的语义分割图;利用语义分割图来修正显著性图,得到包含目标对象的目标图;以及基于目标图中目标对象的位置,对原始图像进行剪裁。

Description

图像处理方法、装置、电子设备和介质
技术领域
本公开涉及人工智能领域,具体涉及计算机视觉和深度学习技术,可应用于图像采集场景下,特别涉及一种图像处理方法、装置、电子设备和介质。
背景技术
由于图像本身场景多变且内容信息多样,传统智能裁剪系统往往需要融合众多技术模块,并且需要设计复杂的处理逻辑使得智能裁剪技术尽可能的泛化。这使得传统智能裁剪方法的计算复杂度高。
发明内容
本公开提供了一种图像处理方法、装置、电子设备以及存储介质。
根据本公开的一方面,提供了一种图像处理方法,包括:对原始图像进行显著性检测,得到原始图像的显著性图;对原始图像进行语义分割,得到原始图像的语义分割图;利用语义分割图来修正显著性图,得到包含目标对象的目标图;以及基于目标图中目标对象的位置,对原始图像进行剪裁。
根据本公开的另一方面,提供了一种图像处理装置,包括:
显著性检测模块,用于对原始图像进行显著性检测,得到原始图像的显著性图;
语义分割模块,用于对原始图像进行语义分割,得到原始图像的语义分割图;
修正模块,用于利用语义分割图来修正显著性图,得到包含目标对象的目标图;以及
剪裁模块,用于基于目标图中目标对象的位置,对原始图像进行剪裁。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的图像处理方法的流程图;
图2是根据本公开另一实施例的图像处理方法的流程图;
图3是根据本公开另一实施例的图像处理方法的流程图;
图4A、图4B、图4C、图4D、图4E、图4F和图4G是根据本公开实施例的图像处理方法的一个示例的示意图;
图5A、图5B、图5C和图5D是根据本公开实施例的图像处理方法的另一个示例的示意图;
图6是根据本公开另一实施例的图像处理方法的流程图;
图7A、图7B、图7C、图7D和图7E是根据本公开实施例的图像处理方法的另一个示例的示意图;
图8A、图8B、图8C、图8D和图8E是根据本公开实施例的图像处理方法的另一个示例的示意图;
图9是根据本公开实施例的图像处理装置的框图;
图10是用来实现本公开实施例的图像处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的图像处理方法的流程图。
在步骤S110,对原始图像进行显著性检测,得到原始图像的显著性图。可以利用各种合适的显著性检测方法来对原始图像进行显著性检测。例如利用显著性检测模型对原始图像进行显著性检测,得到显著性图。显著性图可以表现为灰度图,各个像素的灰度集中在0和255附近,灰度为0呈现为黑色,灰度为255呈现为白色,在255附近的灰度则呈现为灰色。获得的显著性图能够体现原始图像中的显著部分。
在步骤S120,对原始图像进行语义分割,得到原始图像的语义分割图。可以利用各种合适的语义分割方法来对原始图像进行语义分割。语义分割图包括多个语义区域,每个语义区域具有自己的语义标签,语义标签指示了该语义区域在原始图像中的目标主体的语义。获得的语义分割图能够体现原始图像中的目标主体的语义。例如语义标签为“人”表示该语义区域对应的目标主体是人;语义标签为“车”表示该语义区域对应的目标主体是车。
在步骤S130,利用语义分割图来修正显著性图,得到包含目标对象的目标图。通过利用语义分割图来修正显著性图,能够结合语义特征对原始图像中的显著性部分进行修正,从而使得到的目标图中的目标对象能够更准确地体现原始图像中的目标主体所在的位置。
在步骤S140,基于目标图中目标对象的位置,对原始图像进行剪裁。目标图中的目标对象所在的位置能够体现原始图像中的目标主体所在的位置,通过基于目标对象的位置对原始图像进行剪裁,能够针对目标主体实现更准确的剪裁。
虽然上述实施例中以特定的顺序描述了各个步骤,然而本公开的实施例不限于此。例如步骤S110可以在步骤S120之后执行,或者与步骤S120同时执行,本公开的实施例对此不作限制。
本公开的实施例通过将显著性检测与语义分割相结合来进行图像剪裁,能够在降低计算复杂度的同时,提供准确的图像剪裁。
图2是根据本公开另一实施例的图像处理方法的流程图。
在步骤S210,对原始图像分别进行显著性检测,得到原始图像的显著性图。
在步骤S220,对原始图像分别进行语义分割,得到原始图像的语义分割图。
步骤S210和步骤S220可以分别采用与上述步骤S110和S120相同或类似的方式来实现,这里不再赘述。
在步骤S230,对所述显著性图进行二值化处理,得到二值图。二值图仅包含0和255两种灰度值。通过二值化处理,使得后续处理不再受其他灰度值的像素点的干扰,降低了处理复杂度。
在步骤S240,在二值图中确定连通区域,例如可以确定至少一个白色连通区域(即,由像素值为255的像素点组成的连通区域)。连通区域的数量可能是一个,也可能是多个,取决于原始图像的内容。
在步骤S250,根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域,得到包含目标对象的目标图。语义区域与连通区域的重叠关系能够体现显著性检测结果与语义分割结果之间的共同部分和差异部分,基于重叠关系来利用语义区域修正连通区域,能够使连通区域更准确地体现原始图像中的目标主体所在的位置,从而提高剪裁的准确性。
在步骤S260,基于目标图中目标对象的位置,对原始图像进行剪裁。
本公开的实施例通过将显著性检测与语义分割相结合来进行图像剪裁,能够在降低计算复杂度的同时,提供准确的图像剪裁。本公开的实施例通过根据语义分割图中的语义区域与二值图中的连通区域的重叠关系来对连通区域进行修正,能够提高剪裁的准确性。
图3是根据本公开另一实施例的图像处理方法的流程图;
在步骤S310,对原始图像分别进行显著性检测,得到原始图像的显著性图。
在步骤S320,对原始图像分别进行语义分割,得到原始图像的语义分割图。
在步骤S330,对所述显著性图进行二值化处理,得到二值图。二值图仅包含0和255两种灰度值。通过二值化处理,使得后续处理不再受其他灰度值的像素点的干扰,降低了处理复杂度。
在步骤S340,在二值图中确定连通区域,例如可以确定至少一个白色连通区域(即,由像素值为255的像素点组成的连通区域)。连通区域的数量可能是一个,也可能是多个,取决于原始图像的内容。在确定连通区域之后,可以根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域,下面将在以下步骤S240至S260中进行描述。
步骤S310至步骤S340可以分别采用与上述步骤S210至S240相同或类似的方式来实现,这里不再赘述。
在确定二值图中的连通区域之后,可以通过执行以下步骤S351至S354,来根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域。
在步骤S351,可以针对二值图中的每个连通区域,确定该连通区域与语义分割图中的每个语义区域的重叠程度。
在一些实施例中,可以计算所述连通区域相对于所述每个语义区域的交并比或占比,作为所述重叠程度。在另一些实施例中,可以计算所述每个语义区域位于所述连通区域内的部分与所述连通区域的面积比(也称作占比),作为所述重叠程度。在另一些实施例中,也可以基于交并比和占比二者来计算重叠程度。
在步骤S352,确定是否存在与连通区域的重叠程度大于预设阈值的语义分割区域,如果是,则执行步骤S353,否则执行步骤S354。例如,如果某个语义区域与一个连通区域的重叠程度大于预设阈值,则执行步骤S353,否则继续进行判断。在完成对所有连通区域与所有语义区域的重叠程度的大小判断之后,如果发现不存在与连通区域的重叠程度大于阈值的语义区域,则执行步骤S354。
在步骤S353,利用与连通区域的重叠程度大于预设阈值的语义区域来修正该连通区域。例如,如果在所述连通区域相对于所述语义区域而言具有缺失部分,则可以基于语义区域向所述连通区域补充所述缺失部分;如果所述连通区域相对于所述语义区域而言具有多余部分,则可以基于语义区域从所述连通区域去除所述多余部分。在对二值图进行修正之后,得到了目标图。二值图中经过修正的连通区域作为目标图中的目标对象,其对应于原始图中的目标主体(例如人或物体)。在后续剪裁中,将会以包含目标主体为原则对原始图像进行剪裁,因此这里目标图中的目标对象在剪裁中起到了参考作用。
在步骤S354,以未经修正的二值图作为目标图,进行至步骤S361。由于在步骤S352中未找到重叠程度大于阈值的语义区域,这意味着没有合适的语义区域能够被用来对二值图进行修正,因此可以将未经修正的二值图作为目标图来执行后续处理。
在通过步骤S353或S354得到目标图之后,可以通过执行下述步骤S361和S362来基于目标图中目标对象的位置对原始图像进行剪裁。
在步骤S361,根据原始图像的高宽比与预设的剪裁高宽比之间的关系,确定剪裁方向。例如,在原始图像的高宽比大于预设的剪裁高宽比的情况下,可以将原始图像的高度方向确定为剪裁方向;在原始图像的高宽比小于预设的剪裁高宽比的情况下,可以将原始图像的宽度方向确定为剪裁方向。
在步骤S362,沿着所确定的剪裁方向,基于目标图中目标对象的位置,根据预设的剪裁策略以所述剪裁高宽比来对原始图像进行剪裁。在一些实施例中,剪裁策略可以包括第一策略和第二策略中的至少之一。
在第一策略中,以目标对象的顶部为基准来进行剪裁,这适用于在图像中以图像高度方向来体现基本特征的目标主体,例如人、树、建筑物等等。现实世界中大部分目标主体是以图像高度方向来体现基本特征的,因此第一策略的适用范围相对较广。按照第一策略,可以在目标图中确定目标对象的顶部。然后在目标图中,以目标对象的顶部为基准,按照所述剪裁高宽比来确定包含目标对象的剪裁区域。确定剪裁区域后,可以从原始图像中提取与所述剪裁区域相映射的图像区域,作为剪裁结果。
在第二策略中,以目标对象在图像宽度方向上的中心点为基准来进行剪裁,这适用于在图像中以图像宽度方向来体现基本特征的目标主体,例如车。按照第二策略,可以在目标图中确定目标对象在宽度方向上的中心点。然后以所述中心点为基准,按照所述剪裁高宽来确定包含目标对象的剪裁区域。确定剪裁区域后,可以从原始图像中提取与所确定的剪裁区域相映射的图像区域,作为剪裁结果。
在一些实施例中,可以分别基于第一策略和第二策略对原始图像进行剪裁,并将基于第一策略得到的剪裁结果与基于第二策略得到的剪裁结果相比较,将连通区域面积较大的那个剪裁结果作为最终剪裁结果。
本公开的实施例通过采用上述第一策略和/或第二策略,能够以更简单的方式实现快速的智能剪裁。
图4A、图4B、图4C、图4D、图4E、图4F和图4G是根据本公开实施例的图像处理方法的一个示例的示意图。
通过对如图4A所示的原始图像进行显著性检测,可以得到如图4B所示的显著性图。图4B为灰度图,大部分像素的像素值集中在0和255附近,分别呈现为白色、黑色和灰色。从图4B的显著性图中的白色区域可以看出,图4A的原始图像中关于盘子和筷子的部分为显著区域。在一些实施例中,还可以对图4B的显著图进行二值化处理,得到二值图,二值图中仅包含0和255两种像素值,以便于后续分析和处理。
通过对图4A的原始图像进行语义分割,可以得到如图4C所示的语义分割图。如图4C所示,语义分割图中包括多个语义区域,例如语义标签为“plate”的语义区域401(表示其对应的主体为盘子),语义标签为“broccoli”的语义区域402(表示其对应的主体为西兰花),语义标签为“cup”的语义区域402(表示其对应的主体为杯子),语义标签为“paper”的语义区域404(表示其对应的主体为纸),语义标签为“dining table”的语义区域(表示其对应的主体为餐桌)。为了简化说明,这里未对图4C中的一部分语义区域进行标注,未被标注的语义区域具有类似的特征,这里不再赘述。
可以在图4B中(或者图4B的二值图中)确定连通区域,在本实施例中盘子和筷子形成的白色区域为连通区域。然后利用图4C所示的语义分割图来修正该白色连通区域。例如计算图4B中的白色连通区域与图4C中各个语义区域的交并比,这里所谓交并比是两个图像之间的像素交集与像素并集的比值,其能够体现两个图像的重叠程度。通过计算可以得出,图4C中表示盘子的语义区域401与图4B中的白色连通区域的交并比超过预设的阈值,由此可以用图4C中的语义区域401来修正图4B中的白色连通区域。例如图4B的白色连通区域相比于图4C中的语义区域401而言具有多余部分,即对应于筷子的部分是多余的,因此在修正过程中去除了筷子对应的部分,得到如图4D所示的目标图。在图4D的目标图中,经过修正的白色区域不再包含与筷子对应的部分,其可以作为目标对象来进行后续的剪裁。
下面参考图4E至图4G来描述剪裁过程。
如图4E所示,假设预设的剪裁高宽比为1∶1,而原始图像及其对应的二值图的高宽比均为3∶2,也就是说剪裁高宽比小于原始图像的高宽比,因此将图像的宽度方向确定为剪裁方向,即,后续将沿着宽度方向对原始图像进行剪裁。在图4E的二值图中,确定目标对象406的顶部(如虚线框所示),即像素值为255的像素的起始行,起始行的数量可以根据需要来设置,例如可以为一行或多行。从目标对象406的顶部开始,朝向底部方向,按照剪裁高宽比1∶1来确定一个剪裁区域407。
在图4E中,由于所确定的剪裁区域407超出了目标图的边界,因此将剪裁区域407向上移动,直至剪裁区域407的底部与目标图的底部边缘平齐,从而得到了新的剪裁区域407’,如图4F所示。
在图4A的原始图像中,提取与将图4F中新的剪裁区域407’相映射的图像区域,从而得到如图4G所示的剪裁结果。
图5A、图5B、图5C和图5D是根据本公开实施例的图像处理方法的另一个示例的示意图。
通过对如图5A所示的原始图分别进行显著性检测和语义分割,得到如图5B所示的显著性图和如图5C所示的语义分割图。在图5B的显著性图中包含了两个连通区域501和502,分别对应于原始图像中的广告牌和运动员。在图5C的语义分割图中,原始图像中的广告牌被识别为代表背景的语义区域,而运动员被识别为代表人(即语义标签为“person”)的语义区域503。图5C中的语义区域503与图5B中的连通区域502的重叠程度超出了预设阈值,而对于连通区域501,图5C中不存在与之重叠程度超出阈值的语义区域。因此,在图5B中将连通区域501删除。基于连通区域502的位置来进行如上所述的剪裁,从而得到如图5D所示的剪裁结果。
图6是根据本公开另一实施例的图像处理方法的流程图。
在步骤S610,对原始图像分别进行显著性检测,得到原始图像的显著性图。
在步骤S620,对原始图像进行语义分割,得到原始图像的语义分割图。
在步骤S630,对所述显著性图进行二值化处理,得到二值图。
在步骤S640,在二值图中确定连通区域,例如可以确定至少一个白色连通区域(即,由像素值为255的像素点组成的连通区域)
上述步骤S610至S640可以分别采用与步骤S310至S340相同或类似的方式来实现,这里不再赘述。
在确定二值图中的连通区域之后,可以通过执行以下步骤S651至S654,来根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域。
在步骤S651,确定具有与预设的目标语义匹配的语义区域,作为目标语义区域。假设预设的目标语义为“人”,则可以在语义分割图中寻找具有语义标签“人”的语义区域,作为目标语义区域。在确定了目标语义区域之后,可以根据目标语义区域与二值图中的连通区域的重叠关系,基于目标区域来修改二值图中的连通区域,以便能够在原始图像中提取出以人为目标主体的区域来进行剪裁。
在步骤S652,确定二值图中是否存在与目标语义区域的重叠程度大于预设阈值的连通区域,如果是,执行步骤S653,否则执行步骤S654。
在步骤S653,基于目标语义区域修改连通区域,例如保留与目标语义区域的重叠程度大于预设阈值的连通区域,而去除其他连通区域。
在步骤S654,以目标语义区域作为目标对象,进行至步骤S661。由于在步骤S652没有找到重叠程度大于预设阈值的连通区域,也就是说显著性图中没有对应于目标语义(例如人)的连通区域,因此可以基于目标语义区域作为目标对象来生成新的目标图,从而确保以“人”为主体来进行剪裁。
在步骤S661,根据原始图像的高宽比与预设的剪裁高宽比之间的关系,确定剪裁方向。
在步骤S662,沿着所确定的剪裁方向,基于目标图中目标对象的位置,根据预设的剪裁策略以所述剪裁高宽比来对原始图像进行剪裁。
上述步骤S661和S662可以分别采用与步骤S361和S362相同或类似的方式来实现,这里不再赘述。
图7A、图7B、图7C、图7D和图7E是根据本公开实施例的图像处理方法的另一个示例的示意图。
采用以上参考图6描述的方法,对如图7A所示的原始图像分别进行显著性检测和语义分割,得到如图7B所示的显著性图和如图7C所示的语义分割图。
从图7B可以看出,显著性图中包含了对应于人的白色连通区域以及对应于车的白色连通区域。从图7C可以看出,通过语义分割识别出了图像中各种对象的语义区域,包括对应于人的语义区域和对应于车的语义区域。
如果预设的目标语义为“人”,也就是说用户希望以人为主体来进行剪裁,则可以在图7B中寻找与图7C中表示人的语义区域的重叠程度大于预设阈值的连通区域,即图7B中位于图像中间部分的白色连通区域。基于该连通区域来确定剪裁位置进行剪裁,得到如图7D所示的剪裁结果。
类似地,如果预设的目标语义为“车”,则可以在图7B中寻找与图7C中表示车的语义区域的重叠程度大于预设阈值的连通区域,即图7B中位于右侧的白色连通区域。基于该连通区域来确定剪裁位置进行剪裁,得到如图7E所示的剪裁结果。
在本实施例中,原始图像的高宽比为2:3,而预设的剪裁高宽比为1:1,也就是说剪裁高宽比大于原始图像的高宽比,因此将高度方向确定为剪裁方向。采用第二策略进行剪裁。根据第二策略,以对应于汽车的白色连通区域为例,确定白色连通区域的起始列和结尾列,将起始列与结尾列之间连线的中点,作为目标对象(即车对应的白色连通区域)宽度方向上的中心点。以该中心点作为中心,分别向左右两侧扩展二分之一的图像高度,得到剪裁区域。在由于车位于图像最右侧,所以导致得到的剪裁区域超出了图7B的右侧边界。在这种情况下,向将剪裁区域向左移动,利用新的剪裁区域对图7A的原始图像进行剪裁,得到如图7E所示的剪裁结果。
图8A、图8B、图8C、图8D和图8E是根据本公开实施例的图像处理方法的另一个示例的示意图。
在如图8A所示的原始图像中包含了人和披萨。如图8B所示,原始图像的显著性图中仅包含了对应于人的目标对象。如图8C所示,原始图像的语义分割图中识别出了人和披萨二者对应的语义区域。
如果以“人”为主体进行剪裁,则可以根据图8C中与图8B的白色连通区域重叠程度符合预设要求的语义区域(即,表示人的语义区域),来确定目标对象的位置,从而得到如图8D所示的剪裁结果。
如图以“披萨”为主体进行剪裁,则发现图8B中不存在与图8C中表示披萨的语义区域重叠的白色连通区域。在这种情况下,可以将图8C中表示披萨的语义区域作为目标对象来确定剪裁区域,从而得到如图8E所示的剪裁结果。
本公开的实施例通过将显著性检测与语义分割相结合来进行图像剪裁,能够在降低计算复杂度的同时,提供准确的图像剪裁。根据本公开的实施例,还可以根据需要设置剪裁主体,例如设置人或车作为剪裁主体,通过借助于语义分割,能够实现以预设的主体为中心进行剪裁,从而实现定制化的智能图像剪裁,改善用户体验。本公开实施例提出的图像处理方法适用于各种应用场景,例如为用户相册自动生成各个照片的缩略图,或者根据用户提供的照片自动生成社交网络头像,等等。
图9是根据本公开实施例的图像处理装置的框图。
如图9所示,图像处理装置900包括显著性检测模块910、语义分割模块920、修正模块930和剪裁模块940。
显著性检测模块910用于对原始图像进行显著性检测,得到原始图像的显著性图。
语义分割模块920用于对原始图像进行语义分割,得到原始图像的语义分割图。
修正模块930用于利用语义分割图来修正显著性图,得到包含目标对象的目标图。
剪裁模块940用于基于目标图中目标对象的位置,对原始图像进行剪裁。
本公开的实施例通过将显著性检测与语义分割相结合来进行图像剪裁,能够在降低计算复杂度的同时,提供准确的图像剪裁。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。通过将显著性检测与语义分割相结合来进行图像剪裁,能够在降低计算复杂度的同时,提供准确的图像剪裁。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如图像处理方法。例如,在一些实施例中,图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种图像处理方法,包括:
对原始图像进行显著性检测,得到原始图像的显著性图;
对原始图像进行语义分割,得到原始图像的语义分割图;
利用语义分割图来修正显著性图,得到包含目标对象的目标图;以及
基于目标图中目标对象的位置,对原始图像进行剪裁。
2.根据权利要求1所述的方法,其中,所述语义分割图包括至少一个语义区域,所述利用语义分割图来修正显著性图包括:
对所述显著性图进行二值化处理,得到二值图;
在二值图中确定连通区域;以及
根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域。
3.根据权利要求2所述的方法,其中所述根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域包括:
针对二值图中的每个连通区域,确定该连通区域与语义分割图中的每个语义区域的重叠程度,并利用重叠程度大于预设阈值的语义区域来修正该连通区域,其中修正后的连通区域作为目标对象。
4.根据权利要求3所述的方法,其中,利用重叠程度大于预设阈值的语义区域来修正该连通区域包括:
在所述连通区域相对于所述语义区域而言具有缺失部分的情况下,向所述连通区域补充所述缺失部分;
在所述连通区域相对于所述语义区域而言具有多余部分的情况下,从所述连通区域去除所述多余部分。
5.根据权利要求3所述的方法,其中,所述确定该连通区域与语义分割图中的每个语义区域的重叠程度包括:
计算所述连通区域相对于所述每个语义区域的交并比,作为所述重叠程度。
6.根据权利要求3所述的方法,其中,所述确定该连通区域与语义分割图中的每个语义区域的重叠程度包括:
计算所述每个语义区域位于所述连通区域内的部分与所述连通区域的面积比,作为所述重叠程度。
7.根据权利要求2所述的方法,其中,所述根据语义分割图中的语义区域与二值图中的连通区域的重叠关系,利用语义区域来修正连通区域包括:
确定具有与预设的目标语义匹配的语义区域;以及
根据所述匹配的语义区域与二值图中的连通区域的重叠关系,基于所匹配的语义区域来修改二值图中的连通区域。
8.根据权利要求1至7中任一项所述的方法,其中,所述基于目标图中目标对象的位置,对原始图像进行剪裁包括:
根据原始图像的高宽比与预设的剪裁高宽比之间的关系,确定剪裁方向;以及
沿着所确定的剪裁方向,基于目标图中目标对象的位置,根据预设的剪裁策略以所述剪裁高宽比来对原始图像进行剪裁。
9.根据权利要求8所述的方法,其中,所述确定剪裁方向包括:
在原始图像的高宽比大于预设的剪裁高宽比的情况下,将原始图像的高度方向确定为剪裁方向;以及
在原始图像的高宽比小于预设的剪裁高宽比的情况下,将原始图像的宽度方向确定为剪裁方向。
10.根据权利要求8所述的方法,其中,所述剪裁策略包括第一策略,根据第一策略以所述剪裁高宽比来对原始图像进行剪裁包括:
在目标图中确定目标对象的顶部;
在目标图中,以目标对象的顶部为基准,按照所述剪裁高宽比来确定包含目标对象的剪裁区域;以及
从原始图像中提取与所述剪裁区域相映射的图像区域,作为剪裁结果。
11.根据权利要求8所述的方法,其中,所述剪裁策略包括第二策略,根据第二策略以所述剪裁高宽比来对原始图像进行剪裁包括:
在目标图中确定目标对象在宽度方向上的中心点;
以所述中心点为基准,按照所述剪裁高宽来确定包含目标对象的剪裁区域;以及
从原始图像中提取与所确定的剪裁区域相映射的图像区域,作为剪裁结果。
12.一种图像处理装置,包括:
显著性检测模块,用于对原始图像进行显著性检测,得到原始图像的显著性图;
语义分割模块,用于对原始图像进行语义分割,得到原始图像的语义分割图;
修正模块,用于利用语义分割图来修正显著性图,得到包含目标对象的目标图;以及
剪裁模块,用于基于目标图中目标对象的位置,对原始图像进行剪裁。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。
CN202110358569.5A 2021-03-31 2021-03-31 图像处理方法、装置、电子设备和介质 Pending CN113159026A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110358569.5A CN113159026A (zh) 2021-03-31 2021-03-31 图像处理方法、装置、电子设备和介质
US17/479,872 US20220027661A1 (en) 2021-03-31 2021-09-20 Method and apparatus of processing image, electronic device, and storage medium
EP21197765.7A EP3910590A3 (en) 2021-03-31 2021-09-20 Method and apparatus of processing image, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110358569.5A CN113159026A (zh) 2021-03-31 2021-03-31 图像处理方法、装置、电子设备和介质

Publications (1)

Publication Number Publication Date
CN113159026A true CN113159026A (zh) 2021-07-23

Family

ID=76886214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110358569.5A Pending CN113159026A (zh) 2021-03-31 2021-03-31 图像处理方法、装置、电子设备和介质

Country Status (3)

Country Link
US (1) US20220027661A1 (zh)
EP (1) EP3910590A3 (zh)
CN (1) CN113159026A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023130990A1 (zh) * 2022-01-07 2023-07-13 荣耀终端有限公司 图像处理方法、装置、设备、存储介质和程序产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339917B (zh) * 2020-02-24 2022-08-09 大连理工大学 一种真实场景下玻璃检测的方法
CN114359233B (zh) * 2022-01-07 2024-04-02 北京华云安信息技术有限公司 图像分割模型训练方法、装置、电子设备及可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法
CN103914689A (zh) * 2014-04-09 2014-07-09 百度在线网络技术(北京)有限公司 基于人脸识别的图片裁剪方法及装置
CN104133956A (zh) * 2014-07-25 2014-11-05 小米科技有限责任公司 处理图片的方法及装置
CN105069774A (zh) * 2015-06-30 2015-11-18 长安大学 基于多示例学习与图割优化的目标分割方法
CN109447072A (zh) * 2018-11-08 2019-03-08 北京金山安全软件有限公司 一种缩略图裁剪方法、装置、电子设备及可读存储介质
CN109712164A (zh) * 2019-01-17 2019-05-03 上海携程国际旅行社有限公司 图像智能剪裁方法、系统、设备及存储介质
CN110377204A (zh) * 2019-06-30 2019-10-25 华为技术有限公司 一种生成用户头像的方法及电子设备
CN110456960A (zh) * 2019-05-09 2019-11-15 华为技术有限公司 图像处理方法、装置及设备
CN110751655A (zh) * 2019-09-16 2020-02-04 南京工程学院 一种基于语义分割和显著性分析的自动抠图方法
US20200143551A1 (en) * 2019-06-29 2020-05-07 Intel Corporation Technologies for thermal enhanced semantic segmentation of two-dimensional images
CN111462149A (zh) * 2020-03-05 2020-07-28 中国地质大学(武汉) 一种基于视觉显著性的实例人体解析方法
CN111583290A (zh) * 2020-06-06 2020-08-25 大连民族大学 基于视觉显著性的文物显著区域提取方法
CN111612004A (zh) * 2019-02-26 2020-09-01 北京奇虎科技有限公司 一种基于语义内容的图像裁剪方法及装置
CN111815595A (zh) * 2020-06-29 2020-10-23 北京百度网讯科技有限公司 图像语义分割方法、装置、设备和可读存储介质
CN112270745A (zh) * 2020-11-04 2021-01-26 北京百度网讯科技有限公司 一种图像生成方法、装置、设备以及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011253980B2 (en) * 2011-12-12 2014-05-29 Canon Kabushiki Kaisha Method, apparatus and system for identifying distracting elements in an image
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
CN110070107B (zh) * 2019-03-26 2020-12-25 华为技术有限公司 物体识别方法及装置
US11145058B2 (en) * 2019-04-11 2021-10-12 Agilent Technologies, Inc. User interface configured to facilitate user annotation for instance segmentation within biological samples
CN111242027B (zh) * 2020-01-13 2023-04-14 北京工业大学 一种融合语义信息的无监督学习场景特征快速提取方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567731A (zh) * 2011-12-06 2012-07-11 北京航空航天大学 一种感兴趣区域提取方法
CN103914689A (zh) * 2014-04-09 2014-07-09 百度在线网络技术(北京)有限公司 基于人脸识别的图片裁剪方法及装置
CN104133956A (zh) * 2014-07-25 2014-11-05 小米科技有限责任公司 处理图片的方法及装置
CN105069774A (zh) * 2015-06-30 2015-11-18 长安大学 基于多示例学习与图割优化的目标分割方法
CN109447072A (zh) * 2018-11-08 2019-03-08 北京金山安全软件有限公司 一种缩略图裁剪方法、装置、电子设备及可读存储介质
CN109712164A (zh) * 2019-01-17 2019-05-03 上海携程国际旅行社有限公司 图像智能剪裁方法、系统、设备及存储介质
CN111612004A (zh) * 2019-02-26 2020-09-01 北京奇虎科技有限公司 一种基于语义内容的图像裁剪方法及装置
CN110456960A (zh) * 2019-05-09 2019-11-15 华为技术有限公司 图像处理方法、装置及设备
US20200143551A1 (en) * 2019-06-29 2020-05-07 Intel Corporation Technologies for thermal enhanced semantic segmentation of two-dimensional images
CN110377204A (zh) * 2019-06-30 2019-10-25 华为技术有限公司 一种生成用户头像的方法及电子设备
CN110751655A (zh) * 2019-09-16 2020-02-04 南京工程学院 一种基于语义分割和显著性分析的自动抠图方法
CN111462149A (zh) * 2020-03-05 2020-07-28 中国地质大学(武汉) 一种基于视觉显著性的实例人体解析方法
CN111583290A (zh) * 2020-06-06 2020-08-25 大连民族大学 基于视觉显著性的文物显著区域提取方法
CN111815595A (zh) * 2020-06-29 2020-10-23 北京百度网讯科技有限公司 图像语义分割方法、装置、设备和可读存储介质
CN112270745A (zh) * 2020-11-04 2021-01-26 北京百度网讯科技有限公司 一种图像生成方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WATARU SHIMODA 等: "Weakly supervised semantic segmentation using distinct class specific saliency maps", 《COMPUTER VISION AND IMAGE UNDERSTANDING》 *
宣东东 等: "基于高层先验语义的显著目标检测", 《重庆邮电大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023130990A1 (zh) * 2022-01-07 2023-07-13 荣耀终端有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN116468882A (zh) * 2022-01-07 2023-07-21 荣耀终端有限公司 图像处理方法、装置、设备、存储介质和程序产品
CN116468882B (zh) * 2022-01-07 2024-03-15 荣耀终端有限公司 图像处理方法、装置、设备、存储介质

Also Published As

Publication number Publication date
EP3910590A2 (en) 2021-11-17
EP3910590A3 (en) 2022-07-27
US20220027661A1 (en) 2022-01-27

Similar Documents

Publication Publication Date Title
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN113159026A (zh) 图像处理方法、装置、电子设备和介质
CN112560684B (zh) 车道线检测方法、装置、电子设备、存储介质以及车辆
CN112560862B (zh) 文本识别方法、装置及电子设备
CN108021863B (zh) 电子装置、基于图像的年龄分类方法及存储介质
CN113313083B (zh) 文本检测方法及装置
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN114519858B (zh) 文档图像的识别方法、装置、存储介质以及电子设备
CN112966599B (zh) 关键点识别模型的训练方法、关键点识别方法及装置
CN113205041A (zh) 结构化信息提取方法、装置、设备和存储介质
CN113592720B (zh) 图像的缩放处理方法、装置、设备、存储介质
CN114445825A (zh) 文字检测方法、装置、电子设备和存储介质
CN114359932A (zh) 文本检测方法、文本识别方法及装置
CN114120305B (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN114511862B (zh) 表格识别方法、装置及电子设备
CN113610809B (zh) 骨折检测方法、装置、电子设备以及存储介质
CN115719356A (zh) 图像处理方法、装置、设备和介质
CN115359502A (zh) 一种图像处理方法、装置、设备以及存储介质
CN114119990A (zh) 用于图像特征点匹配的方法、装置及计算机程序产品
CN113989300A (zh) 车道线分割的方法、装置、电子设备和存储介质
CN114429631A (zh) 三维对象检测方法、装置、设备以及存储介质
CN114445802A (zh) 点云处理方法、装置及车辆
CN113378958A (zh) 自动标注方法、装置、设备、存储介质及计算机程序产品
CN116259064B (zh) 表格结构识别方法、表格结构识别模型的训练方法及装置
CN115578483A (zh) 条漫图像生成方法、装置、设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination