CN116802683A - 图像的处理方法和系统 - Google Patents
图像的处理方法和系统 Download PDFInfo
- Publication number
- CN116802683A CN116802683A CN202180078471.2A CN202180078471A CN116802683A CN 116802683 A CN116802683 A CN 116802683A CN 202180078471 A CN202180078471 A CN 202180078471A CN 116802683 A CN116802683 A CN 116802683A
- Authority
- CN
- China
- Prior art keywords
- target object
- image
- pixel
- enhanced
- enhanced image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 116
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 42
- 230000004807 localization Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 7
- 229910052744 lithium Inorganic materials 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010028347 Muscle twitching Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/446—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
- G06T2207/20012—Locally adaptive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20072—Graph-based image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像的处理方法和系统。该方法包括:使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;以及将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
Description
本申请涉及计算机技术,尤其涉及图像的处理技术。
利用计算机进行图像处理在各个领域被广泛应用。图像处理可以被用于提升图像的视觉质量、提取图像中的特定目标的特征、图像的存储和传输等。为了提取图像中的特定目标的特征,标识并定位特定目标是合乎需要的。
因此,需要一种能够准确地定位图像中的特定目标的改进的技术。
发明内容
鉴于上述问题,本申请提供了能够提高定位和分割图像中的特定目标的准确性的图像的处理方法和系统。
第一方面,本申请提供了一种图像的处理方法,包括:使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;以及将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
在本申请实施例的技术方案中,在利用分割算法对图像中的每一像素属于目标对象还是非目标对象进行分类的基础上对输入图像执行目标对象定位,将目标对象的分割与定位相组合并且将分割算法与积分图算法进行组合,能够提高目标对象的定位的准确性。
在一些实施例中,使用分割算法确定输入图像的目标对象增强图像进一步包括:对所述输入图像执行特征提取以确定像素特征图;对所述输入图像执行特征提取以确定上下文特征图;基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;根据所述上下文关联信息和所述输入图像来确定所述目标对象增强图像,其中所述目标对象增强图像的像素包括权重信息,所述权重信息与所 述像素是否属于所述目标对象相关。本申请中的分割算法不仅仅考虑像素级分类信息,同时还将目标像素周围的上下文的分类信息考虑在内,基于目标像素与其上下文之间的关联性来确定目标像素的最终分类结果,通过将上下文信息纳入分类算法中以进一步提高对目标像素的分类的准确性,从而提供对目标对象的更准确的分割。改变应用于被最终分类为目标对象的每一像素的权重来生成目标对象增强图像,使得目标对象被增强显示,从而为后续的进一步定位处理提供更准确的基础,能够进一步提升对目标对象的定位的准确性。权重可以是用户可配置的。权重设置的改变可影响目标对象增强图像中目标对象的增强效果,从而可通过用户设置来达成所需的目标对象增强效果。
在一些实施例中,将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像进一步包括:根据所述目标对象增强图像确定积分图;以及利用所述积分图来确定所述目标对象定位图像。对其中目标对象已经被增强显示的目标对象增强图像应用积分图算法能够进一步提升对目标对象的定位的准确性。
在一些实施例中,根据所述目标对象增强图像确定积分图进一步包括将缩放因子应用于所述目标对象增强图像。通过应用缩放因子能够调整待处理的数据量的大小,从而能够根据实际需求加速运算过程和/或提升积分图的准确性。
在一些实施例中,所述方法还包括:利用损失函数来计算所述目标对象增强图像与所述输入图像之间的损失率;以及将计算所得的损失率反馈至所述分割算法。分割算法输出的目标对象增强图像与带标签的产线图像之间的损失率反应了分割算法输出的目标对象增强图像与原始输入图像之间的相似性。将该损失率反馈至分割算法以对分割算法执行有监督学习训练,在达到训练拟合回归性的同时能够通过不断的训练和学习提升分割算法的准确性。
在一些实施例中,所述方法还包括:基于所述损失率或带标签的产线图像或这两者的组合来更新所述分割算法。本申请中的分割算法将计算所得的损失率或带标签的产线图像或这两者的组合作为训练数据来训练,能够以有监督的学习方式不断提高分割算法在目标对象分割方面的准确性。此外,由于训练数据均来自于真实产线,能够覆盖实际需求,真正地在产线进行落地使用和推广。
在一些实施例中,所述分割算法由深度卷积神经网络HRNet18实现。HRNet18在整个分割算法过程中使特征始终保持高分辨率,有助于对目标对象的 准确分割。此外,HRNet18网络的不同分支产生不同分辨率的特征,这些特征之间交互获取信息,从而能够得到包含多通道信息的高分辨率特征。此外,针对训练数据量有限的情况,选择HRNet18模型避免了过拟合的风险,同时由于其结构较小能够加快整个分割算法的运算速度。
第二方面,本申请提供了一种图像的处理系统,包括:分割模块,其被配置成使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;定位图像生成模块,其被配置成将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
在本申请实施例的技术方案中,在利用分割算法对图像中的每一像素属于目标对象还是非目标对象进行分类的基础上对输入图像执行目标对象定位,将目标对象的分割与定位相组合并且将分割算法与积分图算法进行组合,能够提高目标对象的定位的准确性。
在一些实施例中,所述分割模块进一步包括:特征提取组件,其被配置成对所述输入图像执行特征提取以确定像素特征图以及对所述输入图像执行特征提取以确定上下文特征图;上下文组件,其被配置成基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;增强图像生成组件,其被配置成根据所述上下文关联信息和所述输入图像来确定所述目标对象增强图像,其中所述目标对象增强图像的像素包括权重信息,所述权重信息与所述像素是否属于所述目标对象相关。本申请中的分割算法不仅仅考虑像素级分类信息,同时还将目标像素周围的上下文的分类信息考虑在内,基于目标像素与其上下文之间的关联性来确定目标像素的最终分类结果,通过将上下文信息纳入分类算法中以进一步提高对目标像素的分类的准确性,从而提供对目标对象的更准确的分割。改变应用于被最终分类为目标对象的每一像素的权重来生成目标对象增强图像,使得目标对象被增强显示,从而为后续的进一步定位处理提供更准确的基础,能够进一步提升对目标对象的定位的准确性。权重可以是用户可配置的。权重设置的改变可影响目标对象增强图像中目标对象的增强效果,从而可通过用户设置来达成所需的目标对象增强效果。
在一些实施例中,所述定位图像生成模块被进一步配置成:根据所述目标对象增强图像确定积分图;以及利用所述积分图来确定所述目标对象定位图像。对其中目标对象已经被增强显示的目标对象增强图像应用积分图算法能够进一步提 升对目标对象的定位的准确性。
在一些实施例中,所述定位图像生成模块被进一步配置成将缩放因子应用于所述目标对象增强图像。通过应用缩放因子能够调整待处理的数据量的大小,从而能够根据实际需求加速运算过程和/或提升积分图的准确性。
在一些实施例中,所述系统还包括损失率模块,其被配置成:利用损失函数来计算所述目标对象增强图像与所述输入图像之间的损失率;以及将计算所得的损失率反馈至所述分割模块。分割算法输出的目标对象增强图像与带标签的产线图像之间的损失率反应了分割算法输出的目标对象增强图像与原始输入图像之间的相似性。将该损失率反馈至分割算法以对分割算法执行有监督学习训练,在达到训练拟合回归性的同时能够通过不断的训练和学习提升分割算法的准确性。
在一些实施例中,所述分割模块被进一步配置成基于所述损失率或带标签的产线图像或这两者的组合来更新所述分割模块。本申请中的分割算法将计算所得的损失率或带标签的产线图像或这两者的组合作为训练数据来训练,能够以有监督的学习方式不断提高分割算法在目标对象分割方面的准确性。此外,由于训练数据均来自于真实产线,能够覆盖实际需求,真正地在产线进行落地使用和推广。
第三方面,本申请提供了一种图像的处理系统,包括:其上存储有计算机可执行指令存储器;以及与所述存储器耦合的处理器,其中所述计算机可执行指令在由所述处理器执行时致使所述系统执行如下操作:使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;以及将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
在本申请实施例的技术方案中,在利用分割算法对图像中的每一像素属于目标对象还是非目标对象进行分类的基础上对输入图像执行目标对象定位,将目标对象的分割与定位相组合并且将分割算法与积分图算法进行组合,能够提高目标对象的定位的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
通过阅读对下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在全部附图中,用相同的附图标号表示相同的部件。在附图中:
图1是根据本申请的一些实施例的图像的处理方法的流程图;
图2是根据本申请的一些实施例的使用分割算法确定输入图像的目标对象增强图像的方法的流程图;
图3是示出根据本申请的一些实施例的分割目标对象的步骤效果图;
图4是示出根据本申请的一些实施例的定位目标对象的步骤效果图;
图5是用于实现本申请的一些实施例的图像的处理方法的分割算法的网络模型架构图;
图6是根据本申请的一些实施例的图像的处理系统的功能框图;
图7是根据本申请的一些实施例的分割模块的功能框图;以及
图8是适于实现根据本申请的一些实施例的图像的处理系统的计算机系统的结构框图。
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
利用计算机进行图像处理在各个领域被广泛应用。图像处理可以被用于提升图像的视觉质量、提取图像中的特定目标的特征、图像的存储和传输等。为了提取图像中的特定目标的特征,标识并定位特定目标是合乎需要的。特定目标的提取可以用于对特定目标进行缺陷检测。例如,对于动力锂电池来说,通过拍摄生产线上产出的锂电池的图像并且定位诸如极耳之类的目标对象,能够有效地执行对极耳是否存在诸如翻折等缺陷的检测。
在动力锂电池生产过程中,由于工艺及设备原因,缺陷不可避免。贯穿产线的各个环节,检测锂电池的极耳是否存在翻折是至关重要的一环,其检测结果有效性确保了电池出厂的安全性。然而,由于极耳在整个锂电池中仅占据非常小的百分比,对极耳是否存在翻折进行的检测对图像的分辨率以及极耳的准确定位存在相当高的要求。
一些图像的处理方法包括将输入图像进行双高斯差分,对处理后的图像进行标注,构建神经网络和模型进行训练学习,最后根据该模型进行数据推理。在此类技术中,其第一步往往是把图像数据输入到模型中进行特征提取。因此,输入的图像数据的质量(如分辨率、信噪比等)将直接影响训练出的模型的准确率。在目标对象体积较小的情形中,例如,锂电池极耳,使用双高斯差分的方法不能针对体积极小且对分辨率要求极高的目标对象进行有效定位,图像背景(非目标对象)对目标对象的干扰较大,从而导致较低的目标对象定位准确性并且最终导致难以准确检测出目标对象的缺陷(例如,极耳是否存在翻折)。因此,需要一种能够准确地 定位图像中占比较小且要求高分辨率的目标对象的改进的技术。
针对上述问题,本申请提供了一种能够准确定位在图像中占比较小且要求高分辨率的目标对象的技术。本申请的方案可包括目标对象的分割和目标对象的定位。在分割阶段,本申请利用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像。在定位阶段,本申请根据目标对象增强图像来生成积分图,利用积分图算法来生成目标对象定位图像。
在本申请实施例的技术方案中,在利用分割算法对图像中的每一像素属于目标对象还是非目标对象进行分类的基础上对输入图像执行目标对象定位,将目标对象的分割与定位相组合并且将分割算法与积分图算法进行组合,能够提高目标对象的定位的准确性。
本申请的实施例的技术方案适用于对图像中占比较小且要求高分辨率的目标对象的分割和定位,包括但不限于,对锂电池中的极耳的缺陷检测,对野外观测物种的识别和标注,对人类面部微表情的检测和解读等等。在野外观测物种的情形中,对物种的识别往往基于其面部或身体某一部位的特定图案、花纹的标注,而野外观测的红外相机往往无法提供高分辨率的清晰图像,因而通过本申请的改进的分割和定位算法来提高对特定团、花纹的分割和定位有助于对该物种的识别和标注。类似地,通过图像捕捉来进行人脸识别已经被广泛应用,在此基础上,对识别到的人脸的微表情进行解读也存在着广泛应用,而嘴角的微微上扬、眉头微皱、某块面部肌肉的短暂抽搐往往在整个图像中占比较小而难以被识别出,通过本申请的改进的分割和定位算法来提高对微表情的识别和定位能够提高对微表情的解读准确性。
参照图1,其示出了根据本申请的一些实施例的图像的处理方法的流程图,本申请提供了一种图像的处理方法。如图1所示,该方法包括:在步骤105,使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像。该方法包括:在步骤110,将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
在一些示例中,目标对象增强图像包括其中属于目标对象的每一个像素被增强显示,而不属于目标对象的每一个像素不被增强显示的图像。在一些示例中,目标对象增强图像可包括以增强的亮度来显示属于目标对象的像素的图像。在一些 示例中,目标对象增强图像可以被转换成掩码图的形式。在一些示例中,将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像包括针对转换成掩码图形式的目标对象增强图像计算并得到其积分图。积分图是一种在图像中快速计算矩形区域和的方法,积分图中每一像素的值表示图像中在该像素左上角的所有像素之和,从而一旦计算得出一个图像的积分图,则可以快速地计算出图像中任意大小矩形区域的和。在一些示例中,目标对象定位图像可以采用掩码图的形式,并且可以是基于积分图来确定的。例如,目标对象定位图像中的每一像素的值可取决于积分图中该像素值是否为0,若为0,则目标对象定位图像中的该像素的值为0,若不为0,则目标对象定位图像中的该像素的值1,其中1指示该像素属于目标对象,而0指示该像素属于图像背景或非目标对象。
在本申请实施例的技术方案中,在利用分割算法对图像中的每一像素属于目标对象还是非目标对象进行分类的基础上对输入图像执行目标对象定位,将目标对象的分割与定位相组合并且将分割算法与积分图算法进行组合,能够提高目标对象的定位的准确性。
根据本申请的一些实施例,可选地,进一步参考图2和图3,图2是根据本申请的一些实施例的使用分割算法确定输入图像的目标对象增强图像的方法的流程图,而图3是示出根据本申请的一些实施例的分割目标对象的步骤效果图,图1中的步骤102可进一步包括:步骤205,对所述输入图像执行特征提取以确定像素特征图;步骤210,对所述输入图像执行特征提取以确定上下文特征图;步骤215,基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;以及步骤220根据所述上下文关联信息和所述输入图像来确定所述目标对象增强图像,其中所述目标对象增强图像通过基于每一像素属于目标对象或非目标对象的分类来改变应用于每一像素的权重来生成。
在一些示例中,步骤205可包括将输入图像输入到深度卷积神经网络中以对输入图像进行像素级特征提取。在一些示例中,步骤205可包括将输入图像输入到HRNet18中以生成输入图像中的每一像素的特征图。在一些示例中,所述像素特征图中每一像素的特征值可表示该像素属于目标对象或非目标对象的初始分类。在一些示例中,在像素的特征值范围为0-255的情形中,其特征值高于128的每一像素可以被认为属于目标对象而其特征值低于128的每一像素可以被认为属于非 目标对象。在一些示例中,像素特征图可以是输入图像经过深度卷积神经网络计算之后的表示像素级特征的矩阵(pixel representation),其图像表示可例如如图3中的a所示。在一些示例中,步骤210可包括将输入图像输入到深度卷积神经网络中以对输入图像进行图像块级特征提取。在一些示例中,步骤210可包括将输入图像输入到HRNet18中以生成输入图像中包括中心像素在内的像素块的特征图。在一些示例中,像素块可通过选择恰适的卷积核n×n来确定,其中n为奇数。如图3中的b所示,图中的框表示中心像素,该框周围的像素加上该中心像素表示像素块。在一些示例中,像素块特征图可以是输入图像以所选择的卷积核经过深度卷积神经网络计算之后的表示像素块级特征的矩阵(objectregion representation)。在一些示例中,像素块特征图表示以包括中心像素在内的该像素块为单位所提取的特征值。类似地,该像素块的特征值可表示该像素块属于目标对象或非目标对象的分类。在一些示例中,在像素块的特征值范围为0-255的情形中,其特征值高于128的每一像素块可以被认为属于目标对象而其特征值低于128的每一像素块可以被认为属于非目标对象。在一些示例中,像素块特征值可表示该像素块中的中心像素周围的像素属于目标对象或非目标对象的分类或可能性。在本文中,像素块特征图与上下文特征图可以可互换地使用以表示该像素块中的中心像素的周围像素和/或上下文的信息。在一些示例中,步骤215可包括基于在步骤205中所确定的像素特征图以及在步骤210中所确定的上下文特征图来确定每一像素的上下文关联信息,该上下文关联信息表示每一像素与该像素的上下文之间的关联性的强弱。在一些示例中,上下文关联信息可以通过将在步骤205中所确定的像素特征图与在步骤210中所确定的上下文特征图执行矩阵相乘,并对其应用softmax函数来获得每一像素的上下文关联信息(pixel region relation)。在一些示例中,在中心像素的像素特征图指示该像素属于目标对象(非目标对象)而上下文特征图指示该像素的上下文亦属于目标对象(非目标对象)时,所得的该像素的上下文关联信息为强。在像素特征图与上下文特征图指示相反结果的情形中(诸如像素特征图指示中心像素属于目标对象而上下文特征图指示中心像素的上下文像素属于非目标对象),所得的该像素的上下文关联信息为弱。在一些示例中,步骤220可包括根据步骤215中的上下文关联信息来确定每一像素属于目标对象或非目标对象的最终分类,并且通过基于该最终分类增强属于目标对象的每一像素来生成目标对象增强图像。在一些示例中, 将步骤215中获得的上下文关联信息(pixel region relation)与在步骤210中所确定的上下文特征图(objectregion representation)执行矩阵相乘,得到带权重的像素级特征图,将该带权重的像素级特征图与步骤205中所确定的像素特征图(pixel representation)连接在一起以获得最终像素特征图。在一些示例中,目标对象增强图像是通过基于最终像素特征图中每一像素的特征值(其进而反应该像素属于目标对象或非目标对象的分类)来改变应用于每一像素的权重来生成的,其图像表示可例如如图3中的c所示。在一些示例中,目标对象增强图像可通过增大应用于其特征值高于128的每一像素的权重来生成。
本申请中的分割算法不仅仅考虑像素级分类信息,同时还将目标像素周围的上下文的分类信息考虑在内,基于目标像素与其上下文之间的关联性来确定目标像素的最终分类结果,通过将上下文信息纳入分类算法中以进一步提高对目标像素的分类的准确性,从而提供对目标对象的更准确的分割。改变应用于被最终分类为目标对象的每一像素的权重来生成目标对象增强图像,使得目标对象被增强显示,从而为后续的进一步定位处理提供更准确的基础,能够进一步提升对目标对象的定位的准确性。权重可以是用户可配置的。权重设置的改变可影响目标对象增强图像中目标对象的增强效果,从而可通过用户设置来达成所需的目标对象增强效果。
根据本申请的一些实施例,可选地,将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像进一步包括:根据所述目标对象增强图像确定积分图;以及利用所述积分图来确定所述目标对象定位图像。
在一些示例中,针对目标对象增强图像计算并获得其积分图,如图4中的a和b所示。在一些示例中,对积分图执行归一化,以利用图像的不变矩来寻找一组参数使其能够消除其他变换函数对图像变换的影响:
img_normal=img_integral/max(img_integral(:))。
在一些示例中,应用积分图算法来如下寻找左上点和右下点:
x_left,y_left=img_normal>low_thr
x_right,y_right=img_normal>high_thr。
将积分图算法应用于通过本申请的分割算法得出的最终分类结果能够准确地定位目标对象。
对其中目标对象已经被增强显示的目标对象增强图像应用积分图算法能够 进一步提升对目标对象的定位的准确性。
根据本申请的一些实施例,可选地,根据所述目标对象增强图像确定积分图进一步包括将缩放因子应用于所述目标对象增强图像。
在一些示例中,对转换为掩码图形式的目标对象增强图像应用缩放因子(img_scale)。在一些示例中,在积分图的计算过程中,可通过以下方式来扩充冗余长度以确保定位准确性:
y_extend=(int)((y_right-y_left)*extend_scale_y/2)
x_extend=(int)((x_right-x_left)*extend_scale_x/2)。
在应用缩放因子的示例中,根据下式基于缩放因子img_scale来映射回原图以生成目标对象定位图像,如图3中的c所示:
x_top=(int)(max((x_left-x_extend),0)/img_scale)
y_top=(int)(max((y-left-y_extend),0)/img_scale)
x_bottom=(int)(max((x_left-x_extend),0)/img_scale)
y_bottom=(int)(max((y-left-y_extend),0)/img_scale)。
通过应用缩放因子能够调整待处理的数据量的大小,从而能够根据实际需求加速运算过程和/或提升积分图的准确性。
根据本申请的一些实施例,可选地,所述方法还包括:利用损失函数来计算所述目标对象增强图像与所述输入图像之间的损失率;以及将计算所得的损失率反馈至所述分割算法。
在一些示例中,可以利用叉熵损失(cross entropy loss)函数来计算在步骤220中生成的目标对象增强图像与输入图像之间的损失率。在一些示例中,计算所得的损失率表示目标对象增强图像与原始输入图像之间的相似性。
分割算法输出的目标对象增强图像与带标签的产线图像之间的损失率反应了分割算法输出的目标对象增强图像与原始输入图像之间的相似性。将该损失率反馈至分割算法以对分割算法执行有监督学习训练,在达到训练拟合回归性的同时能够通过不断的训练和学习提升分割算法的准确性。
根据本申请的一些实施例,可选地,所述方法还包括:基于所述损失率或带标签的产线图像或这两者的组合来更新所述分割算法。
本申请中的分割算法将计算所得的损失率或带标签的产线图像或这两者的 组合作为训练数据来训练,能够以有监督的学习方式不断提高分割算法在目标对象分割方面的准确性。此外,由于训练数据均来自于真实产线,能够覆盖实际需求,真正地在产线进行落地使用和推广。
根据本申请的一些实施例,可选地,进一步参考图5,图5是用于实现本申请的一些实施例的用于图像处理的方法的分割算法的网络模型架构图,所述分割算法由深度卷积神经网络HRNet18实现。
在一些示例中,HRNet是高分辨率网络,它能够在整个过程中维护高分辨率的表示。从高分辨率子网作为第一阶段开始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。通过网络输出的高分辨率表示来估计关键点,网络架构如图4所示。在一些示例中,鉴于目标对象的分割是否依赖于非常高级的语义信息以及有限数量的真实训练数据,选择HRNet系列中的较小的模型HRNet18来实现本申请的分割算法。
HRNet18在整个分割算法过程中使特征始终保持高分辨率,有助于对目标对象的准确分割。此外,HRNet18网络的不同分支产生不同分辨率的特征,这些特征之间交互获取信息,从而能够得到包含多通道信息的高分辨率特征。此外,针对训练数据量有限的情况,选择HRNet18模型避免了过拟合的风险,同时由于其结构较小能够加快整个分割算法的运算速度。
根据本申请的一些实施例,参考图1-图5,本申请提供了一种图像的处理方法,包括:对所述输入图像执行特征提取以确定像素特征图;对所述输入图像执行特征提取以确定上下文特征图;基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;根据所述上下文关联信息和所述输入图像来确定极耳增强图像,其中所述极耳增强图像通过基于每一像素属于极耳或不属于极耳的分类来改变应用于每一像素的权重来生成;根据所述极耳增强图像确定积分图,其中缩放因子被应用于所述极耳增强图像;以及利用所述积分图来确定极耳定位图像,其中所述分割算法由HRNet18实现。
参照图6,其是根据本申请的一些实施例的图像的处理系统的功能框图,本申请提供了一种图像的处理系统。如图6所示,该系统包括:分割模块605,其被配置成使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图 像包括被分类为目标对象的每一像素被增强显示的图像;定位图像生成模块610,其被配置成将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
在本申请实施例的技术方案中,在利用分割算法对图像中的每一像素属于目标对象还是非目标对象进行分类的基础上对输入图像执行目标对象定位,将目标对象的分割与定位相组合并且将分割算法与积分图算法进行组合,能够提高目标对象的定位的准确性。
根据本申请的一些实施例,可选地,进一步参考图7,图7是根据本申请的一些实施例的分割模块的功能框图。所述分割模块605进一步包括:特征提取组件705,其被配置成对所述输入图像执行特征提取以确定像素特征图以及对所述输入图像执行特征提取以确定上下文特征图;上下文组件710,其被配置成基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;增强图像生成组件715,其被配置成根据所述上下文关联信息和所述输入图像来确定所述目标对象增强图像,其中所述目标对象增强图像通过基于每一像素属于目标对象或非目标对象的分类来改变应用于每一像素的权重来生成。
本申请中的分割算法不仅仅考虑像素级分类信息,同时还将目标像素周围的上下文的分类信息考虑在内,基于目标像素与其上下文之间的关联性来确定目标像素的最终分类结果,通过将上下文信息纳入分类算法中以进一步提高对目标像素的分类的准确性,从而提供对目标对象的更准确的分割。改变应用于被最终分类为目标对象的每一像素的权重来生成目标对象增强图像,使得目标对象被增强显示,从而为后续的进一步定位处理提供更准确的基础,能够进一步提升对目标对象的定位的准确性。权重可以是用户可配置的。权重设置的改变可影响目标对象增强图像中目标对象的增强效果,从而可通过用户设置来达成所需的目标对象增强效果。
根据本申请的一些实施例,可选地,继续参考图6,所述定位图像生成模块610被进一步配置成:根据所述目标对象增强图像确定积分图;以及利用所述积分图来确定所述目标对象定位图像。
对其中目标对象已经被增强显示的目标对象增强图像应用积分图算法能够进一步提升对目标对象的定位的准确性。
根据本申请的一些实施例,可选地,继续参考图6,所述定位图像生成模块610被进一步配置成将缩放因子应用于所述目标对象增强图像。
通过应用缩放因子能够调整待处理的数据量的大小,从而能够根据实际需求加速运算过程和/或提升积分图的准确性。
根据本申请的一些实施例,可选地,继续参考图6,所述系统还包括损失率模块615,其被配置成:利用损失函数来计算所述目标对象增强图像与所述输入图像之间的损失率;以及将计算所得的损失率反馈至所述分割算法以更新所述分割模块。
分割算法输出的目标对象增强图像与带标签的产线图像之间的损失率反应了分割算法输出的目标对象增强图像与原始输入图像之间的相似性。将该损失率反馈至分割算法以对分割算法执行有监督学习训练,在达到训练拟合回归性的同时能够通过不断的训练和学习提升分割算法的准确性。
根据本申请的一些实施例,可选地,继续参考图6,所述分割模块605被进一步配置成基于所述损失率或带标签的产线图像或这两者的组合来更新所述分割模块。
本申请中的分割算法将计算所得的损失率或带标签的产线图像或这两者的组合作为训练数据来训练,能够以有监督的学习方式不断提高分割算法在目标对象分割方面的准确性。此外,由于训练数据均来自于真实产线,能够覆盖实际需求,真正地在产线进行落地使用和推广。
根据本申请的一些实施例,参考图6和图7,本申请提供了一种图像的处理系统,包括:
分割模块605,其包括:
特征提取组件705,其被配置成对所述输入图像执行特征提取以确定像素特征图以及对所述输入图像执行特征提取以确定上下文特征图;
上下文组件710,其被配置成基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;
增强图像生成组件715,其被配置成根据所述上下文关联信息和所述输入图像来确定极耳增强图像,其中所述极耳增强图像通过基于每一像素属于极耳或不属于极耳的分类来改变应用于每一像素的权重来生成;
定位图像生成模块610,其被配置成:根据所述极耳增强图像确定积分图;以及利用所述积分图来确定极耳定位图像,其中缩放因子被应用于所述极耳增强图像。
参照图8,其是适于实现根据本申请的一些实施例的图像的处理系统的计算机系统的结构框图。如图8所示,该系统包括:其上存储有计算机可执行指令存储器028;以及与所述存储器028耦合的处理器016,其中所述计算机可执行指令在由所述处理器执行时致使所述系统执行如下操作:使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;以及将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
在一些示例中,图8示出了适于实现根据本申请的一些实施例的用于图像处理的系统的计算机系统012的结构框图。图8显示的计算机系统012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统012以通用计算设备的形式表现。计算机系统012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个 程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统012交互的设备通信,和/或与使得该计算机系统012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统012的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机系统012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法流程。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。例如,被上述一个或多个处理器执行本发明实施例所提供的方法流程。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。
计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半 导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,其均应涵盖在本申请的权利要求和说明书的范围当中。尤其是,只要不存在结构冲突,各个实施例中所提到的各项技术特 征均可以任意方式组合起来。本申请并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。
Claims (12)
- 一种图像的处理方法,包括:使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;以及将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
- 如权利要求1中所述的方法,其特征在于,使用分割算法确定输入图像的目标对象增强图像进一步包括:对所述输入图像执行特征提取以确定像素特征图;对所述输入图像执行特征提取以确定上下文特征图;基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;根据所述上下文关联信息和所述输入图像来确定所述目标对象增强图像,其中所述目标对象增强图像的像素包括权重信息,所述权重信息与所述像素是否属于所述目标对象相关。
- 如权利要求1-2中任一项所述的方法,其特征在于,将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像进一步包括:根据所述目标对象增强图像确定积分图;以及利用所述积分图来确定所述目标对象定位图像。
- 如权利要求3所述的方法,其特征在于,根据所述目标对象增强图像确定积分图进一步包括将缩放因子应用于所述目标对象增强图像。
- 如权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:利用损失函数来计算所述目标对象增强图像与所述输入图像之间的损失率;以及将计算所得的损失率反馈至所述分割算法以更新所述分割算法。
- 如权利要求1-5中任一项所述的方法,其特征在于,所述分割算法由深度卷积神经网络HRNet18实现。
- 一种图像的处理系统,包括:分割模块,其被配置成使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;定位图像生成模块,其被配置成将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
- 如权利要求7所述的系统,其特征在于,所述分割模块进一步包括:特征提取组件,其被配置成对所述输入图像执行特征提取以确定像素特征图以及对所述输入图像执行特征提取以确定上下文特征图;上下文组件,其被配置成基于所述像素特征图和所述上下文特征图来确定每一像素的上下文关联信息;增强图像生成组件,其被配置成根据所述上下文关联信息和所述输入图像来确定所述目标对象增强图像,其中所述目标对象增强图像的像素包括权重信息,所述权重信息与所述像素是否属于所述目标对象相关。
- 如权利要求7-8中任一项所述的系统,其特征在于,所述定位图像生成模块被进一步配置成:根据所述目标对象增强图像确定积分图;以及利用所述积分图来确定所述目标对象定位图像。
- 如权利要求9所述的系统,其特征在于,所述定位图像生成模块被进一步配置成将缩放因子应用于所述目标对象增强图像。
- 如权利要求7-9中任一项所述的系统,其特征在于,所述系统还包括损失率模块,其被配置成:利用损失函数来计算所述目标对象增强图像与所述输入图像之间的损失率; 以及将计算所得的损失率反馈至所述分割算法以更新所述分割算法。
- 一种图像的处理系统,包括:其上存储有计算机可执行指令存储器;以及与所述存储器耦合的处理器,其中所述计算机可执行指令在由所述处理器执行时致使所述系统执行如下操作:使用分割算法确定输入图像的目标对象增强图像,其中所述目标对象增强图像包括被分类为目标对象的每一像素被增强显示的图像;以及将积分图算法应用于所述目标对象增强图像以确定目标对象定位图像。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/136052 WO2023102723A1 (zh) | 2021-12-07 | 2021-12-07 | 图像的处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116802683A true CN116802683A (zh) | 2023-09-22 |
Family
ID=86729503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180078471.2A Pending CN116802683A (zh) | 2021-12-07 | 2021-12-07 | 图像的处理方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11967125B2 (zh) |
EP (1) | EP4220552A4 (zh) |
CN (1) | CN116802683A (zh) |
WO (1) | WO2023102723A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024044947A1 (zh) * | 2022-08-30 | 2024-03-07 | 宁德时代新能源科技股份有限公司 | 缺陷检测的方法、装置和计算机可读存储介质 |
CN117350993B (zh) * | 2023-11-02 | 2024-09-03 | 上海贝特威自动化科技有限公司 | 一种基于图像识别的极耳层数检测方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8824797B2 (en) * | 2011-10-03 | 2014-09-02 | Xerox Corporation | Graph-based segmentation integrating visible and NIR information |
AU2013222016A1 (en) * | 2013-08-30 | 2015-03-19 | Canon Kabushiki Kaisha | Method, system and apparatus for determining a property of an image |
US10460214B2 (en) * | 2017-10-31 | 2019-10-29 | Adobe Inc. | Deep salient content neural networks for efficient digital object segmentation |
US10872409B2 (en) * | 2018-02-07 | 2020-12-22 | Analogic Corporation | Visual augmentation of regions within images |
EP3814984B1 (en) * | 2018-07-29 | 2024-04-17 | Zebra Medical Vision Ltd. | Systems and methods for automated detection of visual objects in medical images |
CN110889410B (zh) * | 2018-09-11 | 2023-10-03 | 苹果公司 | 浅景深渲染中语义分割的稳健用途 |
EP3956711A4 (en) * | 2019-04-18 | 2023-01-11 | The Administrators of The Tulane Educational Fund | SAMPLE POSITIONING SYSTEMS AND METHODS TO FACILITATE MICROSCOPY |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN111080615B (zh) * | 2019-12-12 | 2023-06-16 | 创新奇智(重庆)科技有限公司 | 基于卷积神经网络的pcb缺陷检测系统及检测方法 |
CN111445493B (zh) * | 2020-03-27 | 2024-04-12 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN112508939B (zh) * | 2020-12-22 | 2023-01-20 | 郑州金惠计算机系统工程有限公司 | 法兰表面缺陷检测方法及系统和设备 |
US11875510B2 (en) * | 2021-03-12 | 2024-01-16 | Adobe Inc. | Generating refined segmentations masks via meticulous object segmentation |
CN113065467B (zh) * | 2021-04-01 | 2024-05-14 | 中科星图空间技术有限公司 | 一种基于深度学习的卫星图像低相干区域识别方法及装置 |
-
2021
- 2021-12-07 EP EP21960095.4A patent/EP4220552A4/en active Pending
- 2021-12-07 WO PCT/CN2021/136052 patent/WO2023102723A1/zh active Application Filing
- 2021-12-07 CN CN202180078471.2A patent/CN116802683A/zh active Pending
-
2023
- 2023-04-04 US US18/295,513 patent/US11967125B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP4220552A1 (en) | 2023-08-02 |
EP4220552A4 (en) | 2023-12-27 |
US11967125B2 (en) | 2024-04-23 |
WO2023102723A1 (zh) | 2023-06-15 |
US20230237763A1 (en) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11436739B2 (en) | Method, apparatus, and storage medium for processing video image | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
WO2022001623A1 (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
WO2019018063A1 (en) | FINAL GRAIN IMAGE RECOGNITION | |
CN112598643A (zh) | 深度伪造图像检测及模型训练方法、装置、设备、介质 | |
US11967125B2 (en) | Image processing method and system | |
CN110188766B (zh) | 基于卷积神经网络的图像主目标检测方法及装置 | |
CN112288831A (zh) | 基于生成对抗网络的场景图像生成方法和装置 | |
CN113033305B (zh) | 活体检测方法、装置、终端设备和存储介质 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN112529040A (zh) | 模型生成的方法、装置、电子设备及介质 | |
CN115274099B (zh) | 一种人与智能交互的计算机辅助诊断系统与方法 | |
CN111640123A (zh) | 无背景图像的生成方法、装置、设备及介质 | |
US9081800B2 (en) | Object detection via visual search | |
CN113781387A (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN117635998A (zh) | 用于多标签半监督分类的基于百分位数的伪标签选择 | |
Liu et al. | SLPR: A deep learning based Chinese ship license plate recognition framework | |
Fu et al. | Deep supervision feature refinement attention network for medical image segmentation | |
CN115565186B (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN113222989B (zh) | 一种图像分级方法、装置、存储介质及电子设备 | |
CN115359468A (zh) | 一种目标网站识别方法、装置、设备及介质 | |
Wang et al. | Speed sign recognition in complex scenarios based on deep cascade networks | |
CN113903071A (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
CN113947146A (zh) | 样本数据生成方法、模型训练方法、图像检测方法及装置 | |
CN113763313A (zh) | 文本图像的质量检测方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |