CN110766027A - 图像的区域定位方法和目标区域定位模型的训练方法 - Google Patents
图像的区域定位方法和目标区域定位模型的训练方法 Download PDFInfo
- Publication number
- CN110766027A CN110766027A CN201911004758.1A CN201911004758A CN110766027A CN 110766027 A CN110766027 A CN 110766027A CN 201911004758 A CN201911004758 A CN 201911004758A CN 110766027 A CN110766027 A CN 110766027A
- Authority
- CN
- China
- Prior art keywords
- image
- sample image
- target area
- target
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000012549 training Methods 0.000 title claims abstract description 71
- 230000004913 activation Effects 0.000 claims abstract description 169
- 230000004807 localization Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims description 70
- 238000004590 computer program Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 25
- 238000012800 visualization Methods 0.000 description 19
- 238000002372 labelling Methods 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 206010028813 Nausea Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008693 nausea Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像的区域定位方法和目标区域定位模型的训练方法,其中,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种图像的区域定位方法、目标区域定位模型的训练方法、装置、计算机可读存储介质和计算机设备。
背景技术
计算机视觉(Computer Vision)有许多不同的应用,比如图像分类和图像定位等等。图像分类与图像定位的区别是图像分类只需要通过计算机模型预测图像所属的类别,也就是预测图像中的具体目标;而图像定位是通过计算机模型识别出图像中的具体目标并定位该目标在图像中的位置的技术。因此,对于监督式学习而言,图像分类的训练数据仅仅需要对样本图像的类别进行标注即可,而图像定位则需要标注目标在图像中的位置及目标类别,显然图像定位所需要的训练数据的标注成本更高。
现有的通过利用神经网络进行图像定位的方法,由于训练数据的标注成本问题,通常仅利用图像的类别信息对图像进行目标区域定位,由于缺少目标区域的监督信息,导致效果较差、定位不准确。
发明内容
基于此,有必要针对现有技术中利用图像的类别信息进行图像定位的方式存在定位效果不准确的技术问题,提供一种图像的区域定位方法、目标区域定位模型的训练方法、装置、计算机可读存储介质和计算机设备。
一种图像的区域定位方法,包括:
获取待处理图像;
通过目标区域定位模型获取所述待处理图像对应的类激活图;
其中,所述目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整得到的,各所述样本图像对应的类激活图是通过所述初始定位模型对所述样本图像进行处理获得的;
根据所述待处理图像对应的类激活图确定所述待处理图像中的目标区域。
一种图像的区域定位装置,所述装置包括:
图像获取模块,用于获取待处理图像;
类激活图获取模块,用于通过目标区域定位模型获取所述待处理图像对应的类激活图;其中,所述目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整得到的,各所述样本图像对应的类激活图是通过所述初始定位模型对所述样本图像进行处理获得的;
目标区域确定模块,用于根据所述待处理图像对应的类激活图确定所述待处理图像中的目标区域。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述图像的区域定位方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述图像的区域定位方法的步骤。
上述图像的区域定位方法、装置、计算机可读存储介质和计算机设备,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。这样,在对待处理图像进行定位时,就可以通过目标区域定位模型获取待处理图像对应的类激活图,并根据类激活图准确地确定待处理图像中的目标区域。
一种目标区域定位模型的训练方法,包括:
获取属于目标类别的样本图像集;
通过初始定位模型获取所述样本图像集中的各样本图像对应的类激活图;
根据所述类激活图确定所述样本图像中的目标区域;
当确定的所述目标区域未完全覆盖所述样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
一种目标区域定位模型的训练装置,所述装置包括:
样本图像获取模块,用于获取属于目标类别的样本图像集;
类激活图获取模块,用于通过初始定位模型获取所述样本图像集中的各样本图像对应的类激活图;
目标区域确定模块,用于根据所述类激活图确定所述样本图像中的目标区域;
模型参数调整模块,用于当确定的所述目标区域未完全覆盖所述样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述目标区域定位模型的训练方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述目标区域定位模型的训练方法的步骤。
上述目标区域定位模型的训练方法、装置、计算机可读存储介质和计算机设备,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。
附图说明
图1为一个实施例中图像的区域定位方法的应用环境图;
图2为一个实施例中图像的区域定位方法的流程示意图;
图3为一个实施例中通过目标区域定位模型获取待处理图像对应的类激活图的流程示意图;
图4为一个实施例中目标区域定位模型的网络结构示意图;
图5为一个实施例中根据待处理图像对应的类激活图确定待处理图像中的目标区域的流程示意图;
图6为一个实施例中目标区域为矩形区域的示意图;
图7为一个实施例中融合候选目标区域的示意图;
图8为一个具体的实施例中图像的区域定位方法的框架示意图;
图9为一个具体的实施例中图像的区域定位方法的流程示意图;
图10为一个实施例中目标区域定位模型的训练方法的流程示意图;
图11为一个实施例中可视化结果的示意图;
图12为一个实施例中目标区域定位模型的训练过程示意图;
图13为一个实施例中图像的区域定位装置的结构框图;
图14为一个实施例中目标区域定位模型的训练装置的结构框图;
图15为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中图像的区域定位方法的应用环境图。参照图1,该图像的区域定位方法应用于图像的区域定位系统。该图像的区域定位系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,终端110上运行有应用程序,用户可以使用应用程序观看视频或查看图片,观看的视频或是图片是经过服务器120处理得到的。服务器120可以获取待处理图像,通过目标区域定位模型获取待处理图像对应的类激活图;根据待处理图像对应的类激活图确定待处理图像中的目标区域确定视频或图像中的目标区域;其中,目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整得到的,各样本图像对应的类激活图是通过初始定位模型对样本图像进行处理获得的。
可选地,服务器120还可以将确定的目标区域返回至终端110,由终端110对视频或图像中的目标区域进行标注后进行显示,或者,终端110可以对目标区域进行模糊处理或马赛克处理后再显示。
可以理解,在其它实施例中,也可以直接由终端110对待处理图像进行处理,通过目标区域定位模型获取待处理图像对应的类激活图;根据待处理图像对应的类激活图确定待处理图像中的目标区域;其中,目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整得到的,各样本图像对应的类激活图是通过初始定位模型对样本图像进行处理获得的。此外,目标区域定位模型可以由服务器120训练获得,也可以由终端110训练获得。
如图2所示,在一个实施例中,提供了一种图像的区域定位方法。本实施例以该方法应用于计算机设备(如上述图1中的终端110或服务器120)为例来进行说明。参照图2,该图像的区域定位方法具体包括如下步骤:
S202,获取待处理图像。
其中,待处理图像是待进行图像定位的图像。图像定位是指根据图像中的目标对象将图像归类为候选类别中的目标类别并定位目标对象所在的目标区域。在实际应用中,候选类别可以根据实际应用需求设定。待处理图像是未经处理的原始图像,待处理图像可以是视频中的视频帧,也可以是一张图片。
具体地,计算机设备可以获取其他计算机设备传递的图像,将该图像作为待处理图像,例如上述图1中的服务器120获取终端110传递的图像,将该图像作为待处理图像。计算机设备也可以获取在本机上生成的图像,将该图像作为待处理图像。计算机设备还可从网络上下载图像,将该图像作为待处理图像。
在另一些实施例中,待处理图像可以是包括敏感区域的图像,计算机设备对待处理图像进行图像定位后确定的目标区域即为敏感区域,敏感区域可以是指色情区域、暴恐血腥区域及恶心反感区域等,计算机设备可以对待处理图像进行定位后获得图像中的敏感区域,从而可以进一步对敏感区域进行模糊处理(如高斯模糊处理)或马赛克处理(如小范围区域),从而降低用户在观看视频或图片时的不适感。
S204,通过目标区域定位模型获取待处理图像对应的类激活图。
其中,目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整得到的,各样本图像对应的类激活图是通过初始定位模型对样本图像进行处理获得的。
初始定位模型可以通过样本图像进行学习,从而具备图像区域定位的能力。初始定位模型可以采用神经网络模型,例如卷积神经网络模型。训练初始定位模型所采用的样本图像集是目标类别的样本,也就是标注了类别信息的样本,可以理解,目标类别的样本图像训练得到的图像区域定位模型具备从图像中定位属于目标类别的目标区域的能力。比如,用暴恐血腥的样本图像集训练初始定位模型获得的目标区域定位模型具备从图像中定位暴恐血腥区域的能力,用包括人脸的样本图像集训练初始定位模型获得的目标区域定位模型具备从图像中定位人脸的能力。
在一个实施例中,计算机设备可事先设置深度学习模型的模型结构,得到初始定位模型,再通过属于目标类别的样本图像集,训练得到初始定位模型的模型参数。在需要对待处理图像进行图像定位时,计算机设备可以获取事先训练得到的模型参数,再将该模型参数导入初始定位模型,得到可对属于目标类别的待处理图像中的目标区域进行定位的目标区域定位模型。
类激活图(Class Activation Map)中被激活的区域即为与目标类别相关的区域,通过训练好的目标区域定位模型对待处理图像进行处理后得到的类激活图使得待处理图像中与目标类别相关区域可视化。
具体地,计算机设备可以将获取的待处理图像输入至目标区域定位模型中,通过目标区域定位模型获得待处理图像对应的类激活图。目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型得到的,在训练的过程中,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,各样本图像对应的类激活图是通过初始定位模型对样本图像进行处理获得的。可以理解,当采用属于另一目标类别的样本图像集训练初始定位模型得到的目标区域定位模型,对待处理图像进行处理后获得的类激活图所呈现的激活区域是与当前目标类别相关的。
在一个实施例中,如图3所示,通过目标区域定位模型获取待处理图像对应的类激活图,包括:
S302,将待处理图像输入至目标区域定位模型。
S304,通过目标区域定位模型中的卷积层对待处理图像进行特征提取,获得待处理图像对应的多通道特征图。
其中,特征图(Feature Map)是待处理图像与卷积层中的卷积核进行卷积处理后得到的能够反映图像特征的矩阵。根据图像特征可以对图像进行图像分类,也就是可以对图像进行特征提取,得到对应的特征图,并根据特征图对图像进行分类。每一层的卷积核得到的特征图是多通道的,每个通道的特征图表达了图像的部分特征,所有通道的特征图可共同表征待处理图像的图像特征,最后一层卷积层输出的所有通道的特征图能够较为全面地表达待处理图像的图像信息。在对待处理图像进行目标区域定位时,可以将待处理图像输入至目标区域定位模型,目标区域定位模型中的卷积层对待处理图像进行特征提取,获取待处理图像对应的特征图,继而可以根据该特征图进行后续处理。可选地,后续的处理是基于最后一层卷积层输出的所有通道的特征图来进行的。
S306,通过目标区域定位模型中的分类层,用对应目标类别的权重对各通道的特征图进行加权求和,得到待处理图像对应目标类别的类激活图。
其中,分类层可用于根据得到的特征图对待处理图像中的各个像素点所属的类别进行分类,使得后续能够依据分类后的像素点找出与目标类别相关的像素点构成的目标区域。权重代表了特征图对目标类别的重要性,不同通道的特征图对目标类别的重要性不同,也就是权值不同。比如,代表通道k对应的目标类别C的权重,对于最后一层卷积层输出的通道k的特征图中位于位置(x,y)处的像素点,其特征值为fk(x,y),该像素点对应的目标类别C的激活值对于整个待处理图像而言,实际上也就是通过对应目标类别C的权重对所有通道的特征图进行加权求和,得到待处理图像中各像素点对应目标类别C的激活值,根据待处理图像中各像素点对应目标类别C的激活值就可以得到整个待处理图像对应目标类别C的类激活图。
如图4所示,为一个实施例中目标区域定位模型的网络结构示意图。参照图4,目标区域定位模型包括卷积层和分类层,卷积层中包括多个卷积核,不同的卷积核尺度不同,分类层包括全局平均池化层(Global Average Pooling,GAP)和输出层(用于分类的softmax),卷积层中的卷积核与待处理图像进行卷积,以提取待处理图像的图像特征,全局平均池化层输出最后一个卷积核得到的所有通道的特征图的平均值,通过输出层对最后一个卷积核得到的所有特征图进行加权求和得到最后的输出,也就是类激活图。参照图4,用C这个类对应的权重乘上最后一层卷积层输入的各个通道的特征图,即:W1*第一层+W2*第二层+…+Wn*第n层=对应C类别的类激活图。
在一个实施例中,目标区域定位模型通过以下步骤训练得到:获取属于目标类别的样本图像集;通过初始定位模型获取样本图像集中的各样本图像对应的类激活图;根据类激活图确定样本图像中的目标区域;当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
具体地,计算机设备可以获取属于目标类别的样本图像集,通过初始定位模型获取样本图像集中各样本图像对应的类激活图,对类激活图进行可视化处理(包括归一化处理、尺度缩放处理及二值化处理),得到目标区域的可视化结果,这样标注人员就可以根据可视化结果直观地判断当前的模型获得的目标区域是否完全覆盖了样本图像中与目标类别相关的区域,若未完全覆盖,则将该样本图像保留下来,加入至该目标类别对应的样本图像集中,继续使用该样本图像集对当前的初始定位模型的模型参数进行调整,以引导模型将注意力集中在样本图像中被遗漏的属于目标类别的区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。
可选地,若当前的模型获得的目标区域已经完全覆盖了样本图像中与目标类别相关的区域,则可以从目标类别对应的样本图像集中移除该样本图像。
在本实施例中,在训练模型的过程中,所使用的样本图像集的标注成本仅包括类别信息,标注成本较低,在调整模型参数的过程中,并不改变模型结构,仍是基于原始分类模型的结构,就可以使得调整后的模型可以更准确地定位到图像中的目标区域,开发成本及标注成本都比较低,且得到的目标区域定位模型是十分有效的,准确率高。关于训练目标区域定位模型的具体实施例,可以参考后文中关于目标区域定位模型的训练方法的实施例。
S206,根据待处理图像对应的类激活图确定待处理图像中的目标区域。
由于类激活图初步反映了待处理图像中像素点属于目标类别的可能性大小,因此,计算机设备可根据类激活图确定待处理图像中的目标区域。在一些实施例中,计算机设备可根据类激活图确定待处理图像中的候选目标区域,并继续对候选目标区域进行融合或筛选,得到最终的目标区域。
在一个实施例中,如图5所示,根据待处理图像对应的类激活图确定待处理图像中的目标区域,包括:
S502,将类激活图进行归一化处理和尺度缩放处理,获得待处理图像中各像素点属于目标区域的概率。
由于类激活图中各像素值大小不一,为了增加像素点之间的可比性,需要对类激活图进行归一化处理。计算机设备可以采用合适的归一化处理方法对类激活图进行处理,比如找出各类激活图中的最大值max与最小值min,然后将每个像素值f按照以下公式进行转化:
经过转化后的f’(为一个[0,1]之间的值)即为f对应的归一化处理后的值,该值可以表达对应的像素点属于目标类别的概率。
进一步地,计算机设备还需要对归一化之后的类激活图进行尺度缩放处理,缩放至与待处理图像相同的尺度,最终得到待处理图像中各像素点属于目标区域的概率。
S504,从待处理图像中确定所对应的概率大于预设阈值的像素点。
对于经过归一化、尺度缩放之后的类激活图,类激活图中CAM(x,y)表示位于(x,y)坐标的像素值,同时也表示位于(x,y)坐标的像素点属于目标区域的概率。预设阈值thresh为一个阈值,范围为[0,1],thresh可以根据实际需要来设置,比如,如果希望得到的目标区域覆盖待处理图像中较大的区域,可以取一个较小的阈值,如果更不希望误报,可以取一个较高的阈值。在一个实施例中,thresh为0.8。也就是说,计算机设备需要从处理后的类激活图中找出像素值大于预设阈值的值,从而根据这些值的坐标从待处理图像中确定对应的像素点。
S506,将确定的像素点构成的区域作为待处理图像中的目标区域。
具体地,计算机设备可以直接根据确定的像素点所构成的区域作为待处理图像中的目标区域,得到的目标区域显然是一个不规则形状的区域。在一个实施例中,计算机设备可以按照以下方式将待处理图像中的目标区域可视化,即先对归一化处理后的类激活图进行二值化处理:
CAM_thresh(x,y)=0,若CAM(x,y)>thresh;
CAM_thresh(x,y)=1,若CAM(x,y)<thresh。
然后将待处理图像与经过二值化处理后的类激活图逐像素叠加,从而将待处理图像中的目标区域可视化。
在一些实施例中,计算机设备也可以将确定的像素点所构成的不规则形状区域作为待处理图像的候选目标区域,而进一步对候选目标区域进行区域融合或筛选,得到最终的待处理图像中的目标区域。
在本实施例中,对于通过目标定位模型得到的待处理图像对应目标类别的类激活图,可以直接对类激活图进行归一化处理和尺度缩放处理后与预设阈值进行比较,即可获得待处理图像中的目标区域。
在一个实施例中,根据待处理图像对应的类激活图确定待处理图像中的目标区域,包括:
将类激活图进行归一化处理和尺度缩放处理,获得待处理图像中各像素点属于目标区域的概率;从待处理图像中确定所对应的概率大于预设阈值的像素点;根据像素点的坐标,从像素点中确定顶点像素点;根据顶点像素点获取矩形区域;将矩形区域作为待处理图像中的目标区域。
具体地,从待处理图像中确定所对应的概率大于预设阈值的像素点后,可以根据确定的像素点确定至少一个不规则形状的候选目标区域。顶点像素点是每个候选目标区域中坐标的最大值或最小值所对应的像素点,坐标包括x坐标和y坐标,对于每个不规则形状的候选目标区域而言,都可以根据像素点的坐标获取4个顶点像素点,也就是最左侧、最右侧、最上侧及最下侧的像素点。进一步地,计算机设备可以根据每个候选目标区域的4个顶点像素点确定相应的矩形区域,并将相应的矩形区域作为待处理图像中的目标区域。矩形区域的4个顶点坐标可以作为待处理图像中目标区域的位置信息。
如图6所示,为一个实施例中目标区域为矩形区域的示意图。参照图6,目标类别为“老鼠”,目标区域是包括“老鼠”的区域,左边是原始的待处理图像,中间是根据待处理图像的类激活图获得的候选目标区域,右边是根据候选目标区域确定的矩形区域,将该矩形区域作为待处理图像对应的目标区域。
在本实施例中,通过对不规则候选目标区域进行进一步处理,得到规则的矩形区域,将该矩形区域作为待处理图像的定位结果,也就是说,可以不需要训练数据的位置信息训练模型,而训练得到的目标区域定位模型可以准确定位待处理图像的位置信息。
在一个实施例中,方法还包括:当获取的矩形区域的尺寸小于预设阈值时,过滤掉矩形区域;当获取的矩形区域中包括部分重叠的多个矩形区域时,根据多个矩形区域确定包括多个矩形区域的最小矩形区域,并将确定的最小矩形区域作为待处理图像中的目标区域。
具体地,获取的矩形区域的尺寸可以用矩形区域的边长或所包括像素点的数量来衡量,比如,当矩形区域的边长小于待处理图像边长的5%时,就可以过滤掉该矩形区域,或者当矩形区域所包括的像素点的数量小于待处理图像所包括像素点数量的10%时,就可以过滤掉该矩形区域。又一些实施例中,计算机设备可以根据矩形区域的4个顶点像素点的坐标确定是否存在部分重叠的多个矩形区域,若是,则可以对部分重叠的多个矩形区域进行区域融合,实际上是根据部分重叠的多个矩形区域进行最小合并处理,得到包括该多个矩形区域的最小矩形区域,并将得到的最小矩形区域作为待处理图像中的目标区域。
如图7所示,为一个实施例中融合候选目标区域的示意图。参照图7,左边显示了从待处理图像中获取的2个矩型区域分别为A和B,对于矩形区域A与矩形区域B部分重叠,则对矩形区域A、矩形区域B进行合并处理,如图7右边所示的,得到一个同时包括矩形区域A、矩形区域B的最小矩形区域,最终将该矩形区域作为待处理图像中的目标区域。
本实施例中,计算机设备还可以对过小的矩形区域继续过滤,以减小算法产生的噪声对定位结果的影响,而对于部分重叠的矩形区域,计算机设备可以进行融合处理,这样可以更完整地覆盖目标区域,从而提高定位目标区域的准确性。
在一个实施例中,目标区域为待处理图像中的敏感区域,方法还包括:对敏感区域进行模糊处理或马赛克处理;显示经过处理后的待处理图像。
在具体应用场景中,当目前区域为待处理图像中的敏感区域时,比如色情区域、暴恐血腥区域及恶心反感区域等,为了减少用户查看图片时的不适感,计算机设备还可以进一步对定位得到的敏感区域进行模糊处理或马赛克处理。
如图8所示,为一个具体的实施例中图像的区域定位方法的框架示意图。参照图8,首先将待处理图像输入至目标区域定位模型,通过目标区域定位模型待处理图像对应目标类别的类激活图,接着,对类激活图进行归一化处理、尺度缩放处理和二值化处理,得到候选目标区域,对目标候选区域进行筛选和融合后定位待处理图像中的目标区域。
如图9所示,为一个具体的实施例中图像的区域定位方法的流程示意图,包括以下步骤:
S902,获取待处理图像;
S904,将待处理图像输入至目标区域定位模型;
S906,通过目标区域定位模型中的卷积层对待处理图像进行特征提取,获得待处理图像对应的多通道特征图;
其中,目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整得到的,各样本图像对应的类激活图是通过初始定位模型对样本图像进行处理获得的。
S908,通过目标区域定位模型中的分类层,用对应目标类别的权重对各通道的特征图进行加权求和,得到待处理图像对应目标类别的类激活图。
S910,将类激活图进行归一化处理和尺度缩放处理,获得待处理图像中各像素点属于目标区域的概率;
S912,从待处理图像中确定所对应的概率大于预设阈值的像素点;
S914,根据像素点的坐标,从像素点中确定顶点像素点;
S916,根据顶点像素点获取矩形区域;
S918,当获取的矩形区域的尺寸小于预设阈值时,过滤掉矩形区域;
S920,当获取的矩形区域中包括部分重叠的多个矩形区域时,根据多个矩形区域确定包括多个矩形区域的最小矩形区域,并将确定的最小矩形区域作为待处理图像中的目标区域。
S922,对目标区域进行模糊处理或马赛克处理;
S924,显示经过处理后的待处理图像。
上述图像的区域定位方法,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。这样,在对待处理图像进行定位时,就可以通过目标区域定位模型获取待处理图像对应的类激活图,并根据类激活图准确地确定待处理图像中的目标区域。
图9为一个实施例中图像的区域定位方法的流程示意图。应该理解的是,虽然图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图9中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图10所示,在一个实施例中,提供了一种目标区域定位模型的训练方法。本实施例以该方法应用于计算机设备(如上述图1中的终端110或服务器120)为例来进行说明。参照图10,该目标区域定位模型的训练方法具体包括如下步骤:
S1002,获取属于目标类别的样本图像集。
其中,属于目标类别的样本图像集是用于分辨出属于目标类别图像的训练数据,样本图像集中的各样本图像是仅标注了真实的类别信息的图像,样本图像中目标区域的位置信息暂不可知。样本图像集包括真实的类别信息为目标类别的样本图像,也包括真实的类别信息为非目标类别的样本图像。计算机设备可以获取样本图像集,并获取各样本图像的类别信息。各样本图像所对应的类别信息可以由标注人员确定。
S1004,通过初始定位模型获取样本图像集中的各样本图像对应的类激活图。
其中,初始定位模型是对应初始模型参数的深度学习模型,初始定位模型可以通过样本图像进行学习,从而具备图像区域定位的能力。初始定位模型可以采用神经网络模型,例如卷积神经网络模型。在不断训练初始定位模型的过程中,对应的模型参数不断变化,直至训练完成时得到的模型参数所对应的深度学习模型即为目标区域定位模型。可以理解,目标类别的样本图像训练得到的图像区域定位模型具备从图像中定位属于目标类别的目标区域的能力。本实施例中,训练结束之前得到的深度学习模型都称之为初始定位模型。
具体地,训练初始定位模型时,计算机设备可以将属于目标类别的样本图像集中各样本图像依次输入至初始定位模型,通过初始定位模型获得样本图像对应的类激活图。类激活图中被激活的区域即为与目标类别相关的区域。
在一个实施例中,通过初始定位模型获取样本图像集中的各样本图像对应的类激活图,包括:将样本图像输入至初始定位模型;通过初始定位模型中的卷积层对样本图像进行特征提取,获得样本图像对应的多通道特征图;通过初始定位模型中的分类层,用对应目标类别的权重对各通道的特征图进行加权求和,得到样本图像对应目标类别的类激活图。
具体地,计算机设备设置的初始定位模型的模型结构包括卷积层和分类层,计算机设备可以在训练模型的过程中,将每一样本图像输入至卷积层,通过卷积层对样本图像进行图像特征提取,获得样本图像对应各个通道的特征图,再通过分类层用对应目标类别的权重对各个通道的特征图进行线性加权求和,得到样本图像对应的类激活图。
其中,卷积层用于提取样本图像的图像特征,得到样本图像对应的特征图,特征图是样本图像与卷积层中的卷积核进行卷积处理后得到的能够反映图像特征的矩阵,根据特征图可以对图像进行分类。每一层的卷积核得到的特征图是多通道的,每个通道的特征图表达了图像的部分特征,所有通道的特征图可共同表征样本图像的图像特征,卷积层的最后一个卷积核输出的所有通道的特征图能够较为全面地表达样本图像的图像信息。
分类层可用于根据得到的特征图对样本图像中的各个像素点所属的类别进行分类,使得后续能够依据分类后的像素点找出与目标类别相关的像素点构成的目标区域。权重代表了特征图对目标类别的重要性,不同通道的特征图对目标类别的重要性不同,也就是权值不同,对于整个样本图像而言,分类层用于通过对应目标类别的权重对所有通道的特征图进行加权求和,得到样本图像中各像素点对应目标类别的激活值,根据样本图像中各像素点对应目标类别的激活值就可以得到整个样本图像对应目标类别的类激活图。
S1006,根据类激活图确定样本图像中的目标区域。
类激活图初步反映了样本图像中像素点属于目标类别的可能性大小,计算机设备可根据类激活图确定样本图像中的目标区域。
在一个实施例中,根据类激活图确定样本图像中的目标区域,包括:将类激活图依次进行归一化处理、尺度缩放处理和二值化处理后,再与样本图像叠加,得到样本图像对应的可视化结果,可视化结果用于显示样本图像中的目标区域。
类激活图中各像素值的大小不一,为了增加像素点之间的可比性,计算机设备可对类激活图中各像素值进行归一化处理,将各像素值转化为一个[0,1]之间的值,该值可以表示相应的像素点属于目标类别的概率。同时,经过卷积层中多个卷积核的卷积操作,卷积层输出的特征图的尺度与样本图像不一致,导致得到的类激活图的尺度与样本图像不一样,因此计算机设备还需要对归一化处理后的类激活图进行尺度缩放处理,缩放至与样本图像相同的尺度,该尺度中各值即为样本图像中各像素点属于目标区域的概率。最后,为了得到可视化结果,计算机设备需要对各像素点属于目标区域的概率进行二值化处理,即将概率与预设阈值进行比较后二值化,并将二值化后的结果与原始的样本图像叠加,得到样本图像对应的可视化结果。这样,根据得到的可视化结果,工作人员或标注人员可以很直观地看到当前训练得到的模型所确定的样本图像中的目标区域是否完全覆盖了样本图像中与目标类别相关的区域。
比如,归一化、尺度缩放处理后的类激活图中位于(x,y)坐标的像素值可以用CAM(x,y)表示,再将其与预设阈值thresh进行比较,以进行二值化处理:
CAM_thresh(x,y)=0,若CAM(x,y)>thresh;
CAM_thresh(x,y)=1,若CAM(x,y)<thresh。
最后得到可视化结果:
如图11所示,为一个实施例中可视化结果的示意图。若初始定位模型用于定位图像中的“老鼠”,参照图11,左边为原始的样本图像,样本图像包括“老鼠”,还包括“老鼠”之外的背景区域,中间为将初始定位模型迭代一次后输出的类激活图得到的可视化结果,可视化结果中的黑色区域即为根据当前模型输出的类激活图确定的目标区域。可见,由于初始定位模型未训练完成,图像定位结果不够准确,当前得到的可视化结果未能完全覆盖样本图像中与目标类别(“老鼠”)相关的区域。
S1008,当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
具体地,生成的所有可视化结果交给标注人员进行判别,当根据当前训练得到的模型所确定的样本图像中的目标区域未能完全覆盖样本图像中与目标类别相关的区域时,则需要保留该样本图像,继续使用该样本图像对当前的模型进行训练,以调整模型参数,直至在满足迭代条件时得到用于对图像中的目标区域进行定位的目标区域定位模型。在调整模型参数的过程中,并不改变模型结构,仍是基于原始分类模型的结构,就可以使得调整后的模型可以更准确地定位到图像中的目标区域,开发成本及标注成本都比较低,且得到的目标区域定位模型是十分有效的,准确率高。参照图11中的右图,为根据多次迭代后得到的模型所输出的类激活图确定的可视化结果,可见该可视化结果中,与“老鼠”相关的区域被更完整地覆盖了。
在一个实施例中,S1008具体包括:当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则将样本图像重新添加至目标类别对应的样本图像集;对初始定位模型的模型参数进行调整后,继续将样本图像集中的各样本图像依次输入至初始定位模型,获得各样本图像中与目标类别相关的目标区域;直至调整后的初始定位模型满足迭代停止条件时,得到用于对图像中的目标区域进行定位的目标区域定位模型。
具体地,当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则说明当前模型参数下对应的模型未能完全注意到样本图像中与目标类别相关的所有区域,则需要保留该样本图像,将该样本图像添加至样本图像集中,继续使用样本图像集中的样本图像对当前模型进行训练,直至调整后的模型满足迭代停止条件时,得到图像定位准确率较高的目标区域定位模型。其中的迭代停止条件可以是根据精度要求设置的,比如迭代停止条件可以是在交并比(IoU,Intersection over Union)满足第一预设值的情况下,从样本图像中定位目标区域的精度是否达到第二预设值。
在一个实施例中,当确定的目标区域完全覆盖样本图像中与目标类别相关的区域时,则从目标类别对应的样本图像集中移除样本图像。具体地,当确定的目标区域完全覆盖样本图像中与目标类别相关的区域时,则丢弃该样本图像,不需要再使用该样本图像训练当前的模型。
如图12所示,为一个实施例中目标区域定位模型的训练过程示意图。参照图12,样本图像输入至初始定位模型,获得对应的类激活图,根据类激活图确定样本图像中的目标区域对应的可视化结果,若根据可视化结果判定目标区域完全覆盖了样本图像中与目标类别相关的目标区域,则丢弃该样本图像,若未完全覆盖了样本图像中与目标类别相关的目标区域,则保留该样本图像,将该样本图像加入至该目标类别对应的样本图像集中,继续训练模型,直至经过多次迭代后的模型满足迭代停止条件时,得到目标区域定位模型。
在一个具体的实施例中,目标区域定位模型的训练方法包括以下步骤:
获取属于目标类别的样本图像集;
将样本图像输入至初始定位模型;
通过初始定位模型中的卷积层对样本图像进行特征提取,获得样本图像对应的多通道特征图;
通过初始定位模型中的分类层,用对应目标类别的权重对各通道的特征图进行加权求和,得到样本图像对应目标类别的类激活图;
将类激活图依次进行归一化处理、尺度缩放处理和二值化处理后,再与样本图像叠加,得到样本图像对应的可视化结果,可视化结果用于显示样本图像中的目标区域;
当确定的目标区域完全覆盖样本图像中与目标类别相关的区域时,则从目标类别对应的样本图像集中移除样本图像;
当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则将样本图像重新添加至目标类别对应的样本图像集;
对初始定位模型的模型参数进行调整后,继续将样本图像集中的各样本图像依次输入至初始定位模型,获得各样本图像中与目标类别相关的目标区域;
直至调整后的初始定位模型满足迭代停止条件时,得到用于对图像中的目标区域进行定位的目标区域定位模型。
上述目标区域定位模型的训练方法,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。
在一个实施例中,如图13所示,提供了一种图像的区域定位装置1300,该装置包括图像获取模块1302、类激活图获取模块1304和目标区域确定模块1306,其中:
图像获取模块1302,用于获取待处理图像;
类激活图获取模块1304,用于通过目标区域定位模型获取待处理图像对应的类激活图;其中,目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整得到的,各样本图像对应的类激活图是通过初始定位模型对样本图像进行处理获得的;
目标区域确定模块1306,用于根据待处理图像对应的类激活图确定待处理图像中的目标区域。
在一个实施例中,类激活图获取模块1304具体还用于将待处理图像输入至目标区域定位模型;通过目标区域定位模型中的卷积层对待处理图像进行特征提取,获得待处理图像对应的多通道特征图;通过目标区域定位模型中的分类层,用对应目标类别的权重对各通道的特征图进行加权求和,得到待处理图像对应目标类别的类激活图。
在一个实施例中,目标区域确定模块1306具体还用于将类激活图进行归一化处理和尺度缩放处理,获得待处理图像中各像素点属于目标区域的概率;从待处理图像中确定所对应的概率大于预设阈值的像素点;将确定的像素点构成的区域作为待处理图像中的目标区域。
在一个实施例中,目标区域确定模块1306具体还用于将类激活图进行归一化处理和尺度缩放处理,获得待处理图像中各像素点属于目标区域的概率;从待处理图像中确定所对应的概率大于预设阈值的像素点;根据像素点的坐标,从像素点中确定顶点像素点;根据顶点像素点获取矩形区域;将矩形区域作为待处理图像中的目标区域。
在一个实施例中,目标区域确定模块1306具体还用于当获取的矩形区域的尺寸小于预设阈值时,过滤掉矩形区域;当获取的矩形区域中包括部分重叠的多个矩形区域时,根据多个矩形区域确定包括多个矩形区域的最小矩形区域,并将确定的最小矩形区域作为待处理图像中的目标区域。
在一个实施例中,目标区域为待处理图像中的敏感区域,图像的区域定位装置1300还包括显示模块,用于对敏感区域进行模糊处理或马赛克处理;显示经过处理后的待处理图像。
上述图像的区域定位装置1300,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。这样,在对待处理图像进行定位时,就可以通过目标区域定位模型获取待处理图像对应的类激活图,并根据类激活图准确地确定待处理图像中的目标区域。
在一个实施例中,如图14所示,提供了一种目标区域定位模型的训练装置1400,该装置包括样本图像获取模块1402、类激活图获取模块1404、目标区域确定模块1406和模型参数调整模块1408,其中:
样本图像获取模块1402,用于获取属于目标类别的样本图像集;
类激活图获取模块1404,用于通过初始定位模型获取样本图像集中的各样本图像对应的类激活图;
目标区域确定模块1406,用于根据类激活图确定样本图像中的目标区域;
模型参数调整模块1408,用于当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
在一个实施例中,类激活图获取模块1404具体还用于将样本图像输入至初始定位模型;通过初始定位模型中的卷积层对样本图像进行特征提取,获得样本图像对应的多通道特征图;通过初始定位模型中的分类层,用对应目标类别的权重对各通道的特征图进行加权求和,得到样本图像对应目标类别的类激活图。
在一个实施例中,目标区域确定模块1406具体还用于将类激活图依次进行归一化处理、尺度缩放处理和二值化处理后,再与样本图像叠加,得到样本图像对应的可视化结果,可视化结果用于显示样本图像中的目标区域。
在一个实施例中,模型参数调整模块1408具体还用于当确定的目标区域未完全覆盖样本图像中与目标类别相关的区域时,则将样本图像重新添加至目标类别对应的样本图像集;对初始定位模型的模型参数进行调整后,继续将样本图像集中的各样本图像依次输入至初始定位模型,获得各样本图像中与目标类别相关的目标区域;直至调整后的初始定位模型满足迭代停止条件时,得到用于对图像中的目标区域进行定位的目标区域定位模型。
在一个实施例中,模型参数调整模块1408具体还用于当确定的目标区域完全覆盖样本图像中与目标类别相关的区域时,则从目标类别对应的样本图像集中移除样本图像。
上述目标区域定位模型的训练装置1400,目标区域定位模型为使用属于目标类别的样本图像集训练初始定位模型,在训练目标区域定位模型时,通过初始定位模型分别对样本图像集中的各样本图像进行处理,获得各样本图像对应的类激活图,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与目标类型相关的区域时,则继续使用样本图像对初始定位模型的模型参数进行调整,以引导当前的模型将更多注意力集中在该样本图像中被遗漏的目标区域,从而在调整的过程中查漏补缺,使得获得的目标区域定位模型的定位结果更加准确。
图15示出了一个实施例中计算机设备的内部结构图。如图15所示,当该计算机设备为图1中的服务器120时,该计算机设备可以包括通过系统总线连接的处理器、存储器、网络接口;当该计算机设备为图1中的终端110时,该计算机设备还可以包括显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现图像的区域定位方法或目标区域定位模型的训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行图像的区域定位方法或目标区域定位模型的训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的图像的区域定位装置1300可以实现为一种计算机程序的形式,计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像的区域定位装置1300的各个程序模块,比如,图13所示的图像获取模块1302、类激活图获取模块1304和目标区域确定模块1306。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像的区域定位方法中的步骤。
例如,图15所示的计算机设备可以通过如图13所示的图像的区域定位装置1300中的图像获取模块1302执行步骤S202。计算机设备可通过类激活图获取模块1304执行步骤S204。计算机设备可通过目标区域确定模块1306执行步骤S206。
在一个实施例中,本申请提供的目标区域定位模型的训练装置1400可以实现为一种计算机程序的形式,计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标区域定位模型的训练装置1400的各个程序模块,比如,图14所示的样本图像获取模块1402、类激活图获取模块1404、目标区域确定模块1406和模型参数调整模块1408。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标区域定位模型的训练方法中的步骤。
例如,图15所示的计算机设备可以通过如图14所示的目标区域定位模型的训练装置1400中的样本图像获取模块1402执行步骤S1002。计算机设备可通过类激活图获取模块1404执行步骤S1004。计算机设备可通过目标区域确定模块1406执行步骤S1006。计算机设备可通过模型参数调整模块1408执行步骤S1008。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述图像的区域定位方法的步骤。此处图像的区域定位方法的步骤可以是上述各个实施例的图像的区域定位方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述图像的区域定位方法的步骤。此处图像的区域定位方法的步骤可以是上述各个实施例的图像的区域定位方法中的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述目标区域定位模型的训练方法的步骤。此处目标区域定位模型的训练方法的步骤可以是上述各个实施例的目标区域定位模型的训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述目标区域定位模型的训练方法的步骤。此处目标区域定位模型的训练方法的步骤可以是上述各个实施例的目标区域定位模型的训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种图像的区域定位方法,包括:
获取待处理图像;
通过目标区域定位模型获取所述待处理图像对应的类激活图;
其中,所述目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整得到的,各所述样本图像对应的类激活图是通过所述初始定位模型对所述样本图像进行处理获得的;
根据所述待处理图像对应的类激活图确定所述待处理图像中的目标区域。
2.根据权利要求1所述的方法,其特征在于,所述通过目标区域定位模型获取所述待处理图像对应的类激活图,包括:
将所述待处理图像输入至目标区域定位模型;
通过所述目标区域定位模型中的卷积层对所述待处理图像进行特征提取,获得所述待处理图像对应的多通道特征图;
通过所述目标区域定位模型中的分类层,用对应所述目标类别的权重对各通道的特征图进行加权求和,得到所述待处理图像对应所述目标类别的类激活图。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待处理图像对应的类激活图确定所述待处理图像中的目标区域,包括:
将所述类激活图进行归一化处理和尺度缩放处理,获得所述待处理图像中各像素点属于目标区域的概率;
从所述待处理图像中确定所对应的所述概率大于预设阈值的像素点;
将确定的像素点构成的区域作为待处理图像中的目标区域。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理图像对应的类激活图确定所述待处理图像中的目标区域,包括:
将所述类激活图进行归一化处理和尺度缩放处理,获得所述待处理图像中各像素点属于目标区域的概率;
从所述待处理图像中确定所对应的所述概率大于预设阈值的像素点;
根据所述像素点的坐标,从所述像素点中确定顶点像素点;
根据所述顶点像素点获取矩形区域;
将所述矩形区域作为所述待处理图像中的目标区域。
5.根据权利要求4所述的方法,其特征在于,所述将所述矩形区域作为所述待处理图像中的目标区域,包括:
当获取的矩形区域的尺寸小于预设阈值时,过滤掉所述矩形区域;
当获取的矩形区域中包括部分重叠的多个矩形区域时,根据所述多个矩形区域确定包括所述多个矩形区域的最小矩形区域,并将确定的所述最小矩形区域作为所述待处理图像中的目标区域。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述目标区域为所述待处理图像中的敏感区域,所述方法还包括:
对所述敏感区域进行模糊处理或马赛克处理;
显示经过处理后的待处理图像。
7.一种目标区域定位模型的训练方法,包括:
获取属于目标类别的样本图像集;
通过初始定位模型获取所述样本图像集中的各样本图像对应的类激活图;
根据所述类激活图确定所述样本图像中的目标区域;
当确定的所述目标区域未完全覆盖所述样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
8.根据权利要求7所述的方法,其特征在于,所述通过初始定位模型获取所述样本图像集中的各样本图像对应的类激活图,包括:
将所述样本图像输入至所述初始定位模型;
通过所述初始定位模型中的卷积层对所述样本图像进行特征提取,获得所述样本图像对应的多通道特征图;
通过所述初始定位模型中的分类层,用对应所述目标类别的权重对各通道的特征图进行加权求和,得到所述样本图像对应所述目标类别的类激活图。
9.根据权利要求7所述的方法,其特征在于,所述根据所述类激活图确定所述样本图像中的目标区域,包括:
将所述类激活图依次进行归一化处理、尺度缩放处理和二值化处理后,再与所述样本图像叠加,得到所述样本图像对应的可视化结果,所述可视化结果用于显示所述样本图像中的目标区域。
10.根据权利要求7所述的方法,其特征在于,所述当确定的所述目标区域未完全覆盖所述样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型,包括:
当确定的所述目标区域未完全覆盖所述样本图像中与所述目标类别相关的区域时,则将所述样本图像重新添加至所述目标类别对应的样本图像集;
对所述初始定位模型的模型参数进行调整后,继续将所述样本图像集中的各样本图像依次输入至所述初始定位模型,获得各所述样本图像中与所述目标类别相关的目标区域;
直至调整后的所述初始定位模型满足迭代停止条件时,得到用于对图像中的目标区域进行定位的目标区域定位模型。
11.根据权利要求7所述的方法,其特征在于,所述方法包括:
当确定的所述目标区域完全覆盖所述样本图像中与所述目标类别相关的区域时,则从所述目标类别对应的样本图像集中移除所述样本图像。
12.一种图像的区域定位装置,其特征在于,所述装置包括:
图像获取模块,用于获取待处理图像;
类激活图获取模块,用于通过目标区域定位模型获取所述待处理图像对应的类激活图;其中,所述目标区域定位模型是使用属于目标类别的样本图像集训练初始定位模型时,当根据各样本图像的类激活图确定的目标区域未完全覆盖相应样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整得到的,各所述样本图像对应的类激活图是通过所述初始定位模型对所述样本图像进行处理获得的;
目标区域确定模块,用于根据所述待处理图像对应的类激活图确定所述待处理图像中的目标区域。
13.一种目标区域定位模型的训练装置,其特征在于,所述装置包括:
样本图像获取模块,用于获取属于目标类别的样本图像集;
类激活图获取模块,用于通过初始定位模型获取所述样本图像集中的各样本图像对应的类激活图;
目标区域确定模块,用于根据所述类激活图确定所述样本图像中的目标区域;
模型参数调整模块,用于当确定的所述目标区域未完全覆盖所述样本图像中与所述目标类别相关的区域时,则继续使用所述样本图像对所述初始定位模型的模型参数进行调整,得到用于对图像中的目标区域进行定位的目标区域定位模型。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911004758.1A CN110766027A (zh) | 2019-10-22 | 2019-10-22 | 图像的区域定位方法和目标区域定位模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911004758.1A CN110766027A (zh) | 2019-10-22 | 2019-10-22 | 图像的区域定位方法和目标区域定位模型的训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766027A true CN110766027A (zh) | 2020-02-07 |
Family
ID=69332479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911004758.1A Pending CN110766027A (zh) | 2019-10-22 | 2019-10-22 | 图像的区域定位方法和目标区域定位模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766027A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831791A (zh) * | 2020-06-29 | 2020-10-27 | 万翼科技有限公司 | 图纸显示方法、电子设备和图形服务器 |
CN111967597A (zh) * | 2020-08-18 | 2020-11-20 | 上海商汤临港智能科技有限公司 | 神经网络训练及图像分类方法、装置、存储介质、设备 |
CN112749701A (zh) * | 2021-01-22 | 2021-05-04 | 北京百度网讯科技有限公司 | 车牌污损分类模型的生成方法和车牌污损分类方法 |
CN113409213A (zh) * | 2021-06-22 | 2021-09-17 | 中铁工程装备集团有限公司 | 柱塞泵故障信号时频图降噪增强方法和系统 |
CN113469172A (zh) * | 2020-03-30 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN114462559A (zh) * | 2022-04-14 | 2022-05-10 | 中国科学技术大学 | 目标定位模型训练方法、目标定位方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794421A (zh) * | 2015-04-29 | 2015-07-22 | 华中科技大学 | 一种qr码定位及识别方法 |
CN106709521A (zh) * | 2016-12-26 | 2017-05-24 | 深圳极视角科技有限公司 | 基于卷积神经网络和动态跟踪的火焰预警方法和系统 |
CN109410204A (zh) * | 2018-10-31 | 2019-03-01 | 电子科技大学 | 一种基于cam的皮质白内障图像处理及增强方法 |
CN109427082A (zh) * | 2017-08-29 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种图像遮蔽方法、装置、设备及系统 |
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
CN110222704A (zh) * | 2019-06-12 | 2019-09-10 | 北京邮电大学 | 一种弱监督目标检测方法及装置 |
-
2019
- 2019-10-22 CN CN201911004758.1A patent/CN110766027A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794421A (zh) * | 2015-04-29 | 2015-07-22 | 华中科技大学 | 一种qr码定位及识别方法 |
CN106709521A (zh) * | 2016-12-26 | 2017-05-24 | 深圳极视角科技有限公司 | 基于卷积神经网络和动态跟踪的火焰预警方法和系统 |
CN109427082A (zh) * | 2017-08-29 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种图像遮蔽方法、装置、设备及系统 |
CN109410204A (zh) * | 2018-10-31 | 2019-03-01 | 电子科技大学 | 一种基于cam的皮质白内障图像处理及增强方法 |
CN109784203A (zh) * | 2018-12-24 | 2019-05-21 | 中国科学院大学 | 基于分层传播和激活的弱监督x光图像违禁品检查方法 |
CN110222704A (zh) * | 2019-06-12 | 2019-09-10 | 北京邮电大学 | 一种弱监督目标检测方法及装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469172A (zh) * | 2020-03-30 | 2021-10-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN113469172B (zh) * | 2020-03-30 | 2022-07-01 | 阿里巴巴集团控股有限公司 | 目标定位、模型训练、界面交互方法及设备 |
CN111831791A (zh) * | 2020-06-29 | 2020-10-27 | 万翼科技有限公司 | 图纸显示方法、电子设备和图形服务器 |
CN111831791B (zh) * | 2020-06-29 | 2024-03-22 | 深圳市万翼数字技术有限公司 | 图纸显示方法、电子设备和图形服务器 |
CN111967597A (zh) * | 2020-08-18 | 2020-11-20 | 上海商汤临港智能科技有限公司 | 神经网络训练及图像分类方法、装置、存储介质、设备 |
CN112749701A (zh) * | 2021-01-22 | 2021-05-04 | 北京百度网讯科技有限公司 | 车牌污损分类模型的生成方法和车牌污损分类方法 |
CN112749701B (zh) * | 2021-01-22 | 2024-02-09 | 北京百度网讯科技有限公司 | 车牌污损分类模型的生成方法和车牌污损分类方法 |
CN113409213A (zh) * | 2021-06-22 | 2021-09-17 | 中铁工程装备集团有限公司 | 柱塞泵故障信号时频图降噪增强方法和系统 |
CN113409213B (zh) * | 2021-06-22 | 2023-11-14 | 中铁工程装备集团有限公司 | 柱塞泵故障信号时频图降噪增强方法和系统 |
CN114462559A (zh) * | 2022-04-14 | 2022-05-10 | 中国科学技术大学 | 目标定位模型训练方法、目标定位方法及装置 |
CN114462559B (zh) * | 2022-04-14 | 2022-07-15 | 中国科学技术大学 | 目标定位模型训练方法、目标定位方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766027A (zh) | 图像的区域定位方法和目标区域定位模型的训练方法 | |
CN109886282B (zh) | 对象检测方法、装置、计算机可读存储介质和计算机设备 | |
CN111667011B (zh) | 损伤检测模型训练、车损检测方法、装置、设备及介质 | |
CN109543627B (zh) | 一种判断驾驶行为类别的方法、装置、及计算机设备 | |
Zhang et al. | Ensnet: Ensconce text in the wild | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN111461170A (zh) | 车辆图像检测方法、装置、计算机设备及存储介质 | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN111899246B (zh) | 玻片数字化信息质量检测方法、装置、设备及介质 | |
CN110942456B (zh) | 篡改图像检测方法、装置、设备及存储介质 | |
CN112884782B (zh) | 生物对象分割方法、装置、计算机设备和存储介质 | |
CN113505781B (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
US11809519B2 (en) | Semantic input sampling for explanation (SISE) of convolutional neural networks | |
CN114067431A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN113706481A (zh) | 精子质量检测方法、装置、计算机设备和存储介质 | |
CN114332457A (zh) | 图像实例分割模型训练、图像实例分割方法和装置 | |
CN116612272A (zh) | 一种图像处理智能数字化的检测系统及其检测方法 | |
CN110705513A (zh) | 视频特征提取方法、装置、可读存储介质和计算机设备 | |
CN115731442A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN115775386A (zh) | 用户界面组件的识别方法、装置、计算机设备和存储介质 | |
CN114241354A (zh) | 仓库人员行为识别方法、装置、计算机设备、存储介质 | |
CN111178202B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN112862002A (zh) | 多尺度目标检测模型的训练方法、目标检测方法和装置 | |
CN114119531A (zh) | 应用于校园智慧平台的火灾检测方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40020936 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |