CN110363210A - 一种图像语义分割模型的训练方法和服务器 - Google Patents
一种图像语义分割模型的训练方法和服务器 Download PDFInfo
- Publication number
- CN110363210A CN110363210A CN201810317672.3A CN201810317672A CN110363210A CN 110363210 A CN110363210 A CN 110363210A CN 201810317672 A CN201810317672 A CN 201810317672A CN 110363210 A CN110363210 A CN 110363210A
- Authority
- CN
- China
- Prior art keywords
- multiplying power
- image
- object area
- weight
- empty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000011218 segmentation Effects 0.000 claims abstract description 71
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 68
- 239000006185 dispersion Substances 0.000 claims abstract description 63
- 238000009826 distribution Methods 0.000 claims abstract description 13
- 238000003860 storage Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 210000000746 body region Anatomy 0.000 claims description 4
- 230000000644 propagated effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000003709 image segmentation Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005267 amalgamation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种图像语义分割模型的训练方法和服务器,用于从原始图像中定位出全部物体区域,提高了图像语义分割的分割质量。本发明实施例提供一种图像语义分割模型的训练方法,包括:获取用于模型训练的原始图像;使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布;使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像语义分割模型的训练方法和服务器。
背景技术
图像语义分割是图像理解的基础,图像语义分割在自动驾驶、无人机应用以及穿戴式设备应用中都非常重要。图像是由许多像素组成,而语义分割就是将像素按照图像中表达语义含义的不同进行分组。
现有技术中通常训练一个常规的深度卷积神经网络作为图像语义分割网络,首先对输入图像进行全图分类,再根据该网络定位图像中对应全图分类标注的物体区域,然后利用这些区域作为图像语义分割的监督信息,通过该监督信息原始图像语义分割网络。
现有技术中利用常规的卷积操作定位对应全图分类标注的物体区域,通常只能定位出整个物体的某一个或多个最有判别性的部分,难以定位到全部物体区域,因此现有技术中的图像语义分割存在无法定位出全部物体区域的问题。
发明内容
本发明实施例提供了一种图像语义分割模型的训练方法和服务器,用于从原始图像中定位出全部物体区域,提高了图像语义分割的分割质量。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种图像语义分割模型的训练方法,包括:
获取用于模型训练的原始图像;
使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布;
使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练。
第二方面,本发明实施例还提供一种服务器,包括:
图像获取模块,用于获取用于模型训练的原始图像;
全局物体定位模块,用于使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布;
模型训练模块,用于使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练。
在第二方面中,服务器的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤,详见前述对第一方面以及各种可能的实现方式中的说明。
第三方面,本发明实施例提供一种服务器,该服务器包括:处理器、存储器;存储器用于存储指令;处理器用于执行存储器中的指令,使得服务器执行如前述第一方面中任一项的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第五方面,本发明实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先获取用于模型训练的原始图像,然后使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,得到原始图像中在不同分散度下的全局物体定位图,分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。最后使用全局物体定位图作为图像语义分割网络模型的监督信息,通过监督信息对图像语义分割网络模型进行训练。本发明实施例由于采用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,因此通过多倍率空洞卷积神经网络模型的多倍率空洞卷积可以从原始图像上定位出在不同分散度下的全局物体定位图,该全局物体定位图包括了目标物体的全部区域,因此本发明实施例通过多倍率空洞卷积神经网络模型精确定位出了原始图像中对应全图分类标注的全部物体区域,提高了图像语义分割的分割质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图像语义分割模型的训练方法的流程方框示意图;
图2为本发明实施例提供的多倍率空洞卷积网络模型的结构示意图;
图3为本发明实施例提供的在一个空洞倍率下的深度卷积神经网络模型上得到图像中物体区域的过程示意图;
图4为本发明实施例提供的不同空洞倍率的空洞卷积及在图像中定位出的相应物体区域的示意图;
图5为本申请实施例提供的弱监督图像分类标注训练的网络分割结果的示意图;
图6-a为本发明实施例提供的一种服务器的组成结构示意图;
图6-b为本发明实施例提供的一种全局物体定位模块的组成结构示意图;
图6-c为本发明实施例提供的一种池化处理单元的组成结构示意图;
图6-d为本发明实施例提供的一种空洞卷积单元的组成结构示意图;
图6-e为本发明实施例提供的一种模型训练模块的组成结构示意图;
图7为本发明实施例提供的图像语义分割模型的训练方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种图像语义分割模型的训练方法和服务器,用于从原始图像中定位出全部物体区域,提高了图像语义分割的分割质量。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明实施例提供的图像语义分割模型的训练方法的一个实施例,具体可以应用于基于空洞卷积神经网络模型对图像的全图分类标注中,本发明实施例提供的图像语义分割模型的训练方法采用弱监督的图像语义分割技术,可以应用于缺乏精细像素级别分割标注数据的情况,仅仅依靠全图分类标注,实现高准确率的图像分割。本发明实施例主要通过空洞卷积神经网络模型依靠全图分类标注获取图像中对应全图分类标注的全局物体定位图。具体而言,先训练一个多倍率空洞卷积神经网络模型实现全图的分类,得到该网络模型之后依靠多倍率空洞卷积精确定位出原始图像中对应全图分类标注的全局物体定位图。然后将上述定位出的全局物体定位图作为分割的监督信息,训练图像语义分割网络模型实现图像分割。本发明实施例提供的图像语义分割模型的训练方法可以在海量用户数据的网站中自动爬取带有用户创建的标签的图像,以此训练弱监督的图像语义分割网络用来实现图像语义分割,语义分割结果则可用于网站的基于图像内容的以图搜图,基于图像内容分析的个性化推荐等。
请参阅图1所示,本发明一个实施例提供的图像语义分割模型的训练方法,可以包括如下步骤:
101、获取用于模型训练的原始图像。
在本发明实施例中,训练样本图像库中可以存储有训练样本图像,这些图像可以用于模型训练,即这些图像可以称为用于模型训练的原始图像,后续实施例简称为原始图像,在原始图像上包括有一个或者多个的目标物体,该目标物体可以是多种形状的物体,例如可以一种工具,或者一个动物,或者一个人物等,此处不做限定。需要说明的是,本发明实施例中,原始图像的存储可以有多种方式,例如服务器从客户端接收到原始图像,存储到服务器的数据库,或者服务器在内存中实时读入原始图像,以提高模型训练效率。
102、使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,得到原始图像中在不同分散度下的全局物体定位图,分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。
在本发明实施例中,采用卷积神经网络模型来进行全图分类,并且本发明实施例中采用的卷积神经网络采用的是多个空洞倍率的空洞卷积,因此本发明实施例采用的是卷积神经网络模型也可以称为“多倍率空洞卷积神经网络模型。具体的,本发明实施例中可以先训练一个多倍率空洞卷积神经网络模型实现全图的分类,得到该网络模型之后依靠多倍率空洞卷积精确定位出训练图像中对应全图分类标注的全局物体定位图,本发明实施例采用的多倍率空洞卷积神经网络模型可以实现全图分类目的,改进现有技术中卷积神经网络只能定位到物体最有判别性的部分区域的缺点,因此本发明实施例提供的多倍率空洞卷积神经网络模型能够定位原始图像中在不同分散度下的全局物体定位图。
需要说明的是,在本发明的上述实施例中,全局物体定位图对应于不同分散度,其中,分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。倍率空洞卷积神经网络模型定位出的物体区域具体可以通过类别响应定位图(ClassActivation Map,CAM)获取原始图像中对应全图分类标注的高响应物体区域。对于不同的分散度,是指定位出的高响应物体区域在真实物体上的分布,若高响应物体区域比较集中在目标物体某一个小部分,则分散度的取值为较低,若高响应物体区域分布于整个目标物体,则分散度的取值为较高。本发明实施例中通过多倍率空洞卷积神经网络模型可以获取到原始图像中在不同分散度下的全局物体定位图,因此该全局物体定位图不仅能定位到目标物体最有判别性的部分区域,还能同时定位到其他缺乏判别性的区域,以此定位到了目标物体的全部区域。
在本发明的一些实施例中,步骤102使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,得到原始图像中在不同分散度下的全局物体定位图,包括:
使用多倍率空洞卷积神经网络模型中的前N-1个卷积层从原始图像中提取出目标物体的特征图,多倍率空洞卷积神经网络模型包括:N个卷积层,其中,第N个卷积层为多倍率空洞卷积层,N为正整数;
使用多倍率空洞卷积层对目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,得到在不同分散度下的物体区域,d为正整数;
对在不同分散度下的物体区域进行全局平均池化处理,得到原始图像中在不同分散度下的全局物体定位图。
其中,本发明实施例中采用的多倍率空洞卷积神经网络模型共有N个卷积层,其中,使用前N-1个卷积层可以从原始图像中提取出目标物体的特征图,第N个卷积层为最后一个卷积层,并且该第N个卷积层为多倍率空洞卷积层,即第N个卷积层采用的是多倍率的空洞卷积,多倍率空洞卷积神经网络模型的卷积层个数N可以根据具体场景来确定。本发明实施例中利用空洞卷积物体定位可以脱离最有判别性部分的优点,采用多倍率的空洞卷积神经网络模型,该网络模型在常规的卷积神经网络模型的最后一层后引入多倍率空洞卷积层。多倍率空洞卷积层利用多种倍空洞率(例如d=r1,r2…rk)的空洞卷积(dilatedconvolution)同时进行卷积操作,学习到不同分散度的物体区域,再进行全局平均池化(global average pooling,GAP)处理,可以得到不同分散度下的全局物体定位图,该全局物体定位图中包括有目标物体的整体区域。
进一步的,在本发明的一些实施例中,前述的对在不同分散度下的物体区域进行全局平均池化处理,得到原始图像中在不同分散度下的全局物体定位图,包括:
获取空洞倍率为0时的第一物体区域,以及空洞倍率大于0时的第二物体区域;
获取第一物体区域对应的第一权重,以及第二物体区域对应的第二权重,第一权重的取值大于第二权重的取值;
根据第一权重和第二权重在不同分散度下对第一物体区域和第二物体区域进行融合,得到全局物体定位图。
其中,使用多倍率空洞卷积层对目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,当空洞倍率为0时得到的物体区域称为第一物体区域,当空洞倍率大于0时得到的物体区域称为第二物体区域,最后进行不同权重的物体区域的融合,在该融合过程将倍率为0的物体区域比重设为高于其他倍率的物体区域,原因在于空洞卷积可能会定位到错误的物体区域。只有当至少两个物体区域都定位到同一个区域,才能说明该区域是正确的有效物体区域。因此,本发明实施例中可以在多倍率空洞卷积物体区域以外固定给没有空洞的卷积物体区域一个高权重,从而能避免没有空洞的卷积定位出的正确的最有判别性的物体区域被空洞卷积物体区域的平均操作所过滤。利用这种融合方式能得到高准确率的物体定位区域,能作为高质量的图像分割监督信息训练后续的图像语义分割网络。
接下来对本发明实施例中不同物体区域按照权重进行融合的方式进行举例说明,进一步的,根据第一权重和第二权重在不同分散度下对第一物体区域和第二物体区域进行融合,得到全局物体定位图,包括:
确定在d等于0时的第一物体区域H0,以及在d大于0且小于或等于k时的第二物体区域(H1,H2,...,Hk),k为空洞倍率最大值;
通过如下方式对第一物体区域H0和第二物体区域(H1,H2,...,Hk)在不同分散度下进行融合得到全局物体定位图H:
其中,第一权重为1,第二权重为Hi表示第二物体区域(H1,H2,...,Hk)中第i个物体区域。
其中,使用多倍率空洞卷积神经网络模型可以获取到在不同空洞倍率下的物体区域,第二物体区域中包括对每个空洞倍率的空洞卷积都能生成物体区域(H1,H2,...,Hk)。当d=0时,可以采用没有空洞的卷积对应的第一物体区域H0,最终的全局物体定位图H则为不同倍率空洞卷积下所有物体区域的融合。
需要说明的是,上述公式H的融合过程中,第一权重为1,第二权重为在实际应用场景中也可以场景来设置第一物体区域和第二物体区域分别对应的权重。
在本发明实施例中,使用多倍率空洞卷积层对目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,得到在不同分散度下的物体区域,包括:
获取多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点,t为正整数;
获取在空洞倍率d下连接第t个特征图到第c个类别的权重c为正整数;
通过如下方式计算空洞倍率d下对应第c个类别的物体区域Hd c:
其中,在每一种空洞倍率下,多倍率空洞卷积层配合类别响应定位图获取原始图像中对应全图分类标注的高响应物体区域。假定fk(x,y)是最后一个卷积层第k个特征图(feature map)上坐标为(x,y)处的值,是连接第k个特征图到第c个类别的权重。则对应第c个类别的物体区域Hd c可以通过前述公式计算出。
103、使用全局物体定位图作为图像语义分割网络模型的监督信息,通过监督信息对图像语义分割网络模型进行训练。
在本发明实施例中,通过多倍率空洞卷积神经网络模型得到原始图像中在不同分散度下的全局物体定位图之后,将上述定位出的全局物体定位图作为分割的监督信息,训练一个图像语义分割网络模型实现图像分割。举例说明,本发明实施例提供的图像语义分割网络模型具体可以为深度卷积神经网络模型。利用定位出的全局物体定位图作为监督信息,训练深度卷积神经网络模型实现图像分割。本发明实施例中对图像语义分割网络模型的训练过程中,可以结合具体场景选择所使用的卷积核大小、多种池化(pooling)核大小,此处不做限定。由于本发明实施例采用全局物体定位图作为图像语义分割网络模型的监督信息,该全局物体定位图包括了高准确率的物体定位区域,能作为高质量的图像分割监督信息训练图像语义分割网络模型,语义分割结果则可用于网站的基于图像内容的以图搜图,基于图像内容分析的个性化推荐等。
在本发明的一些实施例中,步骤103使用全局物体定位图作为图像语义分割网络模型的监督信息,通过监督信息对图像语义分割网络模型进行训练,包括:
将原始图像输入到图像语义分割网络模型,通过图像语义分割网络模型获取到图像分类结果;
根据图像分类结果和全局物体定位图计算交叉熵损失函数,得到损失结果;
将损失结果反向传播到图像语义分割网络模型的所有层中,以继续对图像语义分割网络模型进行训练。
其中,通过图像语义分割网络模型获取到图像分类结果,该结果在给定全图分类标注的监督信息下进行交叉熵损失函数(cross entropy loss)计算,该交叉熵损失函数具体可以是sigmoid函数,然后再通过反向传播将该损失结果回传到图像语义分割网络模型的所有层中进行网络参数的训练。当图像语义分割网络模型训练完成之后,该图像语义分割网络模型的所有层可以用于对输入图像进行图像语义的输出。
通过以上实施例对本发明实施例的描述可知,首先获取用于模型训练的原始图像,然后使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,得到原始图像中在不同分散度下的全局物体定位图,分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。最后使用全局物体定位图作为图像语义分割网络模型的监督信息,通过监督信息对图像语义分割网络模型进行训练。本发明实施例由于采用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,因此通过多倍率空洞卷积神经网络模型的多倍率空洞卷积可以从原始图像上定位出在不同分散度下的全局物体定位图,该全局物体定位图包括了目标物体的全部区域,因此本发明实施例通过多倍率空洞卷积神经网络模型精确定位出了原始图像中对应全图分类标注的全部物体区域,提高了图像语义分割的分割质量。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
本发明实施例中用于模型训练的原始图像可以有多种来源,例如可以在海量用户数据的网站中自动爬取带有用户创建的标签的图像,以此训练弱监督的图像语义分割网络用来实现图像语义分割,语义分割结果则可用于网站的基于图像内容的以图搜图,基于图像内容分析的个性化推荐等。
本发明实施例包括利用一种多倍率空洞卷积神经网络模型实现全图分类目的,这种网络模型能改进传统的卷积神经网络只能定位到物体最有判别性的部分区域的缺点,本发明实施例中利用多倍率空洞卷积神经网络模型,不仅能定位到物体最有判别性的部分,还能同时定位到其他缺乏判别性的区域,以此定位到全部物体区域。然后利用定位出的物体全部区域作为监督信息,训练一个图像语义分割网络模型实现图像分割。
本发明实施例中可以利用多倍率空洞卷积神经网络定位出全部物体区域,即可以生成全局物体定位图。如图2所示,为本发明实施例提供的多倍率空洞卷积网络模型的结构示意图。利用空洞卷积物体定位可以脱离最有判别性部分的优点,本发明实施例提出了一种多倍率的空洞卷积神经网络,该网络在卷积神经网络模型的最后一层后引入多倍率空洞卷积层。多倍率空洞卷积层利用多种倍率(d=r1,r2…rk)的空洞卷积同时进行卷积操作,学习到不同分散度的物体区域,再进行全局平均池化处理,得到不同分散度下的全局物体特征。再把该特征融合得到最终的图像分类结果,该结果在给定全图分类标注的监督信息下进行交叉熵的损失函数计算,然后再通过反向传播将该损失(loss)回传到网络所有层进行网络参数的训练。
在本发明的一些实施例中,多倍率空洞卷积网络模型对每个倍率的空洞卷积都能生成如图2所示的物体定位图(H1,H2,...,Hk)。当d=0时,可以生成没有空洞的卷积对应的物体定位图H0。最终的全局物体定位图H则为不同倍率空洞卷积下所有定位图的融合:
需要说明的是,在本发明实施例中,前述的融合过程将没有空洞的卷积(d=0)的定位图比重设为高于其他倍率的定位图,原因在于空洞卷积同时会定位到错误的物体区域。只有当至少2个物体定位图都定位到同一个物体区域,才能说明该区域是正确的有效物体区域。因此,在多倍率空洞卷积定位图以外固定给没有空洞的卷积定位图一个高权重能避免没有空洞的卷积定位出的正确的最有判别性的部分被空洞卷积定位图的平均操作所过滤。利用这种融合方式能得到高准确率的物体定位区域,能作为高质量的图像分割监督信息训练后续的图像语义分割网络。
如图3所示,为本发明实施例提供的在一个空洞倍率下的深度卷积神经网络模型上得到图像中物体区域的过程示意图。本发明实施例深度卷积神经网络模型配合类别响应定位图获取原始图像中对应全图分类标注的高响应物体区域。假定fk(x,y)是最后一个卷积层第k个特征图上坐标为(x,y)处的值,是连接第k个特征图到第c个类别(class)的权重。则对应第c个类别的物体响应图(CAM)可以求得:
本发明实施例中,空洞卷积相比没有空洞的卷积的区别如图4所示,为本发明实施例提供的不同空洞倍率的空洞卷积及在图像中定位出的相应物体区域的示意图。没有空洞的卷积可视为d=0的空洞卷积。由图4可见,没有空洞的卷积通常由于网络的感受野(receptive field)较小,定位出的物体区域通常集中在最有判别性的部分,而空洞卷积由于感受野更大,定位出的物体区域更加分散,且d越大,区域越分散。d=0是空洞卷积的空洞倍率,可视为没有空洞,即传统卷积神经网络,若d>0,则为有空洞,即为空洞卷积神经网络。
如图5所示,为本申请实施例提供的弱监督图像分类标注训练的网络分割结果的示意图。本发明实施例中能够提高利用互联网上的海量用户创建了标签的图像数据训练精细的图像语义分割网络,有效地利用了大量以前无法利用的图像数据,并相应减少了图像分割人工标注的成本,对图像语义分割和其应用有潜在经济价值。利用本技术取得的图像分割效果如图5,可见仅仅依靠弱监督标注就能取得接近全监督标注的分割质量。
需要说明的是,本发明实施例中除了适用于上述说明的多倍率空洞卷积网络,还适用于其他多尺度的卷积网络,包括多种卷积核大小的卷积,多种池化(pooling)核大小的池化。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图6-a所示,本发明实施例提供的一种服务器600,可以包括:图像获取模块601、全局物体定位模块602、模型训练模块603,其中,
图像获取模块601,用于获取用于模型训练的原始图像;
全局物体定位模块602,用于使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布;
模型训练模块603,用于使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练。
在本申请的一些实施例中,请参阅图6-b所示,所述全局物体定位模块602,包括:
特征图提取单元6021,用于使用所述多倍率空洞卷积神经网络模型中的前N-1个卷积层从所述原始图像中提取出所述目标物体的特征图,所述多倍率空洞卷积神经网络模型包括:N个卷积层,其中,第N个卷积层为多倍率空洞卷积层,所述N为正整数;
空洞卷积单元6022,用于使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,得到在不同分散度下的物体区域,所述d为正整数;
池化处理单元6023,用于对所述在不同分散度下的物体区域进行全局平均池化处理,得到所述原始图像中在不同分散度下的全局物体定位图。
在本申请的一些实施例中,请参阅图6-c所示,所述池化处理单元6023,包括:
物体区域获取子单元60231,用于获取所述空洞倍率为0时的第一物体区域,以及所述空洞倍率大于0时的第二物体区域;
权重获取子单元60232,用于获取所述第一物体区域对应的第一权重,以及所述第二物体区域对应的第二权重,所述第一权重的取值大于所述第二权重的取值;
融合子单元60233,用于根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合,得到所述全局物体定位图。
在本申请的一些实施例中,所述融合子单元60233,具体用于确定在所述d等于0时的第一物体区域H0,以及在所述d大于0且小于或等于k时的第二物体区域(H1,H2,...,Hk),所述k为空洞倍率最大值;通过如下方式对所述第一物体区域H0和所述第二物体区域(H1,H2,...,Hk)在不同分散度下进行融合得到所述全局物体定位图H:
其中,所述第一权重为1,所述第二权重为所述Hi表示所述第二物体区域(H1,H2,...,Hk)中第i个物体区域。
在本申请的一些实施例中,请参阅图6-d所示,所述空洞卷积单元6022,包括:
像素特征点获取子单元60221,用于获取所述多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点ft(x,y),所述t为正整数;
类别权重获取子单元60222,用于获取在空洞倍率d下连接所述第t个特征图到第c个类别的权重所述c为正整数;
物体区域计算子单元60223,用于通过如下方式计算在空洞倍率d下对应第c个类别的物体区域Hd c:
在本申请的一些实施例中,请参阅图6-e所示,所述模型训练模块603,包括:
模型输出单元6031,用于将所述原始图像输入到所述图像语义分割网络模型,通过所述图像语义分割网络模型获取到图像分类结果;
损失函数计算单元6032,用于根据所述图像分类结果和所述全局物体定位图计算交叉熵损失函数,得到损失结果;
反向传播单元6033,用于将所述损失结果反向传播到所述图像语义分割网络模型的所有层中,以继续对所述图像语义分割网络模型进行训练。
在本申请的一些实施例中,所述图像语义分割网络模型,具体为深度卷积神经网络模型。
通过以上对本发明实施例的描述可知,首先获取用于模型训练的原始图像,然后使用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,得到原始图像中在不同分散度下的全局物体定位图,分散度用于指示通过多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布。最后使用全局物体定位图作为图像语义分割网络模型的监督信息,通过监督信息对图像语义分割网络模型进行训练。本发明实施例由于采用多倍率空洞卷积神经网络模型对原始图像进行全图分类标注,因此通过多倍率空洞卷积神经网络模型的多倍率空洞卷积可以从原始图像上定位出在不同分散度下的全局物体定位图,该全局物体定位图包括了目标物体的全部区域,因此本发明实施例通过多倍率空洞卷积神经网络模型精确定位出了原始图像中对应全图分类标注的全部物体区域,提高了图像语义分割的分割质量。
图7是本发明实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的图像语义分割模型的训练方法的步骤可以基于该图7所示的服务器结构。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物体上分开的,作为单元显示的部件可以是或者也可以不是物体单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (15)
1.一种图像语义分割模型的训练方法,其特征在于,包括:
获取用于模型训练的原始图像;
使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布;
使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,包括:
使用所述多倍率空洞卷积神经网络模型中的前N-1个卷积层从所述原始图像中提取出所述目标物体的特征图,所述多倍率空洞卷积神经网络模型包括:N个卷积层,其中,第N个卷积层为多倍率空洞卷积层,所述N为正整数;
使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,得到在不同分散度下的物体区域,所述d为正整数;
对所述在不同分散度下的物体区域进行全局平均池化处理,得到所述原始图像中在不同分散度下的全局物体定位图。
3.根据权利要求2所述的方法,其特征在于,所述对所述在不同分散度下的物体区域进行全局平均池化处理,得到所述原始图像中在不同分散度下的全局物体定位图,包括:
获取所述空洞倍率为0时的第一物体区域,以及所述空洞倍率大于0时的第二物体区域;
获取所述第一物体区域对应的第一权重,以及所述第二物体区域对应的第二权重,所述第一权重的取值大于所述第二权重的取值;
根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合,得到所述全局物体定位图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合,得到所述全局物体定位图,包括:
确定在所述d等于0时的第一物体区域H0,以及在所述d大于0且小于或等于k时的第二物体区域(H1,H2,...,Hk),所述k为空洞倍率最大值;
通过如下方式对所述第一物体区域H0和所述第二物体区域(H1,H2,...,Hk)在不同分散度下进行融合得到所述全局物体定位图H:
其中,所述第一权重为1,所述第二权重为所述Hi表示所述第二物体区域(H1,H2,...,Hk)中第i个物体区域。
5.根据权利要求2所述的方法,其特征在于,所述使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,得到在不同分散度下的物体区域,包括:
获取所述多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点ft(x,y),所述t为正整数;
获取在空洞倍率d下连接所述第t个特征图到第c个类别的权重所述c为正整数;
通过如下方式计算空洞倍率d下对应第c个类别的物体区域Hd c:
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练,包括:
将所述原始图像输入到所述图像语义分割网络模型,通过所述图像语义分割网络模型获取到图像分类结果;
根据所述图像分类结果和所述全局物体定位图计算交叉熵损失函数,得到损失结果;
将所述损失结果反向传播到所述图像语义分割网络模型的所有层中,以继续对所述图像语义分割网络模型进行训练。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述图像语义分割网络模型,具体为深度卷积神经网络模型。
8.一种服务器,其特征在于,包括:
图像获取模块,用于获取用于模型训练的原始图像;
全局物体定位模块,用于使用多倍率空洞卷积神经网络模型对所述原始图像进行全图分类标注,得到所述原始图像中在不同分散度下的全局物体定位图,所述分散度用于指示通过所述多倍率空洞卷积神经网络模型定位出的物体区域在目标物体上的分布;
模型训练模块,用于使用所述全局物体定位图作为图像语义分割网络模型的监督信息,通过所述监督信息对所述图像语义分割网络模型进行训练。
9.根据权利要求8所述的服务器,其特征在于,所述全局物体定位模块,包括:
特征图提取单元,用于使用所述多倍率空洞卷积神经网络模型中的前N-1个卷积层从所述原始图像中提取出所述目标物体的特征图,所述多倍率空洞卷积神经网络模型包括:N个卷积层,其中,第N个卷积层为多倍率空洞卷积层,所述N为正整数;
空洞卷积单元,用于使用所述多倍率空洞卷积层对所述目标物体的特征图在多个空洞倍率d下分别进行空洞卷积处理,得到在不同分散度下的物体区域,所述d为正整数;
池化处理单元,用于对所述在不同分散度下的物体区域进行全局平均池化处理,得到所述原始图像中在不同分散度下的全局物体定位图。
10.根据权利要求9所述的服务器,其特征在于,所述池化处理单元,包括:
物体区域获取子单元,用于获取所述空洞倍率为0时的第一物体区域,以及所述空洞倍率大于0时的第二物体区域;
权重获取子单元,用于获取所述第一物体区域对应的第一权重,以及所述第二物体区域对应的第二权重,所述第一权重的取值大于所述第二权重的取值;
融合子单元,用于根据所述第一权重和所述第二权重在不同分散度下对所述第一物体区域和所述第二物体区域进行融合,得到所述全局物体定位图。
11.根据权利要求10所述的服务器,其特征在于,所述融合子单元,具体用于确定在所述d等于0时的第一物体区域H0,以及在所述d大于0且小于或等于k时的第二物体区域(H1,H2,...,Hk),所述k为空洞倍率最大值;通过如下方式对所述第一物体区域H0和所述第二物体区域(H1,H2,...,Hk)在不同分散度下进行融合得到所述全局物体定位图H:
其中,所述第一权重为1,所述第二权重为所述Hi表示所述第二物体区域(H1,H2,...,Hk)中第i个物体区域。
12.根据权利要求9所述的服务器,其特征在于,所述空洞卷积单元,包括:
像素特征点获取子单元,用于获取所述多倍率空洞卷积层的第t个特征图上坐标为(x,y)处的像素特征点ft(x,y),所述t为正整数;
类别权重获取子单元,用于获取在空洞倍率d下连接所述第t个特征图到第c个类别的权重所述c为正整数;
物体区域计算子单元,用于通过如下方式计算在空洞倍率d下对应第c个类别的物体区域Hd c:
13.根据权利要求8至12中任一项所述的服务器,其特征在于,所述模型训练模块,包括:
模型输出单元,用于将所述原始图像输入到所述图像语义分割网络模型,通过所述图像语义分割网络模型获取到图像分类结果;
损失函数计算单元,用于根据所述图像分类结果和所述全局物体定位图计算交叉熵损失函数,得到损失结果;
反向传播单元,用于将所述损失结果反向传播到所述图像语义分割网络模型的所有层中,以继续对所述图像语义分割网络模型进行训练。
14.根据权利要求8至12中任一项所述的服务器,其特征在于,所述图像语义分割网络模型,具体为深度卷积神经网络模型。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至7任意一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810317672.3A CN110363210B (zh) | 2018-04-10 | 2018-04-10 | 一种图像语义分割模型的训练方法和服务器 |
PCT/CN2019/079404 WO2019196633A1 (zh) | 2018-04-10 | 2019-03-25 | 一种图像语义分割模型的训练方法和服务器 |
EP19784497.0A EP3779774B1 (en) | 2018-04-10 | 2019-03-25 | Training method for image semantic segmentation model and server |
US16/929,444 US11348249B2 (en) | 2018-04-10 | 2020-07-15 | Training method for image semantic segmentation model and server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810317672.3A CN110363210B (zh) | 2018-04-10 | 2018-04-10 | 一种图像语义分割模型的训练方法和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363210A true CN110363210A (zh) | 2019-10-22 |
CN110363210B CN110363210B (zh) | 2023-05-05 |
Family
ID=68163086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810317672.3A Active CN110363210B (zh) | 2018-04-10 | 2018-04-10 | 一种图像语义分割模型的训练方法和服务器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11348249B2 (zh) |
EP (1) | EP3779774B1 (zh) |
CN (1) | CN110363210B (zh) |
WO (1) | WO2019196633A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046921A (zh) * | 2019-11-25 | 2020-04-21 | 天津大学 | 基于U-Net网络和多视角融合的脑肿瘤分割方法 |
CN111159542A (zh) * | 2019-12-12 | 2020-05-15 | 中国科学院深圳先进技术研究院 | 一种基于自适应微调策略的跨领域序列推荐方法 |
CN111598838A (zh) * | 2020-04-22 | 2020-08-28 | 中南民族大学 | 心脏mr图像自动分割方法、装置、电子设备和存储介质 |
CN111860827A (zh) * | 2020-06-04 | 2020-10-30 | 西安电子科技大学 | 一种基于神经网络模型的测向体制多目标定位方法和装置 |
CN112396613A (zh) * | 2020-11-17 | 2021-02-23 | 平安科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN112861708A (zh) * | 2021-02-05 | 2021-05-28 | 北京理工大学前沿技术研究院 | 一种雷达图像的语义分割方法、设备及存储介质 |
CN113610807A (zh) * | 2021-08-09 | 2021-11-05 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112602088B (zh) * | 2018-09-06 | 2024-03-12 | Oppo广东移动通信有限公司 | 提高弱光图像的质量的方法、系统和计算机可读介质 |
CN111666960B (zh) * | 2019-03-06 | 2024-01-19 | 南京地平线机器人技术有限公司 | 图像识别方法、装置、电子设备及可读存储介质 |
CN110491480B (zh) * | 2019-05-22 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种医疗图像处理方法、装置、电子医疗设备和存储介质 |
CN111028154B (zh) * | 2019-11-18 | 2023-05-09 | 哈尔滨工程大学 | 一种地形崎岖不平海底的侧扫声呐图像匹配拼接方法 |
CN112631947B (zh) * | 2021-01-15 | 2023-04-25 | 抖音视界有限公司 | 应用程序的测试控制方法、装置、电子设备及存储介质 |
CN113160246A (zh) * | 2021-04-14 | 2021-07-23 | 中国科学院光电技术研究所 | 一种基于深度监督的图像语义分割方法 |
CN113344857B (zh) * | 2021-05-13 | 2022-05-03 | 深圳市华汉伟业科技有限公司 | 缺陷检测网络的训练方法、缺陷检测方法和存储介质 |
CN113239815B (zh) * | 2021-05-17 | 2022-09-06 | 广东工业大学 | 一种基于真实语义全网络学习的遥感影像分类方法、装置及设备 |
CN113312993B (zh) * | 2021-05-17 | 2022-07-26 | 北京大学 | 一种基于PSPNet的遥感数据土地覆盖分类方法 |
CN113496228B (zh) * | 2021-07-30 | 2024-03-26 | 大连海事大学 | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 |
CN113808055B (zh) * | 2021-08-17 | 2023-11-24 | 中南民族大学 | 基于混合膨胀卷积的植物识别方法、装置及存储介质 |
CN113674300B (zh) * | 2021-08-24 | 2022-10-28 | 苏州天准软件有限公司 | 用于cnc自动测量的模型训练方法、测量方法及系统、设备、介质 |
CN115205300B (zh) * | 2022-09-19 | 2022-12-09 | 华东交通大学 | 基于空洞卷积和语义融合的眼底血管图像分割方法与系统 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010088429A2 (en) * | 2009-01-28 | 2010-08-05 | The Procter & Gamble Company | Methods for improving skin quality using rinse-off personal care compositions with variable amounts of hydrophobic benefit agents |
WO2011087524A1 (en) * | 2010-01-17 | 2011-07-21 | The Procter & Gamble Company | Biomarker-based methods for formulating compositions that improve skin quality and reduce the visible signs of aging in skin |
CN102651127A (zh) * | 2012-04-01 | 2012-08-29 | 深圳市万兴软件有限公司 | 一种超分辨率重建的图像处理方法及系统 |
CN104077808A (zh) * | 2014-07-20 | 2014-10-01 | 詹曙 | 一种用于计算机图形图像处理的、基于深度信息的实时三维人脸建模方法 |
JP2016168046A (ja) * | 2015-03-09 | 2016-09-23 | 学校法人法政大学 | 植物病診断システム、植物病診断方法、及びプログラム |
CN106504190A (zh) * | 2016-12-29 | 2017-03-15 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN106875415A (zh) * | 2016-12-29 | 2017-06-20 | 北京理工雷科电子信息技术有限公司 | 一种动态背景中弱小动目标的连续稳定跟踪方法 |
US20170200260A1 (en) * | 2016-01-11 | 2017-07-13 | Kla-Tencor Corporation | Accelerating semiconductor-related computations using learning based models |
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN107563383A (zh) * | 2017-08-24 | 2018-01-09 | 杭州健培科技有限公司 | 一种医学影像辅助诊断及半监督样本生成系统 |
CN107665491A (zh) * | 2017-10-10 | 2018-02-06 | 清华大学 | 病理图像的识别方法及系统 |
CN107679477A (zh) * | 2017-09-27 | 2018-02-09 | 深圳市未来媒体技术研究院 | 基于空洞卷积神经网络的人脸深度和表面法向量预测方法 |
WO2018036293A1 (zh) * | 2016-08-26 | 2018-03-01 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN107767384A (zh) * | 2017-11-03 | 2018-03-06 | 电子科技大学 | 一种基于对抗训练的图像语义分割方法 |
CN107766820A (zh) * | 2017-10-20 | 2018-03-06 | 北京小米移动软件有限公司 | 图像分类方法及装置 |
CN107767380A (zh) * | 2017-12-06 | 2018-03-06 | 电子科技大学 | 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法 |
CN107871142A (zh) * | 2017-11-14 | 2018-04-03 | 华南理工大学 | 一种基于深度卷积对抗网络模型的空洞卷积方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671873B2 (en) * | 2017-03-10 | 2020-06-02 | Tusimple, Inc. | System and method for vehicle wheel detection |
CN107145845A (zh) * | 2017-04-26 | 2017-09-08 | 中山大学 | 基于深度学习及多特征点融合的行人检测方法 |
CN107316015B (zh) * | 2017-06-19 | 2020-06-30 | 南京邮电大学 | 一种基于深度时空特征的高精度面部表情识别方法 |
US10477148B2 (en) * | 2017-06-23 | 2019-11-12 | Cisco Technology, Inc. | Speaker anticipation |
-
2018
- 2018-04-10 CN CN201810317672.3A patent/CN110363210B/zh active Active
-
2019
- 2019-03-25 WO PCT/CN2019/079404 patent/WO2019196633A1/zh unknown
- 2019-03-25 EP EP19784497.0A patent/EP3779774B1/en active Active
-
2020
- 2020-07-15 US US16/929,444 patent/US11348249B2/en active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010088429A2 (en) * | 2009-01-28 | 2010-08-05 | The Procter & Gamble Company | Methods for improving skin quality using rinse-off personal care compositions with variable amounts of hydrophobic benefit agents |
WO2011087524A1 (en) * | 2010-01-17 | 2011-07-21 | The Procter & Gamble Company | Biomarker-based methods for formulating compositions that improve skin quality and reduce the visible signs of aging in skin |
CN102651127A (zh) * | 2012-04-01 | 2012-08-29 | 深圳市万兴软件有限公司 | 一种超分辨率重建的图像处理方法及系统 |
CN104077808A (zh) * | 2014-07-20 | 2014-10-01 | 詹曙 | 一种用于计算机图形图像处理的、基于深度信息的实时三维人脸建模方法 |
JP2016168046A (ja) * | 2015-03-09 | 2016-09-23 | 学校法人法政大学 | 植物病診断システム、植物病診断方法、及びプログラム |
US20170200260A1 (en) * | 2016-01-11 | 2017-07-13 | Kla-Tencor Corporation | Accelerating semiconductor-related computations using learning based models |
WO2018036293A1 (zh) * | 2016-08-26 | 2018-03-01 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
CN106504190A (zh) * | 2016-12-29 | 2017-03-15 | 浙江工商大学 | 一种基于3d卷积神经网络的立体视频生成方法 |
CN106875415A (zh) * | 2016-12-29 | 2017-06-20 | 北京理工雷科电子信息技术有限公司 | 一种动态背景中弱小动目标的连续稳定跟踪方法 |
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
CN107563383A (zh) * | 2017-08-24 | 2018-01-09 | 杭州健培科技有限公司 | 一种医学影像辅助诊断及半监督样本生成系统 |
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN107679477A (zh) * | 2017-09-27 | 2018-02-09 | 深圳市未来媒体技术研究院 | 基于空洞卷积神经网络的人脸深度和表面法向量预测方法 |
CN107665491A (zh) * | 2017-10-10 | 2018-02-06 | 清华大学 | 病理图像的识别方法及系统 |
CN107766820A (zh) * | 2017-10-20 | 2018-03-06 | 北京小米移动软件有限公司 | 图像分类方法及装置 |
CN107767384A (zh) * | 2017-11-03 | 2018-03-06 | 电子科技大学 | 一种基于对抗训练的图像语义分割方法 |
CN107871142A (zh) * | 2017-11-14 | 2018-04-03 | 华南理工大学 | 一种基于深度卷积对抗网络模型的空洞卷积方法 |
CN107767380A (zh) * | 2017-12-06 | 2018-03-06 | 电子科技大学 | 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法 |
Non-Patent Citations (2)
Title |
---|
LIANG-CHIEH CHEN等: "DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
华敏杰: "基于深度学习的图像语义分割算法概述", 《中国战略新兴产业》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046921A (zh) * | 2019-11-25 | 2020-04-21 | 天津大学 | 基于U-Net网络和多视角融合的脑肿瘤分割方法 |
CN111046921B (zh) * | 2019-11-25 | 2022-02-15 | 天津大学 | 基于U-Net网络和多视角融合的脑肿瘤分割方法 |
CN111159542A (zh) * | 2019-12-12 | 2020-05-15 | 中国科学院深圳先进技术研究院 | 一种基于自适应微调策略的跨领域序列推荐方法 |
CN111598838A (zh) * | 2020-04-22 | 2020-08-28 | 中南民族大学 | 心脏mr图像自动分割方法、装置、电子设备和存储介质 |
CN111598838B (zh) * | 2020-04-22 | 2023-04-07 | 中南民族大学 | 心脏mr图像自动分割方法、装置、电子设备和存储介质 |
CN111860827A (zh) * | 2020-06-04 | 2020-10-30 | 西安电子科技大学 | 一种基于神经网络模型的测向体制多目标定位方法和装置 |
CN112396613A (zh) * | 2020-11-17 | 2021-02-23 | 平安科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN112396613B (zh) * | 2020-11-17 | 2024-05-10 | 平安科技(深圳)有限公司 | 图像分割方法、装置、计算机设备及存储介质 |
CN112861708A (zh) * | 2021-02-05 | 2021-05-28 | 北京理工大学前沿技术研究院 | 一种雷达图像的语义分割方法、设备及存储介质 |
CN113610807A (zh) * | 2021-08-09 | 2021-11-05 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
CN113610807B (zh) * | 2021-08-09 | 2024-02-09 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3779774A1 (en) | 2021-02-17 |
CN110363210B (zh) | 2023-05-05 |
US11348249B2 (en) | 2022-05-31 |
WO2019196633A1 (zh) | 2019-10-17 |
US20210035304A1 (en) | 2021-02-04 |
EP3779774B1 (en) | 2024-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363210A (zh) | 一种图像语义分割模型的训练方法和服务器 | |
Gao et al. | Salient object detection in the distributed cloud-edge intelligent network | |
Su et al. | Multi-person pose estimation with enhanced channel-wise and spatial information | |
US10679044B2 (en) | Human action data set generation in a machine learning system | |
CN111291841B (zh) | 图像识别模型训练方法、装置、计算机设备和存储介质 | |
CN110633745B (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN108140032B (zh) | 用于自动视频概括的设备和方法 | |
Xiao et al. | Deep salient object detection with dense connections and distraction diagnosis | |
CN106845621B (zh) | 基于深度卷积神经网络的密集人群人数计数方法及系统 | |
CN110210551A (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN108780519A (zh) | 卷积神经网络中的结构学习 | |
US11557123B2 (en) | Scene change method and system combining instance segmentation and cycle generative adversarial networks | |
CA2941250A1 (en) | Methods and apparatus for autonomous robotic control | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN109035415B (zh) | 虚拟模型的处理方法、装置、设备和计算机可读存储介质 | |
CN114092487A (zh) | 目标果实实例分割方法及系统 | |
CN110163221A (zh) | 在图像中进行物体检测的方法、装置、车辆、机器人 | |
CN111405314B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN116310318A (zh) | 交互式的图像分割方法、装置、计算机设备和存储介质 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
Li et al. | 2D amodal instance segmentation guided by 3D shape prior | |
CN111951260B (zh) | 基于部分特征融合卷积神经网络实时目标计数系统及方法 | |
CN112668675A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN111079535B (zh) | 一种人体骨架动作识别方法、装置及终端 | |
CN112183315A (zh) | 动作识别模型训练方法和动作识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |