CN112634294A - 用于测量语义分割网络的边界性能的方法 - Google Patents
用于测量语义分割网络的边界性能的方法 Download PDFInfo
- Publication number
- CN112634294A CN112634294A CN202011074030.9A CN202011074030A CN112634294A CN 112634294 A CN112634294 A CN 112634294A CN 202011074030 A CN202011074030 A CN 202011074030A CN 112634294 A CN112634294 A CN 112634294A
- Authority
- CN
- China
- Prior art keywords
- boundary
- original
- mask
- determining
- boundary mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000011218 segmentation Effects 0.000 title claims abstract description 18
- 230000000877 morphologic effect Effects 0.000 claims abstract description 16
- 230000003628 erosive effect Effects 0.000 claims description 10
- 230000010339 dilation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005530 etching Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 4
- 239000004480 active ingredient Substances 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 238000005259 measurement Methods 0.000 description 7
- 238000005260 corrosion Methods 0.000 description 4
- 230000007797 corrosion Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008719 thickening Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000009187 flying Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009183 running Effects 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000009184 walking Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/155—Segmentation; Edge detection involving morphological operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于分析评估卷积神经网络中的语义分割网络的边界性能的方法。一种用于测量语义分割网络的边界性能的方法包括以下步骤:确定限定图像的不同类别之间的边界的原始边界掩模(Bo)(S1);使用形态学运算根据原始边界掩模(Bo)确定加粗边界掩模(Bt)(S2);根据原始边界掩模(Bo)和/或加粗边界掩模(Bt)确定真正率、假正率和假负率(S3);根据确定的真正率、确定的假正率和确定的假负率来确定指示边界性能的最终边界度量(S4)。
Description
技术领域
本发明涉及一种用于测量语义分割网络的边界性能的方法和装置、一种计算机程序以及一种计算机可读存储介质和一种控制方法。
背景技术
在图像识别中,语义分割起到重要作用。为了识别图像中的不同对象,有必要检测图像中的不同类型的对象并且对其分类。例如,利用图像识别,计算机能够将天空与建筑物、与道路和/或与植被区分开。这通过语义分割、进行预测、读取运行的不同对象的边界来实现。
为了测量语义分割的性能,特别地,需要测量语义分割的边界性能。通常,为此,边界本身必须被确定。通常,距离变换用于获得边界,然后像素距离用于对边界进行阈值处理,这是非常低效的。
因此,需要一种用于测量边界性能的改进的方法。
发明内容
就边界度量(boundary metric)的计算而言,已知的方法效率低下。此外,它们仅将其视为分析评估度量,这意味着其不能用于训练神经网络。
因此,提供一种测量语义分割网络的边界性能的改进的快速且灵活的方式。此外,引入边界损失项,该边界损失项是可区分的,因此可以在语义分割网络的训练中使用,以优化边界性能。
因此,可以以更可靠且更有效的方式来测量边界性能。此外,可以直接优化用于语义分割的神经网络的边界性能。实施例
根据一方面,一种用于测量语义分割网络的边界性能的方法包括以下步骤:确定限定图像的分割对象之间的边界的原始边界掩模;使用形态学运算根据原始边界掩模确定加粗边界掩模;根据原始边界掩模和/或加粗边界掩模确定真正率、假正率和假负率;根据确定的真正率、确定的假正率和确定的假负率来确定指示边界性能的最终边界度量。
优选地,所述方法是计算机实施的方法。
如本文中所使用的,术语“加粗边界掩模”涉及一种与原始边界掩模相比被扩大的边界掩模。因此,原始边界掩膜限定图像的不同类别之间的更细的边界。
如本文中所使用的,术语“类别”涉及图像中包含的不同类型的对象,所述不同类型的对象被卷积神经网络的语义分割网络分割。优选地,在包含被语义分割网络分割的对象的图像上,从背景分割待检测的对象。在图像的二进制图像图中,待检测的对象、也被称为前景优选地通过值“1”来标记,背景通过值“0”来标记。例如,如果通过语义分割网络在图像中对狗进行分割,则图像的与狗相关的每个像素获得值“1”并且图像的与背景相关的每个像素获得值“0”。因此,图像的二进制图像图被创建。在图像中分割的不同类别的示例包括风景、汽车、人、天空、树木和/或植被。
如本文中所使用的,术语“形态学运算”是基于形状来处理图像的图像处理运算的广泛集合。在形态学运算中,图像中的每个像素基于其邻域中的其他像素的值来调整。通过选择邻域的尺寸和形状,可以构造对输入图像中的特定形状敏感的形态学运算。两个基本的形态学运算符为腐蚀和膨胀,腐蚀使前景缩小,而膨胀使前景对象扩大。
原始边界掩模和/或加粗边界掩模优选地被配置为二进制边界掩模。
优选地,确定原始边界掩模的步骤包括对图像图进行阈值处理。
优选地,真正与被正确分类为前景的像素的数量相关。因此,真正率与被正确分类为前景的像素的数量和前景的正确标注(ground truth)的像素的总数量相比相关。
优选地,假正与被错误地分类为前景的像素的数量相关。因此,假正率与被错误地分类为前景的像素的数量和前景的正确标注的像素的总数量相比相关。
优选地,假负与被错误地分类为背景的像素的数量相关。因此,假负率与被错误地分类为背景的像素的数量和前景的正确标注的像素的总数量相比相关。
通过使用形态学运算获得原始边界掩膜和加粗边界掩膜,允许改进的对边界性能的分析评估。
因此,可以改进对边界性能的测量。
在一个优选实施例中,确定原始边界掩模的步骤包括:确定原始正确标注边界掩模和确定预测原始边界,确定加粗边界掩模的步骤包括:根据原始正确标注边界掩模确定加粗正确标注边界掩模,根据原始预测的边界掩膜确定加粗预测边界掩模。
为了允许将预测中的更多像素视为边界像素,优选地使正确标注的边界加粗。当使用加粗正确标注边界掩膜和预测的边界的卷积之和来计算真正时,与使用正确标注边界掩膜和预测的边界掩膜之和相比,真正率会更高。对于假正率和假负率类似,分数将更低。
因此,可以改进对边界性能的测量。
在一个优选实施例中,所述方法包括确定边界损失函数的步骤,所述边界损失函数被确定为第一损失项Lce和第二损失项Lb的加权和,其中,第一损失项表示语义分割的交叉熵损失,其中,第二损失项包括可微分的边界损失项。α是可以被调整的用于加权的超参数。
边界损失项是可微分的,因此可以在语义分割网络的训练中使用,以优化边界性能。
以下函数描述了所述关系。
边界损失函数=αLce+(1-α)Lb
在一个优选实施例中,可微分的边界损失项根据正确标注边界掩膜和预测的边界掩膜确定。
优选地,对于一个类别,正确标注和预测被确定。
可微分的边界损失项通过以下项来确定:
或
Lb=交叉熵(正确标注*正确标注边界掩膜,预测*正确标注边界掩膜)
其确定边界掩膜的像素的交叉熵。
边界损失项Lb可以描述为损失项,其可以被计算为对边界像素赋予更多加权的交叉熵损失或dice损失,其中,边界的粗细可以使用与边界分析评估度量相同的思想来限定。
因此,当与加权参数的调整一起共同优化正常像素的交叉熵损失和边界损失项时,可以改进卷积神经网络关于边界像素的性能。
因此,可以改进对边界性能的测量。
在一个优选实施例中,确定原始边界掩模的步骤包括使用形态学运算。
腐蚀(erosion)是计算机视觉中的一种形态学运算,其使用结构元滤波器缩小区域边界。例如,结构元滤波器为3×3的正方形。
优选地,原始边界掩模通过从二进制图像图减去腐蚀的二进制图像图来确定。
以下函数描述了所述关系。
原始边界掩膜=二进制图像图-腐蚀(二进制图像图)
因此,可以改进对边界性能的测量。
在一个优选实施例中,确定原始边界掩模的步骤包括使用具有二阶拉普拉斯算子的卷积。
优选地,对卷积的使用包括根据原始边界图来确定原始边界掩模。原始边界图通过二进制图像图和边缘核的二维卷积来确定,同时使用填充。以下函数描述了所述关系。
原始边界图=二维卷积(二进制图像图,边缘核,填充=′SAME′
如本文中所使用的,术语“填充=′SAME′”意味着零填充将被执行,以使卷积的输出与输入图像具有相同的形状。
优选地,边缘核具有3×3的尺寸。例如,边缘核被限定为
基于确定的原始边界图来确定原始边界掩模。优选地,原始边界掩模通过边界图的具有小于零的值的像素来确定。以下函数描述了该关系。
原始边界掩膜=原始边界图<0
因此,可以改进对边界性能的测量。
在一个优选实施例中,确定加粗边界掩模的步骤包括原始边界掩模的膨胀,其中,原始边界掩模的膨胀使原始边界掩模的内部边界和原始边界掩模的外部边界加粗。
由于在边界二进制图中其本身很细,因此当直接对其计算边界分数时,最终分数将趋于非常小。在实践中,将总是允许一定的公差,这意味着,如果预测的边界像素是少数图片中的,则是允许的。为了为公差设置阈值,提出的边界度量使用形态学运算来计算加粗边界掩膜。
膨胀(dilation)是与腐蚀相反的形态学运算,其使用结构元滤波器扩大区域边界。然后,边界的粗细可以通过结构元滤波器尺寸的尺寸来控制。然后,公差的阈值通过过滤器尺寸控制。优选地,过滤器尺寸是3×3。
因此,原始边界掩模的内部边界被扩大。
以下函数描述了所述关系。
加粗边界掩膜=膨胀(原始边界掩膜)
在一个优选实施例中,根据原始边界掩模确定加粗边界的步骤包括腐蚀,其中,腐蚀仅使原始边界掩模的内部边界加粗。
以下函数描述了所述关系。
加粗边界掩膜=二进制图像图-腐蚀(二进制图像图,较大的核)
较大的核优选地具有比边缘核高的尺寸。
因此,原始边界的内部边界和原始边界的外部边界被扩大。
因此,可以改进对边界性能的测量。
在一个优选实施例中,真正率根据加粗正确标注边界掩膜和原始预测边界掩膜来确定,其中,假正率根据加粗正确标注边界掩膜和原始预测边界掩膜来确定,和/或,其中,假负率根据原始正确标注边界掩膜和加粗预测边界掩膜来确定。
优选地,真正通过加粗正确标注边界掩模与原始预测边界掩模的乘积之和来确定。然后,真正率根据确定的真正和正确标注来确定。换句话说,真正限定在两个掩膜上具有值1(前景)的像素的总数量。
优选地,假正通过加粗正确标注边界掩模与原始预测边界掩模的乘积之和来确定。然后,假正率根据确定的假正和正确标注来确定。
优选地,假负通过正确标注边界掩模与加粗预测边界掩模的乘积之和来确定。然后,假负率根据确定的假负和正确标注来确定。
在一个优选实施例中,最终边界度量包括交并比分数、IoU(intersectionoverunion)分数。
优选地,交并比分数、IoU分数根据真正率、假正率和假负率来确定。更优选地,交并比分数通过真正率除以真正率、假正率和假负率之和来确定。
以下函数描述了所述关系。
优选地,IoU分数在0和1之间的范围内,其中,较高的值与较好的分数相关。
因此,可以改进对边界性能的测量。
在一个优选实施例中,最终边界度量包括F1分数,其中,确定最终边界度量的步骤包括确定精确度因子和确定召回率因子,其中,F1分数根据确定的精确度和确定的召回率来确定。
优选地,精确度因子根据真正率和假正率来确定。更优选地,精确度因子通过真正率除以真正率和假正率之和来确定。
以下函数描述了所述关系。
优选地,召回率因子根据真正率和假负率来确定。更优选地,召回率因子通过真正率除以真正率和假负率之和来确定。
以下函数描述了所述关系。
优选地,F1分数根据精确度因子和召回率因子来确定。更优选地,F1分数通过将精确度因子乘以因子2和召回率因子,并且将其除以精确度因子和召回率因子之和来确定。
以下函数描述了所述关系。
优选地,F1分数在0和1之间的范围内,其中,较高的值与较好的分数相关。
根据一方面,一种被配置为能够执行如本文中所述的用于测量边界性能的方法的装置。
根据一方面,提供一种包括指令的计算机程序,当程序通过计算机执行时,所述指令使计算机执行如本文中所述的用于测量边界性能的方法。
根据一方面,提供一种计算机可读数据载体,所述计算机可读数据载体上存储有如本文中所述的计算机程序。
根据一方面,一种至少部分自主的机器人的控制方法包括以下步骤:接收至少部分自主的机器人的环境图像数据;对接收的环境图像数据执行图像识别,其包括执行如本文中所述的用于测量边界性能的方法;根据执行的图像识别来控制至少部分自主的机器人。
优选地,至少部分自主的机器人包括至少部分自主的车辆。替代地,至少部分自主的机器人可以是任何其他移动机器人、例如通过飞行、游泳、潜水或步行而移动的移动机器人。在一个示例中,至少部分自主的机器人可以是至少部分自主的割草机或至少部分清洁机器人。
优选地,控制至少部分自主的机器人的步骤包括使用驾驶员辅助功能用于至少部分自主的机器人的车道保持支持和车道偏离警告。
附图说明
在下文中将参考优选的示例性实施例更详细地解释本发明的主题,所述优选的示例性实施例在附图中示出,在附图中:
图1示出了使用腐蚀确定原始边界掩模;
图2示出了不同的边界图;
图3示出了边界的膨胀的示意示图;
图4示出了基于对边界的相对差的预测的在原始边界与加粗边界之间的真正、假正和假负的比较;
图5示出了基于对边界的相对好的预测的在原始边界与加粗边界之间的真正、假正和假负的比较;
图6示出了用于测量语义分割网络的边界性能的方法的示意图。
附图中使用的附图标记及其含义在附图标记的列表中以总结的形式列出。原则上,相同的部分在图中具有相同的附图标记。
具体实施方式
图1示出了图像图I。图像图I是将图像图I划分为前景f和背景BG的二进制图像图I。为了计算前景f与背景BG之间的二进制边界B,原始边界掩模(boundary mask)Bo被确定。
因此,使用形态学运算,所述形态学运算在这种情况下为腐蚀。使用腐蚀,边界B的面积使用结构元滤波器被缩小。在所示的情况下,结构元滤波器为3×正方形。将腐蚀施加到图像图I,确定腐蚀的图像图Ie。将图像图I与腐蚀的图像图Ie进行比较,可以看出,腐蚀的图像图Ie的腐蚀的前景fe小于图像图I的前景f。因此,腐蚀的图像图Ie的腐蚀的背景BGe大于图像图I的背景BG。
从图像图I中减去腐蚀的图像图Ie以对它们进行比较,得到原始边界掩模Bo。因此,施加到图像图I的腐蚀确定原始边界图Bo的边界B。
图2示出了具有边界B的原始边界图Bo。如可见的,边界B本身相对细。直接对相对细的边界B计算与确定的边界B的质量相关的边界分数通常导致小的边界分数。通常,在实际的用例中,需要容忍边界上的一些偏差、例如在周长中的10像素。那么进行加粗边界计算非常有用,这是因为在这种情况下可以具有一些容忍度,从而不会获得太低的分数并且同时仍然正确地反映性能。因此,边界B需要被加粗。确定的加粗边界图Bt在图2中示出,其包括加粗边界Bth。当将边界B与加粗边界Bth进行比较时,可以看出,与边界B相比,加粗边界Bth被扩大。这将得到与边界B相比的加粗边界Bth的更好边界分数。
为了确定加粗边界掩模Bt,优选地使用形态学运算。在图3的情况下,原始边界掩模Bo的膨胀被示出为用于扩大图像图I的内部边界IN和外部边界OUT。如图3中所示,图像图I包括通过边界B分割的前景f和背景BG。使用膨胀,内部边界IN被确定在边界B的前景侧,并且外部边界OUT被确定在边界B的背景侧。因此,加粗边界Bt可以被确定。
图4示出了基于边界的相对差的预测的在原始边界与加粗边界之间的真正(truepositive)、假正(false positive)和假负(false negative)的比较。
首先,示出正确标注边界BGt的正确标注gt,其与如原始图像中所示的前景和背景之间的边界相关。在基于卷积神经网络的图像识别期间,当执行语义分割时,需要预测前景和背景之间的边界,并且必须确定预测边界Bp。通常,由于卷积神经网络的语义分割中的不同的不确定性,预测边界Bp与正确标注边界BGt不相同。
图4证明了如本文中所述的加粗边界掩模的与原始边界掩模相比的优点。如可见的,预测边界Bp与正确标注边界gt的不同相对较大。
示出第一原始真正TPo1,其基于原始边界掩模Bo与被正确地分类为前景的边界的像素的数量相关。与此相比,示出第一加粗真正TPth1,其基于加粗边界掩模Bt与被正确地分类为前景的边界的像素的数量相关。与第一原始真正TPo1相比,第一加粗真正TPth1获得可接受的分数,同时仍然正确反映边界的性能。
示出第一原始假正FPo1,其基于原始边界掩膜Bo与被错误地分类为前景的边界的像素的数量相关。与此相比,示出第一加粗假正FPth1,其基于加粗边界掩模Bt与被错误地分类为前景的边界的像素的数量相关。第一加粗假正FPth1具有比第一原始假正FPo1更少数量的错误分类的像素,与第一原始假正FPo1相比,第一加粗假正FPth1获得可接受的分数,同时仍然正确地反映边界的性能。
示出第一原始假负FNo1,其基于原始边界掩模Bo与错误地未被分类为前景的边界的像素的数量相关。与此相比,示出第一加粗假负FNth1,其基于加粗边界掩模Bt与错误地未被分类为前景的边界的像素的数量相关。与第一原始假负FNo1相比,第一加粗假负FNth1获得可接受的分数,同时仍然正确反映边界的性能。
如所述的,与正确标注边界掩模BGt相比,预测边界掩模Bp看起来不精确。然而,在这种情况下,预测仍具有0.97的非常高的IoU分数。提出的边界分数在0.74的合理值处。例如,没有加粗的相对差的边界将获得在约0.3的范围中的IoU分数。
如本文中所述,图5证明了加粗边界掩模的与原始边界掩模相比的优点。如可见的,预测边界Bp与正确标注边界gt仅略有不同(与图4相比)。
示出第二原始真正TPo2,其基于原始边界掩模Bo与被正确分类为前景的边界的像素的数量相关。与此相比,示出第二加粗真正TPth2,其基于加粗边界掩模Bt与被正确分类为前景的边界的像素的数量相关。第二加粗真正TPth2具有比第二原始真正TPo2更大数量的正确分类的像素,并且因此比第二原始真正TPo2更精确。
示出第二原始假正FPo2,其基于原始边界掩膜Bo与被错误地分类为前景的边界的像素的数量相关。与此相比,示出第二加粗假正FPth2,其基于加粗边界掩模Bt与被错误地分类为前景的边界的像素的数量相关。第二加粗假正FPth2具有比第二原始假正FPo2更少数量的错误分类的像素,并且因此比第二原始假正FPo2更精确。第二加粗假正FPth2包括相对少量的错误分类的像素。
示出第二原始假负FNo2,其基于原始边界掩模Bo与错误地未被分类为前景的边界的像素的数量相关。与此相比,示出第二加粗假负FNth2,其基于加粗边界掩模Bt与错误地未被分类为前景的边界的像素的数量相关。第二加粗假负FNth2具有比第二原始假负FNo2更少数量的错误地未被分类的像素,并且因此比第二原始假负FNo2更精确。第二加粗假负FNth2包括相对少量的错误分类的像素。
如所述的,与正确标注边界掩模BGt相比,预测边界掩模Bp看起来较精确。在这种情况下,预测具有0.99的非常高的IoU分数。提出的边界分数在0.95的高值处。例如,没有加粗的相对好的边界将获得在约0.5的范围中的IoU分数。
图6示出了用于测量语义分割网络的边界性能的方法的示意示图。在步骤S1中,确定限定图像的不同类别之间的边界的原始边界掩模Bo。在步骤S2中,使用形态学运算根据原始边界掩模Bo,确定加粗边界掩模Bt。在步骤S3中,根据原始边界掩模Bo和/或加粗边界掩模Bt,确定真正率、假正率和假负率。在步骤S4中,根据确定的真正率、确定的假正率和确定的假负率来确定最终边界度量。
Claims (15)
1.一种用于测量语义分割网络的边界性能的方法,所述方法包括以下步骤:
确定限定图像的不同类别之间的边界的原始边界掩模(Bo)(S1);
使用形态学运算根据原始边界掩模(Bo)确定加粗边界掩模(Bt)(S2);
根据原始边界掩模(Bo)和/或加粗边界掩模(Bt)确定真正率、假正率和假负率(S3);
根据确定的真正率、确定的假正率和确定的假负率来确定指示边界性能的最终边界度量(S4)。
2.根据权利要求1所述的方法,其中,
确定原始边界掩膜(Bo)的步骤包括:确定原始正确标注边界掩膜;以及确定原始预测边界掩膜;
确定加粗边界掩模的步骤包括:根据原始正确标注边界掩模来确定加粗正确标注边界掩模;以及根据原始预测边界掩模来确定加粗预测边界掩模。
3.根据前述权利要求中的任一项所述的方法,所述方法包括以下步骤:
确定边界损失函数,边界损失函数被确定为第一损失项和第二损失项的加权和;其中,
第一损失项表示语义分割的交叉熵损失;其中,
第二损失项包括可微分的边界损失项。
4.根据权利要求3所述的方法,其中,
可微分的边界损失项根据正确标注边界掩膜和预测边界掩膜来确定。
5.根据前述权利要求中的任一项所述的方法,其中,
确定原始边界掩模(Bo)的步骤包括使用形态学运算。
6.根据权利要求1至4中的任一项所述的方法,其中,
确定原始边界掩膜(Bo)的步骤包括使用具有二阶拉普拉斯算子的卷积。
7.根据前述权利要求中的任一项所述的方法,其中,
确定加粗边界掩模(Bt)的步骤包括原始边界掩模(Bo)的膨胀,其中,原始边界掩模(Bo)的膨胀使原始边界掩模(Bo)的内部边界和原始边界掩膜(Bo)的外部边界加粗。
8.根据权利要求1至7中的任一项所述的方法,其中,
确定加粗边界掩模的步骤包括原始边界掩模(Bo)的腐蚀;其中,
腐蚀仅使原始边界掩膜(Bo)的内部边界加粗。
9.根据前述权利要求中的任一项所述的方法,其中,
根据加粗正确标注边界掩膜和原始预测边界掩膜确定真正率;其中,
根据加粗正确标注边界掩膜和原始预测边界掩膜确定假正率;和/或,其中,
根据原始正确标注边界掩膜和加粗预测边界掩膜确定假负率。
10.根据前述权利要求中的任一项所述的方法,其中,
最终边界度量包括交并比分数。
11.根据前述权利要求中的任一项所述的方法,其中,
最终边界度量包括F1分数,其中,
确定最终边界度量的步骤包括确定精确度因子和确定召回率因子,其中,根据确定的精确度和确定的召回率来确定F1分数。
12.一种被配置为能够执行权利要求1至11中的任一项所述的方法的装置。
13.一种包括指令的计算机程序,当所述计算机程序通过计算机执行时,所述指令使计算机执行根据权利要求1至11中的任一项所述的方法。
14.一种计算机可读数据载体,所述计算机可读数据载体上存储有权利要求13所述的计算机程序。
15.一种至少部分自主的机器人的控制方法,所述控制方法包括以下步骤:
接收至少部分自主的机器人的环境图像数据;
对接收的环境图像数据执行图像识别,其包括执行权利要求1至11中的任一项所述的方法;
根据执行的图像识别来控制至少部分自主的机器人。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19201614.5A EP3805986A1 (en) | 2019-10-07 | 2019-10-07 | Method for measuring the boundary performance of a semantic segmentation network |
EP19201614.5 | 2019-10-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112634294A true CN112634294A (zh) | 2021-04-09 |
Family
ID=68159012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011074030.9A Pending CN112634294A (zh) | 2019-10-07 | 2020-10-09 | 用于测量语义分割网络的边界性能的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210101287A1 (zh) |
EP (1) | EP3805986A1 (zh) |
CN (1) | CN112634294A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115222940B (zh) * | 2022-07-07 | 2023-06-09 | 北京邮电大学 | 一种语义分割方法、系统、设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390506B1 (en) * | 2015-05-07 | 2016-07-12 | Aricent Holdings Luxembourg S.A.R.L. | Selective object filtering and tracking |
US10706558B2 (en) * | 2017-08-04 | 2020-07-07 | Université de Liège | Foreground and background detection method |
US20190251695A1 (en) * | 2017-08-04 | 2019-08-15 | Universite De Liege | Foreground and background detection method |
WO2019178561A2 (en) * | 2018-03-16 | 2019-09-19 | The United States Of America, As Represented By The Secretary, Department Of Health & Human Services | Using machine learning and/or neural networks to validate stem cells and their derivatives for use in cell therapy, drug discovery, and diagnostics |
US11010668B2 (en) * | 2019-01-31 | 2021-05-18 | StradVision, Inc. | Method and device for attention-driven resource allocation by using reinforcement learning and V2X communication to thereby achieve safety of autonomous driving |
US10970847B2 (en) * | 2019-05-16 | 2021-04-06 | Adobe Inc. | Document boundary detection using deep learning model and image processing algorithms |
US11461998B2 (en) * | 2019-09-25 | 2022-10-04 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
-
2019
- 2019-10-07 EP EP19201614.5A patent/EP3805986A1/en active Pending
-
2020
- 2020-10-02 US US17/062,092 patent/US20210101287A1/en active Pending
- 2020-10-09 CN CN202011074030.9A patent/CN112634294A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3805986A1 (en) | 2021-04-14 |
US20210101287A1 (en) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314973B2 (en) | Lane line-based intelligent driving control method and apparatus, and electronic device | |
CN110942000B (zh) | 一种基于深度学习的无人驾驶车辆目标检测方法 | |
CN110599537A (zh) | 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统 | |
CN110781836A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
WO2022134996A1 (en) | Lane line detection method based on deep learning, and apparatus | |
CN108830131B (zh) | 基于深度学习的交通目标检测与测距方法 | |
CN111667512A (zh) | 基于改进卡尔曼滤波的多目标车辆轨迹预测方法 | |
CN112037268B (zh) | 一种动态场景下的基于概率传递模型的环境感知方法 | |
Špoljar et al. | Lane detection and lane departure warning using front view camera in vehicle | |
CN114004858A (zh) | 基于机器视觉识别航空线缆表面编码的方法及装置 | |
CN112634294A (zh) | 用于测量语义分割网络的边界性能的方法 | |
CN113092807A (zh) | 基于多目标跟踪算法的城市高架道路车辆测速方法 | |
Saravanarajan et al. | Improving semantic segmentation under hazy weather for autonomous vehicles using explainable artificial intelligence and adaptive dehazing approach | |
CN112017213A (zh) | 一种目标对象的位置更新方法及系统 | |
CN109657577B (zh) | 一种基于熵和运动偏移量的动物检测方法 | |
CN112784675A (zh) | 目标检测方法及装置、存储介质、终端 | |
Fan et al. | Covered vehicle detection in autonomous driving based on faster rcnn | |
CN111144361A (zh) | 一种基于二值化cgan网络的公路车道检测方法 | |
CN116434156A (zh) | 目标检测方法、存储介质、路侧设备及自动驾驶系统 | |
CN111765892B (zh) | 一种定位方法、装置、电子设备及计算机可读存储介质 | |
Funahashi et al. | Safety-level estimation of aerial images based on convolutional neural network for emergency landing of unmanned aerial vehicle | |
Merugu et al. | Multi lane detection, curve fitting and lane type classification | |
US10373004B1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image | |
CN113269156A (zh) | 一种基于多尺度特征融合的信号灯检测识别方法及系统 | |
CN111640071A (zh) | 基于卷积神经网络修复帧差法获取全景前景目标的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |