CN116188907A - 图像处理方法、语义分割模型的训练方法及装置 - Google Patents
图像处理方法、语义分割模型的训练方法及装置 Download PDFInfo
- Publication number
- CN116188907A CN116188907A CN202310188687.5A CN202310188687A CN116188907A CN 116188907 A CN116188907 A CN 116188907A CN 202310188687 A CN202310188687 A CN 202310188687A CN 116188907 A CN116188907 A CN 116188907A
- Authority
- CN
- China
- Prior art keywords
- feature
- training
- stage
- image
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 195
- 230000011218 segmentation Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 135
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims description 37
- 230000004927 fusion Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 17
- 230000002829 reductive effect Effects 0.000 claims description 17
- 238000007499 fusion processing Methods 0.000 claims description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 230000007547 defect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000000670 limiting effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像处理方法、语义分割模型的训练方法及装置,涉及图像处理和人工智能技术,具体涉及自动驾驶、智能交通、计算机视觉、深度学习技术领域。具体实现方案为:对获取到的待分割图像进行特征提取处理,得到图像特征,对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别,根据预测类别,对图像特征进行上采样处理,得到待分割图像的语义分割结果,无需在全量的类别上进行上采样处理,以在确保上采样处理的有效性和可靠性的基础上,实现节约资源、降低时延、提高效率的技术效果。
Description
技术领域
本公开涉及图像处理和人工智能技术,具体涉及自动驾驶、智能交通、计算机视觉、深度学习技术领域,尤其涉及一种图像处理方法、语义分割模型的训练方法及装置。
背景技术
语义分割可以按照类别的异常,将图像划分为多个块。
在一些实施例中,语义分割时需要对图像特征进行上采样处理,且具体为基于全量的类别对图像特征进行上采样处理,以得到图像对应的语义分割结果。
发明内容
本公开提供了一种用于提高效率的图像处理方法、语义分割模型的训练方法及装置。
根据本公开的第一方面,提供了一种图像处理方法,包括:
对获取到的待分割图像进行特征提取处理,得到图像特征;
对所述图像特征进行分类处理,得到所述图像特征的分类结果,其中,所述分类结果中包括所述图像特征对应的预测类别;
根据所述预测类别,对所述图像特征进行上采样处理,得到所述待分割图像的语义分割结果。
根据本公开的第二方面,提供了一种语义分割模型的训练方法,包括:
将采集到的样本图像输入至骨干网络,输出第一训练特征,所述第一训练特征用于表征所述样本图像的下采样特征;
其中,所述骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,所述当前阶段为除第一个阶段和第二个阶段之外的任意阶段;
根据所述第一训练特征进行训练,得到语义分割模型,其中,所述语义分割模型用于确定待分割图像的图像特征。
根据本公开的第三方面,提供了一种图像处理装置,包括:
提取单元,用于对获取到的待分割图像进行特征提取处理,得到图像特征;
分类单元,用于对所述图像特征进行分类处理,得到所述图像特征的分类结果,其中,所述分类结果中包括所述图像特征对应的预测类别;
处理单元,用于根据所述预测类别,对所述图像特征进行上采样处理,得到所述待分割图像的语义分割结果。
根据本公开的第四方面,提供了一种语义分割模型的训练装置,包括:
输入单元,用于将采集到的样本图像输入至骨干网络,输出第一训练特征,所述第一训练特征用于表征所述样本图像的下采样特征;
其中,所述骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,所述当前阶段为除第一个阶段和第二个阶段之外的任意阶段;
训练单元,用于根据所述第一训练特征进行训练,得到语义分割模型,其中,所述语义分割模型用于确定待分割图像的图像特征。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。
本公开提供的图像处理方法、语义分割模型的训练方法及装置,包括:对获取到的待分割图像进行特征提取处理,得到图像特征,对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别,根据预测类别,对图像特征进行上采样处理,得到待分割图像的语义分割结果,无需在全量的类别上进行上采样处理,以在确保上采样处理的有效性和可靠性的基础上,实现节约资源、降低时延、提高效率的技术效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是本公开实施例的语义分割模型的示意图;
图4是本公开实施例的骨干网络的示意图;
图5是本公开实施例的骨干网络的原理示意图;
图6是本公开实施例的特征融合模块的原理示意图;
图7是根据本公开第三实施例的示意图;
图8是根据本公开第四实施例的示意图;
图9是根据本公开第五实施例的示意图;
图10是根据本公开第六实施例的示意图;
图11是根据本公开第七实施例的示意图;
图12是根据本公开第八实施例的示意图;
图13是用来实现本公开实施例的图像处理方法、语义分割模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
其中,人工智能(Artificial Intelligence,AI)技术,是指研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术。
深度学习(Deep Learning,DL)是机器学习(Machine Learning,ML)领域中一个子领域,是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。
计算机视觉,是指使用计算机及相关设备对生物视觉的一种模拟,以通过对采集的图片或视频进行处理以获得相应场景的三维信息。
图像处理(image processing),也可以称为影像处理,是指用计算机对图像进行分析,以达到所需结果的技术。
语义分割是计算机视觉中很重要的一个方向。不同于目标检测和识别,语义分割实现了图像像素级的分类。它能够将一张图像或者视频(视频以帧来提取的话其实就是图像),按照类别(基于业界标准规定的)的异同,将图像分为多个块。
也就是说,语义分割可以将图像准确划分成一个个语义实体的目标。语义实体即指定标签中的类别,如人、车辆、树等。
因此,语义分割通过对图像进行语义分析和理解,成为缺陷检测等、自动驾驶、视频会议等应用中的重要内容。
示例性的,缺陷检测是指,对物品表面缺陷的检测,如对工件表面的斑点、凹坑、划痕、色差、缺损等缺陷进行检测。
语义分割为自动驾驶中的重要内容可以体现于:基于语义分割,可以便于自动驾驶汽车在自动驾驶过程中,识别障碍物,如其他车辆、红绿灯、指示牌等,以提高自动驾驶的安全性和可靠性。
语义分割为视频会议中的重要内容可以体现于:语义分割可以精准区分视频会议的前景和背景,以对背景进行虚化或替换等操作。
在一些实施例中,语义分割可以基于模型实现,我们可以将具有语义分割能力的模型称为语义分割模型。语义分割模型主要可以包括特征提取模块和上采样模块。
其中,特征提取模块主要用于提取待分割图像的图像特征。上采样模块主要用于根据所有类别对图像特征进行上采样处理,从而得到待分割图像的语义分割结果。
然而,基于所有类别对图像特征进行上采样处理,可能造成上采样处理的耗时较长,从而导致语义分割的效率偏低。
为了避免上述技术问题,本公开提供了经创造性劳动的技术构思:对图像特征进行分类处理,以得到图像特征在所有类别中命中的部分类别,以基于命中的部分类别进行上采样处理,得到语义分割结果。
基于上述发明构思,本公开提供一种图像处理方法、语义分割模型的训练方法及装置,涉及图像处理和人工智能技术,具体涉及自动驾驶、智能交通、计算机视觉、深度学习技术领域,以达到提高图像处理的效率。
图1是根据本公开第一实施例的示意图,如图1所示,本公开实施例的图像处理方法,包括:
S101:对获取到的待分割图像进行特征提取处理,得到图像特征。
示例性的,本实施例的执行主体可以为图像处理装置,图像处理装置可以为服务器,也可以为终端设备,也可以为处理器,也可以为芯片,等等,此处不再一一列举。
其中,若图像处理装置为服务器,则图像处理装置可以为服务器集群,也可以为独立的服务器,可以为云端服务器,也可以为本地服务器,本实施例不做限定。
结合上述分析可知,本实施例的图像处理方法可以应用于不同的应用场景,因此,针对不同的应用场景,图像处理装置可能为不同的装置。
例如,若本公开实施例的图像处理方法应用于自动驾驶场景,且具体用于识别障碍物,则图像处理装置可以为部署于自动驾驶汽车的部件,如图像处理装置可以为部署于自动驾驶汽车的车载终端,又如,图像处理装置可以为部署于自动驾驶汽车的处理器,再如,图像处理装置可以为部署于自动驾驶汽车的芯片,等等。
若本公开实施例的图像处理方法应用于缺陷检测的场景,且具体用于工件制造的工件缺陷检测,则图像处理装置可以为用于工件缺陷检测的检测装置,等等。
若本公开实施例的图像处理方法应用于视频会议的场景,则图像处理装置为用于视频会议的服务器,等等。
应该理解的是,上述示例只是用于示范性地说明,本公开实施例的图像处理方法应用于上述示例的应用场景中,可能的图像处理装置的类型,而不能理解为对本公开实施例的图像处理方法的应用场景的限定,也不能理解为对不同应用场景中的图像处理装置的限定。
本公开实施例对获取待分割图像的方式不做限定,例如,可以采用下述示例获取待分割图像:
一个示例中,图像处理装置可以与图像采集装置连接,并接收由图像采集装置发送的待分割图像。
另一个示例中,图像处理装置可以提供载入图像的工具,用户可以通过该载入图像的工具将待分割图像传输至图像处理装置。
其中,载入图像的工具可以为用于与外接设备连接的接口,如用于与其他存储设备连接的接口,通过该接口获取外接设备传输的待分割图像;载入图像的工具也可以为显示装置,如图像处理装置可以在显示装置上输入载入图像功能的界面,用户可以通过该界面将待分割图像导入至图像处理装置,图像处理装置获取导入的待分割图像。
图像特征可以理解为,待分割图像在颜色、纹理、形状、以及空间特征等维度的特征。本实施例对特征提取处理的方式不做限定,如可以采用网络模型的方式实现。
S102:对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别。
可以理解的是,预测类别中的“预测”用于与后文中的其他类别进行区分,如用于与后文中的目标类别进行区分,而不能理解为对预测类别的类别限定。预测类别可以理解为,对图像特征进行分类处理,得到的图像特征中所包括的内容的类别。
结合上述分析可知,类别是基于业界标准规定的,类别可以包括人、车辆、树等。相应的,在本实施例中,针对图像特征中的不同内容,预测类别可能不同。如预测类别可能包括人和车辆,预测类别也可能包括人和树,预测类别也可能包括车辆,等等,此处不再一一列举。
S103:根据预测类别,对图像特征进行上采样处理,得到待分割图像的语义分割结果。
示例性的,预测类别可能仅包括类别中的部分内容,若采用上述实施例中的方法,则上采样处理时,针对的为全量的类别,而在本实施例中,上采样处理是针对预测类别。
相较而言,采用本实施例的方式进行上采样处理,可以减少上采样处理的资源,降低上采样处理的时延,提高上采样处理的效率,且由于预测类别较为真实和可靠的对图像特征可能对应类别进行了涵盖,因此,根据预测类别进行的上采样处理,并不会影响上采样处理的可靠性和有效性。
所以,通过根据预测类别进行上采样处理的方式,可以实现在不影响上采样处理的可靠性和有效性的基础上,节约资源,提高上采样处理的效率,进而提高图像处理效率。
且由于本公开实施例具有降低时延、提高效率的特点,因此,本实施例的图像处理方法不仅可以适用于算力相对较大的装置,还可以适用于算力相对较小的移动终端,以避免因算力需求大和延时较长而造成的移动终端卡顿等弊端,从而扩展了图像处理方法的应用场景。
例如,移动终端可以为手机、无人机、机器狗等装置,以提升人工智能应用的覆盖率。因此,结合上述实施例中所涉及的本公开实施例的应用场景可知,本公开实施例的应用场景可以广泛覆盖包含:工业、农业、服务业等众多领域。
基于上述分析可知,本公开提供了一种图像处理方法,包括:对获取到的待分割图像进行特征提取处理,得到图像特征,对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别,根据预测类别,对图像特征进行上采样处理,得到待分割图像的语义分割结果,在本实施例中,通过对图像特征进行分类处理,得到预测类别,以在预测类别上对图像特征进行上采样处理,得到语义分割结果的技术特征,无需在全量的类别上进行上采样处理,以在确保上采样处理的有效性和可靠性的基础上,实现节约资源、降低时延、提高效率的技术效果。
为使得读者更加深入地理解本公开的实现原理,现结合图2对本公开的图像处理方法进行详细阐述。图2是根据本公开第二实施例的示意图,如图2所示,本公开实施例的图像处理方法,包括:
S201:获取待分割图像的第一特征,其中,第一特征用于表征待分割图像的下采样特征。
应该理解的是,为了避免繁琐地陈述,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。
示例性的,关于待分割图像的获取等,可以参见第一实施例地描述,本实施例不再赘述。
同理,第一特征中的“第一”用于与其他的特征进行区分,如用于与后文中的第二特征进行区分,而不能理解为对第一特征的限定。
结合上述示例可知,本实施例的方法可以基于网络模型的方式实现,如语义分割模型。在一些实施例中,语义分割模型可以包括骨干网络。
相应的,如图3所示,可以将待分割图像输入至骨干网络,骨干网络可以对待分割图像进行下采样处理,输出下采样特征。
本实施例所述的骨干网络是指可以用于对图像进行下采样的网络,以实现对待分割图像的下采样处理,对于骨干网络的类型和结构等,本实施例不做限定。
如图3所示,骨干网络下采样处理的尺度包括多个,分别为×8、×16、×32。相应的,下采样特征为包括多个尺度的下采样特征,分别为×8的下采样特征、×16的下采样特征、×32的下采样特征。
在一些实施例中,骨干网络可以为等连接块网络(Equally Concatenate BlockNet,ECBNet)。其中,ECBNet包括多个阶段stage,除第一个stage之外的每一stage用于下采样处理,当前stage的输出是:前一stage的下采样结果、与当前stage的下采样结果的融合输出,当前stage为除第一个stage和第二个stage之外的任意stage。
如图4所示,stage的数量为5个,分别为stage1、stage2、stage3、stage4、stage5。其中,stage1为反向残差块(inverted residual),也可以称为倒残差块,可以用于使用深度可分离卷积提取特征。stage2、stage3、stage4、stage5分别为等连接块,分别用于下采样处理。
示例性的,在一些实施例中,前一stage的输出为下一stage的输入,如图5所示,stage1的输出为stage2的输入,stage2的输出为stage3的输入,stage3的输出为stage4的输入,以此类推。
然而,结合图5可知,在本实施例中,stage1用于对待分割图像进行下采样处理,得到第四特征(同理,第四特征用于与其他特征进行区分),并将第四特征输入给stage2。stage2对第四特征进行下采样处理,得到第五特征(同理,第五特征用于与其他特征进行区分),并将第五特征输入给stage3。
stage3对第五特征进行下采样处理,得到第六特征(同理,第六特征用于与其他特征进行区分),并将第六特征和第五特征进行融合,得到第七特征(同理,第七特征用于与其他特征进行区分),并将第七特征输入给stage4,以此类推,此处不再一一列举。
在本实施例中,通过包括等连接块的ECBNet获取第一特征,以将前一stage的下采样结果、与当前stage的下采样结果的融合输出,作为当前stage的输出,可以提高第一特征的准确性和可靠性,从而可以提高对待分割图像的语义分割的精度。
在一些实施例中,骨干网络的中间stage中,至少一个stage的输出通道数量、小于非中间stage的输出通道数量。其中,中间stage为除第一个stage和最后一个stage之外的stage。
示例性的,结合图4可知,中间stage包括:stage2、stage3、以及stage4。非中间stage包括:stage1和stage5。
相应的,stage2、stage3、以及stage4中的一个或多个stage的输出通道数量,小于stage1和stage5的输出通道数量。
也就是说,想对而言,在本实施例中,对中间stage的输出通道数量进行改进了,具体可以减少中间stage的输出通道数量,以降低延时,提高效率。
在一些实施例中,每一stage包括多层,至少一个stage为降低了层数的stage。
示例性的,结合图4可知,stage1、stage2、stage3、stage4、stage5中的每一stage都包括多层,在该五个stage中,有一个或多个stage的层数被进行了降低数量处理。
例如,以stage2为例,stage2原来有N层(N为不小于2的正整数),本实施例中的stage2做出了改进,且具体可以体现为对stage2的层数的改进,如stage2的层数为M层,M小于N。
在本实施例中,通过减少stage的层数,以基于更少层数的stage确定第一特征,可以提高确定第一特征的效率,降低时延。
结合上述分析可知,本公开实施例通过采用ECBNet作为骨干网络,对待分割图像进行处理,既可以降低时延,又可以提高精度。
S202:依次对第一特征进行池化处理和特征提取处理,得到第二特征。
示例性的,如图3所示,语义分割网络还可以包括池化模块(Pyramid Pooling)和特征提取模块(SASE),输出第二特征。
如图3所示,池化模块的输入为×8的下采样特征、×16的下采样特征、×32的下采样特征,经池化模块的池化处理,输出×64的池化特征。特征提取模块的输入为×64的池化特征,经特征提取模块的特征提取处理,输出×64的第二特征。
S203:对第一特征和第二特征进行融合处理,得到图像特征。
示例性的,如图3所示,语义分割网络还可以包括特征融合模块(AggregatedAttention Module,AAM),特征融合模块对由骨干网络输入的第一特征、由特征提取模块输入的第二特征进行特征融合,从而得到×16的图像特征。
在本实施例中,通过对不同来源的第一特征和第二特征进行融合处理,以得到图像特征,可以使得图像特征可以相对较为完整和全面地对待分割图像的特征进行表征,从而提高图像特征的有效性和可靠性。
在一些实施例中,S203可以包括如下步骤:
第一步骤:对第一特征和第二特征进行监督过滤处理,得到第三特征。
示例性的,结合图3和上述分析可知,第一特征包括:×8的下采样特征、×16的下采样特征、×32的下采样特征,第二特征为×64的第二特征。
相应的,结合图6可知,在一些实施例中,针对×8的下采样特征、×16的下采样特征、×32的下采样特征中的每一下采样特征,分别进行监督过滤处理(如图6中所示的Act)。
例如,针对×8的下采样特征,基于×64的第二特征从×8的下采样特征中,提取与×64的第二特征相关的信息,即对×8的下采样特征中的信息进行监督过滤处理,以此类推。
也就是说,在该实施例中,需要进行多次监督过滤处理。
而在本实施例中,如图6所示,根据第一特征和第二特征进行一次性监督过滤处理。类似于对多次监督过滤处理进行了“合并同类项”的操作,从而可以减少监督过滤处理的次数,避免了重复的特征复制,从而实现节约资源,降低时延,提高效率的技术效果。
第二步骤:根据第三特征、第一特征、以及第二特征,生成图像特征。
在一些实施例中,第二步骤可以包括如下子步骤:
第一子步骤:对第一特征进行卷积处理,得到第一卷积特征,对第二特征进行卷积处理,得到第二卷积特征。
第二子步骤:对第三特征、第一卷积特征、以及第二卷积特征,进行融合处理,得到图像特征。
示例性,结合图6和上述分析可知,在一些实施例中,如图6所示,在进行了多次监督过滤处理之后,针对每一次监督过滤处理,将第二特征和该次监督过滤处理的特征进行卷积处理(如图6所示的Conv),得到该次监督过滤处理的卷积特征,并将各次监督过滤处理各自对应的卷积特征进行融合处理,得到图像特征。
而在本实施例中,对第一特征和第二特征分别进行卷积处理,以避免丢失第一特征中的内容,即本实施例的图像特征是基于全量特征得到的,而不是经过分离后(即如上述示例中监督处理后的特征)得到的,因此,可以使得图像特征具有较高的有效性和可靠性,从而可以提高语义分割的精度。
也就是说,在本实施例中,一方面,通过特征融合模块,可以实现一次性监督过滤处理,从而可以减少监督过滤处理的次数,实现节约资源,降低时延,提高效率;另一方面,通过特征融合模块,可以使得特征融合过程中,融合的为待分割图像的全量特征,而非监督过滤处理后的部分特征,从而可以避免特征遗漏,提高融合的有效性和可靠性,从而提高图像特征的准确性,进而提高语义分割的精度。
S204:对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别。
示例性的,关于S204的实现原理,可以参见S102地描述,此处不再赘述。
在一些实施例中,预测类别的数量为多个,分类结果还包括各预测类别各自对应的预测置信度。
示例性的,结合上述分析可知,若本实施例的图像处理方法应用于自动驾驶的应用场景,则预测类别可以为人,也可以为树,也可以为车辆,等等。
相应的,针对不同的预测类别,待分割图像中包括该预测类别的可能性为该预测类别的预测置信度。如预测置信度可能为概率值,以表征待分割图像中包括预测类别的概率。
S205:根据各预测置信度,从各预测类别中提取目标类别,其中,目标类别包括:预测置信度大于预设阈值的预测类别,或者,预测置信度大于预设阈值的前N个预测类别,N为不小于1的正整数。
其中,预设阈值可以基于需求、历史记录、以及试验等方式确定,本实施例不做限定。
例如,针对精度较高的应用场景,预设阈值可以相对较大;反之,针对精度较低的应用场景,预设阈值可以相对较小。
在一些实施例中,目标类别可以理解为,各预测类别中的部分类别,且相对而言,目标类别的预测置信度大于预设阈值。
例如,可以将各预测类别各自对应的预测置信度与预设阈值进行比较,若某预测类别对应的预测置信度大于预设阈值,则可以将该预测类别确定为目标类别。
在另一些实施例中,目标类别可以理解为,各预测类别中的部分类别,且相对而言,目标类别为各预测类别中,预测置信度最大的前N个预测类别。
例如,可以将各预测类别各自对应的预测置信度进行排列(如降序排列或者升序排列),以从排列中选择前N个最大的预测置信度,并将前N个最大的预测置信度各自对应的预测类别确定为目标类别。
S206:根据目标类别对图像特征进行上采样处理,得到语义分割结果。
示例性的,结合图3和上述分析可知,语义分割模型还可以包括上采样模块(ValidInterpolate Module,VIM)。上采样模块的输入为特征融合模块的输出,如图3所示的×16的图像特征。
结合上述分析可知,目标类别的预测置信度相对较大,因此,目标类别的真实性相对较高,所以,根据目标类别进行上采样处理得到的语义分割结果具有较高的有效性和可靠性。
结合上述分析可知,可以基于网络模型的方式,确定待分割图像的语义分割结果,且网络模型可以为语义分割模型。现结合图7对语义分割模型的训练方法进行阐述。其中,图7是根据本公开第三实施例的示意图,如图7所示,本公开实施例的语义分割模型的训练方法,包括:
S701:将采集到的样本图像输入至骨干网络,输出第一训练特征,第一训练特征用于表征样本图像的下采样特征。
其中,骨干网络包括多个阶段stage,除第一个stage之外的每一stage用于下采样处理,当前stage的输出是:前一stage的下采样结果、与当前stage的下采样结果的融合输出,当前stage为除第一个stage和第二个stage之外的任意stage。
示例性的,本实施例的执行主体可以为语义分割模型的训练装置(下文简称为训练装置),训练装置可以为服务器,也可以为终端设备,也可以为处理器,也可以为芯片,等等,此处不再一一列举。
在一些实施例中,训练装置与图像处理装置可以为相同的装置。例如,训练装置与图像处理装置为同一服务器。相应的,服务器可以先进行训练,得到语义分割模型,而后对语义分割模型进行应用。
在另一些实施例中,训练装置与图像处理装置可以为不同的装置。例如,训练装置可以为服务器,图像处理装置可以为部署于自动驾驶汽车的车载终端。
相应的,服务器与车载终端之间建立有通信链路,服务器训练得到语义分割模型之后,通过通信链路将语义分割模型部署于车载终端。
同理,关于本实施例与上述实施例中相同的技术特征,本实施例不再赘述。
例如,关于骨干网络的结构,可以参见第二实施例中地描述,此处不再赘述。又如,第一训练特征中的“第一训练”不能理解为对第一训练特征的限定,而是用于与其他训练阶段的特征进行区分,第一训练特征表征的为:在训练阶段,骨干网络输出的特征。而后文中的其他训练特征也不能理解为对其他训练特征的限定,后文不再赘述。
S702:根据第一训练特征进行训练,得到语义分割模型,其中,语义分割模型用于确定待分割图像的图像特征。
结合第一实施例中关于骨干网络的分析可知,在本实施例中,通过结合骨干网络生成的第一训练特征具有较高的准确性和可靠性(因为既考虑了前一stage的输出结果,有考虑了当前stage的输出结果),因此,训练的精度相对较高,从而使得语义分割模型不仅可以输出待分割图像的第一特征(结合上述骨干网络的分析可知),还可以提高语义分割模型的整体性能。
结合上述分析可知,语义分割模型还可以包括其他的组成部分,如特征融合模块等,为便于读者更加深刻地理解本公开的语义分割模型的训练原理,现结合图8对本公开实施例的语义分割模型的训练方法进行更为详细地阐述。其中,图8是根据本公开第四实施例的示意图,如图8所示,本公开实施例的语义分割模型的训练方法,包括:
S801:将采集到的样本图像输入至骨干网络,输出第一训练特征,第一训练特征用于表征样本图像的下采样特征。
其中,骨干网络包括多个阶段stage,除第一个stage之外的每一stage用于下采样处理,当前stage的输出是:前一stage的下采样结果、与当前stage的下采样结果的融合输出,当前stage为除第一个stage和第二个stage之外的任意stage。
在一些实施例中,骨干网络的中间stage中,至少一个stage的输出通道数量、小于非中间stage的输出通道数量。其中,中间stage为除第一个stage和最后一个stage之外的stage。
相应的,在本实施例中,通过减少中间stage的输出通道数量,可以降低训练过程中的时延,从而提高训练的效率。
在一些实施例中,每一stage包括多层,至少一个stage为降低了层数的stage。
同理,关于骨干网络地描述,可以参见第二实施例,此处不再赘述。
相应的,在本实施例中,通过采用降低了层数的stage进行训练,可以降低训练过程中的时延,从而提高训练的效率。
S802:将第一训练特征依次输入至池化模块和特征提取模块,输出第二训练特征。
示例性的,结合上述分析和图3可知,语义分割模型可以包括池化模块和特征提取模块,池化模块用于池化处理,特征提取模块用于特征提取。
S803:将第一训练特征和第二训练特征输入至特征融合模块,输出训练图像特征。
在一些实施例中,S803可以包括:基于特征融合模块对第一训练特征和第二训练特征进行监督过滤处理,得到第三训练特征,并根据第三训练特征、第一训练特征、以及第二训练特征,生成训练图像特征。
同理,关于特征融合模块的结构和生成训练图像特征的原理,可以参见第二实施例中地描述,相对而言,在第二实施例所述的应用阶段,特征融合模块生成的为待分割图像的图像特征,在本实施例中的训练阶段,特征融合模块生成的为样本图像的训练图像特征。
相应的,在本实施例中,通过进行一次的监督过滤处理,可以避免多次监督过滤处理的繁琐操作,降低训练过程的时延,提高训练效率。
在一些实施例中,根据第三训练特征、第一训练特征、以及第二训练特征,生成训练图像特征,包括如下步骤:
第一步骤:对第一训练特征进行卷积处理,得到第一训练卷积特征,对第二训练特征进行卷积处理,得到第二训练卷积特征。
第二步骤:对第三训练特征、第一训练卷积特征、以及第二训练卷积特征,进行融合处理,得到训练图像特征。
相应的,在本实施例中,对第一训练特征和第二训练特征分别进行卷积处理,以避免丢失第一训练特征中的内容,即本实施例的训练图像特征是基于全量特征得到的,而不是经过分离后得到的,因此,可以使得训练图像特征具有较高的有效性和可靠性,从而可以提高训练得到的语义分割模型的可靠性。
S804:根据训练图像特征进行训练,得到语义分割模型。
示例性的,语义分割模型还可以包括上采样模块,由上采样模块对预训练图像进行上采样处理和预测处理,以得到预测语义分割结果,构建预测语义分割结果与标签语义分割结果(预设标准结果)之间的损失函数,以基于损失函数对骨干网络、池化模块、特征提取模块、特征融合模块、以及上采样模块中的一种或多种结构的参数,直至损失函数小于预设损失值或者迭代次数达到预设迭代阈值。
同理,预设损失值和迭代次数,可以基于需求、历史记录、以及试验等方式确定,本实施例不做限定。
结合上述分析可知,在应用阶段,上采样模块用于对预测类别进行上采样处理,而在训练阶段,为了使得训练具有较高的有效性和可靠性,上采样模块可以用于对全量类别进行上采样处理,而在得到语义分割模型之后,可以对语义分割模型中的上采样模块进行改进,以使得在应用阶段,上采样模块(即改进后的上采样模块)用于对预测类别进行上采样处理,以提高语义分割的效率。
图9是根据本公开第五实施例的示意图,如图9所示,本公开实施例的图像处理装置900,包括:
提取单元901,用于对获取到的待分割图像进行特征提取处理,得到图像特征。
分类单元902,用于对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别。
处理单元903,用于根据预测类别,对图像特征进行上采样处理,得到待分割图像的语义分割结果。
图10是根据本公开第六实施例的示意图,如图10所示,本公开实施例的图像处理装置1000,包括:
提取单元1001,用于对获取到的待分割图像进行特征提取处理,得到图像特征。
在一些实施例中,结合图10可知,提取单元1001,包括:
获取子单元10011,用于获取待分割图像的第一特征,其中,第一特征用于表征待分割图像的下采样特征。
在一些实施例中,获取子单元10011用于,基于骨干网络获取第一特征。
其中,骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,当前阶段为除第一个阶段和第二个阶段之外的任意阶段。
在一些实施例中,骨干网络的中间阶段中,至少一个阶段的输出通道数量、小于非中间阶段的输出通道数量。
其中,中间阶段为除第一个阶段和最后一个阶段之外的阶段。
在一些实施例中,每一阶段包括多层,至少一个阶段为降低了层数的阶段。
第二处理子单元10012,用于依次对第一特征进行池化处理和特征提取处理,得到第二特征。
融合子单元10013,用于对第一特征和第二特征进行融合处理,得到图像特征。
在一些实施例中,融合子单元10013,包括:
处理模块,用于对第一特征和第二特征进行监督过滤处理,得到第三特征。
生成模块,用于根据第三特征、第一特征、以及第二特征,生成所述图像特征。
在一些实施例中,生成模块,包括:
卷积子模块,用于对第一特征进行卷积处理,得到第一卷积特征,对第二特征进行卷积处理,得到第二卷积特征。
融合子模块,用于对第三特征、第一卷积特征、以及第二卷积特征,进行融合处理,得到图像特征。
分类单元1002,用于对图像特征进行分类处理,得到图像特征的分类结果,其中,分类结果中包括图像特征对应的预测类别。
处理单元1003,用于根据预测类别,对图像特征进行上采样处理,得到待分割图像的语义分割结果。
在一些实施例中,预测类别的数量为多个,分类结果还包括各预测类别各自对应的预测置信度;结合图10可知,处理单元1003,包括:
提取子单元10031,用于根据各预测置信度,从各预测类别中提取目标类别,其中,目标类别包括:预测置信度大于预设阈值的预测类别,或者,预测置信度大于预设阈值的前N个预测类别,N为不小于1的正整数。
第一处理子单元10032,用于根据目标类别对图像特征进行上采样处理,得到语义分割结果。
图11是根据本公开第七实施例的示意图,如图11所示,本公开实施例的语义分割模型的训练装置1100,包括:
输入单元1101,用于将采集到的样本图像输入至骨干网络,输出第一训练特征,第一训练特征用于表征样本图像的下采样特征。
其中,骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,当前阶段为除第一个阶段和第二个阶段之外的任意阶段。
在一些实施例中,骨干网络的中间阶段中,至少一个阶段的输出通道数量、小于非中间阶段的输出通道数量。
其中,中间阶段为除第一个阶段和最后一个阶段之外的阶段。
在一些实施例中,每一阶段包括多层,至少一个阶段为降低了层数的阶段。
训练单元1102,用于根据第一训练特征进行训练,得到语义分割模型,其中,语义分割模型用于确定待分割图像的图像特征。
在一些实施例中,结合图11可知,训练单元1102,包括:
第一输入子单元11021,用于将第一训练特征依次输入至池化模块和特征提取模块,输出第二训练特征。
第二输入子单元11022,用于将第一训练特征和第二训练特征输入至特征融合模块,输出训练图像特征。
在一些实施例中,第二输入子单元11022用于,基于特征融合模块对第一训练特征和第二训练特征进行监督过滤处理,得到第三训练特征,并根据第三训练特征、第一训练特征、以及第二训练特征,生成训练图像特征。
在一些实施例中,第二输入子单元11022,包括:
卷积模块,用于对第一训练特征进行卷积处理,得到第一训练卷积特征,对第二训练特征进行卷积处理,得到第二训练卷积特征。
融合模块,用于对第三训练特征、第一训练卷积特征、以及第二训练卷积特征,进行融合处理,得到训练图像特征。
训练子单元11023,用于根据训练图像特征进行训练,得到语义分割模型。
图12是根据本公开第八实施例的示意图,如图12所示,本公开中的电子设备1200可以包括:处理器1201和存储器1202。
存储器1202,用于存储程序;存储器1202,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器1202用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1202中。并且上述的计算机程序、计算机指令、数据等可以被处理器1201调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器1202中。并且上述的计算机程序、计算机指据等可以被处理器1201调用。
处理器1201,用于执行存储器1202存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器1201和存储器1202可以是独立结构,也可以是集成在一起的集成结构。当处理器1201和存储器1202是独立结构时,存储器1202、处理器1201可以通过总线1203耦合连接。
本实施例的电子设备可以执行上述方法中的技术方案,其具体实现过程和技术原理相同,此处不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如图像处理方法、语义分割模型的训练方法。例如,在一些实施例中,图像处理方法、语义分割模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的图像处理方法、语义分割模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法、语义分割模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (31)
1.一种图像处理方法,包括:
对获取到的待分割图像进行特征提取处理,得到图像特征;
对所述图像特征进行分类处理,得到所述图像特征的分类结果,其中,所述分类结果中包括所述图像特征对应的预测类别;
根据所述预测类别,对所述图像特征进行上采样处理,得到所述待分割图像的语义分割结果。
2.根据权利要求1所述的方法,其中,所述预测类别的数量为多个,所述分类结果还包括各预测类别各自对应的预测置信度;所述根据所述预测类别,对所述图像特征进行上采样处理,得到所述待分割图像的语义分割结果,包括:
根据各预测置信度,从各预测类别中提取目标类别,其中,所述目标类别包括:预测置信度大于预设阈值的预测类别,或者,预测置信度大于预设阈值的前N个预测类别,N为不小于1的正整数;
根据所述目标类别对所述图像特征进行上采样处理,得到所述语义分割结果。
3.根据权利要求1或2所述的方法,其中,所述对获取到的待分割图像进行特征提取处理,得到图像特征,包括:
获取所述待分割图像的第一特征,其中,所述第一特征用于表征所述待分割图像的下采样特征;
依次对所述第一特征进行池化处理和特征提取处理,得到第二特征;
对所述第一特征和所述第二特征进行融合处理,得到所述图像特征。
4.根据权利要求3所述的方法,其中,所述获取所述待分割图像的第一特征,包括:
基于骨干网络获取所述第一特征;
其中,所述骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,所述当前阶段为除第一个阶段和第二个阶段之外的任意阶段。
5.根据权利要求4所述的方法,其中,所述骨干网络的中间阶段中,至少一个阶段的输出通道数量、小于非中间阶段的输出通道数量;
其中,所述中间阶段为除第一个阶段和最后一个阶段之外的阶段。
6.根据权利要求4或5所述的方法,其中,每一阶段包括多层,至少一个阶段为降低了层数的阶段。
7.根据权利要求3-6中任一项所述的方法,其中,所述对所述第一特征和所述第二特征进行融合处理,得到所述图像特征,包括:
对所述第一特征和所述第二特征进行监督过滤处理,得到第三特征;
根据所述第三特征、所述第一特征、以及所述第二特征,生成所述图像特征。
8.根据权利要求7所述的方法,其中,所述根据所述第三特征、所述第一特征、以及所述第二特征,生成所述图像特征,包括:
对所述第一特征进行卷积处理,得到第一卷积特征,对所述第二特征进行卷积处理,得到第二卷积特征;
对所述第三特征、所述第一卷积特征、以及所述第二卷积特征,进行融合处理,得到所述图像特征。
9.一种语义分割模型的训练方法,包括:
将采集到的样本图像输入至骨干网络,输出第一训练特征,所述第一训练特征用于表征所述样本图像的下采样特征;
其中,所述骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,所述当前阶段为除第一个阶段和第二个阶段之外的任意阶段;
根据所述第一训练特征进行训练,得到语义分割模型,其中,所述语义分割模型用于确定待分割图像的图像特征。
10.根据权利要求9所述的方法,其中,所述骨干网络的中间阶段中,至少一个阶段的输出通道数量、小于非中间阶段的输出通道数量;
其中,所述中间阶段为除第一个阶段和最后一个阶段之外的阶段。
11.根据权利要求9或10所述的方法,其中,每一阶段包括多层,至少一个阶段为降低了层数的阶段。
12.根据权利要求9-11中任一项所述的方法,其中,所述根据所述第一训练特征进行训练,得到语义分割模型,包括:
将所述第一训练特征依次输入至池化模块和特征提取模块,输出第二训练特征;
将所述第一训练特征和所述第二训练特征输入至特征融合模块,输出训练图像特征;
根据所述训练图像特征进行训练,得到所述语义分割模型。
13.根据权利要求12所述的方法,其中,所述将所述第一训练特征和所述第二训练特征输入至特征融合模块,输出训练图像特征,包括:
基于所述特征融合模块对所述第一训练特征和所述第二训练特征进行监督过滤处理,得到第三训练特征,并根据所述第三训练特征、所述第一训练特征、以及所述第二训练特征,生成所述训练图像特征。
14.根据权利要求13所述的方法,其中,所述根据所述第三训练特征、所述第一训练特征、以及所述第二训练特征,生成所述训练图像特征,包括:
对所述第一训练特征进行卷积处理,得到第一训练卷积特征,对所述第二训练特征进行卷积处理,得到第二训练卷积特征;
对所述第三训练特征、所述第一训练卷积特征、以及所述第二训练卷积特征,进行融合处理,得到所述训练图像特征。
15.一种图像处理装置,包括:
提取单元,用于对获取到的待分割图像进行特征提取处理,得到图像特征;
分类单元,用于对所述图像特征进行分类处理,得到所述图像特征的分类结果,其中,所述分类结果中包括所述图像特征对应的预测类别;
处理单元,用于根据所述预测类别,对所述图像特征进行上采样处理,得到所述待分割图像的语义分割结果。
16.根据权利要求15所述的装置,其中,所述预测类别的数量为多个,所述分类结果还包括各预测类别各自对应的预测置信度;所述处理单元,包括:
提取子单元,用于根据各预测置信度,从各预测类别中提取目标类别,其中,所述目标类别包括:预测置信度大于预设阈值的预测类别,或者,预测置信度大于预设阈值的前N个预测类别,N为不小于1的正整数;
第一处理子单元,用于根据所述目标类别对所述图像特征进行上采样处理,得到所述语义分割结果。
17.根据权利要求15或16所述的装置,其中,所述提取单元,包括:
获取子单元,用于获取所述待分割图像的第一特征,其中,所述第一特征用于表征所述待分割图像的下采样特征;
第二处理子单元,用于依次对所述第一特征进行池化处理和特征提取处理,得到第二特征;
融合子单元,用于对所述第一特征和所述第二特征进行融合处理,得到所述图像特征。
18.根据权利要求17所述的装置,其中,所述获取子单元用于,基于骨干网络获取所述第一特征;
其中,所述骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,所述当前阶段为除第一个阶段和第二个阶段之外的任意阶段。
19.根据权利要求18所述的装置,其中,所述骨干网络的中间阶段中,至少一个阶段的输出通道数量、小于非中间阶段的输出通道数量;
其中,所述中间阶段为除第一个阶段和最后一个阶段之外的阶段。
20.根据权利要求18或19所述的装置,其中,每一阶段包括多层,至少一个阶段为降低了层数的阶段。
21.根据权利要求17-20中任一项所述的装置,其中,所述融合子单元,包括:
处理模块,用于对所述第一特征和所述第二特征进行监督过滤处理,得到第三特征;
生成模块,用于根据所述第三特征、所述第一特征、以及所述第二特征,生成所述图像特征。
22.根据权利要求21所述的装置,其中,所述生成模块,包括:
卷积子模块,用于对所述第一特征进行卷积处理,得到第一卷积特征,对所述第二特征进行卷积处理,得到第二卷积特征;
融合子模块,用于对所述第三特征、所述第一卷积特征、以及所述第二卷积特征,进行融合处理,得到所述图像特征。
23.一种语义分割模型的训练装置,包括:
输入单元,用于将采集到的样本图像输入至骨干网络,输出第一训练特征,所述第一训练特征用于表征所述样本图像的下采样特征;
其中,所述骨干网络包括多个阶段,除第一个阶段之外的每一阶段用于下采样处理,当前阶段的输出是:前一阶段的下采样结果、与当前阶段的下采样结果的融合输出,所述当前阶段为除第一个阶段和第二个阶段之外的任意阶段;
训练单元,用于根据所述第一训练特征进行训练,得到语义分割模型,其中,所述语义分割模型用于确定待分割图像的图像特征。
24.根据权利要求23所述的装置,其中,所述骨干网络的中间阶段中,至少一个阶段的输出通道数量、小于非中间阶段的输出通道数量;
其中,所述中间阶段为除第一个阶段和最后一个阶段之外的阶段。
25.根据权利要求23或24所述的装置,其中,每一阶段包括多层,至少一个阶段为降低了层数的阶段。
26.根据权利要求23-25中任一项所述的装置,其中,所述训练单元,包括:
第一输入子单元,用于将所述第一训练特征依次输入至池化模块和特征提取模块,输出第二训练特征;
第二输入子单元,用于将所述第一训练特征和所述第二训练特征输入至特征融合模块,输出训练图像特征;
训练子单元,用于根据所述训练图像特征进行训练,得到所述语义分割模型。
27.根据权利要求26所述的装置,其中,所述第二输入子单元用于,基于所述特征融合模块对所述第一训练特征和所述第二训练特征进行监督过滤处理,得到第三训练特征,并根据所述第三训练特征、所述第一训练特征、以及所述第二训练特征,生成所述训练图像特征。
28.根据权利要求27所述的装置,其中,所述第二输入子单元,包括:
卷积模块,用于对所述第一训练特征进行卷积处理,得到第一训练卷积特征,对所述第二训练特征进行卷积处理,得到第二训练卷积特征;
融合模块,用于对所述第三训练特征、所述第一训练卷积特征、以及所述第二训练卷积特征,进行融合处理,得到所述训练图像特征。
29.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法;或者,以使所述至少一个处理器能够执行权利要求9-14中任一项所述的方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法;或者,所述计算机指令用于使所述计算机执行根据权利要求9-14中任一项所述的方法。
31.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤;或者,该计算机程序被处理器执行时实现权利要求9-14中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310188687.5A CN116188907A (zh) | 2023-02-21 | 2023-02-21 | 图像处理方法、语义分割模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310188687.5A CN116188907A (zh) | 2023-02-21 | 2023-02-21 | 图像处理方法、语义分割模型的训练方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116188907A true CN116188907A (zh) | 2023-05-30 |
Family
ID=86438116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310188687.5A Pending CN116188907A (zh) | 2023-02-21 | 2023-02-21 | 图像处理方法、语义分割模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116188907A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912488A (zh) * | 2023-06-14 | 2023-10-20 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN117333781A (zh) * | 2023-11-15 | 2024-01-02 | 自然资源部国土卫星遥感应用中心 | 黑土区侵蚀沟卫星遥感智能提取方法、装置、设备及介质 |
-
2023
- 2023-02-21 CN CN202310188687.5A patent/CN116188907A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912488A (zh) * | 2023-06-14 | 2023-10-20 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN116912488B (zh) * | 2023-06-14 | 2024-02-13 | 中国科学院自动化研究所 | 基于多目相机的三维全景分割方法及装置 |
CN117333781A (zh) * | 2023-11-15 | 2024-01-02 | 自然资源部国土卫星遥感应用中心 | 黑土区侵蚀沟卫星遥感智能提取方法、装置、设备及介质 |
CN117333781B (zh) * | 2023-11-15 | 2024-05-10 | 自然资源部国土卫星遥感应用中心 | 黑土区侵蚀沟卫星遥感智能提取方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
CN113033537B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
KR20220122566A (ko) | 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치 | |
CN116188907A (zh) | 图像处理方法、语义分割模型的训练方法及装置 | |
CN113139543B (zh) | 目标对象检测模型的训练方法、目标对象检测方法和设备 | |
US20180285689A1 (en) | Rgb-d scene labeling with multimodal recurrent neural networks | |
KR20200087808A (ko) | 인스턴스 분할 방법 및 장치, 전자 기기, 프로그램 및 매체 | |
CN112949767B (zh) | 样本图像增量、图像检测模型训练及图像检测方法 | |
JP7393472B2 (ja) | 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN111160225B (zh) | 基于深度学习的人体解析方法和装置 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN113627536B (zh) | 模型训练、视频分类方法,装置,设备以及存储介质 | |
CN113239807B (zh) | 训练票据识别模型和票据识别的方法和装置 | |
CN111652181A (zh) | 目标跟踪方法、装置及电子设备 | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN113378857A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN114913325B (zh) | 语义分割方法、装置及计算机程序产品 | |
CN118015304A (zh) | 数据增强的方法、装置、设备及存储介质 | |
CN113888560A (zh) | 用于处理图像的方法、装置、设备以及存储介质 | |
CN113326766A (zh) | 文本检测模型的训练方法及装置、文本检测方法及装置 | |
CN116994267A (zh) | 一种铭牌vin码识别方法、装置、存储介质及设备 | |
CN113139463B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |