CN112861755B - 一种目标多类别实时分割方法及系统 - Google Patents
一种目标多类别实时分割方法及系统 Download PDFInfo
- Publication number
- CN112861755B CN112861755B CN202110203869.6A CN202110203869A CN112861755B CN 112861755 B CN112861755 B CN 112861755B CN 202110203869 A CN202110203869 A CN 202110203869A CN 112861755 B CN112861755 B CN 112861755B
- Authority
- CN
- China
- Prior art keywords
- image
- orchard
- network
- sample set
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 90
- 239000002420 orchard Substances 0.000 claims abstract description 153
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 96
- 230000006870 function Effects 0.000 claims description 29
- 230000003321 amplification Effects 0.000 claims description 11
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010191 image analysis Methods 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 8
- 230000008447 perception Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000003416 augmentation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 238000011166 aliquoting Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种目标多类别实时分割方法及系统,包括:将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取所述语义分割网络输出的分割图像,根据分割图像中不同颜色块的分布情况,确定与果园图像所对应的障碍物分布状态;语义分割网络是基于SegNet网络构建的。本发明提供的目标多类别实时分割方法及系统,采用基于改进的SegNet网络构建语义分割网络,适用于智能农机的导航和农业场景的感知,能实时的确定无人车前方的障碍物分布,从而指导无人车可准确避开障碍物,有效地弥补了传统的果园识别中智能化程度低、识别不够精确等缺陷,能适应现代化果园植保作业的需求。
Description
技术领域
本发明涉及农业智能装备技术领域,尤其涉及一种目标多类别实时分割方法及系统。
背景技术
随着智能化农机设备不断的改进与发展,对果园中多类别物体的识别也有了更高的要求。近年来,基于神经网络的果园分割方法是果园植保作业中一项重要的组成部分,与传统的果园识别技术相比具有明显的优势。果园复杂环境下包括行人、电线杆、房屋及车辆等障碍物,实现对果园中植株及各种障碍物的精确识别,对果园内自动驾驶及人机交互等安全作业具有重要的研究意义。
在神经网络领域,基于深度学习方法的精度远高于经典的灰度分割、条件随机场等分割方法。基于神经网络的方法主要有U-Ne、DeepLab等方法。其中,基于DeepLab的果园场景多类别实时分割方法需要先构建果园场景下多类别图像的数据集,并在TensorFlow深度学习框架上搭建基于改进的DeepLab的语义分割模型;进而将模型中的参数初始化以得到训练模型,通过构建的果园场景下多类别图像的数据集对所建立的模型进行训练;最后将拍摄的新的果园场景图片,输入至该模型进行果园中障碍物及树木的检测和识别,完成果园环境的实时分割。
基于DeepLab的果园场景识别与分割方法在一定程度上推动了果园植保机械朝着智能化与信息化的方向快速发展,但是该方案还存在着如下缺陷:
1)采用该方式实现果园分割时,需要通过上位机拍摄大量的不同条件下的果园视频,以实现原始数据集的采集。若未进行数据集的扩增,可能存在内部数据结构的丢失及空间层级化信息丢失。另外,其空洞卷积虽没有增加参数的数量,但有可能造成网格效应,从而影响果园分割精度。导致果园分割识别不准。
2)在该方式下,小物体信息很难重建,存在一定的局限性。假设其构建的模型有四个池化层(pooling layer),则任何小于24=16pixel的物体信息将在理论上无法实现。但由于在实际作业过程中,相机拍摄的图片除果树之外,其余障碍物的类别也较多,故难以达到果园多类别的实时分割的效果。
3)在该方式下进行果园植保作业时,由于无人车在行驶过程中拍摄的大量图片需进行实时处理,且在实际果园中,既需要将果树和无人车行驶的道路有效分割,还要准确识别石头、行人及房屋等障碍物。如果模型的识别速度较慢,就会导致在作业过程中无人车的反应较慢,甚至在遇到障碍物时,不能及时制动及停止,存在一定的安全隐患。
有鉴于此,亟需提供一种更为先进的障碍物识别方法,以确保无人车安全且高度自主的行驶。
发明内容
针对现有技术存在的问题,本发明实施例提供一种目标多类别实时分割方法及系统。
本发明提供一种目标多类别实时分割方法,包括:将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取语义分割网络输出的分割图像,根据分割图像中不同颜色块的分布情况,确定与果园图像所对应的障碍物分布状态;语义分割网络是基于SegNet网络构建的。
根据本发明提供的一种目标多类别实时分割方法,在将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络之前,还包括:采用MobileNet v3网络作为所述SegNet网络的主干网络,并采用Mish函数作为所述SegNet网络的激活函数,创建待训练的语义分割网络。
根据本发明提供的一种目标多类别实时分割方法,所述语义分割网络的网络结构,包括:输入单元、编码器单元、解码器单元和输出单元;所述编码器单元,包括:依次连接的一个CBM层、一个DCB1层、两个DCB2层和一个DCB6层,CBM层是由一个卷积层组合归一化层和所述Mish函数构成的;解码器单元,包括:依次连接四个CBU层和一个softmax层,CBU层是由一个卷积层组合归一化层和上采样层构成的。
根据本发明提供的一种目标多类别实时分割方法,在创建待训练的语义分割网络之后,还包括:利用公开数据集ImageNet对待训练的语义分割网络进行预训练;获取多个果园图像样本和每个果园图像样本对应的标签图像;将每个果园图像样本和标签图像的组合作为一个训练样本,构建训练样本集;利用训练样本集对预训练后的语义分割网络进行再训练,获取训练好的语义分割网络。
根据本发明提供的一种目标多类别实时分割方法,所述利用所述训练样本集对预训练后的所述语义分割网络进行再训练,包括:对训练样本集进行数据扩增,获取扩增样本集;利用扩增样本集对预训练后的所述语义分割网络进行再训练。
根据本发明提供的一种目标多类别实时分割方法,所述对所述训练样本集进行数据扩增,获取扩增样本集,包括:
随机对果园图像样本和标签图像,以图像中心为轴旋转预设角度,获取第一子训练样本集;
随机对果园图像样本和标签图像,在水平方向按照图像宽度的预设比例进行平移,和/或在垂直方向按照图像高度的预设比例进行平移,获取第二子训练样本集;
随机将果园图像样本归一化到0~1之间,然后与图像均值取差,获取第三子训练样本集;
随机裁剪出果园图像样本和标签图像的预设比例区域后,再放大至原始图像大小,获取第四子训练样本集;
随机确定果园图像样本和标签图像内的第一目标区域,并对第一目标区域进行小块变形处理,获取第五子训练样本集;
随机擦除果园图像样本和标签图像内的第二目标区域,获取第六子训练样本集;
将第一子训练样本集、第二子训练样本集、第三子训练样本集、第四子训练样本集、第五子训练样本集和第六子训练样本集中的至少一个与所述训练样本集共同构成扩增样本集。
本发明还提供一种目标多类别实时分割系统,包括:图像分析单元,用于接收无人车在行驶过程中实时采集的果园图像,并将所述果园图像输入至训练好的语义分割网络,获取所述语义分割网络输出的分割图像;障碍物识别单元,用于根据所述分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态;所述语义分割网络是基于SegNet网络构建的。
本发明还提供一种果园施药装置,包括:无人车、深度相机、核心控制器和计算机;深度相机固设于无人车上,以实时采集果园图像;计算机上预先装载有上述目标多类别实时分割系统中的所述图像分析单元,用于接收采集果园图像,输出分割图像;核心控制器上预先装载有上述目标多类别实时分割系统中的所述障碍物识别单元,用于根据分割图像中不同颜色块的分布情况,确定与果园图像所对应的障碍物分布状态,并确定无人车的行车路线。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标多类别实时分割方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标多类别实时分割方法的步骤。
本发明提供的目标多类别实时分割方法及系统,采用基于改进的SegNet网络构建语义分割网络,适用于智能农机的导航和农业场景的感知,能实时的确定无人车前方的障碍物分布,从而指导无人车可准确避开障碍物,有效地弥补了传统的果园识别中智能化程度低、识别不够精确等缺陷,能适应现代化果园植保作业的需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标多类别实时分割方法的流程示意图之一;
图2是Mish函数与ReLu函数的函数曲线对比图;
图3是本发明提供的语义分割网络的网络结构的示意图;
图4是本发明提供的目标多类别实时分割方法的流程示意图之二;
图5是本发明提供的目标多类别实时分割系统的结构示意图;
图6是本发明提供的果园施药装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合图1-图7描述本发明实施例所提供的目标多类别实时分割方法和系统。
图1是本发明提供的目标多类别实时分割方法的流程示意图,如图1所示,包括但不限于以下步骤:
步骤101:将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取所述语义分割网络输出的分割图像;
步骤102:根据所述分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态。
其中,所述语义分割网络是基于SegNet网络构建的。
可以将一个深度相机(如ZED双目相机)装设在无人车上,深度相机的拍摄角度与无人车的行驶方向相同。例如,可以在无人车的车头与车尾处分别装设一个深度相机。在无人车正常行驶时,调用车头处的深度相机采集无人车前方的果园图像;在无人车倒车时,则调用车头处的深度相机采集无人车后方的果园图像。
进一步地,利用深度相机进行果园图像拍摄的拍摄频率,可以根据实际行车需要以及语义分割网络的图像识别速度综合确定。
作为可选地,上述拍摄频率还受无人车的行车速度的影响,当行车速度越快时,拍摄频率自动设置的越高(单位时间内所需采集的果园图像数量越大);相应地,当行车速度变慢时,拍摄频率被自动调低(将单位时间内所需采集的果园图像数量降低)。
在利用深度相机采集到行驶过程中的每一帧果园图像后,将其驶入至预先训练好的语义分割网络,以基于深度网络模型的图像识别技术,对输入的果园图像进行图像特征分析,以输出与其对应的分割图像。其中,在分割图像上通过不同颜色块表达了不同障碍物的位置信息和深度信息。如:将分割图像上的蓝色块作为目标果树的分割图,且蓝色块的颜色越深,表明目标果树与无人车的距离越近;将红色块作为岩石障碍物的分割图,且红色块的颜色越深,表明岩石障碍物与无人车的距离越近等。
需要说明的是,本发明所提供的语义分割网络是在TensorFlow深度学习框架下,基于SegNet网络构建的一种基于SegNet网络改进的语义分割模型。其中,SegNet网络是一种旨在解决自动驾驶或智能机器人的图像语义分割深度网络,其编码器部分使用的是VGG16的前13层卷积网络,每个编码器层都对应一个解码器层,最终解码器的输出被送入soft-max分类器以独立的形式为每个像素产生类概率。
本发明采用在SegNet网络网络框架搭建语义分割网络,其最后一个卷积层会输出所有障碍物的类别,能有效地提高果园复杂环境下障碍物识别的速度,可实现快速稳定的分割效果。
结合本发明的技术方案,采用搭载了ZED相机的无人车,以水平的角度拍摄果园图像,将每一帧果园图像输入至训练好的语义分割网络后,则可以获取到与输入的果园图像一一对应地分割图像。这样,随着对于小车的前行活成中所采集的果园图像的处理,能够几乎实时地对果园地面数据进行分割识别,加之语义分割网络的处理速度较快(每秒至少处理30张果园图像),则能够根据每一分割图像中不同颜色块的分布情况,以及色块的分布情况随行车位置的变化而变化的情况,能够准确的确定出无人车在行驶过程中前方的障碍物分布情况,为无人车的合理避障提供了辅助。
本发明提供的目标多类别实时分割方法,采用基于改进的SegNet网络构建语义分割网络,适用于智能农机的导航和农业场景的感知,能实时的确定无人车前方的障碍物分布,从而指导无人车可准确避开障碍物,有效地弥补了传统的果园识别中智能化程度低、识别不够精确等缺陷,能适应现代化果园植保作业的需求。
基于上述实施例的内容,作为一种可选实施例,在将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络之前,还包括:采用MobileNet v3网络作为所述SegNet网络的主干网络,并采用Mish函数作为所述SegNet网络的激活函数,创建待训练的语义分割网络。
由于本发明所提供的目标多类别实时分割方法,由于需要在无人车的行驶过程中,实时检测前方的障碍物分布状态,故对所采用的语义分割网络的图像处理速度提出了更高的要求。
由于MobileNet v3网络结合了MobileNet v1的深度可分离卷积、MobileNet v2的Inverted Residuals和Linear Bottleneck、SE模块,利用神经结构搜索(NAS)来搜索网络的配置和参数,是一种轻量化的神经网络,但是又能够满足在图像分割时的精度要求。故本发明提供的语义分割网络,采用了MobileNet v3网络作为SegNet网络的主干网络(backbone),取代了原先的VGG网络。实验发现MobileNet v3的深度可分离卷积能够更好地适应在移动端的训练和测试工作,能够在保持精度的同时较好地实现实时分割。
进一步地,本发明所提供的语义分割网络,使用Mish函数作为为所述SegNet网络的激活函数,其函数表达式为:
f(x)=x*tanh(x)(ln(1+ex));
随着科研人员对于激活函数的不断探究,现在广泛应用的激活函数通常是relu函数,tanh函数这两中。但由于relu函数在负值的时候直接截断,故梯度下降的不够平滑。
图2是Mish函数与ReLu函数的函数曲线对比图,如图2所示(横坐标是自变量的值,纵坐标是函数值),在对模型进行训练时,本发明所提供的Mish函数相较于传统的ReLu函数,能够更好地增加神经网络模型的非线性变化,使图片的特征梯度更加平滑,进一步提高了果园分割的精度。
基于上述实施例的内容,作为一种可选实施例,所述语义分割网络的网络结构,包括:输入单元、编码器单元、解码器单元和输出单元;
所述编码器单元(Encoder),包括:依次连接的一个CBM层、一个DCB1层、两个DCB2层和一个DCB6层,所述CBM层是由一个卷积层组合归一化层和所述Mish函数构成的;
所述解码器单元(Decoder),包括:依次连接四个CBU层和一个softmax层,所述CBU层是由一个卷积层组合归一化层和上采样层构成的。
图3是本发明提供的语义分割网络的网络结构的示意图,如图3所示,CBM代表着卷积层连接归一化层再加上Mish函数;CBU层代表着卷积层组合归一化层和上采样层。DCBX为语义分割网络中深度可分离卷积的X个叠加,如DCB6为语义分割网络中6个可分离卷积的叠加。Up为UpSamping层,即上采样层。输入的果园图像经过CBM层、4个DCBX层提取图片特征,然后经过并列的4个CBU层,最后经过softmax层输出最终的分割图像(结果分类)。
本发明提供的目标多类别实时分割方法,提供了一种新的、轻型的语义分割网络,能够准确、快速的实现果园图像的特征提取以及对不同类别图像特征的实时分割,可弥补传统的果园分割方式对障碍物识别速度较慢、存在空间信息丢失等缺陷,适应了果园中实时分割的作业需求。。
基于上述实施例的内容,作为一种可选实施例,在创建待训练的语义分割网络之后,还包括:利用公开数据集ImageNet对待训练的语义分割网络进行预训练;获取多个果园图像样本和每个果园图像样本对应的标签图像;将每个果园图像样本和所述标签图像的组合作为一个训练样本,构建训练样本集;利用训练样本集对预训练后的语义分割网络进行再训练,获取训练好的语义分割网络。
需要说明的是,本发明所提供的语义分割网络,在TensorFlow深度学习框架下,创建待训练的语义分割网络之后,可以先使用公开的数据集对其进行预训练,以确定模型的初始参数,获取被训练后的语义分割网络。
为进一步提高所创建的语义分割网络的识别精度和鲁棒性,本发明所提供的目标多类别实时分割方法,还利用无人机采集整个果园内的N张图像,作为果园图像样本。并通过图像处理的方法,对每帧果园图像样本进行处理,获取每帧果园图像样本的所对应的分割图像,作为其标签图像。
将每一帧果园图像样本与其对应的标签图像相组合(如采用编号标记的方式),作为一个训练样本,则可以获取N个训练样本。将N个训练样本作为训练样本集。
进一步地,则可以利用训练样本集对上述通过公开数据集训练后的待训练语义分割网络进行再训练,以获取训练后的语义分割模型,用于果园图像的实时检测。
本发明提供的目标多类别实时分割方法,依次利用公开数据集和根据果园内实时图像创建的训练样本集对预先构建的语义分割网络进行训练,有效地提高了模型的识别精度和鲁棒性,且大大缩短了模型训练的时间,减小了对训练样本集中训练样本多样性的需求。
基于上述实施例的内容,作为一种可选实施例,所述利用所述训练样本集对预训练后的所述语义分割网络进行再训练,包括:对所述训练样本集进行数据扩增,获取扩增样本集;利用所述扩增样本集对预训练后的所述语义分割网络进行再训练。
由于果园内所能拍摄的果园图像样本较少,且采集的过程费时费力,为了提高训练样本集的数据量太小的问题,同时提高样本的多样性,使得训练后的网络模型更加的鲁棒,本发明所提供的目标多类别实时分割方法,在构建了训练样本集之后,还采用图像数据扩增的方法,对训练样本集进行数据扩增,以获取相应的扩增样本集,进而可以利用扩增后的样本集对通过公开数据集训练后的待训练语义分割网络进行再训练。
基于上述实施例的内容,作为一种可选实施例,所述对所述训练样本集进行数据扩增,获取扩增样本集,包括:随机对果园图像样本和所述标签图像,以图像中心为轴旋转预设角度,获取第一子训练样本集;随机对果园图像样本和所述标签图像,在水平方向按照图像宽度的预设比例进行平移,和/或在垂直方向按照图像高度的预设比例进行平移,获取第二子训练样本集;随机将果园图像样本归一化到0~1之间,然后与图像均值取差,获取第三子训练样本集;随机裁剪出果园图像样本和所述标签图像的预设比例区域后,再放大至原始图像大小,获取第四子训练样本集;随机确定果园图像样本和标签图像内的第一目标区域,并对第一目标区域进行小块变形处理,获取第五子训练样本集;随机擦除果园图像样本和所述标签图像内的第二目标区域,获取第六子训练样本集;将所述第一子训练样本集、第二子训练样本集、第三子训练样本集、第四子训练样本集、第五子训练样本集、第六子训练样本集或第七子训练样本集中的至少一个与所述训练样本集共同构成所述扩增样本集。
作为一种具体实施例,本发明所提供的对训练样本集进行数据扩增的方法,可以采用下列数据扩充步骤中的一个或多个的组合:
(1)随机对果园图像样本和标签图像以中心点旋转0~25°,获取第一子训练样本集;
(2)随机对果园图像样本和标签图像在水平和垂直方向按照图像宽度和高度的0~10%进行平移,获取第二子训练样本集;
(3)将输入果园图像样本归一化到0~1之间,然后与图像均值取差,获取第三子训练样本集;
(4)随机对果园图像样本和标签图像选出80%的面积放大至全图,获取第四子训练样本集;
(5)随机取出100*100的区域,进行小块变形,获取第五子训练样本集;
(6)随机选出50*50的区域擦除,获取第六子训练样本集;
(7)随机对果园图像样本和标签图像按照-10%~10%比例改变图像亮度,获取第七子训练样本集;
最后,按照1:20比例对果园图像样本进行上述处理,即所获取的扩充样本相较于训练样本,扩大了20倍。
本发明提供的目标多类别实时分割方法,通过对构建的样本训练集进行扩增,可以解决拍摄所的果园图像样本较少的不足,解决了训练样本集太小的问题,同时也提高了样本的多样性,使得训练后的语义分割网络更加的鲁棒。
图4是本发明提供的目标多类别实时分割方法的里程示意图之二,如图2所示,其整个实施步骤包括但不限于:
首先,使用无人车拍摄果园图像,作为果园图像样本,并为每个果园图像样本打上标签,即生成器对应的标签图像,共同组成原始数据集(即训练样本集),用于实现语义分割网络预训练。然后,对原始数据集进行数据扩增,得到扩增数据集。
在TensorFlow深度学习框架下,搭建基于SegNet网络改进的语义分割网络。然后,利用公开数据集(如ImageNet图像数据集),对刚创建的语义分割网络作初步训练,再利用上述步骤所创建的扩增数据集对其作进一步训练。
在完成了语义分割网络的模型训练之后,则可以考虑利用该网络实现图像的实时处理。
作为可选地,还可以将ZED双目相机搭载在无人机上,并通过对其采集的果园图像的处理效果,检测语义分割网络在实时果园分割时的效果,若检测效果优秀时,则可以将其运用于实际工作中。
图5是本发明提供的一种目标多类别实时分割系统的结构示意图,如图5所示,主要包括像分析单元501和障碍物识别单元502;其中:
图像分析单元501主要用于接收无人车在行驶过程中实时采集的果园图像,并将所述果园图像输入至训练好的语义分割网络,获取所述语义分割网络输出的分割图像;障碍物识别单元502主要用于根据所述分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态。其中,语义分割网络是基于SegNet网络构建的。
需要说明的是,本发明实施例提供的目标多类别实时分割系统,在具体执行时,可以基于上述任一实施例所述的目标多类别实时分割方法来实现,对此本实施例不作赘述。
本发提供的目标多类别实时分割系统,采用基于改进的SegNet网络构建语义分割网络,适用于智能农机的导航和农业场景的感知,能实时的确定无人车前方的障碍物分布,从而指导无人车可准确避开障碍物,有效地弥补了传统的果园识别中智能化程度低、识别不够精确等缺陷,能适应现代化果园植保作业的需求。
图6是本发明提供的果园施药装置的结构示意图,如图6所示,主要包括但不限于以下部件:无人车602、深度相机601、核心控制器603和计算机604;其中:
深度相机601固设于所述无人车602上,以实时采集果园图像;计算机604上预先装载有上述的目标多类别实时分割系统中的图像分析单元501,用于接收采集果园图像,输出分割图像。
可选地,所述计算机604可设置于远端,并改过无线通信的方式与无人车602上的通信模块进行数据交互,以实时的接收由无人机发送的果园图像,并及时将识别的分割图像返回值无人机602.
其中,核心控制器上603上预先装载有上述的目标多类别实时分割系统中的障碍物识别单元502,用于根据分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态,并确定所述无人车的行车路线。
即该核心控制器上603可以装设与无人机上,上述通信模块可以作为核心控制器的一个组件,以实现核心控制器603与计算机604的实时通信。
进一步地,核心控制器上603还与无人机上的深度相机601通信连接,其连接方式可以是采用有线或无线通信。
进一步地,核心控制器上海包括行车控制模块,用于用于根据分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态,并确定所述无人车的行车路线。
本发明提供的果园施药装置,采用基于改进的SegNet网络构建语义分割网络,适用于智能农机的导航和农业场景的感知,能实时的确定无人车前方的障碍物分布,从而指导无人车可准确避开障碍物,有效地弥补了传统的果园识别中智能化程度低、识别不够精确等缺陷,能适应现代化果园植保作业的需求。
图7是本发明提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(CommunicationsInterface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行目标多类别实时分割方法,该方法包括:将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取语义分割网络输出的分割图像,根据分割图像中不同颜色块的分布情况,确定与果园图像所对应的障碍物分布状态;语义分割网络是基于SegNet网络构建的。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的目标多类别实时分割方法,该方法包括:将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取语义分割网络输出的分割图像,根据分割图像中不同颜色块的分布情况,确定与果园图像所对应的障碍物分布状态;语义分割网络是基于SegNet网络构建的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的目标多类别实时分割方法,该方法包括:将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取语义分割网络输出的分割图像,根据分割图像中不同颜色块的分布情况,确定与果园图像所对应的障碍物分布状态;语义分割网络是基于SegNet网络构建的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种目标多类别实时分割方法,其特征在于,包括:
将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络,获取所述语义分割网络输出的分割图像;
根据所述分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态;
所述语义分割网络是基于SegNet网络构建的;
在将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络之前,还包括:
采用MobileNet v3网络作为所述SegNet网络的主干网络,并采用Mish函数作为所述SegNet网络的激活函数,创建待训练的语义分割网络;
在创建待训练的语义分割网络之后,还包括:
利用公开数据集ImageNet对所述待训练的语义分割网络进行预训练;
获取多个果园图像样本和每个所述果园图像样本对应的标签图像;
将每个所述果园图像样本和所述标签图像的组合作为一个训练样本,构建训练样本集;
利用所述训练样本集对预训练后的所述语义分割网络进行再训练,获取所述训练好的语义分割网络。
2.根据权利要求1所述的目标多类别实时分割方法,其特征在于,所述语义分割网络的网络结构,包括:输入单元、编码器单元、解码器单元和输出单元;
所述编码器单元,包括:依次连接的一个CBM层、一个DCB1层、两个DCB2层和一个DCB6层,所述CBM层是由一个卷积层组合归一化层和所述Mish函数构成的;
所述解码器单元,包括:依次连接四个CBU层和一个softmax层,所述CBU层是由一个卷积层组合归一化层和上采样层构成的。
3.根据权利要求2所述的目标多类别实时分割方法,其特征在于,所述利用所述训练样本集对预训练后的所述语义分割网络进行再训练,包括:
对所述训练样本集进行数据扩增,获取扩增样本集;
利用所述扩增样本集对预训练后的所述语义分割网络进行再训练。
4.根据权利要求3所述的目标多类别实时分割方法,其特征在于,所述对所述训练样本集进行数据扩增,获取扩增样本集,包括:
随机对所述果园图像样本和所述标签图像,以图像中心为轴旋转预设角度,获取第一子训练样本集;
随机对所述果园图像样本和所述标签图像,在水平方向按照图像宽度的预设比例进行平移,和/或在垂直方向按照图像高度的预设比例进行平移,获取第二子训练样本集;
随机将所述果园图像样本归一化到 0~1 之间,然后与图像均值取差,获取第三子训练样本集;
随机裁剪出所述果园图像样本和所述标签图像的预设比例区域后,再放大至原始图像大小,获取第四子训练样本集;
随机确定所述果园图像样本和所述标签图像内的第一目标区域,并对所述第一目标区域进行小块变形处理,获取第五子训练样本集;
随机擦除所述果园图像样本和所述标签图像内的第二目标区域,获取第六子训练样本集;
随机对所述果园图像样本和所述标签图像,按照预设亮度比例进行图像亮度增强或降低处理,获取第七子训练样本集
将所述第一子训练样本集、第二子训练样本集、第三子训练样本集、第四子训练样本集、第五子训练样本集、第六子训练样本集或第七子训练样本集中的至少一个与所述训练样本集共同构成所述扩增样本集。
5.一种目标多类别实时分割系统,其特征在于,包括:
图像分析单元,用于接收无人车在行驶过程中实时采集的果园图像,并将所述果园图像输入至训练好的语义分割网络,获取所述语义分割网络输出的分割图像;
障碍物识别单元,用于根据所述分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态;
所述语义分割网络是基于SegNet网络构建的;
在将无人车在行驶过程中实时采集的果园图像输入至训练好的语义分割网络之前,还包括:
采用MobileNet v3网络作为所述SegNet网络的主干网络,并采用Mish函数作为所述SegNet网络的激活函数,创建待训练的语义分割网络;
在创建待训练的语义分割网络之后,还包括:
利用公开数据集ImageNet对所述待训练的语义分割网络进行预训练;
获取多个果园图像样本和每个所述果园图像样本对应的标签图像;
将每个所述果园图像样本和所述标签图像的组合作为一个训练样本,构建训练样本集;
利用所述训练样本集对预训练后的所述语义分割网络进行再训练,获取所述训练好的语义分割网络。
6.一种果园施药装置,其特征在于,包括:无人车、深度相机、核心控制器和计算机;
所述深度相机固设于所述无人车上,以实时采集果园图像;
所述计算机上预先装载有如权利要求5所述的目标多类别实时分割系统中的所述图像分析单元,用于接收所述采集果园图像,输出所述分割图像;
所述核心控制器上预先装载有如权利要求5所述的目标多类别实时分割系统中的所述障碍物识别单元,用于根据所述分割图像中不同颜色块的分布情况,确定与所述果园图像所对应的障碍物分布状态,并确定所述无人车的行车路线。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述目标多类别实时分割方法步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述目标多类别实时分割方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203869.6A CN112861755B (zh) | 2021-02-23 | 2021-02-23 | 一种目标多类别实时分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203869.6A CN112861755B (zh) | 2021-02-23 | 2021-02-23 | 一种目标多类别实时分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861755A CN112861755A (zh) | 2021-05-28 |
CN112861755B true CN112861755B (zh) | 2023-12-08 |
Family
ID=75990484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110203869.6A Active CN112861755B (zh) | 2021-02-23 | 2021-02-23 | 一种目标多类别实时分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861755B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113777917A (zh) * | 2021-07-12 | 2021-12-10 | 山东建筑大学 | 基于Mobilenet网络仿生机器鱼场景感知系统 |
CN113807309B (zh) * | 2021-09-28 | 2023-07-18 | 北京石油化工学院 | 一种基于深度学习的果园机械行走路线规划方法 |
CN115390572A (zh) * | 2022-10-28 | 2022-11-25 | 潍柴雷沃智慧农业科技股份有限公司 | 一种无人收获机的避障控制方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201616097D0 (en) * | 2016-09-21 | 2016-11-02 | Univ Oxford Innovation Ltd | Segmentation of path proposals |
CN110147794A (zh) * | 2019-05-21 | 2019-08-20 | 东北大学 | 一种基于深度学习的无人车室外场景实时分割方法 |
CN110674676A (zh) * | 2019-08-02 | 2020-01-10 | 杭州电子科技大学 | 一种基于语义分割的道路置信估计模糊帧方法 |
WO2020107687A1 (zh) * | 2018-11-27 | 2020-06-04 | 邦鼓思电子科技(上海)有限公司 | 一种基于视觉的工作区域边界的检测系统、方法及机器设备 |
CN111860514A (zh) * | 2020-05-21 | 2020-10-30 | 江苏大学 | 一种基于改进DeepLab的果园场景多类别实时分割方法 |
-
2021
- 2021-02-23 CN CN202110203869.6A patent/CN112861755B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201616097D0 (en) * | 2016-09-21 | 2016-11-02 | Univ Oxford Innovation Ltd | Segmentation of path proposals |
WO2020107687A1 (zh) * | 2018-11-27 | 2020-06-04 | 邦鼓思电子科技(上海)有限公司 | 一种基于视觉的工作区域边界的检测系统、方法及机器设备 |
CN110147794A (zh) * | 2019-05-21 | 2019-08-20 | 东北大学 | 一种基于深度学习的无人车室外场景实时分割方法 |
CN110674676A (zh) * | 2019-08-02 | 2020-01-10 | 杭州电子科技大学 | 一种基于语义分割的道路置信估计模糊帧方法 |
CN111860514A (zh) * | 2020-05-21 | 2020-10-30 | 江苏大学 | 一种基于改进DeepLab的果园场景多类别实时分割方法 |
Non-Patent Citations (2)
Title |
---|
一种基于共点映射的无人车可行驶区域检测方法;刘子熠;余思雨;郑南宁;;Engineering(第04期);全文 * |
无人驾驶车辆基于语义分割方法障碍物检测;邹斌;王思信;颜莉蓉;刘裕;;广西大学学报(自然科学版)(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112861755A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112861755B (zh) | 一种目标多类别实时分割方法及系统 | |
CN110059558B (zh) | 一种基于改进ssd网络的果园障碍物实时检测方法 | |
CN111666921B (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
CN108875608B (zh) | 一种基于深度学习的机动车交通信号识别方法 | |
US11734918B2 (en) | Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus | |
JP2022515895A (ja) | 物体認識方法及び装置 | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
CN111126287B (zh) | 一种遥感影像密集目标深度学习检测方法 | |
CN111508252B (zh) | 利用v2x信息集成技术更新高清地图的方法和装置 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN112464983A (zh) | 一种用于苹果树叶病害图像分类的小样本学习方法 | |
CN112417973A (zh) | 一种基于车联网的无人驾驶系统 | |
DE112021006101T5 (de) | Systeme und Verfahren zur Objektdetektion mit LiDAR-Dekorrelation | |
CN112464745A (zh) | 一种基于语义分割的地物识别与分类方法和装置 | |
CN111507161B (zh) | 利用合并网络进行异质传感器融合的方法和装置 | |
Malini et al. | An automatic assessment of road condition from aerial imagery using modified VGG architecture in faster-RCNN framework | |
CN111831010A (zh) | 一种基于数字空间切片的无人机避障飞行方法 | |
CN114511627A (zh) | 一种目标果实定位分割方法及系统 | |
CN114218999A (zh) | 一种基于融合图像特征的毫米波雷达目标检测方法及系统 | |
Nogueira et al. | Semantic segmentation of vegetation images acquired by unmanned aerial vehicles using an ensemble of ConvNets | |
CN112699836A (zh) | 低空水田图像的分割方法、装置和电子设备 | |
CN116883650A (zh) | 一种基于注意力和局部拼接的图像级弱监督语义分割方法 | |
CN113435232A (zh) | 一种物体的检测方法、装置、设备及存储介质 | |
CN115909110A (zh) | 一种基于Siamese网络的轻量级红外无人机目标跟踪方法 | |
CN115129886A (zh) | 驾驶场景的识别方法、装置及车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |