CN113963238A - 多任务感知识别模型的构建方法以及多任务感知识别方法 - Google Patents

多任务感知识别模型的构建方法以及多任务感知识别方法 Download PDF

Info

Publication number
CN113963238A
CN113963238A CN202111576700.1A CN202111576700A CN113963238A CN 113963238 A CN113963238 A CN 113963238A CN 202111576700 A CN202111576700 A CN 202111576700A CN 113963238 A CN113963238 A CN 113963238A
Authority
CN
China
Prior art keywords
module
recognition model
target
segmentation
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111576700.1A
Other languages
English (en)
Inventor
朱朝
刘国清
杨广
王启程
郑伟
董颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Minieye Innovation Technology Co Ltd
Original Assignee
Shenzhen Minieye Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Minieye Innovation Technology Co Ltd filed Critical Shenzhen Minieye Innovation Technology Co Ltd
Priority to CN202111576700.1A priority Critical patent/CN113963238A/zh
Publication of CN113963238A publication Critical patent/CN113963238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种多任务感知识别模型的构建方法的方法,该多任务感知识别模型的构建方法包括:获取多张样本图像,每一张样本图像中包括物体对象的标签标注和道路对象的分割标注,标签标注包括表示物体对象的标注框、表示物体对象类别的第一类别标签以及表示物体对象姿态的第二类别标签,分割标注包括表示道路对象的目标区域;将多张样本图像输入初始多任务感知识别模型中进行迭代训练得到目标多任务感知识别模型,其中,初始多任务感知识别模型包括特征提取模块、多目标多属性识别模块和分割预测模块。本发明还提供了一种多任务感知识别方法、多任务感知识别模型、计算机可读存储介质以及自动驾驶设备。

Description

多任务感知识别模型的构建方法以及多任务感知识别方法
技术领域
本发明涉及自动驾驶领域,尤其涉及一种多任务感知识别模型的构建方法、多任务感知识别方法、多任务感知识别模型、计算机可读存储介质以及自动驾驶设备。
背景技术
现有自动驾驶技术中,大多数任务都是用一个网络完成的,不同的网络完成不同的任务,而多任务学习是机器学习中的一种常见的方法,它允许使用共享的结构来训练多个目标。研究表明,通过一起训练多个任务,可以节省推理时间和计算资源,而多个目标任务的性能则保持在相似甚至更高的水平,更重要的是,与单个任务网络相比减少了推理时间,减少了网络大小。多个任务相互关联的训练,有时甚至可以提高训练和预测的质量。当网络接收到相同类型的输入时,很可能会提取出类似的特征。在这种情况下,一个共享的检测网络就可以充分利用这些输入特征的相似语义。此外,从硬件的角度来看,共享特性处理步骤可以减少延迟、减少存储空间。在目前特定任务的网络中,通常由两部分组成,一部分是用于提取特征的主干网络,另一部分用于生成特定任务输出的分支。
除此之外,大多数检测任务都是一个目标只有单个标签或者多个标签但是每个目标共有。而像自动驾驶领域中检测到目标人,可能只要识别是人这个类别,而检测到车辆,不仅仅只是识别这是车辆,而且可能需要识别它当前的角度姿态,这也需要设计新的网络结构来完成目标的识别。
因此,如何通过一个神经网络模型获取待识别图像中的多种标签以及目标区域是亟需解决的问题。
发明内容
本发明提供一种多任务感知识别模型的构建方法、多任务感知识别方法、多任务感知识别模型、计算机可读存储介质以及自动驾驶设备,可以通过一个深度学习网络获取待识别图像的多种标签以及目标区域,提升深度学习网络的利用率,以及待识别图像的感知识速度。
第一方面,本发明实施例提供一种多任务感知识别模型的构建方法,该多任务感知识别模型的构建方法包括:
获取多张样本图像,每一张样本图像中包括物体对象的标签标注和道路对象的分割标注,标签标注包括表示物体对象的标注框、表示物体对象类别的第一类别标签以及表示物体对象姿态的第二类别标签,分割标注包括表示道路对象的目标区域,多张样本图像是利用设置于车辆不同角度的感知设备获取的原始图像经过预设处理得到的;
将多张样本图像输入初始多任务感知识别模型中进行迭代训练得到目标多任务感知识别模型,其中,初始多任务感知识别模型包括特征提取模块、多目标多属性识别模块和分割预测模块;将多张样本图像输入特征提取模块中提取得到多种不同倍数的下采样特征图;当训练初始多任务感知识别模型的多目标多属性识别功能时,将多种不同倍数的下采样特征图输入多目标多属性识别模块进行特征融合得到多目标多属性识别结果,根据多目标多属性识别结果计算出多目标多属性识别损失值,将多目标多属性识别损失值反向传播至特征提取模块和多目标多属性识别模块对特征提取模块和多目标多属性识别模块的参数进行更新;当训练初始多任务感知识别模型的分割识别功能时,将多种不同倍数的下采样特征图输入分割标注模块进行上采样得到分割预测结果,根据分割预测结果得到分割损失值,将分割损失值反向传播至特征提取模块和分割预测模块对特征提取模块和分割预测模块的参数进行更新。
第二方面,本发明实施例提供一种多任务感知识别方法,该多任务感知识别方法包括:
将从设置于车辆不同角度的感知设备获取的原始图像进行预处理得到预设大小的待识别图像;
将待识别图像输入根据多任务感知识别模型的构建方法的得到的目标多任务感知识别模型中,得到多目标多属性识别结果。
第三方面,本发明实施例提供一种多任务感知识别模型,该多任务感知识别模型包括:
特征提取模块,用于从多张样本图像中提取得到多种不同倍数的下采样特征图;
多目标多属性识别模块,用于对多种不同倍数的下采样特征图进行特征融合并根据特征融合的结果得到多目标多属性识别损失值,将多目标多属性识别损失值反向传播至特征提取模块和多目标多属性识别模块对特征提取模块和多目标多属性识别模块的参数进行更新;
分割预测模块,用于对多种不同倍数的下采样特征图进行上采样并根据上采样结果得到分割损失值,将分割损失值反向传播至特征提取模块和分割预测模块对所特征提取模块和分割预测模块的参数进行更新。
第四方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有能够被处理器加载并执行的多任务感知识别模型的构建方法的程序指令。
第五方面,本发明实施例提供一种自动驾驶设备,该自动驾驶设备包括车身、设置于车身四周的感知设备以及设置于车身的计算机设备,计算机设备包括:
存储器,用于存储程序指令;
处理器,用于执行程序指令以使计算机设备实现的多任务感知识别模型的构建方法。
上述任务感知识别模型的构建方法、多任务感知识别方法、多任务感知识别模型、计算机可读存储介质以及自动驾驶设备,通过构建具有多个标签以及目标区域的多张样本图像,并使用多张样本图像训练初始神经网络模型,最终得到具有识别待识别图像中物体对象多个标签以及目标区域的能力的多任务感知识别模型,提升了多任务感知识中深度学习网络的利用率,同时提高了待识别图像的识别速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明第一实施例提供的多任务感知识别模型的构建方法的流程图。
图2为本发明第一实施例提供的多任务感知识别模型的构建方法的样本图像示意图。
图3为本发明第一实施例提供的多任务感知识别模型的特征提取网络卷积层的示意图。
图4为本发明第一实施例提供的多任务感知识别模型的构建方法的第一子流程图。
图5为本发明第二实施例提供的多任务感知识别模型的构建方法的子流程图。
图6为本发明第三实施例提供的多任务感知识别模型的构建方法的子流程图。
图7为本发明第一实施例提供的多任务感知识别方法的待识别样本示意图。
图8为本发明第一实施例提供的多任务感知识别模型结构示意图。
图9为本发明第一实施例提供的自动驾驶设备的计算机设备内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请结合参看图1,其为本发明第一实施例提供的多任务感知识别模型的构建方法的流程图。其中,本发明第一实施例提供的多任务感知识别模型的构建方法具体包括下面步骤。
步骤S101,获取多张样本图像。具体地,每一张样本图像中包括物体对象的标签标注和道路对象的分割标注,标签标注包括表示物体对象的标注框、表示物体对象类别的第一类别标签以及表示物体对象姿态的第二类别标签,分割标注包括表示道路对象的目标区域,多张样本图像是利用设置于车辆不同角度的感知设备获取的原始图像经过预设处理得到的。具体请参照步骤S1011-步骤S1013。
进一步地,第一类别标签包括正标签和负标签。正标签标注的是能够清楚的展示物体对象的样本;负标签标注的是没有太大的意义模糊不清的样本,例如,比如远处的人群、容易混淆的人型雕塑、带有人物的海报、与背景混淆的物体、被遮挡的物体、模糊的的物体等。
在本实施例中,第一类别标签包括行人、两轮车、轮胎,车牌、大巴、轿车、面包车、卡车、三轮车、特种车、皮卡11类物体对象,具体的标注规则如下:
Figure 505457DEST_PATH_IMAGE001
在本实施例中,第二类别标签朝左对向车、朝右对向车、对向车、朝左横向车、朝右横向车、朝左同向车,朝右同向车、同向车、严重遮挡、模糊状态等10个类别,具体的标注规则如下:
Figure 235516DEST_PATH_IMAGE002
请结合参看图2,其为本发明实施例提供的样本图像示意图,其中5为第一标签,代表标注框21中为轿车,cr_r为第二标签,代表轿车是朝右横向车的姿态;7为第一标签,代表标注框22中为卡车,op_m为第二标签,代表卡车是对向车的姿态;20表示可行驶区域。
上述实施例中,对样本图像中的物体对象进行正标签和负标签的标注,使被标注了负标签的物体对象被模型忽略,不做任何处理,从而减少了多任务感知识别模型的运算量,进而提高了多任务感知识别模型的运算速度,也进一步提高了多任务感知识别模型的准确程度。
步骤S102,将多张样本图像输入初始多任务感知识别模型中进行迭代训练得到目标多任务感知识别模型。其中,初始多任务感知识别模型包括特征提取模块、多目标多属性识别模块和分割预测模块。将多张样本图像输入特征提取模块中提取得到多种不同倍数的下采样特征图。当训练初始多任务感知识别模型的多目标多属性识别功能时,将多种不同倍数的下采样特征图输入多目标多属性识别模块进行特征融合得到多目标多属性识别结果,根据多目标多属性识别结果计算出多目标多属性识别损失值,将多目标多属性识别损失值反向传播至特征提取模块和多目标多属性识别模块对特征提取模块和多目标多属性识别模块的参数进行更新。当训练初始多任务感知识别模型的分割识别功能时,将多种不同倍数的下采样特征图输入分割标注模块进行上采样得到分割预测结果,根据分割预测结果得到分割损失值,将分割损失值反向传播至特征提取模块和分割预测模块对特征提取模块和分割预测模块的参数进行更新。
在上述实施例中,从软件的角度来看,一个共享的特征提取模块可以充分利用特征图中相似的语义,提高特征提取模块的利用率;从硬件的角度来看,共享特性处理步骤可以减少存储多任务感知识别模型所占用的空间,减少延迟。
上述多任务感知识别模型的构建方法,通过构建具有多个标签以及目标区域的多张样本图像,并使用多张样本图像训练初始多任务感知识别模型,最终得到具有识别未知图像中物体对象多个标签以及目标区域的能力的目标多任务感知识别模型,提升了多任务感知识中深度学习网络的利用率,同时也提高了待识别图像的识别速度。
在本发明第一实施中,特征提取模块是在YOLOv5的主干网络基础上将3x3卷积层添加平行的1x1卷积分支和恒等映射分支所构成的特征提取网络。卷积层结构请结合参看图3。进一步地,将多任务感知识别模型中涉及到的上采样方式Upsample改成ConvTranspose2d以便多任务感知识别模型能够轻易的转换成caffe模型并快速部署到海思芯片上。caffe模型(Convolutional Architecture for Fast Feature Embedding,Caffe)模型是一个兼具表达性、速度和思维模块化的深度学习框架。
多目标多属性识别模块包括金字塔网络、PAN网络、两个分类分支、一个置信度分支和第一损失值计算单元,金字塔网络和PAN网络用于将多种不同倍数的下采样特征图进行特征融合得到融合特征图。两个分类分支和一个置信度分支用于根据融合特征图得到多目标多属性识别结果。第一损失值计算单元用于根据多目标多属性识别结果计算多目标多属性识别损失值。
分割预测模块包括上采样模块、concat模块、CSP Bottleneck模块、分割预测分支和第二损失值计算单元,上采样模块、concat模块和CSP Bottleneck模块用于将多种不同倍数的下采样特征图进行处理为与样本图像大小一致的像素图像,分割预测分支用于将像素图像进行分割标注得到分割预测结果。第二损失值计算单元根据分割预测结果计算出分割预测损失值。concat模块用于将多种不同倍数的下采样特征图的进行拼接。
具体地,在计算多目标多属性识别损失值和分割预测损失值时,判断第一类别标签是否属于预设类别。当第一类别标签属于预设类别时,判断第一类别标签是否为正标签。当标签是正标签时,根据损失函数计算损失值。在本实施例中,计算多目标多属性识别损失值和分割预测损失值的损失函数为:
L =L第一类别+L第二类别+L检测框+L置信度+L分割
其中,L为样本图像的损失值,L第一类别为第一类别标签对应的损失值,L第二类别为第二类别标签对应的损失值,L检测框为检测框对应的损失值,L置信度为样本图像的检测框的置信度对应的损失值,L分割为目标区域对应的损失值。
具体地,大巴、轿车、面包车、卡车、三轮车、特种车、皮卡等7类物体对象属于本实施例的预设类别,所以在本实施例中只计算关于上述7种类别的损失值。
请结合参看图4,其为本发明第一实施例提供的步骤S101的子步骤流程图。步骤S101,获取多张样本图像,具体包括下面步骤。
步骤S1011,利用设置于车辆不同角度的感知设备获取多张原始图像。
步骤S1012,对多张原始图像进行物体对象标注得到具有标注框、第一类别标签和第二类别标签的多张中间图像。
步骤S1013,对多张中间图像进行道路对象标注得到具有标注框、第一类别标签、第二类别标签和目标区域的多张样本图像。
上述实施例中,根据对原始图像进行标注,得到具有目标框、第一类别标签、第二类别标签以及目标区域的样本图像,利用该样本图像训练能够识别上述特征的多任务感知识别模型。
请结合参看图5,其为本发明第二实施例提供的多任务感知识别模型的构建方法。第二实施例提供的多任务感知识别模型的构建方法与第一实施例提供的多任务感知识别模型的构建方法的差异在于在对多张原始图像进行标注以及分割得到多张样本图像之前,第二实施例提供的多任务感知识别模型的构建方法还包括下面步骤。
步骤S501,利用设置于车辆不同角度的感知设备获取多张待处理图像。
步骤S502,利用SSIM算法计算相邻两张待处理图像的相似度。具体地,结构相似性算法(structural similarity index,SSIM)是一种衡量两幅图像相似度的指标。本实施例中,用于评价相邻两张待处理图像的相似度。
步骤S503,判断相似度是否大于预设值。
步骤S504,当相似度大于预设值时,删除其中一张待处理图像。
步骤S505,将剩余的待处理图像构成多张原始图像。在一些可行的实施例中,删除可以是随机删除两张待处理图像中任意一张。在另一些可行的实施例中,指定删除两张待处理图像中其中一张,例如,删除两张待处理图像中的第一张,或者删除两张待处理图像中的第二张。具体删除方式根据实际情况确定,本实施例中提到的删除方式,仅做示例不做限定。
请结合参看图6,其为本发明第一实施例提供的多任务感知识别方法的流程图。其中,本发明第一实施例提供的多任务感知识别方法具体包括下面步骤。
步骤S701,将从设置于车辆不同角度的感知设备获取的原始图像进行预处理得到预设大小的待识别图像。具体请结合参看图7,待识别图像为预设大小的图像。例如,128*128(单位:像素的平方),本实施例中,数值仅做示例不做限定。
步骤S702,将待识别图像输入根据多任务感知识别模型的构建方法的得到的目标多任务感知识别模型中,得到多目标多属性识别结果。具体地,多任务感知识别结果包括:表示物体对象的标注框、表示物体对象类别的第一类别标签和表示物体对象姿态的第二类别标签和表示道路对象的目标区域。
请结合参看图8,其为本发明第一实施例提供的多任务感知识别模型的结构示意图。其中,多任务感知识别模型800具体包括特征提取模块801、多目标多属性识别模块802和分割预测模块803。
特征提取模块801,用于从多张样本图像中提取得到多种不同倍数的下采样特征图。具体地,特征提取模块是在YOLOv5的主干网络基础上将3x3卷积层添加平行的1x1卷积分支和恒等映射分支所构成的特征提取网络。进一步地,将多任务感知识别模型中涉及到的上采样方式Upsample改成ConvTranspose2d以便多任务感知识别模型能够轻易的转换成caffe模型并快速部署到海思芯片上。在本实施例中,选择YOLOv5s的主干网络这种轻量级网络作为特征提取网络,减少存储多任务感知识别模型所占用的空间,修改卷积结构提高了多任务感知识别模型的性能。
多目标多属性识别模块802,用于对多种不同倍数的下采样特征图进行特征融合并根据特征融合的结果得到多目标多属性识别损失值,将多目标多属性识别损失值反向传播至特征提取模块和多目标多属性识别模块对特征提取模块和多目标多属性识别模块的参数进行更新。具体地,多目标多属性识别模块包括金字塔网络、PAN网络、两个分类分支、一个置信度分支和第一损失值计算单元,金字塔网络和PAN网络用于将多种不同倍数的下采样特征图进行特征融合得到融合特征图。两个分类分支和一个置信度分支用于根据融合特征图得到多目标多属性识别结果。第一损失值计算单元用于根据多目标多属性识别结果计算多目标多属性识别损失值。
分割预测模块803,用于对多种不同倍数的下采样特征图进行上采样并根据上采样结果得到分割损失值,将分割损失值反向传播至特征提取模块和分割预测模块对所特征提取模块和分割预测模块的参数进行更新。具体地,分割预测模块包括上采样模块、concat模块、CSP Bottleneck模块、分割预测分支和第二损失值计算单元,上采样模块、concat模块和CSP Bottleneck模块用于将多种不同倍数的下采样特征图进行处理为与样本图像大小一致的像素图像,分割预测分支用于将像素图像进行分割标注得到分割预测结果。第二损失值计算单元根据分割预测结果计算出分割预测损失值。concat模块用于将多种不同倍数的下采样特征图的进行拼接。
上述实施例通过增加分类分支和分割分支,实现了多任务感知识别模型能够同时处理多标签分类、检测和分割任务。将多任务感知识别模型中涉及到的上采样方式Upsample修改成ConvTranspose2d以便多任务感知识别模型能够轻易的转换成caffe模型并快速部署到海思芯片上。多任务感知识别模型用通过负标签出去容易造成识别混乱的的目标物体的干扰,提高多任务感知识别模型的精度并且准确完成对行人、两轮车、轮胎,车牌单类别识别和车辆多类别识别。
本发明还提供了一种计算机可读存储介质。计算机可读存储介质上存储有能够被处理器加载并执行的上述的多任务感知识别模型的构建方法的程序指令。由于计算机可读存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
本发明还提供一种自动驾驶设备,该自动驾驶设备包括车身、设置于车身四周的感知设备以及设置于车身的计算机设备,其中,计算机设备900至少包括,存储器901和处理器902。存储器901用于存储多任务感知识别模型的构建方法的程序指令。处理器902,用于执行程序指令以使计算机设备实现上述的多任务感知识别模型的构建方法。请结合参看图9,其为本发明第一实施例提供的计算机设备900的内部结构示意图。
其中,存储器901至少包括一种类型的计算机可读存储介质,该计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器901在一些实施例中可以是计算机设备900的内部存储单元,例如计算机设备900的硬盘。存储器901在另一些实施例中也可以是计算机设备900的外部存储设备,例如计算机设备900上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字卡(Secure Digital, SD),闪存卡(Flash Card)等。进一步地,存储器901还可以既包括计算机设备900的内部存储单元也包括外部存储设备。存储器901不仅可以用于存储安装于计算机设备900的应用软件及各类数据,例如多任务感知识别模型的构建方法的程序指令等,还可以用于暂时地存储已经输出或者将要输出的数据,例如多任务感知识别模型的构建方法执行产生的数据等。
处理器902在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器901中存储的程序指令或处理数据。具体地,处理器902执行多任务感知识别模型的构建方法的程序指令以控制计算机设备900实现多任务感知识别模型的构建方法。
进一步地,计算机设备900还可以包括总线903可以是外设部件互连标准总线(peripheral component interconnect,简称PCI)或扩展工业标准结构总线(extendedindustry standard architecture,简称EISA)等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,计算机设备900还可以包括显示组件904。显示组件904可以是LED(Light Emitting Diode,发光二极管)显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示组件904也可以适当的称为显示装置或显示单元,用于显示在计算机设备900中处理的信息以及用于显示可视化的用户界面。
进一步地,计算机设备900还可以包括通信组件905,通信组件905可选的可以包括有线通信组件和/或无线通信组件(如WI-FI通信组件、蓝牙通信组件等),通常用于在计算机设备900与其他计算机设备之间建立通信连接。
图9仅示出了具有组件901-905以及实现多任务感知识别模型的构建方法的程序指令的计算机设备900,本领域技术人员可以理解的是,图9示出的结构并不构成对计算机设备900的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。由于计算机设备900采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
该多任务感知识别模型的构建方法包括一个或多个程序指令。在设备上加载和执行该程序指令时,全部或部分地产生按照本发明实施例的流程或功能。该设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,该程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的多任务感知识别模型的构建方法实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机 设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、流动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (10)

1.一种多任务感知识别模型的构建方法,其特征在于,所述多任务感知识别模型的构建方法包括:
获取多张样本图像,每一张样本图像中包括物体对象的标签标注和道路对象的分割标注,所述标签标注包括表示所述物体对象的标注框、表示所述物体对象类别的第一类别标签以及表示所述物体对象姿态的第二类别标签,所述分割标注包括表示道路对象的目标区域,所述多张样本图像是利用设置于车辆不同角度的感知设备获取的原始图像经过预设处理得到的;以及
将所述多张样本图像输入初始多任务感知识别模型中进行迭代训练得到目标多任务感知识别模型,其中,所述初始多任务感知识别模型包括特征提取模块、多目标多属性识别模块和分割预测模块;将所述多张样本图像输入所述特征提取模块中提取得到多种不同倍数的下采样特征图;将所述多种不同倍数的下采样特征图输入所述多目标多属性识别模块进行特征融合得到多目标多属性识别结果,根据所述多目标多属性识别结果计算出多目标多属性识别损失值,将所述多目标多属性识别损失值反向传播至所述特征提取模块和所述多目标多属性识别模块对所述特征提取模块和所述多目标多属性识别模块的参数进行更新;将所述多种不同倍数的下采样特征图输入所述分割标注模块进行上采样得到分割预测结果,根据所述分割预测结果得到分割损失值,将所述分割损失值反向传播至所述特征提取模块和所述分割预测模块对所述特征提取模块和所述分割预测模块的参数进行更新。
2.如权利要求1所述的多任务感知识别模型的构建方法,其特征在于,所述特征提取模块是在YOLOv5的主干网络基础上将3x3卷积层添加平行的1x1卷积分支和恒等映射分支所构成的特征提取网络。
3.如权利要求1所述的多任务感知识别模型的构建方法,其特征在于,所述多目标多属性识别模块包括金字塔网络、PAN网络、两个分类分支、一个置信度分支和第一损失值计算单元,所述金字塔网络和所述PAN网络用于将所述多种不同倍数的下采样特征图进行特征融合得到融合特征图;所述两个分类分支和所述一个置信度分支用于根据所述融合特征图得到多目标多属性识别结果;所述第一损失值计算单元用于根据所述多目标多属性识别结果计算所述多目标多属性识别损失值。
4.如权利要求1所述的多任务感知识别模型的构建方法,其特征在于,所述分割预测模块包括上采样模块、concat模块、CSP Bottleneck模块、分割预测分支和第二损失值计算单元,所述上采样模块、concat模块和CSP Bottleneck模块用于将所述多种不同倍数的下采样特征图处理为与所述样本图像大小一致的像素图像,所述分割预测分支用于将所述像素图像进行分割标注得到分割预测结果;所述第二损失值计算单元根据所述分割预测结果计算出所述分割损失值。
5.如权利要求1所述的多任务感知识别模型的构建方法,其特征在于,获取多张样本图像,具体包括:
利用设置于车辆不同角度的感知设备获取多张原始图像;
对所述多张原始图像进行物体对象标注得到具有所述标注框、所述第一类别标签和所述第二类别标签的多张中间图像;以及
对所述多张中间图像进行道路对象标注得到具有所述标注框、所述第一类别标签、所述第二类别标签和所述目标区域的所述多张样本图像。
6.如权利要求5所述的多任务感知识别模型的构建方法,其特征在于,在利用设置于车辆不同角度的感知设备获取多张原始图像之前,还包括:
利用设置于车辆不同角度的感知设备获取多张待处理图像;
利用SSIM算法计算相邻两张待处理图像的相似度;
判断所述相似度是否大于预设值;
当所述相似度大于预设值时,删除其中一张所述待处理图像;以及
将剩余的所述待处理图像构成所述多张原始图像。
7.一种多任务感知识别方法,其特征在于,所述多任务感知识别方法包括:
将从设置于车辆不同角度的感知设备获取的原始图像进行预处理得到预设大小的待识别图像;
将所述待识别图像输入根据如权利要求1~6任意一项所述的多任务感知识别模型的构建方法得到的目标多任务感知识别模型中,得到多目标多属性识别结果。
8.一种多任务感知识别模型,其特征在于,所述多任务感知识别模型,包括:
特征提取模块,用于从多张样本图像中提取得到多种不同倍数的下采样特征图;
多目标多属性识别模块,用于对所述多种不同倍数的下采样特征图进行特征融合并根据特征融合的结果得到多目标多属性识别损失值,将所述多目标多属性识别损失值反向传播至所述特征提取模块和所述多目标多属性识别模块对所述特征提取模块和所述多目标多属性识别模块的参数进行更新;
分割预测模块,用于对所述多种不同倍数的下采样特征图进行上采样并根据上采样结果得到分割损失值,将所述分割损失值反向传播至所述特征提取模块和所述分割预测模块对所述特征提取模块和所述分割预测模块的参数进行更新。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有能够被处理器加载并执行的如权利要求1~6任意一项所述的多任务感知识别模型的构建方法的程序指令。
10.一种自动驾驶设备,所述自动驾驶设备包括车身、设置于车身四周的感知设备以及设置于所述车身的计算机设备,其特征在于,所述计算机设备包括:
存储器,用于存储程序指令;以及
处理器,用于执行所述程序指令以使所述计算机设备实现如权利要求7所述的多任务感知识别方法。
CN202111576700.1A 2021-12-22 2021-12-22 多任务感知识别模型的构建方法以及多任务感知识别方法 Pending CN113963238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111576700.1A CN113963238A (zh) 2021-12-22 2021-12-22 多任务感知识别模型的构建方法以及多任务感知识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111576700.1A CN113963238A (zh) 2021-12-22 2021-12-22 多任务感知识别模型的构建方法以及多任务感知识别方法

Publications (1)

Publication Number Publication Date
CN113963238A true CN113963238A (zh) 2022-01-21

Family

ID=79473522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111576700.1A Pending CN113963238A (zh) 2021-12-22 2021-12-22 多任务感知识别模型的构建方法以及多任务感知识别方法

Country Status (1)

Country Link
CN (1) CN113963238A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376093A (zh) * 2022-10-25 2022-11-22 苏州挚途科技有限公司 智能驾驶中的对象预测方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
CN109145798A (zh) * 2018-08-13 2019-01-04 浙江零跑科技有限公司 一种驾驶场景目标识别与可行驶区域分割集成方法
US20200026282A1 (en) * 2018-07-23 2020-01-23 Baidu Usa Llc Lane/object detection and tracking perception system for autonomous vehicles
CN111860255A (zh) * 2020-07-10 2020-10-30 东莞正扬电子机械有限公司 驾驶检测模型的训练、使用方法、装置、设备及介质
CN112418236A (zh) * 2020-11-24 2021-02-26 重庆邮电大学 一种基于多任务神经网络的汽车可行驶区域规划方法
CN112465868A (zh) * 2020-11-30 2021-03-09 浙江大华汽车技术有限公司 一种目标检测跟踪方法、装置、存储介质及电子装置
CN113537385A (zh) * 2021-08-01 2021-10-22 程文云 一种基于tx2设备的电力复合绝缘子憎水性分类方法
CN113627477A (zh) * 2021-07-07 2021-11-09 武汉魅瞳科技有限公司 车辆多属性识别方法及系统
CN113688948A (zh) * 2021-10-11 2021-11-23 中核检修有限公司 一种基于YOLO v5的附着海生物种类识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124415A1 (en) * 2015-11-04 2017-05-04 Nec Laboratories America, Inc. Subcategory-aware convolutional neural networks for object detection
US20200026282A1 (en) * 2018-07-23 2020-01-23 Baidu Usa Llc Lane/object detection and tracking perception system for autonomous vehicles
CN109145798A (zh) * 2018-08-13 2019-01-04 浙江零跑科技有限公司 一种驾驶场景目标识别与可行驶区域分割集成方法
CN111860255A (zh) * 2020-07-10 2020-10-30 东莞正扬电子机械有限公司 驾驶检测模型的训练、使用方法、装置、设备及介质
CN112418236A (zh) * 2020-11-24 2021-02-26 重庆邮电大学 一种基于多任务神经网络的汽车可行驶区域规划方法
CN112465868A (zh) * 2020-11-30 2021-03-09 浙江大华汽车技术有限公司 一种目标检测跟踪方法、装置、存储介质及电子装置
CN113627477A (zh) * 2021-07-07 2021-11-09 武汉魅瞳科技有限公司 车辆多属性识别方法及系统
CN113537385A (zh) * 2021-08-01 2021-10-22 程文云 一种基于tx2设备的电力复合绝缘子憎水性分类方法
CN113688948A (zh) * 2021-10-11 2021-11-23 中核检修有限公司 一种基于YOLO v5的附着海生物种类识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
POGG_: "YOLOv5-Lite:Repvgg重参化对YOLO工业落地的实验和思考", 《HTTPS://BLOG.CSDN.NET/WEIXIN_45829462/ARTICLE/DETAILS/120372921》 *
YONGXIANG GU等: "Real-time Streaming Perception System for Autonomous Driving", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
崔翔宇: "用于无人驾驶环境感知的多任务神经网络算法研究", 《万方在线》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376093A (zh) * 2022-10-25 2022-11-22 苏州挚途科技有限公司 智能驾驶中的对象预测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109426801B (zh) 一种车道线实例检测方法和装置
CN111626208B (zh) 用于检测小目标的方法和装置
CN111886603B (zh) 用于目标检测和表征的神经网络
CN107944450B (zh) 一种车牌识别方法及装置
CN111310770B (zh) 目标检测方法和装置
CN113033604A (zh) 一种基于SF-YOLOv4网络模型的车辆检测方法、系统及存储介质
CN111507226B (zh) 道路图像识别模型建模方法、图像识别方法及电子设备
CN111931683A (zh) 图像识别方法、装置及计算机可读存储介质
CN112712036A (zh) 交通标志识别方法、装置、电子设备及计算机存储介质
CN113743163A (zh) 交通目标识别模型训练方法、交通目标定位方法、装置
CN113269156B (zh) 一种基于多尺度特征融合的信号灯检测识别方法及系统
CN113963238A (zh) 多任务感知识别模型的构建方法以及多任务感知识别方法
CN113255555A (zh) 中国交通标志牌识别方法、系统、处理设备及存储介质
CN113052071A (zh) 危化品运输车驾驶员分心行为快速检测方法及系统
CN113780480B (zh) 基于YOLOv5的多目标检测及类别识别模型的构建方法
CN112784675A (zh) 目标检测方法及装置、存储介质、终端
CN113591543B (zh) 交通标志识别方法、装置、电子设备及计算机存储介质
CN113344121B (zh) 训练招牌分类模型和招牌分类的方法
CN111765892B (zh) 一种定位方法、装置、电子设备及计算机可读存储介质
CN116541715B (zh) 目标检测方法、模型的训练方法、目标检测系统及装置
CN112149600A (zh) 一种大数据汽车驾驶区域图像分析方法及系统
Manoharan et al. Detection of unstructured roads from a single image for autonomous navigation applications
CN116246128B (zh) 跨数据集的检测模型的训练方法、装置及电子设备
CN112179372B (zh) 基于5g人工智能车载终端设备
CN115661577B (zh) 用于对象检测的方法、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 518049 Floor 25, Block A, Zhongzhou Binhai Commercial Center Phase II, No. 9285, Binhe Boulevard, Shangsha Community, Shatou Street, Futian District, Shenzhen, Guangdong

Applicant after: Shenzhen Youjia Innovation Technology Co.,Ltd.

Address before: 518049 401, building 1, Shenzhen new generation industrial park, No. 136, Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong Province

Applicant before: SHENZHEN MINIEYE INNOVATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information