CN111489366B - 神经网络的训练、图像语义分割方法及装置 - Google Patents

神经网络的训练、图像语义分割方法及装置 Download PDF

Info

Publication number
CN111489366B
CN111489366B CN202010296170.4A CN202010296170A CN111489366B CN 111489366 B CN111489366 B CN 111489366B CN 202010296170 A CN202010296170 A CN 202010296170A CN 111489366 B CN111489366 B CN 111489366B
Authority
CN
China
Prior art keywords
neural network
image
training
semantic
semantic category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010296170.4A
Other languages
English (en)
Other versions
CN111489366A (zh
Inventor
周千寓
程光亮
石建萍
马利庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Lingang Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority to CN202010296170.4A priority Critical patent/CN111489366B/zh
Publication of CN111489366A publication Critical patent/CN111489366A/zh
Application granted granted Critical
Publication of CN111489366B publication Critical patent/CN111489366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种神经网络的训练、图像语义分割、智能设备控制方法、装置、电子设备及存储介质,其中,该神经网络的训练方法包括:基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络。上述方案利用加入了部分未标注的图像样本实现自训练学习,降低了人工成本,提升了神经网络训练的效率。

Description

神经网络的训练、图像语义分割方法及装置
技术领域
本公开涉及图像语义分割技术领域,具体而言,涉及一种神经网络的训练、图像语义分割、智能设备控制方法、装置、电子设备及存储介质。
背景技术
图像语义分割作为人工智能领域中的重要分支,是机器视觉技术中关于图像理解的重要环节,在自动驾驶系统的街景识别与理解、无人机着陆点判断、医学图像的病灶识别等应用领域具有十分关键的作用。
图像语义分割的目标是预测图像中每个像素点的语义类别,通常情况下,可以利用深度卷积神经网络对大量标注好的样本图像的学习来实现语义类别的预测。
然而,由于全像素的图像标注非常耗时,这将占用大量的人力物力。
发明内容
本公开实施例提供一种神经网络的训练、图像语义分割、智能设备控制方法、装置、电子设备及存储介质,能够通过自训练学习方式对未标注的图像样本进行语义学习,无需全量样本标注,省时省力。
第一方面,本公开实施例提供了一种神经网络的训练方法,所述方法包括:
基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;
根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;
重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络。
采用上述神经网络的训练方法,首先可以基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息,这样,即可以根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络,基于本轮训练得到的神经网络可以再次对未标注有标注语义类别信息的第一图像样本进行伪标注语义类别信息的确定,而后进行下一轮训练,依此循环,即可以训练得到神经网络。
由于随着训练次数的增加,神经网络的准确度逐渐提升,这使得利用训练的神经网络为第一图像样本所确定的伪标注语义类别逐渐趋于真实的语义类别,而越来越趋于真实的语义类别的第一图像样本的伪标注语义类别还可以反过来指导神经网络的训练,可见,上述神经网络的训练方法利用部分未标注的图像样本即可实现自训练学习,无需用户全量标注,降低了人工成本,并且在训练过程中不断调整伪标注语义类别,使其逐渐趋于真实的语义类别,可以提升训练神经网络的准确率。
在一种实施方式中,所述基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息,包括:
利用所述前一轮训练完成的神经网络确定所述第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率;
针对所述第一图像样本的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,将概率最大的预设语义类别作为该图像像素点的目标语义类别;
基于所述第一图像样本的各个图像像素点的目标语义类别的概率,从所述各个图像像素点中筛选出需要标注的目标图像像素点,并将筛选出的目标图像像素点的目标语义类别,作为所述伪标注语义类别信息。
为了确定伪标注语义类别,本公开实施例可以基于第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率,确定最大概率的伪标注语义类别作为目标语义类型,并基于各个图像像素点属于对应的目标语义类别的概率,对各个图像像素点进行选择性标注,从而加强高概率伪标注语义类别对后续神经网络训练的指导,弱化低概率伪标注语义类别对后续神经网络训练的指导,提升神经网络的准确率。
在一种实施方式中,所述基于所述第一图像样本的各个图像像素点的目标语义类别的概率,从所述各个图像像素点中筛选出需要标注的目标图像像素点,包括:
针对所述多种预设语义类别中的每种预设语义类别,将所述第一图像样本的各个图像像素点,按照目标语义类别属于该种预设语义类别的概率由大到小的顺序,选取预设占比的图像像素点;基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点;
将各种预设语义类别对应需要标注的目标图像像素点进行组合,得到从所述各个图像像素点中筛选出的所述目标图像像素点。
本公开实施例在进行选择性标注的过程中,可以选取目标语义类别的概率排名靠前的图像像素点进行标注,进一步提升高概率伪标注语义类别对后续神经网络训练的指导,进一步提升神经网络的准确率。
除此之外,本公开实施例在对图像像素点进行标注的过程中,还可以针对多种预设语义类别中的每种预设语义类别均选取预设占比的图像像素点进行标注,这样,一定程度上可以平衡各个标注类别的数量,从而避免因类别标注不平衡所存在的训练过拟合或欠拟合的问题,提升训练神经网络的鲁棒性。
在一种实施方式中,所述基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点,包括:
针对所述多种预设语义类别中的每种预设语义类别,将所述选取的预设占比的图像像素点中,对应的目标语义类别属于该种预设语义类别的概率大于预设概率阈值的图像像素点,作为该种预设语义类别对应需要标注的目标图像像素点。
在一种实施方式中,所述预设占比随着所述神经网络训练次数的增多而增大。
本公开实施例在训练神经网络的过程中,随着神经网络训练次数的增多,神经网络的学习能力越来越强,这使得针对第一图像样本所确定的伪标注语义类别信息越来越准确,通过预设占比的增大来提升准确的伪标注语义类别信息所覆盖的图像像素点,在提升训练神经网络的准确率的前提下,还可以避免因类别标注不平衡所存在的训练过拟合或欠拟合的问题,提升训练神经网络的鲁棒性。
在一种实施方式中,所述根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络,包括:
将所述第一图像样本输入至所述前一轮训练完成的神经网络中,基于第一神经网络输出结果以及确定的所述伪标注语义类别信息,确定第一损失信息;以及,将所述第二图像样本输入至所述前一轮训练完成的神经网络中,基于第二神经网络输出结果以及所述标注语义类别信息,确定第二损失信息;
基于所述第一损失信息和所述第二损失信息,调整所述前一轮训练完成的神经网络的参数值,得到本轮训练后的神经网络。
在一种实施方式中,所述基于第一神经网络输出结果以及确定的所述伪标注语义类别信息,确定第一损失信息,包括:
基于所述第一神经网络输出结果以及确定的所述伪标注语义类别信息,确定所述伪标注语义类别信息与所述第一神经网络输出结果之间的第一交叉熵损失;以及,
基于所述伪标注语义类别信息、以及在所述第一神经网络输出结果中所述伪标注语义类别信息对应的概率,确定类别分歧度;
将所述第一交叉熵损失和所述类别分歧度进行乘积运算,得到所述第一损失信息。
本公开实施例在进行神经网络训练的过程中,针对第一图像样本除了可以基于交叉熵损失,还可以基于伪标注语义类别信息所对应的概率对神经网络的参数值进行调整,例如,在伪标注语义类别信息所对应的概率属于第一神经网络输出结果中的各个概率中的较小值时,说明输出结果与伪标注语义类别存在较大分歧,利用这一分歧可以反向调整神经网络的参数值,从而降低分歧,提升神经网络的准确率。
第二方面,本公开实施例还提供了一种图像语义分割方法,所述方法包括:
获取待处理图像;
将获取的所述待处理图像输入至采用第一方面及其各种实施方式任一项所述的神经网络的训练方法训练完成的神经网络,得到语义分割结果。
第三方面,本公开实施例还提供了一种智能设备控制方法,所述方法包括:
获取智能设备在行驶过程中采集的道路图像;
将获取的所述道路图像输入至采用第一方面及其各种实施方式任一项所述的神经网络的训练方法训练完成的神经网络,得到所述道路图像的语义分割结果;
基于所述道路图像的语义分割结果,控制所述智能设备行使。
第四方面,本公开实施例还提供了一种神经网络的训练装置,所述装置包括:
类别确定模块,用于基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;
网络训练模块,用于根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;
重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络。
第五方面,本公开实施例还提供了一种图像语义分割装置,所述装置包括:
图像获取模块,用于获取待处理图像;
语义分割模块,用于将获取的所述待处理图像输入至采用第一方面及其各种实施方式中任一项所述的神经网络的训练方法训练完成的神经网络,得到语义分割结果。
第六方面,本公开实施例还提供了一种智能设备控制装置,所述装置包括:
图像获取模块,用于获取智能设备在行驶过程中采集的道路图像;
语义分割模块,用于将获取的所述道路图像输入至采用第一方面及其各种实施方式任一项所述的神经网络的训练方法训练完成的神经网络,得到所述道路图像的语义分割结果;
设备控制模块,用于基于所述道路图像的语义分割结果,控制所述智能设备行使。
第七方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的神经网络的训练方法的步骤或者如第二方面所述的图像语义分割方法的步骤或者如第三方面所述的智能设备控制方法的步骤。
第八方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的神经网络的训练方法的步骤或者如第二方面所述的图像语义分割方法的步骤或者如第三方面所述的智能设备控制方法的步骤。
关于上述图像语义分割装置、智能设备控制装置、电子设备、及计算机可读存储介质的效果描述参见上述神经网络的训练方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例一所提供的一种神经网络的训练方法的流程图;
图2示出了本公开实施例一所提供的另一种神经网络的训练方法的流程图;
图3示出了本公开实施例一所提供的神经网络的训练方法中,确定第一损失信息具体方法的流程图;
图4示出了本公开实施例一所提供的一种神经网络的训练方法的应用流程图;
图5示出了本公开实施例一所提供的一种图像语义分割方法的流程图;
图6示出了本公开实施例一所提供的智能设备控制方法的流程图;
图7示出了本公开实施例二所提供的一种神经网络的训练装置的示意图;
图8示出了本公开实施例二所提供的一种图像语义分割装置的示意图;
图9示出了本公开实施例二所提供的一种智能设备控制装置的示意图;
图10示出了本公开实施例三所提供的一种电子设备的示意图;
图11示出了本公开实施例三所提供的另一种电子设备的示意图;
图12示出了本公开实施例三所提供的另一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
经研究发现,现有利用深度卷积网络来实现语义分割的方案,由于需要预先对图像中的每个像素点进行语义类别的标注,非常耗时而导致后续神经网络训练的效率较低。
基于上述研究,本公开提供了至少一种神经网络的训练方案,能够通过自训练学习方式对未标注图像样本进行语义学习,无需全量样本标注,省时省力。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种神经网络的训练方法进行详细介绍,本公开实施例所提供的神经网络的训练方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该神经网络的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为服务器为例对本公开实施例提供的神经网络的训练方法加以说明。
实施例一
参见图1所示,为本公开实施例提供的神经网络的训练方法的流程图,方法包括步骤S101~S103,其中:
S101、基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;
S102、根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;
S103、判断是否满足训练截止条件;
若否,则重复执行上述S101和S102,若是,则执行S104:得到训练完成的神经网络。
这里,本公开实施例提供的神经网络的训练方法首先可以基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息,然后可以将有伪标注语义类别的第一图像样本、以及有标注语义类别信息的第二图像样本作为本轮神经网络训练的输入样本进行训练,这样,训练后的神经网络可以再次确定第一图像样本对应的伪标注语义类别信息,在确定第一图像样本对应的伪标注语义类别信息之后,可以进行下一轮的神经网络训练,依此往复,能够在达到训练截止条件下,得到训练好的神经网络。
本公开实施例中,随着神经网络训练次数的增多,其神经网络的准确度也随之增加,这样,所能确定出的伪标注语义类别信息的准确性也随之增加,也即,本公开实施例在训练神经网络的过程中,一方面可以利用前一轮训练完成的神经网络对伪标注语义类别信息进行更新,另一方面可以利用更新后的伪标注语义类别信息指导下一轮神经网络的训练,即参与到神经网络的参数值的调整过程中,两个过程相互配合,能够在提升神经网络的训练效率的前提下,提升训练神经网络的准确率。
需要说明的是,本公开实施例中,第一图像样本的伪标注语义信息可以随着每轮训练完成的神经网络得以更新。除了首轮训练神经网络采用的训练样本集全部是有标注语义类别信息的第二图像样本,其它轮训练神经网络采用的训练样本集不仅可以包括有标注语义类别信息的第二图像样本,还可以包括有伪标注语义类别信息的第一图像样本,该第一图像样本的伪标注语义类别信息可以是利用前一轮训练完成的神经网络确定的。其中,上述第一图像样本和第二图像样本均可以为多个。
随着每轮训练完成的神经网络可以对第一图像样本的伪标注语义信息不断进行更新,这主要是考虑到与第二图像样本所预先标注的是标注语义类别信息不同的是,利用每轮训练得到的神经网络为第一图像样本所确定的伪标注语义类别信息可能是与第一图像样本真实的语义类别相符的,也可能是不符的,这时,为了提升伪标注语义类别信息的准确性,可以按照上轮多轮神经网络训练方法进行神经网络的迭代训练。
在进行首轮神经网络训练的过程中,输入的可以是多个第二图像样本中的每个第二图像样本,这样,在将该第二图像样本输入至首轮待训练的神经网络的情况下,可以输出得到语义类别信息,这时,可以利用输出得到的语义类别信息与该第二图像样本预先标注的标注语义类别信息进行对比,在对比不一致时,可以对首轮待训练的神经网络的参数值进行调整。
在其它轮神经网络训练的过程中,输入的可以是有标注语义类别信息的多个第二图像样本以及有伪标注语义类别信息的多个第一图像样本,这样,在将第二图像样本和第一图像样本输入至本轮待训练的神经网络的情况下,可以输出得到语义类别信息,这时,可以利用输出得到的语义类别信息与第二图像样本预先标注的标注语义类别信息进行对比,在对比不一致时,可以对本轮待训练的神经网络的参数值进行调整,还可以利用输出得到的语义类别信息与第一图像样本的伪标注语义类别信息进行对比,在对比不一致时,可以对本轮待训练的神经网络的参数值进行调整。
在具体应用中,可以基于单个图像样本进行多轮神经网络训练,以对神经网络的参数值进行多次调整,除此之外,还可以是每个图像样本对应一轮神经网络训练,以对参数值进行适应性调整,具体的神经网络调整方式在此不做具体的限制。
本公开实施例中,相比基于全量图像标注方式进行神经网络的训练方法而言,本公开实施例提供的训练方法所采用的训练样本集可以包含部分带有标注的图像样本(即第二图像样本),还可以包含部分未带有标注的图像样本(即第一图像样本)。
在具体应用中,可以针对不同的应用场景选取不同的第二图像样本和第一图像样本,例如,针对自动驾驶应用而言,可以将获取的道路图像确定为图像样本,针对医学诊断应用而言,可以将获取的医学病灶图像确定为图像样本,有关其它应用的相关图像样本在此不再赘述。
本公开实施例中,不管是应用于哪种应用场景下,均需要预先对训练样本集中的部分图像样本进行标注语义类别信息的标注。在对图像样本进行标注语义类别信息标注的情况下,可以手动标注的是图像样本中各个图像像素点的标注语义类别信息。
这里以自动驾驶应用为例,在一张包含有道路和车辆的图像样本中,可以逐像素点的进行类别标注,也即,对图像样本中属于道路的像素点对应标注为道路这一语义类别,对图像样本中属于车辆的像素点对应标注为智能设备这一语义类别。
在实际应用中,可以针对不同的语义类别设置不同的标识信息,例如,道路可以标注为0,车辆可以标注为1,从而可以得到标注有标注语义类别信息的第二图像样本。
在针对训练样本集中的各个图像样本确实是进行语义类别标注还是不进行语义类别标注的过程中,可以按照一定的标注比例来操作,例如,可以选取30%的图像样本作为标注样本,还可以基于场景需求选取对应的标注样本,本公开实施例对此不做具体的限制。
值得说明的是,本公开实施例中的训练截止条件可以是神经网络训练次数达到预设次数(如20次),还可以是其它基于训练需求确定的截止条件,本公开实施例对此不做具体的限制。
考虑到有关伪标注语义类别信息的确定是实现高准确率神经网络训练的关键步骤,接下来可以通过如下步骤对上述确定伪标注语义类别信息的过程进行具体说明:
步骤一、利用前一轮训练完成的神经网络确定第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率;
步骤二、针对第一图像样本的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,将概率最大的预设语义类别作为该图像像素点的目标语义类别;
步骤三、基于第一图像样本的各个图像像素点的目标语义类别的概率,从各个图像像素点中筛选出需要标注的目标图像像素点,并将筛选出的目标图像像素点的目标语义类别,作为伪标注语义类别信息。
这里,为了确定第一图像样本对应的伪标注语义类别信息,本公开实施例可以将第一图像样本输入到前一轮训练完成的神经网络中,通过神经网络输出得到的语义类别概率信息来确定。
其中,上述语义类别概率信息指示的是第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率。例如,针对训练样本集中标注有标注语义类别信息的各个第二图像样本,可以确定所对应的预设语义类别总共有10个,这样,针对第一图像样本中的每个图像像素点,可以确定神经网络输出结果为该图像像素点对应上述10个预设语义类别的概率,也即,可以得到一个10维的语义类别概率信息,每1个维度则对应一个预设语义类别。
考虑到一个预测概率较大的语义类别其作为真实的语义类别的可能性也会越大,因此,本公开实施例在基于语义类别概率信息确定伪标注语义类别信息的过程中,首先可以针对第一图像样本中的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,从中选取出最大概率的预设语义类别作为该图像像素点的目标语义类别,基于选取出的各个图像像素点的目标语义类别的概率,可以从各个图像像素点中筛选出需要标注的目标图像像素点,这里,可以将筛选出的目标图像像素点的目标语义类别,作为伪标注语义类别信息。
其中,本公开实施例是依赖于最大概率的预设语义类别为各个图像像素点选取的目标语义类别,这主要是考虑到最大概率的预设语义类别其符合真实的语义类别的可能性也越大,从而可以降低小概率预设语义类别对神经网络训练的干扰。
在为每个图像像素点确定目标语义类别之后,还可以基于各个目标语义类别的概率的排序结果进行图像像素点的筛选,本公开实施例中,可以筛选排名比较靠前的图像像素点,也即,在第一图像样本所对应的概率范围内对图像像素点进行了筛选,进一步降低小概率预设语义类别对神经网络训练的干扰。
除此之外,在神经网络训练初期,神经网络的准确率较低,这一定程度上可能导致利用初期训练的神经网络所确定的伪标注语义类别信息的准确度也相对较低,这时采用较少图像像素点的伪标注语义类别信息参与到后续神经网络训练的过程中,还可以确保神经网络训练的准确率。
为了进一步提升神经网络训练的准确率,本公开实施例在进行图像像素点的筛选过程中,还可以针对多种预设语义类别中的每种预设语义类别确定对应需要标注的目标图像像素点,而后基于各种预设语义类别确定的目标图像像素点,确定从各个图像像素点中筛选出的目标图像像素点。上述筛选目标图像像素点的方法具体包括如下步骤:
步骤一、对多种预设语义类别中的每种预设语义类别,将第一图像样本的各个图像像素点,按照目标语义类别属于该种预设语义类别的概率由大到小的顺序,选取预设占比的图像像素点;基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点;
步骤二、将各种预设语义类别对应需要标注的目标图像像素点进行组合,得到从各个图像像素点中筛选出的目标图像像素点。
这里,针对多种预设语义类别中的每种预设语义类别,均可以将第一图像样本中的各个图像像素点,按照目标语义类别属于该种预设语义类别的概率由大到小的顺序进行排序,并选取排名靠前的图像像素点,也即,针对每种预设语义类别,均可以选取预设占比的图像像素点,这样,基于选取的图像像素点即可以确定该种预设语义类别对应需要标注的目标图像像素点,将各种预设语义类别对应需要标注的目标图像像素点进行组合即可以得到最终需要标注的目标图像像素点。
其中,本公开实施例基于各种预设语义类别实现了可进行类别标注的目标像素点的筛选,由于针对每种预设语义类别均筛选了概率较高(即排名比较靠前)的图像像素点,这在降低小概率预设语义类别对神经网络训练的干扰而提升神经网络训练准确率的同时,还会由于各类别可以同步被赋予伪标注语义类别信息,从而使得整个训练样本集内的语义类别一定程度可以实现类别均衡。
因此,本公开实施例提供的训练方法在实际进行神经网络训练的过程中,可以随着神经网络训练次数的增多,增大选取的图像像素点的预设占比。例如,随着神经网络训练次数的增加,可以依次采用预设占比为20%,40%,60%,80%,100%确定各个图像像素点中需要标注的目标图像像素点。
在具体应用中,可以针对每轮神经网络训练设置一个预设占比,也可以针对多轮神经网络训练设置一个预设占比,例如,将前5轮神经网络训练所对应的预设占比设置为20%,将下一个5轮神经网络训练所对应的预设占比设置为40%,依此类推,本公开实施例对此不做具体的限制。
本公开实施例提供的训练方法中,针对多种预设语义类别中的每种预设语义类别,还可以将选取出的预设占比的图像像素点,按照对应的目标语义类别属于该种预设语义类别的概率大于预设概率阈值(例如0.5)这一筛选条件进行进一步筛选以确定每种预设语义类别最终需要标注的目标图像像素点,从而进一步降低小概率预设语义类别对神经网络训练的干扰,提升后续神经网络训练的准确率。
本公开实施例在基于上述描述内容确定伪标注语义类别信息之后,可以根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本进行神经网络的本轮训练,利用本轮训练得到的神经网络可以再次对第一图像样本确定伪标注语义类别信息,而后再进行下一轮神经网络的训练,依此类推。可见,每轮神经网络训练的前提是基于伪标注语义类别信息的更新结果,如下可以对本轮神经网络的训练过程进行具体说明。如图2所示,上述训练神经网络的过程具体包括如下步骤:
S1021、将第一图像样本输入至前一轮训练完成的神经网络中,基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定第一损失信息;以及,将第二图像样本输入至前一轮训练完成的神经网络中,基于第二神经网络输出结果以及标注语义类别信息,确定第二损失信息;
S1022、基于第一损失信息和第二损失信息,调整前一轮训练完成的神经网络的参数值,得到本轮训练后的神经网络。
这里,本公开实施例提供的训练方法在实现神经网络训练的过程中,不仅依赖于有伪标注语义类别信息的第一图像样本,还依赖于有标注语义类别信息的第二图像样本。
其中,针对第二图像样本而言,其可以在将该第二图像样本输入至前一轮训练完成的神经网络(即本轮待训练的神经网络)的情况下,基于第二神经网络输出结果以及标注语义类别信息的接近程度实现神经网络的参数值的调整,而针对第一图像样本而言,其可以在将该第一图像样本输入至本轮待训练的神经网络的情况下,基于第一神经网络输出结果以及确定的伪标注语义类别信息的接近程度实现参数值的调整。
除此之外,考虑到针对第一图像样本而言,其所参照的伪标注语义类别信息可能与真实语义类别之间存在偏差,因此,本公开实施例提供的神经网络的训练方法还可以基于伪标注语义类别信息所指向的概率大小同步对神经网络的参数值进行调整。
这里,在伪标注语义类别信息所指向的概率越小时,说明伪标注语义类别信息与神经网络输出结果之间的类别分歧度越高,这时,可以通过调整神经网络的参数值来减小这一分歧度。
本公开实施例中,针对图像样本可以确定其所对应的目标损失函数如下式所示:
其中,Lr用于表示总损失函数,Lr1用于表示第一图像样本所采用的第一损失函数,Lr2用于表示第二图像样本所采用的第二损失函数;H、W、C分别对应图像样本的行像素总数量、列像素总数量、预设语义类别的总数量;fcur1(·)用于表示第一神经网络输出结果,fcur2(·)用于表示第二神经网络输出结果;x1∈RH×W×C用于表示输入的第一图像样本,x2∈RH×W×C用于表示输入的第二图像样本;用于表示为第一图像样本确定的伪标注语义类别信息,/>用于表示为第二图像样本的标注语义类别信息。
另外,这一权重参数,用于表示第一图像样本的每个图像像素点的伪标注语义类别信息与第一神经网络输出结果之间的类别分歧度,且权重越大,对应的类别分歧度越小,权重越小,对应的类别分歧度越大。其中,本公开实施例中可以由伪标注语义类别信息、以及在第一神经网络输出结果中伪标注语义类别信息对应的概率之间的乘积结果来确定上述权重参数。
本公开实施例提供的神经网络的训练方法训练神经网络的过程,即是确定满足上述定义的总损失函数最小化时所对应的神经网络的参数值。
基于上述定义的目标损失函数,针对每个第一图像样本,可以将该第一图像样本输入至本轮待训练的神经网络,基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定第一损失信息,针对每个第二图像样本,将第二图像样本输入至本轮待训练的神经网络中,基于第二神经网络输出结果以及标注的标注语义类别信息,确定第二损失信息,这样,即可以基于上述第一损失信息和第二损失信息共同对神经网络的参数值进行调整。
在训练神经网络的具体过程中,可以基于交叉熵损失来确定损失信息,这里,将伪标注语义类别信息与第一神经网络输出结果代入至上述第一损失函数Lr1中的即可以得到第一交叉熵损失,以及将伪标注语义类别信息、以及在第一神经网络输出结果中伪标注语义类别信息对应的概率代入至权重参数ω(i,j)即可得到权重值,基于第一交叉熵与权重值的乘积结果可以得到第一损失信息。
为了便于进一步理解上述第一损失信息的确定过程,接下来可以结合图3进行具体说明。为了便于进行描述,这里仅以示例的第一图像样本的某图像像素点进行说明。
如图3所示,柱形图(a)用于表示利用本轮训练完成的神经网络对上述图像像素点进行类别预测后的第一神经网络输出结果(即4个预设语义类别分别对应的概率),柱形图(b)用于表示利用前一轮训练完成的神经网络对上述图像像素点进行类别预测后的第一神经网络输出结果,基于该第一神经网络输出结果可以确定该图像像素点的伪标注语义类别(即对应第3个预设语义类别),如柱形图(c)所示。
由柱形图(a)可知,针对该图像像素点进行类别预测时,第2个预设语义类别(按照从左到右的顺序)的概率最大,其被预测为第2个预设语义类别的可能性最大,然而,由于该图像像素点的伪标注语义类别指向的预设语义类别在本轮对应的第一神经网络输出结果中的概率并非最大值,而是概率较大的第3个预设语义类别,这时,利用伪标注语义类别信息、以及在第一神经网络输出结果中伪标注语义类别信息对应的概率(即第3个预设语义类别对应的概率)代入至权重参数ω(i,j)即可得到权重值,可知的是,在第一神经网络输出结果中伪标注语义类别信息对应的概率越低,权重值越低,类别分歧度越高,根据分歧程度大小动态地调整权重值即可实现第一损失信息的调整。
另外,将标注语义类别信息与第二神经网络输出结果代入至上述第二损失函数Lr2中的即可得到第二交叉熵损失,将该第二交叉熵损失作为第二损失信息。
可见,本公开实施例基于有标注语义类别信息的第二图像样本以及确定有伪标注语义类别信息的第一图像样本实现了对神经网络的本轮训练,在得到本轮训练后的神经网络之后,即可以将本轮训练后的神经网络作为下一轮待训练的神经网络,再次基于神经网络确定每个第一图像样本对应的伪标注语义类别信息,而后再次基于确定有伪标注语义类别信息的第一图像样本以及有标注语义类别信息的第二图像样本进行神经网络训练。
随着神经网络训练次数的增加,伪标注语义类别信息的准确性也越高,两者相互配合,从而在实现了对神经网络进行高效训练的前提下,还确保了神经网络训练的准确率。
为了便于进一步理解上述训练神经网络的过程,接下来可以结合图4进行具体说明。这里,仅以示例的第一图像样本和第二图像样本作为神经网络的输入进行说明。
如图4所示,在将第一图像样本输入至前一轮训练完成的神经网络(即本轮待训练的神经网络)的情况下,得到第一神经网络输出结果,基于伪标注语义类别信息、以及在第一神经网络输出结果中伪标注语义类别信息对应的概率,确定类别分歧度对应的权重值,并基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定第一交叉熵损失,基于第一交叉熵损失和权重值共同确定第一损失信息,以调整本轮待训练的神经网络的参数值。
另外,如图4所示,在将第二图像样本输入至本轮待训练的神经网络的情况下,得到第二神经网络输出结果,基于第二神经网络输出结果以及确定的标注语义类别信息,确定第二交叉熵损失(对应第二损失信息),以调整本轮待训练的神经网络的参数值。
基于上述参数调整过程,即可得到本轮训练完成的神经网络。
基于上述实施例一所示的训练神经网络的方法,本公开实施例还可以基于训练好的神经网络对待处理图像进行语义分割,如图5所示,上述实现语义分割的方法具体包括如下步骤:
S501、获取待处理图像;
S502、将获取的待处理图像输入至上述神经网络的训练方法训练完成的神经网络,得到语义分割结果。
这里,可以首先可以将获取的待处理图像输入至上述训练完成的神经网络,得到神经网络输出的有关待处理图像中每个图像像素的语义类别信息,将该语义类别信息作为语义分割结果。
基于上述实施例一所示的训练神经网络的方法,本公开实施例还可以基于训练好的神经网络实现智能设备控制的方案,如图6所示,上述实现智能设备控制的方法具体包括如下步骤:
S601、获取智能设备在行驶过程中采集的道路图像;
S602、将获取的道路图像输入至上述神经网络的训练方法训练完成的神经网络,得到道路图像的语义分割结果;
S603、基于道路图像的语义分割结果,控制智能设备行驶。
这里,针对智能设备所获取的道路图像,可以将该道路图像输入至上述训练好的神经网络,以得到道路图像的语义分割结果,这样,即可以基于该语义分割结果实现智能设备控制。
例如,在针对自动驾驶这一应用领域中,可以在确定出道路图像中的语义分割结果包含行人时,降低智能汽车速度以自动避让行人。
值得说明的是,本公开实施例提供的智能设备控制方法不仅可以适应于上述智能汽车的控制场景中,还可以应用于其它应用场景中,本公开实施例对此不做具体的限制。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与神经网络的训练方法对应的神经网络的训练装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络的训练方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例二
参照图7所示,为本公开实施例提供的一种神经网络的训练装置的结构示意图,装置包括:类别确定模块701、网络训练模块702;其中,
类别确定模块701,用于基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;
网络训练模块702,用于根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;
重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络。
本公开实施例中,由于随着神经网络轮数的增加,神经网络的准确度逐渐提升,这使得利用训练的神经网络为未标注有标注语义类别信息的第一图像样本所确定的伪标注语义类别逐渐趋于真实的语义类别,而越来越趋于真实语义类别的第一图像样本的伪标注语义类别还可以反过来指导神经网络的训练,可见,上述神经网络的训练装置利用部分未标注的图像样本即可实现自训练学习,无需用户全量标注,降低了人工成本,并且在训练过程中不断调整伪标注语义类别,使其逐渐趋于真实的语义类别,可以提升训练神经网络的准确率。
在一种实施方式中,类别确定模块701,用于按照如下步骤确定第一图像样本的伪标注语义类别信息:
利用前一轮训练完成的神经网络确定第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率;
针对第一图像样本的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,将概率最大的预设语义类别作为该图像像素点的目标语义类别;
基于第一图像样本的各个图像像素点的目标语义类别的概率,从各个图像像素点中筛选出需要标注的目标图像像素点,并将筛选出的目标图像像素点的目标语义类别,作为伪标注语义类别信息。
在一种实施方式中,类别确定模块701,用于按照如下步骤从各个图像像素点中筛选出需要标注的目标图像像素点:
针对多种预设语义类别中的每种预设语义类别,将第一图像样本的各个图像像素点,按照目标语义类别属于该种预设语义类别的概率由大到小的顺序,选取预设占比的图像像素点;基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点;
将各种预设语义类别对应需要标注的目标图像像素点进行组合,得到从各个图像像素点中筛选出的目标图像像素点。
在一种实施方式中,类别确定模块701,用于按照如下步骤确定目标图像像素点:
针对多种预设语义类别中的每种预设语义类别,将选取的预设占比的图像像素点中,对应的目标语义类别属于该种预设语义类别的概率大于预设概率阈值的图像像素点,作为该种预设语义类别对应需要标注的目标图像像素点。
在一些实施例中,预设占比随着神经网络训练次数的增多而增大。
在一种实施方式中,网络训练模块702用于按照以下步骤对前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络:
将第一图像样本输入至前一轮训练完成的神经网络中,基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定第一损失信息;以及,将第二图像样本输入至前一轮训练完成的神经网络中,基于第二神经网络输出结果以及标注语义类别信息,确定第二损失信息;
基于第一损失信息和第二损失信息,调整前一轮训练完成的神经网络的参数值,得到本轮训练后的神经网络。
在一些实施例中,网络训练模块702用于按照以下步骤确定第一损失信息:
基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定伪标注语义类别信息与第一神经网络输出结果之间的第一交叉熵损失;以及,
基于伪标注语义类别信息、以及在第一神经网络输出结果中伪标注语义类别信息对应的概率,确定类别分歧度;
将第一交叉熵损失和类别分歧度进行乘积运算,得到第一损失信息。
基于同一发明构思,本公开实施例中还提供了与图像语义分割方法对应的图像语义分割装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像语义分割方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本公开实施例提供的一种图像语义分割装置的架构示意图,该装置包括:图像获取模块801、语义分割模块802;其中,
图像获取模块801,用于获取待处理图像;
语义分割模块802,用于将获取的待处理图像输入至利用实施例一所示的神经网络的训练方法训练完成的神经网络,得到语义分割结果。
基于同一发明构思,本公开实施例中还提供了与智能设备控制方法对应的智能设备控制装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述智能设备控制方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图9所示,为本公开实施例提供的一种智能设备控制装置的结构示意图,上述装置包括:图像获取模块901、语义分割模块902、设备控制模块903;其中,
图像获取模块901,用于获取智能设备在行驶过程中采集的道路图像;
语义分割模块902,用于将获取的道路图像输入至采用上述实施例一所示的神经网络的训练方法训练完成的神经网络,得到道路图像的语义分割结果;
设备控制模块903,用于基于道路图像的语义分割结果,控制智能设备行驶。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
实施例三
本公开实施例还提供了一种电子设备,如图10所示,为本公开实施例提供的电子设备的结构示意图,包括:处理器1001、存储器1002和总线1003,存储器1002存储有处理器1001可执行的机器可读指令,当电子设备运行时,处理器1001与存储器1002之间通过总线1003通信,机器可读指令被处理器1001执行以实现下述步骤:
基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;
根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;
重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络。
在一种实施方式中,上述处理器1001执行的指令中,
基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息,包括:
利用前一轮训练完成的神经网络确定第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率;
针对第一图像样本的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,将概率最大的预设语义类别作为该图像像素点的目标语义类别;
基于第一图像样本的各个图像像素点的目标语义类别的概率,从各个图像像素点中筛选出需要标注的目标图像像素点,并将筛选出的目标图像像素点的目标语义类别,作为伪标注语义类别信息。
在一种实施方式中,上述处理器1001执行的指令中,
基于第一图像样本的各个图像像素点的目标语义类别的概率,从各个图像像素点中筛选出需要标注的目标图像像素点,包括:
针对多种预设语义类别中的每种预设语义类别,将第一图像样本的各个图像像素点,按照目标语义类别属于该种预设语义类别的概率由大到小的顺序,选取预设占比的图像像素点;基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点;
将各种预设语义类别对应需要标注的目标图像像素点进行组合,得到从各个图像像素点中筛选出的目标图像像素点。
在一种实施方式中,上述处理器1001执行的指令中,基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点,包括:
针对多种预设语义类别中的每种预设语义类别,将选取的预设占比的图像像素点中,对应的目标语义类别属于该种预设语义类别的概率大于预设概率阈值的图像像素点,作为该种预设语义类别对应需要标注的目标图像像素点。
在一种实施方式中,预设占比随着神经网络训练次数的增多而增大。
在一种实施方式中,上述处理器1001执行的指令中,
根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络,包括:
将第一图像样本输入至前一轮训练完成的神经网络中,基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定第一损失信息;以及,将第二图像样本输入至前一轮训练完成的神经网络中,基于第二神经网络输出结果以及标注语义类别信息,确定第二损失信息;
基于第一损失信息和第二损失信息,调整前一轮训练完成的神经网络的参数值,得到本轮训练后的神经网络。
在一种实施方式中,上述处理器1001执行的指令中,基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定第一损失信息,包括:
基于第一神经网络输出结果以及确定的伪标注语义类别信息,确定伪标注语义类别信息与第一神经网络输出结果之间的第一交叉熵损失;以及,
基于伪标注语义类别信息、以及在第一神经网络输出结果中伪标注语义类别信息对应的概率,确定类别分歧度;
将第一交叉熵损失和类别分歧度进行乘积运算,得到第一损失信息。
本公开实施例还提供了另一种电子设备,如图11所示,为本公开实施例提供的电子设备的结构示意图,包括:处理器1101、存储器1102和总线1103,存储器1102存储有处理器1101可执行的机器可读指令,当电子设备运行时,处理器1101与存储器1102之间通过总线1103通信,机器可读指令被处理器1101执行以实现下述步骤:
获取待处理图像;
将获取的待处理图像输入至采用实施例一的神经网络的训练方法训练完成的神经网络,得到语义分割结果。
本公开实施例还提供了另一种电子设备,如图12所示,为本公开实施例提供的电子设备的结构示意图,包括:处理器1201、存储器1202和总线1203,存储器1202存储有处理器1201可执行的机器可读指令,当电子设备运行时,处理器1201与存储器1202之间通过总线1203通信,机器可读指令被处理器1201执行以实现下述步骤:
获取智能设备在行驶过程中采集的道路图像;
将获取的道路图像输入至采用实施例一的神经网络的训练方法训练完成的神经网络,得到道路图像的语义分割结果;
基于道路图像的语义分割结果,控制智能设备行驶。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中的神经网络的训练方法或图像语义分割方法或智能设备控制方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的神经网络的训练方法或图像语义分割方法或智能设备控制方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行上述方法实施例中的神经网络的训练方法或图像语义分割方法或智能设备控制方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种神经网络的训练方法,其特征在于,所述方法包括:
利用前一轮训练完成的神经网络确定第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率;
针对所述第一图像样本的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,将概率最大的预设语义类别作为该图像像素点的目标语义类别;
基于所述第一图像样本的各个图像像素点的目标语义类别的概率以及选取图像像素点的预设占比,从所述各个图像像素点中筛选出需要标注的目标图像像素点,并将筛选出的目标图像像素点的目标语义类别,作为所述第一图像样本的伪标注语义类别信息;所述预设占比随着所述神经网络训练次数的增多而增大;
根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;
重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一图像样本的各个图像像素点的目标语义类别的概率以及选取图像像素点的预设占比,从所述各个图像像素点中筛选出需要标注的目标图像像素点,包括:
针对所述多种预设语义类别中的每种预设语义类别,将所述第一图像样本的各个图像像素点,按照目标语义类别属于该种预设语义类别的概率由大到小的顺序,选取所述预设占比的图像像素点;基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点;
将各种预设语义类别对应需要标注的目标图像像素点进行组合,得到从所述各个图像像素点中筛选出的所述目标图像像素点。
3.根据权利要求2所述的方法,其特征在于,所述基于选取的预设占比的图像像素点,确定该种预设语义类别对应需要标注的目标图像像素点,包括:
针对所述多种预设语义类别中的每种预设语义类别,将所述选取的预设占比的图像像素点中,对应的目标语义类别属于该种预设语义类别的概率大于预设概率阈值的图像像素点,作为该种预设语义类别对应需要标注的目标图像像素点。
4.根据权利要求1~3任一所述的方法,其特征在于,所述根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络,包括:
将所述第一图像样本输入至所述前一轮训练完成的神经网络中,基于第一神经网络输出结果以及确定的所述伪标注语义类别信息,确定第一损失信息;以及,将所述第二图像样本输入至所述前一轮训练完成的神经网络中,基于第二神经网络输出结果以及所述标注语义类别信息,确定第二损失信息;
基于所述第一损失信息和所述第二损失信息,调整所述前一轮训练完成的神经网络的参数值,得到本轮训练后的神经网络。
5.根据权利要求4所述的方法,其特征在于,所述基于第一神经网络输出结果以及确定的所述伪标注语义类别信息,确定第一损失信息,包括:
基于所述第一神经网络输出结果以及确定的所述伪标注语义类别信息,确定所述伪标注语义类别信息与所述第一神经网络输出结果之间的第一交叉熵损失;以及,
基于所述伪标注语义类别信息、以及在所述第一神经网络输出结果中所述伪标注语义类别信息对应的概率,确定类别分歧度;
将所述第一交叉熵损失和所述类别分歧度进行乘积运算,得到所述第一损失信息。
6.一种图像语义分割方法,其特征在于,所述方法包括:
获取待处理图像;
将获取的所述待处理图像输入至采用权利要求1至5任一项所述的神经网络的训练方法训练完成的神经网络,得到语义分割结果。
7.一种智能设备控制方法,其特征在于,所述方法包括:
获取智能设备在行驶过程中采集的道路图像;
将获取的所述道路图像输入至采用权利要求1至5任一项所述的神经网络的训练方法训练完成的神经网络,得到所述道路图像的语义分割结果;
基于所述道路图像的语义分割结果,控制所述智能设备行使。
8.一种神经网络的训练装置,其特征在于,所述装置包括:
类别确定模块,用于基于前一轮训练完成的神经网络确定第一图像样本的伪标注语义类别信息;
网络训练模块,用于根据有伪标注语义类别信息的第一图像样本、以及有标注语义类别信息的第二图像样本,对所述前一轮完成的神经网络进行本轮训练,得到本轮训练后的神经网络;重复执行上述步骤,直到满足训练截止条件,得到训练完成的神经网络;
其中,所述类别确定模块用于按照如下步骤确定所述第一图像样本的伪标注语义类别信息:
利用所述前一轮训练完成的神经网络确定所述第一图像样本中每个图像像素点属于多种预设语义类别中每种预设语义类别的概率;
针对所述第一图像样本的每个图像像素点,基于该图像像素点属于多种预设语义类别中每种预设语义类别的概率,将概率最大的预设语义类别作为该图像像素点的目标语义类别;
基于所述第一图像样本的各个图像像素点的目标语义类别的概率以及选取图像像素点的预设占比,从所述各个图像像素点中筛选出需要标注的目标图像像素点,并将筛选出的目标图像像素点的目标语义类别,作为所述第一图像样本的伪标注语义类别信息;所述预设占比随着所述神经网络训练次数的增多而增大。
9.一种图像语义分割装置,其特征在于,所述装置包括:
图像获取模块,用于获取待处理图像;
语义分割模块,用于将获取的所述待处理图像输入至采用权利要求1至5任一项所述的神经网络的训练方法训练完成的神经网络,得到语义分割结果。
10.一种智能设备控制装置,其特征在于,所述装置包括:
图像获取模块,用于获取智能设备在行驶过程中采集的道路图像;
语义分割模块,用于将获取的所述道路图像输入至采用权利要求1至5任一项所述的神经网络的训练方法训练完成的神经网络,得到所述道路图像的语义分割结果;
设备控制模块,用于基于所述道路图像的语义分割结果,控制所述智能设备行使。
11.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过所述总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述神经网络的训练方法的步骤或者如权利要求6所述的图像语义分割方法的步骤或者如权利要求7所述的智能设备控制方法的步骤。
12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述神经网络的训练方法的步骤或者如权利要求6所述的图像语义分割方法的步骤或者如权利要求7所述的智能设备控制方法的步骤。
CN202010296170.4A 2020-04-15 2020-04-15 神经网络的训练、图像语义分割方法及装置 Active CN111489366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010296170.4A CN111489366B (zh) 2020-04-15 2020-04-15 神经网络的训练、图像语义分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010296170.4A CN111489366B (zh) 2020-04-15 2020-04-15 神经网络的训练、图像语义分割方法及装置

Publications (2)

Publication Number Publication Date
CN111489366A CN111489366A (zh) 2020-08-04
CN111489366B true CN111489366B (zh) 2024-06-11

Family

ID=71810942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010296170.4A Active CN111489366B (zh) 2020-04-15 2020-04-15 神经网络的训练、图像语义分割方法及装置

Country Status (1)

Country Link
CN (1) CN111489366B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508093B (zh) * 2020-12-03 2022-01-28 北京百度网讯科技有限公司 一种自训练方法、装置、电子设备和可读存储介质
CN112465840B (zh) * 2020-12-10 2023-02-17 重庆紫光华山智安科技有限公司 语义分割模型训练方法、语义分割方法及相关装置
CN112396605B (zh) * 2021-01-21 2021-04-23 北京安德医智科技有限公司 网络训练方法及装置、图像识别方法和电子设备
CN112925938A (zh) * 2021-01-28 2021-06-08 上海商汤智能科技有限公司 一种图像标注方法、装置、电子设备及存储介质
CN112836704B (zh) * 2021-04-22 2021-07-09 长沙鹏阳信息技术有限公司 一种融合分类检测分割的废纸类别自动识别方法
CN113673529B (zh) * 2021-08-16 2024-06-25 连城凯克斯科技有限公司 语义分割模型训练方法、硅熔融状态检测方法及电子设备
CN114399639A (zh) * 2021-12-29 2022-04-26 北京旷视科技有限公司 一种语义分割模型训练方法、电子设备及存储介质
CN116152491B (zh) * 2023-01-03 2023-12-26 北京海天瑞声科技股份有限公司 一种语义分割方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229478A (zh) * 2017-06-30 2018-06-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN108229479A (zh) * 2017-08-01 2018-06-29 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
CN109543502A (zh) * 2018-09-27 2019-03-29 天津大学 一种基于深度多尺度神经网络的语义分割方法
CN109741332A (zh) * 2018-12-28 2019-05-10 天津大学 一种人机协同的图像分割与标注方法
CN110097131A (zh) * 2019-05-08 2019-08-06 南京大学 一种基于对抗协同训练的半监督医疗图像分割方法
CN110675412A (zh) * 2019-09-27 2020-01-10 腾讯科技(深圳)有限公司 图像分割方法、图像分割模型的训练方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229478A (zh) * 2017-06-30 2018-06-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
CN108229479A (zh) * 2017-08-01 2018-06-29 北京市商汤科技开发有限公司 语义分割模型的训练方法和装置、电子设备、存储介质
CN109543502A (zh) * 2018-09-27 2019-03-29 天津大学 一种基于深度多尺度神经网络的语义分割方法
CN109741332A (zh) * 2018-12-28 2019-05-10 天津大学 一种人机协同的图像分割与标注方法
CN110097131A (zh) * 2019-05-08 2019-08-06 南京大学 一种基于对抗协同训练的半监督医疗图像分割方法
CN110675412A (zh) * 2019-09-27 2020-01-10 腾讯科技(深圳)有限公司 图像分割方法、图像分割模型的训练方法、装置及设备

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Diggning into pseudo label:a low-budget approach for semi-supervised semantic segmentation;Zhenghao Chen et al.;《IEEE Access》;20200311;41830-41837 *
Dong-Hyun Lee et al..Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks.《Workshop on Challenges in Representation Learning》.2013,1-6. *
George Papandreou 等.Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation.《2015 IEEE International Conference on Computer Vision (ICCV)》.2016,第1742-1750页. *
基于伪标签深度学习的高光谱影像半监督分类;刘丽丽 等;《计算机工程与应用》;20191231;第55卷(第17期);191-198 *
基于深度神经网络的图像语义分割方法研究;张浩鑫;《中国优秀硕士学位论文全文数据库》;20200115;第6、43-44、61页 *
张浩鑫.基于深度神经网络的图像语义分割方法研究.《中国优秀硕士学位论文全文数据库,信息科技辑》.2020,(第1期),第6、43-44、61页. *

Also Published As

Publication number Publication date
CN111489366A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111489366B (zh) 神经网络的训练、图像语义分割方法及装置
CN109840531B (zh) 训练多标签分类模型的方法和装置
EP3861526A1 (en) Semantic segmentation with soft cross-entropy loss
CN111598182B (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN109840530A (zh) 训练多标签分类模型的方法和装置
KR20210054563A (ko) 텍스트 시퀀스 인식 방법 및 장치, 전자 기기 및 저장 매체
CN109829391B (zh) 基于级联卷积网络和对抗学习的显著性目标检测方法
CN111833372B (zh) 一种前景目标提取方法及装置
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
US11449707B2 (en) Method for processing automobile image data, apparatus, and readable storage medium
CN108875693A (zh) 一种图像处理方法、装置、电子设备及其存储介质
CN112052949B (zh) 基于迁移学习的图像处理方法、装置、设备和存储介质
CN109740553B (zh) 一种基于识别的图像语义分割数据筛选方法及系统
CN110162657B (zh) 一种基于高层语义特征和颜色特征的图像检索方法及系统
CN113822951A (zh) 图像处理方法、装置、电子设备及存储介质
CN112257855B (zh) 一种神经网络的训练方法及装置、电子设备及存储介质
JP7392707B2 (ja) 画像処理の方法、デバイス及びコンピュータ可読記憶媒体
US20220067888A1 (en) Image processing method and apparatus, storage medium, and electronic device
CN110992365A (zh) 一种基于图像语义分割的损失函数及其设计方法
CN111126420A (zh) 一种建立识别模型的方法及装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN112580750A (zh) 图像识别方法、装置、电子设备及存储介质
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN107274425B (zh) 一种基于脉冲耦合神经网络的彩色图像分割方法及装置
CN108287817B (zh) 一种信息处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant