CN112257726A - 目标检测训练方法、系统、电子设备及计算机可读存储介质 - Google Patents

目标检测训练方法、系统、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112257726A
CN112257726A CN202011180242.5A CN202011180242A CN112257726A CN 112257726 A CN112257726 A CN 112257726A CN 202011180242 A CN202011180242 A CN 202011180242A CN 112257726 A CN112257726 A CN 112257726A
Authority
CN
China
Prior art keywords
noise
consistency
network
loss function
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011180242.5A
Other languages
English (en)
Other versions
CN112257726B (zh
Inventor
朱彦浩
胡郡郡
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011180242.5A priority Critical patent/CN112257726B/zh
Publication of CN112257726A publication Critical patent/CN112257726A/zh
Application granted granted Critical
Publication of CN112257726B publication Critical patent/CN112257726B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测训练方法、系统、电子设备及计算机可读存储介质,方法包括:通过backbone对图像进行特征提取,获得图像特征;图像特征通过噪声方法获得噪声特征;根据图像特征和噪声特征使用一致性正则化方法对RPN网络进行优化;图像特征经过优化后的RPN网络输出proposals;proposals通过噪声方法获得noise proposals;根据proposals和noise proposals使用一致性正则化方法对roi_heads网络进行优化;proposals通过roi_heads网络得到最终的全分类结果和位置结果。本发明基于图像分类领域中一致性正则化的技术路线,使得在目标检测领域也可以使用未标注的数据进行网络的训练,以提高网络结构的精度,做到更高的检测性能。

Description

目标检测训练方法、系统、电子设备及计算机可读存储介质
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于半监督学习的目标检测训练方法、系统、电子设备及计算机可读存储介质。
背景技术
深度学习是目前计算机视觉领域最常用最重要的技术手段,深度学习使用由手工标注的大量图像数据进行迭代训练以实现特定的图像任务,如图像分类/目标检测/语义分割/图像检索等任务。
其中,目标检测任务是深度学习的一大重要分支,在此领域已经有非常多十分优秀的网络结构可以得到足以媲美人类的性能表现,如Faster RCNN/YOLO/SSD等。但训练一个优秀的目标检测器,需要大量的人工标注数据,且数据标注的复杂度较高,要逐图的对图像中感兴趣的目标进行标注,且其标注的数据量较大,通常都是上万的数据量,在实际的应用中需要消耗大量的人力成本。
另一方面,得益于目前互联网技术的飞速发展和信息化社会的推进,在当前的互联网上有巨量的未标注数据资源,这些资源由于缺少标注信息无法被应用于网络训练,如果能够使用这些信息而无需标注则可以大大减少人力成本。为了能够使用这些数据,可以人工标注少量数据与大量的无标注数据进行结合使用,这种方法被称为半监督学习,即一半有标注一半没有标注。在图像分类领域,目前已经有较多的半监督方法使用未标注的数据进行学习,但是由于目标检测领域较为复杂目前还未有成熟的方法进行半监督学习。
发明内容
本发明针对上述在目标检测领域没有成熟的方法进行半监督学习的问题,提出一种基于半监督学习的目标检测训练方法、系统、电子设备及计算机可读存储介质。
为了达到上述目的,本发明采用的技术方案为:
第一方面,本申请实施例提供了一种基于半监督学习的目标检测训练方法,包括:
特征提取步骤:通过backbone对图像进行特征提取,获得图像特征;
一阶段噪声添加步骤:所述图像特征通过噪声方法获得噪声特征;
RPN网络优化步骤:根据所述图像特征和所述噪声特征使用一致性正则化方法对RPN网络进行优化;
proposal输出步骤:所述图像特征经过优化后的RPN网络输出proposals;
二阶段噪声添加步骤:所述proposals通过噪声方法获得noise proposals;
roi_heads网络优化步骤:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
结果生成步骤:所述proposals通过roi_heads网络得到最终的全分类结果和位置结果。
上述基于半监督学习的目标检测训练方法,其中,所述RPN网络优化步骤包括:
一阶段输入步骤:将所述图像特征和所述噪声特征输入至RPN网络中;
一阶段损失计算步骤:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
上述基于半监督学习的目标检测训练方法,其中,所述第一分类一致性损失函数为MSE距离函数;所述第一回归一致性损失函数为Smooth L1损失函数。
上述基于半监督学习的目标检测训练方法,其中,所述roi_heads网络优化步骤包括:
二阶段输入步骤:将所述proposals和所述noise proposals输入至roi_heads网络中;
二阶段损失计算步骤:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
上述基于半监督学习的目标检测训练方法,其中,所述第二分类一致性损失函数为KL散度函数;所述第二回归一致性损失函数为Smooth L1损失函数。
第二方面,本申请实施例提供了一种基于半监督学习的目标检测训练系统,包括:
特征提取模块:通过backbone对图像进行特征提取,获得图像特征;
一阶段噪声添加模块:所述图像特征通过噪声方法获得噪声特征;
RPN网络优化模块:根据所述图像特征和所述噪声特征使用一致性正则化方法对RPN网络进行优化;
proposal输出模块:所述图像特征经过优化后的RPN网络输出proposals;
二阶段噪声添加模块:所述proposals通过噪声方法获得noise proposals;
roi_heads网络优化模块:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
结果生成模块:所述proposals经过优化后的roi_heads网络得到最终的全分类结果和位置结果。
上述基于半监督学习的目标检测训练系统,其中,所述RPN网络优化模块包括:
一阶段输入单元:将所述图像特征和所述噪声特征输入至RPN网络中;
一阶段损失计算单元:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
上述基于半监督学习的目标检测训练系统,其中,所述roi_heads网络优化模块包括:
二阶段输入单元:将所述proposals和所述noise proposals输入至roi_heads网络中;
二阶段损失计算单元:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的目标检测训练方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的目标检测训练方法。
与现有技术相比,本发明的优点和积极效果在于:
1.在图像分类领域,目前已经有较多的半监督方法使用未标注的数据进行学习,但是由于目标检测领域较为复杂目前还未有成熟的方法进行半监督学习。一致化正则方法由于使用了标注数据和未标注数据的混合训练,因此可以使得网络结构较为平滑的学习未标注数据的信息。本方法基于图像分类领域中一致性正则化的技术路线,设计适用于目标检测的训练框架,使得在目标检测的领域也可以使用未标注的数据进行网络的训练,提高了网络结构的精度,做到更高的检测性能。
2.本技术方法使用了Faster RCNN网络结构作为最基本的训练框架,Faster RCNN是目标检测领域中性能表现非常高且稳定的网络结构,是一种二阶段的网络结构,首先对于要预测的图像,进行候选区域的提取,然后对于提取到的候选区域进行二阶段的预测,预测其类别和其位置的准确坐标信息。但此种方法无法适用于没有标注的数据,因此本发明设计的一种适合于目标检测任务的一致性正则方法可以解决无标注数据的训练问题。
附图说明
图1为本发明基于半监督学习的目标检测训练方法的步骤示意图;
图2为图1所揭示的步骤S3的RPN网络优化流程图;
图3为图1所揭示的步骤S6的roi_heads网络优化流程图;
图4为Faster RCNN网络结构的框架图;
图5为本发明基于半监督学习的目标检测训练系统的框架图;
图6为本发明基于半监督学习的目标检测训练系统的逻辑结构示意图;
图7为根据本申请实施例的计算机设备的结构示意图。
其中,附图标记为:
11、特征提取模块;12、一阶段噪声添加模块;13、RPN网络优化模块;131、一阶段输入单元;132、一阶段损失计算单元;14、proposal输出模块;15、二阶段噪声添加模块;16、roi_heads网络优化模块;161、二阶段输入单元;162、二阶段损失计算单元;17、结果生成模块;81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明基于图像分类领域中一致性正则化的技术路线,设计了一种适用于目标检测的训练系统,使得在目标检测的领域也可以使用未标注的数据进行网络的训练。
实施例一:
参照图1至图5所示,本实例揭示了一种基于半监督学习的目标检测训练方法(以下简称“方法”)的具体实施方式。
本技术方法使用了Faster RCNN网络结构作为最基本的训练框架,Faster RCNN是目标检测领域中性能表现非常高且稳定的网络结构,如图4所示,这种方法是一种二阶段的网络结构,首先对于要预测的图像,进行候选区域的提取,即找到网络中可能存在感兴趣的目标的区域,然后对于提取到的候选区域进行二阶段的预测,预测其类别和其位置的准确坐标信息。在只有监督数据时,网络结构使用两次计算的策略以获得更加精确的结果,在一阶段的RPN网络中使用前背景的类别分类和位置回归得到初步的结果,在二阶段中使用全类别的分类和位置回归得到最后的结果。但此种方法无法适用于没有标注的数据,因此本发明设计了一种如图5所示的适合于目标检测任务的一致性正则方法来解决无标注数据的训练问题。
具体而言,如图1所示,本实施例所揭示的方法主要包括以下步骤:
步骤S1:通过backbone对图像进行特征提取,获得图像特征。
然后执行步骤S2:所述图像特征通过噪声方法获得噪声特征。
具体而言,无论此图像特征是有标注的还是没有标注的数据,此图像特征都会使用一些噪声方法生成一些带有噪声的特征。
然后参照图2,执行步骤S3:根据所述图像特征和所述噪声特征使用一致性正则化方法对RPN网络进行优化。
具体而言,一致性正则化方法的基本假设是指一张图像在添加微小扰动和噪声后其网络的输出结果应该是一致的,网络的预测不应该受到微小扰动的影响。一致性正则化的基本技术路线是网络同时训练有标注的数据和无标注的数据,对于有标注的数据和未标注的数据都计算其输出的结果和其加入噪声后输出的结果的一致性正则损失。对于有标注的数据还要计算其与真实的标注信息的损失。一致化正则由于使用了标注数据和未标注数据的混合训练,因此可以使得网络结构较为平滑的学习未标注数据的信息。
其中,步骤S3具体包括以下内容:
S31:将所述图像特征和所述噪声特征输入至RPN网络中;
S32:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
具体而言,在分类一致性损失方面,所述第一分类一致性损失函数为MSE距离函数,其中,MSE是用来度量两个向量的相似度的损失函数,因此,此函数可以表示为:
Figure BDA0002749923290000081
式中,K表示加过噪声的K个噪声特征,C表示图像特征的分类结果,
Figure BDA0002749923290000082
表示噪声特征的分类结果。
在回归一致性损失方面,所述第一回归一致性损失函数为Smooth L1损失函数。在训练策略方面,由于回归问题的训练较为困难,为了防止噪声的添加带来训练的不稳定,对loss结果进行排序只选取最小的五个loss进行梯度更新,因此,此函数可以表示为:
Figure BDA0002749923290000083
式中,R表示图像特征的坐标,
Figure BDA0002749923290000084
表示噪声特征的坐标。
另一方面,如果输入的图像是标注图像,那么其分类和回归结果依然会跟标注计算损失,即保留了如图4所示的原Faster RCNN对于监督学习的设计部分,损失函数使用二分类交叉熵损失和Smooth L1损失。
然后执行步骤S4:所述图像特征经过优化后的RPN网络输出proposals。
具体而言,一阶段的噪声特征并不会继续流入二阶段,即只有图像特征经过优化后的RPN后生成proposal,proposal意为候选区域特征,意思为,在图像中可能存在目标的区域,这个区域映射到特征图上的区域就是proposal,是算法的一个估计值,输出的proposal数目可能会达到几百个。
然后执行步骤S5:所述proposals通过噪声方法获得noise proposals。
具体而言,经过一阶段RPN输出的proposal加入噪声,生成noise proposal,即噪声候选区域特征。
然后参照图3,执行步骤S6:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化。
其中,步骤S6具体包括以下内容:
S61:将所述proposals和所述noise proposals输入至roi_heads网络中;
S62:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
具体而言,在分类一致性损失方面,与第一阶段不同,为了使得整体的网络结构可以有更多的梯度变化,在第二阶段的分类一致性部分,使用KL散度函数为所述第二分类一致性损失函数,此函数可以表示为:
Figure BDA0002749923290000091
式中,K表示加过噪声的K个noise proposal,C表示proposals的分类结果,
Figure BDA0002749923290000092
表示noise proposals的分类结果。
在回归一致性损失部分,由于已经经过了一阶段的位置回归,理想情况下位置已经较为准确了,因此在此部分应该避免太大的loss波动,因此所述第二回归一致性损失函数同样使用了Smooth L1损失函数,但是只选取最小的loss进行梯度更新,此函数为:
Figure BDA0002749923290000093
另一方面,在二阶段针对有标注的数据,依然会经过如图4所示的传统的FasterRCNN的相关损失函数。
实施例二:
结合实施例一所揭示的一种基于半监督学习的目标检测训练方法,本实施例揭示了一种基于半监督学习的目标检测训练系统(以下简称“系统”)的具体实施示例。
参照图6所示,所述系统包括:
特征提取模块11:通过backbone对图像进行特征提取,获得图像特征;
一阶段噪声添加模块12:所述图像特征通过噪声方法获得噪声特征;
RPN网络优化模块13:根据所述图像特征和所述噪声特征使用一致性正则化方法对RPN网络进行优化;
proposal输出模块14:所述图像特征经过优化后的RPN网络输出proposals;
二阶段噪声添加模块15:所述proposals通过噪声方法获得noise proposals;
roi_heads网络优化模块16:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
结果生成模块17:所述proposals经过优化后的roi_heads网络得到最终的全分类结果和位置结果。
具体而言,所述RPN网络优化模块13包括:
一阶段输入单元131:将所述图像特征和所述噪声特征输入至RPN网络中;
一阶段损失计算单元132:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
具体而言,所述roi_heads网络优化模块16包括:
二阶段输入单元161:将所述proposals和所述noise proposals输入至roi_heads网络中;
二阶段损失计算单元162:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
本实施例所揭示的一种基于半监督学习的目标检测训练系统与实施例一所揭示的一种基于半监督学习的目标检测训练方法中其余相同部分的技术方案,请参实施例一所述,在此不再赘述。
实施例三:
结合图7所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种目标检测训练方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的目标检测训练方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种目标检测训练方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,本技术方法使用了Faster RCNN网络结构作为最基本的训练框架,Faster RCNN是目标检测领域中性能表现非常高且稳定的网络结构,但此种方法无法适用于没有标注的数据,因此本发明设计的一种适合于目标检测任务的一致性正则方法可以解决无标注数据的训练问题。本方法基于图像分类领域中一致性正则化的技术路线,设计适用于目标检测的训练框架,使得在目标检测的领域也可以使用未标注的数据进行网络的训练,提高了网络结构的精度,做到更高的检测性能。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种目标检测训练方法,其特征在于,包括:
特征提取步骤:通过backbone对图像进行特征提取,获得图像特征;
一阶段噪声添加步骤:所述图像特征通过噪声方法获得噪声特征;
RPN网络优化步骤:根据所述图像特征和所述噪声特征使用一致性正则化方法对RPN网络进行优化;
proposal输出步骤:所述图像特征经过优化后的RPN网络输出proposals;
二阶段噪声添加步骤:所述proposals通过噪声方法获得noise proposals;
roi_heads网络优化步骤:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
结果生成步骤:所述proposals通过roi_heads网络得到最终的全分类结果和位置结果。
2.根据权利要求1所述的目标检测训练方法,其特征在于,所述RPN网络优化步骤包括:
一阶段输入步骤:将所述图像特征和所述噪声特征输入至RPN网络中;
一阶段损失计算步骤:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
3.根据权利要求2所述的目标检测训练方法,其特征在于,所述第一分类一致性损失函数为MSE距离函数;所述第一回归一致性损失函数为Smooth L1损失函数。
4.根据权利要求1所述的目标检测训练方法,其特征在于,所述roi_heads网络优化步骤包括:
二阶段输入步骤:将所述proposals和所述noise proposals输入至roi_heads网络中;
二阶段损失计算步骤:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
5.根据权利要求4所述的目标检测训练方法,其特征在于,所述第二分类一致性损失函数为KL散度函数;所述第二回归一致性损失函数为Smooth L1损失函数。
6.一种目标检测训练系统,其特征在于,包括:
特征提取模块:通过backbone对图像进行特征提取,获得图像特征;
一阶段噪声添加模块:所述图像特征通过噪声方法获得噪声特征;
RPN网络优化模块:根据所述图像特征和所述噪声特征使用一致性正则化方法对RPN网络进行优化;
proposal输出模块:所述图像特征经过优化后的RPN网络输出proposals;
二阶段噪声添加模块:所述proposals通过噪声方法获得noise proposals;
roi_heads网络优化模块:根据所述proposals和所述noise proposals使用一致性正则化方法对roi_heads网络进行优化;
结果生成模块:所述proposals经过优化后的roi_heads网络得到最终的全分类结果和位置结果。
7.根据权利要求6所述的目标检测训练系统,其特征在于,所述RPN网络优化模块包括:
一阶段输入单元:将所述图像特征和所述噪声特征输入至RPN网络中;
一阶段损失计算单元:使用第一分类一致性损失函数和第一回归一致性损失函数计算所述图像特征和所述噪声特征的结果向量的一致性。
8.根据权利要求6所述的目标检测训练系统,其特征在于,所述roi_heads网络优化模块包括:
二阶段输入单元:将所述proposals和所述noise proposals输入至roi_heads网络中;
二阶段损失计算单元:使用第二分类一致性损失函数和第二回归一致性损失函数计算所述proposals和所述noise proposals的结果向量的一致性。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的目标检测训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的目标检测训练方法。
CN202011180242.5A 2020-10-29 2020-10-29 目标检测训练方法、系统、电子设备及计算机可读存储介质 Active CN112257726B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011180242.5A CN112257726B (zh) 2020-10-29 2020-10-29 目标检测训练方法、系统、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011180242.5A CN112257726B (zh) 2020-10-29 2020-10-29 目标检测训练方法、系统、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112257726A true CN112257726A (zh) 2021-01-22
CN112257726B CN112257726B (zh) 2023-12-15

Family

ID=74262339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011180242.5A Active CN112257726B (zh) 2020-10-29 2020-10-29 目标检测训练方法、系统、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112257726B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569857A (zh) * 2021-07-20 2021-10-29 上海明略人工智能(集团)有限公司 字幕识别方法、系统、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148077A1 (en) * 2013-06-28 2016-05-26 President And Fellows Of Harvard College Systems and methods for machine learning enhanced by human measurements
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和系统、电力设备的识别方法
CN111046980A (zh) * 2020-03-16 2020-04-21 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
US20200160997A1 (en) * 2018-11-02 2020-05-21 University Of Central Florida Research Foundation, Inc. Method for detection and diagnosis of lung and pancreatic cancers from imaging scans
CN111505705A (zh) * 2020-01-19 2020-08-07 长江大学 基于胶囊神经网络的微地震p波初至拾取方法及系统
CN111553397A (zh) * 2020-04-21 2020-08-18 东南大学 基于区域全卷积网络和自适应的跨域目标检测方法
CN111695466A (zh) * 2020-06-01 2020-09-22 西安电子科技大学 一种基于特征mixup的半监督极化SAR地物分类方法
CN111814816A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种目标检测方法、装置及其存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148077A1 (en) * 2013-06-28 2016-05-26 President And Fellows Of Harvard College Systems and methods for machine learning enhanced by human measurements
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和系统、电力设备的识别方法
US20200160997A1 (en) * 2018-11-02 2020-05-21 University Of Central Florida Research Foundation, Inc. Method for detection and diagnosis of lung and pancreatic cancers from imaging scans
CN111814816A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种目标检测方法、装置及其存储介质
CN111505705A (zh) * 2020-01-19 2020-08-07 长江大学 基于胶囊神经网络的微地震p波初至拾取方法及系统
CN111046980A (zh) * 2020-03-16 2020-04-21 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN111553397A (zh) * 2020-04-21 2020-08-18 东南大学 基于区域全卷积网络和自适应的跨域目标检测方法
CN111695466A (zh) * 2020-06-01 2020-09-22 西安电子科技大学 一种基于特征mixup的半监督极化SAR地物分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JISOO JEONG ET AL.: "Consistency-based semi-supervised learning for object detection", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS *
YUHUA CHEN ET AL.: "Domain Adaptive Faster R-CNN for Object Detection in the Wild", ARXIV:1803.03243V1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569857A (zh) * 2021-07-20 2021-10-29 上海明略人工智能(集团)有限公司 字幕识别方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN112257726B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN112990297B (zh) 多模态预训练模型的训练方法、应用方法及装置
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
WO2019000293A1 (en) TECHNIQUES FOR VIDEO DENSE DESCRIPTIONS
CN112966754A (zh) 样本筛选方法、样本筛选装置及终端设备
CN112257726A (zh) 目标检测训练方法、系统、电子设备及计算机可读存储介质
CN113743277A (zh) 一种短视频分类方法及系统、设备和存储介质
CN114048288A (zh) 细粒度情感分析方法、系统、计算机设备和存储介质
CN113762459A (zh) 一种模型训练方法、文本生成方法、装置、介质及设备
CN112732920A (zh) 基于bert的多特征融合实体情感分析方法及系统
CN111460224A (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
CN113255334A (zh) 一种计算字向量方法、系统、电子设备及存储介质
US20220083886A1 (en) System architecture and methods of determining device behavior
CN113569703A (zh) 真实分割点判断方法、系统、存储介质及电子设备
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN114091458A (zh) 基于模型融合的实体识别方法和系统
CN113139374A (zh) 一种文档相似段落的标记查询方法、系统、设备及存储介质
CN113536773A (zh) 商品评论情感分析方法、系统、电子设备及存储介质
CN112749542A (zh) 一种商品名称匹配方法、系统、设备及存储介质
CN113554145A (zh) 确定神经网络的输出的方法、电子设备和计算机程序产品
CN112417856B (zh) 提升机器写作质量的方法、系统、计算机设备及存储介质
CN112395859B (zh) 一种文本处理方法及相关装置
CN113762381B (zh) 一种情感分类方法、系统、电子设备及介质
CN113343669B (zh) 一种学习字向量方法、系统、电子设备及存储介质
CN112906726B (zh) 模型训练方法、图像处理方法、装置、计算设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant