CN114677566B - 深度学习模型的训练方法、对象识别方法和装置 - Google Patents

深度学习模型的训练方法、对象识别方法和装置 Download PDF

Info

Publication number
CN114677566B
CN114677566B CN202210371621.5A CN202210371621A CN114677566B CN 114677566 B CN114677566 B CN 114677566B CN 202210371621 A CN202210371621 A CN 202210371621A CN 114677566 B CN114677566 B CN 114677566B
Authority
CN
China
Prior art keywords
deep learning
learning model
image
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210371621.5A
Other languages
English (en)
Other versions
CN114677566A (zh
Inventor
叶晓青
孙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210371621.5A priority Critical patent/CN114677566B/zh
Publication of CN114677566A publication Critical patent/CN114677566A/zh
Application granted granted Critical
Publication of CN114677566B publication Critical patent/CN114677566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉和图像处理技术领域。具体实现方案为:将样本图像的增强图像输入第一深度学习模型,得到第一特征信息;将样本图像输入第二深度学习模型,得到第二特征信息;以及根据第一特征信息和第二特征信息,训练第二深度学习模型。本公开还提供了一种对象识别方法、装置、电子设备和存储介质。

Description

深度学习模型的训练方法、对象识别方法和装置
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、计算机视觉和图像处理技术领域。更具体地,本公开提供了一种深度学习模型的训练方法、对象识别方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的发展,深度学习模型广泛地应用于识别或检测图像中的对象。
发明内容
本公开提供了一种深度学习模型的训练方法、对象识别方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种深度学习模型的训练方法,该方法包括:将样本图像的增强图像输入第一深度学习模型,得到第一特征信息;将所述样本图像输入第二深度学习模型,得到第二特征信息;以及根据所述第一特征信息和所述第二特征信息,训练所述第二深度学习模型。
根据本公开的另一方面,提供了一种对象识别方法,该方法包括:将目标图像输入第二深度学习模型,得到目标特征信息;以及根据所述目标特征信息,识别所述目标图像中的目标对象,其中,所述第二深度学习模型是根据本公开提供的方法训练的
根据本公开的另一方面,提供了一种深度学习模型的训练装置,该装置包括:第一获得模块,用于将样本图像的增强图像输入第一深度学习模型,得到第一特征信息;第二获得模块,用于将所述样本图像输入第二深度学习模型,得到第二特征信息;以及训练模块,用于根据所述第一特征信息和所述第二特征信息,训练所述第二深度学习模型。
根据本公开的另一方面,提供了对象识别装置,该装置包括:第四获得模块,用于将目标图像输入第二深度学习模型,得到目标特征信息;以及识别模块,用于根据所述目标特征信息,识别所述目标图像中的目标对象,其中,所述第二深度学习模型是根据本公开提供的装置训练的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
图2A是根据本公开的一个实施例的样本图像的示意图;
图2B是根据本公开的一个实施例的增强图像的示意图;
图3是根据本公开的另一个实施例的深度学习模型训练方法的流程图;
图4是根据本公开的另一个实施例的深度学习模型训练方法的流程图;
图5是根据本公开的一个实施例的对待预训练的第一深度学习模型进行预训练的原理图;
图6A是根据本公开的另一个实施例的样本图像的示意图;
图6B是根据本公开的另一个实施例的增强图像的示意图;
图6C是根据本公开的另一个实施例的深度学习模型的训练方法的原理图;
图7是根据本公开的一个实施例的输出图像的示意图;
图8是根据本公开的一个实施例的对象识别方法的流程图;
图9是根据本公开的一个实施例的深度学习模型的训练装置的框图;
图10是根据本公开的一个实施例的对象识别装置的框图;以及
图11是根据本公开的一个实施例的可以应用深度学习模型的训练方法和/或对象识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
深度学习模型可以应用于识别或检测图像中的对象。例如,可以利用深度学习模型识别车辆采集的图像中的车道线。
然而,车辆采集的部分图像中的车道线与背景(例如路面)的区别较小,深度学习模型的难以准确地识别出这部分图像中的车道线。
图1是根据本公开的一个实施例的深度学习模型的训练方法的流程图。
如图1所示,该方法100可以包括操作S110至操作S130。
在操作S110,将样本图像的增强图像输入第一深度学习模型,得到第一特征信息。
例如,样本图像可以是包括车道线的图像。在一个示例中,样本图像的背景可以是路面。
例如,样本图像的增强图像可以对样本图像进行图像增强处理得到的。在一个示例中,可以对样本图像Img_real进行图像增强处理,得到样本图像Img_real的增强图像Img_enhance。
例如,第一深度学习模型的主干网络例如可以是ResNet(Residual Network,残差网络)。在一个示例中,第一深度学习模型的主干网络可以是ResNet-50。
在操作S120,将样本图像输入第二深度学习模型,得到第二特征信息。
例如,第二深度学习模型的主干网络也可以是ResNet。在一个示例中,第一深度学习模型和第二深度学习模型的结构可以一致,第二深度学习模型的主干网络也可以是ResNet-50。
在操作S130,根据第一特征信息和第二特征信息,训练第二深度学习模型。
例如,可以基于第一特征信息和第二特征信息之间的差异,调整第二深度学习模型的参数,使得第二特征信息与第一特征信息之间的差异减小。在一个示例中,可以利用L1损失函数或L2损失函数确定第一特征信息和第二特征信息之间的差异。
通过本公开实施例,第一深度学习模型可以获取增强图像中的信息。第一深度学习模型可以更加准确的识别出目标对象。通过减小第一特征信息和第二特征信息之间的差异,第二深度学习模型可以从样本图像中获取更加有效的信息,使得第二深度学习模型的性能提升。
可以理解,样本图像具有标签,相应地,样本图像中样本对象的位置是可以通过各种方式确定的。例如,样本图像中的车道线的位置是可以人工确定的。进而,可以对样本对象进行图像增强处理。然而,在实际应用过程中,例如车辆采集的图像中对象(车道线)可以由深度学习模型识别出来。在识别之前,对象的位置是未知的。而利用方法100训练出的第二深度学习模型可以从例如车辆采集的图像中获取更加有效的信息,以更加准确地识别图像中对象。
在一些实施例中,样本图像的标签可以是对样本进行人工标注得到的。样本图像的标签可以包括样本图像中样本对象的类别信息、位置信息、轮廓信息和颜色信息等。
在一些实施例中,增强图像是对样本图像中样本对象进行图像增强处理得到的,图像增强处理包括颜色增强处理和轮廓增强处理的至少一种。下面将结合图2A和图2B进行详细说明。
图2A是根据本公开的一个实施例的样本图像的示意图。
如图2A所示,样本图像201中包括样本对象2011。
图2B是根据本公开的一个实施例的增强图像的示意图。
如图2B所示,对上文所述的样本图像201中样本对象2011进行图像增强处理,可以得到增强图像202。例如,可以对样本对象2011进行颜色增强处理和轮廓增强处理,得到增强后的样本对象2011’。在一个示例中,可以调整样本对象2011所处区域的像素值,以进行颜色增强处理。
例如,样本图像201的标签可以包括样本对象2011的位置信息。样本对象2011的位置信息例如可以包括样本对象2011左上顶点或中心点的坐标。
例如,样本图像201的标签可以包括样本对象2011的轮廓信息。样本对象2011的轮廓信息例如可以表征样本对象2011的轮廓。在一个示例中,样本对象2011的轮廓可以是包围样本对象2011的标注框。
例如,样本图像201的标签可以包括样本对象2011的类别信息。样本对象2011的类别信息例如可以为车道线。
例如,样本图像201的标签可以包括样本对象2011的颜色信息。样本对象2011的颜色信息例如可以为白色。
例如,样本图像201的标签可以是对样本图像201进行人工标注得到的。在一个示例中,可以人工确定样本对象2011的类别信息、位置信息、轮廓信息和颜色信息等信息,以对样本图像201进行人工标注。
图3是根据本公开的另一个实施例的深度学习模型的训练方法的流程图。
如图3所示,该方法330可以根据第一特征信息和第二特征信息,训练第二深度学习模型,下面将结合操作S331至操作S332进行详细说明。
在操作S331,根据目标区域、第一特征信息和第二特征信息,确定第一损失值。
在本公开实施例中,目标区域是样本图像中样本对象所处的区域。
例如,样本图像中样本对象是已知的。在一个示例中,可以人工确定样本对象所处的区域。
例如,目标区域包括第一子区域和第二子区域,第一子区域是根据样本对象的轮廓确定的,第二子区域是根据预设偏移量和样本对象的轮廓确定的。
在一个示例中,可以将样本对象的轮廓确定的区域作为第一子区域。可以基于预设偏移量将样本对象的轮廓外扩,得到外扩后的轮廓。将样本对象的轮廓和外扩后的轮廓之间的区域确定为第二子区域。
可以根据目标区域,得到一个矩阵M_foreground。矩阵M_foreground中与第一子区域对应的元素的值例如可以为1,与第二子区域对应的元素的值例如可以为0。
在本公开实施例中,可以确定第一特征信息和第二特征信息之间的差异值。
例如,将样本图像Img_real的增强图像Img_enhance输入第一深度学习模型,可以得到第一特征信息F_enhance。将样本图像Img_real输入第二深度学习模型,可以得到第二特征信息F_real。可以确定二者之间的差异值。
在本公开实施例中,可以根据目标区域和差异值,确定第一损失值。
例如,可以通过以下公式,确定第一损失值L_da:
L_da=||F_enhance-F_real||2*M_foreground (公式一)
在操作S332,根据第一损失值,训练第二深度学习模型。
在本公开实施例中,可以根据第二特征信息和样本图像的标签,确定第二损失值。
例如,可以根据第二特征信息,确定一个输出结果。根据输出结果与标签之间的差异,可以确定第二损失值L_task。
在本公开实施例中,可以根据第一损失值和第二损失值,训练第二深度学习模型
例如,可以将第一损失值L_da和第二损失值L_task相加,得到损失值L。根据损失值L调整第二深度学习的参数,以训练第二深度学习模型。
在一个示例中,可以通过以下公式确定损失值L:
L=L_da+L_task (公式二)
通过本公开实施例,根据目标区域的相关信息确定了第一损失值,可以使得经该第一损失值训练的第二深度学习模型可从图像中获取更加有效的信息,进一步提高第二深度学习模型的性能。
图4是根据本公开的另一个实施例的深度学习模型的训练方法的流程图。
如图4所示,该方法400包括操作S401至S402。可以理解,方法400可以在上文所述的方法100之前执行。
在操作S401,将增强图像输入待预训练的第一深度学习模型,得到增强特征信息。
例如,可以确定样本图像集中多个样本图像中每个样本图像的增强图像,以得到增强图像集。该增强图像集可以用于对待预训练的第一深度学习模型进行预训练。
在操作S402,根据增强特征信息和样本图像的标签,对待预训练的第一深度学习模型进行预训练,得到第一深度学习模型。
例如,根据增强特征信息可以得到增强输出结果,根据增强输出结果和标签之间的差异,可以得到一个损失值,根据该损失值调整待预训练的第一深度学习模型的参数,以对第一深度学习模型进行预训练。
通过本公开实施例,可以对待预训练的第一深度学习模型进行预训练,以便得到的第一深度学习模型可以根据增强图像输出第一特征信息。该第一特征信息可以有效地表征样本对象被增强后的信息。
在一些实施例中,上文所述的方法100或方法330中的第一深度学习模型,可以是对待预训练的第一深度学习模型进行预训练得到的。
在一些实施例中,第二深度学习模型的初始化参数是根据第一深度学习模型的参数确定的。例如,在对待预训练的第一深度学习模型进行预训练之后,得到了第一深度学习模型。第二深度学习模型的初始化参数可以是根据该第一深度学习模型的参数确定的。
图5是根据本公开的一个实施例的对待预训练的第一深度学习模型进行预训练的原理图。
如图5所示,可以将增强图像502输入待预训练的第一深度学习模型510’,得到增强特征信息511。可以利用各种损失函数根据增强特征信息511和样本图像的标签503,确定第三损失值533。根据第三损失值533,调整待预训练的第一深度学习模型的参数,以对待预训练的第一深度学习模型510’进行预训练。
在一个示例中,可以根据增强特征信息502得到一个增强输出结果。根据增强输出结果和标签503,利用CE(Cross Entropy,交叉熵)损失函数、L1损失函数和/或L2损失函数,可以确定一个第三损失值533。
图6A是根据本公开的另一个实施例的样本图像的示意图。
如图6A所示,样本图像601中包括多个样本对象。例如,样本图像601中包括样本对象6011。可以理解,样本图像601中还包括其他样本对象。
图6B是根据本公开的另一个实施例的增强图像的示意图。
如图6B所示,对上文所述的样本图像601中样本对象6011进行图像增强处理,可以得到增强图像602。例如,可以对样本对象6011进行颜色增强处理和轮廓增强处理,得到增强后的样本对象6011’。
图6C是根据本公开的另一个实施例的深度学习模型的训练方法的原理图。
如图6C所示,可以将上文所述的增强图像602输入第一深度学习模型610,得到第一特征信息611。可以将上文所述的样本图像601输入第二深度学习模型620,得到第二特征信息621。
利用上文所述的公式一,根据目标区域、第一特征信息611和第二特征信息621,可以确定第一损失值631。在一个示例中,目标区域可以为样本图像601中多个样本对象所处的区域。
根据样本图像601的标签603和第二特征信息621,可以确定第二损失值632。在一个示例中,可以利用上文所述的CE损失函数、L1损失函数和/或L2损失函数,确定第二损失值632。在本公开实施例中,关于标签603的详细描述,可以参考关于样本图像201的标签的详细描述,本公开在此不再赘述。
可以根据第一损失值631和第二损失值632,调整第二深度学习模型620的参数,以训练第二深度学习模型620。
图7是根据本公开的一个实施例的输出图像的示意图。
在获得经训练的第二深度学习模型之后,可以将上文所述的样本图像601输入经训练的第二深度学习模型,得到一个第二特征信息。根据该第二特征信息,可以得到一个输出结果。可以对样本图像601进行处理,例如调整样本图像601的亮度。将输出结果添加到处理后的样本图像中,得到输出图像701。
如图7所示,输出图像701中包括多个车道线。
图8是根据本公开的一个实施例的对象识别方法的流程图。
如图8所示,该方法800包括操作S810至操作S820。
在操作S810,将目标图像输入第二深度学习模型,得到目标特征信息。
在本公开实施例中,第二深度学习模型是根据本公开提供的方法训练的。
例如,第二深度学习模型例如可以是根据方法100训练的。
例如,目标图像可以车辆采集的图像。在一个示例中,目标图像中可以包括至少一个目标对象。
在操作S820,根据目标特征信息,识别目标图像中的目标对象。
例如,可以识别目标对象的类别信息、位置信息等。在一个示例中,类别信息例如可以表征长实线、虚线等等。
通过本公开实施例,经训练的第二深度学习模型可以更加准确地识别目标对象,提高了例如车道线检测的鲁棒性。
需要说明的是,本公开实施例中,以样本对象或目标对象为车道线进行了详细说明。但本公开中的对象不限于此。例如,样本图像中的样本对象也可以是标识牌或车辆等等。又例如,目标图像中的目标对象也可以是标识牌或车辆等等。
需要说明的是,本公开实施例中,样本图像的标签可以是对样本图像进行人工标注得到的。但本公开中获得标签的方式不限于此。例如,可以利用训练好的深度学习模型对样本图像进行处理,得到样本图像的处理结果。可以根据该处理结果,得到样本图像的标签。在一个示例中,上文所述的训练好的深度学习模块例如可以是目标检测模型、语义分割模型或实例分割模型等模型。
图9是根据本公开的一个实施例的深度学习模型的训练装置的框图。
如图9所示,该装置900可以包括第一获得模块910、第二获得模块920和训练模块930。
第一获得模块910,用于将样本图像的增强图像输入第一深度学习模型,得到第一特征信息。
第二获得模块920,用于将所述样本图像输入第二深度学习模型,得到第二特征信息。
训练模块930,用于根据所述第一特征信息和所述第二特征信息,训练所述第二深度学习模型。
在一些实施例中,所述训练模块包括:第一确定子模块,用于根据目标区域、所述第一特征信息和所述第二特征信息,确定第一损失值,其中,所述目标区域是所述样本图像中样本对象所处的区域;以及训练子模块,用于根据所述第一损失值,训练所述第二深度学习模型。
在一些实施例中,所述第一确定子模块包括:第一确定单元,用于确定所述第一特征信息和所述第二特征信息之间的差异值;以及第二确定单元,用于根据所述目标区域和所述差异值,确定所述第一损失值。
在一些实施例中,所述训练子模块包括:第三确定单元,用于根据所述第二特征信息和所述样本图像的标签,确定第二损失值;以及训练单元,用于根据所述第一损失值和所述第二损失值,训练所述第二深度学习模型。
在一些实施例中,所述目标区域包括所述第一子区域和第二子区域,所述第一子区域是根据所述样本对象的轮廓确定的,所述第二子区域是根据预设偏移量和所述样本对象的轮廓确定的。
在一些实施例中,所述增强图像是对所述样本图像中样本对象进行图像增强处理得到的,所述图像增强处理包括颜色增强处理和轮廓增强处理的至少一种。
在一些实施例中,装置900还包括:第三获得模块,用于将所述增强图像输入待预训练的第一深度学习模型,得到增强特征信息;以及预训练模块,用于根据所述增强特征信息和所述样本图像的标签,对所述待预训练的第一深度学习模型进行预训练,得到第一深度学习模型。
在一些实施例中,所述第二深度学习模型的初始化参数是根据所述第一深度学习模型的参数确定的。
图10是根据本公开的另一个实施例的对象识别装置的框图。
如图10所示,该装置1000可以包括第四获得模块1010和识别模块1020。
第四获得模块1010,用于将目标图像输入第二深度学习模型,得到目标特征信息。
识别模块1020,用于根据所述目标特征信息,识别所述目标图像中的目标对象,
例如,所述第二深度学习模型是根据本公开提供的装置训练的。
在一个示例中,第二深度学习模型是根据本公开提供的装置900训练的本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和图像。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/图像。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如深度学习模型的训练方法和/或对象识别方法。例如,在一些实施例中,深度学习模型的训练方法和/或对象识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的深度学习模型的训练方法和/或对象识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度学习模型的训练方法和/或对象识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收图像和指令,并且将图像和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程图像处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为图像服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字图像通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (8)

1.一种深度学习模型的训练方法,包括:
将样本图像的增强图像输入待预训练的第一深度学习模型,得到增强特征信息;
根据所述增强特征信息和所述样本图像的标签,对所述待预训练的第一深度学习模型进行预训练,得到第一深度学习模型;
将所述增强图像输入所述第一深度学习模型,得到第一特征信息,其中,所述样本图像中包括样本对象,所述增强图像是对所述样本图像中样本对象进行图像增强处理得到的,所述图像增强处理包括根据样本图像的标签中的轮廓信息对所述样本图像进行的轮廓增强处理;
将所述样本图像输入第二深度学习模型,得到第二特征信息,其中,所述第二深度学习模型的初始化参数是根据所述第一深度学习模型的参数确定的;
确定所述第一特征信息和所述第二特征信息之间的差异值;
根据目标区域,确定目标矩阵,其中,所述目标区域是所述样本图像中样本对象所处的区域,所述目标区域包括第一子区域和第二子区域,所述第一子区域是根据所述样本对象的轮廓确定的,所述第二子区域是根据预设偏移量和所述样本对象的轮廓确定的,所述目标矩阵中与所述第一子区域对应的元素的值为非零值;
根据所述目标矩阵和所述差异值,确定第一损失值;
根据所述第二特征信息和所述样本图像的标签,确定第二损失值;以及
根据所述第一损失值和所述第二损失值,训练所述第二深度学习模型,得到经训练的第二深度学习模型。
2.根据权利要求1所述的方法,其中,所述图像增强处理还包括颜色增强处理。
3. 一种对象识别方法,包括:
将目标图像输入第二深度学习模型,得到目标特征信息;以及
根据所述目标特征信息,识别所述目标图像中的目标对象,
其中,所述第二深度学习模型是根据权利要求1至2任一项所述的方法训练的。
4.一种深度学习模型的训练装置,包括:
第三获得模块,用于将样本图像的增强图像输入待预训练的第一深度学习模型,得到增强特征信息;
预训练模块,用于根据所述增强特征信息和所述样本图像的标签,对所述待预训练的第一深度学习模型进行预训练,得到第一深度学习模型;
第一获得模块,用于将所述增强图像输入所述第一深度学习模型,得到第一特征信息,其中,所述样本图像中包括样本对象,所述增强图像是对所述样本图像中样本对象进行图像增强处理得到的,所述图像增强处理包括根据样本图像的标签中的轮廓信息对所述样本图像进行的轮廓增强处理;
第二获得模块,用于将所述样本图像输入第二深度学习模型,得到第二特征信息,其中,所述第二深度学习模型的初始化参数是根据所述第一深度学习模型的参数确定的;
第一确定单元,用于确定所述第一特征信息和所述第二特征信息之间的差异值;
第二确定单元,用于根据目标区域,确定目标矩阵以及根据所述目标矩阵和所述差异值,确定第一损失值,其中,所述目标区域是所述样本图像中样本对象所处的区域,所述目标区域包括第一子区域和第二子区域,所述第一子区域是根据所述样本对象的轮廓确定的,所述第二子区域是根据预设偏移量和所述样本对象的轮廓确定的,所述目标矩阵中与所述第一子区域对应的元素的值为非零值;
第三确定单元,用于根据所述第二特征信息和所述样本图像的标签,确定第二损失值;以及
训练单元,用于根据所述第一损失值和所述第二损失值,训练所述第二深度学习模型得到经训练的第二深度学习模型。
5.根据权利要求4所述的装置,其中,所述图像增强处理还包括颜色增强处理。
6. 一种对象识别装置,包括:
第四获得模块,用于将目标图像输入第二深度学习模型,得到目标特征信息;以及
识别模块,用于根据所述目标特征信息,识别所述目标图像中的目标对象,
其中,所述第二深度学习模型是根据权利要求4至5任一项所述的装置训练的。
7. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至3中任一项所述的方法。
CN202210371621.5A 2022-04-08 2022-04-08 深度学习模型的训练方法、对象识别方法和装置 Active CN114677566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371621.5A CN114677566B (zh) 2022-04-08 2022-04-08 深度学习模型的训练方法、对象识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371621.5A CN114677566B (zh) 2022-04-08 2022-04-08 深度学习模型的训练方法、对象识别方法和装置

Publications (2)

Publication Number Publication Date
CN114677566A CN114677566A (zh) 2022-06-28
CN114677566B true CN114677566B (zh) 2023-10-17

Family

ID=82078698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371621.5A Active CN114677566B (zh) 2022-04-08 2022-04-08 深度学习模型的训练方法、对象识别方法和装置

Country Status (1)

Country Link
CN (1) CN114677566B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082920B (zh) * 2022-08-16 2022-11-04 北京百度网讯科技有限公司 深度学习模型的训练方法、图像处理方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
CN111767920A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 感兴趣区域的提取方法、装置、电子设备及存储介质
CN112446299A (zh) * 2020-11-05 2021-03-05 五邑大学 车流密度检测方法、系统及计算机可读存储介质
WO2021059527A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 学習装置、学習方法、及び、記録媒体
WO2021223738A1 (zh) * 2020-05-08 2021-11-11 深圳前海微众银行股份有限公司 模型参数的更新方法、装置、设备及存储介质
CN113761998A (zh) * 2020-09-01 2021-12-07 北京京东尚科信息技术有限公司 目标对象识别方法、装置、计算设备及介质
WO2021258920A1 (zh) * 2020-06-24 2021-12-30 百果园技术(新加坡)有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
WO2022002059A1 (zh) * 2020-06-30 2022-01-06 北京灵汐科技有限公司 初始神经网络的训练方法、图像识别方法、装置、设备及介质
CN114049512A (zh) * 2021-09-22 2022-02-15 北京旷视科技有限公司 模型蒸馏方法、目标检测方法、装置及电子设备
WO2022052445A1 (zh) * 2020-09-09 2022-03-17 苏州科达科技股份有限公司 基于深度学习的图像增强方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3427187A1 (en) * 2016-03-11 2019-01-16 Siemens Mobility GmbH Deep-learning based feature mining for 2.5d sensing image search
CN110472483B (zh) * 2019-07-02 2022-11-15 五邑大学 一种面向sar图像的小样本语义特征增强的方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194400A (zh) * 2017-05-31 2017-09-22 北京天宇星空科技有限公司 一种财务报销全票据图片识别处理方法
WO2021059527A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 学習装置、学習方法、及び、記録媒体
WO2021223738A1 (zh) * 2020-05-08 2021-11-11 深圳前海微众银行股份有限公司 模型参数的更新方法、装置、设备及存储介质
WO2021258920A1 (zh) * 2020-06-24 2021-12-30 百果园技术(新加坡)有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN111767920A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 感兴趣区域的提取方法、装置、电子设备及存储介质
WO2022002059A1 (zh) * 2020-06-30 2022-01-06 北京灵汐科技有限公司 初始神经网络的训练方法、图像识别方法、装置、设备及介质
CN113761998A (zh) * 2020-09-01 2021-12-07 北京京东尚科信息技术有限公司 目标对象识别方法、装置、计算设备及介质
WO2022052445A1 (zh) * 2020-09-09 2022-03-17 苏州科达科技股份有限公司 基于深度学习的图像增强方法、系统、设备及存储介质
CN112446299A (zh) * 2020-11-05 2021-03-05 五邑大学 车流密度检测方法、系统及计算机可读存储介质
CN114049512A (zh) * 2021-09-22 2022-02-15 北京旷视科技有限公司 模型蒸馏方法、目标检测方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
计算机视觉中的半监督学习;Amit Chaudhary;《zhuanlan.zhihu.com/p/161449559》;20200718;第1-14页 *

Also Published As

Publication number Publication date
CN114677566A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN112949767B (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN112966742A (zh) 模型训练方法、目标检测方法、装置和电子设备
CN112861885B (zh) 图像识别方法、装置、电子设备及存储介质
CN113205041B (zh) 结构化信息提取方法、装置、设备和存储介质
CN113436100B (zh) 用于修复视频的方法、装置、设备、介质和产品
CN115358392B (zh) 深度学习网络的训练方法、文本检测方法及装置
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112508128B (zh) 训练样本的构建方法、计数方法、装置、电子设备及介质
CN114677566B (zh) 深度学习模型的训练方法、对象识别方法和装置
CN113610809B (zh) 骨折检测方法、装置、电子设备以及存储介质
CN113902899A (zh) 训练方法、目标检测方法、装置、电子设备以及存储介质
CN113643260A (zh) 用于检测图像质量的方法、装置、设备、介质和产品
CN113326766A (zh) 文本检测模型的训练方法及装置、文本检测方法及装置
CN113627526B (zh) 车辆标识的识别方法、装置、电子设备和介质
CN114005095B (zh) 车辆属性识别方法、装置、电子设备和介质
CN114093006A (zh) 活体人脸检测模型的训练方法、装置、设备以及存储介质
CN113989300A (zh) 车道线分割的方法、装置、电子设备和存储介质
CN113936158A (zh) 一种标签匹配方法及装置
CN114612971A (zh) 人脸检测方法、模型训练方法、电子设备及程序产品
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN114092874B (zh) 目标检测模型的训练方法、目标检测方法及其相关设备
CN115171110B (zh) 文本识别方法及装置、设备、介质和产品
CN116611997A (zh) 样本图像的生成方法、装置和设备
CN117557777A (zh) 一种样本图像确定方法、装置、电子设备以及存储介质
CN117975099A (zh) 一种像素级的目标标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant