CN114764874B - 深度学习模型的训练方法、对象识别方法和装置 - Google Patents

深度学习模型的训练方法、对象识别方法和装置 Download PDF

Info

Publication number
CN114764874B
CN114764874B CN202210362622.3A CN202210362622A CN114764874B CN 114764874 B CN114764874 B CN 114764874B CN 202210362622 A CN202210362622 A CN 202210362622A CN 114764874 B CN114764874 B CN 114764874B
Authority
CN
China
Prior art keywords
deep learning
learning model
sample
image
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210362622.3A
Other languages
English (en)
Other versions
CN114764874A (zh
Inventor
于越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210362622.3A priority Critical patent/CN114764874B/zh
Publication of CN114764874A publication Critical patent/CN114764874A/zh
Application granted granted Critical
Publication of CN114764874B publication Critical patent/CN114764874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种深度学习模型的训练方法,涉及人工智能技术领域,尤其涉及深度学习、计算机视觉和图像处理技术领域。具体实现方案为:将样本图像输入经预训练的第一深度学习模型,得到第一分类结果;将样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果;根据第一分类结果和第二分类结果,标注样本图像和样本梯度图像,得到已标注样本图像和已标注样本梯度图像;以及利用已标注样本图像和已标注样本梯度图像,分别训练经预训练的第一深度学习模型和经预训练的第二深度学习模型。本公开还提供了一种对象识别方法、装置、电子设备和存储介质。

Description

深度学习模型的训练方法、对象识别方法和装置
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、计算机视觉和图像处理技术领域。更具体地,本公开提供了一种深度学习模型的训练方法、对象识别方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的发展,深度学习模型广泛地应用于识别或检测图像中的对象。
发明内容
本公开提供了一种深度学习模型的训练方法、对象识别方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种深度学习模型的训练方法,该方法包括:将样本图像输入经预训练的第一深度学习模型,得到第一分类结果;将样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果;根据第一分类结果和第二分类结果,标注样本图像和梯度图像,得到已标注样本图像和已标注样本梯度图像;以及利用已标注样本图像和已标注样本梯度图像,分别训练经预训练的第一深度学习模型和经预训练的第二深度学习模型。
根据本公开的另一方面,提供了一种对象识别方法,该方法包括:将目标图像输入第一深度学习模型,得到目标输出结果;以及根据目标输出结果,识别目标图像中的目标对象,其中,第一深度学习模型是根据本公开提供的方法训练的。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,该装置包括:第一获得模块,用于将样本图像输入经预训练的第一深度学习模型,得到第一分类结果;第二获得模块,用于将样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果;标注模块,用于根据第一分类结果和第二分类结果,标注样本图像和样本梯度图像,得到已标注样本图像和已标注样本梯度图像;以及训练模块,用于利用已标注样本图像和已标注样本梯度图像,分别训练经预训练的第一深度学习模型和经预训练的第二深度学习模型。
根据本公开的另一方面,提供了对象识别装置,该装置包括:第三获得模块,用于将目标图像输入第一深度学习模型,得到目标输出结果;以及识别模块,用于根据目标输出结果,识别目标图像中的目标对象,其中,第一深度学习模型是根据本公开提供的装置训练的。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现根据本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
图2A是根据本公开的一个实施例的深度学习模型的训练方法的原理图;
图2B是根据本公开的一个实施例的训练经预训练的第一深度学习模型的原理图;
图2C是根据本公开的一个实施例的训练经预训练的第二深度学习模型的原理图;
图3是根据本公开的另一个实施例的对第一深度学习模型进行预训练的原理图;
图4是根据本公开的另一个实施例的对第二深度学习模型进行预训练的原理图;
图5是根据本公开的一个实施例的深度学习模型的训练方法的流程图;
图6是根据本公开的一个实施例的对象识别方法的流程图;
图7是根据本公开的一个实施例的深度学习模型的训练装置的框图;
图8是根据本公开的一个实施例的对象识别装置的框图;以及
图9是根据本公开的一个实施例的可以应用深度学习模型的训练方法和/或对象识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
深度学习模型可以应用于识别或检测图像中的对象。例如,可以利用深度学习模型识别道路上的裂缝。
可以基于全监督的训练方式,利用有标注的样本图像对深度学习模型进行训练,以得到用于识别道路上裂缝的深度学习模型。该深度学习模型例如可以是语义分割模型。此类样本图像上的样本对象为道路上的裂缝,相关标注数据可以利用人工标注的方式的获得。
然而,在利用深度学习模型对样本图像进行语义分割后,对输出结果进行标注的工作量较大,需要较高的人力成本。此外,在利用人工标注的方式对上述样本图像的输出结果进行标注的情况下,需要标注人员作出主观性判断。不同的标注人员可能会对同一输出结果作出不同的标注,导致标注数据不准确。若标注数据不准确,则可能导致深度学习模型难以收敛。
也可以基于半监督的训练方式,利用无标注的样本图像对深度学习模型进行训练,以得到用于识别道路上裂缝的深度学习模型。可以将无标注的样本图像输入单个深度学习模型,得到输出结果。再利用输出结果对无标注的样本图像进行标注。然而,在基于半监督的训练方式对单个深度学习模型进行训练时,可能导致模型训练陷入局部最优、更新困难等问题,训练效果难以保证。
图1是根据本公开的一个实施例的深度学习模型的训练方法的流程图。
如图1所示,该方法100可以包括操作S110至操作S140。
在操作S110,将样本图像输入经预训练的第一深度学习模型,得到第一分类结果。
例如,样本图像可以包括样本对象。样本图像例如可以为路面图像,样本对象例如可以是样本图像中的裂纹或裂缝。
例如,第一深度学习模型的例如可以是CNN(Convolutional Neural Network,卷积神经网络)模型。在一个示例中,可以基于全监督或半监督的训练方式,对第一深度学习模型进行预训练,得到经预训练的第一深度学习模型。
例如,可以利用经预训练的第一深度学习模型对样本图像进行语义分割,得到第一分类结果。第一分类结果中可以包括多个第一类别信息,每个第一类别信息与样本图像中一个像素对应。第一类别信息可以指示一个像素的类别。
在操作S120,将样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果。
例如,可以利用Sobel算子,对样本图像进行处理,得到样本梯度图像。
例如,第二深度学习模型例如也可以是CNN模型。在一个示例中,第一深度学习模型和第二深度学习模型的结构可以一致。在一个示例中,可以基于全监督或半监督的训练方式,对第二深度学习模型进行预训练,得到经预训练的第二深度学习模型。
例如,可以利用经预训练的第二深度学习模型对样本梯度图像进行语义分割,得到第二分类结果。第二分类结果中可以包括多个第二类别信息,每个第二类别信息与样本图像中一个像素对应。第二类别信息可以指示一个像素的类别。
在操作S130,根据第一分类结果和第二分类结果,标注样本图像和梯度图像,得到已标注样本图像和已标注样本梯度图像。
例如,根据第一分类结果和第二分类结果,可以基于各种方式对样本图像和样本梯度图像进行标注,本公开对此不做限制。
在操作S140,利用已标注样本图像和已标注样本梯度图像,分别训练经预训练的第一深度学习模型和经预训练的第二深度学习模型。
例如,在标注样本图像之后,得到的已标注样本图像可以为具有伪标签的样本图像。又例如,在标注样本梯度图像之后,得到的已标注样本梯度图像可以为具有伪标签的样本梯度图像。
又例如,可以利用已标注样本图像对经预训练的第一深度学习模型进行训练。在一个示例中,将样本图像输入经预训练的第一深度学习模型,可以得到一个输出结果。确定该输出结果与上文所述的已标注样本图像的伪标签之间差异。再根据该差异调整经预训练的第一深度学习模型的参数,以对经预训练的第一深度学习模型进行再次训练。
又例如,可以利用已标注样本梯度图像对经预训练的第二深度学习模型进行训练。在一个示例中,将样本梯度图像输入经预训练的第二深度学习模型,可以得到一个输出结果。确定该输出结果与上文所述的已标注样本梯度图像的伪标签之间差异。再根据该差异调整经预训练的第二深度学习模型的参数,以对经预训练的第二深度学习模型进行再次训练。
通过本公开实施例,第一深度学习模型可以获取样本图像中的信息,第二深度学习模型可以获取样本图像的梯度图像中的信息。根据样本图像的第一分类结果和样本梯度图像的第二分类结果进行标注,可以充分利用不同维度上的特征信息,可以更加准确地进行标注。再基于已标注样本图像和已标注样本梯度图像进行再次训练,可以充分提高深度学习模型的性能。
需要说明的是,可以先执行操作S110,再执行操作S120。但是本公开的实施例不限于此,这两组操作也可以按照其他顺序来执行,例如先执行操作S120,再执行操作S110,或者并行执行操作S110和操作S120。
在一些实施例中,根据第一分类结果和第二分类结果,标注样本图像和样本梯度图像,得到已标注样本图像和已标注样本梯度图像包括:根据第一分类结果和第二分类结果,确定融合分类结果;以及利用融合分类结果来标注样本图像和样本梯度图像,得到已标注样本图像和已标注样本梯度图像。下面将结合图2A至图2C进行详细说明。
图2A是根据本公开的一个实施例的深度学习模型的训练方法的原理图。
如图2A所示,可以将样本图像201输入经预训练的第一深度学习模型210,得到第一分类结果211。例如,样本图像201中包括样本对象。样本对象例如可以为路面上的裂缝。
可以将样本梯度图像202输入经预训练的第二深度学习模型220,得到第二分类结果221。例如,样本梯度图像202可以是利用Sobel算子对样本图像201进行处理后的得到的。可以理解,在利用Sobel算子对样本图像201进行处理的过程中,没有对样本图像201进行几何变换。
如图2A所示,可以将第一分类结果211和第二分类结果221融合,得到融合分类结果。
第一分类结果211可以包括多个第一类别信息,每个第一类别信息与一个像素对应。例如,第一类别信息P1与样本图像中的像素P对应。第一类别信息P1可以指示:像素P是裂缝的概率为80%,而像素P为正常路面的概率为20%。
第二分类结果221可以包括多个第二类别信息,每个第二类别信息与一个像素对应。例如,第二类别信息P_2与上文所述的像素P对应。第二类别信息P_2可以指示:像素P是裂缝的概率为70%,而像素P为正常路面的概率为30%。
可以利用各种方式将第一分类结果211和第二分类结果221融合。例如,可以利用加权平均的方式,将第一分类结果211和第二分类结果221融合。例如,融合分类结果231可以包括多个融合类别信息,每个融合类别信息也与一个像素对应。融合类别信息P_M与上文所述的像素P对应。融合类别信息P_M可以指示:像素P是裂缝的概率为75%,而像素P为正常路面的概率为25%。基于此,将像素P的类别确定为裂缝。类似地,可以确定样本图像上每个像素的类别,以得到样本图像201的伪标签。
将具有伪标签的样本图像201作为一个已标注样本图像。
如上文所述,在利用Sobel算子对样本图像201进行处理的过程中,没有对样本图像201进行几何变换。样本图像201的伪标签可以作为样本梯度图像202的伪标签。将具有伪标签的样本梯度图像202作为一个已标注样本梯度图像。
图2B是根据本公开的一个实施例的训练经预训练的第一深度学习模型的原理图。
如上文所述,将具有伪标签的样本图像201作为一个已标注样本图像。接下来利用该已标注样本图像训练经预训练的第一深度学习模型210。
如图2B所示,将样本图像201输入经预训练的第一深度学习模型210,还可以得到第一分类结果211。可以利用各种损失函数确定第一分类结果211和伪标签203之间的第一损失值212。可以根据第一损失值212调整经预训练的第一深度学习模型210的参数,以对经预训练的第一深度学习模型210进行训练。在一个示例中,损失函数例如可以是CE(CrossEntropy,交叉熵)损失函数。
图2C是根据本公开的一个实施例的训练经预训练的第二深度学习模型的原理图。
如上文所述,将具有伪标签的样本梯度图像202作为一个已标注样本梯度图像。接下来利用该已标注样本梯度图像训练经预训练的第二深度学习模型220。
如图2C所示,将样本梯度图像202输入经预训练的第二深度学习模型220,还可以得到第二分类结果221。可以利用各种损失函数确定第二分类结果221和伪标签203之间的第二损失值222。可以根据第二损失值222调整经预训练的第二深度学习模型220的参数,以对经预训练的第二深度学习模型220进行训练。在一个示例中,损失函数例如可以是CE损失函数。
在一些实施例中,将样本图像输入经预训练的第一深度学习模型,得到第一分类结果包括:将预训练样本图像输入第一深度学习模型,得到第三分类结果;以及利用第三分类结果与预训练样本图像的标签之间的差异值,训练第一深度学习模型,得到经预训练的第一深度学习模型。下面将结合图3进行详细说明。
图3是根据本公开的另一个实施例的对第一深度学习模型进行预训练的原理图。
预训练样本图像303可以具有标签305。标签305可以是对预训练样本图像303进行人工标注得到的。
如图3所示,将预训练样本图像303输入第一深度学习模型330,可以得到第三分类结果331。可以利用各种损失函数根据第三分类结果331和标签305,确定第三损失值332。可以根据第三损失值332调整第一深度学习模型330的参数,以对第一深度学习模型330进行预训练。可以理解,可以将第三损失值332作为第三分类结果331和标签305之间的差异值。
图4是根据本公开的另一个实施例的对第二深度学习模型进行预训练的原理图。
预训练样本梯度图像404可以具有标签405。预训练样本梯度图像404可以利用Sobel算子对上文所述的预训练样本图像303进行处理得到的。在利用Sobel算子对预训练样本图像303进行处理的过程中,没有对样本图像303进行几何变换。预训练样本图像303的标签305可以作为标签405。
如图4所示,将预训练样本梯度图像404输入第二深度学习模型440,可以得到第四分类结果441。可以利用各种损失函数根据第四分类结果441和标签405,确定第四损失值442。可以根据第四损失值442调整第二深度学习模型440的参数,以预训练第二深度学习模型440。可以理解,可以将第四损失值442作为第四分类结果441和标签405之间的差异值。
在一些实施例中,利用已标注样本图像和已标注样本梯度图像,分别训练经预训练的第一深度学习模型和经预训练的第二深度学习模型包括:利用已标注样本图像和预训练样本图像,训练经预训练的第一深度学习模型;以及利用已标注样本梯度图像和预训练样本梯度图像,训练经预训练的第二深度学习模型。
例如,可以利用已标注样本图像和预训练样本图像对经预训练的第一深度学习模型进行一个轮次的训练。也可以利用已标注样本梯度图像和预训练样本梯度图像对经预训练的第二深度学习模型进行一个轮次的训练。
又例如,可以分别对经预训练的第一深度学习模型和经预训练的第二深度学习模型进行多轮的训练。可以根据预训练样本图像和每轮的已标注样本图像,对每轮的经预训练的第一深度学习模型进行一轮训练。可以根据预训练样本梯度图像和每轮的已标注样本梯度图像,对每轮的经预训练的第二深度学习模型进行一轮训练。下面将结合图5进行详细说明。
图5是根据本公开的一个实施例的深度学习模型的训练方法的流程图。
如图5所示,基于方法500,可以分别对经预训练的第一深度学习模型和经预训练的第二深度学习模型进行I轮训练中的第i轮训练。I为大于或等于1的整数,i为大于或等于1的整数,且i为小于或等于I的整数。
方法500可以包括操作S510’至操作S530’,以及操作S541至操作S544。
在操作S510’,将样本图像输入第i轮的经预训练的第一深度学习模型,得到第i个第一分类结果。
在操作S520’,将样本图像的样本梯度图像输入第i轮的经预训练的第二深度学习模型,得到第i个第二分类结果。
在操作S530’,根据第i个第一分类结果和第i个第二分类结果,标注样本图像和样本梯度图像,得到第i轮的已标注样本图像和第i轮的已标注样本梯度图像。
可以理解,方法500中的操作S510’至操作S530’,与方法100中的操作S110至操作S130相同或类似,本公开在此不再赘述。
在操作S541,利用第i轮的已标注样本图像和预训练样本图像,训练第i轮的经预训练的第一深度学习模型。
例如,根据第i个第一分类结果和第i个第二分类结果,可以得到第i个融合分类结果。根据第i个融合分类结果,可以标注样本图像和样本梯度图像,确定第i轮的伪标签,以得到第i轮的已标注样本图像和第i轮的样本梯度图像。
例如,第i轮的已标注样本图像可以为具有第i轮的伪标签的样本图像。将样本图像输入第i轮的经预训练的第一深度学习模型,得到第i个第一分类结果。根据第i个第一分类结果与第i轮的伪标签,确定第i个第一损失值。根据第i个第一损失值调整第i轮的经预训练的第一深度学习模型的参数,以进行第i轮训练中的一次训练。
又例如,如上文所述,预训练样本图像具有人工标注的标签。将预训练样本图像输入第i轮的经预训练的第一深度学习模型,得到第i个第五分类结果。根据第i个第五分类结果和预训练样本图像的标签,可以确定第i个第五损失值。根据第i个第五损失值调整第i轮的经预训练的第一深度学习模型的参数,以进行第i轮训练中的一次训练。
在操作S542,利用第i轮的已标注样本梯度图像和预训练样本梯度图像,训练第i轮的经预训练的第二深度学习模型
例如,第i轮的已标注样本梯度图像可以为具有第i轮的伪标签的样本梯度图像。将样本梯度图像输入第i轮的经预训练的第二深度学习模型,得到第i个第二分类结果。根据第i个第二分类结果与第i轮的伪标签,确定第i个第二损失值。根据第i个第二损失值调整第i轮的经预训练的第二深度学习模型的参数,以进行第i轮训练中的一次训练。
又例如,如上文所述,预训练样本梯度图像具有人工标注的标签。将预训练样本梯度图像输入第i轮的经预训练的第二深度学习模型,得到第i个第六分类结果。根据第i个第六分类结果和预训练样本梯度图像的标签,可以确定第i个第六损失值。根据第i个第六损失值调整第i轮的经预训练的第二深度学习模型的参数,以进行第i轮训练中的一次训练。
在操作S543,确定性能指标是否收敛。
例如,在完成第i轮的训练之后,可以得到经第i轮训练的经预训练的第一深度学习模型和经第i轮训练的经预训练的第一深度学习模型,可以判断二者的性能指标值是否收敛。
在本公开实施例中,响应于确定性能指标值收敛,执行操作S544。
在本公开实施例中,响应于确定性能指标值未收敛,返回至操作S510’,执行第i+1轮训练。
例如,性能指标值例如可以是准确率。在一个示例中,在确定准确率大于预设准确率阈值之后,可以确定性能指标值收敛。
在操作S544,训练结束。
通过本公开实施例,基于全监督和半监督的方式对两个深度学习模型进行了训练,可以充分利用大量无标注的样本进行训练,大幅提高了模型的性能。
需要说明的是,可以先执行操作S510’,再执行操作S520’。但是本公开的实施例不限于此,这两组操作也可以按照其他顺序来执行,例如先执行操作S520’,再执行操作S510’,或者并行执行操作S510’和操作S520’。
需要说明的是,可以先执行操作S541,再执行操作S542。但是本公开的实施例不限于此,这两组操作也可以按照其他顺序来执行,例如先执行操作S542,再执行操作S541,或者并行执行操作S541和操作S542。
在另一些实施例中,可以在确定准确率不再提高后,确定性能指标值收敛。
图6是根据本公开的一个实施例的对象识别方法的流程图。
如图6所示,该方法600包括操作S610至操作S620。
在操作S610,将目标图像输入第一深度学习模型,得到目标输出结果。
在本公开实施例中,第一深度学习模型是根据本公开提供的方法训练的。
例如,第二深度学习模型是根据例如方法100训练的。
例如,目标图像可以路面图像。在一个示例中,目标图像中可以包括至少一个目标对象。目标对象例如可以是路面上的裂缝或裂纹。
在操作S620,根据目标输出结果,识别目标图像中的目标对象。
例如,可以识别目标对象的类别信息。在一个示例中,类别信息例如可以表征目标对象的类别。类别例如为裂缝或正常路面。
通过本公开实施例,第一深度学习模型可以更加准确地识别目标对象。
需要说明的是,本公开实施例中,以样本对象或目标对象为裂缝为示例进行了详细说明。但本公开中的对象不限于此。例如,样本图像中的样本对象也可以是标识牌、车道线或车辆等等。又例如,目标图像中的目标对象也可以是标识牌、车道线或车辆等等。
图7是根据本公开的一个实施例的深度学习模型的训练装置的框图。
如图7所示,该装置700可以包括第一获得模块710、第二获得模块720、标注模块730和训练模块740。
第一获得模块710,用于将样本图像输入经预训练的第一深度学习模型,得到第一分类结果;
第二获得模块720,用于将所述样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果;
标注模块730,用于根据所述第一分类结果和所述第二分类结果,标注所述样本图像和所述样本梯度图像,得到已标注样本图像和已标注样本梯度图像;以及
训练模块740,用于利用所述已标注样本图像和所述已标注样本梯度图像,分别训练所述经预训练的第一深度学习模型和所述经预训练的第二深度学习模型。
在一些实施例中,所述标注模块包括:第一确定单元,用于根据所述第一分类结果和所述第二分类结果,确定融合分类结果;以及第一标注单元,用于利用所述融合分类结果来标注所述样本图像和所述样本梯度图像,得到所述已标注样本图像和所述已标注样本梯度图像。
在一些实施例中,所述第一获得模块包括:第一获得单元,用于将预训练样本图像输入所述第一深度学习模型,得到第三分类结果;以及第一预训练单元,用于利用所述第三分类结果与所述预训练样本图像的标签之间的差异值,训练所述第一深度学习模型,得到所述经预训练的第一深度学习模型。
在一些实施例中,所述第二获得模块包括:第二获得单元,用于将预训练样本梯度图像输入所述第二深度学习模型,得到第四分类结果;第二预训练单元,用于利用所述第四分类结果与所述预训练样本梯度图像的标签之间的差异值,训练所述第二深度学习模型,得到所述经预训练的第二深度学习模型。
在一些实施例中,所述训练模块包括:第一训练单元,用于利用所述已标注样本图像和所述预训练样本图像,训练所述经预训练的第一深度学习模型;以及第二训练单元,用于利用所述已标注样本梯度图像和所述预训练样本梯度图像,训练所述经预训练的第二深度学习模型。
图8是根据本公开的另一个实施例的对象识别装置的框图。
如图8所示,该装置800可以包括第三获得模块810和识别模块820。
第三获得模块810,用于将目标图像输入第一深度学习模型,得到目标输出结果;以及
识别模块820,用于根据所述目标输出结果,识别所述目标图像中的目标对象,
其中,所述第一深度学习模型是根据本公开提供的装置训练的。
在一个示例中,第一深度学习模型是根据本公开提供的装置700训练的本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和图像。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/图像。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如深度学习模型的训练方法和/或对象识别方法。例如,在一些实施例中,深度学习模型的训练方法和/或对象识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的深度学习模型的训练方法和/或对象识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度学习模型的训练方法和/或对象识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收图像和指令,并且将图像和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程图像处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为图像服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字图像通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (13)

1.一种深度学习模型的训练方法,包括:
将样本图像输入经预训练的第一深度学习模型,得到第一分类结果,其中,所述样本图像包括所述样本对象,所述第一分类结果包括多个第一类别信息,所述第一类别信息包括所述样本图像中一个像素的类别为所述样本对象的第一概率;
将所述样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果,其中,所述第二分类结果包括多个第二类别信息,所述第二类别信息包括所述样本图像中一个像素的类别为所述样本对象的第二概率;
根据所述第一分类结果和所述第二分类结果,确定融合分类结果,其中,所述融合分类结果包括多个融合类别信息,所述融合类别信息包括所述样本图像中一个像素的类别为所述样本对象的融合概率;
利用所述融合分类结果来标注所述样本图像和所述样本梯度图像,得到已标注样本图像和已标注样本梯度图像;以及
利用所述已标注样本图像和所述已标注样本梯度图像,分别训练所述经预训练的第一深度学习模型和所述经预训练的第二深度学习模型。
2.根据权利要求1所述的方法,其中,所述将样本图像输入经预训练的第一深度学习模型,得到第一分类结果包括:
将预训练样本图像输入所述第一深度学习模型,得到第三分类结果;以及
利用所述第三分类结果与所述预训练样本图像的标签之间的差异值,训练所述第一深度学习模型,得到所述经预训练的第一深度学习模型。
3.根据权利要求1或2所述的方法,其中,所述将所述样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果包括:
将预训练样本梯度图像输入所述第二深度学习模型,得到第四分类结果;
利用所述第四分类结果与所述预训练样本梯度图像的标签之间的差异值,训练所述第二深度学习模型,得到所述经预训练的第二深度学习模型。
4.根据权利要求3所述的方法,其中,所述利用所述已标注样本图像和所述已标注样本梯度图像,分别训练所述经预训练的第一深度学习模型和所述经预训练的第二深度学习模型包括:
利用所述已标注样本图像和所述预训练样本图像,训练所述经预训练的第一深度学习模型;以及
利用所述已标注样本梯度图像和所述预训练样本梯度图像,训练所述经预训练的第二深度学习模型。
5.一种对象识别方法,包括:
将目标图像输入第一深度学习模型,得到目标输出结果;以及
根据所述目标输出结果,识别所述目标图像中的目标对象,
其中,所述第一深度学习模型是根据权利要求1至4中任一项所述的方法训练的。
6.一种深度学习模型的训练装置,包括:
第一获得模块,用于将样本图像输入经预训练的第一深度学习模型,得到第一分类结果,其中,所述样本图像包括所述样本对象,所述第一分类结果包括多个第一类别信息,所述第一类别信息包括所述样本图像中一个像素的类别为所述样本对象的第一概率;
第二获得模块,用于将所述样本图像的样本梯度图像输入经预训练的第二深度学习模型,得到第二分类结果,其中,所述第二分类结果包括多个第二类别信息,所述第二类别信息包括所述样本图像中一个像素的类别为所述样本对象的第二概率;
确定单元,用于根据所述第一分类结果和所述第二分类结果,确定融合分类结果,其中,所述融合分类结果包括多个融合类别信息,所述融合类别信息包括所述样本图像中一个像素的类别为所述样本对象的融合概率;
标注单元,用于利用所述融合分类结果来标注所述样本图像和所述样本梯度图像,得到已标注样本图像和已标注样本梯度图像;以及
训练模块,用于利用所述已标注样本图像和所述已标注样本梯度图像,分别训练所述经预训练的第一深度学习模型和所述经预训练的第二深度学习模型。
7.根据权利要求6所述的装置,其中,所述第一获得模块包括:
第一获得单元,用于将预训练样本图像输入所述第一深度学习模型,得到第三分类结果;以及
第一预训练单元,用于利用所述第三分类结果与所述预训练样本图像的标签之间的差异值,训练所述第一深度学习模型,得到所述经预训练的第一深度学习模型。
8.根据权利要求6或7所述的装置,其中,所述第二获得模块包括:
第二获得单元,用于将预训练样本梯度图像输入所述第二深度学习模型,得到第四分类结果;
第二预训练单元,用于利用所述第四分类结果与所述预训练样本梯度图像的标签之间的差异值,训练所述第二深度学习模型,得到所述经预训练的第二深度学习模型。
9.根据权利要求8所述的装置,其中,所述训练模块包括:
第一训练单元,用于利用所述已标注样本图像和所述预训练样本图像,训练所述经预训练的第一深度学习模型;以及
第二训练单元,用于利用所述已标注样本梯度图像和所述预训练样本梯度图像,训练所述经预训练的第二深度学习模型。
10.一种对象识别装置,包括:
第三获得模块,用于将目标图像输入第一深度学习模型,得到目标输出结果;以及
识别模块,用于根据所述目标输出结果,识别所述目标图像中的目标对象,
其中,所述第一深度学习模型是根据权利要求6至9任一项所述的装置训练的。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至5中任一项所述的方法。
CN202210362622.3A 2022-04-06 2022-04-06 深度学习模型的训练方法、对象识别方法和装置 Active CN114764874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210362622.3A CN114764874B (zh) 2022-04-06 2022-04-06 深度学习模型的训练方法、对象识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210362622.3A CN114764874B (zh) 2022-04-06 2022-04-06 深度学习模型的训练方法、对象识别方法和装置

Publications (2)

Publication Number Publication Date
CN114764874A CN114764874A (zh) 2022-07-19
CN114764874B true CN114764874B (zh) 2023-04-07

Family

ID=82365322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210362622.3A Active CN114764874B (zh) 2022-04-06 2022-04-06 深度学习模型的训练方法、对象识别方法和装置

Country Status (1)

Country Link
CN (1) CN114764874B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471717B (zh) * 2022-09-20 2023-06-20 北京百度网讯科技有限公司 模型的半监督训练、分类方法装置、设备、介质及产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751069A (zh) * 2019-10-10 2020-02-04 武汉普利商用机器有限公司 一种人脸活体检测方法及装置
US10963792B1 (en) * 2020-03-26 2021-03-30 StradVision, Inc. Method for training deep learning network based on artificial intelligence and learning device using the same
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6814981B2 (ja) * 2016-07-21 2021-01-20 パナソニックIpマネジメント株式会社 学習装置、識別装置、学習識別システム、及び、プログラム
US10878296B2 (en) * 2018-04-12 2020-12-29 Discovery Communications, Llc Feature extraction and machine learning for automated metadata analysis
CN109740668B (zh) * 2018-12-29 2021-03-30 北京市商汤科技开发有限公司 深度模型训练方法及装置、电子设备及存储介质
CN111126574B (zh) * 2019-12-30 2023-07-28 腾讯科技(深圳)有限公司 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
CN112749801A (zh) * 2021-01-22 2021-05-04 上海商汤智能科技有限公司 神经网络训练和图像处理方法及装置
CN114169395A (zh) * 2021-11-05 2022-03-11 华中科技大学 一种电力系统主导失稳模式识别模型构建方法及应用
CN114187534A (zh) * 2021-11-15 2022-03-15 南方电网科学研究院有限责任公司 输电导线悬挂异物的检测方法、装置、介质及终端设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751069A (zh) * 2019-10-10 2020-02-04 武汉普利商用机器有限公司 一种人脸活体检测方法及装置
US10963792B1 (en) * 2020-03-26 2021-03-30 StradVision, Inc. Method for training deep learning network based on artificial intelligence and learning device using the same
CN113869361A (zh) * 2021-08-20 2021-12-31 深延科技(北京)有限公司 模型训练方法、目标检测方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adaptive weighted fusion: A novel fusion approach for image classification;Xu Yong,Lu Yuwu;《Neurocomputing》;第168卷;第566~574页 *
基于多视图的半监督集成学习方法;张振良等;《计算机与数字工程》;第49卷(第1期);第130-137页 *

Also Published As

Publication number Publication date
CN114764874A (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN113326764B (zh) 训练图像识别模型和图像识别的方法和装置
CN113033622B (zh) 跨模态检索模型的训练方法、装置、设备和存储介质
WO2022227769A1 (zh) 车道线检测模型的训练方法、装置、电子设备及存储介质
CN113657269A (zh) 人脸识别模型的训练方法、装置及计算机程序产品
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
CN113722493A (zh) 文本分类的数据处理方法、设备、存储介质及程序产品
CN114419035B (zh) 产品识别方法、模型训练方法、装置和电子设备
CN112966744A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN114881129A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN114764874B (zh) 深度学习模型的训练方法、对象识别方法和装置
CN114511743B (zh) 检测模型训练、目标检测方法、装置、设备、介质及产品
CN114581732A (zh) 一种图像处理及模型训练方法、装置、设备和存储介质
CN114462598A (zh) 深度学习模型的训练方法、确定数据类别的方法和装置
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN113947700A (zh) 模型确定方法、装置、电子设备和存储器
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN116383382A (zh) 敏感信息的识别方法、装置、电子设备及存储介质
CN115861809A (zh) 杆状物检测及其模型的训练方法、装置、电子设备、介质
CN114781386A (zh) 文本纠错训练语料的获取方法、装置及电子设备
CN115719433A (zh) 图像分类模型的训练方法、装置及电子设备
CN113361522B (zh) 用于确定字符序列的方法、装置和电子设备
CN112818972B (zh) 兴趣点图像的检测方法、装置、电子设备及存储介质
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN115457329A (zh) 图像分类模型的训练方法、图像分类方法和装置
CN114677566A (zh) 深度学习模型的训练方法、对象识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant