CN110929774A - 图像中目标物的分类方法、模型训练方法和装置 - Google Patents
图像中目标物的分类方法、模型训练方法和装置 Download PDFInfo
- Publication number
- CN110929774A CN110929774A CN201911126987.0A CN201911126987A CN110929774A CN 110929774 A CN110929774 A CN 110929774A CN 201911126987 A CN201911126987 A CN 201911126987A CN 110929774 A CN110929774 A CN 110929774A
- Authority
- CN
- China
- Prior art keywords
- image
- target object
- classification
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 162
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000000605 extraction Methods 0.000 claims abstract description 105
- 238000013145 classification model Methods 0.000 claims abstract description 94
- 238000010586 diagram Methods 0.000 claims description 46
- 238000004590 computer program Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 11
- 230000004044 response Effects 0.000 description 29
- 238000011176 pooling Methods 0.000 description 11
- 241000282414 Homo sapiens Species 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000003321 amplification Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000003199 nucleic acid amplification method Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 4
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 3
- 244000141359 Malus pumila Species 0.000 description 3
- 241000220324 Pyrus Species 0.000 description 3
- 240000003768 Solanum lycopersicum Species 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000021017 pears Nutrition 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 244000099147 Ananas comosus Species 0.000 description 2
- 235000007119 Ananas comosus Nutrition 0.000 description 2
- 241000219112 Cucumis Species 0.000 description 2
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 2
- 240000008067 Cucumis sativus Species 0.000 description 2
- 235000009849 Cucumis sativus Nutrition 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 240000009088 Fragaria x ananassa Species 0.000 description 2
- 241000219094 Vitaceae Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 235000021021 grapes Nutrition 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 235000021012 strawberries Nutrition 0.000 description 2
- 244000061458 Solanum melongena Species 0.000 description 1
- 235000002597 Solanum melongena Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种图像中目标物的分类方法、模型训练方法和装置,属于计算机技术领域,涉及人工智能和计算机视觉技术。本申请通过特征提取模型提取待处理图像的特征图,确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域,通过图像分类模型确定待分类区域对应的目标物类别,并输出分类结果。其中,特征提取模型和图像分类模型是基于训练图像进行训练得到的,训练图像包括样本目标物和样本目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练,可以充分利用训练图像中的背景信息,使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景,进而提高分类准确率。
Description
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种图像中目标物的分类方法、模型训练方法和装置。
背景技术
随着计算机技术的迅速发展,对图像中的物品进行分类的技术已在越来越多的领域得到了应用。现有技术中通常采用图像分类模型对图像中的物品进行分类,如何训练得到一个准确率高的图像分类模型是在图像分类应用中的重要问题。
目前,在对图像分类模型进行训练时,一般是人工在原始图像中标注物品包围框,将人工标注的物品包围框对应的图像区域从原始图像中分割出来,得到仅包含物品的小区域图像,基于由小区域图像组成的训练数据集对图像分类模型进行训练。
由于通过上述方法得到的小区域图像仅包含物品,而剔除了物品周围的背景环境信息,因而供图像分类模型学习的图像信息较片面,使训练得到的图像分类模型的分类准确率较低。
现有技术对图像中的其他目标物进行分类时,也存在上述技术问题。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种图像中目标物的分类方法、模型训练方法和装置,可以提高分类准确率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种图像中目标物的分类方法,所述方法包括:
通过特征提取模型对待处理图像进行特征提取,得到所述待处理图像的特征图;
确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域;
通过图像分类模型确定所述待分类区域对应的目标物类别,并输出分类结果;所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的,所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。
第二方面,本申请实施例还提供一种模型训练方法,所述模型包括特征提取模型和图像分类模型;所述方法包括:
获取训练图像;所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签;
将所述训练图像输入特征提取模型,得到所述训练图像的特征图;
确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域;
通过图像分类模型对所述训练图像的特征图中的待分类区域进行目标物分类预测,得到样本目标物的预测分类结果;
根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;
根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数,直至所述分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
第三方面,本申请实施例还提供一种图像中目标物的分类装置,所述装置包括:
特征提取单元,用于通过特征提取模型对待处理图像进行特征提取,得到所述待处理图像的特征图;
区域确定单元,用于确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域;
分类检测单元,用于通过图像分类模型确定所述待分类区域对应的目标物分类,并输出分类结果;所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的,所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。
在一种可选的实施例中,所述目标物包围框为多边形框;所述区域确定单元,还用于:
响应在所述待处理图像上连续选择目标物在设定方向上的边缘极值点的操作,根据所选择的边缘极值点的坐标确定所述目标物包围框在所述待处理图像中的位置坐标。
在一种可选的实施例中,所述目标物包围框为方形框;所述区域确定单元,还用于:
响应在所述待处理图像上的滑动操作,将滑动的起始点坐标和终止点坐标分别作为目标物包围框的对角线上的两个角点的坐标,确定所述目标物包围框在所述待处理图像中的位置坐标。
第四方面,本申请实施例还提供一种模型训练装置,所述模型包括特征提取模型和图像分类模型;所述装置包括:
数据获取单元,用于获取训练图像;所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签;
训练单元,用于将所述训练图像输入特征提取模型,得到所述训练图像的特征图;确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域;通过图像分类模型对所述训练图像的特征图中的待分类区域进行目标物分类预测,得到样本目标物的预测分类结果;根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数,直至所述分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
第五方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的图像中目标物的分类方法。
第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第二方面的模型训练方法。
第七方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述图像中目标物的分类方法。
第八方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现上述模型训练方法。
本申请实施例的图像中目标物的分类方法、模型训练方法和装置,通过特征提取模型提取待处理图像的特征图,确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域,通过图像分类模型确定待分类区域对应的目标物类别,并输出分类结果。其中,特征提取模型和图像分类模型是基于训练图像进行训练得到的,所述训练图像并不是从原始图像中分割出来的仅包含目标物的小区域图像,而是完整的原始图像,所述训练图像不仅包括样本目标物,还包括样本目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练,可以充分利用训练图像中的背景信息,使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景,进而提高分类准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像中目标物的分类方法的流程示意图;
图2为本申请实施例提供的一种图像中目标物的分类方法的示意图;
图3为图1中步骤S102的流程示意图;
图4为本申请实施例提供的一种在待处理图像中标定目标物包围框的示意图;
图5为本申请实施例提供的一种模型训练方法的流程示意图;
图6为本申请实施例提供的一种特征提取模型的结构示意图;
图7为本申请实施例提供的一种图像中目标物的分类装置的结构示意图;
图8为本申请实施例提供的另一种图像中目标物的分类装置的结构示意图;
图9为本申请实施例提供的另一种模型训练装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)图像分类:根据不同目标物各自在图像中所反映的不同特征,把不同类别的目标物区分开来的图像处理方法。具体可以利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。例如,可以采用CNN(Convolutional Neural Networks,卷积神经网络)提取图像的特征,基于图像中的不同特征进行分类。对图像中的目标物进行分类后,可以根据分类结果做进一步应用,比如图像检索、视频监控以及涉及图像的语义分析等各种应用。
(2)迁移学习(Transfer Learning):目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。在实际业务中,使用大数据预先已训练的模型作为基础,当不同领域的新数据需要较好的模型支持时,能够快速的训练和应用,并且使用的数据量较少。
下面结合附图及具体实施例对本申请作进一步详细的说明。
为了解决现有技术中的图像分类模型的分类准确率较低的问题,本申请实施例提供了一种图像中目标物的分类方法、装置、存储介质和电子设备。本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的计算机视觉(Computer Vision,CV)技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
计算机视觉技术是指用摄像机或电子设备上的摄像头代替人眼对目标对象进行识别、跟踪和测量等机器视觉,并进一步做图形处理,以代替人的视觉判读。本申请实施例基于计算机视觉技术对待处理图像进行特征提取,并对待处理图像中包含的目标物进行分类。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在图像分类过程中,采用了基于机器学习的人工神经网络对训练图像的目标物分类标签进行学习,并利用学习结果从待处理图像中提取图像特征,基于提取的图像特征进行分类。
本申请实施例提供的图像中目标物的分类方法可以应用于任意可以进行图像处理的电子设备,例如计算机、智能移动终端、服务器等。其中,目标物可以包括包、衣服、书本、水杯等物品,还可以包括人体、花草树木等等。
图1示例性地给出了本申请实施例提供的图像中目标物的分类方法的流程示意图,图2示例性地给本申请实施例提供的图像中目标物的分类方法的示意图。下文以物品为例,结合图1和图2,说明本申请实施例提供的分类方法的执行过程。需要说明的是,下文所介绍的分类方法同样适用于对人体、车辆等其它目标物。如图1和图2所示,该方法包括以下步骤:
步骤S101,通过特征提取模型对待处理图像进行特征提取,得到待处理图像的特征图。
其中,待处理图像是指需要进行物品分类的图像,待处理图像可以是图像采集装置实时采集的图像,也可以为预先存储的图像。待处理图像可以是视频中的图像帧,也可以是预设格式的图片,其中,预设格式可以包括但不限于JPEG格式、PNG格式、BMP格式或者GIF格式等,本申请实施例对此不作限制。
特征提取模型可以采用骨干(back bone)网络,骨干网络的输入是待处理图像,骨干网络的输出为待处理图像的特征图。待处理图像的特征图中包括待处理图像中包含的物品的特征以及背景环境的特征,根据物品的特征以及背景环境的特征,可以将物品与背景环境中区分开来,并基于物品的特征进行物品分类。
步骤S102,确定在待处理图像中预先标定的物品包围框在特征图中对应的待分类区域。
可以采用人工标注或机器标注的方式在待处理图像中预先标定物品包围框。当待处理图像中包含多个待分类的物品时,可以标定多个物品包围框,每个物品对应一个物品包围框。根据物品包围框在待处理图像中的位置,确定物品包围框在待处理图像的特征图中对应的待分类区域,也可以称为ROI(Region of Interest,感兴趣区域)。
步骤S103,通过图像分类模型确定待分类区域对应的物品分类,并输出分类结果。
其中,图像分类模型可以采用SVM(Support Vector Machine,支持向量机)分类器模型或Softmax分类器模型。SVM分类器是一种线性分类器,主要用于二分类,在本申请实施例中,如果需要多分类,可以采用多个SVM分类器组成用于多分类的SVM分类器模型。Softmax分类器模型可以用于进行多分类。图像分类模型可以输出待分类区域对应的物品属于预设类别的物品的概率值。
上述的特征提取模型和图像分类模型是基于训练图像进行训练得到的,其中,训练图像包括样本物品和样本物品所处的背景环境,训练图像中的样本物品被标注了样本物品包围框和样本物品分类标签。
本申请实施例的图像中物品的分类方法,通过特征提取模型提取待处理图像的特征图,确定在待处理图像中预先标定的物品包围框在特征图中对应的待分类区域,通过图像分类模型确定待分类区域对应的物品分类,并输出分类结果。其中,特征提取模型和图像分类模型是基于训练图像进行训练得到的,上述训练图像并不是从原始图像中分割出来的仅包含物品的小区域图像,而是完整的原始图像,训练图像不仅包括样本物品,还包括样本物品所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练,可以充分利用训练图像中的背景信息,使训练得到的特征提取模型和图像分类模型可以准确区分物品与背景,进而提高分类准确率。尤其在对复杂图像进行物品分类时,可以显著提高分类准确率。
例如,图像中包含多个物品,并且图像中的背景环境复杂,使用现有的图像分类模型对图像中的物品进行分类时,经常无法从背景中识别出物品,因而导致无法准确地进行分类。采用本申请实施例提供的分类方法对复杂图像进行物品分类时,可以准确地将待分类的物品与背景环境区分开,从而显著提高分类准确率。
可选地,上述步骤S101中使用的特征提取模型可以采用骨干网络。在一些实施例中,骨干网络可以是CNN、DNN(Deep Neural Networks,深度神经网络)或FCN(FullyConvolutional Neuron networks,全卷积神经网络)实现。例如,骨干网络可以采用AlexNet网络模型、VGG网络模型、Resnet网络模型等。以全卷积神经网络为例进行说明,全卷积神经网络可以包括至少一个卷积层、至少一个池化层和至少一个上采样层,卷积层和池化层可以间隔设置,即相邻的池化层之间可以设置一个或多个卷积层。每个卷积层包括一个或多个用于从待处理图像的像素矩阵中提取特征信息的第一卷积核,用第一卷积核按照一定的步长遍历待处理图像的像素矩阵,得到至少一个特征值,由至少一个特征值组成卷积特征图。池化层用于将卷积层输出的卷积特征图进行降维处理,减小卷积特征图的尺寸,全卷积神经网络的池化层输出池化特征图。上采样层连接在最后一个池化层之后,用于将最后一个池化层输出的池化特征图放大,得到待处理图像的特征图,输出的特征图的尺寸与待处理图像的尺寸相同。
在另一些实施例中,骨干网络可以包括残差网络和FPN(Feature PyramidNetworks,特征金字塔网络)。残差网络包括多个特征提取层,特征金字塔网络包括对应的多个网络层。通过残差网络的多个特征提取层,输出多个尺寸的特征响应图,将多个尺寸的特征响应图对应输入特征金字塔网络的多个网络层,通过自下而上的特征融合,可以得到多个尺寸的特征图。
示例性地,残差网络的每个特征提取层可以将输入的特征响应图缩小至原来的1/2。特征金字塔网络的每个网络层可以将输入的特征图放大至原来的2倍。
采用残差网络和特征金字塔网络,可以获取待处理图像的多个不同尺寸的特征图,感受野的变化范围也较大,可以检测出不同尺寸的物品。其中,感受野又可称为接收野,被定义为卷积神经网络特征所能看到输入图像的区域,也可理解为特征图上的一个点对应输入图像上的区域。感受野小的特征图有助于检测小物品,感受野大的特征图有助于检测大物品。综上,采用残差网络和特征金字塔网络,具有多种感受野,能够对不同大小的物品进行检测。为了进一步扩大物品的检测范围,检测不同大小的物品,可以增加残差网络和特征金字塔网络的层数。实际应用中,可以根据实际需求而灵活删减残差网络和特征金字塔网络的层数。
在一种可选的实施例中,步骤S102可以采用图3所示的方法实现,包括如下步骤:
步骤S1021,确定预先标定的物品包围框在待处理图像中的位置坐标。
可以采用人工标注或机器标注的方式在待处理图像中预先标定物品包围框。
在一些实施例中,可以人工预先在待处理图像中标定物品包围框。确定人工标定的物品包围框的位置坐标的一种方式为:如果物品包围框为多边形框;响应在待处理图像上连续选择物品在设定方向上的边缘极值点的操作,根据所选择的边缘极值点的坐标确定物品包围框在待处理图像中的位置坐标。
以物品包围框为四边形框为例,如图4所示,假设待处理图像中的物品是车辆,用户在待处理图像中连续选定四个边缘极值点,分别为车辆上端的边缘极值点、车辆右端的边缘极值点、车辆下端的边缘极值点和车辆左端的边缘极值点。根据用户选择的四个边缘极值点的坐标,可以确定包围车辆的物品包围框在待处理图像中的位置坐标,即物品包围框在待处理图像中的位置。
例如,可以采用物品包围框的左上角的角点和右下角的角点的坐标表示物品包围框在待处理图像中的位置。其中,车辆上端的边缘极值点的坐标作为物品包围框的左上角的角点的纵坐标,车辆左端的边缘极值点的坐标作为物品包围框的左上角的角点的横坐标,可以确定物品包围框的左上角的角点的位置坐标。车辆下端的边缘极值点的坐标作为物品包围框的右下角的角点的纵坐标,车辆右端的边缘极值点的坐标作为物品包围框的右下角的角点的横坐标,可以确定物品包围框的右下角的角点的位置坐标,进而可以确定物品包围框在待处理图像中的位置坐标。
在另一些实施例中,确定人工标定的物品包围框的位置坐标的一种方式为:如果物品包围框为方形框,响应在待处理图像上的滑动操作,将滑动的起始点坐标和终止点坐标分别作为物品包围框的对角线上的两个角点的坐标,确定物品包围框在待处理图像中的位置坐标。
示例性地,物品包围框的对角线上的两个角点可以分别是左上角的角点和右下角的角点。将滑动的起始点的坐标作为物品包围框的左上角的角点的坐标,将滑动的终止点的坐标作为物品包围框的右下角的角点的坐标,确定物品包围框在待处理图像中的位置坐标。
采用人工标注的方式在待处理图像中预先标定物品包围框,可以更准确地确定物品所在的位置。
步骤S1022,根据物品包围框在待处理图像中的位置坐标,在特征图中确定对应的待分类包围框。
在一些实施例中,特征提取模型输出的特征图的尺寸与待处理图像的尺寸相同,此时,可以将物品包围框在待处理图像中的位置坐标,直接作为待分类包围框在特征图中的位置坐标。
例如,在待处理图像中,已知物品包围框的左上角的角点的坐标和右下角的角点的坐标,可以将物品包围框的左上角的角点的坐标作为待分类包围框在特征图中的左上角的角点的坐标,将物品包围框的右下角的角点的坐标作为待分类包围框在特征图中的右下角的角点的坐标,从而确定待分类包围框在特征图中的位置,在特征图中标注出待分类包围框。
在另一些实施例中,如果特征提取模型输出的特征图的尺寸与待处理图像的尺寸不同,可以根据特征图与待处理图像的尺寸比例和物品包围框在待处理图像中的位置坐标,确定物品包围框对应的待分类包围框在特征图中的位置坐标。
例如,如果特征提取模型输出的特征图的尺寸是待处理图像的1/2,假设在待处理图像中,物品包围框的左上角的角点的坐标为(x1,y1),物品包围框的右下角的角点的坐标为(x2,y2)。根据特征图与待处理图像的尺寸比例,可以确定待分类包围框在特征图中的左上角的角点的坐标为(x1/2,y1/2),右下角的角点的坐标为(x2/2,y2/2),进而确定待分类包围框在特征图中的位置,在特征图中标注出待分类包围框。
步骤S1023,将待分类包围框的内部区域作为待分类区域。
在特征图中,待分类包围框所包围的区域即为待分类区域。
如果待处理图像中标注了多个物品包围框,则在特征图中也确定对应数量的待分类区域。通过图像分类模型确定每个待分类区域对应的物品分类,并输出分类结果。图像分类模型可以输出待分类区域对应的物品属于某种预设种类的物品的概率值。示例性地,图像分类模型可以将待分类区域包含的物品特征与预存的每一种预设种类的物品特征进行比对,计算待分类区域包含的物品特征与每以种预设种类的物品特征的相似度值,作为待分类区域对应的物品属于该预设种类的物品的概率值。图像分类模型可以输出概率值最高的三个物品种类,作为分类结果。其余的物品种类对应的概率值可以按照由高到低的顺序保存在分类结果列表中,以备用户查询。
例如,在对图像中的果蔬进行分类时,图像分类模型将同一个待分类区域包含的物品特征与预存的十种预设种类的物品特征进行比对,十种预设种类的物品分别为苹果、葡萄、橘子、西红柿、草莓、梨、菠萝、茄子、哈密瓜和黄瓜,分别得到待分类区域包含的物品属于苹果的概率为85%,待分类区域包含的物品属于葡萄的概率为3%,待分类区域包含的物品属于橘子的概率为5%,待分类区域包含的物品属于西红柿的概率为25%,待分类区域包含的物品属于草莓的概率为4%,待分类区域包含的物品属于梨的概率为10%,待分类区域包含的物品属于菠萝的概率为6%,待分类区域包含的物品属于茄子的概率为2%,待分类区域包含的物品属于哈密瓜的概率为5%,待分类区域包含的物品属于黄瓜的概率为0%。则图像分类模型输出对该待分类区域的分类结果为:苹果85%,西红柿25%,梨10%。
现有技术中,对图像中的物品进行分类时,一般得到待处理图像的特征图后,采用RPN(Region Proposal Networks,区域选取网络)在特征图中确定ROI区域,即包含物品的待分类区域,然后图像分类器基于RPN网络确定的ROI区域进行分类。而由于RPN网络确定的ROI区域会出现偏差,因此而导致分类器输出的分类结果错误率较高。
在本申请实施例中,可以采用人工标注的方式预先在待处理图像中标出物品包围框,得到待处理图像的特征图后,将待处理图像中的物品包围框映射到特征图中,确定待分类区域,可以保证确定的待分类区域准确无误,图像分类模型基于准确的待分类区域进行物品分类,可以提高分类结果的准确性。
在本申请实施例提供的图像中物品的分类方法,在对图像中的物品进行分类的过程中,使用了特征提取模型和图像分类模型。本申请实施例还提供一种模型训练方法,该模型用于对图像中的物品进行分类,该模型包括上述特征提取模型和图像分类模型。图5示出了本申请实施例提供的模型训练方法的流程图,如图5所示,该方法包括如下步骤:
步骤S501,获取训练图像。
获取训练样本集,训练样本集中包括多张训练图像,训练样本集中的训练图像可以是通过摄像头采集的,也可以是通过网络下载的。训练图像中包括样本物品和样本物品所处的背景环境,其中,样本物品被标注了样本物品包围框和样本物品分类标签。
从训练样本集中随机抽取一张训练图像,执行步骤S502。
步骤S502,将训练图像输入特征提取模型,得到训练图像的特征图。
将随机抽取的训练图像输入待训练的特征提取模型,得到特征提取模型输出的训练图像的特征图。
步骤S503,确定训练图像的样本物品包围框在训练图像的特征图中对应的待分类区域。
该步骤的具体实现过程可以参照图3所示的方法执行,在此不再赘述。由于该特征图是对包含背景环境的训练图像进行特征提取得到的,特征图中包含背景环境信息,将训练图像中的物品包围框直接映射到包含背景环境信息的特征图中,可以充分利用背景信息,使模型更好地区分物品与背景,从而使训练得到的模型的分类准确率更高。
步骤S504,通过图像分类模型对训练图像的特征图中的待分类区域进行物品分类预测,得到样本物品的预测分类结果。
将标注了待分类区域的特征图输入图像分类模型,得到图像分类模型输出的预测分类结果。
步骤S505,根据样本物品的预测分类结果和预先标注的样本物品分类标签,确定分类损失值。
可以采用预设的损失函数计算分类损失值,损失函数可以采用交叉熵损失函数,例如Sigmoid函数。通常,损失值是判定实际的输出与期望的输出的接近程度。损失值越小,说明实际的输出越接近期望的输出。
步骤S506,判断分类损失值是否收敛;如果是,执行步骤S508;如果否,执行步骤S507。
判断分类损失值是否收敛至预设的期望值,即是否小于或等于预设的期望值,如果是,说明分类损失值收敛;如果否,说明分类损失值尚未收敛。
步骤S507,根据分类损失值调整特征提取模型和图像分类模型中的参数。
如果分类损失值尚未收敛,可以采用反向传播算法,根据分类损失值调整特征提取模型和图像分类模型中的参数,然后返回步骤S501继续抽取训练图像对特征提取模型和图像分类模型进行训练。
步骤S508,将当前参数作为特征提取模型和图像分类模型的参数,获得已训练的特征提取模型和图像分类模型。
本申请实施例的模型训练方法,用于训练特征提取模型和图像分类模型的训练图像并不是从原始图像中分割出来的仅包含物品的小区域图像,而是完整的原始图像,上述训练图像不仅包括物品,还包括物品所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练,可以充分利用训练图像中的背景信息,使训练得到的特征提取模型和图像分类模型可以准确区分物品与背景,进而提高分类准确率。
为了利用较少的训练图像更快地对特征提取模型和图像分类模型进行训练,可以采用迁移学习的方式。即利用其它领域已经训练过的网络模型,例如利用图像分割领域已经训练过的网络模型作为待训练的特征提取模型和图像分类模型。采用本申请实施例中的训练数据对其再次进行训练,能够快速得到所需要的特征提取模型和图像分类模型。
同样,图5所示的模型训练方法也可以适用于对人体、花草树木等其它目标物。
为了更便于理解本申请实施例的方案,以下具体介绍本申请实施例的图像中物品的分类方法两个应用实例。
在一个应用实例中,通过用户输入的四个极值点在待处理图像中确定物品包围框的位置,共得到三个物品包围框。通过特征提取模型对待处理图像进行特征提取,得到待处理图像的特征图。特征提取模型采用全卷积神经网络,特征提取模型输出的特征图与待处理图像的尺寸相同。根据物品包围框在待处理图像中的位置坐标,在特征图中确定与物品包围框对应的待分类区域,相对应地,得到三个待分类区域。通过图像分类模型确定三个待分类区域对应的物品分类,得到三个待分类区域分别对应的分类结果。
在另一个应用实例中,接收用户在待处理图像中标定的物品包围框。通过特征提取模型对待处理图像进行特征提取,得到待处理图像的特征图。特征提取模型包括残差网络和特征金字塔网络,残差网络可以采用Resnet-50等网络结构。残差网络和特征金字塔网络的网络结构可以参见图6所示。
在图6中,残差网络包括四个特征提取层,每个特征提取层输出一个尺寸的特征响应图,每个特征提取层输出的特征响应图的尺寸与其它特征提取层不同。一种可选的网络结构为:每个特征提取层包括至少一个卷积层和至少一个池化层,卷积层用于提取待检测图像中的特征信息,生成特征响应图,池化层用于缩小特征响应图的尺寸。另一种可选的网络结构为:每个特征提取层包括多个卷积层,其中,至少一个卷积层的步长大于或等于2,用于缩小特征响应图的尺寸,起到与池化层相同的作用。与残差网络相对应地,特征金字塔网络包括四个网络层,每个网络层对应输入一种尺寸的特征响应图,输出对应尺寸的特征图。除第一网络层之外,每层网络层将上一网络层传递的特征图与本层网络层接收到的特征响应图进行融合,得到本层网络层的特征响应图传递至下一网络层。
待处理图像输入残差网络后,残差网络的四个特征提取层输出四个特征响应图,分别为第一特征响应图、第二特征响应图、第三特征响应图和第四特征响应图。第一特征响应图、第二特征响应图、第三特征响应图和第四特征响应图的尺寸依次减小。四个特征响应图依次输入特征金字塔网络对应的网络层。其中,第一网络层包括卷积层,第二网络层、第三网络层和第四网络层包括上采样层和卷积层。第一网络层对应输入第四特征响应图,第四特征响应图经第一网络层的卷积层,得到第一特征图;第一特征图经第二网络层的上采样层后尺寸放大,第二网络层对应输入第三特征响应图,第三特征响应图和尺寸放大的第一特征图经第二网络层的卷积层进行特征融合,得到第二特征图。第二特征图经第三网络层的上采样层后尺寸放大,第三网络层对应输入第二特征响应图,第二特征响应图和尺寸放大的第三特征图经第三网络层的卷积层进行特征融合,得到第三特征图。第三特征图经第四网络层的上采样层后尺寸放大,第四网络层对应输入第一特征响应图,第一特征响应图和尺寸放大的第四特征图经第四网络层的卷积层进行特征融合,得到第四特征图。
因此,特征金字塔网络输出四个特征图,分别为第一特征图、第二特征图、第三特征图和第四特征图。第一特征图、第二特征图、第三特征图和第四特征图的尺寸依次增大。
根据每个特征图与待处理图像的尺寸比例和物品包围框在待处理图像中的位置坐标,在四个特征图中均确定物品包围框对应的待分类区域。将四个特征图均输入图像分类模型,图像分类模型基于四个特征图中尺寸合适的待分类区域进行物品分类,输出分类结果。
与图1所示的图像中目标物的分类方法的实施例相对应地,本申请实施例还提供了一种图像中目标物的分类装置。图7为本申请实施例提供的图像中目标物的分类装置的结构示意图;如图7所示,本申请实施例的提供的图像中目标物的分类装置包括特征提取单元71、区域确定单元72和分类检测单元73。其中,
特征提取单元71,用于通过特征提取模型对待处理图像进行特征提取,得到待处理图像的特征图;
区域确定单元72,用于确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域;
分类检测单元73,用于通过图像分类模型确定待分类区域对应的目标物类别,并输出分类结果;特征提取模型和图像分类模型是基于训练图像进行训练得到的,训练图像包括样本目标物和样本目标物所处的背景环境,其中样本目标物被标注了样本目标物包围框和样本目标物分类标签。
在一种可能的实现方式中,区域确定单元72,还可以用于:
确定预先标定的目标物包围框在待处理图像中的位置坐标;
根据目标物包围框在待处理图像中的位置坐标,在特征图中确定对应的待分类包围框;
将待分类包围框的内部区域作为待分类区域。
在一种可能的实现方式中,目标物包围框为多边形框;区域确定单元72,还可以用于:
响应在待处理图像上连续选择目标物在设定方向上的边缘极值点的操作,根据所选择的边缘极值点的坐标确定目标物包围框在待处理图像中的位置坐标;或者,
响应在待处理图像上的滑动操作,将滑动的起始点坐标和终止点坐标分别作为目标物包围框的对角线上的两个角点的坐标,确定目标物包围框在待处理图像中的位置坐标。
在一种可能的实现方式中,区域确定单元72,还可以用于:
根据特征图与待处理图像的尺寸比例和目标物包围框在待处理图像中的位置坐标,确定目标物包围框对应的待分类包围框在特征图中的位置坐标。
在一种可能的实现方式中,如图8所示,上述装置还可以包括模型训练单元81,用于:
将训练图像输入特征提取模型,得到训练图像的特征图;
确定训练图像的样本目标物包围框在训练图像的特征图中对应的待分类区域;
通过图像分类模型对训练图像的特征图中的待分类区域进行目标物分类预测,得到样本目标物的预测分类结果;
根据样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;
根据分类损失值调整特征提取模型和图像分类模型中的参数,直至分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
本申请实施例的图像中目标物的分类装置,通过特征提取模型提取待处理图像的特征图,确定在待处理图像中预先标定的目标物包围框在特征图中对应的待分类区域,通过图像分类模型确定待分类区域对应的目标物类别,并输出分类结果。其中,特征提取模型和图像分类模型是基于训练图像进行训练得到的,上述训练图像并不是从原始图像中分割出来的仅包含目标物的小区域图像,而是完整的原始图像,训练图像不仅包括目标物,还包括目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练,可以充分利用训练图像中的背景信息,使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景,进而提高分类准确率。
与图6所示的模型训练方法的实施例相对应地,本申请实施例还提供了一种模型训练装置,用于训练对图像中的目标物进行分类的模型,该模型包括特征提取模型和图像分类模型。图9为本申请实施例提供的模型训练装置的结构示意图;如图9所示,本申请实施例的提供的模型训练装置包括数据获取单元91和训练单元92。
数据获取单元,用于获取训练图像;训练图像包括样本目标物和样本目标物所处的背景环境,其中样本目标物被标注了样本目标物包围框和样本目标物分类标签;
训练单元,用于将训练图像输入特征提取模型,得到训练图像的特征图;确定训练图像的样本目标物包围框在训练图像的特征图中对应的待分类区域;通过图像分类模型对训练图像的特征图中的待分类区域进行目标物分类预测,得到样本目标物的预测分类结果;根据样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;根据分类损失值调整特征提取模型和图像分类模型中的参数,直至分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
本申请实施例的模型训练装置,用于训练特征提取模型和图像分类模型的训练图像并不是从原始图像中分割出来的仅包含目标物的小区域图像,而是完整的原始图像,训练图像不仅包括目标物,还包括目标物所处的背景环境。使用包括背景环境的训练图像对特征提取模型和图像分类模型进行训练,可以充分利用训练图像中的背景信息,使训练得到的特征提取模型和图像分类模型可以准确区分目标物与背景,进而提高分类准确率。
与上述方法实施例相对应地,本申请实施例还提供了一种电子设备。电子设备可以是计算机、服务器或移动终端,如智能手机、平板电脑,手提电脑等。电子设备至少包括用于存储数据的存储器和用于数据处理的处理器。其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、CPU、DSP或FPGA实现;对于存储器来说,包含操作指令,该操作指令可以为计算机可执行代码,通过上述操作指令来实现上述本申请实施例图像中目标物的分类方法或模型训练方法流程中的各个步骤。
图10为本申请实施例提供的一种电子设备的结构示意图;如图10所示,本申请实施例中电子设备100包括:处理器101、显示器102、存储器103、输入设备106、总线105和通讯设备104;处理器101、存储器103、输入设备106、显示器102和通讯设备104均通过总线105连接,总线105用于处理器101、存储器103、显示器102、通讯设备104和输入设备106之间传输数据。
处理器101用于执行上述的图像中目标物的分类方法,对输入的待处理图像包含的目标物进行分类,并输出分类结果,通过显示器102将分类结果展示给用户。
当电子设备为终端设备时,处理器101还通过通讯模块104与服务器连接。当电子设备为服务器时,处理器101还通过通讯模块104与多个终端设备连接。
输入设备106主要用于获得用户的输入操作,当电子设备不同时,输入设备106也可能不同。例如,当电子设备为计算机时,输入设备106可以为鼠标、键盘等输入设备;当电子设备为智能手机、平板电脑等便携设备时,输入设备106可以为触控屏。
本实施例中,存储器103中存储有计算机存储介质,计算机存储介质中存储有计算机程序,计算机程序被处理器执行时,实现本申请实施例的图像中目标物的分类方法或模型训练方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述图像中目标物的分类方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现上述模型训练方法。
在一些可能的实施方式中,本申请提供的图像中目标物的分类方法或模型训练方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的图像中目标物的分类方法的步骤,例如,计算机设备可以执行如图1所示的步骤S101~S103中图像中目标物的分类方法的流程。
上述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于图像中目标物的分类方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (12)
1.一种图像中目标物的分类方法,其特征在于,所述方法包括:
通过特征提取模型对待处理图像进行特征提取,得到所述待处理图像的特征图;
确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域;
通过图像分类模型确定所述待分类区域对应的目标物类别,并输出分类结果;所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的,所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。
2.根据权利要求1所述的方法,其特征在于,所述确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域,包括:
确定预先标定的目标物包围框在所述待处理图像中的位置坐标;
根据所述目标物包围框在所述待处理图像中的位置坐标,在所述特征图中确定对应的待分类包围框;
将所述待分类包围框的内部区域作为所述待分类区域。
3.根据权利要求2所述的方法,其特征在于,所述目标物包围框为多边形框;所述确定预先标定的目标物包围框在所述待处理图像中的位置坐标,包括:
响应在所述待处理图像上连续选择目标物在设定方向上的边缘极值点的操作,根据所选择的边缘极值点的坐标确定所述目标物包围框在所述待处理图像中的位置坐标;或者,
响应在所述待处理图像上的滑动操作,将滑动的起始点坐标和终止点坐标分别作为目标物包围框的对角线上的两个角点的坐标,确定所述目标物包围框在所述待处理图像中的位置坐标。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标物包围框在所述待处理图像中的位置坐标,在所述特征图中确定对应的待分类包围框,包括:
根据所述特征图与所述待处理图像的尺寸比例和所述目标物包围框在所述待处理图像中的位置坐标,确定所述目标物包围框对应的待分类包围框在所述特征图中的位置坐标。
5.根据权利要求1所述的方法,其特征在于,所述特征提取模型和所述图像分类模型的训练过程包括:
将所述训练图像输入特征提取模型,得到所述训练图像的特征图;
确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域;
通过图像分类模型对所述训练图像的特征图中的待分类区域进行分类预测,得到样本目标物的预测分类结果;
根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;
根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数,直至所述分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
6.一种模型训练方法,其特征在于,所述模型包括特征提取模型和图像分类模型;所述方法包括:
获取训练图像;所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签;
将所述训练图像输入特征提取模型,得到所述训练图像的特征图;
确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域;
通过图像分类模型对所述训练图像的特征图中的待分类区域进行分类预测,得到样本目标物的预测分类结果;
根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;
根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数,直至所述分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
7.一种图像中目标物的分类装置,其特征在于,所述装置包括:
特征提取单元,用于通过特征提取模型对待处理图像进行特征提取,得到所述待处理图像的特征图;
区域确定单元,用于确定在所述待处理图像中预先标定的目标物包围框在所述特征图中对应的待分类区域;
分类检测单元,用于通过图像分类模型确定所述待分类区域对应的目标物类别,并输出分类结果;所述特征提取模型和所述图像分类模型是基于训练图像进行训练得到的,所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签。
8.根据权利要求7所述的装置,其特征在于,所述区域确定单元,还用于:
确定预先标定的目标物包围框在所述待处理图像中的位置坐标;
根据所述目标物包围框在所述待处理图像中的位置坐标,在所述特征图中确定对应的待分类包围框;
将所述待分类包围框的内部区域作为所述待分类区域。
9.根据权利要求8所述的装置,其特征在于,所述区域确定单元,还用于:
根据所述特征图与所述待处理图像的尺寸比例和所述目标物包围框在所述待处理图像中的位置坐标,确定所述目标物包围框对应的待分类包围框在所述特征图中的位置坐标。
10.一种模型训练装置,其特征在于,所述模型包括特征提取模型和图像分类模型;所述装置包括:
数据获取单元,用于获取训练图像;所述训练图像包括样本目标物和样本目标物所处的背景环境,其中所述样本目标物被标注了样本目标物包围框和样本目标物分类标签;
训练单元,用于将所述训练图像输入特征提取模型,得到所述训练图像的特征图;确定所述训练图像的样本目标物包围框在所述训练图像的特征图中对应的待分类区域;通过图像分类模型对所述训练图像的特征图中的待分类区域进行分类预测,得到样本目标物的预测分类结果;根据所述样本目标物的预测分类结果和预先标注的样本目标物分类标签,确定分类损失值;根据所述分类损失值调整所述特征提取模型和所述图像分类模型中的参数,直至所述分类损失值收敛至预设的期望值,获得已训练的特征提取模型和图像分类模型。
11.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~5任一项或权利要求6所述的方法。
12.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1~5任一项或权利要求6所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911126987.0A CN110929774B (zh) | 2019-11-18 | 2019-11-18 | 图像中目标物的分类方法、模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911126987.0A CN110929774B (zh) | 2019-11-18 | 2019-11-18 | 图像中目标物的分类方法、模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929774A true CN110929774A (zh) | 2020-03-27 |
CN110929774B CN110929774B (zh) | 2023-11-14 |
Family
ID=69854069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911126987.0A Active CN110929774B (zh) | 2019-11-18 | 2019-11-18 | 图像中目标物的分类方法、模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929774B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111330871A (zh) * | 2020-03-31 | 2020-06-26 | 新华三信息安全技术有限公司 | 一种品质分类方法及装置 |
CN111860510A (zh) * | 2020-07-29 | 2020-10-30 | 浙江大华技术股份有限公司 | 一种x光图像目标检测方法及装置 |
CN111950344A (zh) * | 2020-06-28 | 2020-11-17 | 北京百度网讯科技有限公司 | 生物类别的识别方法、装置、存储介质及电子设备 |
CN112183463A (zh) * | 2020-10-23 | 2021-01-05 | 珠海大横琴科技发展有限公司 | 基于雷达图像的船只识别模型的验证方法及装置 |
CN112200631A (zh) * | 2020-10-12 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种行业分类模型的训练方法及装置 |
CN112215243A (zh) * | 2020-10-30 | 2021-01-12 | 百度(中国)有限公司 | 图像特征提取方法、装置、设备及存储介质 |
CN112651948A (zh) * | 2020-12-30 | 2021-04-13 | 重庆科技学院 | 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法 |
CN112699945A (zh) * | 2020-12-31 | 2021-04-23 | 青岛海尔科技有限公司 | 数据标注方法及装置、存储介质及电子装置 |
CN112766092A (zh) * | 2021-01-05 | 2021-05-07 | 北京航空航天大学 | 基于类脑神经网络的背景类别快速识别方法及其应用 |
CN112926378A (zh) * | 2021-01-04 | 2021-06-08 | 广州小鹏自动驾驶科技有限公司 | 一种车辆侧边棱确定方法和装置 |
CN113807367A (zh) * | 2021-09-17 | 2021-12-17 | 平安科技(深圳)有限公司 | 图像特征的提取方法、装置、设备及存储介质 |
CN114466203A (zh) * | 2020-11-10 | 2022-05-10 | 阿里巴巴集团控股有限公司 | 视频的处理方法、装置及系统 |
CN115545088A (zh) * | 2022-02-22 | 2022-12-30 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
CN115661486A (zh) * | 2022-12-29 | 2023-01-31 | 有米科技股份有限公司 | 图像特征的智能提取方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133570A (zh) * | 2017-04-07 | 2017-09-05 | 武汉睿智视讯科技有限公司 | 一种车辆/行人检测方法及系统 |
CN107423760A (zh) * | 2017-07-21 | 2017-12-01 | 西安电子科技大学 | 基于预分割和回归的深度学习目标检测方法 |
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN108156519A (zh) * | 2017-12-25 | 2018-06-12 | 深圳Tcl新技术有限公司 | 图像分类方法、电视设备及计算机可读存储介质 |
CN108376235A (zh) * | 2018-01-15 | 2018-08-07 | 深圳市易成自动驾驶技术有限公司 | 图像检测方法、装置及计算机可读存储介质 |
CN108846826A (zh) * | 2018-04-24 | 2018-11-20 | 深圳大学 | 物体检测方法、装置、图像处理设备及存储介质 |
CN109670512A (zh) * | 2017-10-16 | 2019-04-23 | 斯特拉德视觉公司 | 使用多尺度特征图调整cnn参数的学习方法和学习装置及使用其的测试方法和测试装置 |
CN109670452A (zh) * | 2018-12-20 | 2019-04-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、电子设备和人脸检测模型 |
CN109740463A (zh) * | 2018-12-21 | 2019-05-10 | 沈阳建筑大学 | 一种车载环境下的目标检测方法 |
CN109829893A (zh) * | 2019-01-03 | 2019-05-31 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN110097018A (zh) * | 2019-05-08 | 2019-08-06 | 深圳供电局有限公司 | 变电站仪表检测方法、装置、计算机设备和存储介质 |
CN110348515A (zh) * | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 图像分类方法、图像分类模型训练方法及装置 |
CN110427793A (zh) * | 2019-08-01 | 2019-11-08 | 厦门商集网络科技有限责任公司 | 一种基于深度学习的条码检测方法及其系统 |
-
2019
- 2019-11-18 CN CN201911126987.0A patent/CN110929774B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
CN107133570A (zh) * | 2017-04-07 | 2017-09-05 | 武汉睿智视讯科技有限公司 | 一种车辆/行人检测方法及系统 |
CN107423760A (zh) * | 2017-07-21 | 2017-12-01 | 西安电子科技大学 | 基于预分割和回归的深度学习目标检测方法 |
CN109670512A (zh) * | 2017-10-16 | 2019-04-23 | 斯特拉德视觉公司 | 使用多尺度特征图调整cnn参数的学习方法和学习装置及使用其的测试方法和测试装置 |
CN108156519A (zh) * | 2017-12-25 | 2018-06-12 | 深圳Tcl新技术有限公司 | 图像分类方法、电视设备及计算机可读存储介质 |
CN108376235A (zh) * | 2018-01-15 | 2018-08-07 | 深圳市易成自动驾驶技术有限公司 | 图像检测方法、装置及计算机可读存储介质 |
CN108846826A (zh) * | 2018-04-24 | 2018-11-20 | 深圳大学 | 物体检测方法、装置、图像处理设备及存储介质 |
CN109670452A (zh) * | 2018-12-20 | 2019-04-23 | 北京旷视科技有限公司 | 人脸检测方法、装置、电子设备和人脸检测模型 |
CN109740463A (zh) * | 2018-12-21 | 2019-05-10 | 沈阳建筑大学 | 一种车载环境下的目标检测方法 |
CN109829893A (zh) * | 2019-01-03 | 2019-05-31 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN110097018A (zh) * | 2019-05-08 | 2019-08-06 | 深圳供电局有限公司 | 变电站仪表检测方法、装置、计算机设备和存储介质 |
CN110348515A (zh) * | 2019-07-10 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 图像分类方法、图像分类模型训练方法及装置 |
CN110427793A (zh) * | 2019-08-01 | 2019-11-08 | 厦门商集网络科技有限责任公司 | 一种基于深度学习的条码检测方法及其系统 |
Non-Patent Citations (1)
Title |
---|
许悦雷;朱明明;马时平;唐红;马红强;: "迁移学习结合难分样本挖掘的机场目标检测", 西安电子科技大学学报, no. 05 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111330871A (zh) * | 2020-03-31 | 2020-06-26 | 新华三信息安全技术有限公司 | 一种品质分类方法及装置 |
CN111950344A (zh) * | 2020-06-28 | 2020-11-17 | 北京百度网讯科技有限公司 | 生物类别的识别方法、装置、存储介质及电子设备 |
CN111950344B (zh) * | 2020-06-28 | 2023-06-27 | 北京百度网讯科技有限公司 | 生物类别的识别方法、装置、存储介质及电子设备 |
CN111860510B (zh) * | 2020-07-29 | 2021-06-18 | 浙江大华技术股份有限公司 | 一种x光图像目标检测方法及装置 |
CN111860510A (zh) * | 2020-07-29 | 2020-10-30 | 浙江大华技术股份有限公司 | 一种x光图像目标检测方法及装置 |
CN112200631A (zh) * | 2020-10-12 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种行业分类模型的训练方法及装置 |
CN112183463A (zh) * | 2020-10-23 | 2021-01-05 | 珠海大横琴科技发展有限公司 | 基于雷达图像的船只识别模型的验证方法及装置 |
CN112183463B (zh) * | 2020-10-23 | 2021-10-15 | 珠海大横琴科技发展有限公司 | 基于雷达图像的船只识别模型的验证方法及装置 |
CN112215243A (zh) * | 2020-10-30 | 2021-01-12 | 百度(中国)有限公司 | 图像特征提取方法、装置、设备及存储介质 |
CN114466203A (zh) * | 2020-11-10 | 2022-05-10 | 阿里巴巴集团控股有限公司 | 视频的处理方法、装置及系统 |
CN112651948B (zh) * | 2020-12-30 | 2022-04-12 | 重庆科技学院 | 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法 |
CN112651948A (zh) * | 2020-12-30 | 2021-04-13 | 重庆科技学院 | 一种基于机器视觉的青蒿素萃取智能跟踪与识别方法 |
CN112699945A (zh) * | 2020-12-31 | 2021-04-23 | 青岛海尔科技有限公司 | 数据标注方法及装置、存储介质及电子装置 |
CN112699945B (zh) * | 2020-12-31 | 2023-10-27 | 青岛海尔科技有限公司 | 数据标注方法及装置、存储介质及电子装置 |
CN112926378A (zh) * | 2021-01-04 | 2021-06-08 | 广州小鹏自动驾驶科技有限公司 | 一种车辆侧边棱确定方法和装置 |
CN112766092A (zh) * | 2021-01-05 | 2021-05-07 | 北京航空航天大学 | 基于类脑神经网络的背景类别快速识别方法及其应用 |
CN113807367A (zh) * | 2021-09-17 | 2021-12-17 | 平安科技(深圳)有限公司 | 图像特征的提取方法、装置、设备及存储介质 |
CN113807367B (zh) * | 2021-09-17 | 2023-06-16 | 平安科技(深圳)有限公司 | 图像特征的提取方法、装置、设备及存储介质 |
CN115545088A (zh) * | 2022-02-22 | 2022-12-30 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
CN115545088B (zh) * | 2022-02-22 | 2023-10-24 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
CN115661486A (zh) * | 2022-12-29 | 2023-01-31 | 有米科技股份有限公司 | 图像特征的智能提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110929774B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929774B (zh) | 图像中目标物的分类方法、模型训练方法和装置 | |
US11222236B2 (en) | Image question answering method, apparatus and system, and storage medium | |
CN110458107B (zh) | 用于图像识别的方法和装置 | |
Zhao et al. | Scene classification using multi-scale deeply described visual words | |
US20180114071A1 (en) | Method for analysing media content | |
US11810380B2 (en) | Methods and apparatus to decode documents based on images using artificial intelligence | |
Mukhiddinov et al. | Improved classification approach for fruits and vegetables freshness based on deep learning | |
Wang et al. | YOLOv3‐Litchi Detection Method of Densely Distributed Litchi in Large Vision Scenes | |
Sun et al. | Fast object detection based on binary deep convolution neural networks | |
Xiao et al. | Fruit ripeness identification using YOLOv8 model | |
Nawaz et al. | AI-based object detection latest trends in remote sensing, multimedia and agriculture applications | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN103745201A (zh) | 一种节目识别方法及装置 | |
Prakash et al. | An intelligent fruits classification in precision agriculture using bilinear pooling convolutional neural networks | |
Teimouri et al. | A real-time ball detection approach using convolutional neural networks | |
Verdhan | Computer Vision Using Deep Learning | |
CN115131604A (zh) | 一种多标签图像分类方法、装置、电子设备及存储介质 | |
Silva et al. | Superpixel-based online wagging one-class ensemble for feature selection in foreground/background separation | |
Adetiba et al. | LeafsnapNet: an experimentally evolved deep learning model for recognition of plant species based on leafsnap image dataset | |
CN112270671B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
Francis et al. | Live detection of text in the natural environment using convolutional neural network | |
US11983247B2 (en) | Methods, systems, articles of manufacture, and apparatus to recalibrate confidences for image classification | |
Hi et al. | A deep learning approach for lantana camara weed detection and localization in the natural environment | |
CN113239915B (zh) | 一种课堂行为的识别方法、装置、设备及存储介质 | |
Asrol et al. | Real-Time Oil Palm Fruit Grading System Using Smartphone and Modified YOLOv4 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022967 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |