CN111476284B - 图像识别模型训练及图像识别方法、装置、电子设备 - Google Patents
图像识别模型训练及图像识别方法、装置、电子设备 Download PDFInfo
- Publication number
- CN111476284B CN111476284B CN202010249728.3A CN202010249728A CN111476284B CN 111476284 B CN111476284 B CN 111476284B CN 202010249728 A CN202010249728 A CN 202010249728A CN 111476284 B CN111476284 B CN 111476284B
- Authority
- CN
- China
- Prior art keywords
- image
- identification
- target
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 236
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000013507 mapping Methods 0.000 claims abstract description 193
- 238000002372 labelling Methods 0.000 claims abstract description 75
- 238000000605 extraction Methods 0.000 claims description 69
- 238000001514 detection method Methods 0.000 claims description 63
- 238000013145 classification model Methods 0.000 claims description 59
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 238000004088 simulation Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 description 22
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 230000000877 morphologic effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别模型训练及图像识别方法、装置、电子设备及存储介质,能够快速生成大量标注好的训练样本,降低训练成本,提高训练效率,该图像识别模型训练方法包括:从包含标识的第一图像中提取包含标识的贴图模板;将贴图模板添加到多个第二图像中,获得多个样本图像;将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;基于训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像识别模型训练及图像识别方法、装置、电子设备。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
现有的训练图像识别模型的方法通常是:对图像中包含的对象进行人工标注,将标注好的图像作为训练样本,对图像识别模型进行训练。但是,当需要识别的对象种类上升到数以千计或者数以万计时,人工标注的效率极低。
发明内容
针对上述技术问题,非常需要一种改进的方法,能够快速生成大量标注好的训练样本,降低训练成本,提高训练效率。
一方面,本申请一实施例提供了一种图像识别模型训练方法,包括:
从包含标识的第一图像中提取包含标识的贴图模板;
将所述贴图模板添加到多个第二图像中,获得多个样本图像;
将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,所述标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;
基于所述训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型。
可选地,所述从包含标识的第一图像中提取包含标识的贴图模板,具体包括:
确定包含标识的第一图像中的前景区域和背景区域,所述前景区域中包含所述标识;
将所述第一图像中背景区域内的像素点设置为透明;
从透明化处理后的第一图像中获取包含前景区域的图像,确定为包含所述标识的贴图模板。
可选地,所述将所述贴图模板添加到多个第二图像中,获得多个样本图像,具体包括:
针对每个第二图像,将所述第二图像中图像特征满足预设条件的区域确定为贴图区域,和/或将所述第二图像中的指定区域确定为贴图区域;
将所述贴图模板添加到多个第二图像中的贴图区域内,获得多个样本图像。
可选地,所述将所述贴图模板添加到多个第二图像中的贴图区域内,具体包括:
针对每个第二图像,根据所述第二图像中的贴图区域的图像特征,对所述贴图模板进行仿真变换,将仿真变换后的贴图模板添加到所述第二图像中。
可选地,每个训练样本还包括:贴图模板在样本图像中的位置信息;所述图像识别模型包括:目标检测模型和特征提取模型;
所述基于所述训练样本集训练图像识别模型,具体包括:
基于所述训练样本集中各个训练样本中的样本图像和贴图模板在所述样本图像中的位置信息,训练所述目标检测模型,所述目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;
针对每个训练样本,获取所述样本图像中包含所述位置信息对应的标识的目标图像;
基于各个训练样本对应的目标图像和标注标签,训练所述特征提取模型,所述特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别。
可选地,所述方法还包括:
获取第三图像;
基于已训练的目标检测模型,确定所述第三图像中的标识在所述第三图像中的目标位置信息;
根据所述第三图像对应的目标位置信息,从所述第三图像中提取出包含标识的目标图像;
基于已训练的特征提取模型,从所述目标图像中提取标识特征;
确定所述目标图像的标识特征与各个标识类别的标识特征的匹配度;
若最大匹配度大于第一阈值,则将所述最大匹配度对应的标识类别确定为所述第三图像的标注标签;
将所述第三图像、所述目标位置信息和所述第三图像的标注标签作为一个训练样本添加到所述训练样本集中。
可选地,所述图像识别模型还包括:分类模型;
所述方法还包括:
针对每个第三图像,若所述第三图像的目标图像对应的最大匹配度小于第二阈值,则将所述第三图像的目标图像和标注标签作为负样本添加到负样本集中;
将所述训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中;
所述基于所述训练样本集训练图像识别模型,还包括:
基于所述负样本集和所述正样本集,训练所述分类模型。
可选地,所述方法还包括:
获取第四图像;
基于已训练的目标检测模型,确定所述第四图像中的标识在所述第四图像中的目标位置信息;
根据所述第四图像对应的目标位置信息,从所述第四图像中提取出包含标识的目标图像;
基于已训练的分类模型,确定所述第四图像的目标图像对应的标识类别以及对应的分类概率值;
若所述分类概率值小于第三阈值,则将所述第四图像的目标图像和所述第四图像的目标图像对应的标注标签作为负样本添加到所述负样本集中,所述第四图像的目标图像对应的标注标签是基于所述第四图像的目标图像对应的标识类别确定的。
一方面,本申请一实施例提供了一种图像识别方法,包括:
获取待识别图像;
基于已训练的图像识别模型,识别所述待识别图像中包含的标识所属的标识类别;
其中,训练所述图像识别模型的训练样本集中的每个训练样本包括一个样本图像和标注标签,所述样本图像为添加了贴图模板的图像,所述标注标签是基于所述样本图像中的贴图模板包含的标识所属的标识类别确定的,所述贴图模板是从包含标识的第一图像中提取的。
可选地,所述图像识别模型包括:目标检测模型和特征提取模型;
所述基于已训练的图像识别模型,识别所述待识别图像中包含的标识所属的标识类别,具体包括:
基于所述目标检测模型,确定所述待识别图像中包含的标识在所述待识别图像中的目标位置信息;
根据所述目标位置信息,从所述待识别图像中提取包含标识的目标图像;
基于所述特征提取模型,从所述目标图像中提取标识特征;
确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别;
根据所述最大匹配度对应的标识类别,确定所述待识别图像中包含的标识所属的标识类别。
可选地,所述图像识别模型还包括:分类模型;
所述根据所述最大匹配度对应的标识类别,确定所述待识别图像中包含的标识所属的标识类别,具体包括:
若所述最大匹配度大于上限阈值,则将所述最大匹配度对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别;
若所述最大匹配度不大于所述上限阈值且所述最大匹配度不小于下限阈值,则基于所述分类模型确定所述目标图像对应的标识类别,将所述目标图像对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别。
一方面,本申请一实施例提供了一种图像识别模型训练装置,包括:
模板提取模块,用于从包含标识的第一图像中提取包含标识的贴图模板;
样本获取模块,用于将所述贴图模板添加到多个第二图像中,获得多个样本图像,将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,所述标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;
训练模块,用于基于所述训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型。
可选地,所述模板提取模块,具体用于:
确定包含标识的第一图像中的前景区域和背景区域,所述前景区域中包含所述标识;
将所述第一图像中背景区域内的像素点设置为透明;
从透明化处理后的第一图像中获取包含前景区域的图像,确定为包含所述标识的贴图模板。
可选地,所述样本获取模块,具体用于:
针对每个第二图像,将所述第二图像中图像特征满足预设条件的区域确定为贴图区域,和/或将所述第二图像中的指定区域确定为贴图区域;
将所述贴图模板添加到多个第二图像中的贴图区域内,获得多个样本图像。
可选地,所述样本获取模块,具体用于:
针对每个第二图像,根据所述第二图像中的贴图区域的图像特征,对所述贴图模板进行仿真变换,将仿真变换后的贴图模板添加到所述第二图像中。
可选地,每个训练样本还包括:贴图模板在样本图像中的位置信息;所述图像识别模型包括:目标检测模型和特征提取模型;
所述训练模块,具体用于:
基于所述训练样本集中各个训练样本中的样本图像和贴图模板在所述样本图像中的位置信息,训练所述目标检测模型,所述目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;
针对每个训练样本,获取所述样本图像中包含所述位置信息对应的标识的目标图像;
基于各个训练样本对应的目标图像和标注标签,训练所述特征提取模型,所述特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别。
可选地,所述样本获取模块还用于:
获取第三图像;
基于已训练的目标检测模型,确定所述第三图像中的标识在所述第三图像中的目标位置信息;
根据所述第三图像对应的目标位置信息,从所述第三图像中提取出包含标识的目标图像;
基于已训练的特征提取模型,从所述目标图像中提取标识特征;
确定所述目标图像的标识特征与各个标识类别的标识特征的匹配度;
若最大匹配度大于第一阈值,则将所述最大匹配度对应的标识类别确定为所述第三图像的标注标签;
将所述第三图像、所述目标位置信息和所述第三图像的标注标签作为一个训练样本添加到所述训练样本集中。
可选地,所述图像识别模型还包括:分类模型;
所述样本获取模块,还用于:针对每个第三图像,若所述第三图像的目标图像对应的最大匹配度小于第二阈值,则将所述第三图像的目标图像和标注标签作为负样本添加到负样本集中;将所述训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中;
所述训练模块,还用于基于所述负样本集和所述正样本集,训练所述分类模型。
可选地,所述样本获取模块,还用于:
获取第四图像;
基于已训练的目标检测模型,确定所述第四图像中的标识在所述第四图像中的目标位置信息;
根据所述第四图像对应的目标位置信息,从所述第四图像中提取出包含标识的目标图像;
基于已训练的分类模型,确定所述第四图像的目标图像对应的标识类别以及对应的分类概率值;
若所述分类概率值小于第三阈值,则将所述第四图像的目标图像和所述第四图像的目标图像对应的标注标签作为负样本添加到所述负样本集中,所述第四图像的目标图像对应的标注标签是基于所述第四图像的目标图像对应的标识类别确定的。
一方面,本申请一实施例提供了一种图像识别装置,包括:
获取模块,用于获取待识别图像;
识别模块,用于基于已训练的图像识别模型,识别所述待识别图像中包含的标识所属的标识类别;
其中,训练所述图像识别模型的训练样本集中的每个训练样本包括一个样本图像和标注标签,所述样本图像为添加了贴图模板的图像,所述标注标签是基于所述样本图像中的贴图模板包含的标识所属的标识类别确定的,所述贴图模板是从包含标识的第一图像中提取的。
可选地,所述图像识别模型包括:目标检测模型和特征提取模型;
所述识别模块,具体用于:
基于所述目标检测模型,确定所述待识别图像中包含的标识在所述待识别图像中的目标位置信息;
根据所述目标位置信息,从所述待识别图像中提取包含标识的目标图像;
基于所述特征提取模型,从所述目标图像中提取标识特征;
确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别;
根据所述最大匹配度对应的标识类别,确定所述待识别图像中包含的标识所属的标识类别。
可选地,所述图像识别模型还包括:分类模型;
所述识别模块,具体用于:
若所述最大匹配度大于上限阈值,则将所述最大匹配度对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别;
若所述最大匹配度不大于所述上限阈值且所述最大匹配度不小于下限阈值,则基于所述分类模型确定所述目标图像对应的标识类别,将所述目标图像对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别。
一方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
一方面,本申请一实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现上述任一种方法的步骤。
本申请实施例提供的图像识别模型训练及图像识别方法、装置、电子设备、电子设备及存储介质,可自动从图像中提取包含标识的贴图模板,并将贴图模板添加到大量其他图像中,从而快速生成各类标识对应的训练样本,无须人工参与,降低了标注成本、提高了标注效率,并且上述图像识别模型训练方法可以很方便地扩展到任意多种标识,解决了标识类别增加和标注难度同等增加的矛盾。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
图1为本申请实施例提供的图像识别模型训练方法及图像识别方法的应用场景示意图;
图2为本申请一实施例提供的图像识别模型训练方法的流程示意图;
图3为本申请一实施例提供的从第一图像中提取贴图模板的流程示意图;
图4为本申请一实施例提供的获得样本图像的操作过程的一个示例;
图5为本申请一实施例提供的获得样本图像的流程示意图;
图6为本申请一实施例提供的添加贴图模板后的一个样本图像;
图7为本申请一实施例提供的扩充训练样本集的方法的流程示意图;
图8为本申请一实施例提供的一种图像识别方法的流程示意图;
图9为本申请一实施例提供的另一种图像识别方法的流程示意图;
图10为本申请一实施例提供的另一种图像识别方法的流程示意图;
图11为本申请一实施例提供的图像识别模型训练装置的结构示意图;
图12为本申请一实施例提供的图像识别装置的结构示意图;
图13为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
深度学习,深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像,声音和文本等。常用的深度学习模型包括:卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、是长短期记忆网络(Long Short-Term Memory,LSTM)、深度神经网络(Deep Neural Network,DNN)、深度置信网(Deep Belief Nets,DBNs)等神经网络。数据在神经网络中的传播有两种方式,一种是沿着输入到输出的路径,被称为前向传播(Forward propagation),另一种是从输出返回到输入,被成为反向传播(Back propagation)。在正向传播过程中,输入信息通过神经网络逐层处理并传向输出层,通过损失函数描述输出值与期望之间的误差,转入反向传播,逐层求出损失函数对各神经元的权重的偏导数,构成损失函数对权值向量的权重梯度数据,作为更新权重参数的依据,在不断更新权重参数的过程中完成神经网络的训练。
损失函数(loss function),是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如,在机器学习中,损失函数被用于模型的参数估计(parameteric estimation),基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度。常见的损失函数有均方误差损失函数、SVM(Support Vector Machine,支持向量机)合页损失函数、交叉熵损失函数等。
形态学滤波:是指对图像的滤波处理,它的本质和其他滤波器一样,都能够对图像进行去噪、增强等作用。形态学滤波包括的运算很多,最基本的两个形态学操作是腐蚀和膨胀,其他的高级形态学操作都是基于这两个基本的形态学操作进行的,比如开运算、闭运算、形态学梯度、顶帽、黑帽等。
阿尔法通道(αChannel或Alpha Channel):是指一张图片的透明和半透明度。例如:一个使用每个像素16比特存储的位图,对于图形中的每一个像素而言,可能以5个比特表示红色,5个比特表示绿色,5个比特表示蓝色,最后一个比特是阿尔法通道,在这种情况下,若像素点的最后一个比特为0,则表示该像素点为透明,若像素点的最后一个比特为1,则表示该像素点为不透明。又如一个使用32个比特存储的位图,每8个比特表示红绿蓝,剩下的8个通道为阿尔法通道,在这种情况下,阿尔法通道可以表示256级的半透明度。
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
本申请的发明人发现,现有的训练图像识别模型的方法通常是:对图像中包含的对象进行人工标注,将标注好的图像作为训练样本,对图像识别模型进行训练。但是,当需要识别的对象种类上升到数以千计或者数以万计时,人工标注的效率极低。
为了解决上述问题,本申请实施例提供了一种图像识别模型训练方法,具体包括:从包含标识的第一图像中提取包含标识的贴图模板;将贴图模板添加到多个第二图像中,获得多个样本图像;将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;基于训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型。上述图像识别模型训练方法,可自动从图像中提取包含标识的贴图模板,并将贴图模板添加到大量其他图像中,从而快速生成各类标识对应的训练样本,无须人工参与,降低了标注成本、提高了标注效率,并且上述图像识别模型训练方法可以很方便地扩展到任意多种标识,解决了标识类别增加和标注难度同等增加的矛盾。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
应用场景总览
参考图1,其为本申请实施例提供的图像识别模型训练方法以及图像识别方法的应用场景示意图。该应用场景包括终端设备101、应用服务器102和后台服务器103。其中,终端设备101和应用服务器102之间通过有线或无线通信网络连接,应用服务器102和后台服务器103之间通过有线或无线通信网络连接。终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)等电子设备。应用服务器102和后台服务器103均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
后台服务器103可从互联网采集各类标识对应的第一图像以及大量不包含标识的第二图像,首先从第一图像中提取包含标识的贴图模板,将贴图模板添加到多个第二图像中,获得多个样本图像;然后,将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,其中标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;最后,基于训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型,将训练好的图像识别模型发布到应用服务器102。
应用服务器102可从互联网采集大量图像,并基于已训练的图像识别模型识别采集的图像对应的标识类别,按标识类别对图像进行分类存储,提高后续使用图像时的效率。
终端设备101可以向应用服务器102发起图像识别请求,该图像识别请求中包括待识别图像。应用服务器102基于已训练的图像识别模型,识别待识别图像中包含的标识所属的标识类别,并将识别结果发送给终端设备101。
终端设备101还可以向应用服务器102发送图像检索请求,该图像检索请求中包括目标标识类别。应用服务器102基于已训练的图像识别模型识别待识别图像中包含的标识所属的标识类别,上述待识别图像可以包括从互联网中实时检索到的图像或者是应用服务器102本地的图像存储库中存储的图像,将目标标识类别对应的待识别图像发送给终端设备101。具体实施时,应用服务器102可实时识别待识别图像所属的标识类别,也可以预先识别出图像存储库中的各个图像所属的标识类别,以提高检索效率。
当然,后台服务器103或应用服务器102也可以将训练好的图像识别模型发送给终端设备101,终端设备101可直接在本地识别图像中包含的标识所属的标识类别。
示例性方法
下面结合图1的应用场景,来描述根据本申请示例性实施方式的图像识别模型训练方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
参考图2,本申请实施例提供的一种图像识别模型训练方法,可应用于图1所示的后台服务器,具体可包括以下步骤:
S201、从包含标识的第一图像中提取包含标识的贴图模板。
其中,贴图模板是指仅包含标识且除标识以外其他区域的像素点为透明的图像。具体地,可采用现有的抠图方法从第一图像中提取出包含标识的贴图模板。
具体实施时,针对每种待识别的标识,后台服务器可从互联网中爬取至少一个包含该标识的第一图像。实际应用中,有些标识类别存在多个不同类型的标识,例如品牌标识XXX既有中文标识,又有英文标识,还有图像标识,甚至还可以是多种类型的标识的组合,此时为了能够从图像中准确识别出该品牌标识对应的各种类型的标识,可获取各种类型的标识分别对应的图像,从这些获取的图像中提取出各种类型的标识分别对应的贴图模板,作为该品牌标识的贴图模板。例如,标识XXX的中文标识对应至少一个贴图模板,英文标识对应至少一个贴图模板,图像标识对应至少一个贴图模板,这些贴图模板均作为标识XXX的贴图模板。
为了降低从第一图像中提取贴图模板的难度,可选择包含某一标识类别对应的标识、且背景颜色单一的图像作为该标识类别对应的第一图像。例如可选择仅包含标识且背景为白色的图像作为第一图像。
S202、将贴图模板添加到多个第二图像中,获得多个样本图像。
具体实施时,后台服务器可从互联网中爬取大量图像作为第二图像,第二图像一般不包含待识别的标识,但是对于第二图像的纹理、颜色、以及包含的内容等不作限定,例如可以是包含办公大楼的第二图像,可将贴图模板添加到第二图像中的办公大楼上,获得模拟在办公大楼上安装了标识对应的指示牌的样本图像。
针对每个标识类别,将该标识类别的贴图模板添加到各个第二图像中,将添加贴图模板的第二图像作为样本图像。
当一个标识类别包含多个贴图模板时,可将这多个贴图模板分别添加到第二图像中。例如,一共有1000个第二图像,标识类别XXX包含3个贴图模板,可将这3个贴图模板分别添加到这1000个第二图像中,一共可获得3000个贴图模板。当然,也可以选择在部分第二图像中添加贴图模板,例如在前300个第二图像中添加第一个贴图模板,在中间300个第二图像中添加第二个贴图模板,在剩下的400个第二图像中添加第三个贴图模板。针对在哪些第二图像中添加哪些贴图模板,可根据对样本图像的质量要求和数量要求自由设置,本申请实施例不作具体限定。
S203、将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的。
其中,每个标识类别唯一对应一个标注标签。例如,标识类别AAA对应的标注标签为“0”,标识类别BBB对应的标注标签为“1”,标识类别CCC对应的标注标签为“2”,则包含标识类别AAA对应的贴图模板的样本图像的标注标签为“0”,包含标识类别BBB对应的贴图模板的样本图像的标注标签为“1”,包含标识类别CCC对应的贴图模板的样本图像的标注标签为“2”。将一个样本图像和该样本图像对应的标注标签作为一个训练样本添加到训练样本集中。
S204、基于训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型。
其中,图像识别模型可以是基于卷积神经网络(Convolutional NeuralNetworks,CNN)、深度神经网络(Deep Neural Network,DNN)等神经网络实现的模型,其识别标识类别的原理是:通过已训练的神经网络从输入图像中提取高维度的图像特征,然后将提取的图像特征输入分类器,获得输入图像对应的标识类别。
具体实施时,可通过如下步骤训练上述图像识别模型:将样本图像输入图像识别模型,获得样本图像对应的识别结果,识别结果包括标识类别;基于识别结果和样本图像的标注标签,计算损失函数,基于损失函数更新图像识别模型中的网络参数。重复上述过程,直至满足训练结束条件,例如训练次数达到预设次数,或者图像识别模型输出的标识类别的准确度达到预定要求等,本申请实施例不作限定。
本申请实施例的图像识别模型训练方法,可自动从图像中提取包含标识的贴图模板,并将贴图模板添加到大量其他图像中,从而快速生成各类标识对应的训练样本,无须人工参与,降低了标注成本、提高了标注效率,并且上述图像识别模型训练方法可以很方便地扩展到任意多种标识,解决了标识类别增加和标注难度同等增加的矛盾。
进一步地,参考图3,步骤S201具体包括:
S301、确定包含标识的第一图像中的前景区域和背景区域,前景区域中包含标识。
其中,前景区域一般是指包含目标对象的区域,背景区域为不包含目标对象的区域,如目标对象为人时,则图像中人对应的区域为前景区域,其他区域为背景区域。在本申请实施例中,目标对象特指各种标识,如商标标识。
实际应用中,可采用常用的图像分割方法从第一图像中分割出前景区域和背景区域,本申请实施例不作限定。例如,由于爬取的第一图像中,属于背景的像素点的灰度值较为相近(比如都是白色)且占比较大,因此背景像素点在灰度直方图中形成一个波峰,所以波峰内的像素点被认为是背景,波峰以外的像素点都可以被认为是前景。因此,可基于双阈值直方图统计和形态学滤波的方法,从第一图像中分割出前景区域和背景区域,具体过程包括:先提取第一图像的灰度直方图,确定灰度直方图中的波峰,再确定出波峰对应的下限灰度阈值和上限灰度阈值;接着,将灰度直方图中灰度值处于下限灰度阈值和上限灰度阈值之间的像素点划分为前景模板,其余的像素点划分为背景模板;然后,对前背景模板和背景模板分别进行形态学滤波,从而消除前背景模板和背景模板中包含的孔洞和边缘毛刺,得到前景区域和背景区域。
S302、将第一图像中背景区域内的像素点设置为透明。
具体实施时,可根据确定出的第一图像的前景区域,对第一图像的阿尔法通道做掩膜(mask)处理,即将第一图像中前景区域对应的像素点的阿尔法通道的数值设置为完全不透明,将第一图像中背景区域对应的像素点的阿尔法通道的数值设置为完全透明。这样就可以得到背景区域完全透明的第一图像,即仅保留了第一图像中的前景区域。
S303、从透明化处理后的第一图像中获取包含前景区域的图像,确定为包含标识的贴图模板。
具体实施时,可根据透明化处理后的第一图像的阿尔法通道的值,对透明化处理后的第一图像进行紧致化处理,即仅提取包含前景区域的图像,从而获得最终的贴图模板。
参考图4,第一图像中包含标识类别AAA对应的标识,采用图3提供的方法,将第一图像中的黑色区域确定为前景区域,灰色部分为背景区域,将背景区域设置为透明,这样就可以得到仅包含前景区域的贴图模板。然后,标识类别AAA对应的贴图模板添加到第二图像中,得到样本图像。由于贴图模板中只包含标识对应的图像,因此能够很好的与第二图像融合在一起。
通过图3所示的方法,可自动从第一图像中提取出标识对应的贴图模板,通过双阈值直方图统计、形态学滤波等方法,进一步保证提取的贴图模板的准确性,有助于提高后续基于贴图模板生成的样本图像的准确性,从而提高图像识别模型的识别准确度。
在上述任一实施方式的基础上,参考图5,步骤202具体包括:
S501、确定各个第二图像中的贴图区域。
在一种可能的实施方式中,针对每个第二图像,将该第二图像中图像特征满足预设条件的区域确定为贴图区域。其中,图像特征包括但不限于颜色特征、亮度特征、纹理特征等。具体实施时,可采用现有的任一图像特征提取方法提取第二图像的图像特征。
以颜色特征为例,可通过统计第二图像的颜色直方图,获得第二图像中各个区域的颜色特征,同时通过统计贴图模板的颜色直方图,获得贴图模板的颜色特征,然后,计算第二图像中各个区域的颜色特征和贴图模板的颜色特征之间的颜色差,将颜色差小于颜色差阈值的区域,确定为贴图区域。这样,可以保证贴图区域与标识对应的贴图模板之间的颜色存在一定的差异性,保证贴图模板被添加到第二图像的贴图区域内后,仍然能被较好地识别。
以亮度特征为例,可通过统计第二图像的亮度直方图,获得第二图像中各个区域的亮度特征,同时通过统计贴图模板的亮度直方图,获得贴图模板的亮度特征,然后,计算第二图像中各个区域的亮度特征和贴图模板的亮度特征之间的亮度差,将亮度差小于亮度差阈值的区域,确定为贴图区域。这样,可以保证贴图区域与标识对应的贴图模板之间的亮度存在一定的差异性,保证贴图模板被添加到第二图像的贴图区域内后,仍然能被较好地识别。
以纹理特征为例,可采用canny算法提取第二图像的边缘特征,从而计算第二图像中各个区域的纹理复杂度,将纹理复杂度最低的区域或者纹理复杂度小于复杂度阈值的区域,确定为贴图区域。
具体实施时,也可以结合多种图像特征,确定第二图像中的贴图区域。例如,将第二图像中,颜色差小于颜色差阈值、亮度差小于亮度差阈值、且纹理复杂度小于复杂度阈值的区域,确定为贴图区域。这样,可以保证贴图模板被添加到第二图像的贴图区域内后,仍然能被较好地识别。
具体实施时,若第二图像中存在多个满足预设条件的区域,则将这多个区域均确定为贴图区域,即一个第二图像中可包括多个贴图区域。
实际应用中的标识需要与背景具有明显的区分度,才能起到良好的标识作用,因此,基于上述结合多种图像特征的区域筛选方法,可以从第二图像中确定出与更符合真实应用情况的贴图区域,提高样本图像的真实性。
在另一种可能的实施方式中,针对每个第二图像,将第二图像中的指定区域确定为贴图区域。其中,指定区域可根据标识在真实图片中通常所处的位置确定,例如,标识通常位于图片的四个角,则指定区域可以是第二图像的四个角附近的区域。将第二图像中四个角对应的区域确定为贴图区域,来模拟标识在真实图片出现的位置,提高样本图像的真实性。
S502、将贴图模板添加到各个第二图像中的贴图区域内,获得多个样本图像。
具体实施时,如果一个第二图像中包括N个贴图区域,则可将一个贴图模板分别添加到该第二图像中的N个贴图区域,得到N个样本图像。
进一步地,步骤S402中,将贴图模板添加到多个第二图像中的贴图区域内,具体包括:针对每个第二图像,根据第二图像中的贴图区域的图像特征,对贴图模板进行仿真变换,将仿真变换后的贴图模板添加到第二图像中。
具体地,可根据第二图像中的贴图区域的图像特征,对贴图模板进行包括色彩、亮度、对比度、仿射变换、缩放、平面内旋转、平面外旋转等各种形变,从而模拟真实场景中因光线、视角、图片分辨率等因素造成的标识形变。参考图6,第二图像中虚线框圈定的区域即为贴图区域,根据贴图区域的图像的色彩、亮度等确定贴图模板的颜色、亮度,使得贴图模板与贴图区域的图像有一定的区分度,虚线框圈定的区域是办公大楼的一角,可对贴图模板进行仿射变换、缩放、平面内旋转、平面外旋转等各种形变,使得贴图模板具有与办公大楼一致的旋转角度和透视角度,且贴图模板的大小与办公大楼的大小匹配,从而获得模拟在办公大楼上安装了标识对应的贴图模板(如指示牌)的样本图像。
基于仿真变换后的贴图模板进行贴图操作,可提高贴图模板和第一图像的融合度,从而获得更加符合真实场景的样本图像。
在上述任一实施方式的基础上,训练样本集中的每个训练样本还包括:贴图模板在样本图像中的位置信息,该位置信息在贴图处理时即已确定。为此,基于包含位置信息的训练样本集,可以训练得到能够识别标识在输入图像中的位置信息的模型。
进一步地,本申请实施例中的图像识别模型具体包括:目标检测模型和特征提取模型。其中,目标检测模型用于确定输入图像中的标识在输入图像中的位置信息,特征提取模型用于从输入图像中提取标识特征。
基于此,训练图像识别模型的具体过程包括:
第一步:基于训练样本集中各个训练样本中的样本图像和贴图模板在样本图像中的位置信息,训练目标检测模型。
具体地,可将样本图像输入目标检测模型,获得样本图像中的标识对应的目标位置信息;基于获得的目标位置信息和贴图模板在样本图像中的位置信息,计算损失函数,基于损失函数更新目标检测模型中的网络参数。重复上述过程,直至满足训练结束条件,例如训练次数达到预设次数,或者目标检测模型输出的准确度达到要求等,本申请实施例不作限定。
具体实施时,目标检测模型可基于Single-Shot Refinement Neural Network目标检测算法和采用剪枝的ResNet50(50层的残差网络)训练得到。
第二步:针对每个训练样本,获取样本图像中包含位置信息对应的标识的目标图像。
具体实施时,根据训练样本集中样本图像对应的位置信息,从样本图像中提取出该位置信息所指区域的图像,作为目标图像。由于该位置信息在样本图像中对应的区域,即为贴图模板在样本图像中的位置,因此获得的目标图像中包含贴图模板对应的标识。
第三步:基于各个训练样本对应的目标图像和标注标签,训练特征提取模型。
具体实施时,特征提取模型可采用ResNet50的网络结构,并采用Baseline(基线)+N-pair Loss(N元组损失)+Triplet Loss(三元组损失)的方式进行训练。其中,Baseline可以是预设的参考模型,通过与参考模型进行比对确定训练后的模型是否达到预定要求。其中,N-pair Loss通过优化N-1个负样本和一个正样本的距离,实现样本的相似性计算,而Triplet Loss则通过优化锚(Anchor)示例与正(Positive)示例的距离小于锚示例与负(Negative)示例的距离,实现样本的相似性计算,这两种训练方法均可以用于训练差异性较小的样本,使得模型能够识别图像间的细微差异,提高模型的识别精度。具体训练过程为现有技术,不再赘述。
本申请实施例中,训练特征提取模型的样本主要是包含各种标识的图像,因此,获得的特征提取模型能够从输入图像中提取出各种标识对应的特征,为了与一般的图像特征提取模型输入的特征进行区别,本申请中将特征提取模型输出的各种标识对应的特征称为标识特征。
具体实施时,可将输入图像输入已训练的特征提取模型,获得该输入图像的标识特征,然后,计算输入图像的标识特征与各个标识类别的标识特征的匹配度,将匹配度最高的标识类别确定为输入图像对应的标识类别。其中,可预先使用特征提取模型获得各个标识类别的标识特征并存储,以便在进行图像识别或模型训练过程中,将输入图像的标识特征与已存储的各个标识类别的标识特征进行匹配,从而确定出输入图像对应的标识类别。
进一步地,参考图7,为了获得更丰富全面的训练样本,本申请实施例的图像识别模型训练方法还包括如下步骤:
S701、获取第三图像。
其中,第三图像是不同于第二图像的图像,后台服务器可从互联网采集大量包含各类标识的图像作为第三图像。
S702、基于已训练的目标检测模型,确定第三图像中的标识在第三图像中的目标位置信息。
S703、根据第三图像对应的目标位置信息,从第三图像中提取出包含标识的目标图像。
S704、基于已训练的特征提取模型,从目标图像中提取标识特征。
S705、确定目标图像的标识特征与各个标识类别的标识特征的匹配度。
S706、若最大匹配度大于第一阈值,则将最大匹配度对应的标识类别确定为第三图像的标注标签。
其中,第一阈值可由本领域技术人员根据测试情况并结合经验确定,本申请实施例不作限定。
S707、将第三图像、目标位置信息和第三图像的标注标签作为一个训练样本添加到训练样本集中。
通过图7所示的步骤,可自动从互联网中获取大量的真实图片,并基于已训练的目标检测模型和特征提取模型,自动完成对真实图片的标注,获得真实样例,并补充到训练样本集,基于补充真实样例后的训练样本集继续训练图像识别模型。通过不断迭代、扩充训练样本,从而不断提升图像识别模型的识别准确度。
本申请实施例还提供了另一种可能的图像识别模型,该图像识别模型包括:目标检测模型、特征提取模型和分类模型。其中,目标检测模型用于确定输入图像中的标识在输入图像中的位置信息,特征提取模型用于从输入图像中提取标识特征,分类模型用于确定输入图像对应的标识类别。其中,分类模型可采用ResNet50的网络结构。
目标检测模型和特征提取模型的训练方法已经详细介绍过,此处不再赘述。下面重点介绍分类模型的训练方法。
首先,在图7所示方训练步骤的基础上,通过如下方式获得训练分类模型的负样本集和正样本集:针对每个第三图像,若第三图像的目标图像对应的最大匹配度小于第二阈值,则将第三图像的目标图像和标注标签作为负样本添加到负样本集中,其中,第三图像的标注标签为最大匹配度对应的标识类别;将训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中。其中,第二阈值可由本领域技术人员根据测试情况并结合经验确定,本申请实施例不作限定。
然后,基于获得的负样本集和正样本集,训练分类模型。
其中,正样本是标注正确的样本,负样本是标注错误的样本。分类模型可以从正样本中学习到各个标识类别对应的图像,以对图像进行准确的分类。实际应用中,针对某一标识类别的标识,分类模型会将一些不包含该标识的图像错误的识别为该标识类别对应的图像,为此可通过负样本,让分类模型学习到哪些图像中不包含该标识类别的标识,从而降低分类模型的误识别概率。
训练得到的分类模型,可基于图像的标识特征,输出该标识特征对应的标识类别以及对应的分类概率值,该分类概率值表示该标识特征被识别为该标识类别的概率。分类模型内部可确定出各种分类标签对应的分类概率值,分类概率值越高,表明输入的标识特征为对应的标识类别的概率越大,最终分类模型仅输出最高分类概率值以及最高分类概率值对应的分类标签,该分类标签对应的标识类别即为输入分类模型的标识特征所对应的标识类别。例如,标识类别AAA对应的标注标签为“0”,标识类别BBB对应的标注标签为“1”,基于图像识别模型中的目标检测模型和特征提取模型,获得待识别图像P的标识特征,然后将待识别图像P的标识特征输入分类模型,若基于分类模型获得的最高分类概率值p0对应的分类标签为“0”,则分类模型的输出为分类标签“0”和最高分类概率值p0,基于分类模型的输出进一步确定待识别图像P对应的标识类别,例如,若p0大于分类阈值,则确定待识别图像P中包含标识类别AAA,否则确定待识别图像P中不包含标识类别AAA。
在此基础上,可获取更多的图像,以扩充用于训练分类模型的负样本集,提高分类模型的分类精度。具体地,可通过如下方式扩充负样本集:
第一步:获取第四图像。
其中,第四图像是获取的不同于第二图像以及第三图像的新图像。
第二步:基于已训练的目标检测模型,确定第四图像中的标识在第四图像中的目标位置信息。
第三步:根据第四图像对应的目标位置信息,从第四图像中提取出包含标识的目标图像。
第四步:基于已训练的分类模型,确定第四图像的目标图像对应的标识类别以及对应的分类概率值。
第五步:若分类概率值小于第三阈值,则将第四图像的目标图像和第四图像的目标图像对应的标注标签作为负样本添加到负样本集中。
其中,第四图像的目标图像对应的标注标签是基于第四图像的目标图像对应的标识类别确定的。
然后,基于扩充后的负样本集继续对分类模型进行训练。
通过上述步骤,可自动从互联网中获取大量的真实图片,基于已训练的分类模型,自动筛选出新的负样本,不断迭代扩充用于训练分类模型的负样本集,直到分类模型的精度达到要求。通过正样本和负样本训练得到的分类模型,可弥补因特征提取模型无法增加负样本导致整个图像识别模型误判率高、不容易优化的缺点。
基于上述图像识别模型训练方法获得的图像识别模型,本申请实施例还提供了一种图像识别方法,参考图8,该图像识别方法具体包括如下步骤:
S801、获取待识别图像。
S802、基于已训练的图像识别模型,识别待识别图像中包含的标识所属的标识类别。
其中,训练图像识别模型的训练样本集中的每个训练样本包括一个样本图像和标注标签,样本图像为添加了贴图模板的图像,标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的,贴图模板是从包含标识的第一图像中提取的。
本申请实施例提供的图像识别方法中使用的图像识别模型,是基于大量自动生成的训练样本训练得到的,自动生成的训练样本的方法可以方便地扩展到任意多种标识,因此,获得的图像识别模型可以识别大量不同的标识,即便是新增的标识,也可以很快获得能够识别新增标识的图像识别模型,提升了图像识别方法的可扩展性和适用范围。
当图像识别模型包括目标检测模型和特征提取模型时,参考图9,步骤S802具体包括:
S901、基于目标检测模型,确定待识别图像中包含的标识在待识别图像中的目标位置信息。
S902、根据目标位置信息,从待识别图像中提取包含标识的目标图像。
S903、基于特征提取模型,从目标图像中提取标识特征。
S904、确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别。
S905、根据最大匹配度对应的标识类别,确定待识别图像中包含的标识所属的标识类别。
基于目标检测模型和特征提取模型组成的图像识别模型,先识别待识别图像中标识所在的位置,进而从待识别图像中提取出包含标识的目标图像,降低输入特征提取模型的数据量,同时减少与标识无关的图像的输入,这有助于提高提取的标识特征的准确度,进而提高标识识别的准确度。
当图像识别模型包括目标检测模型、特征提取模型和分类模型时,参考图10,步骤S802具体包括:
S1001、基于目标检测模型,确定待识别图像中包含的标识在待识别图像中的目标位置信息。
S1002、根据目标位置信息,从待识别图像中提取包含标识的目标图像。
S1003、基于特征提取模型,从目标图像中提取标识特征。
S1004、确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别。
S1005、判断最大匹配度是否大于上限阈值,若是,则执行步骤S1006,否则,执行步骤S1007。
S1006、将最大匹配度对应的标识类别确定为待识别图像中包含的标识所属的标识类别。
S1007、判断最大匹配度是否大于下限阈值,若是,则执行步骤S1008,否则执行步骤S1011。
S1008、基于分类模型确定目标图像对应的标识类别以及分类概率值。
S1009、判断分类概率值是否大于分类阈值,若是,则执行步骤S1010,否则,执行步骤S1011。
S1010、将目标图像对应的标识类别确定为待识别图像中包含的标识所属的标识类别。
S1011、确定未识别到标识。
其中,上限阈值、下限阈值和分类阈值均可由本领域技术人员根据测试情况并结合经验确定,本申请实施例不作限定。
在基于目标检测模型和特征提取模型获得的最大匹配度对应的标识类别的基础上,对最大匹配度进行多阈值的分类处理:当最大匹配度大于上限阈值时,将最大匹配度对应的标识类别作为最终的分类结果;当最大匹配度大于下限阈值且不大于上限阈值时,基于分类模型做进一步更高精度的分类识别处理,基于分类模型的输出确定最终的分类结果;当最大匹配度不大于下限阈值时,可直接认定无法从待识别图像中识别出标识,提高处理效率。多阈值分类处理,在提高处理效率的同时提高了识别精准度。
示例性设备
在介绍了本申请示例性实施方式的方法之后,接下来对本申请示例性实施方式的图像识别模型训练装置进行介绍。
如图11所示,为本申请实施例提供的图像识别模型训练装置的结构示意图。在一个实施例中,图像识别模型训练装置110包括:模板提取模块1101、样本获取模块1102和训练模块1103。
模板提取模块1101,用于从包含标识的第一图像中提取包含标识的贴图模板;
样本获取模块1102,用于将贴图模板添加到多个第二图像中,获得多个样本图像,将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;
训练模块1103,用于基于训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型。
可选地,模板提取模块1101,具体用于:
确定包含标识的第一图像中的前景区域和背景区域,前景区域中包含标识;
将第一图像中背景区域内的像素点设置为透明;
从透明化处理后的第一图像中获取包含前景区域的图像,确定为包含标识的贴图模板。
可选地,样本获取模块1102,具体用于:
针对每个第二图像,将第二图像中图像特征满足预设条件的区域确定为贴图区域,和/或将第二图像中的指定区域确定为贴图区域;
将贴图模板添加到多个第二图像中的贴图区域内,获得多个样本图像。
可选地,样本获取模块1102,具体用于:针对每个第二图像,根据第二图像中的贴图区域的图像特征,对贴图模板进行仿真变换,将仿真变换后的贴图模板添加到第二图像中。
可选地,每个训练样本还包括:贴图模板在样本图像中的位置信息;图像识别模型包括:目标检测模型和特征提取模型。
相应地,训练模块1103,具体用于:
基于训练样本集中各个训练样本中的样本图像和贴图模板在样本图像中的位置信息,训练目标检测模型,目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;
针对每个训练样本,获取样本图像中包含位置信息对应的标识的目标图像;
基于各个训练样本对应的目标图像和标注标签,训练特征提取模型,特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别。
可选地,样本获取模块1102还用于:
获取第三图像;
基于已训练的目标检测模型,确定第三图像中的标识在第三图像中的目标位置信息;
根据第三图像对应的目标位置信息,从第三图像中提取出包含标识的目标图像;
基于已训练的特征提取模型,从目标图像中提取标识特征;
确定目标图像的标识特征与各个标识类别的标识特征的匹配度;
若最大匹配度大于第一阈值,则将最大匹配度对应的标识类别确定为第三图像的标注标签;
将第三图像、目标位置信息和第三图像的标注标签作为一个训练样本添加到训练样本集中。
可选地,图像识别模型还包括:分类模型。
相应地,样本获取模块1102,还用于:针对每个第三图像,若第三图像的目标图像对应的最大匹配度小于第二阈值,则将第三图像的目标图像和标注标签作为负样本添加到负样本集中;将训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中。
训练模块1103,还用于基于负样本集和正样本集,训练分类模型。
可选地,样本获取模块1102,还用于:
获取第四图像;
基于已训练的目标检测模型,确定第四图像中的标识在第四图像中的目标位置信息;
根据第四图像对应的目标位置信息,从第四图像中提取出包含标识的目标图像;
基于已训练的分类模型,确定第四图像的目标图像对应的标识类别以及对应的分类概率值;
若分类概率值小于第三阈值,则将第四图像的目标图像和第四图像的目标图像对应的标注标签作为负样本添加到负样本集中,第四图像的目标图像对应的标注标签是基于第四图像的目标图像对应的标识类别确定的。
本申请实施例提供的图像识别模型训练装置,与上述图像识别模型训练方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
如图12所示,为本申请实施例提供的图像识别装置的结构示意图。在一个实施例中,图像识别装置120包括:获取模块1201和识别模块1202。
获取模块1201,用于获取待识别图像;
识别模块1202,用于基于已训练的图像识别模型,识别待识别图像中包含的标识所属的标识类别;其中,训练图像识别模型的训练样本集中的每个训练样本包括一个样本图像和标注标签,样本图像为添加了贴图模板的图像,标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的,贴图模板是从包含标识的第一图像中提取的。
可选地,图像识别模型包括:目标检测模型和特征提取模型。
相应地,识别模块1202,具体用于:
基于目标检测模型,确定待识别图像中包含的标识在待识别图像中的目标位置信息;
根据目标位置信息,从待识别图像中提取包含标识的目标图像;
基于特征提取模型,从目标图像中提取标识特征;
确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别;
根据最大匹配度对应的标识类别,确定待识别图像中包含的标识所属的标识类别。
可选地,图像识别模型还包括:分类模型。
识别模块1202,还用于:
若最大匹配度大于上限阈值,则将最大匹配度对应的标识类别确定为待识别图像中包含的标识所属的标识类别;
若最大匹配度不大于上限阈值且最大匹配度不小于下限阈值,则基于分类模型确定目标图像对应的标识类别,将目标图像对应的标识类别确定为待识别图像中包含的标识所属的标识类别。
本申请实施例提供的图像识别装置,与上述图像识别方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述图像识别模型训练方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、服务器等。如图13所示,该电子设备130可以包括处理器1301和存储器1302。
处理器1301可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
示例性程序产品
本申请实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述图像识别模型训练方法或图像识别方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
在一些可能的实施方式中,本申请的各个方面还可以实现为一种计算机程序产品,其包括程序代码,当该计算机程序产品在服务器设备上运行时,该计算机程序产品用于使所述服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的图像识别模型训练方法或图像识别方法中的步骤。
所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
根据本申请的实施方式的用于即时通信应用的计算机程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在服务器设备上运行。然而,本申请的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (18)
1.一种图像识别模型训练方法,其特征在于,包括:
从包含标识的第一图像中提取包含标识的贴图模板;
将所述贴图模板添加到多个第二图像中,获得多个样本图像;
将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,所述标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;
基于所述训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型;其中,每个训练样本还包括:贴图模板在样本图像中的位置信息;所述图像识别模型包括:目标检测模型和特征提取模型;
所述基于所述训练样本集训练图像识别模型,具体包括:基于所述训练样本集中各个训练样本中的样本图像和贴图模板在所述样本图像中的位置信息,训练所述目标检测模型,所述目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;针对每个训练样本,获取所述样本图像中包含所述位置信息对应的标识的目标图像;基于各个训练样本对应的目标图像和标注标签,训练所述特征提取模型,所述特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别;
所述方法还包括:
获取第三图像;
基于已训练的目标检测模型,确定所述第三图像中的标识在所述第三图像中的目标位置信息;
根据所述第三图像对应的目标位置信息,从所述第三图像中提取出包含标识的目标图像;
基于已训练的特征提取模型,从所述目标图像中提取标识特征;
确定所述目标图像的标识特征与各个标识类别的标识特征的匹配度;
若最大匹配度大于第一阈值,则将所述最大匹配度对应的标识类别确定为所述第三图像的标注标签;
将所述第三图像、所述目标位置信息和所述第三图像的标注标签作为一个训练样本添加到所述训练样本集中;
所述图像识别模型还包括:分类模型,所述分类模型用于确定输入图像对应的标识类别;所述方法还包括:
针对每个第三图像,若所述第三图像的目标图像对应的最大匹配度小于第二阈值,则将所述第三图像的目标图像和标注标签作为负样本添加到负样本集中;
将所述训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中;
所述基于所述训练样本集训练图像识别模型,还包括:
基于所述负样本集和所述正样本集,训练所述分类模型,所述分类模型,用于基于输入图像的标识特征,输出所述标识特征对应的标识类别以及对应的分类概率值,所述分类概率值表示所述标识特征被识别为所述标识类别的概率。
2.根据权利要求1所述的方法,其特征在于,所述从包含标识的第一图像中提取包含标识的贴图模板,具体包括:
确定包含标识的第一图像中的前景区域和背景区域,所述前景区域中包含所述标识;
将所述第一图像中背景区域内的像素点设置为透明;
从透明化处理后的第一图像中获取包含前景区域的图像,确定为包含所述标识的贴图模板。
3.根据权利要求1所述的方法,其特征在于,所述将所述贴图模板添加到多个第二图像中,获得多个样本图像,具体包括:
针对每个第二图像,将所述第二图像中图像特征满足预设条件的区域确定为贴图区域,和/或将所述第二图像中的指定区域确定为贴图区域;
将所述贴图模板添加到多个第二图像中的贴图区域内,获得多个样本图像。
4.根据权利要求3所述的方法,其特征在于,所述将所述贴图模板添加到多个第二图像中的贴图区域内,具体包括:
针对每个第二图像,根据所述第二图像中的贴图区域的图像特征,对所述贴图模板进行仿真变换,将仿真变换后的贴图模板添加到所述第二图像中。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第四图像;
基于已训练的目标检测模型,确定所述第四图像中的标识在所述第四图像中的目标位置信息;
根据所述第四图像对应的目标位置信息,从所述第四图像中提取出包含标识的目标图像;
基于已训练的分类模型,确定所述第四图像的目标图像对应的标识类别以及对应的分类概率值;
若所述分类概率值小于第三阈值,则将所述第四图像的目标图像和所述第四图像的目标图像对应的标注标签作为负样本添加到所述负样本集中,所述第四图像的目标图像对应的标注标签是基于所述第四图像的目标图像对应的标识类别确定的。
6.一种图像识别方法,其特征在于,包括:
获取待识别图像;
基于已训练的图像识别模型,识别所述待识别图像中包含的标识所属的标识类别;
其中,训练所述图像识别模型的训练样本集中的每个训练样本包括一个样本图像和标注标签,所述样本图像为添加了贴图模板的图像,所述标注标签是基于所述样本图像中的贴图模板包含的标识所属的标识类别确定的,所述贴图模板是从包含标识的第一图像中提取的;所述每个训练样本还包括:贴图模板在样本图像中的位置信息;所述图像识别模型包括:目标检测模型和特征提取模型;所述图像识别模型是通过以下方式训练的:基于所述训练样本集中各个训练样本中的样本图像和贴图模板在所述样本图像中的位置信息,训练所述目标检测模型,所述目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;针对每个训练样本,获取所述样本图像中包含所述位置信息对应的标识的目标图像;基于各个训练样本对应的目标图像和标注标签,训练所述特征提取模型,所述特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别;获取第三图像;基于已训练的目标检测模型,确定所述第三图像中的标识在所述第三图像中的目标位置信息;根据所述第三图像对应的目标位置信息,从所述第三图像中提取出包含标识的目标图像;基于已训练的特征提取模型,从所述目标图像中提取标识特征;确定所述目标图像的标识特征与各个标识类别的标识特征的匹配度;若最大匹配度大于第一阈值,则将所述最大匹配度对应的标识类别确定为所述第三图像的标注标签;将所述第三图像、所述目标位置信息和所述第三图像的标注标签作为一个训练样本添加到所述训练样本集中;所述图像识别模型还包括:分类模型,所述分类模型用于确定输入图像对应的标识类别;针对每个第三图像,若所述第三图像的目标图像对应的最大匹配度小于第二阈值,则将所述第三图像的目标图像和标注标签作为负样本添加到负样本集中;将所述训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中;基于所述负样本集和所述正样本集,训练所述分类模型,所述分类模型,用于基于输入图像的标识特征,输出所述标识特征对应的标识类别以及对应的分类概率值,所述分类概率值表示所述标识特征被识别为所述标识类别的概率。
7.根据权利要求6所述的方法,其特征在于,所述基于已训练的图像识别模型,识别所述待识别图像中包含的标识所属的标识类别,具体包括:
基于所述目标检测模型,确定所述待识别图像中包含的标识在所述待识别图像中的目标位置信息;
根据所述目标位置信息,从所述待识别图像中提取包含标识的目标图像;
基于所述特征提取模型,从所述目标图像中提取标识特征;
确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别;
根据所述最大匹配度对应的标识类别,确定所述待识别图像中包含的标识所属的标识类别。
8.根据权利要求7所述的方法,其特征在于,所述根据所述最大匹配度对应的标识类别,确定所述待识别图像中包含的标识所属的标识类别,具体包括:
若所述最大匹配度大于上限阈值,则将所述最大匹配度对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别;
若所述最大匹配度不大于所述上限阈值且所述最大匹配度不小于下限阈值,则基于所述分类模型确定所述目标图像对应的标识类别,将所述目标图像对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别。
9.一种图像识别模型训练装置,其特征在于,包括:
模板提取模块,用于从包含标识的第一图像中提取包含标识的贴图模板;
样本获取模块,用于将所述贴图模板添加到多个第二图像中,获得多个样本图像,将样本图像和样本图像对应的标注标签作为训练样本添加到训练样本集中,所述标注标签是基于样本图像中的贴图模板包含的标识所属的标识类别确定的;
训练模块,用于基于所述训练样本集训练图像识别模型,获得能够识别出图像中包含的标识所属标识类别的图像识别模型;其中,每个训练样本还包括:贴图模板在样本图像中的位置信息;所述图像识别模型包括:目标检测模型和特征提取模型;
所述训练模块,具体用于:基于所述训练样本集中各个训练样本中的样本图像和贴图模板在所述样本图像中的位置信息,训练所述目标检测模型,所述目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;针对每个训练样本,获取所述样本图像中包含所述位置信息对应的标识的目标图像;基于各个训练样本对应的目标图像和标注标签,训练所述特征提取模型,所述特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别;
所述样本获取模块还用于:获取第三图像;基于已训练的目标检测模型,确定所述第三图像中的标识在所述第三图像中的目标位置信息;根据所述第三图像对应的目标位置信息,从所述第三图像中提取出包含标识的目标图像;基于已训练的特征提取模型,从所述目标图像中提取标识特征;确定所述目标图像的标识特征与各个标识类别的标识特征的匹配度;若最大匹配度大于第一阈值,则将所述最大匹配度对应的标识类别确定为所述第三图像的标注标签;将所述第三图像、所述目标位置信息和所述第三图像的标注标签作为一个训练样本添加到所述训练样本集中;
所述图像识别模型还包括:分类模型,所述分类模型用于确定输入图像对应的标识类别;
所述样本获取模块,还用于:针对每个第三图像,若所述第三图像的目标图像对应的最大匹配度小于第二阈值,则将所述第三图像的目标图像和标注标签作为负样本添加到负样本集中;将所述训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中;
所述训练模块,还用于基于所述负样本集和所述正样本集,训练所述分类模型,所述分类模型,用于基于输入图像的标识特征,输出所述标识特征对应的标识类别以及对应的分类概率值,所述分类概率值表示所述标识特征被识别为所述标识类别的概率。
10.根据权利要求9所述的装置,其特征在于,所述模板提取模块,具体用于:
确定包含标识的第一图像中的前景区域和背景区域,所述前景区域中包含所述标识;
将所述第一图像中背景区域内的像素点设置为透明;
从透明化处理后的第一图像中获取包含前景区域的图像,确定为包含所述标识的贴图模板。
11.根据权利要求9所述的装置,其特征在于,所述样本获取模块,具体用于:
针对每个第二图像,将所述第二图像中图像特征满足预设条件的区域确定为贴图区域,和/或将所述第二图像中的指定区域确定为贴图区域;
将所述贴图模板添加到多个第二图像中的贴图区域内,获得多个样本图像。
12.根据权利要求11所述的装置,其特征在于,所述样本获取模块,具体用于:
针对每个第二图像,根据所述第二图像中的贴图区域的图像特征,对所述贴图模板进行仿真变换,将仿真变换后的贴图模板添加到所述第二图像中。
13.根据权利要求9所述的装置,其特征在于,所述样本获取模块,还用于:
获取第四图像;
基于已训练的目标检测模型,确定所述第四图像中的标识在所述第四图像中的目标位置信息;
根据所述第四图像对应的目标位置信息,从所述第四图像中提取出包含标识的目标图像;
基于已训练的分类模型,确定所述第四图像的目标图像对应的标识类别以及对应的分类概率值;
若所述分类概率值小于第三阈值,则将所述第四图像的目标图像和所述第四图像的目标图像对应的标注标签作为负样本添加到所述负样本集中,所述第四图像的目标图像对应的标注标签是基于所述第四图像的目标图像对应的标识类别确定的。
14.一种图像识别装置,其特征在于,包括:
获取模块,用于获取待识别图像;
识别模块,用于基于已训练的图像识别模型,识别所述待识别图像中包含的标识所属的标识类别;
其中,训练所述图像识别模型的训练样本集中的每个训练样本包括一个样本图像和标注标签,所述样本图像为添加了贴图模板的图像,所述标注标签是基于所述样本图像中的贴图模板包含的标识所属的标识类别确定的,所述贴图模板是从包含标识的第一图像中提取的;所述每个训练样本还包括:贴图模板在样本图像中的位置信息;所述图像识别模型包括:目标检测模型和特征提取模型;所述图像识别模型是通过以下方式训练的:基于所述训练样本集中各个训练样本中的样本图像和贴图模板在所述样本图像中的位置信息,训练所述目标检测模型,所述目标检测模型用于确定输入图像中的标识在输入图像中的位置信息;针对每个训练样本,获取所述样本图像中包含所述位置信息对应的标识的目标图像;基于各个训练样本对应的目标图像和标注标签,训练所述特征提取模型,所述特征提取模型用于从输入图像中提取标识特征,以基于提取的标识特征与各个标识类别的标识特征的匹配度确定输入图像对应的标识类别;获取第三图像;基于已训练的目标检测模型,确定所述第三图像中的标识在所述第三图像中的目标位置信息;根据所述第三图像对应的目标位置信息,从所述第三图像中提取出包含标识的目标图像;基于已训练的特征提取模型,从所述目标图像中提取标识特征;确定所述目标图像的标识特征与各个标识类别的标识特征的匹配度;若最大匹配度大于第一阈值,则将所述最大匹配度对应的标识类别确定为所述第三图像的标注标签;将所述第三图像、所述目标位置信息和所述第三图像的标注标签作为一个训练样本添加到所述训练样本集中;所述图像识别模型还包括:分类模型,所述分类模型用于确定输入图像对应的标识类别;针对每个第三图像,若所述第三图像的目标图像对应的最大匹配度小于第二阈值,则将所述第三图像的目标图像和标注标签作为负样本添加到负样本集中;将所述训练样本集中的训练样本对应的目标图像和标注标签作为正样本添加到正样本集中;基于所述负样本集和所述正样本集,训练所述分类模型,所述分类模型,用于基于输入图像的标识特征,输出所述标识特征对应的标识类别以及对应的分类概率值,所述分类概率值表示所述标识特征被识别为所述标识类别的概率。
15.根据权利要求14所述的装置,其特征在于,所述图像识别模型包括:目标检测模型和特征提取模型;
所述识别模块,具体用于:
基于所述目标检测模型,确定所述待识别图像中包含的标识在所述待识别图像中的目标位置信息;
根据所述目标位置信息,从所述待识别图像中提取包含标识的目标图像;
基于所述特征提取模型,从所述目标图像中提取标识特征;
确定提取的标识特征与各个标识类别的标识特征的匹配度,获取最大匹配度对应的标识类别;
根据所述最大匹配度对应的标识类别,确定所述待识别图像中包含的标识所属的标识类别。
16.根据权利要求15所述的装置,其特征在于,所述识别模块,具体用于:
若所述最大匹配度大于上限阈值,则将所述最大匹配度对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别;
若所述最大匹配度不大于所述上限阈值且所述最大匹配度不小于下限阈值,则基于所述分类模型确定所述目标图像对应的标识类别,将所述目标图像对应的标识类别确定为所述待识别图像中包含的标识所属的标识类别。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249728.3A CN111476284B (zh) | 2020-04-01 | 2020-04-01 | 图像识别模型训练及图像识别方法、装置、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249728.3A CN111476284B (zh) | 2020-04-01 | 2020-04-01 | 图像识别模型训练及图像识别方法、装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476284A CN111476284A (zh) | 2020-07-31 |
CN111476284B true CN111476284B (zh) | 2023-12-26 |
Family
ID=71750529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010249728.3A Active CN111476284B (zh) | 2020-04-01 | 2020-04-01 | 图像识别模型训练及图像识别方法、装置、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476284B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288074A (zh) * | 2020-08-07 | 2021-01-29 | 京东安联财产保险有限公司 | 图像识别网络生成方法及装置、存储介质及电子设备 |
CN112016630B (zh) * | 2020-09-03 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于图像分类模型的训练方法、装置、设备及存储介质 |
CN112328891B (zh) * | 2020-11-24 | 2023-08-01 | 北京百度网讯科技有限公司 | 训练搜索模型的方法、搜索目标对象的方法及其装置 |
CN112580717A (zh) * | 2020-12-17 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 模型训练方法、定位元素查找方法及装置 |
CN112633357A (zh) * | 2020-12-18 | 2021-04-09 | 北京地平线信息技术有限公司 | 样本图像生成方法和装置、图像识别模型生成方法和装置 |
CN112560987B (zh) * | 2020-12-25 | 2024-08-06 | 北京百度网讯科技有限公司 | 图像样本处理方法、装置、设备、存储介质和程序产品 |
CN112733847B (zh) * | 2020-12-31 | 2023-06-16 | 青岛海尔科技有限公司 | 洗涤标的标注方法及装置、存储介质、电子装置 |
CN112819099B (zh) * | 2021-02-26 | 2023-12-22 | 杭州网易智企科技有限公司 | 网络模型的训练方法、数据处理方法、装置、介质及设备 |
CN113033659A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 图像识别模型的训练与图像识别的方法、装置 |
CN112990331A (zh) * | 2021-03-26 | 2021-06-18 | 共达地创新技术(深圳)有限公司 | 图像处理方法、电子设备和存储介质 |
CN113052561A (zh) * | 2021-04-01 | 2021-06-29 | 苏州惟信易量智能科技有限公司 | 一种基于可穿戴设备的流程控制系统及方法 |
CN113505632B (zh) * | 2021-05-12 | 2024-09-13 | 杭州回车电子科技有限公司 | 模型训练方法、装置、电子装置和存储介质 |
CN113255911B (zh) * | 2021-06-07 | 2023-10-13 | 杭州海康威视数字技术股份有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN113361643A (zh) * | 2021-07-02 | 2021-09-07 | 人民中科(济南)智能技术有限公司 | 基于深度学习的通用标志识别方法、系统、设备及存储介质 |
CN113688887A (zh) * | 2021-08-13 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 图像识别模型的训练与图像识别方法、装置 |
CN113762148B (zh) * | 2021-09-07 | 2023-12-08 | 京东科技信息技术有限公司 | 图像识别模型训练方法和装置、图像识别方法和装置 |
CN113780472A (zh) * | 2021-09-29 | 2021-12-10 | 北京金山云网络技术有限公司 | 模型训练样本生成方法、装置、存储介质以及电子设备 |
CN113780474A (zh) * | 2021-09-30 | 2021-12-10 | 北京金山云网络技术有限公司 | 模型训练样本生成方法、装置、存储介质以及电子设备 |
CN113936240A (zh) * | 2021-10-22 | 2022-01-14 | 杭州海康威视数字技术股份有限公司 | 确定样本图像的方法、装置、设备及存储介质 |
CN114461986B (zh) * | 2022-01-17 | 2023-04-07 | 北京快乐茄信息技术有限公司 | 一种训练识别标识模型的方法、图像识别的方法和装置 |
CN114511741B (zh) * | 2022-01-28 | 2024-09-13 | 腾讯科技(深圳)有限公司 | 图像的识别方法、装置、设备、存储介质及程序产品 |
CN114595778A (zh) * | 2022-03-15 | 2022-06-07 | 北京达佳互联信息技术有限公司 | 标识图案识别方法、装置、电子设备、存储介质 |
CN114612725B (zh) * | 2022-03-18 | 2023-04-25 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备及存储介质 |
CN114758243B (zh) * | 2022-04-29 | 2022-11-11 | 广东技术师范大学 | 基于补充训练与双类位置预测的茶叶采摘方法和装置 |
CN114973207B (zh) * | 2022-08-01 | 2022-10-21 | 成都航空职业技术学院 | 一种基于目标检测的路标识别方法 |
CN116434016B (zh) * | 2023-06-13 | 2023-08-22 | 苏州浪潮智能科技有限公司 | 图像信息增强方法、模型训练方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004259221A (ja) * | 2003-02-28 | 2004-09-16 | Fuji Xerox Co Ltd | 画像貼付装置、画像貼付方法 |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108985334A (zh) * | 2018-06-15 | 2018-12-11 | 广州深域信息科技有限公司 | 基于自监督过程改进主动学习的通用物体检测系统及方法 |
CN109816014A (zh) * | 2019-01-22 | 2019-05-28 | 天津大学 | 生成深度学习目标检测网络训练用带标注数据集的方法 |
-
2020
- 2020-04-01 CN CN202010249728.3A patent/CN111476284B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004259221A (ja) * | 2003-02-28 | 2004-09-16 | Fuji Xerox Co Ltd | 画像貼付装置、画像貼付方法 |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN108985334A (zh) * | 2018-06-15 | 2018-12-11 | 广州深域信息科技有限公司 | 基于自监督过程改进主动学习的通用物体检测系统及方法 |
CN109816014A (zh) * | 2019-01-22 | 2019-05-28 | 天津大学 | 生成深度学习目标检测网络训练用带标注数据集的方法 |
Non-Patent Citations (2)
Title |
---|
刘永豪.基于深度学习的货架商品检测技术研究.中国优秀硕士学位论文全文数据库 信息科技辑 (月刊).2018,(第01期),正文第13-21页. * |
杨露菁等.智能图像处理及应用.北京:中国铁道出版社,2019,第144-146页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111476284A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN111488826B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN106649542B (zh) | 用于视觉问答的系统和方法 | |
CN107688821B (zh) | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 | |
Goodfellow et al. | Multi-digit number recognition from street view imagery using deep convolutional neural networks | |
CN112819686B (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
Li et al. | Adaptive metric learning for saliency detection | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN108564102A (zh) | 图像聚类结果评价方法和装置 | |
CN112257665A (zh) | 图像内容的识别方法、图像识别模型的训练方法及介质 | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
Qin | Application of efficient recognition algorithm based on deep neural network in English teaching scene | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN112801960B (zh) | 图像处理方法及装置、存储介质、电子设备 | |
Razzaghi et al. | Image retargeting using nonparametric semantic segmentation | |
Mao et al. | An image authentication technology based on depth residual network | |
Jia et al. | Sample generation of semi‐automatic pavement crack labelling and robustness in detection of pavement diseases | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210922 Address after: 310052 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd. Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |