CN113762257A - 一种美妆品牌图像中标志的识别方法及装置 - Google Patents
一种美妆品牌图像中标志的识别方法及装置 Download PDFInfo
- Publication number
- CN113762257A CN113762257A CN202111157168.XA CN202111157168A CN113762257A CN 113762257 A CN113762257 A CN 113762257A CN 202111157168 A CN202111157168 A CN 202111157168A CN 113762257 A CN113762257 A CN 113762257A
- Authority
- CN
- China
- Prior art keywords
- image
- mark
- convolution
- determining
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 38
- 238000005070 sampling Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 230000003796 beauty Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 description 26
- 238000012015 optical character recognition Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000002537 cosmetic Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 102100032202 Cornulin Human genes 0.000 description 2
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种美妆品牌图像中标志的识别方法及装置,其中,该识别方法包括:将待识别图像输入至第一卷积神经网络中,确定待识别图像的感兴趣区域,以及感兴趣区域在多个卷积层的第一卷积特征;将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;将多个不同尺度的特征图输入至回归预测网络中,确定待识别图像的标志区域和图像标志;若图像标志为文字标志,则将待识别图像的标志区域输入至文字标志内容识别模型中,确定待识别图像的文字标志内容;基于待识别图像的图像标志和/或文字标志内容,确定待识别图像的美妆品牌标志。本申请采用图标和文字分开识别的方式,提高了美妆品牌标志的识别速度和准确度。
Description
技术领域
本申请涉及图像处理技术领域,尤其是涉及一种美妆品牌图像中标志的识别方法及装置。
背景技术
随着互联网技术和物流技术的快速发展,越来越多的人们选择网购美妆产品,这也促使网络营销成为美妆产品营销的主要方式。为了能够准确把握指定品牌美妆产品的受众人群,有针对性地设计营销方式,通常需要基于logo(标志)从海量美妆产品图像中识别出指定品牌的美妆产品图像,从而基于识别出的图像的网络浏览信息确定产品受众人群。
现阶段,通常基于深度学习的目标检测与识别方法识别美妆品牌logo,具体包括双阶段和单阶段两类方法。其中,双阶段方法为:一阶段首先把整张图片输进CNN得到卷积特征,然后把卷积特征输入到RPN(Region Proposal Network),得到候选框的特征信息;二阶段使用分类器对候选框中提取出的特征信息进行分类,然后对该类别的候选框用回归器进一步调整其位置。双阶段方法有R-CNN、Fast R-CNN、Faster R-CNN等,优点是准确度高但检测速度比较慢。
单阶段方法为:利用整张图像作为网络的输入,直接在图像的多个位置上回归出每个位置的目标边框以及目标所属的类别。单阶段方法有SSD与Yolo系列等,这种方法没有事先通过RPN生成候选框,大大提高了检测速度,但相比较双阶段方法准确度低。
因此,现在亟需一种检测速度快且准确度高的美妆logo识别方法。
发明内容
有鉴于此,本申请实施例的目的在于提供一种美妆品牌图像中标志的识别方法及装置,能够通过将美妆品牌图标和美妆品牌文字分开识别的方式,提高美妆品牌标志的识别速度和识别准确度。
第一方面,本申请实施例提供了一种美妆品牌图像中标志的识别方法,所述识别方法包括:
将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;
将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;
将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;
若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;
基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
在一种可能的实施方式中,所述方法还包括:
根据获取的所述待识别图像的网络浏览数据,确定所述待识别图像的美妆品牌标志对应的目标用户类别。
在一种可能的实施方式中,所述将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征,包括:
对所述待识别图像进行特征提取预处理,得到多个初始特征;其中,所述初始特征包括第一初始特征和第二初始特征,所述第一初始特征的数量与所述第二初始特征的数量相一致;
对所述第一初始特征进行卷积操作,并将所述第二初始特征与经过卷积操作的第一初始特征在张量维度上进行融合,得到所述感兴趣区域在各个卷积层的第一卷积特征。
在一种可能的实施方式中,所述将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图,包括:
对所述目标卷积层的第一卷积特征分别进行上采样和下采样,确定每个尺度的上采样第一卷积特征和下采样第一卷积特征;其中,各个目标卷积层对应的尺度互不相同;
针对每个尺度,将该尺度的上采样第一卷积特征和下采样第一卷积特征在张量维度上进行融合,得到各个尺度的特征图。
在一种可能的实施方式中,所述将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容,包括:
将所述待识别图像的标志区域输入至第二卷积神经网络,确定所述待识别图像的第二卷积特征;
将所述第二卷积特征输入至循环网络层中,确定所述待识别图像的文字序列特征;
将所述文字序列特征经目标函数层分类预测,确定所述待识别图像的文字标志标签;
基于预设的文字标志标签与文字标志内容的对应关系,确定所述待识别图像的文字标志标签对应的文字标志内容。
在一种可能的实施方式中,通过如下方式对所述第一卷积神经网络、所述特征增强网络、所述回归预测网络进行训练:
获取第一样本集合,其中,所述第一样本集合中包括多个标记有第一样本标志区域和样本图像标志的第一样本图像;
将经过数据增强预处理的所述第一样本图像依次输入至初始第一卷积神经网络、初始特征增强网络、初始回归预测网络中,获取所述第一样本图像的第一预测标志区域和预测图像标志;其中,所述数据增强预处理至少包括以下之一:随机缩放、随机裁剪、随机排布、切片操作;
基于所述第一样本图像标记的第一样本标志区域和样本图像标志,以及所述第一预测标志区域和所述预测图像标志,确定第一损失值;
若所述第一损失值大于等于第一预设阈值,则通过反向传播调整所述初始第一卷积神经网络、所述初始特征增强网络、所述初始回归预测网络的参数,若所述第一损失值小于所述第一预设阈值,则将所述初始第一卷积神经网络确定为所述第一卷积神经网络、将所述初始特征增强网络确定为所述特征增强网络、将所述初始回归预测网络确定为所述回归预测网络。
在一种可能的实施方式中,通过如下方式对所述文字标志内容识别模型进行训练:
获取第二样本集合,其中,所述第二样本集合中包括多个标记有第二样本标志区域和样本文字标志内容的第二样本图像;
将所述第二样本图像输入至初始文字标志内容识别模型中,获取所述第二样本图像的第二预测标志区域和预测文字标志内容;
基于所述第二样本图像标记的第二样本标志区域和样本文字标志内容,以及所述第二预测标志区域和所述预测文字标志内容,确定第二损失值;
若所述第二损失值大于等于第二预设阈值,则通过反向传播调整所述初始文字标志内容识别模型的参数,若所述第二损失值小于所述第二预设阈值,则将所述初始文字标志内容识别模型确定为所述文字标志内容识别模型。
第二方面,本申请实施例提供了一种美妆品牌图像中标志的识别装置,所述识别装置包括:
第一确定模块,用于将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;
第二确定模块,用于将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;
第三确定模块,用于将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;
第四确定模块,用于若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;
第五确定模块,用于基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的美妆品牌图像中标志的识别方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的美妆品牌图像中标志的识别方法的步骤。
本申请实施例提供的一种美妆品牌图像中标志的识别方法及装置,其中,该识别方法包括:将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。本申请实施例能够通过将美妆品牌图标和美妆品牌文字分开识别的方式,提高美妆品牌标志的识别速度和识别准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种美妆品牌图像中标志的识别方法的流程图;
图2示出了本申请实施例提供的一种美妆品牌图像中标志的示意图;
图3示出了本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图;
图4示出了本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图;
图5示出了本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图;
图6示出了本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图;
图7示出了本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图;
图8示出了本申请实施例提供的一种美妆品牌图像中标志的识别装置的结构示意图;
图9示出了本申请实施例提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着互联网技术和物流技术的快速发展,越来越多的人们选择网购美妆产品,这也促使网络营销成为美妆产品营销的主要方式。为了能够准确把握指定品牌美妆产品的受众人群,有针对性地设计营销方式,通常需要基于logo(标志)从海量美妆产品图像中识别出指定品牌的美妆产品图像,从而基于识别出的图像的网络浏览信息确定产品受众人群。
现阶段,通常基于深度学习的目标检测与识别方法识别美妆品牌logo,具体包括双阶段和单阶段两类方法。其中,双阶段方法为:一阶段首先把整张图片输进CNN得到卷积特征,然后把卷积特征输入到RPN(Region Proposal Network),得到候选框的特征信息;二阶段使用分类器对候选框中提取出的特征信息进行分类,然后对该类别的候选框用回归器进一步调整其位置。双阶段方法有R-CNN、Fast R-CNN、Faster R-CNN等,优点是准确度高但检测速度比较慢。
单阶段方法为:利用整张图像作为网络的输入,直接在图像的多个位置上回归出每个位置的目标边框以及目标所属的类别。单阶段方法有SSD与Yolo系列等,这种方法没有事先通过RPN生成候选框,大大提高了检测速度,但相比较双阶段方法准确度低。
因此,现在亟需一种检测速度快、准确度高的美妆logo识别方法。
基于上述问题,本申请实施例提供了一种美妆品牌图像中标志的识别方法及装置,所述识别方法包括:将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
本申请实施例的美妆品牌标志识别方法不同于传统的双阶段和单阶段识别方法,实际中,美妆logo的设计较为复杂,存在图标、文字、图标混合文字三种情况,本申请实施例考虑了美妆logo的数据特点,设计了一个两阶段的识别算法,第一阶段使用目标检测与识别模型,可以检测到logo位置并识别出图标logo,若第一阶段识别出的为文字logo,则进行第二阶段,即把检测出的logo区域特征传递到OCR识别算法,识别出文字logo类别标签,再将文字logo类别标签匹配文字logo内容,识别出文字logo品牌,该种识别方式将图标和文字分开识别,提高了美妆logo的识别速度和准确度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种美妆品牌图像中标志的识别方法进行详细介绍。
参见图1所示,图1为本申请实施例提供的一种美妆品牌图像中标志的识别方法的流程图,该识别方法包括以下步骤:
S101、将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征。
该步骤中,待识别图像为任一美妆品牌图像,在美妆品牌图像中包含代表该美妆品牌的标志,标志通常称为logo,通过对待识别图像中标志的识别,能够区分不同待识别图像所属的美妆品牌。
实际中,美妆品牌的标志复杂多样,参见图2所示,图2为本申请实施例提供的一种美妆品牌图像中标志的示意图,在图2中,美妆品牌图像包含的标志200既有图标标志201又有文字标志202,美妆品牌logo中混杂着图标和文字。实际中也存在只由文字构成的美妆品牌标志,具体包括中文文字标志、外文文字标志、中文在前外文在后的文字标志、外文在前中文在后的文字标志,并且不同美妆品牌的文字标志可能存在文字重叠,比如“魔法世家”、“魔法世家1908”两个美妆品牌的文字标志中包括相同的文字部分。实际中还存在只由图标构成的美妆品牌标志。
本申请实施例使用目标检测与识别模型确定待识别图像的标志区域和图像标志,目标检测与识别模型为单阶段模型,具体由第一卷积神经网络、特征增强网络、回归预测网络三部分组成。其中,第一卷积神经网络为不包含全连接层的卷积神经网络,将待识别图像输入至第一卷积神经网络中,第一卷积神经网络提取待识别图像的数据特征,通过学习特征分布得到对算法最有用的区域,即待识别图像的感兴趣区域(region of interest,ROI),并得到感兴趣区域在各个卷积层的第一卷积特征。
可选的,使用CSPNet(Cross Stage Partial Network)卷积神经网络进行特征提取,得到待识别图像的感兴趣区域及第一卷积特征。
进一步的,参见图3所示,图3为本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图,所述将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征,包括:
S1011、对所述待识别图像进行特征提取预处理,得到多个初始特征;其中,所述初始特征包括第一初始特征和第二初始特征,所述第一初始特征的数量与所述第二初始特征的数量相一致。
S1012、对所述第一初始特征进行卷积操作,并将所述第二初始特征与经过卷积操作的第一初始特征在张量维度上进行融合,得到所述感兴趣区域在各个卷积层的第一卷积特征。
综合步骤S1011和步骤S1012,本申请实施例使用的第一卷积神经网络为CSPNet,其中,CSPNet采用跨阶段局部网络,能够有效减少推理计算量,提高美妆品牌标志的识别速度。采用CSPNet、Mish非线性激活函数提取第一卷积特征。
具体的,首先对待识别图像进行特征提取预处理,获取待识别图像的多个初始特征,以便进行后续的操作。将待识别图像的初始特征分成两部分(第一初始特征和第二初始特征),一部分(第一初始特征)进行卷积操作,另一部分(第二初始特征)不进行任何操作,将卷积操作后的第一初始特征与不进行任何操作的第二初始特征进行concat操作,即在张量维度上进行融合,锁定感兴趣区域,并得到感兴趣区域在各个卷积层的第一卷积特征。这种操作可以将梯度的变化从头到尾地集成到第一卷积特征中,在减少计算量的同时保证识别的准确率。为了能够使第一初始特征和第二初始特征在张量维度上进行融合,预设第一初始特征的数量与第二初始特征的数量相一致。
Mish非线性激活函数是具有无穷阶连续性和平滑性的非单调激活函数,平滑的激活函数允许更好的信息深入神经网络,使得模型具有更好的准确性和泛化性。Mish激活函数可定义为:
Mish=x*tanh(ln(1+ex))。
其中,ln(1+ex)是softmax激活函数和。
S102、将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致。
该步骤中,多个卷积层中包括三个目标卷积层,三个目标卷积层对应的尺度分别为:19*19、38*38、76*76,目标卷积层为预先指定的卷积层,特征增强网络对每个目标卷积层的第一卷积特征进行增强处理,得到19*19、38*38、76*76三个尺度的特征图。可选的,特征增强网络为Neck网络。
进一步的,参见图4所示,图4为本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图,所述将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图,包括:
S1021、对所述目标卷积层的第一卷积特征分别进行上采样和下采样,确定每个尺度的上采样第一卷积特征和下采样第一卷积特征;其中,各个目标卷积层对应的尺度互不相同。
S1022、针对每个尺度,将该尺度的上采样第一卷积特征和下采样第一卷积特征在张量维度上进行融合,得到各个尺度的特征图。
综合步骤S1021和步骤S1022,本申请实施例中特征增强网络为Neck网络,Neck网络由FPN网络(特征金字塔网络)和PANet网络两部分组成,FPN网络通过从第一卷积神经网络的目标卷积层提取不同尺度的第一卷积特征,把低分辨率、具有高语义信息的高层特征以及高分辨率、具有低层语义信息的低层特征进行自上而下(top-down)的侧边连接,使得所有尺度下的特征都具有丰富的语义信息。通过结合自下向上(bottom-up)与自上而下方法获得较强的语义特征,能够提高目标检测的性能表现。PANet通过自下向上的路径增强在较低层(lower layer)中准确的定位信息流,建立底层特征和高层特征之间的信息路径,从而增强整个特征层次架构。这里,高层的第一卷积特征关注物体整体,低层的第一卷积特征关注物体的纹理图案,使用低层的信息可以对物体进行更好地定位。PANet使用AdaptiveFeature Pooling同时对多个层级进行RoI Pooling,将多层级的信息整合后进行预测。PANet增加了Bottom-up Path Augmentation,将低层的信息又传导到高层中去,同时减少了高层到低层的信息流通需要穿过的卷积层数。
具体的,将各个尺度的目标卷积层的第一卷积特征进行上采样,得到上采样第一卷积特征,并且将各个尺度的目标卷积层的第一卷积特征进行下采样,得到下采样第一卷积特征。在每个尺度下,将该尺度的上采样第一卷积特征和下采样第一卷积特征在张量维度上进行融合,得到19*19、38*38、76*76三个尺度的特征图,在张量维度上进行融合可以在扩充张量维度的同时,利用低层特征高分辨率和高层特征的高语义信息,通过融合不同尺度目标卷积层的特征提高检测性能。这样得到的每个尺度的特征图既有提取到的大尺度特征信息又有较好的小尺度的位置信息。
输出的三种不同尺度的特征图可以对不同尺度大小的logo进行识别,大尺度的特征图用来检测小尺寸的logo,小尺度的特征图用来检测大尺寸的logo,通过这种方法可以提高小尺寸的logo的识别精度。
S103、将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志。
该步骤中,待识别图像的标志区域为logo所在的区域,在美妆品牌图像中,除了该美妆品牌的logo信息,还包括美妆产品、背景等信息,使用回归预测网络能够锁定logo在待识别图像中的具体位置。使用回归预测网络对待识别图像中的图像标志进行识别,由于美妆品牌的图像标志可能只有图标,也可能只有文字,还可能既有文字又有图标,为了能够提高回归预测网络的识别速度,将所有由文字组成的标志设置成一类图像标志,即文字标志,而对图标标志进行区分,这样,能够通过图标标志确定待识别图像所属的美妆品牌。
可选的,回归预测网络为Bounding box,Bounding box输出的预测结果包括:标志区域(4个值,标志区域的中心坐标x和y、标志区域的高度h、标志区域的宽度w)、objectness、图像标志。
S104、若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容。
该步骤中,若回归预测网络输出的图像标志为图标标志,则可以基于图标标志确定待识别图像所属的美妆品牌;若回归预测网络输出的图像标志为文字标志,因为所有由文字组成的标志的图像标志都是文字标志,此时还无法基于文字标志确定待识别图像所属的美妆品牌,需要借助文字标志内容识别模型,对文字标志的具体内容进行提取,确定待识别图像的文字标志内容,基于待识别图像的文字标志内容能够确定待识别图像所属的美妆品牌。具体的,将待识别图像的标志区域输入至文字标志内容识别模型中,其中,标志区域内仅含文字标志,能够减少文字标志内容识别模型的数据处理量,提高模型的识别效率。
可选的,文字标志内容识别模型为美妆品牌OCR识别模型。
进一步的,参见图5所示,图5为本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图,所述将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容,包括:
S1041、将所述待识别图像的标志区域输入至第二卷积神经网络,确定所述待识别图像的第二卷积特征。
S1042、将所述第二卷积特征输入至循环网络层中,确定所述待识别图像的文字序列特征。
S1043、将所述文字序列特征经目标函数层分类预测,确定所述待识别图像的文字标志标签。
S1044、基于预设的文字标志标签与文字标志内容的对应关系,确定所述待识别图像的文字标志标签对应的文字标志内容。
综合步骤S1041至步骤S1044,文字标志内容识别模型由第二卷积神经网络、循环网络层、目标函数层三部分组成,其中,文字标志内容识别模型为美妆品牌OCR识别模型,美妆品牌OCR识别模型由CRNN网络构成,整个CRNN网络包括卷积神经网络(CNN)、循环神经网络(RNN)、CTC loss函数预测分类层三部分,即第二卷积神经网络为CNN、循环网络层为RNN、目标函数层为CTC loss函数预测分类层。OCR文字识别流程为:首先把已定位文字区域的图片(即待识别图像的标志区域)输入到训练好的OCR识别模型中,使用OCR识别模型中的卷积神经网络提取待识别图像的第二卷积特征,然后把第二卷积特征输入到循环网络层中提取待识别图像的文字序列特征,输出的特征向量(文字序列特征)经过CTC loss函数层分类预测输出文字识别结果,即文字标志标签,比如001,最后基于预设的文字标志标签与文字标志内容的对应关系,将文字识别结果中的文字标志标签匹配对应的文字标志内容,比如,“001”匹配美妆品牌“膜法世家”。其中,骨架网络为resnet34卷积神经网络,循环神经网络为一个深层双向LSTM网络,能够通过卷积特征提取文字序列特征,CTC Loss是一种不需要对齐的Loss计算方法,它引入了blank字符,解决有些位置没有字符的问题,被广泛应用于文本行识别和语音识别中。
S105、基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
该步骤中,基于目标检测与识别模型和OCR识别模型的识别结果,确定待识别图像的美妆品牌标志,具体的,若图像标志为图标标志,基于图像标志确定识别结果;若图像标志为文字标志,可以基于文字标志内容确定识别结果,还可以基于图像标志和文字标志内容确定识别结果,识别出待识别图像所属的美妆品牌。
本申请实施例提供的美妆品牌图像中标志的识别方法,采用两阶段的识别算法,第一阶段使用目标检测与识别模型,可以检测到logo位置并识别出图标logo,若第一阶段识别出的为文字logo,则进行第二阶段识别,即把检测出的logo区域特征传递到OCR识别算法,识别出文字logo类别标签,再将文字logo类别标签匹配文字logo内容,识别出文字logo品牌,该种识别方式将图标和文字分开识别,提高了美妆logo的识别速度和准确度。
进一步的,所述识别方法还包括:
根据获取的所述待识别图像的网络浏览数据,确定所述待识别图像的美妆品牌标志对应的目标用户类别。
实际中,随着互联网技术的发展,信息交互变得越来越便利,越来越多的人们通过网络途径获取相关信息,这也促使互联网广告投放成为广告营销的主要方式。在美妆行业中不同品牌和功能的产品有不同的消费群体,在互联网广告营销中通过数据分析各个品牌产品使用人群,可以有针对性的制定广告营销方案,提高产品销量和产品影响力。
通常,在识别了美妆品牌图像包含的美妆品牌标志后,基于该美妆品牌图像的网络浏览数据,确定该美妆品牌的使用人群,即目标用户类别(比如,学生、白领、退休人员)。其中,网络浏览数据包括以下信息至少之一:实时网络热度、消费人群、广告投放网站点击访问量、明星代言关注度、话题量。在确定了美妆品牌对应的目标用户类别后,可以有针对性地为美妆品牌后续广告营销提供更好的营销策略。
进一步的,参见图6所示,图6为本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图,通过如下方式对所述第一卷积神经网络、所述特征增强网络、所述回归预测网络进行训练:
S601、获取第一样本集合,其中,所述第一样本集合中包括多个标记有第一样本标志区域和样本图像标志的第一样本图像。
本申请实施例中,首先使用爬虫技术在网络中搜集指定美妆品牌的logo图像数据,这里,logo图像数据为包含logo的美妆品牌图像,对搜集到的logo图像数据进行清洗,去除不相关图像数据,其中,清洗是人为清洗,对搜集到的logo图像数据进行结构化处理,具体的,对其他美妆品牌logo进行遮挡,再去除非logo区域(比如美妆产品区域、背景区域)。在logo图像数据清洗完成后,使用Label Image标注工具对美妆品牌logo图像数据进行标注,得到美妆品牌logo数据集,即训练模型使用的样本集合。本申请实施例在识别美妆品牌图像中logo时,采用目标检测与识别和OCR识别两阶段识别方法,因此,要分别构建目标检测与识别数据集(即第一样本集合)和OCR识别数据集(即第二样本集合)。
具体的,使用Label Image标注工具标注logo图像中logo所在的区域,即第一样本标志区域,以及logo的类别信息标签,即样本图像标志。其中,若logo图像中的logo为图标logo,其类别信息标签与logo所代表的美妆品牌相关联,若logo图像中的logo为文字logo,其类别信息标签统一为文字标签,即不同美妆品牌的文字logo,其类别信息标签是相同的,这样就构建了用于训练目标检测与识别模型的第一样本集合,这种标注方法能够减少目标检测与识别模型的训练难度,提高目标检测与识别模型的识别速度。
对于文字logo,需要进一步进行标记,以区分不同美妆品牌的文字logo,具体的,使用Label Image标注工具将文字logo的文字标签替换为与美妆品牌相关联的OCR字符标签,即样本文字标志内容,不同美妆品牌的OCR字符标签互不相同,再将logo图像数据中文字logo所在的区域确定为第二样本标志区域,这样就构建了用于训练OCR模型的第二样本集合。
S602、将经过数据增强预处理的所述第一样本图像依次输入至初始第一卷积神经网络、初始特征增强网络、初始回归预测网络中,获取所述第一样本图像的第一预测标志区域和预测图像标志;其中,所述数据增强预处理至少包括以下之一:随机缩放、随机裁剪、随机排布、切片操作。
该步骤中,采用第一样本集合中的第一样本图像对目标检测与识别模型进行训练,在训练之前,需要对第一样本图像进行数据增强预处理,具体为:采用Mosaic数据增强方法,将第一样本图像进行随机缩放、随机裁剪、随机排布,再通过自适应图片缩放处理把原始图片统一缩放到一个标准尺寸,输入到FOCUS结构进行切片操作减小特征图(featuremap)大小,得到数据增强预处理后的第一样本图像。
初始目标检测与识别模型具体包括初始第一卷积神经网络、初始特征增强网络、初始回归预测网络三部分,将每个数据增强预处理后的第一样本图像依次输入上述三个网络中,得到初始目标检测与识别模型输出的第一预测标志区域和预测图像标志。
S603、基于所述第一样本图像标记的第一样本标志区域和样本图像标志,以及所述第一预测标志区域和所述预测图像标志,确定第一损失值。
该步骤中,在对目标检测与识别模型进行训练时,通过计算目标检测与识别模型的预测值和真实值的损失(即第一损失值)来调节目标检测与识别模型的参数,在计算第一损失值时,采用GIoU_Loss做Bounding box回归的损失函数,损失函数表达式如下所示:
其中,IoU为第一预测标志区域和第一样本标志区域的交并集的面积之和,Ac为同时包含第一预测标志区域和第一样本标志区域的最小区域面积,U为IoU,|Ac-U|为最小区域面积中不属于第一预测标志区域和第一样本标志区域的面积。
S604、若所述第一损失值大于等于第一预设阈值,则通过反向传播调整所述初始第一卷积神经网络、所述初始特征增强网络、所述初始回归预测网络的参数,若所述第一损失值小于所述第一预设阈值,则将所述初始第一卷积神经网络确定为所述第一卷积神经网络、将所述初始特征增强网络确定为所述特征增强网络、将所述初始回归预测网络确定为所述回归预测网络。
该步骤中,在计算第一损失值后,通过反向传播调整网络模型参数,经过不断迭代训练得到最优目标检测与识别模型,最后使用测试集对最优目标检测与识别模型进行测试,通过测试数据的Bounding box预测结果判定模型性能。
进一步的,参见图7所示,图7为本申请实施例提供的另一种美妆品牌图像中标志的识别方法的流程图,通过如下方式对所述文字标志内容识别模型进行训练:
S701、获取第二样本集合,其中,所述第二样本集合中包括多个标记有第二样本标志区域和样本文字标志内容的第二样本图像。
该步骤中,采用第二样本集合对初始文字标志内容识别模型进行训练,第二样本集合的构建过程已在步骤S601中说明,重复之处不再赘述。
S702、将所述第二样本图像输入至初始文字标志内容识别模型中,获取所述第二样本图像的第二预测标志区域和预测文字标志内容。
该步骤中,将第二样本集合中的每个第二样本图像输入至初始文字标志内容识别模型,得到每个第二样本图像的预测值,即第二预测标志区域和预测文字标志内容。
S703、基于所述第二样本图像标记的第二样本标志区域和样本文字标志内容,以及所述第二预测标志区域和所述预测文字标志内容,确定第二损失值。
该步骤中,采用CTC损失函数计算第二损失值。
S704、若所述第二损失值大于等于第二预设阈值,则通过反向传播调整所述初始文字标志内容识别模型的参数,若所述第二损失值小于所述第二预设阈值,则将所述初始文字标志内容识别模型确定为所述文字标志内容识别模型。
该步骤中,在第二损失值大于等于第二预设阈值时,不断训练迭代更新初始文字标志内容识别模型的参数,直至满足迭代条件,即第二损失值小于第二预设阈值,得到最优文字标志内容识别模型。
需要说明的是,本申请实施例中,模型训练、模型测试和美妆品牌logo识别算法均部署在linux系统的服务器上,并使用16GB显存的TeslaV100显卡加速运算。
基于同一发明构思,本申请实施例中还提供了与美妆品牌图像中标志的识别方法对应的美妆品牌图像中标志的识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述美妆品牌图像中标志的识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,图8为本申请实施例提供的一种美妆品牌图像中标志的识别装置的结构示意图,识别装置包括:
第一确定模块801,用于将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;
第二确定模块802,用于将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;
第三确定模块803,用于将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;
第四确定模块804,用于若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;
第五确定模块805,用于基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
在一种可能的实施方式中,所述装置还包括:
第六确定模块,用于根据获取的所述待识别图像的网络浏览数据,确定所述待识别图像的美妆品牌标志对应的目标用户类别。
在一种可能的实施方式中,所述第一确定模块801,在将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征时,包括:
对所述待识别图像进行特征提取预处理,得到多个初始特征;其中,所述初始特征包括第一初始特征和第二初始特征,所述第一初始特征的数量与所述第二初始特征的数量相一致;
对所述第一初始特征进行卷积操作,并将所述第二初始特征与经过卷积操作的第一初始特征在张量维度上进行融合,得到所述感兴趣区域在各个卷积层的第一卷积特征。
在一种可能的实施方式中,所述第二确定模块802,在将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图时,包括:
对所述目标卷积层的第一卷积特征分别进行上采样和下采样,确定每个尺度的上采样第一卷积特征和下采样第一卷积特征;其中,各个目标卷积层对应的尺度互不相同;
针对每个尺度,将该尺度的上采样第一卷积特征和下采样第一卷积特征在张量维度上进行融合,得到各个尺度的特征图。
在一种可能的实施方式中,所述第四确定模块804,在将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容时,包括:
将所述待识别图像的标志区域输入至第二卷积神经网络,确定所述待识别图像的第二卷积特征;
将所述第二卷积特征输入至循环网络层中,确定所述待识别图像的文字序列特征;
将所述文字序列特征经目标函数层分类预测,确定所述待识别图像的文字标志标签;
基于预设的文字标志标签与文字标志内容的对应关系,确定所述待识别图像的文字标志标签对应的文字标志内容。
在一种可能的实施方式中,所述装置还包括:
第一获取模块,用于获取第一样本集合,其中,所述第一样本集合中包括多个标记有第一样本标志区域和样本图像标志的第一样本图像;
第二获取模块,用于将经过数据增强预处理的所述第一样本图像依次输入至初始第一卷积神经网络、初始特征增强网络、初始回归预测网络中,获取所述第一样本图像的第一预测标志区域和预测图像标志;其中,所述数据增强预处理至少包括以下之一:随机缩放、随机裁剪、随机排布、切片操作;
第七确定模块,用于基于所述第一样本图像标记的第一样本标志区域和样本图像标志,以及所述第一预测标志区域和所述预测图像标志,确定第一损失值;
第一调整模块,用于若所述第一损失值大于等于第一预设阈值,则通过反向传播调整所述初始第一卷积神经网络、所述初始特征增强网络、所述初始回归预测网络的参数;
第八确定模块,用于若所述第一损失值小于所述第一预设阈值,则将所述初始第一卷积神经网络确定为所述第一卷积神经网络、将所述初始特征增强网络确定为所述特征增强网络、将所述初始回归预测网络确定为所述回归预测网络。
在一种可能的实施方式中,所述装置还包括:
第三获取模块,用于获取第二样本集合,其中,所述第二样本集合中包括多个标记有第二样本标志区域和样本文字标志内容的第二样本图像;
第四获取模块,用于将所述第二样本图像输入至初始文字标志内容识别模型中,获取所述第二样本图像的第二预测标志区域和预测文字标志内容;
第九确定模块,用于基于所述第二样本图像标记的第二样本标志区域和样本文字标志内容,以及所述第二预测标志区域和所述预测文字标志内容,确定第二损失值;
第二调整模块,用于若所述第二损失值大于等于第二预设阈值,则通过反向传播调整所述初始文字标志内容识别模型的参数;
第十确定模块,用于若所述第二损失值小于所述第二预设阈值,则将所述初始文字标志内容识别模型确定为所述文字标志内容识别模型。
本申请实施例提供的美妆品牌图像中标志的识别装置,采用两阶段的识别算法,第一阶段使用目标检测与识别模型,可以检测到logo位置并识别出图标logo,若第一阶段识别出的为文字logo,则进行第二阶段识别,即把检测出的logo区域特征传递到OCR识别算法,识别出文字logo类别标签,再将文字logo类别标签匹配文字logo内容,识别出文字logo品牌,该种识别方式将图标和文字分开识别,提高了美妆logo的识别速度和准确度。
参见图9所示,图9为本申请实施例提供的一种电子设备900,该电子设备900包括:处理器901、存储器902和总线903,所述存储器902存储有所述处理器901可执行的机器可读指令,当电子设备运行时,所述处理器901与所述存储器902之间通过总线903通信,所述处理器901执行所述机器可读指令,以执行如上述美妆品牌图像中标志的识别方法的步骤。
具体地,上述存储器902和处理器901能够为通用的存储器和处理器,这里不做具体限定,当处理器901运行存储器902存储的计算机程序时,能够执行上述美妆品牌图像中标志的识别方法。
对应于上述美妆品牌图像中标志的识别方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述美妆品牌图像中标志的识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种美妆品牌图像中标志的识别方法,其特征在于,所述识别方法包括:
将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;
将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;
将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;
若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;
基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
2.根据权利要求1所述的识别方法,其特征在于,所述方法还包括:
根据获取的所述待识别图像的网络浏览数据,确定所述待识别图像的美妆品牌标志对应的目标用户类别。
3.根据权利要求1所述的识别方法,其特征在于,所述将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征,包括:
对所述待识别图像进行特征提取预处理,得到多个初始特征;其中,所述初始特征包括第一初始特征和第二初始特征,所述第一初始特征的数量与所述第二初始特征的数量相一致;
对所述第一初始特征进行卷积操作,并将所述第二初始特征与经过卷积操作的第一初始特征在张量维度上进行融合,得到所述感兴趣区域在各个卷积层的第一卷积特征。
4.根据权利要求1所述的识别方法,其特征在于,所述将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图,包括:
对所述目标卷积层的第一卷积特征分别进行上采样和下采样,确定每个尺度的上采样第一卷积特征和下采样第一卷积特征;其中,各个目标卷积层对应的尺度互不相同;
针对每个尺度,将该尺度的上采样第一卷积特征和下采样第一卷积特征在张量维度上进行融合,得到各个尺度的特征图。
5.根据权利要求1所述的识别方法,其特征在于,所述将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容,包括:
将所述待识别图像的标志区域输入至第二卷积神经网络,确定所述待识别图像的第二卷积特征;
将所述第二卷积特征输入至循环网络层中,确定所述待识别图像的文字序列特征;
将所述文字序列特征经目标函数层分类预测,确定所述待识别图像的文字标志标签;
基于预设的文字标志标签与文字标志内容的对应关系,确定所述待识别图像的文字标志标签对应的文字标志内容。
6.根据权利要求1所述的识别方法,其特征在于,通过如下方式对所述第一卷积神经网络、所述特征增强网络、所述回归预测网络进行训练:
获取第一样本集合,其中,所述第一样本集合中包括多个标记有第一样本标志区域和样本图像标志的第一样本图像;
将经过数据增强预处理的所述第一样本图像依次输入至初始第一卷积神经网络、初始特征增强网络、初始回归预测网络中,获取所述第一样本图像的第一预测标志区域和预测图像标志;其中,所述数据增强预处理至少包括以下之一:随机缩放、随机裁剪、随机排布、切片操作;
基于所述第一样本图像标记的第一样本标志区域和样本图像标志,以及所述第一预测标志区域和所述预测图像标志,确定第一损失值;
若所述第一损失值大于等于第一预设阈值,则通过反向传播调整所述初始第一卷积神经网络、所述初始特征增强网络、所述初始回归预测网络的参数,若所述第一损失值小于所述第一预设阈值,则将所述初始第一卷积神经网络确定为所述第一卷积神经网络、将所述初始特征增强网络确定为所述特征增强网络、将所述初始回归预测网络确定为所述回归预测网络。
7.根据权利要求1所述的识别方法,其特征在于,通过如下方式对所述文字标志内容识别模型进行训练:
获取第二样本集合,其中,所述第二样本集合中包括多个标记有第二样本标志区域和样本文字标志内容的第二样本图像;
将所述第二样本图像输入至初始文字标志内容识别模型中,获取所述第二样本图像的第二预测标志区域和预测文字标志内容;
基于所述第二样本图像标记的第二样本标志区域和样本文字标志内容,以及所述第二预测标志区域和所述预测文字标志内容,确定第二损失值;
若所述第二损失值大于等于第二预设阈值,则通过反向传播调整所述初始文字标志内容识别模型的参数,若所述第二损失值小于所述第二预设阈值,则将所述初始文字标志内容识别模型确定为所述文字标志内容识别模型。
8.一种美妆品牌图像中标志的识别装置,其特征在于,所述识别装置包括:
第一确定模块,用于将待识别图像输入至第一卷积神经网络中,确定所述待识别图像的感兴趣区域,以及所述感兴趣区域在多个卷积层的第一卷积特征;
第二确定模块,用于将目标卷积层的第一卷积特征输入至特征增强网络中,确定多个不同尺度的特征图;其中,所述多个卷积层包括所述目标卷积层,所述目标卷积层的数量与所述特征图的数量相一致;
第三确定模块,用于将所述多个不同尺度的特征图输入至回归预测网络中,确定所述待识别图像的标志区域和图像标志;其中,所述图像标志包括文字标志和多个互异的图标标志;
第四确定模块,用于若所述图像标志为所述文字标志,则将所述待识别图像的标志区域输入至文字标志内容识别模型中,确定所述待识别图像的文字标志内容;
第五确定模块,用于基于所述待识别图像的所述图像标志和/或所述文字标志内容,确定所述待识别图像的美妆品牌标志。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一项所述的美妆品牌图像中标志的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的美妆品牌图像中标志的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157168.XA CN113762257B (zh) | 2021-09-30 | 2021-09-30 | 一种美妆品牌图像中标志的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111157168.XA CN113762257B (zh) | 2021-09-30 | 2021-09-30 | 一种美妆品牌图像中标志的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113762257A true CN113762257A (zh) | 2021-12-07 |
CN113762257B CN113762257B (zh) | 2024-07-05 |
Family
ID=78798401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111157168.XA Active CN113762257B (zh) | 2021-09-30 | 2021-09-30 | 一种美妆品牌图像中标志的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762257B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332844A (zh) * | 2022-03-16 | 2022-04-12 | 武汉楚精灵医疗科技有限公司 | 医学图像的智能分类应用方法、装置、设备和存储介质 |
WO2023173949A1 (zh) * | 2022-03-16 | 2023-09-21 | 北京有竹居网络技术有限公司 | 一种古籍识别方法、装置、存储介质及设备 |
KR102719003B1 (ko) * | 2022-01-13 | 2024-10-18 | 국립금오공과대학교 산학협력단 | 객체 검출 누락을 최소화한 객체 검출기의 학습 방법 및 이를 수행하기 위한 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154102A (zh) * | 2017-12-21 | 2018-06-12 | 安徽师范大学 | 一种道路交通标志识别方法 |
CN111488770A (zh) * | 2019-01-28 | 2020-08-04 | 初速度(苏州)科技有限公司 | 交通标志识别方法、神经网络模型的训练方法和装置 |
CN112016467A (zh) * | 2020-08-28 | 2020-12-01 | 展讯通信(上海)有限公司 | 交通标志识别模型训练方法、识别方法、系统、设备及介质 |
JP2021022367A (ja) * | 2019-07-29 | 2021-02-18 | 富士通株式会社 | 画像処理方法及び情報処理装置 |
CN113269257A (zh) * | 2021-05-27 | 2021-08-17 | 中山大学孙逸仙纪念医院 | 一种图像分类方法、装置、终端设备及存储介质 |
CN113378841A (zh) * | 2021-04-29 | 2021-09-10 | 杭州电子科技大学 | 一种基于级联目标检测的指向文字定位方法 |
-
2021
- 2021-09-30 CN CN202111157168.XA patent/CN113762257B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154102A (zh) * | 2017-12-21 | 2018-06-12 | 安徽师范大学 | 一种道路交通标志识别方法 |
CN111488770A (zh) * | 2019-01-28 | 2020-08-04 | 初速度(苏州)科技有限公司 | 交通标志识别方法、神经网络模型的训练方法和装置 |
JP2021022367A (ja) * | 2019-07-29 | 2021-02-18 | 富士通株式会社 | 画像処理方法及び情報処理装置 |
CN112016467A (zh) * | 2020-08-28 | 2020-12-01 | 展讯通信(上海)有限公司 | 交通标志识别模型训练方法、识别方法、系统、设备及介质 |
CN113378841A (zh) * | 2021-04-29 | 2021-09-10 | 杭州电子科技大学 | 一种基于级联目标检测的指向文字定位方法 |
CN113269257A (zh) * | 2021-05-27 | 2021-08-17 | 中山大学孙逸仙纪念医院 | 一种图像分类方法、装置、终端设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HUIHUA YANG ET AL.: "An Efficient Method for Vehicle Model Identification via Logo Recognition", 《2013 INTERNATIONAL CONFERENCE ON COMPUTATIONAL AND INFORMATION SCIENCES》, 21 June 2013 (2013-06-21), pages 1080 - 1083, XP032515100, DOI: 10.1109/ICCIS.2013.287 * |
刘洋,战荫伟: "基于深度学习的小目标检测算法综述", 《计算机工程与应用》, vol. 57, no. 02, 22 December 2020 (2020-12-22), pages 37 - 48 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102719003B1 (ko) * | 2022-01-13 | 2024-10-18 | 국립금오공과대학교 산학협력단 | 객체 검출 누락을 최소화한 객체 검출기의 학습 방법 및 이를 수행하기 위한 장치 |
CN114332844A (zh) * | 2022-03-16 | 2022-04-12 | 武汉楚精灵医疗科技有限公司 | 医学图像的智能分类应用方法、装置、设备和存储介质 |
WO2023173949A1 (zh) * | 2022-03-16 | 2023-09-21 | 北京有竹居网络技术有限公司 | 一种古籍识别方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113762257B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055557B2 (en) | Automated extraction of product attributes from images | |
US11657602B2 (en) | Font identification from imagery | |
CN107016387B (zh) | 一种识别标签的方法及装置 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
CN114067321B (zh) | 一种文本检测模型训练方法、装置、设备及存储介质 | |
CN110413825B (zh) | 面向时尚电商的街拍推荐系统 | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN113762257B (zh) | 一种美妆品牌图像中标志的识别方法及装置 | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN112883926B (zh) | 表格类医疗影像的识别方法及装置 | |
CN115564469A (zh) | 广告创意选取和模型训练方法、装置、设备及存储介质 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN113673528B (zh) | 文本处理方法、装置、电子设备和可读存储介质 | |
Anbukkarasi et al. | Enhanced feature model based hybrid neural network for text detection on signboard, Billboard and news tickers | |
Wang et al. | Bi-channel attention meta learning for few-shot fine-grained image recognition | |
Si | Analysis of calligraphy Chinese character recognition technology based on deep learning and computer-aided technology | |
CN115775386A (zh) | 用户界面组件的识别方法、装置、计算机设备和存储介质 | |
Tehsin et al. | A caption text detection method from images/videos for efficient indexing and retrieval of multimedia data | |
CN115205877A (zh) | 一种不规则排版发票单据布局预测方法、装置及存储介质 | |
Rayeed et al. | Bangla sign digits recognition using depth information | |
Wróblewska et al. | Optimal products presentation in offer images for e-commerce marketplace platform | |
CN114511741A (zh) | 图像的识别方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |