CN115620005A - 一种图像识别方法、装置、设备及存储介质 - Google Patents

一种图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115620005A
CN115620005A CN202211216308.0A CN202211216308A CN115620005A CN 115620005 A CN115620005 A CN 115620005A CN 202211216308 A CN202211216308 A CN 202211216308A CN 115620005 A CN115620005 A CN 115620005A
Authority
CN
China
Prior art keywords
image
shielding
determining
area
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211216308.0A
Other languages
English (en)
Inventor
钟盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202211216308.0A priority Critical patent/CN115620005A/zh
Publication of CN115620005A publication Critical patent/CN115620005A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别方法、装置、设备及存储介质。所述方法包括:获取待识别图像;基于预先训练的语义分割网络,确定出所述待识别图像中的遮挡区域、背景区域和待识别主体区域;确定包含所述待识别主体区域的待裁剪图像区域,并将所述待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像;在预设情况下,确定所述待匹配图像中属于所述遮挡区域的遮挡部分,并在所述预设固定尺寸的N个主体分类模板图像中,分别针对与所述遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度;N≥1;根据计算得到的N个图像特征相似度,确定所述待识别主体的分类。

Description

一种图像识别方法、装置、设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图像识别方法、装置、设备及存储介质。
背景技术
在图像识别的业务中,通常需要针对被遮挡的主体进行识别。主体通常可以是某一种物体,例如书本、饮料、手机等等。具体可以是针对被遮挡的主体识别出相应的分类。而主体被遮挡的方式可能是被手部遮挡,也可能是被箱子、纸板、墨迹等等遮挡。
目前针对被遮挡的主体的识别方法准确率较低。
发明内容
本发明提供一种图像识别方法、装置、设备及存储介质,以解决相关技术中的不足。
根据本发明实施例的第一方面,提供一种图像识别方法,包括:
获取待识别图像;
基于预先训练的语义分割网络,确定出所述待识别图像中的遮挡区域、背景区域和待识别主体区域;
确定包含所述待识别主体区域的待裁剪图像区域,并将所述待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像;
在预设情况下,确定所述待匹配图像中属于所述遮挡区域的遮挡部分,并在所述预设固定尺寸的N个主体分类模板图像中,分别针对与所述遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度;N≥1;
根据计算得到的N个图像特征相似度,确定所述待识别主体的分类。
可选地,所述预设情况包括:所述待匹配图像中,属于所述遮挡区域的遮挡部分面积占比大于或等于预设占比;
所述方法还包括:
在所述待匹配图像中属于所述遮挡区域的遮挡部分面积占比小于预设占比的情况下,针对所述N个主体分类模板图像,分别与所述待匹配图像计算图像特征相似度。
可选地,所述根据计算得到的N个图像特征相似度,确定所述待识别主体的分类,包括:
在计算得到的N个图像特征相似度中,最高的图像特征相似度大于或等于预设相似度阈值的情况下,将最高图像特征相似度对应的主体分类模板图像所表征的主体分类,确定为所述待识别主体的分类;
在计算得到的N个图像特征相似度中,最高的图像特征相似度小于所述预设相似度阈值的情况下,确定所述待识别主体的分类为未知分类。
可选地,所述获取待识别图像,包括:
获取连续拍摄的多个图像帧,基于目标检测模型进行所述待识别主体的检测和跟踪;
在确定任一图像帧中,包含所述待识别主体的检测框中心点位于待识别图像区域的情况下,将所述任一图像帧中包含所述待识别主体的预设图像帧区域,确定为待识别图像。
可选地,所述语义分割网络的训练方法,包括:
基于已标注的第一图像数据集,训练初始语义分割网络,得到训练完成的第一语义分割网络;
循环执行以下步骤,直到满足循环停止条件:
基于未标注的第二图像数据集,利用当前版本的第一语义分割网络进行标注;
基于已标注的第二图像数据集,继续训练当前版本的第一语义分割网络,得到第二语义分割网络;
将所述第二语义分割网络确定为当前版本的第一语义分割网络;
其中,针对循环中每个版本的第一语义分割网络版本,基于已标注的测试图像数据集,确定每个版本的第一语义分割网络的准确率;
循环结束后,将准确率最高的第一语义分割网络,确定为训练完成的语义分割网络。
可选地,所述第一图像数据集的构建方法,包括:
基于获取的主体图像、遮挡图像和背景图像,将所述背景图像确定为底层、将所述主体图像确定为中层、将所述遮挡图像确定为顶层,合成一张第一图像;
在所述第一图像中,将属于所述背景图像的区域标注为背景区域,将属于所述遮挡图像的区域标注为遮挡区域,将属于所述主体图像的区域标注为主体区域;
将标注后的第一图像,添加到第一图像数据集中。
可选地,所述确定包含所述待识别主体区域的待裁剪图像区域,包括:
确定包含所述待识别主体区域的最小外接矩形。
可选地,所述针对与所述遮挡部分位置相同的图像区域进行遮挡处理,包括:
针对与所述遮挡部分位置相同的图像区域,将其中的像素点取值修改为预设值。
可选地,所述针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度,包括:
针对所述待匹配图像中的所述遮挡部分,进行所述遮挡处理;
针对所述N个遮挡模板图像,分别与处理后的待匹配图像计算图像特征相似度。
可选地,所述遮挡区域包括,手部遮挡区域;所述待识别主体包括,待识别商品。
根据本发明实施例的第二方面,提供一种图像识别装置,包括:
获取单元,用于获取待识别图像;
分割单元,用于基于预先训练的语义分割网络,确定出所述待识别图像中的遮挡区域、背景区域和待识别主体区域;
调整单元,用于确定包含所述待识别主体区域的待裁剪图像区域,并将所述待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像;
分类单元,用于在预设情况下,确定所述待匹配图像中属于所述遮挡区域的遮挡部分,并在所述预设固定尺寸的N个主体分类模板图像中,分别针对与所述遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度;N≥1;根据计算得到的N个图像特征相似度,确定所述待识别主体的分类。
可选地,所述预设情况包括:所述待匹配图像中,属于所述遮挡区域的遮挡部分面积占比大于或等于预设占比;
所述分类单元还用于:
在所述待匹配图像中属于所述遮挡区域的遮挡部分面积占比小于预设占比的情况下,针对所述N个主体分类模板图像,分别与所述待匹配图像计算图像特征相似度。
可选地,所述分类单元用于:
在计算得到的N个图像特征相似度中,最高的图像特征相似度大于或等于预设相似度阈值的情况下,将最高图像特征相似度对应的主体分类模板图像所表征的主体分类,确定为所述待识别主体的分类;
在计算得到的N个图像特征相似度中,最高的图像特征相似度小于所述预设相似度阈值的情况下,确定所述待识别主体的分类为未知分类。
可选地,所述获取单元用于:
获取连续拍摄的多个图像帧,基于目标检测模型进行所述待识别主体的检测和跟踪;
在确定任一图像帧中,包含所述待识别主体的检测框中心点位于待识别图像区域的情况下,将所述任一图像帧中包含所述待识别主体的预设图像帧区域,确定为待识别图像。
可选地,所述语义分割网络的训练方法,包括:
基于已标注的第一图像数据集,训练初始语义分割网络,得到训练完成的第一语义分割网络;
循环执行以下步骤,直到满足循环停止条件:
基于未标注的第二图像数据集,利用当前版本的第一语义分割网络进行标注;
基于已标注的第二图像数据集,继续训练当前版本的第一语义分割网络,得到第二语义分割网络;
将所述第二语义分割网络确定为当前版本的第一语义分割网络;
其中,针对循环中每个版本的第一语义分割网络版本,基于已标注的测试图像数据集,确定每个版本的第一语义分割网络的准确率;
循环结束后,将准确率最高的第一语义分割网络,确定为训练完成的语义分割网络。
可选地,所述第一图像数据集的构建方法,包括:
基于获取的主体图像、遮挡图像和背景图像,将所述背景图像确定为底层、将所述主体图像确定为中层、将所述遮挡图像确定为顶层,合成一张第一图像;
在所述第一图像中,将属于所述背景图像的区域标注为背景区域,将属于所述遮挡图像的区域标注为遮挡区域,将属于所述主体图像的区域标注为主体区域;
将标注后的第一图像,添加到第一图像数据集中。
可选地,所述调整单元用于:
确定包含所述待识别主体区域的最小外接矩形。
可选地,所述分类单元用于:
针对与所述遮挡部分位置相同的图像区域,将其中的像素点取值修改为预设值。
可选地,所述分类单元用于:
针对所述待匹配图像中的所述遮挡部分,进行所述遮挡处理;
针对所述N个遮挡模板图像,分别与处理后的待匹配图像计算图像特征相似度。
可选地,所述遮挡区域包括,手部遮挡区域;所述待识别主体包括,待识别商品。
根据上述实施例可知,通过确定出主体区域被遮挡的部分,并且基于遮挡部分针对主体分类模板图像进行遮挡处理,再基于处理后的主体分类模板图像,与主体区域计算图像特征相似度,用于识别图像中的主体,从而可以提高图像中主体的识别准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据本发明实施例示出的一种图像识别方法的流程示意图;
图2是根据本发明实施例示出的一种图像识别装置的结构示意图;
图3是根据本发明实施例示出的一种配置本发明实施例方法的计算机设备硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在图像识别的业务中,通常需要针对被遮挡的主体进行识别。主体通常可以是某一种物体,例如书本、饮料、手机等等。具体可以是针对被遮挡的主体识别出相应的分类。而主体被遮挡的方式可能是被手部遮挡,也可能是被箱子、纸板、墨迹等等遮挡。
目前针对被遮挡的主体的识别方法准确率较低。
为了提高被遮挡主体的识别准确率,本发明实施例提供了一种图像识别方法。
在该方法中,可以采用图像与多个主体分类模板计算图像特征相似度匹配的方式进行识别,确定图像中待识别主体的分类。
例如,针对图像中的某一商品,可以通过与多个商品类别模板的图像进行相似度匹配,确定出图像中该商品的类别。
基于这一识别方式,在图像中需要识别的主体被遮挡的情况下,由于主体的图像信息存在缺失,如果直接与多个类别模板的图像进行相似度匹配,准确率较低。
因此,在本方法中,可以确定出主体图像信息被遮挡的部分,并且将所确定的被遮挡部分分别覆盖到多个类别模板图像上,针对存在相同缺失部分的模板进行匹配,从而可以提高图像中主体的识别准确率。
下面针对本发明实施例提供的一种图像识别方法进行详细解释。
如图1所示,图1是根据本发明实施例示出的一种图像识别方法的流程示意图。
本发明实施例并不限定本方法流程的执行主体。可选地,执行主体可以是任一计算设备。例如,服务端、终端、商品识别服务端、相机终端等。
该方法可以包括以下步骤。
S101:获取待识别图像。
S102:基于预先训练的语义分割网络,确定出待识别图像中的遮挡区域、背景区域和待识别主体区域。
S103:确定包含待识别主体区域的待裁剪图像区域,并将待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像。
S104:在预设情况下,确定待匹配图像中属于遮挡区域的遮挡部分,并在预设固定尺寸的N个主体分类模板图像中,分别针对与遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对N个遮挡模板图像,分别与待匹配图像计算图像特征相似度。可选地,N≥1。
S105:根据计算得到的N个图像特征相似度,确定待识别主体的分类。
上述方法流程可以通过确定出主体区域被遮挡的部分,并且基于遮挡部分针对主体分类模板图像进行遮挡处理,再基于处理后的主体分类模板图像,与主体区域计算图像特征相似度,用于识别图像中的主体,从而可以提高图像中主体的识别准确率。
下面针对各个步骤进行详细的解释。
一、S101:获取待识别图像。
本方法流程并不限定获取待识别图像的方式和来源。
可选地,可以获取相机拍摄的图像,确定为待识别图像进行识别。也可以从终端获取图像,确定为待识别图像进行识别。
在一种具体的示例中,可以在商品拿取场景,例如,无人超市或者无人售货机,通过相机监测商品拿取情况。而商品的拿取通常会被人手遮挡,从而需要识别被遮挡的商品。因此,可以将相机拍摄的图像,确定为待识别图像进行识别。
在一种可选的实施例中,可以持续获取到多个图像,为了提高图像识别的效率,可以筛选出部分图像进行识别。
可选地,获取待识别图像,可以包括:获取连续拍摄的多个图像帧,基于目标检测模型进行待识别主体的检测和跟踪;在确定任一图像帧中,包含待识别主体的检测框中心点位于待识别图像区域的情况下,将所确定的图像帧中包含待识别主体的预设图像帧区域,确定为待识别图像。
可选地,获取连续拍摄的图像帧,具体可以是获取拍摄的视频,也可以是获取周期性连续拍摄的图像。
本实施例并不限定图像帧的拍摄设备,具体可以是相机或摄像头,例如,无人售货机的相机。
可选地,可以通过目标检测的方式,针对连续拍摄的图像帧进行目标检测和目标跟踪。具体可以是通过目标检测模型进行检测,得到图像帧中的目标检测框。
例如,在商品拿取的场景中,待识别主体具体可以是商品。从而可以通过目标检测模型,针对商品进行检测和跟踪,从而根据商品的运动轨迹,确定商品是否被拿取。
而在待识别主体被检测到出现在预设区域的情况下,可以确定需要进行图像识别。
例如,在商品拿取的场景中,可以将预设区域设置为无人售货机的外侧,当检测到商品出现在无人售货机的外侧,可以确定需要针对商品进行图像识别。
当然,本实施例并不限定具体的待识别图像区域。可选地,待识别图像区域可以是在相机取景框中预设的区域。
本实施例并不限定预设图像帧区域的确定方式。可选地,可以直接将所确定的图像帧确定为待识别图像,也可以针对所确定的图像帧进行裁剪。
本实施例并不限定裁剪的方式,可选地,可以保留待识别主体,而对所确定的图像帧中的其他部分进行裁剪。
本实施例可以减少待识别图像的数据量,降低后续进行图像识别的算力负担,提高图像识别的效率。
此外,上述利用目标检测模型,针对连续拍摄的图像帧进行筛选,可以降低后续图像识别的算力负担,提高图像识别的效率。
二、S102:基于预先训练的语义分割网络,确定出待识别图像中的遮挡区域、背景区域和待识别主体区域。
本方法流程并不限定语义分割网络的形式和训练方法,只要能够确定出图像中的遮挡区域、背景区域和待识别主体区域即可。
其中,可选地,遮挡区域可以包括图像的前景区域,待识别主体区域可以包括图像中的待识别主体。
在一种可选的实施例中,可以通过弱监督的方式训练语义分割网络。
其中,语义分割网络所需要的训练样本标注成本较高,通过弱监督的方式可以降低训练样本的标注成本,提高训练效率,降低训练成本。
可选地,语义分割网络的训练方法,可以包括:
基于已标注的第一图像数据集,训练初始语义分割网络,得到训练完成的第一语义分割网络;
循环执行以下步骤,直到满足循环停止条件:
基于未标注的第二图像数据集,利用当前版本的第一语义分割网络进行标注;
基于已标注的第二图像数据集,继续训练当前版本的第一语义分割网络,得到第二语义分割网络;
将所述第二语义分割网络确定为当前版本的第一语义分割网络;
其中,针对循环中每个版本的第一语义分割网络,基于已标注的测试图像数据集,确定每个版本的第一语义分割网络的准确率;
循环结束后,将准确率最高的第一语义分割网络版本,确定为训练完成的语义分割网络。
在本实施例中,可以通过少量的已标注样本(即第一图像数据集)训练语义分割网络,进而可以基于这一初始模型参数,利用大量的未标注样本(即第二图像数据集)实现弱监督训练。
具体可以是利用当前版本的第一语义分割网络,针对未标注的图像样本进行伪标签的标注,再利用标注有伪标签的图像样本重新训练语义分割网络。
通过上述实施例,可以通过弱监督训练,降低语义分割网络中训练样本的获取成本,提高训练效果。
本实施例并不限定循环停止条件。可选地,循环停止条件可以包括以下至少一项:循环次数大于预设次数;当前版本的低于语义分割网络在测试图像数据集上的准确率大于预设准确率阈值等。
而针对已标注的图像样本,本实施例并不限定获取方式。
可选地,由于本方法流程所需要的语义分割网络主要用于确定出图像中的遮挡区域、背景区域和待识别主体区域。
因此,可以通过组合图像的方式,将3张图像中的内容分别作为遮挡区域、背景区域和待识别主体区域进行组合,从而可以得到已标注的图像样本。
可选地,第一图像数据集的构建方法,可以包括:
基于获取的主体图像、遮挡图像和背景图像,将背景图像确定为底层、将主体图像确定为中层、将遮挡图像确定为顶层,合成一张第一图像;在第一图像中,将属于背景图像的区域标注为背景区域,将属于遮挡图像的区域标注为遮挡区域,将属于主体图像的区域标注为主体区域;将标注后的第一图像,添加到第一图像数据集中。
本实施例中,可以实现由机器自动根据第一图像中各像素所属的图像进行标注,无需人工参与,提高标注效率,方便提高有标签的图像样本数量。
可选地,可以是针对合成的第一图像,由机器自动根据第一图像中各像素所属的图像,确定对应的标签,从而可以将第一图像和所确定的标签,作为有标签图像样本添加到第一图像数据集中。
具体可以包括,在第一图像中,针对属于背景图像的区域,确定对应的标签为背景区域,针对属于遮挡图像的区域,确定对应的标签为遮挡区域,针对属于主体图像的区域,确定对应的标签为主体区域。
当然,针对已标注的测试图像数据集,也可以使用上述实施例进行构建。
本实施例可以降低获取语义分割网络训练样本的难度,方便提高语义分割网络训练样本的数量,提高训练效果。
可选地,也可以直接利用上述图像样本的构建方法,构建出较多的训练样本,用于直接训练语义分割网络。
三、S103:确定包含待识别主体区域的待裁剪图像区域,并将待裁剪图像区域的尺寸调整为预设固定尺寸,获取待匹配图像。
本方法流程并不限定确定待裁剪图像区域的方式,只要包含待识别主体区域即可。
可选地,可以将包含待识别主体区域的最小外接圆,确定为待裁剪图像区域,也可以将包含待识别主体区域的预设尺寸的矩形,确定为待裁剪图像区域。
可选地,确定包含待识别主体区域的待裁剪图像区域,可以包括:确定包含待识别主体区域的最小外接矩形。
在一种可选的实施例中,将待裁剪图像区域调整为预设固定尺寸可以方便后续针对相同尺寸的主体分类模板图像进行遮挡处理。
本实施例并不限定预设固定尺寸的大小和调整方式。
可选地,预设固定尺寸可以是主体分类模板图像的尺寸,从而方便后续的遮挡处理。而不同主体分类模板图像可以具有相同的尺寸。
可选地,后续主体分类模板图像也可以调整尺寸为预设固定尺寸,方便后续的遮挡处理。
四、S104:在预设情况下,确定待匹配图像中属于遮挡区域的遮挡部分,并在预设固定尺寸的N个主体分类模板图像中,分别针对与遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对N个遮挡模板图像,分别与待匹配图像计算图像特征相似度。
其中,可选地,N≥1。
在本方法流程中,并不限定具体进行遮挡处理的预设情况。
可选地,可以是在识别出遮挡区域的情况下,执行S104。也可以是在遮挡区域的占比较大的情况下,执行S104。
可选地,预设情况包括:待匹配图像中,属于遮挡区域的遮挡部分面积占比大于或等于预设占比。
相对应地,在不满足预设情况时,可以不进行遮挡处理计算图像特征相似度。
可选地,可以在待匹配图像中属于遮挡区域的遮挡部分面积占比小于预设占比的情况下,针对N个主体分类模板图像,分别与待匹配图像计算图像特征相似度。
可选地,主体分类模板图像的数量具体可以是一个或多个。
可选地,主体分类模板图像的尺寸可以都是预设固定尺寸,也可以是针对主体分类模板图像都调整为预设固定尺寸,从而方便进行遮挡处理。
本方法流程并不限定遮挡处理的方式。可选地,可以针对主体分类模板图像中,与待匹配图像的遮挡部分位置相同的图像区域,直接删除,也可以将其中的像素值调整为预设固定值,例如0,也可以填充遮挡部分的像素值。
可选地,针对与遮挡部分位置相同的图像区域进行遮挡处理,可以包括:针对与遮挡部分位置相同的图像区域,将其中的像素点取值修改为预设值。
本实施例并不限定预设值,具体可以是0,也可以是遮挡部分的像素值。具体可以是针对与遮挡部分位置相同的图像区域,将其中的像素点取值修改为遮挡部分中相同位置的像素点取值。
此外,可选地,可以针对待匹配图像中的遮挡部分也进行相同的遮挡处理。
可选地,在针对主体分类模板图像中,与待匹配图像的遮挡部分位置相同的图像区域,直接删除的情况下,可以删除待匹配图像中的遮挡部分。
可选地,在针对主体分类模板图像中,与待匹配图像的遮挡部分位置相同的图像区域,将其中的像素值调整为预设固定值,例如0,的情况下,可以将待匹配图像中的遮挡部分像素值也调整相同的预设固定值,例如0。
在本实施例中,通过针对待匹配图像和主体分类模板图像中,相同位置的遮挡部分进行相同的遮挡处理,从而可以进一步提高后续计算图像特征相似度的准确性。
可选地,针对N个遮挡模板图像,分别与待匹配图像计算图像特征相似度,可以包括:针对待匹配图像中的遮挡部分,进行相同的遮挡处理;针对N个遮挡模板图像,分别与处理后的待匹配图像计算图像特征相似度。
本方法流程并不限定计算图像特征相似度的方式。
可选地,可以先提取图像特征,再计算图像特征之间的相似度。例如,可以通过MobileNetV3网络分别提取遮挡模板图像和待匹配图像的特征向量,再计算特征向量之间的相似度。
可选地,可以通过预先训练的图像匹配模型,确定遮挡模板图像和待匹配图像之间的图像特征相似度。其中,图像匹配模型可以用于针对输入的2个图像,通过提取特征,计算输出2个输入图像之间的特征相似度。
可选地,也可以利用图像模型的表征层,分别针对N个遮挡模板图像提取出N个遮挡模板图像特征,再针对待匹配图像提取出一个待匹配图像特征,之后针对N个遮挡模板图像特征,分别与待匹配图像特征,计算图像特征相似度。
本实施例并不限定针对遮挡模板图像和待匹配图像提取图像特征的方式。可选地,可以是通过模型表征层进行提取,也可以通过神经网络提取图像特征,也可以通过卷积层提取图像特征。
需要说明的是,可选地,由于主体分类模板图像可以包括至少一个图像,分别对应于不同的主体分类。
因此,可以针对每个主体分类模板图像,分别进行遮挡处理和图像特征相似度的计算。
在一种可选的实施例中,遮挡区域可以包括,手部遮挡区域;待识别主体可以包括待识别商品。具体可以是商品拿取场景,通常存在用户手部遮挡住商品,使得商品的识别准确率较低。因此,可以通过本方法流程,提高被遮挡商品的识别准确率。
五、S105:根据计算得到的N个图像特征相似度,确定待识别主体的分类。
本方法流程并不限定根据图像特征相似度,确定待识别主体的分类的方式。
可选地,一个主体分类模板图像可以表征某一分类下的主体模板。例如,在商品拿取场景中,可以设置奶茶类别模板图像、面包类别模板图像、雪糕类别模板图像和咖啡类别模板图像。
因此,可以将图像特征相似度最高的遮挡模板图像,所对应的主体分类,确定为待识别主体的分类。具体可以是遮挡模板图像所对应的主体分类模板图像,所表征的主体分类。
可选地,也可以设置一个相似度阈值。根据计算得到的N个图像特征相似度,确定待识别主体的分类,可以包括:在计算得到的N个图像特征相似度中,最高的图像特征相似度大于或等于预设相似度阈值的情况下,将最高图像特征相似度对应的主体分类模板图像所表征的主体分类,确定为待识别主体的分类。
可选地,最高图像特征相似度对应的主体分类模板图像所表征的主体分类,可以包括,最高图像特征相似度对应的遮挡模板图像,所对应的主体分类模板图像进一步表征的主体分类。
可选地,在计算得到的N个图像特征相似度中,最高的图像特征相似度小于预设相似度阈值的情况下,确定待识别主体的分类为未知分类。
需要说明的是,可选地,可以通过扩展主体分类模板图像的数量和种类,提高主体识别的准确性。
对应于上述方法实施例,本发明实施例还提供了一种装置实施例。
如图2所示,图2是根据本发明实施例示出的一种图像识别装置的结构示意图。
该装置可以包括以下单元。
获取单元201,用于获取待识别图像;
分割单元202,用于基于预先训练的语义分割网络,确定出待识别图像中的遮挡区域、背景区域和待识别主体区域;
调整单元203,用于确定包含待识别主体区域的待裁剪图像区域,并将待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像;
分类单元204,用于在预设情况下,确定所述待匹配图像中属于遮挡区域的遮挡部分,并在预设固定尺寸的N个主体分类模板图像中,分别针对与遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对N个遮挡模板图像,分别与待匹配图像计算图像特征相似度;N≥1;根据计算得到的N个图像特征相似度,确定待识别主体的分类。
可选地,预设情况包括:待匹配图像中,属于遮挡区域的遮挡部分面积占比大于或等于预设占比;
分类单元204还用于:
在待匹配图像中属于遮挡区域的遮挡部分面积占比小于预设占比的情况下,针对N个主体分类模板图像,分别与待匹配图像计算图像特征相似度。
可选地,分类单元204用于:
在计算得到的N个图像特征相似度中,最高的图像特征相似度大于或等于预设相似度阈值的情况下,将最高图像特征相似度对应的主体分类模板图像所表征的主体分类,确定为待识别主体的分类;
在计算得到的N个图像特征相似度中,最高的图像特征相似度小于预设相似度阈值的情况下,确定待识别主体的分类为未知分类。
可选地,获取单元201用于:
获取连续拍摄的多个图像帧,基于目标检测模型进行待识别主体的检测和跟踪;
在确定任一图像帧中,包含待识别主体的检测框中心点位于待识别图像区域的情况下,将任一图像帧中包含待识别主体的预设图像帧区域,确定为待识别图像。
可选地,语义分割网络的训练方法,包括:
基于已标注的第一图像数据集,训练初始语义分割网络,得到训练完成的第一语义分割网络;
循环执行以下步骤,直到满足循环停止条件:
基于未标注的第二图像数据集,利用当前版本的第一语义分割网络进行标注;
基于已标注的第二图像数据集,继续训练当前版本的第一语义分割网络,得到第二语义分割网络;
将第二语义分割网络确定为当前版本的第一语义分割网络;
其中,针对循环中每个版本的第一语义分割网络版本,基于已标注的测试图像数据集,确定每个版本的第一语义分割网络的准确率;
循环结束后,将准确率最高的第一语义分割网络,确定为训练完成的语义分割网络。
可选地,第一图像数据集的构建方法,包括:
基于获取的主体图像、遮挡图像和背景图像,将背景图像确定为底层、将主体图像确定为中层、将遮挡图像确定为顶层,合成一张第一图像;
在第一图像中,将属于背景图像的区域标注为背景区域,将属于遮挡图像的区域标注为遮挡区域,将属于主体图像的区域标注为主体区域;
将标注后的第一图像,添加到第一图像数据集中。
可选地,调整单元203用于:
确定包含待识别主体区域的最小外接矩形。
可选地,分类单元204用于:
针对与遮挡部分位置相同的图像区域,将其中的像素点取值修改为预设值。
可选地,分类单元204用于:针对待匹配图像中的遮挡部分,进行遮挡处理;针对N个遮挡模板图像,分别与处理后的待匹配图像计算图像特征相似度。
可选地,遮挡区域包括,手部遮挡区域;待识别主体包括,待识别商品。
具体的解释可以参见上述方法实施例。
本发明实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现上述任一方法实施例。
本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一方法实施例。
图3是根据本发明实施例示出的一种配置本发明实施例方法的计算机设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明实施例方案所必需的组件,而不必包含图中所示的全部组件。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一方法实施例。
本发明实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序在由处理器执行时实现上述任一方法实施例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案本质上或者说做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本发明实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明实施例的保护。
在本发明中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (13)

1.一种图像识别方法,其特征在于,包括:
获取待识别图像;
基于预先训练的语义分割网络,确定出所述待识别图像中的遮挡区域、背景区域和待识别主体区域;
确定包含所述待识别主体区域的待裁剪图像区域,并将所述待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像;
在预设情况下,确定所述待匹配图像中属于所述遮挡区域的遮挡部分,并在所述预设固定尺寸的N个主体分类模板图像中,分别针对与所述遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度;N≥1;
根据计算得到的N个图像特征相似度,确定所述待识别主体的分类。
2.根据权利要求1所述的方法,其特征在于,所述预设情况包括:所述待匹配图像中,属于所述遮挡区域的遮挡部分面积占比大于或等于预设占比;
所述方法还包括:
在所述待匹配图像中属于所述遮挡区域的遮挡部分面积占比小于预设占比的情况下,针对所述N个主体分类模板图像,分别与所述待匹配图像计算图像特征相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据计算得到的N个图像特征相似度,确定所述待识别主体的分类,包括:
在计算得到的N个图像特征相似度中,最高的图像特征相似度大于或等于预设相似度阈值的情况下,将最高图像特征相似度对应的主体分类模板图像所表征的主体分类,确定为所述待识别主体的分类;
在计算得到的N个图像特征相似度中,最高的图像特征相似度小于所述预设相似度阈值的情况下,确定所述待识别主体的分类为未知分类。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别图像,包括:
获取连续拍摄的多个图像帧,基于目标检测模型进行所述待识别主体的检测和跟踪;
在确定任一图像帧中,包含所述待识别主体的检测框中心点位于待识别图像区域的情况下,将所述任一图像帧中包含所述待识别主体的预设图像帧区域,确定为待识别图像。
5.根据权利要求1所述的方法,其特征在于,所述语义分割网络的训练方法,包括:
基于已标注的第一图像数据集,训练初始语义分割网络,得到训练完成的第一语义分割网络;
循环执行以下步骤,直到满足循环停止条件:
基于未标注的第二图像数据集,利用当前版本的第一语义分割网络进行标注;
基于已标注的第二图像数据集,继续训练当前版本的第一语义分割网络,得到第二语义分割网络;
将所述第二语义分割网络确定为当前版本的第一语义分割网络;
其中,针对循环中每个版本的第一语义分割网络版本,基于已标注的测试图像数据集,确定每个版本的第一语义分割网络的准确率;
循环结束后,将准确率最高的第一语义分割网络,确定为训练完成的语义分割网络。
6.根据权利要求5所述的方法,其特征在于,所述第一图像数据集的构建方法,包括:
基于获取的主体图像、遮挡图像和背景图像,将所述背景图像确定为底层、将所述主体图像确定为中层、将所述遮挡图像确定为顶层,合成一张第一图像;
在所述第一图像中,将属于所述背景图像的区域标注为背景区域,将属于所述遮挡图像的区域标注为遮挡区域,将属于所述主体图像的区域标注为主体区域;
将标注后的第一图像,添加到第一图像数据集中。
7.根据权利要求1所述的方法,其特征在于,所述确定包含所述待识别主体区域的待裁剪图像区域,包括:
确定包含所述待识别主体区域的最小外接矩形。
8.根据权利要求1所述的方法,其特征在于,所述针对与所述遮挡部分位置相同的图像区域进行遮挡处理,包括:
针对与所述遮挡部分位置相同的图像区域,将其中的像素点取值修改为预设值。
9.根据权利要求1所述的方法,其特征在于,所述针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度,包括:
针对所述待匹配图像中的所述遮挡部分,进行所述遮挡处理;
针对所述N个遮挡模板图像,分别与处理后的待匹配图像计算图像特征相似度。
10.根据权利要求1所述的方法,其特征在于,所述遮挡区域包括,手部遮挡区域;所述待识别主体包括,待识别商品。
11.一种图像识别装置,其特征在于,包括:
获取单元,用于获取待识别图像;
分割单元,用于基于预先训练的语义分割网络,确定出所述待识别图像中的遮挡区域、背景区域和待识别主体区域;
调整单元,用于确定包含所述待识别主体区域的待裁剪图像区域,并将所述待裁剪图像区域的尺寸调整为预设固定尺寸,得到待匹配图像;
分类单元,用于在预设情况下,确定所述待匹配图像中属于所述遮挡区域的遮挡部分,并在所述预设固定尺寸的N个主体分类模板图像中,分别针对与所述遮挡部分位置相同的图像区域进行遮挡处理,得到N个遮挡模板图像;针对所述N个遮挡模板图像,分别与所述待匹配图像计算图像特征相似度;N≥1;根据计算得到的N个图像特征相似度,确定所述待识别主体的分类。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至10中任一项所述方法。
13.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序在由处理器执行时实现权利要求1至10中任一项所述方法。
CN202211216308.0A 2022-09-30 2022-09-30 一种图像识别方法、装置、设备及存储介质 Pending CN115620005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211216308.0A CN115620005A (zh) 2022-09-30 2022-09-30 一种图像识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211216308.0A CN115620005A (zh) 2022-09-30 2022-09-30 一种图像识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115620005A true CN115620005A (zh) 2023-01-17

Family

ID=84860596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211216308.0A Pending CN115620005A (zh) 2022-09-30 2022-09-30 一种图像识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115620005A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035955A (zh) * 2024-02-23 2024-05-14 深圳兴科华创信息技术有限公司 影像数据的管理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035955A (zh) * 2024-02-23 2024-05-14 深圳兴科华创信息技术有限公司 影像数据的管理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107358149B (zh) 一种人体姿态检测方法和装置
CN103514432B (zh) 人脸特征提取方法、设备和计算机程序产品
US20200175062A1 (en) Image retrieval method and apparatus, and electronic device
CN110428399B (zh) 用于检测图像的方法、装置、设备和存储介质
CN111079699A (zh) 商品识别方法及装置
US9626577B1 (en) Image selection and recognition processing from a video feed
TW201447775A (zh) 資訊識別方法、設備和系統
CN109711241B (zh) 物体检测方法、装置与电子设备
CN110660102B (zh) 基于人工智能的说话人识别方法及装置、系统
CN112333356B (zh) 一种证件图像采集方法、装置和设备
CN109977824B (zh) 物品取放识别方法、装置及设备
CN108229289B (zh) 目标检索方法、装置和电子设备
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
WO2022105027A1 (zh) 图像识别方法、系统、电子设备及存储介质
CN112818933A (zh) 目标对象的识别处理方法、装置、设备及介质
CN114782494A (zh) 一种动态目标分析方法、装置、设备及存储介质
CN111753775B (zh) 鱼的生长评估方法、装置、设备及存储介质
CN115620005A (zh) 一种图像识别方法、装置、设备及存储介质
CN112257506A (zh) 果蔬大小识别方法、装置、电子设备以及计算机可读介质
CN111310531A (zh) 图像分类方法、装置、计算机设备及存储介质
CN113470065B (zh) 移动物体检测和跟踪方法以及装置
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
CN110348353B (zh) 一种图像处理方法及装置
CN115908831B (zh) 一种图像检测方法及装置
CN109726621A (zh) 行人检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination