CN115170791A - 目标对象的识别方法、装置及售货设备 - Google Patents

目标对象的识别方法、装置及售货设备 Download PDF

Info

Publication number
CN115170791A
CN115170791A CN202210885986.XA CN202210885986A CN115170791A CN 115170791 A CN115170791 A CN 115170791A CN 202210885986 A CN202210885986 A CN 202210885986A CN 115170791 A CN115170791 A CN 115170791A
Authority
CN
China
Prior art keywords
image
target object
detection frame
target
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210885986.XA
Other languages
English (en)
Inventor
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202210885986.XA priority Critical patent/CN115170791A/zh
Publication of CN115170791A publication Critical patent/CN115170791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标对象的识别方法、装置及售货设备,涉及图像处理技术领域。售货设备能够获取拍摄图像,并能够基于拍摄图像识别得到的目标对象的属性信息。由于无需将目标对象的条形码对准自动结算设备的图像采集组件,以供自动结算设备扫描从而识别商品的属性信息,因此一方面提高了属性信息的获取效率,另一方面可以简化用户的操作,提升了用户体验。并且,由于售货设备在拍摄图像中确定出的检测框的轴线平行于目标对象的轴线,因此可以确保获取到的目标子图像中的无效背景信息较少。由此,可以进一步提高属性信息的获取效率,且可以提高属性信息的识别准确性。

Description

目标对象的识别方法、装置及售货设备
技术领域
本申请涉及图像处理技术领域,特别涉及一种目标对象的识别方法、装置及售货设备。
背景技术
用户在购物过程中,可以将所需购买的商品的条形码对准自动结算设备的图像采集组件。该自动结算设备扫描进而可以扫描到该条形码,并识别商品的属性信息(例如价格)。之后,自动结算设备可以基于识别到的属性信息显示支付码,以供用户的移动终端扫描并支付。
但是,上述识别商品的属性信息的方法的效率较低。
发明内容
本申请提供了一种目标对象的识别方法、装置及售货设备,可以解决相关技术中识别商品的属性信息的方法的效率较低的问题。所述技术方案如下:
一方面,提供了一种目标对象的识别方法,应用于售货设备,所述售货设备包括摄像头;所述方法包括:
获取所述摄像头拍摄到的拍摄图像;
在所述拍摄图像中确定包括目标对象的检测框,所述检测框的至少一边平行于所述目标对象的轴线;
获取所述检测框内的目标子图像;
基于所述目标子图像识别所述目标对象的属性信息。
另一方面,提供了一种目标对象的识别装置,配置在售货设备中,所述售货设备包括摄像头;所述装置包括:
第一获取模块,用于获取所述摄像头拍摄到的拍摄图像;
确定模块,用于在所述拍摄图像中确定包括目标对象的检测框,所述检测框的至少一边平行于所述目标对象的轴线;
第二获取模块,用于获取所述检测框内的目标子图像;
识别模块,用于基于所述目标子图像识别所述目标对象的属性信息。
又一方面,提供了一种售货设备,所述售货设备包括:摄像头,处理器和存储器,所述存储器中存储有指令,所述指令由所述处理器加载并执行以实现如上述方面所述的目标对象的识别方法。
再一方面,提供了一种计算机可读存储介质,所述存储介质中存储有指令,所述指令由处理器加载并执行以实现如上述方面所述的目标对象的识别方法。
再一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述指令由处理器加载并执行以实现如上述方面所述的目标对象的识别方法。
本申请提供的技术方案带来的有益效果至少包括:
本申请提供了一种目标对象的识别方法、装置及售货设备,该售货设备能够获取拍摄图像,并能够基于拍摄图像识别得到的目标对象的属性信息。由于无需将目标对象的条形码对准自动结算设备的图像采集组件,以供自动结算设备扫描从而识别商品的属性信息,因此一方面提高了属性信息的获取效率,另一方面可以简化用户的操作,提升了用户体验。
并且,由于售货设备在拍摄图像中确定出的检测框的轴线平行于目标对象的轴线,因此可以确保获取到的目标子图像中的无效背景信息较少。由此,可以进一步提高属性信息的获取效率,且可以提高属性信息的识别准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种目标对象的识别方法的流程图;
图2是本申请实施例提供的另一种目标对象的识别方法的流程图;
图3是本申请实施例提供的一种基于第一图像得到第二图像的示意图;
图4是本申请实施例提供的一种基于第一图像得到第四图像和第五图像的示意图;
图5是本申请实施例提供的一种获取第一图像的示意图;
图6是相关技术中的一种矩形检测框的示意图;
图7是本申请实施例提供的一种矩形检测框的示意图;
图8是本申请实施例提供的一种第一坐标系和第二坐标系的示意图;
图9是本申请实施例提供的一种目标对象的识别装置的结构示意图;
图10是本申请实施例提供的另一种目标对象的识别装置的结构示意图;
图11是本申请实施例提供的一种售货设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供了一种目标对象的识别方法,该方法应用于售货设备(例如无人售货设备),该售货设备包括摄像头。可选的,该售货设备可以为冰箱或饮料柜等等。参见图1,该方法包括:
步骤101、获取摄像头拍摄到的拍摄图像。
在本申请实施例中,售货设备包括设备本体,以及与该设备本体连接的门体。售货设备可以在检测到门体处于打开状态后,控制摄像头拍摄图像。相应的,售货设备可以获取该摄像头拍摄到的拍摄图像。
或者,售货设备的设备本体呈槽状,售货设备还可以包括:设置在设备本体内的货架。该货架用于放置对象(例如商品)。在售货设备的使用过程中,若售货设备检测到施加在货架上的压力减小,则可以控制摄像头拍摄图像。相应的,售货设备可以获取该摄像头拍摄到的拍摄图像。
步骤102、在拍摄图像中确定包括目标对象的检测框。
其中,该检测框的轴线平行于目标对象的轴线。该检测框可以为轴对称图形,且该检测框的轴线可以为沿该检测框的长度方向延伸的轴线。可选的,该检测框可以为矩形检测框,或椭圆形检测框等。若该检测框为矩形检测框,则该长度方向是指该检测框的长边的延伸方向,若该检测框为椭圆形检测框,则该长度方向是指该检测框的最小外接矩形的长边的延伸方向。
若目标对象是轴对称的物体,则目标对象的轴线为沿该目标对象的长度方向(也可以称为高度方向)延伸的对称轴。若目标对象不是轴对称的物体,则目标对象的轴线可以为过该目标对象的中心点,且沿该目标对象的长度方向延伸的直线。其中,该目标对象的长度方向可以平行于该目标对象的最小外接矩形的长边的延伸方向。
可以理解的是,检测框的轴线平行于目标对象的轴线是指:检测框的轴线大致平行于目标对象的轴线。也即是,检测框的轴线与目标对象的轴线之间的夹角小于夹角阈值时,即可认为检测框的轴线平行于目标对象的轴线。该夹角阈值可以是售货设备预先存储的。例如,可以为5°。
步骤103、获取检测框内的目标子图像。
在本申请实施例中,售货设备可以直接按照检测框裁剪拍摄图像,从而得到检测框内的目标子图像。或者,检测框为矩形检测框。售货设备可以先确定拍摄图像所在的第一坐标系与第二坐标系之间的转换关系。之后,售货设备可以基于该转换关系,将该检测框内的像素转换至第二坐标系中,从而得到目标子图像。
其中,第一坐标系的两个坐标轴分别平行于矩形检测框的两条边(例如相互垂直的两条边),第二坐标系的两个坐标轴分别平行于拍摄图像的像素行方向和像素列方向。目标子图像的两条边分别平行于第二坐标系的两个坐标轴。
步骤104、基于目标子图像识别目标对象的属性信息。
在本申请实施例中,售货设备中预先存储有对象识别模型。售货设备可以将该目标子图像输入至对象识别模型中,以得到对象识别模型输出的目标对象的属性信息。
综上所述,本申请实施例提供了一种目标对象的识别方法,售货设备能够获取拍摄图像,并能够基于拍摄图像识别得到的目标对象的属性信息。由于无需将目标对象的条形码对准自动结算设备的图像采集组件,以供自动结算设备扫描从而识别商品的属性信息,因此一方面提高了属性信息的获取效率,另一方面可以简化用户的操作,提升了用户体验。
并且,由于售货设备在拍摄图像中确定出的检测框的轴线平行于目标对象的轴线,因此可以确保获取到的目标子图像中的无效背景信息较少。由此,可以进一步提高属性信息的获取效率,且可以提高属性信息的识别准确性。
本申请实施例以检测框为矩形检测框为例,对本申请实施例提供的目标对象的识别方法进行示例性的说明。该方法可以应用于售货设备,该售货设备包括摄像头。参见图2,该方法可以包括:
步骤201、获取多个样本数据。
其中,每个样本数据包括:目标对象的样本图像和样本信息。该样本信息用于指示目标对象的属性。目标对象的属性可以包括目标对象的价格。
在本申请实施例中,多个样本数据中的样本图像可以包括:从不同拍摄角度拍摄目标对象所得到的第一图像。进一步,多个样本数据中的样本图像还可以包括:多个第二图像。每个第二图像可以是在一个第一图像中添加目标物的第三图像所得到的。该目标物可以为用于拿取目标对象的物体,例如可以为人体的手部。如此,可以确保获取到样本数据的数量较多,且可以确保获取到的样本数据的多样性较高,从而可以确保训练得到的目标识别模型的可靠性较高。其中,每个第一图像和每个第二图像均为一个样本数据中的样本图像。
对于多个样本数据中的样本图像包括:多个第一图像和多个第二图像的实现方式,售货设备获取多个样本数据中的样本图像的过程可以包括:
售货设备获取从不同的拍摄角度对目标对象进行拍摄得到的多个第一图像。然后,对于每个第一图像,售货设备在该第一图像中添加目标物的第三图像,得到第二图像,从而得到多个样本数据中的样本图像。其中,第三图像可以覆盖目标对象的部分子图像,该第三图像在第一图像中的位置可以是随机的。
可以理解的是,多个样本数据中的样本图像还可以包括:多个第四图像和多个第五图像。每个第四图像的背景图像与每个第一图像的背景图像不同,每个第五图像的背景图像与每个第二图像的背景图像不同。如此,可以进一步确保获取到的样本数据的数量较多,且多样性较高。
例如,对于每个第一图像,售货设备还可以更新该第一图像中的背景图像,以得到一个第四图像。进一步,售货设备的可以在该第四图像中增加目标物的第三图像,以得到第五图像。
示例的,参见图3,对于每个第一图像A,售货设备可以在该第一图像A中添加目标物的第三图像a,从而得到一个第二图像B。并且,参见图4,售货设备可以对该第一图像A进行图像分割处理,以从第一图像A中提取出目标对象的子图像b,并将该子图像b添加至第一背景图像上,从而得到第四图像C。该第一背景图像与第一图像A中的第二背景图像不同。进一步,售货设备可以在该第四图像C中添加目标物的第三图像a,从而得到第五图像D。从图3可以看出,该目标物为人体的手部图像。
可选的,该多个第一图像可以是图像采集设备采集的。例如,参见图5,目标对象01可以位于旋转台02(也可以称为云台)上,图像采集设备可以相对于旋转台固定设置。之后,旋转台可以旋转,相应的,处于图像采集设备的采集范围内的目标对象的正视图即可会发生变化,从而使得图像采集设备即可从不同的拍摄角度拍摄目标对象,从而得到多个第一对象。
根据上述描述可知,售货设备通过对多个第一图像进行处理,即可得到数据增强的数据集。该数据增强的数据集可以包括:多个第一图像、多个第二图像、多个第四图像和多个第五图像。
可以理解的是,多个样本数据中的样本图像还可以包括:样本售货设备在使用过程中通过摄像头所采集到的图像。如此,可以进一步确保训练得到的对象识别模型的可靠性,继而可以确保识别得到的目标对象的属性信息的准确性较高。
步骤202、对多个样本数据进行模型训练,得到对象识别模型。
售货设备得到多个样本数据后,即可对该多个样本数据进行模型训练,得到对象识别模型。
步骤203、获取摄像头拍摄到的拍摄图像。
在本申请实施例中,售货设备包括设备本体,以及与该设备本体连接的门体。售货设备可以在检测到门体处于打开状态后,控制摄像头拍摄图像。相应的,售货设备可以获取该摄像头拍摄到的拍摄图像。
或者,售货设备的设备本体呈槽状,售货设备还包括:设置在设备本体内的货架。该货架用于放置对象。在售货设备的使用过程中,若售货设备检测到施加在货架上的压力减小,则可以控制摄像头拍摄图像。相应的,售货设备可以获取该摄像头拍摄到的拍摄图像。
步骤204、在拍摄图像中确定包括目标对象的矩形检测框。
其中,矩形检测框的轴线平行于目标对象的轴线。该矩形检测框的轴线的延伸方向平行于该矩形检测框的长边的延伸方向。
若目标对象是轴对称的物体,则目标对象的轴线为沿该目标对象的长度方向延伸的对称轴。若目标对象不是轴对称的物体,则目标对象的轴线可以为过该目标对象的中心点,且沿该目标对象的长度方向延伸的直线。其中,该目标对象的长度方向可以平行于该目标对象的最小外接矩形的长边的延伸方向。相应的,该矩形检测框可以为目标对象的最小外接矩形。
可以理解的是,矩形检测框的轴线平行于目标对象的轴线是指:矩形检测框的轴线大致平行于目标对象的轴线。也即是,矩形检测框的轴线与目标对象的轴线之间的夹角小于夹角阈值时,即可认为矩形检测框的轴线平行于目标对象的轴线。该夹角阈值可以是售货设备预先存储的。例如,可以为5°。
由于售货设备在拍摄图像中确定出的矩形检测框的轴线平行于目标对象的轴线,因此可以确保获取到的目标子图像中的无效背景信息较少。由此,可以降低售货设备的计算复杂度,从而提高目标对象的属性信息的获取效率,并且可以有效减少背景信息对识别的影响,从而可以提高该属性信息的识别准确性。
在本申请实施例中,售货设备可以将拍摄图像输入至目标检测模型,得到目标检测模型输出的检测结果。该检测结果可以用于指示检测框在拍摄图像中的位置。
例如,该检测结果可以包括:矩形检测框的四个顶点中每个顶点在拍摄图像中的位置。或者,该检测结果可以包括:矩形检测框的中心点在拍摄图像中的位置,矩形检测框的每条边的长度,以及矩形检测框的一边与拍摄图像的像素行方向或像素列方向之间的夹角。
其中,四个顶点和中心点中的每个点在拍摄图像中的位置可以是指:每个点在拍摄图像所在的图像坐标系中的坐标。该图像坐标系可以是指:以拍摄图像的某一顶点(例如左上顶点)为原点,以拍摄图像的像素行方向为第一坐标轴的延伸方向,以拍摄图像的像素列方向为第二坐标轴的延伸方向所建立的坐标系。其中,第一坐标轴可以为横轴和纵轴中的一个坐标轴,第二坐标轴可以为横轴和纵轴中的另一个坐标轴。例如,第一坐标轴为横轴,第二坐标轴为纵轴。
在本申请实施例中,目标检测模型可以是售货设备预先基于多个参考数据训练得到的。每个参考数据可以包括:一个参考图像,以及该参考图像中的目标对象的子图像。可选的,目标检测模型可以是采用你只看一次(you only look once,YOLO)网络训练得到的。例如,可以采用YOLO的第5版本(version)网络,即YOLOV5网络训练得到。
其中,YOLO算法是一种用于实现目标检测的卷积神经网络。该卷积神经网络具有强大的学习能力,高效的特征表达能力,且该卷积神经网络在图像分割、目标检测、对象识别和目标跟踪等计算机视觉任务中具有巨大优势。
示例的,图6是相关技术中一种参考图像中的检测框的示意图。图7是本申请实施例提供的参考图像中的矩形检测框的示意图。对比图6和图7可以看出,图6中的检测框03的轴线c均与目标对象00的轴线d不平行,而图7中的检测框04的轴线e与目标对象00的轴线d平行。
并且,图6中的检测框03内的子图像所包括的背景图像的面积,相较于图7中的检测框04内的子图像所包括的背景图像的面积大。即图6中的检测框03内的子图像所包括的无效背景信息,较图7中的检测框04的子图像所包括的无效背景信息多。
步骤205、获取矩形检测框内的目标子图像。
其中,目标子图像的两条边分别平行于拍摄图像的像素行方向和像素列方向。该目标子图像的两条边互相垂直。
在本申请实施例中,售货设备获取矩形检测框内的目标子图像的方式可以有多种,本申请实施例以下述三种可选的实现方式为例,对售货设备获取矩形检测框内的目标子图像的过程进行示例性的说明。
在第一种可选的实现方式中,售货设备可以直接基于矩形检测框裁剪拍摄对象,以得到目标子图像。例如,售货设备可以确定矩形检测框的最小外接矩形,并以该最小外接矩形的边界为边界线裁剪拍摄图像,以得到目标图像,该目标图像包括目标子图像。
在第二种可选的实现方式中,售货设备可以基于矩形检测框的各个顶点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵。然后,售货设备即可基于第一透视变换矩阵,以及各个顶点在拍摄图像中的位置,从拍摄图像中确定目标子图像。
其中,参见图8,第一坐标系(X1O1Y1)的两个坐标轴分别平行于矩形检测框的相互垂直的两条边,第二坐标系(X1O1Y1)的两个坐标轴分别平行于拍摄图像的像素行方向和像素列方向。
在本申请实施例中,售货设备可以基于矩形检测框的各个顶点在拍摄图像中的位置,以及第一坐标系与拍摄图像所在的图像坐标系之间的转换关系,确定该矩形检测框的各个顶点在第一坐标系中的位置。之后,售货设备可以基于该各个顶点在第一坐标系中的位置,以及该各个顶点在第二坐标系中的位置,以得到第一透视变换矩阵。
其中,各个顶点在第二坐标系中的位置可以是售货设备预先基于矩形检测框(即目标子图像)的尺寸确定。矩形检测框的尺寸可以是售货设备基于该矩形检测框的各个顶点在拍摄图像中的位置确定的。
例如,参见图8,矩形检测框04的四个顶点依次为S1至S4。矩形检测框的一边的长度为顶点S1与顶点S2之间的距离d1,矩形检测框的另一边的长度为顶点S1与顶点S4之间的距离d2。该一边与该另一边相互垂直。由此可以确定,售货设备可以确定该四个顶点在第二坐标系中的位置依次为:(0,0)、(d1,0)、(d1,d2)和(0,d2)。
可以理解的是,售货设备可以通过调用开源计算机视觉数据库(open sourcecomputervision library,OpenCV)中的函数“getPerspectiveTransform()”,并将目标子图像的各个顶点在拍摄图像中的位置,以及该各个顶点在第二坐标系中的位置作为该函数“getPerspectiveTransform()”的输入参数,以得到该函数“getPerspectiveTransform()”输出的第一透视变换矩阵。
且售货设备可以调用OpenCV中的函数“warpAffiine()”,并将第一透视变换矩阵,各个顶点在拍摄图像中的位置,以及拍摄图像作为该函数“warpAffiine()”的输入参数,以得到该函数“warpAffiine()”输出的目标子图像。
可以理解的是,售货设备获取到矩形检测框在拍摄图像中的位置后,可以检测矩形检测框的每条边是否与拍摄图像的像素行方向平行。若售货设备确定矩形检测框的任一边与该像素行方向均不平行,则可以基于矩形检测框的各个顶点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵,继而基于该第一透视变换矩阵从拍摄图像中获取目标子图像。如此,可以节省售货设备的处理资源。
若售货设备确定矩形检测框的两条边与拍摄图像的像素行方向平行,则可以直接提取出矩形检测框内的目标子图像。
在第三种可选的实现方式中,售货设备可以获取矩形检测框的一边与拍摄图像的像素行方向或像素列方向之间的夹角。例如,售货设备可以获取矩形检测框的平行于目标对象的轴线的一边与拍摄图像的像素行方向之间的夹角。
然后,售货设备可以基于该夹角,以及矩形检测框的中心点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵,继而基于该第二透视变换矩阵,矩形检测框的尺寸,以及矩形检测框的中心点在拍摄图像中的位置,从拍摄图像中确定目标子图像。
其中,矩形检测框的尺寸包括相互垂直的两条边的长度。第一坐标系的两个坐标轴分别平行于矩形检测框的两条边,第二坐标系的两个坐标轴分别平行于拍摄图像的像素行方向和像素列方向。且第二坐标系是将第一坐标系以第一坐标的坐标原点为旋转中心旋转得到的。即该第一坐标系的坐标原点与第二坐标系的坐标原点相同。可选的,该坐标原点可以为矩形检测框的中心点。
在本申请实施例中,售货设备可以先基于第二透视变换矩阵,将拍摄图像映射至第二坐标系中。然后,售货设备可以调用OpenCV中的函数“getRectSubPix()”,并将矩形检测框的尺寸,中心点在拍摄图像中的位置,以及拍摄图像作为该函数“getRectSubPix()”的输入参数,以得到该函数输出的目标子图像。
例如,售货设备可以执行指令getRectSubPix(image,size(image.clos/2,imaage.rows/2),Point2fcenter,Output dst,intpatchType=-1)以得到矩形检测框内的目标子图像。其中,image为拍摄图像,image.clos/2为拍摄图像的宽度,imaage.rows/2为拍摄图像的高度,Point2fcenter为矩形检测框的中心点在拍摄图像中的位置。Outputdst为输出的图像,intpatchType=-1表示输出的图像的深度,该深度默认-1。
在本申请实施例中,售货设备获取到矩形检测框的一边与拍摄图像的像素行方向或像素列方向之间的夹角后,可以比较该夹角与目标数值的大小。若售货设备确定该夹角小于等于目标数值,则可以直接根据该夹角和矩形检测框的中心点在拍摄图像中的位置,确定第二透视变换矩阵。其中,该目标数值可以是售货设备预先存储的,例如该目标数值可以为45度(°)。
若售货设备确定该夹角大于目标数值,则可以先确定该夹角减去目标数值后所得到的差值。之后,售货设备可以基于该差值和矩形检测框的中心点在拍摄图像中的位置,确定第二透视变换矩阵。
可以理解的是,矩形检测框为长方形检测框。对于矩形检测框的一边与拍摄图像的像素行方向或像素列方向之间的夹角大于目标数值的情况,售货设备调用OpenCV中的函数“getRectSubPix()”以获取目标子图像时,需要将矩形检测框的宽度和高度互换。如此,可以确保获取到的目标子图像的完整性。
可选的,售货设备获取到矩形检测框的一边与像素行或像素列的夹角后,可以比较该夹角与角度阈值的大小。若售货设备确定该夹角大于角度阈值,可以基于该夹角,以及矩形检测框的中心点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵。如此,可以节省售货设备的处理资源。其中,该角度阈值可以是售货设备预先存储的。例如,该角度阈值可以为0°。
可以理解的是,若售货设备通过步骤204得到目标检测模型输出的检测结果包括矩形检测框的四个顶点中每个顶点在拍摄图像中的位置,则采用第二种可选实现方式从拍摄图像中获取目标子图像。
若售货设备通过步骤204得到目标检测模型输出的检测结果包括:矩形检测框的中心点在拍摄图像中的位置,矩形检测框的每条边的长度,以及矩形检测框的一边与拍摄图像的像素行方向或像素列方向之间的夹角,则采用第三种可选实现方式从拍摄图像中获取目标子图像。
步骤206、将目标子图像输入至对象识别模型,得到该对象识别模型输出的目标对象的属性信息。
在本申请实施例中,售货设备可以将目标子图像输入至通过步骤201和步骤202训练得到的对象识别模型,得到该对象识别模型输出的目标对象的属性信息。其中,该属性信息可以包括目标对象的价格信息,以及目标对象的标识。该价格信息用于指示目标对象的价格。该标识可以包括:目标对象的编码。例如,该标识可以包括:目标对象的编码和名称。
可以理解的是,该对象识别模型可以先滤除目标子图像中的背景信息,再基于滤除背景信息后的目标子图像,识别得到目标对象的属性信息。如此,可以提高目标对象的属性信息的识别效率和准确性。
可选的,对象识别模型可以对目标子图像进行图像分割处理,以滤除目标子图像中的背景信息。
在本申请实施例中,目标对象的属性信息包括目标对象的价格信息。售货设备识别得到目标对象的属性信息后,可以基于目标对象的价格信息,生成支付码。该支付码可以供移动终端扫描,以进行支付。
可选的,该支付码可以为支付二维码。
相关技术中,用户在购物时,需要到收银处由收银员采用结算设备扫描商品的条形码,或者到自动结算设备处,将商品的条形码对准自动结算设备的图像采集组件,以使结算设备识别得到商品的属性信息(例如价格)。然后,结算设备即可基于识别到的该属性信息显示支付码,以供用户采用移动终端支付。但是,这种识别商品的属性信息的效率较低,且用户体验较差。
为了提高商品的属性信息的识别效率,相关技术中可以在商品上设置射频识别(radio frequency identification,RFID)标签,以供结算设备基于该RFID标签识别商品的属性信息。但是,这种识别商品的属性信息的方式的成本较高。
而采用本申请实施例提供的方法,售货设备能够获取拍摄图像,并能够基于拍摄图像识别得到的目标对象的属性信息。由于无需将目标对象的条形码对准结算设备的图像采集组件,以供结算设备扫描从而识别商品的属性信息,因此一方面提高了属性信息的获取效率,另一方面可以简化用户的操作,提升了用户体验。并且,由于无需为目标对象设置RFID标签,因此可以降低识别目标对象的属性信息的成本。
可以理解的是,本申请实施例提供的目标对象的识别方法的步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。例如,上述步骤201和步骤202可以根据情况删除。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
综上所述,本申请实施例提供了一种目标对象的识别方法,售货设备能够获取拍摄图像,并能够基于拍摄图像识别得到的目标对象的属性信息。由于无需将目标对象的条形码对准自动结算设备的图像采集组件,以供自动结算设备扫描从而识别商品的属性信息,因此一方面提高了属性信息的获取效率,另一方面可以简化用户的操作,提升了用户体验。
并且,由于售货设备在拍摄图像中确定出的检测框的轴线平行于目标对象的轴线,因此可以确保获取到的目标子图像中的无效背景信息较少。由此,可以进一步提高属性信息的获取效率,且可以提高属性信息的识别准确性。
本申请实施例提供了一种目标对象的识别装置,该装置配置在售货设备中。该售货设备包括摄像头。参见图9,该装置300可以包括:
第一获取模块301,用于获取摄像头拍摄到的拍摄图像。
确定模块302,用于在拍摄图像中确定包括目标对象的检测框,该检测框的轴线平行于目标对象的轴线。
第二获取模块303,用于获取检测框内的目标子图像。
识别模块304,用于基于目标子图像识别目标对象的属性信息。
可选的,该确定模块302可以用于:
将拍摄图像输入至目标检测模型,得到目标检测模型输出的检测结果,检测结果用于指示检测框在拍摄图像中的位置。
可选的,检测框为矩形检测框。该第二获取模块303可以用于:
基于检测框的各个顶点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵,其中,第一坐标系的两个坐标轴分别平行于检测框的两条边,第二坐标系的两个坐标轴分别平行于拍摄图像的像素行方向和像素列方向;
基于第一透视变换矩阵,以及各个顶点在拍摄图像中的位置,从拍摄图像中确定目标子图像,目标子图像的两条边分别平行于拍摄图像的像素行方向和像素列方向。
可选的,该第二获取模块303可以用于:
若检测框的任一边与拍摄图像的像素行方向均不平行,则基于检测框的各个顶点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵。
可选的,检测框为矩形检测框。该第二获取模块303可以用于:
获取检测框的一边与拍摄图像的像素行方向或像素列方向之间的夹角;
基于夹角,以及检测框的中心点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵,其中,第一坐标系的两个坐标轴分别平行于检测框的两条边,第二坐标系的两个坐标轴分别平行于拍摄图像的像素行方向和像素列方向;
基于第二透视变换矩阵,检测框的尺寸,以及中心点在拍摄图像中的位置,从拍摄图像中确定目标子图像,目标子图像的两条边分别平行于拍摄图像的像素行方向和像素列方向。
可选的,该第二获取模块303可以用于:
若夹角大于角度阈值,则基于夹角,以及检测框的中心点在拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵。
可选的,该识别模块304可以用于:滤除目标子图像中的背景信息;基于滤除背景信息后的目标子图像,识别目标对象的属性信息。
可选的,该识别模块304可以用于:
将目标子图像输入至对象识别模型,得到目标对象的属性信息。
图10是本申请实施例提供的另一种目标对象的识别装置的结构示意图。参见图10,该装置300还包括:
第三获取模块305,用于获取多个样本数据,每个样本数据包括:目标对象的样本图像和样本信息,样本信息用于指示目标对象的属性。
训练模块306,对多个样本数据进行模型训练,得到对象识别模型。
可选的,第三获取模块305可以用于:
获取从不同的拍摄角度对目标对象进行拍摄得到的多个第一图像;
对于每个第一图像,在第一图像中添加目标物的第三图像,得到第二图像,目标物为用于拿取目标对象的物体;
每个第一图像和每个第二图像均为一个样本图像。
可选的,目标对象的属性信息包括目标对象的价格信息。请继续参见图10,该装置300还可以包括:
生成模块307,用于基于目标对象的价格信息,生成支付码,支付码用于供移动终端扫描。
综上所述,本申请实施例提供了一种目标对象的识别装置,该装置能够获取拍摄图像,并能够基于拍摄图像识别得到的目标对象的属性信息。由于无需将目标对象的条形码对准自动结算设备的图像采集组件,以供自动结算设备扫描从而识别商品的属性信息,因此一方面提高了属性信息的获取效率,另一方面可以简化用户的操作,提升了用户体验。
并且,由于售货设备在拍摄图像中确定出的检测框的轴线平行于目标对象的轴线,因此可以确保获取到的目标子图像中的无效背景信息较少。由此,可以进一步提高属性信息的获取效率,且可以提高属性信息的识别准确性。
可以理解的是,上述实施例提供的目标对象的识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
本申请实施例还提供了一种售货设备,该售货设备可以包括上述实施例提供的目标对象的识别装置。
如图11所示,该售货设备可以包括摄像头401,处理器402和存储器403,该存储器403中存储有指令,该指令由处理器402加载并执行以实现上述方法实施例提供的目标对象的识别方法。
本申请的实施例还提供了一种计算机可读存储介质,该存储介质中存储有指令,指令由处理器加载并执行以实现上述方法实施例提供的目标对象的识别方法,例如图1或图2所示的方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,由处理器加载并执行以实现上述方法实施例提供的目标对象的识别方法,例如图1或图2所示的方法。
可以理解的是,本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
在本文中提及的“和/或”,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的拍摄图像都是在充分授权的情况下获取的。
以上仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种目标对象的识别方法,其特征在于,应用于售货设备,所述售货设备包括摄像头;所述方法包括:
获取所述摄像头拍摄到的拍摄图像;
在所述拍摄图像中确定包括目标对象的检测框,所述检测框的轴线平行于所述目标对象的轴线;
获取所述检测框内的目标子图像;
基于所述目标子图像识别所述目标对象的属性信息。
2.根据权利要求1所述的方法,其特征在于,所述在所述拍摄图像中确定包括目标对象的检测框,包括:
将所述拍摄图像输入至目标检测模型,得到所述目标检测模型输出的检测结果,所述检测结果用于指示所述检测框在所述拍摄图像中的位置。
3.根据权利要求1所述的方法,其特征在于,所述检测框为矩形检测框;所述获取所述检测框内的目标子图像,包括:
基于所述检测框的各个顶点在所述拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵,其中,所述第一坐标系的两个坐标轴分别平行于所述检测框的两条边,所述第二坐标系的两个坐标轴分别平行于所述拍摄图像的像素行方向和像素列方向;
基于所述第一透视变换矩阵,以及所述各个顶点在所述拍摄图像中的位置,从所述拍摄图像中确定目标子图像,所述目标子图像的两条边分别平行于所述拍摄图像的像素行方向和像素列方向。
4.根据权利要求3所述的方法,其特征在于,所述基于所述检测框的各个顶点在所述拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵,包括:
若所述检测框的任一边与所述拍摄图像的像素行方向均不平行,则基于所述检测框的各个顶点在所述拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第一透视变换矩阵。
5.根据权利要求1所述的方法,其特征在于,所述检测框为矩形检测框;所述获取所述检测框内的目标子图像,包括:
获取所述检测框的一边与所述拍摄图像的像素行方向或像素列方向之间的夹角;
基于所述夹角,以及所述检测框的中心点在所述拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵,其中,所述第一坐标系的两个坐标轴分别平行于所述检测框的两条边,所述第二坐标系的两个坐标轴分别平行于所述拍摄图像的像素行方向和像素列方向;
基于所述第二透视变换矩阵,所述检测框的尺寸,以及所述中心点在所述拍摄图像中的位置,从所述拍摄图像中确定目标子图像,所述目标子图像的两条边分别平行于所述拍摄图像的像素行方向和像素列方向。
6.根据权利要求5所述的方法,其特征在于,所述基于所述夹角,以及所述检测框的中心点在所述拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵,包括:
若所述夹角大于角度阈值,则基于所述夹角,以及所述检测框的中心点在所述拍摄图像中的位置,确定第一坐标系与第二坐标系之间的第二透视变换矩阵。
7.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述目标子图像识别所述目标对象的属性信息,包括:
滤除所述目标子图像中的背景信息;
基于滤除所述背景信息后的目标子图像,识别所述目标对象的属性信息。
8.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述目标子图像识别所述目标对象的属性信息,包括:
将所述目标子图像输入至对象识别模型,得到所述目标对象的属性信息。
9.根据权利要求8所述的方法,其特征在于,在所述将所述目标子图像输入至对象识别模型,得到所述目标对象的属性信息之前,所述方法还包括:
获取多个样本数据,每个所述样本数据包括:所述目标对象的样本图像和样本信息,所述样本信息用于指示所述目标对象的属性;
对所述多个样本数据进行模型训练,得到所述对象识别模型。
10.根据权利要求9所述的方法,其特征在于,获取多个样本数据中的样本图像,包括:
获取从不同的拍摄角度对所述目标对象进行拍摄得到的多个第一图像;
对于每个所述第一图像,在所述第一图像中添加目标物的第三图像,得到第二图像,所述目标物为用于拿取所述目标对象的物体;
每个所述第一图像和每个所述第二图像均为一个所述样本图像。
11.根据权利要求1至6任一所述的方法,其特征在于,所述目标对象的属性信息包括所述目标对象的价格信息;在所述基于所述目标子图像识别所述目标对象的属性信息之后,所述方法还包括:
基于所述目标对象的价格信息,生成支付码,所述支付码用于供移动终端扫描。
12.一种目标对象的识别装置,其特征在于,配置在售货设备中,所述售货设备包括摄像头;所述装置包括:
第一获取模块,用于获取所述摄像头拍摄到的拍摄图像;
确定模块,用于在所述拍摄图像中确定包括目标对象的检测框,所述检测框的轴线平行于所述目标对象的轴线;
第二获取模块,用于获取所述检测框内的目标子图像;
识别模块,用于基于所述目标子图像识别所述目标对象的属性信息。
13.一种售货设备,其特征在于,所述售货设备包括:摄像头,处理器和存储器,所述存储器中存储有指令,所述指令由所述处理器加载并执行以实现如权利要求1至11任一所述的目标对象的识别方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有指令,所述指令由处理器加载并执行以实现如权利要求1至11任一所述的目标对象的识别方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述指令由处理器加载并执行以实现如权利要求1至11任一所述的目标对象的识别方法。
CN202210885986.XA 2022-07-26 2022-07-26 目标对象的识别方法、装置及售货设备 Pending CN115170791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210885986.XA CN115170791A (zh) 2022-07-26 2022-07-26 目标对象的识别方法、装置及售货设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210885986.XA CN115170791A (zh) 2022-07-26 2022-07-26 目标对象的识别方法、装置及售货设备

Publications (1)

Publication Number Publication Date
CN115170791A true CN115170791A (zh) 2022-10-11

Family

ID=83496861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210885986.XA Pending CN115170791A (zh) 2022-07-26 2022-07-26 目标对象的识别方法、装置及售货设备

Country Status (1)

Country Link
CN (1) CN115170791A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861741B (zh) * 2023-03-01 2023-10-17 小米汽车科技有限公司 目标标定方法、装置、电子设备、存储介质及车辆

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861741B (zh) * 2023-03-01 2023-10-17 小米汽车科技有限公司 目标标定方法、装置、电子设备、存储介质及车辆

Similar Documents

Publication Publication Date Title
CN108416902B (zh) 基于差异识别的实时物体识别方法和装置
US7733404B2 (en) Fast imaging system calibration
CN111259889A (zh) 图像文本识别方法、装置、计算机设备及计算机存储介质
CN112287866B (zh) 一种基于人体关键点的人体动作识别方法及装置
EP3547256B1 (en) Extracting a feature descriptor for an image feature
US9536147B2 (en) Optical flow tracking method and apparatus
CN112581629A (zh) 增强现实显示方法、装置、电子设备及存储介质
CN109977251A (zh) 一种构建基于rgb直方图特征识别商品的方法
CN111666792B (zh) 图像识别方法、图像采集和识别方法以及商品识别方法
CN112348958A (zh) 关键帧图像的采集方法、装置、系统和三维重建方法
CN111263955A (zh) 一种目标对象的移动轨迹确定方法和装置
CN115170791A (zh) 目标对象的识别方法、装置及售货设备
CN116415794A (zh) 基于ar眼镜的出入库方法及智能仓储系统
CN110458857A (zh) 中心对称图元检测方法、装置、电子设备及可读存储介质
CN111428743B (zh) 商品识别方法、商品处理方法、装置及电子设备
CN117993406A (zh) 一种二维条码自动识别读取方法及系统
CN113537218A (zh) 图像识别方法及其装置
CN116110037B (zh) 一种基于视觉识别的图书盘点方法、装置和终端设备
CN109146973B (zh) 机器人场地特征识别和定位方法、装置、设备和存储介质
CN110866500A (zh) 人脸检测对齐系统、方法、装置、平台、移动终端和存储介质
CN115170471A (zh) 基于图像识别模型的部件识别方法及装置
CN113393506A (zh) 图像配准方法及相关装置、设备
CN101646386B (zh) 表面提取方法、表面提取设备及程序
US10134163B2 (en) Dynamic detection of an object framework in a mobile device captured image
CN118247473B (zh) 包围盒提取方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination