CN116171463A - 一种堆叠物体的识别方法、装置、设备及计算机存储介质 - Google Patents

一种堆叠物体的识别方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN116171463A
CN116171463A CN202180002740.7A CN202180002740A CN116171463A CN 116171463 A CN116171463 A CN 116171463A CN 202180002740 A CN202180002740 A CN 202180002740A CN 116171463 A CN116171463 A CN 116171463A
Authority
CN
China
Prior art keywords
image
edge
sequence
identified
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180002740.7A
Other languages
English (en)
Inventor
陈景焕
陈凯歌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Priority claimed from PCT/IB2021/058782 external-priority patent/WO2023047167A1/en
Publication of CN116171463A publication Critical patent/CN116171463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种堆叠物体的识别方法、装置、设备及计算机存储介质,其中,该方法包括:获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。

Description

一种堆叠物体的识别方法、装置、设备及计算机存储介质
相关申请的交叉引用
本申请要求在2021年9月21日提交新加坡知识产权局、申请号为10202110411X的新加坡专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本公开实施例涉及但不限于计算机视觉技术领域,尤其涉及一种堆叠物体的识别方法、装置、设备及计算机存储介质。
背景技术
基于图像的物体识别是计算机视觉中的一个重要研究问题。在一些场景中,有许多产品需要成批地生产或使用,这些产品由可堆叠物体堆叠构成物体序列。在这种情况下,需要识别物体序列中每个物体的类别,相关方法可以将连接时序分类(ConnectionistTemporal Classification,CTC)的方法应用在图像中进行识别,但这种方法的预测效果有待提升。
发明内容
本公开实施例提供一种堆叠物体的识别方法、装置、设备及计算机存储介质。
第一方面,提供一种堆叠物体的识别方法,包括:获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。
在一些实施例中,所述基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别,包括:基于所述边缘分割图像,确定所述待识别图像中所述物体序列中每个物体的边界位置;基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,其中,所述像素点的像素值表征所述像素点所属的物体的类别标识。
这样,基于边缘分割图像,确定物体序列中每个物体的边界位置;基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,从而能够基于每个物体的边界位置,准确地确定物体序列中每个物体对应的区域内的像素点的像素值,进而准确地确定物体序列中每个物体的类别。
在一些实施例中,所述基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,包括:对于每个所述物体,对所述语义分割图像中与所述物体的边界位置对应的区域内的像素点的像素值进行统计;根据统计结果,确定所述区域内的数量最多的像素值;将所述数量最多的像素值所表征的类别标识确定为所述物体的类别标识。
这样,由于对语义分割图像中与所述物体的边界位置对应的区域内的像素点的像素值进行统计,并将数量最多的像素值所表征的类别标识确定为物体的类别标识,从而能够准确的确定物体序列中每一物体的类别。
在一些实施例中,所述基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,包括:对所述待识别图像依次进行一次卷积处理和一次池化处理得到第一池化图像;基于所述第一池化图像,执行至少一次第一操作,所述第一操作包括:在最近一次池化处理得到的图像基础上依次进行一次卷积处理和池化处理,得到第一中间图像;对所述第一池化图像、各所述第一中间图像进行合并和降采样处理,得到所述边缘分割图像;基于最后一次第一操作得到的第一中间图像,执行至少一次第二操作,所述第二操作包括:在最近一次池化处理得到的图像的基础上依次进行一次卷积处理和一次池化处理,得到第二中间图像;对所述最后一次第一操作得到的第一中间图像和各所述第二中间图像进行合并和降采样处理,得到所述语义分割图像。
这样,由于对第一池化图像、各第一中间图像进行合并和降采样处理,得到边缘分割图像,以及基于最后一次第一操作得到的第一中间图像,得到语义分割图像,从而能够共享已经得到的最后一次第一操作得到的第一中间图像,进而降低计算资源的消耗;另外,由于边缘分割图像是通过对第一池化图像、各第一中间图像进行合并和降采样处理得到的,语义分割图像是通过对最后一次第一操作得到的第一中间图像和各第二中间图像进行合并和降采样处理得到的,因此边缘分割图像和语义分割图像均是通过多个图像进行合并和降采样处理得到,从而能够利用到多个图像的特征,使得到的边缘分割图像和语义分割图像的准确性高。
在一些实施例中,所述边缘分割图像包括表征每个物体的边缘信息的掩模图像,和/或,所述边缘分割图像与所述待识别图像的尺寸相同;所述语义分割图像包括表征每个像素点的语义信息的掩膜图像,和/或,所述语义分割图像与所述待识别图像的尺寸相同。
这样,通过边缘分割图像包括表征每个物体的边缘信息的掩模图像,从而基于掩膜图像能够容易地确定每个物体的边缘信息;由于边缘分割图像与待识别图像的尺寸相同,从而能够基于边缘分割图像中每个物体的边缘位置,准确地确定每个物体的边缘位置;通过语义分割图像包括表征每个像素点的语义信息的掩膜图像,从而基于掩膜图像能够容易地确定每个像素点的语义信息;由于语义分割图像与待识别图像的尺寸相同,从而能够基于语义分割图像中每个像素点的语义信息,准确地确定每个物体的边缘位置所对应的区域内的像素点的语义信息的统计情况。
在一些实施例中,所述边缘分割图像为二值化掩模图像,所述边缘分割图像中的第一像素值的像素对应所述待识别图像中的每个物体的边缘的像素,所述边缘分割图像中的第二像素值的像素对应所述待识别图像中的每个物体的非边缘的像素。
这样,通过边缘分割图像为二值化掩模图像,从而能够基于二值化掩模图像中的每一个像素点的是第一像素值或第二像素值,确定每一个像素点是否为物体序列中每个物体的边缘,从而能够容易地确定物体序列中每个物体的边缘。
在一些实施例中,所述基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,包括:将所述待识别图像输入至经过训练的边缘检测模型中,得到所述物体序列中的每个物体的边缘检测结果,其中,所述边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到;根据所述边缘检测结果生成所述物体序列的边缘分割图像;将所述待识别图像输入至经过训练的语义分割模型中,得到所述物体序列中的每个物体的语义分割结果,其中,所述语义分割模型基于包含物体语义分割标注信息的序列物体图像训练得到;根据所述语义分割结果生成所述物体序列的语义分割图像。
这样,通过将待识别图像分别输入至经过训练的边缘检测模型和经过训练的语义分割模型,从而能够基于这两个模型得到边缘分割图像和语义分割图像,且经过训练的边缘检测模型和经过训练的语义分割模型对图像的处理过程可以并行,从而能够快速地得到边缘分割图像和语义分割图像。
在一些实施例中,所述基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别,包括:对所述边缘分割图像和所述语义分割图像进行融合,得到融合图像;其中,所述融合图像包括:所述语义分割图像和在所述语义分割图像上显示的所述每个物体的边缘信息;在所述融合图像上,确定所述每个物体的边缘信息对应的区域内的数量最多的像素值;将所述数量最多的像素值所表征的类别确定为所述每个物体的类别。
这样,由于融合图像包括语义分割图像和在语义分割图像上显示的每个物体的边缘信息,从而通过融合图像,能够准确的确定每个物体的边缘信息和每个物体的边缘信息对应的区域内像素点的像素值,进而能够准确地确定物体序列中每个物体的类别。
在一些实施例中,所述物体具有与类别对应的价值属性;所述方法还包括:基于所述每个物体的类别和对应的价值属性,确定所述物体序列中物体的总价值。
这样,由于基于每个物体的类别和对应的价值属性,确定物体序列中物体的总价值,从而可以方便的统计堆叠物体的总价值,例如方便对堆叠的游戏币的总价值进行检测和确定。
第二方面,提供一种堆叠物体的识别装置,包括:获取单元,用于获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;确定单元,用于基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;识别单元,用于基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。
在一些实施例中,所述识别单元,还用于:基于所述边缘分割图像,确定所述待识别图像中所述物体序列中每个物体的边界位置;基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,其中,所述像素点的像素值表征所述像素点所属的物体的类别标识。
在一些实施例中,所述识别单元,还用于:对于每个所述物体,对所述语义分割图像中与所述物体的边界位置对应的区域内的像素点的像素值进行统计;根据统计结果,确定所述区域内的数量最多的像素值;将所述数量最多的像素值所表征的类别标识确定为所述物体的类别标识。
在一些实施例中,所述确定单元,还用于:对所述待识别图像依次进行一次卷积处理和一次池化处理得到第一池化图像;基于所述第一池化图像,执行至少一次第一操作,所述第一操作包括:在最近一次池化处理得到的图像基础上依次进行一次卷积处理和池化处理,得到第一中间图像;对所述第一池化图像、各所述第一中间图像进行合并和降采样处理,得到所述边缘分割图像;基于最后一次第一操作得到的第一中间图像,执行至少一次第二操作,所述第二操作包括:在最近一次池化处理得到的图像的基础上依次进行一次卷积处理和一次池化处理,得到第二中间图像;对所述最后一次第一操作得到的第一中间图像和各所述第二中间图像进行合并和降采样处理,得到所述语义分割图像。
在一些实施例中,所述边缘分割图像包括表征每个物体的边缘信息的掩模图像,和/或,所述边缘分割图像与所述待识别图像的尺寸相同;所述语义分割图像包括表征每个像素点的语义信息的掩膜图像,和/或,所述语义分割图像与所述待识别图像的尺寸相同。
在一些实施例中,所述边缘分割图像为二值化掩模图像,所述边缘分割图像中的第一像素值的像素对应所述待识别图像中的每个物体的边缘的像素,所述边缘分割图像中的第二像素值的像素对应所述待识别图像中的每个物体的非边缘的像素。
在一些实施例中,所述确定单元,还用于:将所述待识别图像输入至经过训练的边缘检测模型中,得到所述物体序列中的每个物体的边缘检测结果,其中,所述边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到;根据所述边缘检测结果生成所述物体序列的边缘分割图像;将所述待识别图像输入至经过训练的语义分割模型中,得到所述物体序列中的每个物体的语义分割结果,其中,所述语义分割模型基于包含物体语义分割标注信息的序列物体图像训练得到;根据所述语义分割结果生成所述物体序列的语义分割图像。
在一些实施例中,所述识别单元,还用于:对所述边缘分割图像和所述语义分割图像进行融合,得到融合图像;其中,所述融合图像包括:所述语义分割图像和在所述语义分割图像上显示的所述每个物体的边缘信息;在所述融合图像上,确定所述每个物体的边缘信息对应的区域内的数量最多的像素值;将所述数量最多的像素值所表征的类别确定为所述每个物体的类别。
在一些实施例中,所述物体具有与类别对应的价值属性;所述确定单元,还用于:基于所述每个物体的类别和对应的价值属性,确定所述物体序列中物体的总价值。
第三方面,提供一种堆叠物体的识别设备,包括:存储器和处理器,
所述存储器存储有可在所述处理器上运行的计算机程序,
所述处理器执行所述计算机程序时实现上述方法中的步骤。
第四方面,提供一种计算机存储介质,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述方法中的步骤。
在本公开实施例中,由于基于边缘分割图像和语义分割图像,确定物体序列中每个物体的类别,从而不仅考虑到基于边缘分割图像确定的每个物体的边缘信息,还考虑到基于语义分割图像确定的每个像素点所属的物体的类别,使得确定的待识别图像中的物体序列中每个物体的类别的准确度高。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种堆叠物体的识别系统的结构示意图;
图2为本公开实施例提供的一种堆叠物体的识别方法的实现流程示意图;
图3为本公开实施例提供的另一种堆叠物体的识别方法的实现流程示意图;
图4为本公开实施例提供的又一种堆叠物体的识别方法的实现流程示意图;
图5为本公开实施例提供的再一种堆叠物体的识别方法的实现流程示意图;
图6为本公开实施例提供的一种堆叠物体的识别方法的流程框架示意图;
图7为本公开实施例提供的一种目标分割模型的架构示意图;
图8为本公开实施例提供的一种堆叠物体的识别装置的组成结构示意图;
图9为本公开实施例提供的一种堆叠物体的识别设备的硬件实体示意图。
具体实施方式
下面将通过实施例并结合附图具体地对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
需要说明的是:在本公开实例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本公开实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
本公开实施例中的至少一个、至少一帧,可以分别指的是一个或至少两个、一帧或至少两帧。本公开实施例中的多个、多帧,可以分别指的是至少两个、至少两帧。在本公开实施例中的至少一帧图像,可以是连续拍摄的图像,或者,可以是非连续拍摄的图像。图像的数量可以基于实际情况确定,本公开实施例对此不作限制。
为了解决通过人工确定堆叠构成的物体序列中每个物体的类别,而造成人力资源浪费的问题,提出了采用计算机视觉的方式来识别物体序列中的每个物体,例如,提出以下两种解决方案:
第一种:在得到针对物体序列进行拍摄的图像后,首先可以采用卷积神经网络(Convolutional Neural Networks,CNN)提取图像特征,然后使用循环神经网络(Recurrent Neural Network,RNN)对特征进行序列建模,接着利用连接时序分类损失函数,对每个特征切片进行类别预测和去重,得到输出结果,基于该输出结果能够确定物体序列中每个物体的类别。然而,该方法的主要问题是RNN序列建模部分训练耗时,且模型只能用CTC损失(loss)单独监督,预测效果有限。
第二种:在得到针对物体序列进行拍摄的图像后,首先可以采用卷积神经网络提取图像特征,然后结合视觉注意力机制生成注意力中心,对每个注意力中心预测相应的结果并忽略其他多余的信息。然而,该方法的主要问题在于注意力机制对计算量与内存使用要求较高。
因此,对于堆叠构成的物体序列中每个物体的识别问题,并未有相关算法专门地进行解决。虽然上述的两种方法都可以运用到物体序列识别中,但由于物体序列通常序列长度较长,形成堆叠物的物体在外形上比较类似,堆叠物体的物体数量不确定,使用上述的两种方法均无法达到高准确度的预测物体序列中每个物体的类别。
图1为本公开实施例提供的一种堆叠物体的识别系统的结构示意图,如图1所示,该堆叠物体的识别系统100可以包括:摄像头组件101、堆叠物体的识别设备102以及管理系统103。
在一些实施方式中,摄像头组件101可以包括多个摄像头,多个摄像头可以从不同的角度针对用于放置物体的表面进行拍摄,用于放置物体的表面可以是游戏桌或置物台的表面等。例如,摄像头组件101可以包括三个摄像头,第一摄像头可以为鸟瞰摄像头,第一摄像头可以架设在用于放置物体的表面的顶部。第二摄像头和第三摄像头分别架设在用于放置物体的表面的侧部,且第二摄像头和第三摄像头之间的夹角为设定夹角,例如,设定夹角可以在30度至120之间,设定夹角可以为30度、60度、90度或120度等。第二摄像头和第三摄像头可以设置在用于放置物体的表面上,以从侧视视角拍摄到用于放置物体的表面上物体和玩家的情况。
在一些实施方式中,堆叠物体的识别设备102可以仅对应一个摄像头组件101。在另一些实施方式中,堆叠物体的识别设备102可以对应多个摄像头组件101。堆叠物体的识别设备102和用于放置物体的表面可以均设置在指定空间(例如游戏场所)中。例如,堆叠物体的识别设备102可以是边端设备,堆叠物体的识别设备102可以与指定空间中的服务器连接。在另一些实施方式中,堆叠物体的识别设备102可以设置在云端。
摄像头组件101可以与堆叠物体的识别设备102通信连接。在一些实施方式中,摄像头组件101可以周期性或非周期性的拍摄实时图像,并将拍摄的实时图像发送给堆叠物体的识别设备102。例如,在摄像头组件101包括多个摄像头的情况下,多个摄像头可以每隔目标的时长拍摄一次实时图像,并将拍摄的实时图像发送给堆叠物体的识别设备102。其中,多个摄像头可以同时或不同时拍摄实时图像。在另一些实施方式中,摄像头组件101可以拍摄实时视频,并将实时视频发送给堆叠物体的识别设备102。例如,在摄像头组件101包括多个摄像头的情况下,多个摄像头可以分别将拍摄的实时视频发送给堆叠物体的识别设备102,以使堆叠物体的识别设备102从实时视频中截取实时图像。本公开实施例中的实时图像可以是下述的任一个图像或多个图像。
堆叠物体的识别设备102可以基于实时图像,对指定空间中的用于放置物体的表面上的物体,以及位于用于放置物体的表面旁边的对象(例如游戏参与者,包括游戏控制者和/或玩家)的行为进行分析,以确定对象的行为是否符合规定或者是否正当。
堆叠物体的识别设备102可以与管理系统103通信连接。管理系统可以包括显示设备。在堆叠物体的识别设备102确定到对象的行为不正当的情况下,堆叠物体的识别设备102可以向行为不正当的对象所对应的,且用于放置物体的表面上设置的管理系统103发送告警信息,以使得管理系统103能够发出与该告警信息对应的告警。
在图1对应的实施例中,示出的是摄像头组件101、堆叠物体的识别设备102以及管理系统103分别是独立的,但是在其它实施例中,摄像头组件101和堆叠物体的识别设备102可以集成在一起,或者,堆叠物体的识别设备102和管理系统103可以集成在一起,或者,摄像头组件101、堆叠物体的识别设备102以及管理系统103集成在一起。
本公开实施例中的堆叠物体的识别方法可以应用在游戏、娱乐、竞技场景下,物体可以包括该场景下的游戏币、游戏牌、游戏筹码等,本公开对此不作具体限定。
图2为本公开实施例提供的一种堆叠物体的识别方法的实现流程示意图,如图2所示,该方法应用于堆叠物体的识别装置,该方法包括:
S201、获取待识别图像,待识别图像包括由至少一个物体堆叠构成的物体序列。
在一些实施方式中,堆叠物体的识别装置可以包括堆叠物体的识别设备。在另一些实施方式中,堆叠物体的识别装置可以包括处理器或芯片,处理器或芯片可以应用于堆叠物体的识别设备中。其中,堆叠物体的识别设备可以包括以下之一或者至少两者的组合:服务器、手机(Mobile Phone)、平板电脑(Pad)、带无线收发功能的电脑、掌上电脑、台式计算机、个人数字助理、便捷式媒体播放器、智能音箱、导航装置、智能手表、智能眼镜、智能项链等可穿戴设备、计步器、数字TV、虚拟现实(Virtual Reality,VR)终端设备、增强现实(Augmented Reality,AR)终端设备、工业控制(Industrial Control)中的无线终端、无人驾驶(Self Driving)中的无线终端、远程手术(Remote Medical Surgery)中的无线终端、智能电网(Smart Grid)中的无线终端、运输安全(Transportation Safety)中的无线终端、智慧城市(Smart City)中的无线终端、智慧家庭(Smart Home)中的无线终端、车联网系统中的车、车载设备、车载模块等等。
架设在用于放置物体的表面的侧部的摄像头,可以针对物体序列进行拍摄得到拍摄图像,摄像头可以每个设定时长进行一次拍摄,拍摄图像可以是摄像头当前拍摄的图像,或者,摄像头可以拍摄视频,拍摄图像可以是从视频中截取出的图像。待识别图像可以是基于拍摄图像确定的。在有一个摄像头针对物体序列进行拍摄的情况下,可以将该一个摄像头拍摄的图像确定为拍摄图像。在有至少两个摄像头针对物体序列进行拍摄的情况下,可以将该至少两个摄像头拍摄的图像分别确定为至少两帧拍摄图像。待识别图像可以包括一帧图像或者至少两帧图像,至少两帧图像可以是分别是基于至少两帧拍摄图像确定的。在另一些实施例中,待识别图像可以是从其它视频源中获取的图像确定的,例如,获取的图像可以是视频源中直接存储的,或者,获取的图像可以是从视频源中存储的视频中截取的。
在一些实施方式中,可以直接将拍摄图像或者获取的图像,确定为待识别图像。
在另一些实施方式中,可以对拍摄图像或者获取的图像进行以下至少之一的处理,得到待识别图像:缩放处理、裁剪处理、去噪处理、添加噪声处理、灰度处理、旋转处理、归一化处理。
在又一些实施方式中,可以对拍摄图像或者获取的图像进行物体检测,得到物体的检测框(例如矩形框),基于物体的检测框对拍摄图像进行裁剪,得到待识别图像。例如,在一个拍摄图像中包括一个物体序列的情况下,基于该一个拍摄图像确定一个识别图像。再例如,在一个拍摄图像中包括至少两个物体序列的情况下,基于该一个拍摄图像可以确定一个识别图像,该一个识别图像中包括至少两个物体序列,或者,基于该一个拍摄图像可以确定与至少两个物体序列一一对应的至少两个待识别图像。在其它实施方式中,可以先对拍摄图像进行以下至少之一的处理后在进行裁剪,或者,可以在对拍摄图像裁剪后进行以下至少之一的处理,得到待识别图像:缩放处理、裁剪处理、去噪处理、添加噪声处理、灰度处理、旋转处理、归一化处理。
在再一些实施方式中,待识别图像从拍摄图像或者获取的图像中截取得到,并且待识别图像中的物体序列的至少一个边缘可以分别与待识别图像的至少一个边缘对齐,例如,待识别图像中的物体序列的某一个或各个边缘分别与待识别图像的某一个或各个边缘对齐。
本公开实施例中的物体序列可以是一个或至少两个,至少一个物体可以堆叠构成一个物体序列或至少两个物体序列,每一个物体序列可以是指沿着一个堆叠方向堆叠构成的一摞物体。一个物体序列可以是包括规则堆叠的物体或者包括不规则堆叠的物体。
本公开实施例中的物体可以包括片状物、块状物和袋装物等中的至少之一。物体序列中的物体可以包括形态相同的物体或者不同形态的物体。物体序列中任相邻的两个物体之间可以直接接触,例如,一个物体放置在另一个物体上;或者,物体序列中任相邻的两个物体之间可以通过其它物体粘结,其它物体包括胶水或粘结剂等任一种具有粘接作用的物体。
在物体包括片状物体的情况下,片状物体是具有一个厚度的物体,物体的厚度方向可以为物体的堆叠方向。
物体序列中的至少一个物体在沿着堆叠方向的一面(或者称为侧面)具有设定的标识。本公开实施例中,待识别图像的物体序列中的不同物体的侧面上可以具有不同的表征其类别的外观标识,用以区分不同的物体。外观标识可以包括尺寸、颜色、图案、纹理、表面的文字等中的至少一种。物体的侧面可以与堆叠方向(或者物体的厚度方向)平行。
物体序列中的物体可以是圆柱状、棱柱、圆台、棱台或其它规则或不规则的片状物体。在一些实施场景中,物体序列中的物体可以是游戏币。物体序列可以为多个游戏币在纵向上或者在水平方向上堆叠形成,由于不同类型的游戏币具有不同的币值或面值,而不同币值的游戏币的大小、颜色、花纹、币值符号中的至少一种会存在不同,本公开实施例可以根据得到的包括至少一个游戏币的待识别图像,检测待识别图像中的每个游戏币对应的币值的类别,得到游戏币的币值分类结果。在一些实施例中,游戏币可以包括游戏筹码,游戏币的币值可以包括筹码的码值。
S202、基于待识别图像,对物体序列进行边缘检测和语义分割,以确定物体序列的边缘分割图像和物体序列的语义分割图像,其中,边缘分割图像包括形成物体序列的每个物体的边缘信息,语义分割图像中的每个像素点表征像素点所属的物体的类别。
在一些实施例中,基于待识别图像,对物体序列进行边缘检测和语义分割,以确定物体序列的边缘分割图像和物体序列的语义分割图像,可以包括:基于待识别图像,对物体序列进行边缘检测,以确定物体序列的边缘分割图像;基于待识别图像,对物体序列进行语义分割,以确定物体序列的语义分割图像。
例如,基于待识别图像,对物体序列进行边缘检测,以确定物体序列的边缘分割图像,可以包括:将待识别图像输入至边缘分割模型(或者称边缘分割网络)中,通过边缘分割模型对待识别图像中的物体序列进行边缘检测,通过边缘分割模型输出物体序列的边缘分割图像。其中,边缘分割网络可以为物体序列中每个物体的边缘的分割模型。
例如,基于待识别图像,对物体序列进行语义分割,以确定物体序列的语义分割图像,可以包括:将待识别图像输入至语义分割模型(或者称语义分割网络)中,通过语义分割模型对待识别图像中的物体序列进行语义分割,通过语义分割模型输出物体序列的语义分割图像。其中,语义分割网络可以为物体序列中每个像素点所属类别的神经网络。
本公开实施例中的边缘分割模型可以是经过训练的边缘分割模型。例如,可以通过第一训练样本对初始的边缘分割模型进行训练,确定经过训练的边缘分割模型。第一训练样本中可以包括多个带标注的图像,每个带标注的图像中包括物体序列和对于每一物体的轮廓的标注信息。
本公开实施例中的语义分割模型可以是经过训练的语义分割模型。例如,可以通过第二训练样本对初始的语义分割模型进行训练,确定经过训练的语义分割模型。第二训练样本中可以包括多个带标注的图像,每个带标注的图像中包括物体序列和对于每一物体的类别的标注信息。
边缘分割网络可以包括以下之一:基于更丰富特征的边缘检测(RicherConvolutional Features for Edge Detection,RCF)网络、整体嵌套的边缘检测(holistically-nested edge detection,HED)网络、Canny边缘检测网络,以及这些网络的演进网络等。
语义分割网络可以包括以下之一:全卷积网络(Fully Convolution Networks,FCN)、SegNet、U-Net、DeepLab v1、DeepLab v2、DeepLab v3、全卷积(FullyConvolutional)DenseNet、E-Net、Link-Net、Mask R-CNN、金字塔场景解析网络(PyramidScene Parseing Network,PSPNet)、RefineNet、门控反馈优化网络(Gated FeedbackRefinement Network,G-FRNet),以及这些网络的演进网络等。
在另一些实施方式中,可以获取经过训练的目标分割模型(或称为目标分割网络),将待识别图像输入至经过训练的目标分割模型,通过经过训练的目标分割模型输出物体序列的边缘分割图像和物体序列的语义分割图像。其中,经过训练的目标分割模型可以通过在基于深度学习的语义分割神经网络的结构中融入边缘检测网络得到。基于深度学习的语义分割神经网络可以包括FCN网络,边缘检测网络可以包括RCF网络。
边缘分割图像和语义分割图像的像素尺寸可以均与待识别图像的像素尺寸相同,例如,待识别图像的像素尺寸为800×600或者800×600×3的情况下,其中,800为待识别图像在宽度方向上的像素尺寸,600为待识别图像在高度方向上的像素尺寸,3为待识别图像的通道数,通道包括红绿蓝(RGB)三通道,边缘分割图像和语义分割图像的像素尺寸均为800×600。
对待识别图像进行边缘分割的目的是,对待识别图像中的每个像素进行二分类,确定待识别图像中每个像素是否属于物体的边缘像素。在待识别图像中某一个像素属于物体的边缘(edge)像素的情况下,可以将边缘分割图像中对应像素的标识值确定为第一值,在待识别图像中某一个像素不属于物体的边缘像素的情况下,可以将边缘分割图像中对应像素的标识值确定为第二值。第一值和第二值不同。第一值可以是1,第二值可以是0;或者,第一值可以是0,第二值可以是1。这样,边缘分割图像中每一像素的标识值为第一值或第二值,从而可以基于边缘分割图像中第一值和第二值的位置,确定待识别图像物体序列中每一物体的边缘。在一些实施方式中,边缘分割图像可以称为边缘掩膜(Edge mask)。
对待识别图像进行语义分割的目的是,对待识别图像中的每个像素进行语义分类,确定待识别图像中每个像素属于某一种物体或者背景。在待识别图像中某一个像素属于背景的情况下,可以将语义分割图像中对应像素的标识值确定为第三值,在待识别图像中某一个像素属于N个类别中目标类物体的情况下,可以将语义分割图像中对应像素的标识值确定为与目标类物体对应的值,N为大于或等于1的整数,与目标类物体对应的值的取值也有N种。第三值可以是0。这样,语义分割图像中每一像素的标识值可以是N+1种数值,N为物体类别的总数,从而可以基于语义分割图像中不同种类的值的位置,确定待识别图像中的背景部分和每一类物体的位置。在一些实施方式中,语义分割图像可以称为语义掩膜(Segm mask)。
S203、基于边缘分割图像和语义分割图像,确定物体序列中每个物体的类别。
通过语义分割得到的语义分割图像中,可能会存在边缘模糊、分割不准确等问题,因此如果通过语义分割图像确定物体序列中每个物体的类别,会导致确定的物体序列中每个物体的类别不准确。而通过边缘分割图像和语义分割图像这两者共同结合,不仅考虑到基于边缘分割图像确定的每个物体的边缘信息,还考虑到基于语义分割图像确定的每个物体的类别,从而能够准确的确定出物体序列中每个物体的类别。
在物体为游戏币的情况下,不同类别的物体可以是指游戏币的价值(或者面值)不同。
在一些实施方式中,堆叠物体的识别装置在得到物体序列中每个物体的类别的情况下,可以输出物体序列中每个物体的类别,或者,可以输出物体序列中每个物体的类别所对应的标识值。在一些实施方式中,每个物体的类别所对应的标识值可以是该物体的价值。在物体为游戏币的情况下,每个物体的类别可以用游戏币的价值表示。
例如,可以向管理系统输出每个物体的类别或者每个物体的类别所对应的标识值,以使管理系统显示。再例如,可以向堆叠物体的识别设备中的行为分析装置,输出每个物体的类别或者每个物体的类别所对应的标识值,以使行为分析装置可以基于每个物体的类别或者每个物体的类别所对应的标识值,确定用于放置物体的表面周围的对象的行为是否符合规范。
在一些实施方式中,行为分析装置可以确定每一放置区域的游戏币的数量和/或总价值增多或减少,其中,放置区域可以为在用于放置物体的表面上,用于放置游戏币的区域。例如,在游戏清算阶段,确定某一放置区域中游戏币减少,且出现玩家的手的情况下,确定玩家移动了游戏币,将向管理系统输出告警,以使管理系统产生告警。
在本公开实施例中,由于基于边缘分割图像和语义分割图像,确定物体序列中每个物体的类别,从而不仅考虑到基于边缘分割图像确定的每个物体的边缘信息,还考虑到基于语义分割图像确定的每个像素点所属的物体的类别,使得确定的待识别图像中的物体序列中每个物体的类别的准确度高。
图3为本公开实施例提供的另一种堆叠物体的识别方法的实现流程示意图,如图3所示,该方法应用于堆叠物体的识别装置,该方法包括:
S301、获取待识别图像,待识别图像包括由至少一个物体堆叠构成的物体序列。
S302、基于待识别图像,对物体序列进行边缘检测和语义分割,以确定物体序列的边缘分割图像和物体序列的语义分割图像。
S303、基于边缘分割图像,确定待识别图像中物体序列中每个物体的边界位置。
可以基于边缘分割图像的轮廓,确定每个物体的边界位置。在一些实施方式中,还可以基于边缘分割图像或者基于边缘分割图像的轮廓,确定物体序列中物体的数量信息。在一些实施方式中,还可以基于物体序列中物体的数量信息,确定物体序列中每个物体在边缘分割图像或待识别图像中的边界位置。
在得到物体序列中物体的数量信息之后,可以输出物体序列中物体的数量信息。例如,可以向管理系统或者分析装置输出物体序列中物体的数量信息,以使管理系统显示,或者,以使分析装置基于物体序列中物体的数量信息,确定对象的行为是否符合规范。
在一些实施方式中,无论不同类别的物体的尺寸相同或不同,可以基于边缘分割图像,能够确定物体序列中每一物体的轮廓或边界位置,基于每一物体的轮廓或边界位置,确定物体序列中物体的数量信息。
在另一些实施方式中,在不同类别的物体尺寸相同的情况下,可以基于边缘分割图像中确定物体序列的总高度和任一物体的宽度,由于一个物体的高度和宽度的比值是固定的,从而可以基于物体序列的总高度和任一物体的宽度,确定物体序列中物体的数量信息。
在待识别图像是一帧图像的情况下,可以基于一帧待识别图像得到一帧边缘分割图像,基于一帧边缘分割图像,确定物体序列中物体的数量信息。
在待识别图像是至少两帧图像的情况下,至少两帧待识别图像可以基于至少两帧拍摄图像得到,至少两帧拍摄图像可以是同一时刻在不同的角度针对物体序列进行拍摄得到的,可以基于至少两帧待识别图像得到对应的至少两帧边缘分割图像,基于至少两帧边缘分割图像,确定物体序列中物体的数量信息。在一些实施方式中,可以确定至少两帧边缘分割图像分别对应的物体的数量信息,在至少两帧边缘分割图像分别对应的物体的数量信息都相同的情况下,可以将任一边缘分割图像对应的物体的数量信息,确定为物体序列中物体的数量信息;在至少两帧边缘分割图像分别对应的物体的数量信息中,存在至少两个数量信息不同的情况下,可以将最多的数量信息,确定为物体序列中物体的数量信息。采用最多的数量信息所对应的边缘分割图像,确定物体序列中每个物体的边界位置。
每个物体的边界位置可以用第一位置信息表示,第一位置信息可以是一维坐标信息或者二维坐标信息。在一些实施方式中,每个物体在边缘分割图像或待识别图像中的第一位置信息,可以包括:在边缘分割图像或待识别图像中,每个物体的边缘在堆叠方向上的起始位置信息和结束位置信息。在另一些实施方式中,每个物体在边缘分割图像或待识别图像中的第一位置信息,可以包括:在边缘分割图像或待识别图像中,每个物体的边缘在堆叠方向上的起始位置信息和结束位置信息,以及每个物体的边缘在垂直于堆叠方向的方向上的起始位置信息和结束位置信息。
例如,可以以边缘分割图像的宽度方向为x轴,以边缘分割图像的高度方向为y轴,堆叠方向可以是y轴方向,每个物体的边缘在堆叠方向上的起始位置信息和结束位置信息,可以为y轴上的坐标信息,或者,可以为x轴和y轴方向上的坐标信息。在另一些实施方式中,每个物体在边缘分割图像或待识别图像中的第一位置信息,可以包括:每个物体的边缘或者每个物体的边缘上的关键点,在边缘分割图像或待识别图像中的位置信息。
在得到一帧边缘分割图像的情况下,可以基于一帧边缘分割图像,确定物体序列中每个物体在边缘分割图像中的第一位置信息。
在得到至少两帧边缘分割图像的情况下,可以确定至少两帧边缘分割图像分别对应的物体的数量信息中,最多的数量信息所对应的目标边缘分割图像,基于最多的数量信息所对应的目标边缘分割图像,确定物体序列中每个物体在目标边缘分割图像中的第一位置信息。
例如,两个摄像头分别从不同的角度针对物体序列进行拍摄,得到拍摄图像A和拍摄图像B,基于拍摄图像A和拍摄图像B分别得到待识别图像A和待识别图像B,基于待识别图像A和待识别图像B分别确定边缘分割图像A和边缘分割图像B,基于边缘分割图像A和边缘分割图像B分别确定物体的数量为C和D,C大于D,从而确定物体序列的数量为C,并基于边缘分割图像A,确定物体序列中每个物体在边缘分割图像中的第一位置信息。
通过这种方式,能够使得物体序列在某一个角度被遮挡,或者某一个角度下拍摄的边缘轮廓不明显的情况下,通过其它角度拍摄的图像,依旧能够准确的确定物体序列中每个物体在边缘分割图像中的第一位置信息。
S304、基于语义分割图像中与每个物体的边界位置对应的区域内的像素点的像素值,确定物体序列中每个物体的类别,其中,像素点的像素值表征像素点所属的物体的类别标识。
在待识别图像是至少两帧图像的情况下,得到的边缘分割图像也为两帧,得到的语义分割图像也为两帧,可以确定目标边缘分割图像对应的目标语义分割图像,基于第一位置信息和目标语义分割图像,识别物体序列中每个物体的类别。
在本公开实施例中,基于边缘分割图像,确定物体序列中每个物体的边界位置;基于语义分割图像中与每个物体的边界位置对应的区域内的像素点的像素值,确定物体序列中每个物体的类别,从而能够基于每个物体的边界位置,准确地确定物体序列中每个物体对应的区域内的像素点的像素值,进而准确地确定物体序列中每个物体的类别。
在一些实施方式中,S304可以通过以下方式实现:
对于每个物体,
对语义分割图像中与物体的边界位置对应的区域内的像素点的像素值进行统计;
根据统计结果,确定区域内的数量最多的像素值;
将数量最多的像素值所表征的类别标识确定为物体的类别标识。
每一物体在边缘分割图像上的位置,可以与每一物体在语义分割图像上的位置相同,从而能够确定语义分割图像中每个物体的边界位置对应的区域。例如,边缘分割图像和语义分割图像中,左下角均为原点,宽度方向均为x轴,高度方向均为y轴,堆叠的四个物体在边缘分割图像上的边界位置为(y0,y1)、(y1,y2)、(y2,y3)、(y3,y4)的情况下,在语义分割图像上的边界位置也为(y0,y1)、(y1,y2)、(y2,y3)、(y3,y4)。在例如,堆叠的四个物体在边缘分割图像上的边界位置为((x0,y0),(x1,y1))、((x1,y1),(x2,y2))、((x2,y2),(x3,y3))、((x3,y3),(x4,y4))的情况下,在语义分割图像上的边界位置也为((x0,y0),(x1,y1))、((x1,y1),(x2,y2))、((x2,y2),(x3,y3))、((x3,y3),(x4,y4))。
例如,语义分割图像中与物体的边界位置对应的区域内,包括的像素点的数量为M个,该M个像素点中每个像素点都有一个像素值。在另一实施例中,语义分割图像中像素点的像素值可以称为标识值或元素值等。
不同的类别标识表征物体不同的类别,类别标识与物体类别之间的对应关系可以是预先设定的。
在本公开实施例中,由于对语义分割图像中与物体的边界位置对应的区域(即由物体的边界包围的区域)内的像素点的像素值进行统计,并将数量最多的像素值所表征的类别标识确定为物体的类别标识,从而能够准确的确定物体序列中每一物体的类别。
在一些实施方式中,基于语义分割图像中与每个物体的边界位置对应的区域内的像素点的像素值,确定物体序列中每个物体的类别,可以包括以下至少之一:
在任一物体的边界位置对应在语义分割图像中的区域内,包括的所有像素的像素值均为预定值的情况下,将该预定值对应的物体类别,确定为与该任一物体的类别;
任一物体的边界位置对应在语义分割图像中的区域内,包括的所有像素的像素值存在至少两种的情况下,确定每个相同像素值的数量信息;确定最高数量信息与第二高数量信息的数量差值,在数量差值大于阈值的情况下,将最高数量信息的像素值所表征的类别,确定为与该任一物体的类别。
在数量差值小于阈值的情况下,确定与该任一物体相邻的一个或两个物体的类别;在最高数量信息的像素值所表征的类别,与相邻的一个或两个物体的类别相同的情况下,将第二高数量信息的像素值所表征的类别,确定为与该任一物体的类别;在最高数量信息的像素值所表征的类别,与相邻的一个或两个物体的类别不同的情况下,将最高数量信息的像素值所表征的类别,确定为与该任一物体的类别。
图4为本公开实施例提供的又一种堆叠物体的识别方法的实现流程示意图,如图4所示,该方法应用于堆叠物体的识别装置,该方法包括:
S401、获取待识别图像,待识别图像包括由至少一个物体堆叠构成的物体序列。
S402、对待识别图像依次进行一次卷积处理和一次池化处理得到第一池化图像。
需要说明的是,本公开实施例的任一次描述的卷积处理,可以为采用一个卷积核进行一轮卷积处理,或者,可以采用一个卷积核进行至少两轮卷积处理(例如,采用一个卷积核进行卷积处理后,再利用该卷积核进行卷积处理),或者,可以采用至少两个卷积核进行至少两轮卷积处理,其中,至少两个卷积核可以与至少两轮一一对应,或者具有一对多或多对一的关系。
在对待识别图像进行一次卷积处理的情况下,得到的第一卷积图像包括一帧图像。在对待识别图像进行至少两次卷积处理的情况下,得到的第一卷积图像包括至少两帧图像。
在一些实施方式中,可以对待识别图像依次做两次卷积处理,得到第一子卷积图像和第二子卷积图像,第二子卷积图像是通过对第一子卷积图像卷积得到的。例如,可以采用3×3×64的卷积核对待处理图像进行卷积处理,得到第一子卷积图像,然后采用3×3×64的卷积核对第一子卷积图像进行卷积处理,得到第二子卷积图像。示意性的,可以对第二子卷积图像进行一次池化处理,得到第一池化图像。
S403、基于第一池化图像,执行至少一次第一操作,第一操作包括:在最近一次池化处理得到的图像基础上依次进行一次卷积处理和池化处理,得到第一中间图像。
例如,在得到第一池化图像之后,可以对第一池化图像进行一次卷积处理和池化处理,得到第一个第一中间图像。示例性的,可以继续对得到的第一个中间图像进行一次卷积处理和池化处理,得到第二个第一中间图像。示例性的,可以继续对第二个中间图像进行一次卷积处理和池化处理,得到第三个第一中间图像。通过这种方式,可以依次得到至少一个第一中间图像。
在一些实施例中,每执行一次第一操作,就得到一个第一中间图像,其中,执行第一操作的次数可以预先设定。
S404、对第一池化图像、各第一中间图像进行合并和降采样处理,得到边缘分割图像。
本公开实施例并不限定合并和降采样处理步骤的先后顺序,例如,可以先进行合并处理,再进行降采样处理,或者,可以先进行降采样处理,再进行合并处理。
在S404中所采用的步骤是先进行降采样处理,再进行合并处理。通过降采样处理,可以得到与待识别图像的像素尺寸相同的降采样图像,通过合并处理,可以合并至少两个降采样图像,从而使得合并后的图像能够具有各个降采样图像的特征。
在一些实施过程中,可以分别对第一池化图像、各第一中间图像进行特征提取,分别得到至少两个二维图像,然后对得到的至少两个二维图像分别进行上采样,得到与待识别图像的像素尺寸相同的两个上采样图像,然后基于对得到的两个上采样图像进行融合的融合图像,确定边缘分割图像。
例如,可以分别对第一池化图像、各第一中间图像再进行卷积处理,得到至少两个二维图像,再分别对这至少两个二维图像进行上采样,得到与待识别图像的像素尺寸相同的两个上采样图像,接着对这两个上采样图像进行融合,得到与待识别图像的像素尺寸相同的特定图像,然后确定特定图像中的每一个像素点是否为边缘像素点,从而得到边缘分割图像。
在一些实施例中,S402至S404可以替换为:对待识别图像进行一次卷积处理,得到第一卷积图像;对第一卷积图像执行至少一次第三操作,第三操作包括:在最近一次卷积处理得到的图像基础上依次进行一次池化处理和卷积处理,得到第三中间图像;对第一卷积图像、各第三中间图像进行合并和降采样处理,得到边缘分割图像。示例性的,可以对最近一次得到的第三中间图像进行池化处理,得到最后一次第一操作得到的第一中间图像。
以下说明得到边缘分割图像的一种实施方式:
对待识别图像依次做两次卷积处理,得到第一子卷积图像和第二子卷积图像,对第二子卷积图像进行池化,得到第一池化图像,对第一池化图像依次做两次卷积处理,得到第三子卷积图像和第四子卷积图像。示例性的,对第四子卷积图像进行池化处理,可以得到最后一次第一操作得到的第一中间图像。
在一些实施方式中,可以分别对第一子卷积图像和第二子卷积图像分别进行降维,得到两个降维图像,降维例如是采用两个1×1×21的卷积核,分别对第一子卷积图像和第二子卷积图像做卷积处理。然后对两个降维图像进行合并,再对合并后的图像采用1×1×1的卷积核进行卷积,以得到一个二维的图像,然后对该二维图像进行上采样,得到与待识别图像的像素尺寸相同的一个上采样图像。
可以分别对第三子卷积图像和第四子卷积图像分别进行降维,得到两个降维图像,降维例如是采用两个1×1×21的卷积核,分别对第三子卷积图像和第四子卷积图像做卷积处理。然后对两个降维图像进行合并,再对合并后的图像采用1×1×1的卷积核进行卷积,以得到另一个二维的图像,然后对该二维图像进行上采样,得到与待识别图像的像素尺寸相同的另一个上采样图像。
然后将得到的与第一子卷积图像和第二子卷积图像对应的上采样图像,和与第三子卷积图像和第四子卷积图像对应的上采样图像进行合并,得到与待识别图像的像素尺寸相同的特定图像,确定特定图像中的每一个像素点是否为边缘像素点,从而得到边缘分割图像。
在一些实施方式中,对第一池化图像、各第一中间图像进行合并和降采样处理,或者,对第一卷积图像、各第三中间图像进行合并和降采样处理,可以采用与上述类似的方式,例如,可以分别对第一池化图像和各第一中间图像进行降维,或者,可以分别对第一卷积图像、各第三中间图像进行降维,分别得到至少两个降维图像,然后分别对每个降维图像采用1×1×1的卷积核进行卷积处理,分别得到至少两个二维的图像。然后分别对这至少两个二维的图像进行上采样处理,得到至少两个与待识别图像的像素尺寸相同的上采样图像,对该至少两个上采样图像进行合并处理,得到特定图像,确定特定图像中的每一个像素点是否为边缘像素点,从而得到边缘分割图像。
S405、基于最后一次第一操作得到的第一中间图像,执行至少一次第二操作,第二操作包括:在最近一次池化处理得到的图像的基础上依次进行一次卷积处理和一次池化处理,得到第二中间图像。
在一些实施方式中,S405可以通过以下方式实现:对最后一次第一操作得到的第一中间图像进行多次的卷积池化处理,分别得到第二池化图像、第三池化图像以及第四池化图像;基于第二池化图像、第三池化图像以及第四池化图像,得到语义分割图像。
对最后一次第一操作得到的第一中间图像进行多次的卷积池化处理,分别得到第二池化图像、第三池化图像以及第四池化图,可以包括:对最后一次第一操作得到的第一中间图像进行一次卷积处理和池化处理,得到第二池化图像,对第二池化图像进行一次卷积处理和池化处理,得到第三池化图像,对第三池化图像进行一次卷积处理和池化处理,得到第四池化图像。
S406、对最后一次第一操作得到的第一中间图像和各第二中间图像进行合并和降采样处理,得到语义分割图像。
S407、基于边缘分割图像和语义分割图像,确定物体序列中每个物体的类别。
最后一次第一操作得到的第一中间图像,大于各第二中间图像的像素尺寸,对最后一次第一操作得到的第一中间图像和各第二中间图像进行合并处理,得到的图像的像素尺寸,可以与最后一次第一操作得到的第一中间图像的像素尺寸相同。
通过对通过S406中合并处理后的图像进行降采样处理,可以得到与待识别图像的像素尺寸相同的目标图像,通过对目标图像中的每个像素点进行是否为边缘像素点的确定,得到边缘分割图像。
以下说明基于第二池化图像、第三池化图像以及第四池化图像,得到语义分割图像的实现方式:
对第三池化图像和第四池化图像进行融合,得到第一融合图像,对第二池化图像和第一融合图像进行融合,得到第二融合图像;对第二融合图像进行上采样的,得到与待分析图像尺寸相同的上采样图像,然后基于确定的上采样图像中每个像素点的分类结果,得到语义分割图像。
在本公开实施例中,由于对第一池化图像、各第一中间图像进行合并和降采样处理,得到边缘分割图像,以及基于最后一次第一操作得到的第一中间图像,得到语义分割图像,从而能够共享已经得到的最后一次第一操作得到的第一中间图像,进而降低计算资源的消耗;另外,由于边缘分割图像是通过对第一池化图像、各第一中间图像进行合并和降采样处理得到的,语义分割图像是通过对最后一次第一操作得到的第一中间图像和各第二中间图像进行合并和降采样处理得到的,因此边缘分割图像和语义分割图像均是通过多个图像进行合并和降采样处理得到,从而能够利用到多个图像的特征,使得到的边缘分割图像和语义分割图像的准确性高。
需要注意的是,虽然本公开实施例提供的是采用的方案是:对第一池化图像、各第一中间图像进行合并和降采样处理,得到边缘分割图像。但是本公开实施例不限于此,在其它实施例中,可以对待识别图像进行卷积处理,得到第一卷积图像,对第一卷积图像进行池化处理后进行卷积处理,得到第二卷积图像,对第二卷积图像进行池化处理后进行卷积处理,得到第三卷积图像,对第三卷积图像进行池化处理后进行卷积处理,得到第四卷积图像,对第四卷积图像进行池化处理后进行卷积处理,得到第五卷积图像。可以基于第一卷积图像至第五卷积图像中的至少一者,确定边缘分割图像。例如,可以仅采用第一卷积图像或者第二卷积图像,确定边缘分割图像。再例如,可以采用第一卷积图像至第五卷积图像中的全部,确定边缘分割图像。本公开实施例对此不作限制。
在又一些实施例中,可以基于第一池化图像和各第一中间图像中的至少一者,或者,基于第一卷积图像和各第三中间图像中的至少一者,或者,基于第一池化图像、各第一中间图像以及各第二中间图像中的至少一者,基于确定边缘分割图像。
还需要注意的是,虽然本公开实施例提供的是采用的方案是:基于第二池化图像、第三池化图像以及第四池化图像,得到语义分割图像。但是本公开实施例不限于此,在其它实施例中,可以采用第三池化图像和第四池化图像,得到语义分割图像。或者,可以仅通过第四池化图像,得到语义分割图像。
在一些实施例中,边缘分割图像包括表征每个物体的边缘信息的掩模图像,和/或,边缘分割图像与待识别图像的尺寸相同。
在一些实施例中,语义分割图像包括表征每个像素点的语义信息的掩膜图像,和/或,语义分割图像与待识别图像的尺寸相同。
本公开实施例中,边缘分割图像和/或语义分割图像与待识别图像的尺寸相同,可以为边缘分割图像和/或语义分割图像与待识别图像的像素尺寸相同。即,边缘分割图像和/或语义分割图像,与待识别图像在宽度方向和高度方向上的像素点的数量相同。
这样,通过边缘分割图像包括表征每个物体的边缘信息的掩模图像,从而基于掩膜图像能够容易地确定每个物体的边缘信息;由于边缘分割图像与待识别图像的尺寸相同,从而能够基于边缘分割图像中每个物体的边缘位置,准确地确定每个物体的边缘位置;通过语义分割图像包括表征每个像素点的语义信息的掩膜图像,从而基于掩膜图像能够容易地确定每个像素点的语义信息;由于语义分割图像与待识别图像的尺寸相同,从而能够基于语义分割图像中每个像素点的语义信息,准确地确定每个物体的边缘位置所对应的区域内的像素点的语义信息的统计情况。
在一些实施例中,边缘分割图像为二值化掩模图像,边缘分割图像中的第一像素值的像素对应待识别图像中的每个物体的边缘的像素,边缘分割图像中的第二像素值的像素对应待识别图像中的每个物体的非边缘的像素。
边缘分割图像的像素尺寸可以为N×M,即边缘分割图像可以包括N×M个像素点,N×M个像素点中每个像素点的像素值为第一像素值或第二像素值。例如,在第一像素值为0,第二像素值为1的情况下,像素值为0的像素为每个物体的边缘的像素,像素值为1的像素为每个物体的非边缘的像素。每个物体的非边缘的像素可以包括物体序列中每个物体的没有处于边缘的像素,以及还可以包括物体序列的背景像素。
这样,通过边缘分割图像为二值化掩模图像,从而能够基于二值化掩模图像中的每一个像素点的是第一像素值或第二像素值,确定每一个像素点是否为物体序列中每个物体的边缘,从而能够容易地确定物体序列中每个物体的边缘。
在一些实施例中,S202可以包括:将待识别图像输入至经过训练的边缘检测模型中,得到物体序列中的每个物体的边缘检测结果,其中,边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到;根据边缘检测结果生成物体序列的边缘分割图像;将待识别图像输入至经过训练的语义分割模型中,得到物体序列中的每个物体的语义分割结果,其中,语义分割模型基于包含物体语义分割标注信息的序列物体图像训练得到;根据语义分割结果生成物体序列的语义分割图像。
在另一些实施例中,S202可以包括:将待识别图像输入至经过训练的目标分割模型中,得到物体序列中的每个物体的边缘检测结果和语义分割结果;根据边缘检测结果生成物体序列的边缘分割图像;根据语义分割结果生成物体序列的语义分割图像。
其中,经过训练的目标分割模型可以是采用目标训练样本对初始目标分割模型进行训练得到。其中,目标训练样本可以包括多个带标注的图像,每个带标注的图像中包括物体序列和对于每一物体的类别的标注信息。在一些实施方式中,每一物体的类别的标注信息可以是针对一个区域的标注信息,从而基于每一物体的类别的标注信息,可以得到每一物体的轮廓。在另一些实施方式中,还可以对每一物体的轮廓进行标注。
其中,边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到。
边缘检测结果包括待识别图像中每个像素是否属于物体的边缘像素的结果。
边缘分割图像中每一个像素点的像素值可以为第一像素值或第二像素值,在某一个像素点的像素值为第一像素值的情况下,表征该像素点为物体的边缘像素点;在某一个像素点的像素值为第二像素值的情况下,表征该像素点为非物体边缘点。非物体边缘点可以是物体内部的点或物体序列的背景上的点。
通过这种方式,通过将待识别图像分别输入至经过训练的边缘检测模型和经过训练的语义分割模型,从而能够基于这两个模型得到边缘分割图像和语义分割图像,且经过训练的边缘检测模型和经过训练的语义分割模型对图像的处理过程可以并行,从而能够快速地得到边缘分割图像和语义分割图像。
在一些实施例中,S203可以包括:对边缘分割图像和语义分割图像进行融合,得到融合图像;其中,融合图像包括:语义分割图像和在语义分割图像上显示的每个物体的边缘信息;在融合图像上,确定每个物体的边缘信息对应的区域内的数量最多的像素值;
通过这种方式,由于融合图像包括语义分割图像和在语义分割图像上显示的每个物体的边缘信息,从而通过融合图像,能够准确的确定每个物体的边缘信息和每个物体的边缘信息对应的区域内像素点的像素值,进而能够准确地确定物体序列中每个物体的类别。
图5为本公开实施例提供的再一种堆叠物体的识别方法的实现流程示意图,如图5所示,该方法应用于堆叠物体的识别装置,该方法包括:
S501、获取待识别图像,待识别图像包括由至少一个物体堆叠构成的物体序列。
S502、基于待识别图像,对物体序列进行边缘检测和语义分割,以确定物体序列的边缘分割图像和物体序列的语义分割图像。
S503、基于边缘分割图像和语义分割图像,确定物体序列中每个物体的类别。
在一些实施例中,物体具有与类别对应的价值属性。不同的类别可以具有相同或不同的价值属性。
S504、基于每个物体的类别和对应的价值属性,确定物体序列中物体的总价值。
堆叠物体的识别装置中可以配置有物体的类别与物体的价值之间的映射关系,从而可以基于该映射关系和每个物体的类别,确定每个物体的价值属性。
在物体包括游戏币的情况下,确定的每个物体的价值可以是游戏币的面值。
可以对得到的每个物体的价值进行相加,得到物体序列中物体的总价值。
在一些实施方式,用于放置物体的表面可以包括多个放置区域,可以向多个放置区域中的至少一个放置区域放置物体,从而可以基于待识别图像,确定每个放置区域中放置的物体序列中每个物体的类别,一个放置区域可以放置一个或多个物体序列。例如,可以基于边缘分割图像和语义分割图像,确定每个放置区域中物体序列中每个物体的类别。
在得到每个放置区域中物体序列中每个物体的类别,可以确定每个放置区域中物体序列中每个物体的价值属性,然后基于每个放置区域中物体序列中每个物体的价值属性,确定每个放置区域中物体的总价值。
在一些实施方式中,通过每个放置区域中物体的总价值的变化,结合游戏参与者的动作,可以确定游戏参与者的动作是否符合规范。
在得到每个放置区域中物体的总价值的情况下,可以向管理系统输出每个放置区域中物体的总价值,以使管理系统显示。再例如,可以向堆叠物体的识别设备中的行为分析装置,输出每个放置区域中物体的总价值,以使行为分析装置可以基于每个放置区域中物体的总价值的变化,确定用于放置物体的表面周围的对象的行为是否符合规范。
在本公开实施例中,由于基于每个物体的类别和对应的价值属性,确定物体序列中物体的总价值,从而可以方便的统计堆叠物体的总价值,例如方便对堆叠的游戏币的总价值进行检测和确定。
图6为本公开实施例提供的一种堆叠物体的识别方法的流程框架示意图,如图6所示,待识别图像中可以是图像61或者包括图像61,将待识别图像输入至目标分割模型,得到边缘分割图像和语义分割图像,边缘分割图像可以是图像62或者包括图像62,语义分割图像可以是图像63或者包括图像63。
基于图像62能够确定物体序列中每个物体的轮廓,从而可以确定物体序列的数量以及物体序列中每个物体在图像62纵坐标上的起始位置和结束位置。在一些实施方式中,可以得到物体序列中每个物体在图像62横坐标上的起始位置和结束位置。
通过图像62中每个物体在图像62纵坐标上的起始位置和结束位置,可以在确定图像63中对应的位置并标记,从而得到图像64,并通过图像64确定每个物体内标识值,将选取的标识值个数最多的标识值所对应的类别,确定为每个物体的类别。图像64对于每个物体轮廓的标记比图像63中的更准确。
例如,可以基于图像64确定识别结果,识别结果包括物体序列中每个物体的类别,例如,识别结果可以包括(6,6,6,……,5,5,5)。识别出15个标识值为6的类别和识别出15个标识值为5的类别,则识别结果可以包括15个6和15个5。
图7为本公开实施例提供的一种目标分割模型的架构示意图,如图7所示,基于目标分割模型70,待分析图像可以依次进行五次的卷积池化操作,得到卷积图像1至5,以及池化图像1至5。其中,卷积图像1和5可以分别对应上述的第一卷积图像至第五卷积图像;池化图像1可以对应上述的第一池化图像,池化图像2至3可以对应上述的第一中间图像,池化图像4至5可以分别对应上述的第二中间图像。
可以对卷积图像1和2进行上采样和合并71的操作,得到边缘分割图像。可以对池化图像3-5进行合并和上采样72的操作,得到语义分割图像。在另一些实施例中,可以对池化图像1和2进行上采样和合并71的操作,得到边缘分割图像。
基于前述的实施例,本公开实施例提供一种堆叠物体的识别装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过终端设备中的处理器来实现;当然也可通过具体的逻辑电路实现。
图8为本公开实施例提供的一种堆叠物体的识别装置的组成结构示意图,如图8所示,堆叠物体的识别装置800包括:
获取单元801,用于获取待识别图像,待识别图像包括由至少一个物体堆叠构成的物体序列;
确定单元802,用于基于待识别图像,对物体序列进行边缘检测和语义分割,以确定物体序列的边缘分割图像和物体序列的语义分割图像,其中,边缘分割图像包括形成物体序列的每个物体的边缘信息,语义分割图像中的每个像素点表征像素点所属的物体的类别;
识别单元803,用于基于边缘分割图像和语义分割图像,确定物体序列中每个物体的类别。
在一些实施例中,识别单元803,还用于:基于边缘分割图像,确定待识别图像中物体序列中每个物体的边界位置;基于语义分割图像中与每个物体的边界位置对应的区域内的像素点的像素值,确定物体序列中每个物体的类别,其中,像素点的像素值表征像素点所属的物体的类别标识。
在一些实施例中,识别单元803,识别单元,还用于:对于每个物体,对语义分割图像中与物体的边界位置对应的区域内的像素点的像素值进行统计;根据统计结果,确定区域内的数量最多的像素值;将数量最多的像素值所表征的类别标识确定为物体的类别标识。
在一些实施例中,确定单元802,还用于对待识别图像依次进行一次卷积处理和一次池化处理得到第一池化图像;基于第一池化图像,执行至少一次第一操作,第一操作包括:在最近一次池化处理得到的图像基础上依次进行一次卷积处理和池化处理,得到第一中间图像;对第一池化图像、各第一中间图像进行合并和降采样处理,得到边缘分割图像;基于最后一次第一操作得到的第一中间图像,执行至少一次第二操作,第二操作包括:在最近一次池化处理得到的图像的基础上依次进行一次卷积处理和一次池化处理,得到第二中间图像;对最后一次第一操作得到的第一中间图像和各第二中间图像进行合并和降采样处理,得到语义分割图像。
在一些实施例中,边缘分割图像包括表征每个物体的边缘信息的掩模图像,和/或,边缘分割图像与待识别图像的尺寸相同;
语义分割图像包括表征每个像素点的语义信息的掩膜图像,和/或,语义分割图像与待识别图像的尺寸相同。
在一些实施例中,边缘分割图像为二值化掩模图像,边缘分割图像中的第一像素值的像素对应待识别图像中的每个物体的边缘的像素,边缘分割图像中的第二像素值的像素对应待识别图像中的每个物体的非边缘的像素。
在一些实施例中,确定单元802,还用于:将待识别图像输入至经过训练的边缘检测模型中,得到物体序列中的每个物体的边缘检测结果,其中,边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到;根据边缘检测结果生成物体序列的边缘分割图像;将待识别图像输入至经过训练的语义分割模型中,得到物体序列中的每个物体的语义分割结果,其中,语义分割模型基于包含物体语义分割标注信息的序列物体图像训练得到;根据语义分割结果生成物体序列的语义分割图像。
在一些实施例中,识别单元803,还用于:对边缘分割图像和语义分割图像进行融合,得到融合图像;其中,融合图像包括:语义分割图像和在语义分割图像上显示的每个物体的边缘信息;在融合图像上,确定每个物体的边缘信息对应的区域内的数量最多的像素值;将数量最多的像素值所表征的类别确定为每个物体的类别。
在一些实施例中,物体具有与类别对应的价值属性;确定单元802,还用于:基于每个物体的类别和对应的价值属性,确定物体序列中物体的总价值。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开装置实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
需要说明的是,本公开实施例中,如果以软件功能模块的形式实现上述的堆叠物体的识别方法,并作为独立的产品销售或使用时,也可以存储在一个计算机存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备执行本公开各个实施例所述方法的全部或部分。
图9为本公开实施例提供的一种堆叠物体的识别设备的硬件实体示意图,如图9所示,该堆叠物体的识别设备900的硬件实体包括:处理器901和存储器902,其中,存储器902存储有可在处理器901上运行的计算机程序,处理器901执行程序时实现上述任一实施例的方法中的步骤。
存储器902存储有可在处理器上运行的计算机程序,存储器902配置为存储由处理器901可执行的指令和应用,还可以缓存待处理器901以及堆叠物体的识别设备900中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random Access Memory,RAM)实现。
处理器901执行程序时实现上述任一项的堆叠物体的识别方法的步骤。处理器901通常控制堆叠物体的识别设备900的总体操作。
本公开实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的堆叠物体的识别方法的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本公开存储介质和设备实施例中未披露的技术细节,请参照本公开方法实施例的描述而理解。
上述堆叠物体的识别装置、芯片或处理器可以包括以下任一个或多个的集成:特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital Signal ProcessingDevice,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)、嵌入式神经网络处理器(neural-networkprocessing units,NPU)、控制器、微控制器、微处理器。可以理解地,实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。
上述计算机存储介质或存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“本公开实施例”或“前述实施例”或“一些实施方式”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“本公开实施例”或“前述实施例”或“一些实施方式”或“一些实施例”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本公开的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
在未做特殊说明的情况下,堆叠物体的识别设备执行本公开实施例中的任一步骤,可以是堆叠物体的识别设备的处理器执行该步骤。除非特殊说明,本公开实施例并不限定堆叠物体的识别设备执行下述步骤的先后顺序。另外,不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是,本公开实施例中的任一步骤是堆叠物体的识别设备可以独立执行的,即堆叠物体的识别设备执行上述实施例中的任一步骤时,可以不依赖于其它步骤的执行。
在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本公开各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本公开所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本公开所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本公开所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本公开上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本公开各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
在本公开实施例中,不同实施例中相同步骤和相同内容的说明,可以互相参照。在本公开实施例中,术语“并”不对步骤的先后顺序造成影响,例如,堆叠物体的识别设备执行A,并执行B,可以是堆叠物体的识别设备先执行A,再执行B,或者是堆叠物体的识别设备先执行B,再执行A,或者是堆叠物体的识别设备执行A的同时执行B。
在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
需要说明的是,本公开所涉及的各个实施例中,可以执行全部的步骤或者可以执行部分的步骤,只要能够形成一个完整的技术方案即可。
以上所述,仅为本公开的实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种堆叠物体的识别方法,包括:
获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;
基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;
基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。
2.根据权利要求1所述的方法,其中,所述基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别,包括:
基于所述边缘分割图像,确定所述待识别图像中所述物体序列中每个物体的边界位置;
基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,其中,所述像素点的像素值表征所述像素点所属的物体的类别标识。
3.根据权利要求2所述的方法,其中,所述基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,包括:
对于每个所述物体,
对所述语义分割图像中与所述物体的边界位置对应的区域内的像素点的像素值进行统计;
根据统计结果,确定所述区域内的数量最多的像素值;
将所述数量最多的像素值所表征的类别标识确定为所述物体的类别标识。
4.根据权利要求1至3任一项所述的方法,其中,所述基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,包括:
对所述待识别图像依次进行一次卷积处理和一次池化处理得到第一池化图像;
基于所述第一池化图像,执行至少一次第一操作,所述第一操作包括:在最近一次池化处理得到的图像基础上依次进行一次卷积处理和池化处理,得到第一中间图像;
对所述第一池化图像、各所述第一中间图像进行合并和降采样处理,得到所述边缘分割图像;
基于最后一次第一操作得到的第一中间图像,执行至少一次第二操作,所述第二操作包括:在最近一次池化处理得到的图像的基础上依次进行一次卷积处理和一次池化处理,得到第二中间图像;
对所述最后一次第一操作得到的第一中间图像和各所述第二中间图像进行合并和降采样处理,得到所述语义分割图像。
5.根据权利要求1至4任一项所述的方法,其中,所述边缘分割图像包括表征每个物体的边缘信息的掩模图像,和/或,所述边缘分割图像与所述待识别图像的尺寸相同;
所述语义分割图像包括表征每个像素点的语义信息的掩膜图像,和/或,所述语义分割图像与所述待识别图像的尺寸相同。
6.根据权利要求5所述的方法,其中,所述边缘分割图像为二值化掩模图像,所述边缘分割图像中的第一像素值的像素对应所述待识别图像中的每个物体的边缘的像素,所述边缘分割图像中的第二像素值的像素对应所述待识别图像中的每个物体的非边缘的像素。
7.根据权利要求1至6任一项所述的方法,其中,所述基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,包括:
将所述待识别图像输入至经过训练的边缘检测模型中,得到所述物体序列中的每个物体的边缘检测结果,其中,所述边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到;
根据所述边缘检测结果生成所述物体序列的边缘分割图像;
将所述待识别图像输入至经过训练的语义分割模型中,得到所述物体序列中的每个物体的语义分割结果,其中,所述语义分割模型基于包含物体语义分割标注信息的序列物体图像训练得到;
根据所述语义分割结果生成所述物体序列的语义分割图像。
8.根据权利要求1至7任一项所述的方法,其中,所述基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别,包括:
对所述边缘分割图像和所述语义分割图像进行融合,得到融合图像;其中,所述融合图像包括:所述语义分割图像和在所述语义分割图像上显示的所述每个物体的边缘信息;
在所述融合图像上,确定所述每个物体的边缘信息对应的区域内的数量最多的像素值;
将所述数量最多的像素值所表征的类别确定为所述每个物体的类别。
9.根据权利要求1至8任一项所述的方法,其中,所述物体具有与类别对应的价值属性;所述方法还包括:
基于所述每个物体的类别和对应的价值属性,确定所述物体序列中物体的总价值。
10.一种堆叠物体的识别设备,包括:存储器和处理器,
所述存储器存储有可在所述处理器上运行的计算机程序,
所述处理器执行所述计算机程序时配置为:
获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;
基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;
基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。
11.根据权利要求10所述的设备,其中,在基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别时,所述处理器配置为:
基于所述边缘分割图像,确定所述待识别图像中所述物体序列中每个物体的边界位置;
基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别,其中,所述像素点的像素值表征所述像素点所属的物体的类别标识。
12.根据权利要求11所述的设备,其中,在基于所述语义分割图像中与所述每个物体的边界位置对应的区域内的像素点的像素值,确定所述物体序列中每个物体的类别时,所述处理器配置为:
对于每个所述物体,
对所述语义分割图像中与所述物体的边界位置对应的区域内的像素点的像素值进行统计;
根据统计结果,确定所述区域内的数量最多的像素值;
将所述数量最多的像素值所表征的类别标识确定为所述物体的类别标识。
13.根据权利要求10至12任一项所述的设备,其中,在基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像时,所述处理器配置为:
对所述待识别图像依次进行一次卷积处理和一次池化处理得到第一池化图像;
基于所述第一池化图像,执行至少一次第一操作,所述第一操作包括:在最近一次池化处理得到的图像基础上依次进行一次卷积处理和池化处理,得到第一中间图像;
对所述第一池化图像、各所述第一中间图像进行合并和降采样处理,得到所述边缘分割图像;
基于最后一次第一操作得到的第一中间图像,执行至少一次第二操作,所述第二操作包括:在最近一次池化处理得到的图像的基础上依次进行一次卷积处理和一次池化处理,得到第二中间图像;
对所述最后一次第一操作得到的第一中间图像和各所述第二中间图像进行合并和降采样处理,得到所述语义分割图像。
14.根据权利要求10至13任一项所述的设备,其中,所述边缘分割图像包括表征每个物体的边缘信息的掩模图像,和/或,所述边缘分割图像与所述待识别图像的尺寸相同;
所述语义分割图像包括表征每个像素点的语义信息的掩膜图像,和/或,所述语义分割图像与所述待识别图像的尺寸相同。
15.根据权利要求14所述的设备,其中,所述边缘分割图像为二值化掩模图像,所述边缘分割图像中的第一像素值的像素对应所述待识别图像中的每个物体的边缘的像素,所述边缘分割图像中的第二像素值的像素对应所述待识别图像中的每个物体的非边缘的像素。
16.根据权利要求10至15任一项所述的设备,其中,在基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像时,所述处理器配置为:
将所述待识别图像输入至经过训练的边缘检测模型中,得到所述物体序列中的每个物体的边缘检测结果,其中,所述边缘检测模型基于包含物体边缘标注信息的序列物体图像训练得到;
根据所述边缘检测结果生成所述物体序列的边缘分割图像;
将所述待识别图像输入至经过训练的语义分割模型中,得到所述物体序列中的每个物体的语义分割结果,其中,所述语义分割模型基于包含物体语义分割标注信息的序列物体图像训练得到;
根据所述语义分割结果生成所述物体序列的语义分割图像。
17.根据权利要求10至16任一项所述的设备,其中,在基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别时,所述处理器配置为:
对所述边缘分割图像和所述语义分割图像进行融合,得到融合图像;其中,所述融合图像包括:所述语义分割图像和在所述语义分割图像上显示的所述每个物体的边缘信息;
在所述融合图像上,确定所述每个物体的边缘信息对应的区域内的数量最多的像素值;
将所述数量最多的像素值所表征的类别确定为所述每个物体的类别。
18.根据权利要求10至17任一项所述的设备,其中,所述物体具有与类别对应的价值属性;所述处理器还配置为:
基于所述每个物体的类别和对应的价值属性,确定所述物体序列中物体的总价值。
19.一种计算机存储介质,所述计算机存储介质存储有至少一个程序,所述至少一个程序被至少一个处理器执行时配置为:
获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;
基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;
基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。
20.一种计算机程序,包括可由电子设备执行的计算机指令,其中,所述计算机指令在被所述电子设备中的处理器执行时配置为:
获取待识别图像,所述待识别图像包括由至少一个物体堆叠构成的物体序列;
基于所述待识别图像,对所述物体序列进行边缘检测和语义分割,以确定所述物体序列的边缘分割图像和所述物体序列的语义分割图像,其中,所述边缘分割图像包括形成所述物体序列的每个物体的边缘信息,所述语义分割图像中的每个像素点表征所述像素点所属的物体的类别;
基于所述边缘分割图像和所述语义分割图像,确定所述物体序列中每个物体的类别。
CN202180002740.7A 2021-09-21 2021-09-27 一种堆叠物体的识别方法、装置、设备及计算机存储介质 Pending CN116171463A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202110411X 2021-09-21
SG10202110411X 2021-09-21
PCT/IB2021/058782 WO2023047167A1 (en) 2021-09-21 2021-09-27 Stacked object recognition method, apparatus and device, and computer storage medium

Publications (1)

Publication Number Publication Date
CN116171463A true CN116171463A (zh) 2023-05-26

Family

ID=85039661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180002740.7A Pending CN116171463A (zh) 2021-09-21 2021-09-27 一种堆叠物体的识别方法、装置、设备及计算机存储介质

Country Status (3)

Country Link
US (1) US20230092468A1 (zh)
CN (1) CN116171463A (zh)
AU (1) AU2021240229B1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0610916A3 (en) * 1993-02-09 1994-10-12 Cedars Sinai Medical Center Method and device for generating preferred segmented numerical images.
CN108229504B (zh) * 2018-01-29 2020-09-08 深圳市商汤科技有限公司 图像解析方法及装置
US10824864B2 (en) * 2018-06-25 2020-11-03 Apple Inc. Plane detection using semantic segmentation
EP3826544A1 (en) * 2018-07-26 2021-06-02 Koninklijke Philips N.V. Ultrasound system with an artificial neural network for guided liver imaging
CA3051525A1 (en) * 2018-08-08 2020-02-08 Sohail Zangenehpour Apparatus and method for detecting, classifying and tracking road users on frames of video data
DE102019129107A1 (de) * 2019-10-29 2021-04-29 Connaught Electronics Ltd. Verfahren und System für Bildanalyse unter Verwendung von Umgrenzungserfassung
CN111462149B (zh) * 2020-03-05 2023-06-06 中国地质大学(武汉) 一种基于视觉显著性的实例人体解析方法
CN112017189B (zh) * 2020-10-26 2021-02-02 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
AU2021240229B1 (en) 2023-02-02
US20230092468A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
JP7165742B2 (ja) 生体検出方法及び装置、電子機器ならびに記憶媒体
CN112883918B (zh) 人脸检测方法、装置、终端设备及计算机可读存储介质
CN111696080B (zh) 一种基于静态纹理的人脸欺诈检测方法、系统及存储介质
CN110852311A (zh) 一种三维人手关键点定位方法及装置
WO2023065665A1 (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN110222572A (zh) 跟踪方法、装置、电子设备及存储介质
CN111310724A (zh) 基于深度学习的活体检测方法、装置、存储介质及设备
CN111104813A (zh) 二维码图像关键点检测方法、装置、电子设备及存储介质
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
WO2022199395A1 (zh) 人脸活体检测方法、终端设备及计算机可读存储介质
CN111680670B (zh) 一种跨模态人头检测方法及装置
CN116171463A (zh) 一种堆叠物体的识别方法、装置、设备及计算机存储介质
CN112766012B (zh) 二维码图像的识别方法、装置、电子设备及存储介质
CN105224957A (zh) 一种基于单样本的图像识别的方法及系统
CN112348112B (zh) 图像识别模型的训练方法、训练装置及终端设备
CN116246298A (zh) 一种空间占用人数统计方法、终端设备及存储介质
CN114677737A (zh) 生物信息识别方法、装置、设备及介质
CN114118412A (zh) 证件识别模型训练及证件识别的方法、系统、设备及介质
CN115004245A (zh) 目标检测方法、装置、电子设备和计算机存储介质
CN116171461A (zh) 堆叠物体的识别方法、装置、设备及计算机存储介质
CN112069885A (zh) 人脸属性识别方法、装置及移动终端
WO2023047167A1 (en) Stacked object recognition method, apparatus and device, and computer storage medium
CN111898602B (zh) 一种图像中的凭证号码区域识别方法、装置及设备
CN113971671A (zh) 实例分割方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination