CN112513877A - 目标对象的识别方法、装置和系统 - Google Patents
目标对象的识别方法、装置和系统 Download PDFInfo
- Publication number
- CN112513877A CN112513877A CN202080003317.4A CN202080003317A CN112513877A CN 112513877 A CN112513877 A CN 112513877A CN 202080003317 A CN202080003317 A CN 202080003317A CN 112513877 A CN112513877 A CN 112513877A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- height
- sample image
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005520 cutting process Methods 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 79
- 238000002372 labelling Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Geometry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开了提供了一种目标对象的识别方法、装置和系统。所述方法包括:从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象;将所述目标图像的高度调整至预设高度,其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向;提取所述调整后的目标图像的特征图;将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征;根据所述预设数量段特征中的每一段特征进行目标对象的识别。
Description
相关申请的交叉引用
本申请要求2020年8月1日提交的题为“目标对象的识别方法、装置和系统”、申请号为10202007347V的新加坡专利申请的优先权,以上申请的全部内容通过引用并入本文。
技术领域
本公开涉及计算机视觉技术领域,尤其涉及目标对象的识别方法、装置和系统。
背景技术
在日常生产和生活中,常常需要对一些目标对象进行识别。以桌面游戏这一娱乐场景为例,在某些桌面游戏中需要对桌面上的游戏币进行识别,以获取游戏币的类别和数量信息。然而,传统的识别方式识别准确率较低。
发明内容
根据本公开的一方面,提供了一种目标对象的识别方法,所述方法包括:从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象;将所述目标图像的高度调整至预设高度,其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向;提取所述调整后的目标图像的特征图;将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征;根据所述预设数量段特征中的每一段特征进行目标对象的识别。
结合本公开提供的任一实施方式,将所述目标图像的高度调整至预设高度,包括:将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;在所述缩放后的目标图像高度大于所述预设高度的情况下,将所述缩放后的目标图像的高度和宽度等比例缩小,直至所述缩小后的目标图像的高度等于所述预设高度。
结合本公开提供的任一实施方式,将所述目标图像的高度调整至预设高度,包括:将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;在所述缩放后的目标图像的高度小于所述预设高度的情况下,利用第一像素对所述缩放后的目标图像进行填充,使得填充后的目标图像的高度为所述预设高度。
结合本公开提供的任一实施方式,所述目标图像中的待识别的目标对象为片状物,且各个待识别的目标对象的厚度相等,所述多个待识别的目标对象沿着其厚度方向叠放;所述预设高度为所述厚度的整数倍。
结合本公开提供的任一实施方式,提取所述特征图以及进行目标对象的识别都由神经网络执行,所述神经网络是使用样本图像及其标注信息训练的。
结合本公开提供的任一实施方式,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别,所述神经网络是通过以下操作训练的:对尺寸调整后的样本图像进行特征提取,得到所述尺寸调整后的样本图像的特征图;根据将所述特征图分段后得到的每一段特征,进行样本图像中目标对象的识别,得到样本图像中每个目标对象的预测类别;根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值。
结合本公开提供的任一实施方式,所述样本图像的标注信息还包括每个标注类别的目标对象的数目;调整所述神经网络的参数值,包括:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目,调整所述神经网络的参数值。
结合本公开提供的任一实施方式,所述样本图像的标注信息还包括所述样本图像中的目标对象的总数目;调整所述神经网络的参数值,包括:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
结合本公开提供的任一实施方式,所述方法还包括:对经过训练的所述神经网络进行测试;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别精度进行排序,得到识别精度的排序结果;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别错误率进行排序,得到识别错误率的排序结果;根据所述识别精度的排序结果和所述识别错误率的排序结果,进一步训练所述神经网络。
根据本公开的一方面,提供了一种目标对象的识别装置,所述装置包括:获取单元,用于从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象;调整单元,用于将所述目标图像的高度调整至预设高度,其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向;提取单元,用于提取调整后的目标图像的特征图;分段单元,用于将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征;识别单元,用于根据所述预设数量段特征中的每一段特征进行目标对象的识别。
结合本公开提供的任一实施方式,所述调整单元用于:将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;在所述缩放后的目标图像高度大于预设高度的情况下,将所述缩放后的目标图像的高度和宽度等比例缩小,直至所述缩小后的目标图像的高度等于所述预设高度。
结合本公开提供的任一实施方式,所述调整单元用于:将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;在所述缩放后的目标图像的高度小于预设高度的情况下,利用第一像素对缩放后的目标图像进行填充,使得填充后的目标图像的高度为所述预设高度。
结合本公开提供的任一实施方式,所述目标图像中的待识别的目标对象为片状物,且各个待识别的目标对象的厚度相等,多个待识别的目标对象沿着厚度方向叠放;所述预设高度为所述厚度的整数倍。
结合本公开提供的任一实施方式,提取所述特征图以及进行目标对象的识别都由神经网络执行,所述神经网络是使用样本图像及其标注信息训练的。
结合本公开提供的任一实施方式,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别;所述装置还包括训练单元,用于通过下列操作对所述神经网络进行训练:对尺寸调整后的样本图像进行特征提取,得到所述尺寸调整后的样本图像的特征图;根据将所述特征图分段后得到的每一段特征,进行样本图像中目标对象的识别,得到样本图像中每个目标对象的预测类别;根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值。
结合本公开提供的任一实施方式,所述样本图像的标注信息还包括每个标注类别的目标对象的数目;所述训练单元用于:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目,调整所述神经网络的参数值。
结合本公开提供的任一实施方式,所述样本图像的标注信息还包括所述样本图像中的目标对象的总数目;所述训练单元用于:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
结合本公开提供的任一实施方式,所述装置还包括测试单元,用于:对经过训练的所述神经网络进行测试;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别精度进行排序,得到识别精度的排序结果;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别错误率进行排序,得到识别错误率的排序结果;根据所述识别精度的排序结果和所述识别错误率的排序结果,进一步训练所述神经网络。
根据本公开的一方面,提供了一种电子设备,所述设备包括处理器和用于存储处理器可执行指令的存储器,其中,所述处理器被配置为调用所述存储器存储的指令,以实现本公开任一实施方式所述的目标对象的识别方法。
根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现本公开任一所述的目标对象的识别方法。
本公开一个或多个实施例提供的目标对象的识别方法、装置、电子设备及存储介质,通过将从采集的图像中裁剪出的目标图像的高度调整至预设高度,提取调整后的目标图像的特征图,并将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征,以根据所述预设数量段特征中的每一段特征进行目标对象的识别。由于分段所得到的分段特征与各个目标对象的特征图是相对应的,因此根据分段特征进行目标对象的识别,不会导致目标对象的数量对识别准确性的影响,从而提高了目标对象的识别准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1是根据本公开至少一个实施例的目标对象的识别方法流程图;
图2A为根据本公开至少一个实施例的目标对象的识别方法中正立堆叠的多个目标对象的示意图;
图2B为根据本公开至少一个实施例的目标对象的识别方法中侧立堆叠的多个目标对象的示意图;
图3为根据本公开至少一个实施例的目标对象的识别装置的框图;
图4为根据本公开至少一个实施例的电子设备的框图。
具体实施方式
为了使本领域技术人员更好地理解本公开,下面将结合附图,对本公开的一些实施例进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的可能实施例。基于本公开的一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据本公开至少一个实施例的目标对象的识别方法流程图。如图1所示,该方法可以包括步骤101~105。
在步骤101中,从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象。
在一些较为常见的情形中,待识别的目标对象是各种形状的片状物,例如,游戏币,并且各个目标对象的厚度(高度)通常是相同的。多个待识别的目标对象通常沿着厚度方向叠放。如图2A所示,多个游戏币沿竖直方向叠放(正立(stand)堆叠),目标图像的高度方向(H)为竖直方向,目标图像的宽度方向(W)为与目标图像的高度方向(H)垂直的方向。也可以如图2B所示,多个游戏币沿水平方向叠放(侧立(float)堆叠),目标图像的高度方向(H)为水平方向,目标图像的宽度方向(W)为与目标图像的高度方向(H)垂直的方向。
待识别的目标对象可以是放置在目标区域中的目标对象。所述目标区域可以是平面(例如,桌面)、容器(例如,盒子)等。可以通过目标区域附近的图像采集装置,例如相机或者摄像头,来采集所述目标区域的图像。
在本公开的实施例中,可以利用深度学习网络,例如RCNN(Region ConvolutionalNeural Network),对所采集的图像进行检测,获得目标对象检测结果,所述检测结果可以是检测框。根据检测框,可以从所述采集的图像中剪裁出包含叠放的多个待识别的目标对象的目标图像。本领域技术人员应当理解,RCNN仅为示例,也可以采用其他的深度学习网络进行目标检测,本公开对此不进行限制。
在步骤102中,将所述目标图像的高度调整至预设高度。
其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向,所述预设高度可以为所述待识别的目标对象的厚度的整数倍。以图2A和图2B所示的堆叠的游戏币为例,可以将图2A和图2B中展示的游戏币的叠放的方向确定为所述目标图像的高度方向,相应地,将所述游戏币的径向方向确定为所述目标图像的宽度方向。
在步骤103中,提取调整后的目标图像的特征图。
对于调整后的目标图像,可以利用预先训练的特征提取网络,以获得所述调整后的目标图像的特征图。其中,所述特征提取网络可以包括多个卷积层,或包括多个卷积层和池化层等等。经过多层的特征提取,可以逐步将底层特征转换为中层或高层特征,以提高对于所述目标图像的表达力,有利于后续的处理。
在步骤104中,将所述特征图沿着与所述目标图像的高度方向进行分段,得到预设数量段特征。
通过对所述特征图在目标图像的高度方向上进行分段,可以得到预设数量段特征,其中,每一段特征可以认为与一个目标对象相对应。其中,所述预设数量也即待识别的目标对象的最大数目。
在一个示例中,所述特征图可以包括多个维度,例如通道维度、高度维度、宽度维度、批(batch)维度等等,所述特征图的格式例如可以表达为[B C H W],其中B表示批维度,C表示通道维度,H表示高度维度,W表示宽度维度。其中,所述特征图的高度维度和宽度维度所指示的方向,可以根据目标图像的高度方向和宽度方向来确定。
在步骤105中,根据所述预设数量段特征中的每一段特征进行目标对象的识别。
由于每一段特征对应于一个目标对象,因此通过对每一段特征进行目标对象的识别,相较于直接利用目标图像的特征图进行对象识别来说,消除了目标对象的数量的影响,提高了对目标图像中的目标对象的识别准确性。
在一些实施例中,可以通过设置在目标区域侧面的图像采集装置来拍摄包括正立的多个目标对象的目标图像(称为侧视图像),或者通过设置在目标区域上方的图像采集装置来拍摄包括侧立的多个目标对象的目标图像(称为俯视图像)。
在一些实施例中,可以通过如下方法调整所述目标图像的高度。
首先获取所述目标图像对应的预设高度和预设宽度,用于对所述目标图像进行尺寸变换。其中,所述预设宽度可以根据目标对象的平均宽度进行设置,所述预设高度可以根据所述目标对象的平均高度,以及待识别的目标对象的最大数量进行设置。
在一个示例中,可以将所述目标图像的高度和宽度等比例缩放,直至所述目标图像的宽度达到预设宽度。其中,等比例缩放是指,维持所述目标图像的高度和宽度之间的比例不变,对于所述目标图像进行放大或者缩小。其中,所述预设宽度和预设高度的单位可以是像素,也可以是其他单位,本公开对此不进行限制。
在缩放后的目标图像的宽度达到预设宽度,而缩放后的目标图像高度大于预设高度的情况下,将所述缩放后的目标图像的高度和宽度等比例缩小,直至缩小后的目标图像的高度等于预设高度。
举例来说,假设所述目标对象为游戏币,根据游戏币的平均宽度,可以将预设宽度设置为224pix(像素);根据游戏币的平均高度,以及待识别的游戏币的最大数量,例如为72,可以将预设高度设置为1344pix。首先,可以将目标图像的宽度调整为224pix,并等比例地调整所述目标图像的高度。在调整后的高度大于1344pix的情况下,可以对调整后的目标图像的高度再次调整,使所述目标图像的高度为1344pix,并等比例地调整所述目标图像的宽度,从而实现将所述目标图像的高度调整至预设高度1344pix。在调整后的高度等于1344pix的情况下,则无需再次调整,即实现了将所述目标图像的高度调整至预设高度1344pix。
在一个示例中,将所述目标图像的高度和宽度等比例缩放,直至所述目标图像的宽度达到预设宽度;在缩放后的目标图像的宽度达到预设宽度,而缩放后的目标图像的高度小于预设高度的情况下,利用第一像素对缩放后的目标图像进行填充,使得填充后的目标图像的高度为预设高度。
其中,所述第一像素可以是像素值为零的像素,也即黑色像素。所述第一像素也可以设置为其他像素值,具体像素值并不影响本公开实施例的效果。
仍以所述目标对象为游戏币,预设宽度为224pix、预设高度为1344pix、最大数量为72为例,首先可以将目标图像的宽度缩放为224pix,并等比例地缩放所述目标图像的高度。在缩放后的目标图像的高度小于1344pix的情况下,则将不足1344pix且高于缩放后的目标图像的高度部分填充黑色像素,使填充后的目标图像的高度为1344pix。在填充后的目标图像的高度等于1344pix的情况下,则无需进行填充,即实现了将所述目标图像的高度调整至预设高度1344pix。
在将所述目标图像的高度调整至预设高度之后,则可以对调整后的目标图像的特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征。
以特征图[B C H W]为例,根据预设数量,也即待识别目标对象的最大数目,例如72,将特征图[B C H W]在H维度(高度维度)进行分段。由于在调整后的目标图像的高度小于预设高度的情况下,会对目标图像进行填充,使得高度达到预设高度;而在调整后的目标图像的高度大于预设高度的情况下,通过等比例缩小将目标图像的高度调整为预设高度,因此所述目标图像的特征图都是根据预设高度的目标图像获取的。并且,由于所述预设高度是根据待识别的目标对象的最大数目设置的,根据所述最大数目对所述特征图进行分段,将所得到的每个分段特征图与各个目标对象进行对应,并根据每个分段特征图进行目标对象的识别,可以减小目标对象的数量的影响,提高各个目标对象识别的准确性。
在一些实施例中,对于所述填充后的目标图像中,对所述填充后的目标图像进行分段得到预设数量的段特征,对所述段特征进行分类时,所述第一像素所填充的区域所对应的分段特征其分类结果为空。例如对于黑色像素填充区域所对应的分段特征,可以确定这些分段特征所对应的分类结果为空。通过目标对象的最大数目与为空的分类结果的数目之差,可以确定目标图像所包含的非空分类结果的数目,或者也可直接识别出与目标对象对应的段特征的非空分类结果的数目,从而根据所获得的非空分类结果的数目,可以确定目标图像所包含的目标对象的数量。
假设待识别的目标对象的最大数目为72,将目标图像的特征图分为72段,根据每个分段特征图进行目标对象的识别,则可以获得72个分类结果。在目标图像中包括黑色像素填充区域的情况下,该填充区域的分段特征图所对应的分类结果为空,例如在获得了16个为空分类结果的情况下,则获得了56个非空分类结果,从而可以确定目标图像包含了56个目标对象。
本领域技术人员应当理解,以上预设宽度参数、预设高度参数、待识别的目标对象的最大数目参数均为示例,这些参数的具体数值可以根据实际需要具体设置,本公开实施例对此不进行限制。
在一些实施例中,提取特征图以及进行目标对象的识别都由神经网络执行,所述神经网络是使用样本图像及其标注信息训练的。所述神经网络可以包括特征提取网络和分类网络,其中,所述特征提取网络用于提取尺寸调整后的目标图像的特征图,所述分类网络用于根据预设数量段特征中的每一段特征进行目标对象的识别。其中,所述样本图像包括多个目标对象。
在一个示例中,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别,所述神经网络是通过以下操作训练的:对尺寸调整后的样本图像进行特征提取,得到所述尺寸调整后的样本图像的特征图;根据将所述特征图分段后得到的每一段特征,进行样本图像中目标对象的识别,得到样本图像中每个目标对象的预测类别;根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值。
以游戏币为例,每个游戏币的类别与面额相关,相同面额的游戏币即属于同一类别。对于包括正立堆叠的多个游戏币的样本图像,在所述样本图像中标注了每个游戏币的面额。根据标注了面额的样本图像,对用于对目标对象进行识别的神经网络进行训练。所述神经网络根据样本图像,预测得到每个游戏币的面额,通过预测类别与标注类别之间的差异,对所述神经网络的参数值,例如包括所述特征提取网络的参数值和所述分类网络的参数值进行调整,在预测类别与标注类别之间的差异小于设定阈值,或者迭代达到设定次数时,完成训练。
在一个示例中,所述样本图像的标注信息还包括每个标注类别的目标对象的数目;在这种情况下,根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目,调整所述神经网络的参数值。
仍以正立堆叠的多个游戏币为例,在所述样本图像中标注了每个游戏币的面额信息,以及每种面额的游戏币的数目信息。根据标注了上述信息的样本图像,对用于对目标对象进行识别的神经网络进行训练。所述神经网络根据样本图像,预测得到每个游戏币的面额,以及同一面额的游戏币的数目。根据预测结果与标注信息之间的差异,对所述神经网络的参数值进行调整。
在一个示例中,所述样本图像的标注信息还包括所述样本图像中的目标对象的总数目;在这种情况下,根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
仍以正立堆叠的多个游戏币为例,在所述样本图像中标注了每个游戏币的面额信息和游戏币的总数目信息。根据标注了上述信息的样本图像,对用于对目标对象进行识别的神经网络进行训练。所述神经网络根据样本图像,预测得到每个游戏币的面额,以及游戏币的总数目(也即预测结果)。根据预测结果与标注信息之间的差异,对所述神经网络的参数值进行调整。
在一个示例中,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目、所述样本图像中的目标对象的总数目;在这种情况下,根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
仍以正立堆叠的多个游戏币为例,在所述样本图像中标注了每个游戏币的面额信息、每种面额的游戏币的数目信息和游戏币的总数目信息。根据标注了上述信息的样本图像,对用于对目标对象进行识别的神经网络进行训练。所述神经网络根据样本图像,预测得到每个游戏币的面额、每种面额的游戏币的数目,以及游戏币的总数目。根据预测结果与标注信息之间的差异,对所述神经网络的参数值进行调整。
在本公开实施例中,对所述神经网络进行训练所使用的损失函数包括以下中的至少一项:交叉熵损失、每个类别的目标对象的数目损失、所述目标对象的总数目损失。也即,所述损失函数除了包含交叉熵损失之外,还可以包括每个类别的目标对象的数目损失,以及所述目标对象的总数目损失,从而提高了对于目标对象的数目的识别能力。
在一些实施例中,在对神经网络进行训练时,可以对训练数据进行增广,以使本公开实施例所提出的用于对目标对象识别类别和数目的神经网络,可以更好地应用于实际场景中。例如,可以采用以下中任意一项或多项进行数据增广:对所述样本图像进行水平翻转、对所述样本图像进行设定角度的旋转、对所述样本图像进行色彩变换、对所述样本图像进行亮度变换等等。
本公开的多个实施例所提出的目标对象的识别方法,可以用于对多种类别的目标对象进行识别,通过利用分段的特征图来对目标对象进行识别,随着类别的增加,每个类别的目标对象的识别精度不会因为类别种类的增加而下降。
在一些实施例中,还可以对经过训练的所述神经网络进行测试;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别精度进行排序,得到识别精度的排序结果;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别错误率进行排序,得到识别错误率的排序结果;根据所述识别精度的排序结果和所述识别错误率的排序结果,进一步训练所述神经网络。
对于各个类别的目标对象的识别精度排序结果和识别错误率排序结果,可以利用二维表络来进行存储。例如,可以将识别精度排序结果按照从上到下的顺序存储在表格中,将识别错误率排序结果按照从左到右的顺序存储在表格中,对于所述表格中设定范围内的类别,例如将所述表格中位于第三行、前三列范围内的类别,进行进一步训练,以提高神经网络对于这些类别的识别精度和准确率。
图3为根据本公开至少一个实施例的目标对象的识别装置的框图,如图3所示,所述装置包括:获取单元301,用于从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象;调整单元302,用于将所述目标图像的高度调整至预设高度,其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向;提取单元303,用于提取所述调整后的目标图像的特征图;分段单元303,用于将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征;识别单元305,用于根据所述预设数量段特征中的每一段特征进行目标对象的识别。
在一些实施例中,所述调整单元302用于:将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;在缩放后的目标图像的宽度达到预设宽度,而缩放后的目标图像高度大于预设高度的情况下,将所述缩放后的目标图像的高度和宽度等比例缩小,直至缩小后的目标图像的高度等于预设高度。
在一些实施例中,所述调整单元302用于:将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;在缩放后的目标图像的宽度达到预设宽度,而缩放后的目标图像的高度小于预设高度的情况下,利用第一像素对缩放后的目标图像进行填充,使得填充后的目标图像的高度为预设高度。
在一些实施例中,所述目标图像中的待识别的目标对象为片状物,且各个待识别的目标对象的厚度相等,所述多个待识别的目标对象沿着其厚度方向叠放;预设高度为所述待识别的目标对象的厚度的整数倍。
在一些实施例中,提取特征图以及进行目标对象的识别都由神经网络执行,所述神经网络是使用样本图像及其标注信息训练的。
在一些实施例中,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别,所述装置还包括训练单元,用于通过下列操作对所述神经网络进行训练:对尺寸调整后的样本图像进行特征提取,得到所述尺寸调整后的样本图像的特征图;根据将所述特征图分段后得到的每一段特征,进行样本图像中目标对象的识别,得到样本图像中每个目标对象的预测类别;根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值。
在一些实施例中,所述样本图像的标注信息还包括每个标注类别的目标对象的数目;所述训练单元在用于根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值时,具体用于:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目,调整所述神经网络的参数值。
在一些实施例中,所述样本图像的标注信息还包括所述样本图像中的目标对象的总数目;所述训练单元在用于根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值时,用于:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
在一些实施例中,所述装置还包括测试单元,用于:对经过训练的所述神经网络进行测试;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别精度进行排序,得到识别精度的排序结果;根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别错误率进行排序,得到识别错误率的排序结果;根据所述识别精度的排序结果和所述识别错误率的排序结果,进一步训练所述神经网络。
图4为根据本公开至少一个实施例的电子设备的框图。如图4所示,所述电子设备可以包括处理器和用于存储处理器可执行指令的存储器,其中,所述处理器用于执行所述指令,以实现本公开任一实施方式所述的目标对象的识别方法。
本公开至少一个实施例还提出了一种计算机可读存储介质,其上存储有计算机程序指令,所述程序指令被处理器执行时实现本公开任一实施方式所述的目标对象的识别方法。
本领域技术人员应明白,本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开中的“和/或”表示至少具有两者中的其中一个,例如,“A和/或B”包括三种方案:A、B、以及“A和B”。
本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本公开中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路——例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本公开包含许多具体实施细节,但是这些不应被解释为限制本公开,而是主要用于描述本公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上描述了本公开的一些实施例,并不用以限制本公开,凡在基于本公开的精神和原则,所做的任何修改、等同替换、改进等,均应落入本公开的范围。
Claims (20)
1.一种目标对象的识别方法,所述方法包括:
从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象;
将所述目标图像的高度调整至预设高度,其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向;
提取所述调整后的目标图像的特征图;
将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征;以及
根据所述预设数量段特征中的每一段特征进行目标对象的识别。
2.根据权利要求1所述的方法,其中,将所述目标图像的高度调整至所述预设高度,包括:
将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;以及
在所述缩放后的目标图像的高度大于所述预设高度的情况下,将所述缩放后的目标图像的高度和宽度等比例缩小,直至所述缩小后的目标图像的高度等于所述预设高度。
3.根据权利要求1所述的方法,其中,将所述目标图像的高度调整至所述预设高度,包括:
将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;以及
在所述缩放后的目标图像的高度小于所述预设高度的情况下,利用第一像素对所述缩放后的目标图像进行填充,使得填充后的目标图像的高度为所述预设高度。
4.根据权利要求1所述方法,其中,
所述目标图像中的待识别的目标对象为片状物,且各个待识别的目标对象的厚度相等,所述多个待识别的目标对象沿着厚度方向叠放;以及
所述预设高度为所述厚度的整数倍。
5.根据权利要求1-4中任一项所述的方法,其中,提取所述特征图以及进行目标对象的识别都由神经网络执行,所述神经网络是使用样本图像及其标注信息训练的。
6.根据权利要求5所述的方法,其中,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别;以及
所述神经网络是通过以下操作训练的:
对尺寸调整后的样本图像进行特征提取,得到所述尺寸调整后的样本图像的特征图;
根据将所述特征图分段后得到的每一段特征,进行样本图像中目标对象的识别,得到样本图像中每个目标对象的预测类别;以及
根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值。
7.根据权利要求6所述的方法,其中,所述样本图像的标注信息还包括每个标注类别的目标对象的数目;
调整所述神经网络的参数值,包括:
根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目,调整所述神经网络的参数值。
8.根据权利要求6所述的方法,其中,所述样本图像的标注信息还包括所述样本图像中的目标对象的总数目;以及
调整所述神经网络的参数值,包括:
根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
9.根据权利要求5所述的方法,所述方法还包括:
对经过训练的所述神经网络进行测试;
根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别精度进行排序,得到识别精度的排序结果;以及
根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别错误率进行排序,得到识别错误率的排序结果;
根据所述识别精度的排序结果和所述识别错误率的排序结果,进一步训练所述神经网络。
10.一种目标对象的识别装置,所述装置包括:
获取单元,用于从采集的图像中裁剪出目标图像,所述目标图像中包括叠放的多个待识别的目标对象;
调整单元,用于将所述目标图像的高度调整至预设高度,其中,所述目标图像的高度方向为所述多个待识别的目标对象的叠放的方向;
提取单元,用于提取所述调整后的目标图像的特征图;
分段单元,用于将所述特征图沿着与所述目标图像的高度方向对应的维度进行分段,得到预设数量段特征;以及
识别单元,用于根据所述预设数量段特征中的每一段特征进行目标对象的识别。
11.根据权利要求10所述的装置,其中,所述调整单元用于:
将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;以及
在所述缩放后的目标图像的高度大于所述预设高度的情况下,将所述缩放后的目标图像的高度和宽度等比例缩小,直至所述缩小后的目标图像的高度等于所述预设高度。
12.根据权利要求10所述的装置,其中,所述调整单元用于:
将所述目标图像的高度和宽度等比例缩放,直至所述缩放后的目标图像的宽度达到预设宽度;以及
在所述缩放后的目标图像的高度小于所述预设高度的情况下,利用第一像素对所述缩放后的目标图像进行填充,使得填充后的目标图像的高度为所述预设高度。
13.根据权利要求10所述的装置,其中,所述目标图像中的待识别的目标对象为片状物,且各个待识别的目标对象的厚度相等,所述多个待识别的目标对象沿着厚度方向叠放;以及
所述预设高度为所述厚度的整数倍。
14.根据权利要求10至13中任一项所述的装置,其中,提取所述特征图以及进行目标对象的识别都由神经网络执行,所述神经网络是使用样本图像及其标注信息训练的。
15.根据权利要求14所述的装置,其中,所述样本图像的标注信息包括所述样本图像中每个目标对象的标注类别;以及
所述装置还包括训练单元,用于通过下列操作对所述神经网络进行训练:
对尺寸调整后的样本图像进行特征提取,得到所述尺寸调整后的样本图像的特征图;
根据将所述特征图分段后得到的每一段特征,进行样本图像中目标对象的识别,得到样本图像中每个目标对象的预测类别;以及
根据所述样本图像中每个目标对象的预测类别和所述样本图像中每个目标对象的标注类别,调整所述神经网络的参数值。
16.根据权利要求15所述的装置,其中,所述样本图像的标注信息还包括每个标注类别的目标对象的数目;
所述训练单元用于:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中每个标注类别的目标对象的数目和所述样本图像中每个预测类别的目标对象的数目,调整所述神经网络的参数值。
17.根据权利要求15所述的装置,其中,所述样本图像的标注信息还包括所述样本图像中的目标对象的总数目;
所述训练单元用于:根据所述样本图像中每个目标对象的预测类别、所述样本图像中每个目标对象的标注类别、所述样本图像中各个预测类别的目标对象的数目之和以及所述样本图像中的目标对象的总数目,调整所述神经网络的参数值。
18.根据权利要求14所述的装置,所述装置还包括测试单元,用于:
对经过训练的所述神经网络进行测试;
根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别精度进行排序,得到识别精度的排序结果;
根据所述测试的结果,按照所述神经网络对各类别的目标对象的识别错误率进行排序,得到识别错误率的排序结果;以及
根据所述识别精度的排序结果和所述识别错误率的排序结果,进一步训练所述神经网络。
19.一种电子设备,所述设备包括:
处理器;和
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现根据权利要求1至9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现根据权利要求1至9中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG10202007347VA SG10202007347VA (en) | 2020-08-01 | 2020-08-01 | Method, apparatus and system for identifying target objects |
SG10202007347V | 2020-08-01 | ||
PCT/IB2020/060203 WO2022029478A1 (en) | 2020-08-01 | 2020-10-30 | Method, apparatus and system for identifying target objects |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112513877A true CN112513877A (zh) | 2021-03-16 |
CN112513877B CN112513877B (zh) | 2024-07-19 |
Family
ID=74953043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080003317.4A Active CN112513877B (zh) | 2020-08-01 | 2020-10-30 | 目标对象的识别方法、装置和系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11631240B2 (zh) |
JP (1) | JP7250924B2 (zh) |
KR (1) | KR20220018467A (zh) |
CN (1) | CN112513877B (zh) |
AU (1) | AU2020294280A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111960A (zh) * | 2021-04-25 | 2021-07-13 | 北京文安智能技术股份有限公司 | 图像处理方法和装置以及目标检测模型的训练方法和系统 |
CN113748427A (zh) * | 2021-09-13 | 2021-12-03 | 商汤国际私人有限公司 | 数据处理方法、装置和系统、介质及计算机设备 |
WO2023111674A1 (en) * | 2021-12-17 | 2023-06-22 | Sensetime International Pte. Ltd. | Target detection method and apparatus, electronic device, and computer storage medium |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220027672A1 (en) * | 2020-07-27 | 2022-01-27 | Nvidia Corporation | Label Generation Using Neural Networks |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215669A1 (zh) * | 2016-06-17 | 2017-12-21 | 北京市商汤科技开发有限公司 | 物体识别方法和装置、数据处理装置和计算设备 |
US9940729B1 (en) * | 2016-11-18 | 2018-04-10 | Here Global B.V. | Detection of invariant features for localization |
CN108228703A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
KR20180104995A (ko) * | 2017-03-14 | 2018-09-27 | 한국과학기술원 | 워터마크 삽입/검출 방법 및 장치 |
CN108681746A (zh) * | 2018-05-10 | 2018-10-19 | 北京迈格威科技有限公司 | 一种图像识别方法、装置、电子设备和计算机可读介质 |
CN108734199A (zh) * | 2018-04-24 | 2018-11-02 | 西北工业大学 | 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法 |
CN111062237A (zh) * | 2019-09-05 | 2020-04-24 | 商汤国际私人有限公司 | 识别图像中的序列的方法及装置、电子设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1472647B1 (en) * | 2002-02-05 | 2005-11-30 | Bally Gaming International, Inc. | Determining gaming information |
AU2004248872A1 (en) * | 2003-06-26 | 2004-12-29 | Tangam Gaming Technology Inc. | System, apparatus and method for automatically tracking a table game |
JP2009245226A (ja) * | 2008-03-31 | 2009-10-22 | Sega Corp | 画像処理方法並びに装置、及び載置物 |
US8285034B2 (en) * | 2009-08-26 | 2012-10-09 | Bally Gaming, Inc. | Apparatus, method and article for evaluating a stack of objects in an image |
WO2016197303A1 (en) | 2015-06-08 | 2016-12-15 | Microsoft Technology Licensing, Llc. | Image semantic segmentation |
EP3692470A4 (en) * | 2017-10-02 | 2021-08-11 | Sensen Networks Group Pty Ltd | SYSTEM AND METHOD OF OBJECT DETECTION GUIDED BY AUTOMATIC LEARNING |
CN109344832B (zh) | 2018-09-03 | 2021-02-02 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111310751B (zh) | 2018-12-12 | 2023-08-29 | 北京嘀嘀无限科技发展有限公司 | 车牌识别方法、装置、电子设备和存储介质 |
-
2020
- 2020-10-30 JP JP2021523386A patent/JP7250924B2/ja active Active
- 2020-10-30 CN CN202080003317.4A patent/CN112513877B/zh active Active
- 2020-10-30 KR KR1020217013067A patent/KR20220018467A/ko not_active Application Discontinuation
- 2020-10-30 AU AU2020294280A patent/AU2020294280A1/en active Pending
- 2020-12-18 US US17/127,200 patent/US11631240B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215669A1 (zh) * | 2016-06-17 | 2017-12-21 | 北京市商汤科技开发有限公司 | 物体识别方法和装置、数据处理装置和计算设备 |
US9940729B1 (en) * | 2016-11-18 | 2018-04-10 | Here Global B.V. | Detection of invariant features for localization |
KR20180104995A (ko) * | 2017-03-14 | 2018-09-27 | 한국과학기술원 | 워터마크 삽입/검출 방법 및 장치 |
CN108228703A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
CN108734199A (zh) * | 2018-04-24 | 2018-11-02 | 西北工业大学 | 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法 |
CN108681746A (zh) * | 2018-05-10 | 2018-10-19 | 北京迈格威科技有限公司 | 一种图像识别方法、装置、电子设备和计算机可读介质 |
CN111062237A (zh) * | 2019-09-05 | 2020-04-24 | 商汤国际私人有限公司 | 识别图像中的序列的方法及装置、电子设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111960A (zh) * | 2021-04-25 | 2021-07-13 | 北京文安智能技术股份有限公司 | 图像处理方法和装置以及目标检测模型的训练方法和系统 |
CN113111960B (zh) * | 2021-04-25 | 2024-04-26 | 北京文安智能技术股份有限公司 | 图像处理方法和装置以及目标检测模型的训练方法和系统 |
CN113748427A (zh) * | 2021-09-13 | 2021-12-03 | 商汤国际私人有限公司 | 数据处理方法、装置和系统、介质及计算机设备 |
WO2023111674A1 (en) * | 2021-12-17 | 2023-06-22 | Sensetime International Pte. Ltd. | Target detection method and apparatus, electronic device, and computer storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN112513877B (zh) | 2024-07-19 |
US20220036067A1 (en) | 2022-02-03 |
JP2022546883A (ja) | 2022-11-10 |
US11631240B2 (en) | 2023-04-18 |
KR20220018467A (ko) | 2022-02-15 |
JP7250924B2 (ja) | 2023-04-03 |
AU2020294280A1 (en) | 2022-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112513877A (zh) | 目标对象的识别方法、装置和系统 | |
JP5464244B2 (ja) | 画像処理装置、プログラム及び画像処理システム | |
EP2528017B1 (en) | Image identification device, image identification method, image identification program, and recording medium | |
US20110282897A1 (en) | Method and system for maintaining a database of reference images | |
CN109214403B (zh) | 图像识别方法、装置及设备、可读介质 | |
CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
CN110084309B (zh) | 特征图放大方法、装置和设备及计算机可读存储介质 | |
WO2015107722A1 (ja) | 検出制御装置、プログラム、検出システム、記憶媒体及び検出制御方法 | |
CN111738114B (zh) | 基于无锚点精确采样遥感图像车辆目标检测方法 | |
WO2008107303A1 (en) | A method for determining an in-focus position and a vision inspection system | |
CN111444976A (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
CN107464245B (zh) | 一种图像结构边缘的定位方法及装置 | |
Zheng et al. | Compact deep neural networks for device based image classification | |
CN115533902A (zh) | 一种基于视觉引导的拆垛方法、装置、电子设备及系统 | |
CN113454644B (zh) | 对象类别的检测方法和装置 | |
US20220036141A1 (en) | Target object identification method and apparatus | |
JP7165353B2 (ja) | 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム | |
CN112330619A (zh) | 一种检测目标区域的方法、装置、设备及存储介质 | |
Bohush et al. | Object detection algorithm for high resolution images based on convolutional neural network and multiscale processing | |
CN115512207A (zh) | 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法 | |
WO2022029478A1 (en) | Method, apparatus and system for identifying target objects | |
CN111582107B (zh) | 目标重识别模型的训练方法、识别方法、电子设备及装置 | |
WO2022263908A1 (en) | Methods and apparatuses for determining object classification | |
CN116391189A (zh) | 对象序列的识别方法、网络训练方法、装置、设备及介质 | |
CN112149684A (zh) | 图像处理方法和用于目标检测的图像预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |