CN113454644A - 对象类别的检测方法和装置 - Google Patents
对象类别的检测方法和装置 Download PDFInfo
- Publication number
- CN113454644A CN113454644A CN202180001752.8A CN202180001752A CN113454644A CN 113454644 A CN113454644 A CN 113454644A CN 202180001752 A CN202180001752 A CN 202180001752A CN 113454644 A CN113454644 A CN 113454644A
- Authority
- CN
- China
- Prior art keywords
- confidence
- image
- category
- class
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 294
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012937 correction Methods 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/22—Cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例提供一种对象类别的检测方法和装置,其中,该方法可以包括:通过目标检测网络对第一图像进行对象检测处理,得到第一图像中包括的目标对象的第一类别置信度,由第一图像中获取包括重检测对象的对象图像,并通过过滤器对对象图像进行对象检测处理,确定重检测对象的第二类别置信度;其中,重检测对象是第一类别置信度在预设阈值区间内的目标对象;基于第二类别置信度修正重检测对象的第一类别置信度得到更新的置信度;根据更新的置信度,确定重检测对象的类别检测结果。本公开实施例提高了对象类别检测的准确性。
Description
相关申请的交叉引用
本申请要求2021年6月14日递交的题为“对象类别的检测方法和装置”,申请号为10202106360P的新加坡专利申请,其全部内容通过引用并入本文。
技术领域
本公开涉及图像处理技术,具体涉及一种对象类别的检测方法和装置。
背景技术
目标检测是智能视频分析系统的重要一环,在进行目标检测时,我们希望对场景中的目标物体(如,某种特定的物体)进行高准确率的检测,而对于该目标物体之外的其他物品,可以统称为外部物品foreign things。这些外部物品可能会导致在目标物体检测中发生误检,影响根据目标物体所做的后续分析。
相关技术中,可以通过目标检测网络来进行目标物体的检测。但是,该目标检测网络的准确率有待提升。
发明内容
有鉴于此,本公开实施例至少提供一种对象类别的检测方法和装置。
第一方面,提供一种对象类别的检测方法,包括:通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度,其中,所述第一类别置信度表示所述目标对象属于第一类别的置信度;由所述第一图像中获取包括重检测对象的对象图像,并通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度;其中,所述重检测对象是第一类别置信度在预设阈值区间内的所述目标对象,所述第二类别置信度表示所述重检测对象属于第二类别的置信度;基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度;根据所述更新的置信度,确定所述重检测对象的类别检测结果。
第二方面,提供一种目标检测方法,所述方法包括:获取待处理图像;通过目标检测网络对所述待处理图像进行对象检测处理,得到所述待处理图像中包括的目标对象所属的第一类别,其中,所述目标检测网络是根据识别第一图像中的样本对象属于第一类别的更新的置信度来训练得到,所述更新的置信度是基于过滤器识别所述样本对象得到的第二类别置信度对目标检测网络识别所述样本对象得到的第一类别置信度进行修正获得。
第三方面,提供一种对象类别的检测装置,所述装置包括:识别模块,用于通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度,其中,所述第一类别置信度表示所述目标对象属于第一类别的置信度;重检测模块,用于由所述第一图像中获取包括重检测对象的对象图像,并通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度;其中,所述重检测对象是第一类别置信度在预设阈值区间内的所述目标对象,所述第二类别置信度表示所述重检测对象属于第二类别的置信度;修正模块,用于基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度;类别确定模块,用于根据所述更新的置信度,确定所述重检测对象的类别检测结果。
第四方面,提供一种目标检测装置,所述装置包括:图像获取模块,用于获取待处理图像;识别处理模块,用于通过目标检测网络对所述待处理图像进行对象检测处理,得到所述待处理图像中包括的目标对象所属的第一类别,其中,所述目标检测网络是根据识别第一图像中的样本对象属于第一类别的更新的置信度来训练得到,所述更新的置信度是基于过滤器识别所述样本对象得到的第二类别置信度对目标检测网络识别所述样本对象得到的第一类别置信度进行修正获得。
第五方面,提供一种电子设备,该设备可以包括:存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现本公开任一实施例所述的方法。
第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例所述的方法。
第七方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例所述的方法。
本公开实施例提供的对象类别的检测方法和装置,通过基于过滤器识别目标对象得到的第二类别置信度对目标检测网络识别目标对象得到的第一类别置信度进行修正,并基于修正后的更新置信度确定目标对象类别,使得对目标检测网络的识别结果进行了修正,使目标检测网络的识别结果更准确,从而对目标对象的类别检测结果也更准确。
附图说明
为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开至少一个实施例提供的一种对象类别的检测方法的流程;
图2示出了本公开至少一个实施例提供的一种目标检测网络的训练方法的流程;
图3示出了本公开至少一个实施例提供的一种置信度修正的系统流程图;
图4示出了本公开至少一个实施例提供的一种目标检测方法的流程;
图5示出了本公开至少一个实施例提供的一种对象类别的检测装置的结构示意图;
图6示出了本公开至少一个实施例提供的一种目标检测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案,下面将结合本公开一个或多个实施例中的附图,对本公开一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
图1示出了本公开至少一个实施例提供的一种对象类别的检测方法的流程,如图1所示,该方法可以包括如下处理:
在步骤100中,通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度。
本实施例不限制目标检测网络的结构,例如,该目标检测网络可以是FasterRCNN、YOLO、SSD等各种网络。所述的第一图像中可以包括至少一种类别的对象,例如,第一图像中可以包括一张扑克牌、一个水杯,那么扑克牌是一种类别的对象,水杯是另一种类别的对象。本实施例可以将这些要识别的对象称为目标对象。
目标检测网络可以通过对第一图像进行对象检测处理,输出第一图像中包括的目标对象所属的对象类别、以及类别得分。可以将所述的对象类别称为第一类别,将类别得分称为第一类别置信度。例如,“扑克牌”属于一种“第一类别”,目标检测网络可以检测到第一图像中的某个对象属于“扑克牌”的置信度是0.8,即该对象的第一类别置信度是0.8。又例如,“水杯”属于另一种“第一类别”,目标检测网络可以检测到第一图像中的另一个对象属于“水杯”的第一类别置信度是0.6。该例子中,“扑克牌”、“水杯”还可以称为是第一类别下的两个子类别。
在步骤102中,由第一图像中获取包括重检测对象的对象图像,并通过过滤器对所述对象图像进行对象检测处理,确定重检测对象的第二类别置信度。
本步骤中,在步骤100中检测到第一图像中的各个目标对象的基础上,还可以由这些目标对象中选择出重检测对象,该重检测对象可以是第一类别置信度在预设阈值区间内的目标对象。
例如,假设第一图像中包括目标对象O1、目标对象O2和目标对象O3,其中,目标对象O1属于第一类别“扑克牌”的第一类别置信度是0.8,目标对象O2属于第一类别“扑克牌”的第一类别置信度是0.75,目标对象O3属于第一类别“水杯”的第一类别置信度是0.52。假设预设阈值区间是0.3~0.7,可见,目标对象O3的第一类别置信度在预设阈值区间内,那么可以将目标对象O3称为重检测对象。而目标对象O1和目标对象O2的第一类别置信度不在预设阈值区间内,将不作为重检测对象。
对于重检测对象,将由第一图像中获取包括该重检测对象的对象图像,并通过过滤器重新进行对象检测处理,确定所述重检测对象的第二类别置信度。其中,对象图像比第一图像通常要小,比如,第一图像中可以包括目标对象O1至O3等多个对象,而对象图像中只包括一个对象,例如只包括目标对象O3。对象图像的获取方式可以是根据目标检测网络识别到的包括目标对象O3的对象框,截取对应的图像区域得到该包括目标对象O3的对象图像。
其中,所述的过滤器可以是用于辅助确定重检测对象属于第二类别的置信度。在一个例子中,该第二类别可以与第一类别相同,例如,都是“水杯”,即目标检测网络输出的是目标对象O3属于“水杯”的第一类别置信度,过滤器也可以输出作为重检测对象的目标对象O3属于“水杯”的第二类别置信度。
在另一个例子中,该第二类别也可以是包括第一类别的类别。比如,目标检测网络在进行对象识别时,诸如扑克牌、水杯等对象都是目标检测网络要检测的目标,即这些可以统称为网络要检测识别的目标对象。而过滤器也可以是一个二分类网络,用于检测对象图像中的物体属于“目标类别”,或者“非目标类别”,即过滤器可以不区分具体的扑克牌或水杯的类别,而是只要是扑克牌或水杯就属于“目标类别”,目标类别相当于扑克牌和水杯的统一类别;否则就属于“非目标类别”。那这种情况下,第二类别“目标类别”就是一个包括第一类别“水杯”的类别,目标检测网络输出的是目标对象O3属于“水杯”的第一类别置信度,过滤器输出的是作为重检测对象的目标对象O3属于“目标类别”的第二类别置信度。
再者,这里的通过过滤器确定重检测对象的第二类别置信度可以是过滤器的直接输出结果,也可以是基于过滤器的输出结果计算确定的一个参数。例如,仍以检测“目标类别”/“非目标类别”的二分类过滤器为例,该过滤器可以直接输出重检测对象属于“目标类别”的第二类别置信度是0.7,或者,也可以是输出重检测对象属于“非目标类别”的置信度是0.3,那么计算“1-0.3=0.7”即为重检测对象属于“目标类别”的第二类别置信度。
在步骤104中,基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度。
本步骤中,可以根据过滤器得到的第二类别置信度,对第一类别置信度进行修正。本实施例并不限制修正的具体方式,例如,可以将第一类别置信度和第二类别置信度进行加权综合,得到更新的置信度。比如,在加权时可以将第二类别置信度的权重设置的更高一些。
该更新的置信度可以仍然在上述的预设阈值区间内。例如,选取了第一类别置信度在预设阈值区间0.3~0.7内的目标对象作为重检测对象,在对这些重检测对象的置信度修正后,得到的更新的置信度也仍然处于区间0.3~0.7内。
在步骤106中,根据所述更新的置信度,确定重检测对象的类别检测结果。
示例性的,一种确定重检测对象的类别检测结果的方式可以是,若更新的置信度接近预设阈值区间的下限第一阈值,则将重检测对象的类别确定为外来物体类别(foreignthings),即不是目标检测网络要检测的目标;而若更新的置信度接近预设阈值区间的上限第二阈值,则将重检测对象的类别确定为第一类别,即属于目标检测网络原本识别出的第一类别。详见如下的举例:
假设预设阈值区间是0.3~0.7,那么0.3可以称为第一阈值,0.7可以称为第二阈值。还可以设置第三阈值和第四阈值,其中,所述第三阈值大于或等于第一阈值且小于第二阈值,第四阈值小于或等于所述第二阈值且大于第三阈值,例如,第三阈值可以是0.45,第四阈值可以是0.55。
在此情况下,若更新的置信度不超过第三阈值,则可以确定所述重检测对象的类别为所述第二类别之外的外来物体类别(foreign things)。例如,更新的置信度是0.4,该0.4小于第三阈值0.45,可以认为重检测对象属于非目标类别。
和/或,若更新的置信度位于第四阈值至第二阈值的区间(即大于或等于第四阈值,小于或等于第二阈值的区间,其中,第四阈值可以等于第二阈值),可以确定所述重检测对象的类别为第一类别。例如,更新的置信度是0.65,该0.65位于0.55至0.7的区间内,可以认为重检测对象属于第一类别“水杯”。
本实施例不限制基于更新的置信度确定重检测对象的类别检测结果的方式,不局限于上述示例的方式。例如,还可以是直接将更新的置信度和对应的类别输出作为类别检测结果。
本实施例的对象类别的检测方法,通过基于过滤器检测目标对象得到的第二类别置信度对目标检测网络检测目标对象得到的第一类别置信度进行修正,并基于修正后的更新置信度确定目标对象类别,使得对目标检测网络输出的置信度进行了修正,使目标检测网络的识别结果更准确,从而基于该更新置信度对目标对象的类别检测结果也更准确。
上述图1的流程可以是应用于目标检测网络的推理阶段,也可以应用于目标检测网络的训练阶段。例如,若将图1的对象类别的检测方法应用于推理阶段,那就相当于是通过过滤器的输出结果对目标检测网络的输出结果进行后处理,基于修正后的更新置信度来确定目标对象的类别。而若将图1的对象类别的检测方法应用于目标检测网络的训练阶段,则可以基于更新的置信度来调整目标检测网络的网络参数,由于修正后的更新的置信度更准确了,也有助于提升目标检测网络的训练效果。
如下将上述的对象类别的检测方法应用于目标检测网络的训练阶段,描述如何对该目标检测网络进行训练。在目标检测网络的训练方法中,增加了过滤器,将过滤器集成到目标检测网络中,对该集成了过滤器的目标检测网络进行训练。在训练完成后,可以在目标检测网络的推理阶段去掉该过滤器。
其中,在训练阶段,作为目标检测网络的输入图像的第一图像可以是用于训练网络的样本图像。该第一图像可以是一个包括多个对象的图像,例如,该第一图像中可以包括人、汽车、树木等不同的对象。而输入过滤器的对象图像可以包括单一对象,例如,该对象图像中可以只包括人,或者对象图像中只包括汽车。
在一个示例中,过滤器可以专门用于识别某种特定类别对象,例如,第一图像中包括的各个目标对象的类别可以都称为第一类别,该第一类别可以包括多个子类别。比如,“扑克牌”是一个子类别,“水杯”是一个子类别,该“扑克牌”和“水杯”都称为第一类别。而过滤器可以是用于识别一种特定子类别的目标对象。例如,其中一个过滤器用于识别“扑克牌”,即该过滤器在训练时的正样本是扑克牌,另一个过滤器用于识别“水杯”,即该过滤器在训练时的正样本是水杯。而对象图像应输入至与对象图像中包括的对象所属的子类别对应的过滤器。例如,包括扑克牌的对象图像输入用于识别扑克牌的过滤器。
由于输入过滤器的对象图像中的对象类别比较单一,所以过滤器训练识别该对象的识别效果会更好,就可以根据该过滤器的识别结果去辅助修正目标检测网络的类别检测结果,将能够使得修正后的目标检测网络的类别检测结果更准,从而优化目标检测网络的训练。
图2示出了本公开至少一个实施例提供的一种目标检测网络的训练方法的流程,该流程中,在目标检测网络的训练方法中使用了本公开实施例提供的对象类别的检测方法,通过过滤器的输出修正了目标检测网络的输出。如图2所示,该方法可以包括如下处理:
在步骤200中,通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度。
本实施例中,第一图像可以是用于训练目标检测网络的样本图像。该目标检测网络以Faster RCNN为例,但实际实施中并不局限于,例如,目标检测网络还可以是YOLO、SSD等其他网络。
请结合图3的示意,待处理的第一图像21输入目标检测网络Faster RCNN中,例如,该第一图像21中可以包括多种类别的对象,示例性的,假设有三种类别的对象,这三种对象类别分别为c1、c2、c3,第一图像21中可以包括一个c1类别的对象,两个c2类别的对象,一个c3类别的对象。上述的类别c1、c2、c3都可以称为第一类别,而具体的各类别可以称为第一类别中的子类别:子类别c1、子类别c2和子类别c3。
接着,该Faster RCNN可以先通过卷积层22提取第一图像21的特征,得到特征图(Feature Map)。该特征图分成两路,一路经过RPN(Region Proposal Network,区域候选网络)网络的处理,输出区域候选(Region Proposal),通俗来说,区域候选可以看做是许多潜在的边界框(也叫候选边界框anchor,它是包含四个坐标的矩形框)。另一路直接输往池化层23,RPN输出的候选边界框也输往该池化层23。该池化层23可以是ROI(region ofinterest)Pooling,用于综合上述的卷积层22输出的特征图、以及候选边界框,提取出边界框特征图proposal feature maps,送入后续的全连接层用于判定对象类别。
请继续参见图3,池化层23输出的proposal feature maps可以送往分类层24继续处理,输出第一图像21中包括的目标对象所属的子类别、以及类别得分。本实施例中,该类别得分可以是称为第一类别置信度。例如,其中的某个对象可以得到其所属的子类别是c2,属于该子类别c2的第一类别置信度是0.7;另一个目标对象所属的子类别是c3,属于该子类别c3的第一类别置信度是0.8。
此外,分类层24还可以输出每个目标对象的位置信息,该位置信息用于限定所述目标对象在第一图像中的位置区域,具体可以是包括该目标对象的检测框的框坐标信息。
在步骤202中,由第一图像中获取包括重检测对象的对象图像,并通过过滤器对所述对象图像进行对象检测处理,确定重检测对象的第二类别置信度。
本步骤中,可以由第一图像21中获取对象图像25,这里的对象图像指的是包括单一对象的图像。比如,图3中示意的,可以由第一图像中截取了包括c1类别的目标对象的对象图像、包括c2类别的对象图像等,这些图像中都是只包括单一对象。对于第一图像21中的任一个识别到的目标对象,都可以分别获取对应该目标对象的对象图像。
实际实施中,目标检测网络检测出的目标对象中,并不是所有的目标对象的第一类别置信度都进行修正,而是可以选择其中的部分目标对象的第一类别置信度进行修正。即可以至少获取其中一部分目标对象对应的对象图像输入过滤器进行处理。例如,可以选择第一类别置信度在预设阈值区间内的目标对象作为重检测对象,并获取包括该重检测对象的对象图像。
举例来说:可以设置一个预设阈值区间,这个区间可以是用于筛选出“困难判别对象”(即重检测对象),比如,该预设阈值区间可以是lthre<scoredet<rthre,其中,lthre可以称为第一阈值,rthre可以称为第二阈值,该第一阈值是预设阈值区间的下限,第二阈值是预设阈值区间的上限。scoredet即目标检测网络得到的第一类别置信度。比如,第二阈值可以是0.85,第一阈值可以是0.3。示例性的,若目标对象对应的第一类别置信度位于0.3与0.85之间,可以将该对象确定为重检测对象,获取对应的对象图像。
此外,需要说明的是,预设阈值区间的具体数值范围可以根据实际业务需求确定,该区间用于界定“困难判别对象”,需要过滤器继续辅助识别对象类别。
示例性的,获取对象图像的方式可以是基于步骤200中得到的目标对象的位置信息,由第一图像中截取该位置信息对应的位置区域得到该对象图像。例如,可以基于RPN网络得到的候选边界框,由第一图像21中截取该候选边界框的区域得到对象图像。又例如,对于ROLO等单阶段的目标检测网络,也可以直接根据目标检测网络输出的位置信息得到对象图像。
其中,所述的过滤器可以是通过第二图像预先训练得到,所述的第二图像可以是包括第二类别的目标对象的图像,并且该第二图像中也是包括单一的对象。并且,每一种过滤器可以用于识别一种子类别的对象。举例来说:假设某个过滤器是用于识别c2子类别的目标对象,该c2子类别的目标对象可以是扑克牌,那么在过滤器的训练过程中,可以将包括扑克牌的第二图像作为正样本,将包括与扑克牌外观相近物品(如,银行卡、会员卡等)的图像作为负样本,训练二分类模型,该二分类模型即用于识别扑克牌的过滤器。又例如,当过滤器不区分具体的子类别时,可以将包括要识别的属于第一类别的对象的图像作为第二图像训练过滤器,比如,包括扑克牌、水杯这些第一类别对象的第二图像可以作为正样本,包括非第一类别的对象的图像作为负样本。本实施例中,以训练单一识别某种子类别对象的过滤器为例。
例如,该过滤器的输出可以包括重检测对象属于扑克牌的置信度,比如,检测出对象图像中的重检测对象属于扑克牌的置信度是0.8。或者,也可以是检测到对象图像中的重检测对象属于非扑克牌的置信度,如果该属于非扑克牌的置信度是0.4,那么“1-0.4=0.6”就是属于扑克牌的置信度。本实施例中,将基于过滤器的输出结果确定的对象图像中的重检测对象属于第二类别的置信度称为第二类别置信度。
例如,假设目标检测网络检测出第一图像21中包括c3子类别的目标对象,且该目标对象属于该子类别c3的第一类别置信度是0.7,该目标对象被确认为重检测对象;再将包括该重检测对象的对象图像输入与子类别c3对应的过滤器,该过滤器是用于识别子类别c3目标对象的过滤器。通过该过滤器进行对象检测处理,可以得到重检测对象属于子类别c3的第二类别置信度是0.85。
当第一图像中包括多个子类别的目标对象时,也可以存在多个过滤器,每种过滤器用于识别一个子类别的目标对象。例如,可以包括三种过滤器:“用于识别子类别c1对象的第一过滤器”、“用于识别子类别c2对象的第二过滤器”、“用于识别子类别c3对象的第三过滤器”,那么可以将由第一图像中获取的包括子类别c1的重检测对象的对象图像输入第一过滤器,得到该第一过滤器确定的第二类别置信度;同理,可以将包括子类别c2的重检测对象的对象图像输入第二过滤器,将包括子类别c3的重检测对象的对象图像输入第三过滤器,分别通过这些过滤器进行对象检测处理,得到对应的第二类别置信度。
当第一图像中包括一个子类别的对象时,也可以使用一个过滤器即可。
在步骤204中,基于第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度。
本步骤中,可以根据过滤器得到的第二类别置信度,对第一类别置信度进行修正,得到更新的置信度。
如上所述的,过滤器是通过包括单一对象的第二图像训练得到,所以识别目标对象所属类别的效果会更好,因此通过第二类别置信度修正第一类别置信度,可以使得修正后的更新的置信度更加准确。
本实施例并不限制修正的具体方式,例如,可以将第一类别置信度和第二类别置信度进行加权综合,得到更新的置信度。比如,在加权时可以将第二类别置信度的权重设置的更高一些。
当第一图像中包括多个子类别的目标对象时,可以用对应每一种子类别的过滤器得到的第二类别置信度修正目标检测网络输出的目标对象属于该子类别的第一类别置信度。例如,在上面的例子中,“用于识别子类别c2对象的第二过滤器”得到的第二类别置信度可以去修正目标检测网络输出的重检测对象属于c2子类别的第一类别置信度。
示例一种基于第二类别置信度修正第一类别置信度的方式:假设重检测对象对应的预设阈值区间中,下限是第一阈值,上限是第二阈值。可以根据所述第二阈值与第一阈值之间的差值、以及第二类别置信度,确定在所述预设阈值区间内的置信度增量;并在第一阈值的基础上增加所述置信度增量,得到所述更新的置信度。
可以参见如下公式:
scorenew=lthre+(rthre-lthre)*scorefilter........(1)
其中,scorefilter可以是过滤器得到的第二类别置信度,scorenew可以是更新的置信度。其中的(rthre-lthre)*scorefilter可以称为在所述预设阈值区间内的置信度增量。
在本实施例中,假设第二类别与第一类别相同的情况下,比如,都是“扑克牌”这种类别,过滤器也是用于识别对象属于扑克牌的置信度的。那么,上述公式的意思是,若根据所述过滤器确定的目标对象属于第二类别的第二类别置信度越高,则更新的置信度越靠近第二阈值,即重检测对象属于扑克牌的概率越高;若根据所述过滤器确定的目标对象属于第二类别的第二类别置信度越低,则更新的置信度越靠近第一阈值,即重检测对象属于扑克牌的概率越低。但是,该更新的置信度仍然会位于上述的预设阈值区间内。
举例来说,lthre可以是0.3,rthre可以是0.85。假设目标检测网络得到的有一个c1子类别的目标对象对应的第一类别置信度是0.6,位于该预设阈值区间内,则将该对象确认为重检测对象,并将该重检测对象对应的对象图像输入c1子类别对应的过滤器(即该过滤器用于识别c1子类别的目标对象),根据该过滤器的输出结果确定所述重检测对象属于c1子类别的第二类别置信度是0.78,那么根据公式(1)计算如下:
Scorenew=0.3+(0.85-0.3)*0.78=0.729
可以直接用该0.729替换掉目标检测网络输出的第一类别置信度0.6。
如上,通过上述的修正过程可以看到,最初,目标检测网络输出的目标对象属于c1子类别的第一类别置信度0.6,而过滤器得到的目标对象属于c1子类别的第二类别置信度是0.78,这表明过滤器认为该目标对象属于c1子类别的概率会更大一些。而通过第二图像训练得到的过滤器的目标识别效果优于目标检测网络,所以可以更信赖过滤器的识别结果多一些。因此,通过公式(1)计算后,将原本的第一类别置信度0.6更新为0.729,该更新置信度0.729相比于0.6,更靠近了第二阈值0.85,但是其仍然位于预设阈值区间(0.3,0.85)的范围内。
上述的修正处理,过滤器可以辅助目标检测网络增强了识别对象类别的分辨度,提升了对重检测对象的类别分辨度。比如,本来目标检测网络识别的目标对象属于c1子类别的第一类别置信度是0.6,即目标检测网络认为目标对象属于c1子类别的概率不高;然而过滤器认为该目标对象属于c1子类别的概率较高,第二类别置信度是0.78,从而辅助目标检测网络将原本的0.6修正为0.729,帮助目标检测网络往偏向更准确的识别结果靠近,从而提升其分辨度。这种分辨度的提升有助于更好的训练目标检测网络,使得调整网络参数也更准确。
在步骤206中,根据所述更新的置信度,确定所述重检测对象的类别检测结果;并基于类别检测结果与对应的类别标签之间的损失,调整目标检测网络的网络参数。
对于作为训练样本图像的第一图像来说,该第一图像中的各目标对象可以对应有一个类别标签,即该目标对象的真实类别。可以基于修正后得到的更新的置信度确定重检测对象的类别检测结果,并基于类别检测结果与对应的类别标签之间的损失,调整目标检测网络的网络参数。
例如,目标检测网络原本输出的目标对象的类别检测结果是(0.2、0.6、0.2),其中,该类别检测结果中的三个元素是该目标对象分别属于子类别c1、c2、c3的第一类别置信度,其中的0.6是该目标对象属于子类别c2的第一类别置信度。通过基于过滤器输出的该目标对象属于c2子类别的第二类别置信度修正后,将0.6修正为0.729,那该目标对象的类别检测结果就修正为(0.2、0.729、0.2),或者也可以将该类别检测结果中的三个元素值进行归一化处理。假设该目标对象的类别标签是(0、1、0),就可以通过损失函数计算类别检测结果与对应的类别标签之间的损失,并据此调整目标检测网络的网络参数。当然,实际训练过程中,可以是基于多个样本的样本集的Loss来调参,不再详述。
本实施例的目标检测网络的训练方法,通过使用基于过滤器得到的第二类别置信度修正目标检测网络的第一类别置信度,能够使得得到的更新置信度更加准确,基于该更新置信度来调整目标检测网络的网络参数,可以得到更好的训练效果,目标检测网络的识别准确度得到提升。并且,这种训练方式的训练样本的采集获取难度较低,成本不高。
举例来说,假设目标检测网络的输入图像中既包括扑克牌,也包括银行卡、会员卡,而目标检测网络的目的是要将其中的扑克牌识别出来。相关技术中,是直接使用包括扑克牌和其他种类物品的输入图像作为样本训练该目标检测网络,但是这种方式的缺点是,一方面,同时包括扑克牌和其他种类物品的输入图像样本的采集难度较大,即真实场景中获取到符合要求图像的难度大;另一方面,同时包括扑克牌和其他种类物品的输入图像样本训练,网络训练的识别效果有待提高,有可能出现误检。比如,目标检测网络有可能会将输入图像中的会员卡也识别为扑克牌,而会员卡实际上是外部物品foreign things,这就出现了误检,目标检测网络的识别准确率有待提升。
而本公开实施例提供的训练方法中,一方面,过滤器训练时采用的是包括单一对象的样本对象图像,这种样本对象图像的采集较容易,降低了样本的采集获取难度;另一方面,由于过滤器通过单一对象的样本对象图像训练,也使得过滤器对目标类别对象的识别更加准确,再通过过滤器的输出结果修正目标检测网络的输出结果,也提升了目标检测网络的输出结果的准确性,从而使得目标检测网络的识别效果更好,减少误检的发生。比如,通过本公开实施例的训练方法训练后,目标检测网络就会减少将会员卡识别为扑克牌的情况发生。
此外,过滤器的数量与目标检测网络要识别的对象类别数量可以不一致。比如,目标检测网络要检测的目标对象共有三种类别c1、c2和c3,可以使用三个过滤器,分别用于识别这三种类别;也可以仅使用一种或两种过滤器,也能在一定程度上提升目标检测网络的训练效果。
如上是以将本公开实施例的对象类别检测方法应用于目标检测网络的训练过程为例,这些处理也可以应用于目标检测网络的推理阶段即网络应用阶段,比如,在网络应用阶段,也可以按照公式(1)的方式计算更新的置信度;也可以使用多个过滤器分别对不同子类别的目标对象的第一类别置信度进行修正。详细处理可以结合参见训练阶段的描述。
此外,不论是目标检测网络的网络应用阶段还是网络训练阶段,该方法可以应用于游戏场景中,第一图像可以是游戏场所的游戏图像,比如,游戏场所可以设置有多个游戏桌,每个游戏桌的上方可以设置摄像头用于采集游戏桌上发生的游戏进程,该摄像头拍摄到的包括游戏桌的图像就可以称为第一图像。第一图像中的目标对象可以是游戏场所的游戏道具,比如,参与游戏的人员在游戏桌上玩游戏时,可以是使用专门的游戏道具,那么,摄像头采集的第一图像中可以包括游戏桌上的游戏道具。
图4示出了本公开至少一个实施例提供的一种目标检测方法的流程,本实施例的目标检测网络可以是通过集成过滤器来训练得到的。如图4所示,该方法可以包括如下处理:
在步骤400中,获取待处理图像。
本实施例不限制待处理图像的类型,可以是任何待识别其中的目标对象的图像。例如,可以是一张包含运动场景的图像,待识别图像中的各个运动员。又例如,还可以是一张包含桌子的图像,待识别桌子上的书本。再例如,还可以是游戏图像,待识别游戏场所的游戏道具,比如,扑克牌。
待处理图像中待识别的目标对象的类别可以是一种或多种,每一种类别的对象的数量也可以是一个或多个,本实施例不做限制。
在步骤402中,通过目标检测网络对所述待处理图像进行对象检测处理,得到所述待处理图像中包括的目标对象所属的第一类别。
本步骤所使用的目标检测网络可以是通过本公开任一实施例所述的训练方法训练得到的网络。比如,在目标检测网络的训练过程中,可以集成过滤器。该目标检测网络可以识别用于训练的第一图像中的样本对象的第一类别置信度,该样本对象即目标检测网络训练时输入的第一图像中包括的目标对象。通过过滤器识别所述样本对象的第二类别置信度,并基于该第二类别置信度修正第一类别置信度,得到更新的置信度,根据该更新的置信度训练目标检测网络。详细的训练过程可以参见图2所示的流程,不再详述。
本实施例的目标检测方法,通过使用基于过滤器得到的第二类别置信度修正目标检测网络的第一类别置信度,并基于修正后得到的更新置信度来调整目标检测网络的网络参数,可以得到更好的训练效果,目标检测网络的识别准确度得到提升,从而使用训练好的该目标检测网络识别对象的识别准确率更高。
图5示出了本公开至少一个实施例提供的一种对象类别的检测装置的结构示意图,如图5所示,该装置中可以包括:检测模块51、重检测模块52、修正模块53和类别确定模块54。
检测模块51,用于通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度,其中,所述第一类别置信度表示所述目标对象属于第一类别的置信度。
重检测模块52,用于由所述第一图像中获取包括重检测对象的对象图像,并通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度;其中,所述重检测对象是第一类别置信度在预设阈值区间内的所述目标对象,所述第二类别置信度表示所述重检测对象属于第二类别的置信度。
修正模块53,用于基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度。
类别确定模块54,用于根据所述更新的置信度,确定所述重检测对象的类别检测结果。
在一个例子中,检测模块51,还用于:通过目标检测网络对所述第一图像进行对象检测处理,得到所述目标对象对应的位置信息,所述位置信息用于限定所述目标对象在所述第一图像中的位置区域。重检测模块52,在用于由所述第一图像中获取包括重检测对象的对象图像时,包括:根据所述重检测对象对应的位置信息,由所述第一图像中截取所述位置信息对应的位置区域,得到所述包括重检测对象的对象图像。
在一个例子中,修正模块53,在用于基于所述第二类别置信度修正所述重检测对象的第一类别置信度,得到更新的置信度时,包括:在所述预设阈值区间的范围内,基于所述第二类别置信度修正所述重检测对象的第一类别置信度,以确定所述更新的置信度;其中,根据所述过滤器确定的第二类别置信度越高,所述更新的置信度越靠近第二阈值;根据所述过滤器确定的第二类别置信度越低,所述更新的置信度越靠近第一阈值;所述预设阈值区间的下限为第一阈值,所述阈值区间的上限为第二阈值。
在一个例子中,修正模块53,在用于基于所述第二类别置信度修正所述重检测对象的第一类别置信度,得到更新的置信度时,包括:对所述重检测对象的第一类别置信度和第二类别置信度进行加权综合,得到所述更新的置信度。
在一个例子中,所述检测模块51,在用于通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度时,包括:通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的至少一个目标对象分别对应各子类别的第一类别置信度;其中,所述过滤器的数量是至少一个,所述第一类别包括至少一个子类别,每一个过滤器分别用于识别一个所述子类别的目标对象。
所述重检测模块52,在用于通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度时,包括:对于任一重检测对象,根据所述重检测对象对应的目标子类别,将所述重检测对象对应的对象图像输入与所述目标子类别对应的过滤器;通过所述目标子类别对应的过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度。
图6示出了本公开至少一个实施例提供的一种目标检测装置的结构示意图,如图6所示,该装置中可以包括:图像获取模块61和识别处理模块62。
图像获取模块61,用于获取待处理图像。
识别处理模块62,用于通过目标检测网络对所述待处理图像进行对象检测处理,得到所述待处理图像中包括的目标对象所属的第一类别,其中,所述目标检测网络是根据识别第一图像中的样本对象属于第一类别的更新的置信度来训练得到,所述更新的置信度是基于过滤器识别所述样本对象得到的第二类别置信度对目标检测网络识别所述样本对象得到的第一类别置信度进行修正获得。
在一些实施例中,上述装置可以用于执行上文所述的对应任意方法,为了简洁,这里不再赘述。
本公开实施例还提供了一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现本说明书任一实施例的方法。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本说明书任一实施例的方法。
本领域技术人员应明白,本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例还提供一种计算机可读存储介质,该存储介质上可以存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例描述的用于对象类别检测的神经网络的训练方法的步骤,和/或,实现本公开任一实施例描述的对象类别检测方法的步骤。
本公开实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开任一实施例所述的方法。
其中,本公开实施例所述的“和/或”表示至少具有两者中的其中一个,例如,“A和/或B”包括三种方案:A、B、以及“A和B”。
本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于对象类别检测设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本公开中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本公开包含许多具体实施细节,但是这些不应被解释为限制任何公开的范围或所要求保护的范围,而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本公开一个或多个实施例的较佳实施例而已,并不用以限制本公开一个或多个实施例,凡在本公开一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开一个或多个实施例保护的范围之内。
Claims (21)
1.一种对象类别的检测方法,包括:
通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度,其中,所述第一类别置信度表示所述目标对象属于第一类别的置信度;
由所述第一图像中获取包括重检测对象的对象图像,并通过一个或多个过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度;其中,所述重检测对象是第一类别置信度在预设阈值区间内的所述目标对象,所述第二类别置信度表示所述重检测对象属于第二类别的置信度;
基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度;
根据所述更新的置信度,确定所述重检测对象的类别检测结果。
2.根据权利要求1所述的方法,其中,通过所述目标检测网络对所述第一图像进行对象检测处理还得到所述目标对象对应的位置信息,所述位置信息用于限定所述目标对象在所述第一图像中的位置区域;
所述由所述第一图像中获取包括重检测对象的对象图像,包括:根据所述重检测对象对应的位置信息,由所述第一图像中截取所述位置信息对应的位置区域,得到所述包括重检测对象的对象图像。
3.根据权利要求1所述的方法,其中,所述预设阈值区间的下限为第一阈值,所述阈值区间的上限为第二阈值;所述基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度,包括:
在所述预设阈值区间的范围内,基于所述第二类别置信度修正所述重检测对象的第一类别置信度,以确定所述更新的置信度;其中,
所述第二类别置信度越高,所述更新的置信度越靠近所述第二阈值;
所述第二类别置信度越低,所述更新的置信度越靠近所述第一阈值。
4.根据权利要求3所述的方法,其中,所述在所述预设阈值区间的范围内,基于所述第二类别置信度修正所述重检测对象的第一类别置信度,以确定所述更新的置信度,包括:
根据所述第二阈值与第一阈值之间的差值、以及所述第二类别置信度,确定在所述预设阈值区间内的置信度增量;
在所述第一阈值的基础上,增加所述置信度增量,得到所述更新的置信度。
5.根据权利要求3所述的方法,其中,所述根据所述更新的置信度,确定所述重检测对象的类别检测结果,包括:
在所述更新的置信度不超过第三阈值的情况下,确定所述重检测对象为所述第二类别之外的外来物体;和/或
在所述更新的置信度位于第四阈值至第二阈值的区间的情况下,确定所述重检测对象为所述第一类别;
其中,所述第三阈值大于或等于所述第一阈值,所述第三阈值小于所述第二阈值;
所述第四阈值小于或等于所述第二阈值,所述第四阈值大于所述第三阈值。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第二类别置信度,对所述重检测对象的第一类别置信度进行修正,得到更新的置信度,包括:
对所述重检测对象的第一类别置信度和第二类别置信度进行加权综合,得到所述更新的置信度。
7.根据权利要求1~6任一所述的方法,其特征在于,所述第一类别包括至少一个子类别,每一个过滤器分别用于检测一个所述子类别的目标对象;
所述通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度,包括:
通过目标检测网络对第一图像进行对象检测处理,得到各个第一子类别置信度,各所述第一子类别置信度表示所述第一图像中包括的至少一个目标对象分别对应各所述子类别的置信度;
所述通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度,包括:
对于任一重检测对象,根据所述重检测对象对应的目标子类别,将所述重检测对象对应的对象图像输入与所述目标子类别对应的过滤器;
通过所述目标子类别对应的过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度。
8.根据权利要求1-7任一项所述的方法,其中,所述过滤器基于第二图像训练得出,所述第二图像包含第二类别的目标对象。
9.根据权利要求1所述的方法,其中,所述第二类别与所述第一类别是相同的类别,或者,所述第二类别是包括所述第一类别的类别。
10.根据权利要求1所述的方法,其中,所述第一图像是用于训练所述目标检测网络的样本图像;所述根据所述更新的置信度确定所述重检测对象的类别检测结果之后,所述方法还包括:
获取所述重检测对象的类别检测结果与对应的类别标签之间的损失;
基于所述损失,调整所述目标检测网络的网络参数。
11.根据权利要求1所述的方法,其中,
所述第一图像是游戏场所的图像;
所述目标对象是所述游戏场所的游戏道具。
12.一种目标检测方法,所述方法包括:
获取待处理图像;
通过目标检测网络对所述待处理图像进行对象检测处理,得到所述待处理图像中包括的目标对象所属的第一类别,其中,
所述目标检测网络是根据识别第一图像中的样本对象属于第一类别的更新的置信度来训练得到,
所述更新的置信度是基于过滤器识别所述样本对象得到的第二类别置信度对目标检测网络识别所述样本对象得到的第一类别置信度进行修正获得。
13.一种对象类别的检测装置,所述装置包括:
检测模块,用于通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度,其中,所述第一类别置信度表示所述目标对象属于第一类别的置信度;
重检测模块,用于由所述第一图像中获取包括重检测对象的对象图像,并通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度;其中,所述重检测对象是第一类别置信度在预设阈值区间内的所述目标对象,所述第二类别置信度表示所述重检测对象属于第二类别的置信度;
修正模块,用于基于所述第二类别置信度,修正所述重检测对象的第一类别置信度,得到更新的置信度;
类别确定模块,用于根据所述更新的置信度,确定所述重检测对象的类别检测结果。
14.根据权利要求13所述的装置,其中,
所述检测模块,还用于:通过目标检测网络对所述第一图像进行对象检测处理,得到所述目标对象对应的位置信息,所述位置信息用于限定所述目标对象在所述第一图像中的位置区域;
所述重检测模块,在用于由所述第一图像中获取包括重检测对象的对象图像时,包括:根据所述重检测对象对应的位置信息,由所述第一图像中截取所述位置信息对应的位置区域,得到所述包括重检测对象的对象图像。
15.根据权利要求13所述的装置,其中,
所述修正模块,在用于基于所述第二类别置信度修正所述重检测对象的第一类别置信度,得到更新的置信度时,包括:在所述预设阈值区间的范围内,基于所述第二类别置信度修正所述重检测对象的第一类别置信度,以确定所述更新的置信度;其中,根据所述过滤器确定的第二类别置信度越高,所述更新的置信度越靠近第二阈值;根据所述过滤器确定的第二类别置信度越低,所述更新的置信度越靠近第一阈值;所述预设阈值区间的下限为第一阈值,所述阈值区间的上限为第二阈值。
16.根据权利要求13所述的装置,其中,
所述修正模块,在用于基于所述第二类别置信度修正所述重检测对象的第一类别置信度,得到更新的置信度时,包括:对所述重检测对象的第一类别置信度和第二类别置信度进行加权综合,得到所述更新的置信度。
17.根据权利要求13至16任一所述的装置,其中,
所述检测模块,在用于通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的目标对象的第一类别置信度时,包括:通过目标检测网络对第一图像进行对象检测处理,得到所述第一图像中包括的至少一个目标对象分别对应各子类别的第一类别置信度;其中,所述过滤器的数量是至少一个,所述第一类别包括至少一个子类别,每一个过滤器分别用于检测一个所述子类别的目标对象;
所述重检测模块,在用于通过过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度时,包括:对于任一重检测对象,根据所述重检测对象对应的目标子类别,将所述重检测对象对应的对象图像输入与所述目标子类别对应的过滤器;通过所述目标子类别对应的过滤器对所述对象图像进行对象检测处理,确定所述重检测对象的第二类别置信度。
18.一种目标检测装置,所述装置包括:
图像获取模块,用于获取待处理图像;
识别处理模块,用于通过目标检测网络对所述待处理图像进行对象检测处理,得到所述待处理图像中包括的目标对象所属的第一类别,其中,所述目标检测网络是根据识别第一图像中的样本对象属于第一类别的更新的置信度来训练得到,所述更新的置信度是基于过滤器识别所述样本对象得到的第二类别置信度对目标检测网络识别所述样本对象得到的第一类别置信度进行修正获得。
19.一种电子设备,其特征在于,包括:存储器、处理器,所述存储器用于存储计算机可读指令,所述处理器用于调用所述计算机指令,实现权利要求1至11任一所述的方法,或权利要求12所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至11任一所述的方法,或权利要求12所述的方法。
21.一种计算机程序产品,包括计算机程序,当所述计算机程序由处理器执行时,实现权利要求1至11任一所述的方法,或权利要求12所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SG10202106360P | 2021-06-14 | ||
SG10202106360P | 2021-06-14 | ||
PCT/IB2021/055781 WO2022263908A1 (en) | 2021-06-14 | 2021-06-29 | Methods and apparatuses for determining object classification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113454644A true CN113454644A (zh) | 2021-09-28 |
CN113454644B CN113454644B (zh) | 2024-07-19 |
Family
ID=77819491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180001752.8A Active CN113454644B (zh) | 2021-06-14 | 2021-06-29 | 对象类别的检测方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220398400A1 (zh) |
KR (1) | KR20220168950A (zh) |
CN (1) | CN113454644B (zh) |
AU (1) | AU2021204589A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977905A (zh) * | 2023-09-22 | 2023-10-31 | 杭州爱芯元智科技有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023545874A (ja) * | 2021-09-22 | 2023-11-01 | センスタイム インターナショナル ピーティーイー.リミテッド | 物品認識方法、装置、機器及びコンピュータ可読記憶媒体 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07209410A (ja) * | 1993-12-02 | 1995-08-11 | Toyota Motor Corp | 車載用の物体検出装置 |
CN107665336A (zh) * | 2017-09-20 | 2018-02-06 | 厦门理工学院 | 智能冰箱中基于Faster‑RCNN的多目标检测方法 |
US20180089505A1 (en) * | 2016-09-23 | 2018-03-29 | Samsung Electronics Co., Ltd. | System and method for deep network fusion for fast and robust object detection |
CN110136198A (zh) * | 2018-02-09 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 图像处理方法及其装置、设备和存储介质 |
CN110852285A (zh) * | 2019-11-14 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机设备和存储介质 |
CN111783797A (zh) * | 2020-06-30 | 2020-10-16 | 杭州海康威视数字技术股份有限公司 | 目标检测方法、装置及存储介质 |
CN112395974A (zh) * | 2020-11-16 | 2021-02-23 | 南京工程学院 | 一种基于对象间依赖关系的目标置信度矫正方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150312517A1 (en) * | 2014-04-25 | 2015-10-29 | Magnet Consulting, Inc. | Combined Video, Chip and Card Monitoring for Casinos |
AU2014240213B2 (en) * | 2014-09-30 | 2016-12-08 | Canon Kabushiki Kaisha | System and Method for object re-identification |
-
2021
- 2021-06-29 CN CN202180001752.8A patent/CN113454644B/zh active Active
- 2021-06-29 AU AU2021204589A patent/AU2021204589A1/en not_active Abandoned
- 2021-06-29 KR KR1020217026803A patent/KR20220168950A/ko not_active Application Discontinuation
- 2021-06-30 US US17/364,423 patent/US20220398400A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07209410A (ja) * | 1993-12-02 | 1995-08-11 | Toyota Motor Corp | 車載用の物体検出装置 |
US20180089505A1 (en) * | 2016-09-23 | 2018-03-29 | Samsung Electronics Co., Ltd. | System and method for deep network fusion for fast and robust object detection |
CN107665336A (zh) * | 2017-09-20 | 2018-02-06 | 厦门理工学院 | 智能冰箱中基于Faster‑RCNN的多目标检测方法 |
CN110136198A (zh) * | 2018-02-09 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 图像处理方法及其装置、设备和存储介质 |
CN110852285A (zh) * | 2019-11-14 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机设备和存储介质 |
CN111783797A (zh) * | 2020-06-30 | 2020-10-16 | 杭州海康威视数字技术股份有限公司 | 目标检测方法、装置及存储介质 |
CN112395974A (zh) * | 2020-11-16 | 2021-02-23 | 南京工程学院 | 一种基于对象间依赖关系的目标置信度矫正方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977905A (zh) * | 2023-09-22 | 2023-10-31 | 杭州爱芯元智科技有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
CN116977905B (zh) * | 2023-09-22 | 2024-01-30 | 杭州爱芯元智科技有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113454644B (zh) | 2024-07-19 |
US20220398400A1 (en) | 2022-12-15 |
AU2021204589A1 (en) | 2023-01-05 |
KR20220168950A (ko) | 2022-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10990191B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
CN110147721B (zh) | 一种三维人脸识别方法、模型训练方法和装置 | |
US10726562B2 (en) | Video tracking method and device, and object recognition method and device | |
CN112200045B (zh) | 基于上下文增强的遥感图像目标检测模型建立方法及应用 | |
US8879847B2 (en) | Image processing device, method of controlling image processing device, and program for enabling computer to execute same method | |
US11468682B2 (en) | Target object identification | |
CN108171247B (zh) | 一种车辆再识别方法及系统 | |
CN113454644A (zh) | 对象类别的检测方法和装置 | |
US11631240B2 (en) | Method, apparatus and system for identifying target objects | |
CN114067186B (zh) | 一种行人检测方法、装置、电子设备及存储介质 | |
CN101339609A (zh) | 图像处理装置和图像处理方法 | |
CN116091892A (zh) | 一种基于卷积神经网络的快速目标检测方法 | |
CN112308879A (zh) | 图像处理设备、追踪对象物体的方法和存储介质 | |
CN107844803B (zh) | 一种图片比对的方法和装置 | |
KR20220098312A (ko) | 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체 | |
CN113723352A (zh) | 一种文本检测方法、系统、存储介质及电子设备 | |
WO2022263908A1 (en) | Methods and apparatuses for determining object classification | |
CN107730532B (zh) | 一种羽毛球运动轨迹跟踪方法、系统、介质及设备 | |
CN113486761A (zh) | 一种指甲识别方法、装置、设备及存储介质 | |
WO2021056531A1 (zh) | 人脸性别识别方法、人脸性别分类器的训练方法及装置 | |
Sykora et al. | Comparison of Neural Networks with Feature Extraction Methods for Depth Map Classification | |
WO2022029478A1 (en) | Method, apparatus and system for identifying target objects | |
CN113516030B (zh) | 一种动作序列验证方法、装置、存储介质及终端 | |
CN111832361B (zh) | 一种行人重识别方法、装置和计算机设备 | |
Venkatesan et al. | Advanced classification using genetic algorithm and image segmentation for Improved FD |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |