CN110222724A - 一种图片实例检测方法、装置、计算机设备及存储介质 - Google Patents

一种图片实例检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110222724A
CN110222724A CN201910401096.5A CN201910401096A CN110222724A CN 110222724 A CN110222724 A CN 110222724A CN 201910401096 A CN201910401096 A CN 201910401096A CN 110222724 A CN110222724 A CN 110222724A
Authority
CN
China
Prior art keywords
picture
candidate frame
vector
target photo
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910401096.5A
Other languages
English (en)
Other versions
CN110222724B (zh
Inventor
石磊
马进
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910401096.5A priority Critical patent/CN110222724B/zh
Priority to PCT/CN2019/102921 priority patent/WO2020228179A1/zh
Publication of CN110222724A publication Critical patent/CN110222724A/zh
Application granted granted Critical
Publication of CN110222724B publication Critical patent/CN110222724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图片实例检测方法、装置、计算机设备及存储介质,应用于图像识别技术领域,用于解决对图片进行目标检测时难以兼顾速度和精度的问题。本发明提供的方法包括:获取待检测的目标图片;使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;提取每个所述候选框实例上的各个实例属性;根据提取得到的所有实例属性生成所述目标图片的图片特征向量;将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。

Description

一种图片实例检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图片实例检测方法、装置、计算机设备及存储介质。
背景技术
目标检测技术常常需要在检测速度和检测精度之间做出选择,在实际应用中,高检测速度和高检测精度难以同时兼顾,这就导致快速检测模型相比精准检测模型来说,速度可以快上10倍但精度可能低50%。例如,SSD300目标检测模型为常用的快速检测模型,SSD500目标检测模型为常用的精准检测模型,前者优势在于检测速度快,但面对复杂的图片时检测精度较低;后者优势在于检测精度高,即便检测复杂的图片也有准确的检测结果,但是检测速度相比前者慢得多。
因此,寻找一种在检测图片时兼顾速度和精度的方法成为本领域技术人员亟需解决的问题。
发明内容
本发明实施例提供一种图片实例检测方法、装置、计算机设备及存储介质,以解决对图片进行目标检测时难以兼顾速度和精度的问题。
一种图片实例检测方法,包括:
获取待检测的目标图片;
使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;
提取每个所述候选框实例上的各个实例属性;
根据提取得到的所有实例属性生成所述目标图片的图片特征向量;
将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;
若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;
若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。
一种图片实例检测装置,包括:
目标图片获取模块,用于获取待检测的目标图片;
候选框实例生成模块,用于使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;
实例属性提取模块,用于提取每个所述候选框实例上的各个实例属性;
特征向量生成模块,用于根据提取得到的所有实例属性生成所述目标图片的图片特征向量;
分类模块,用于将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;
快速检测模块,用于若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;
精准检测模块,用于若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图片实例检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图片实例检测方法的步骤。
上述图片实例检测方法、装置、计算机设备及存储介质,首先,获取待检测的目标图片;然后,使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;接着,提取每个所述候选框实例上的各个实例属性;根据提取得到的所有实例属性生成所述目标图片的图片特征向量;再之,将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。可见,本发明可以利用目标检测实例生成器检测目标图片中的实例,并提取这些实例的属性生成该目标图片的图片特征向量,从而将该图片特征向量投入分类器中判断该目标图片是简单图片还是困难的图片。如果是简单图片,说明该目标图片对检测模型的精度要求不高,因此将其输入快速检测模型,不仅能保证对该目标图片的检测精度,而且使得检测速度快,效率高;如果是困难图片,说明该目标图片对检测模型的精度要求较高,因此将其输入精准检测模型,避免错误地将其投入到快速检测模型中导致检测精度下降,保证了对该目标图片的检测精度。由此可知,本发明在检测目标图片时同时兼顾了速度和精度,在保证高精度同时保持了快速检测模型的速度优势。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中图片实例检测方法的一应用环境示意图;
图2是本发明一实施例中图片实例检测方法的一流程图;
图3是对图片进行目标检测后的效果示意图;
图4是本发明一实施例中图片实例检测方法步骤104在一个应用场景下的流程示意图;
图5是本发明一实施例中图片实例检测方法步骤202在一个应用场景下的流程示意图;
图6是本发明一实施例中图片实例检测方法在一个应用场景下预先训练支持向量机分类器的流程示意图;
图7是本发明一实施例中图片实例检测方法步骤408在一个应用场景下的流程示意图;
图8是本发明一实施例中图片实例检测装置的结构示意图;
图9是本发明一实施例中特征向量生成模块的结构示意图;
图10是本发明一实施例中实例向量生成单元的结构示意图;
图11是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的图片实例检测方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信。其中,该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种图片实例检测方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
101、获取待检测的目标图片;
本实施例中,服务器可以通过多种途径获取到待检测的目标图片。比如,工作人员可以通过客户端将需要检测的图片上传给服务器,服务器接收到的该图片即为目标图片;或者,服务器上可以预先设定定时任务,在指定时刻自动获取数据库中指定位置的图片作为待检测的目标图片;等等。
102、使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;
服务器在获取待检测的目标图片之后,可以使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例。其中,该目标检测实例生成器具体可以是TinyYOLO等实时目标检测工具,其可以快速检测图片上是否存在预设的目标类别,若是存在,使用候选框在图片上框选出各个实例,并标记出每个实例的具体类别。
如图3所示,假设图3所示图片为目标图片,服务器可以使用Tiny YOLO对其进行目标检测,从中检测出dog、bicycle、car共3个实例,并在目标图片上使用候选框框选出来,这些被框选出来的实例即为各个候选框实例。
103、提取每个所述候选框实例上的各个实例属性;
可以理解的是,使用Tiny YOLO等实时目标检测工具检测目标图片上的候选框实例,这些候选框实例均具有预测类别值、概率置信度和候选框的边界框坐标值等实例属性,这些实例属性由于可以从很大程度上反应了目标图片上各个候选框实例的复杂度,因此可以作为考量该目标图片总体上是简单还是困难的参数。因此,本实施例中,服务器可以提取每个所述候选框实例上的各个实例属性。
其中,预测类别值是指候选框实例分别属于各个预设类别的概率向量,该概率向量中每个元素代表了该该候选框实例属于某个预设类别的概率。比如,假设某个候选框实例的预测类别值为[0.01,0.02,0.03,……,0.2],这说明该候选框实例属于预设类别1的概率为0.01,属于预设类别2的概率为0.02,属于预设类别3的概率为0.03,……属于预设类别20的概率为0.2。
概率置信度是指所述候选框实例上候选框的置信度,或者成为score分数,一般为百分比数值或小于1的小数,比如20%或0.2。
候选框的边界框坐标值是指该候选框实例上的候选框的边界框的坐标值,如图3所示,dog实例的候选框为矩形边框,该矩形边框可以通过左上角的角坐标以及右下角的角坐标唯一确定,或者,可以通过左上角的角坐标以及矩形边框的长度、高度唯一确定。
可以理解的是,步骤102使用目标检测实例生成器生成各个候选框实例时,会同时或随后输出各个候选框实例的预测类别值、概率置信度和候选框的边界框坐标值等实例属性,从而服务器可以提取到每个所述候选框实例上的各个实例属性。
104、根据提取得到的所有实例属性生成所述目标图片的图片特征向量;
可以理解的是,服务器提取得到的每个候选框实例的实例属性可能存在多个维度的值,比如包括预测类别值、概率置信度和候选框的边界框坐标值这三个维度的值,这些实例属性的值均表征了各个候选框实例的复杂度,从而可以用于考量该目标图片本身的复杂度。因此,服务器在使用这些实例属性之前,还需要根据提取得到的所有实例属性生成所述目标图片的图片特征向量。需要说明的是,步骤104本质上是将提取到的所有实例属性整合起来作为该目标图片的特征,本实施例中以向量的形式表示,因此,依据这些实例属性具体生成图片特征向量的方法可以有多种,此处对此不作限定。
为便于理解,下面将对上述步骤104在一个具体应用场景下生成图片特行向量的过程进行详细描述。如图4所示,进一步地,每个所述候选框实例的实例属性包括预测类别值、概率置信度和候选框的边界框坐标值,步骤104可以包括:
201、获取每个所述候选框实例的预测类别值,得到每个候选框实例对应的多维概率向量,多维概率向量的维度等于所述目标检测实例生成器预测类别的数量;
202、将每个候选框实例的概率置信度和候选框的边界框坐标值生成所述每个候选框实例的一维实例向量;
203、根据所有候选框实例各自对应的一维实例向量组成一个多维特征向量;
204、合并所有所述候选框实例对应的多维概率向量和所述多维特征向量,得到所述目标图片的图片特征向量。
对于上述步骤201,由上述内容可知,预测类别值是指候选框实例分别属于各个预设类别的概率向量,目标检测实例生成器在生成各个候选框实例时,每个候选框实例的预测类别值也就随之生成,因此服务器可以获取每个所述候选框实例的预测类别值,得到每个候选框实例对应的多维概率向量。其中,可知多维概率向量的维度等于所述目标检测实例生成器预测类别的数量。
对于上述步骤202,由上述内容可知,概率置信度是指所述候选框实例上候选框的置信度,候选框的边界框坐标值是指该候选框实例上的候选框的边界框的坐标值,对同一个候选框实例的概率置信度和候选框的边界框坐标值合并,可以得到该候选框实例的一维实例向量。具体地,概率置信度和候选框的边界框坐标值合并时,在一维实例向量中的排列顺序或者元素结构无需限定,一般来说,只要每个候选框实例的一维实例向量均按照统一规则生成即可。
为便于理解,如图5所示,进一步地,步骤202可以包括:
301、获取每个候选框实例的概率置信度;
302、获取所述每个候选框实例的候选框的左上角x轴坐标值、左上角y轴坐标值、长度值和高度值;
303、以所述每个候选框实例的概率置信度、左上角x轴坐标值、左上角y轴坐标值、长度值和高度值作为一维行向量的元素,组成所述每个候选框实例的一维实例向量。
对于上述步骤301,该概率置信度具体可以是score分数,一般为百分比数值或小于1的小数,比如可以获取到60%,转化为小数点数值为0.6。
对于上述步骤302,容易理解的,目标检测实例生成器输出候选框后,候选框上的坐标和长高均容易获取到,因此,服务器可以获取到所述每个候选框实例的候选框的左上角x轴坐标值、左上角y轴坐标值、长度值和高度值。举例说明,如图3所示,dog的候选框中,左上角的角坐标为(2,6)(不考虑dog标签),则该候选框的左上角x轴坐标值为2,左上角y轴坐标值为6,并且,可获取到该dog候选框的长度值为3,高度值为5。
对于上述步骤303,服务器在获取到候选框实例的概率置信度、左上角x轴坐标值、左上角y轴坐标值、长度值和高度值之后,可以将其作为一维行向量的元素组合得到该候选框实例的一维实例向量,比如,承接上述举例,dog候选框实例的一维行向量元素分别为0.6、2、6、3、5,因此可以得到该候选框实例的一维实例向量为[0.6,2,6,3,5]。
对于上述步骤203,服务器在生成得到所有候选框实例各自对应的一维实例向量之后,可以将每个一维实例向量作为多维特征向量的行,从而多个一维实例向量可以组成一个多维特征向量,该多维特征向量的行数等于该目标图片上候选框实例的个数,列数等于一维实例向量的元素个数,也即由每个候选框实例的实例属性决定。举例说明,如图3所示,设dog候选框实例的一维实例向量为[0.6,2,6,3,5],bicycle候选框实例的一维实例向量为[0.28,1.8,8,10,6],car候选框实例的一维实例向量为[0.8,8.5,9,3.5,2],则可以组成一个多维特征向量为:
对于上述步骤204,服务器在得到所有所述候选框实例对应的多维概率向量和所述多维特征向量之后,可以合并所有所述候选框实例对应的多维概率向量和所述多维特征向量,得到所述目标图片的图片特征向量。其中,具体合并得到图片特征向量的方法可以有多种,本实施例中为了便于理解,举例说明其中一种。
承接上述图3所示的例子,假设dog候选框实例的多维概率向量为[0.2,0.3,……0.6],bicycle候选框实例的多维概率向量为[0.28,0.2,……,0.1],car候选框实例的多维概率向量为[0.15,0.8,……,0.3],可以将每个候选框实例的多维概率向量添加至该多维特征向量的行中作为行元素,添加后即可得到该目标图片的图片特征向量。具体地,将这些多维概率向量添加至后,得到的图片特征向量为:
105、将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;
本实施例中,服务器预先训练好可用来对目标图片进行分类的支持向量机分类器,该支持向量机分类器可以根据图片的图片特征向量将图片划分为简单图片或困难图片。这里,简单图片是指目标检测时无需高精度检测即可得到准确的目标检测结果的图片,困难图片是指目标检测时需要高精度检测才能得到准确的目标检测结果的图片。服务器在得到该目标图片的图片特征向量之后,将该图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果。所述分类结果可以为所述目标图片属于简单图片,或者为所述目标图片属于困难图片。
为便于理解,如图6所示,进一步地,所述支持向量机分类器通过以下步骤预先训练好:
401、获取用于训练的各个样本图片;
402、使用所述目标检测实例生成器检测所述各个样本图片上的实例,生成所述各个样本图片各自对应的各个样本实例;
403、针对每个样本图片,提取所述每个样本图片上每个样本实例的各个样本实例属性;
404、针对每个样本图片,根据提取得到的所有样本实例属性生成所述每个样本图片的样本特征向量;
405、将所述各个样本图片划分为训练样本图片和验证样本图片;
406、采用所述训练样本图片的样本特征向量训练支持向量机分类器,得到所述支持向量机分类器的临界面;
407、计算所述验证样本图片的样本特征向量与所述临界面的向量距离;
408、根据所述向量距离和与所述验证样本图片对应的种类标注确定分类阈值,所述验证样本图片预先标注有种类标注,种类标注用于样本图片属于简单图片还是属于困难图片;
409、确定所述支持向量机分类器训练完成。
对于步骤401,服务器可以获取用于训练的各个样本图片,本步骤与步骤101同理,此处不过多赘述。
对于步骤402-404,服务器使用目标检测实例生成器对各个样本图片分别进行处理,并提取、生成得到各个样本图片各自的样本特征向量,与上述步骤102-104同理,此处不过多赘述。
对于上述步骤405,其中,训练样本图片是提供给支持向量机分类器学习的样本数据,通过匹配一些参数来建立分类器,即采用训练样本图片的样本特征向量训练支持向量机分类器,以确定支持向量机分类器的参数。验证样本图片是用于验证训练好的支持向量机分类器的分辨能力(如识别率)的样本数据。可选地,将各个样本图片的70%-75%的数目作为训练样本图片,其余的作为验证样本图片。在一具体实施方式中,选取300个正样本和700个负样本一共1000张图片组合成样本图片,其中的260个样本作为验证样本图片,740个样本作为训练样本图片。
对于上述步骤406,支持向量机(Support Vector Machine,SVM)分类器是一个由分类临界面定义的判别分类器,用于对数据进行分类或者回归分析。临界面为能够将正样本和负样本这两类样本正确分开,并且使两类样本距离最大的分类面。具体地,根据训练样本图片的特点,选取合适核函数,然后将训练样本图片的样本特征向量与核函数进行核函数运算,使得训练样本图片的样本特征向量映射到一个高维度特征空间,实现该样本特征向量在这个高维度特征空间的线性可分,得到临界面,并将临界面作为对训练样本图片进行分类的分类面,将正样本和负样本分开,也即简单图片和困难图片分开。具体地,输入训练样本图片,支持向量机分类器将会输出一个临界面对训练样本图片进行分类。通过获取临界面简化了支持向量机分类器的分类过程。
本实施例中,通过将训练样本图片的样本特征向量训练支持向量机分类器,得到临界面,具有良好的分类能力,提高了分类器的训练效率。
对于上述步骤407,其中,验证样本图片是预先存储的用于验证的样本图片,其中包括了正样本图片(简单图片)和负样本图片(困难图片),对这两种样本图片分别进行种类标注后得到验证样本。
其中,验证样本图片的样本特征向量与临界面的向量距离是指验证样本图片的样本特征向量在数学意义上对应的有向线段与临界面在数学意义上对应的一个平面二者的距离,即数学意义上线到面的距离,其距离为一数值,该距离即为向量距离。假设临界面的表达式可以为g(x)=wx+b,式中w为多维向量,可表示为w=[w1,w2,w3...wn],那么样本特征向量x到临界面的向量距离的表达式为式中||w||表示w的范数,即
通过计算验证样本图片的样本特征向量与临界面的向量距离,能够直观地比较各个验证样本与其所属类别的接近程度。
对于上述步骤408,预设真正类率是指预先设定的判断为正样本且结果正确的数量占总的正样本数量的比值,预设假正类率是指预先设定的判断为负样本且结果错误的数量占总的正样本数量的比值。在本实施例中,真正类率是指将正确判断为简单图片的验证样本图片占总的验证样本图片中简单图片的比值,假正类率是指将困难图片错误判断为简单图片的验证样本图片占总的验证样本图片中简单图片的比值。容易理解地,真正类率越高或者假正类率越低,说明目标的分类要求越严格,能适应更多的应用场合。优选地,本实施例中的预设真正类率为95%时,或者预设假正类率5%时,能够取得很好的分类效果,能够适应多种不同应用场合,通过合理设置真正类率或假正类率,从而较好地扩展支持向量机分类器的适应性。
应理解,此处预设真正类率或预设假正类率,为本发明优选范围,但可以根据实际应用场合的需要进行设置,此处不做限制。
分类阈值是用于对图片进行分类的临界值,具体地,对图片进行分类时,低于分类阈值的判断为正样本,即简单图片,高于分类阈值的判断为负样本,即困难图片。
具体地,与验证样本图片对应的种类标注是指验证样本图片的标注,例如:将验证样本图片中的简单图片标记为1,将验证样本图片中的困难图片标记为-1。在获得了验证样本图片的样本特征向量与临界面的向量距离和验证样本图片的种类标注后,根据预设真正类率或预设假正类率计算得到分类阈值。
为便于理解,如图7所示,进一步地,步骤408可以包括:
501、根据所述向量距离和与所述验证样本图片对应的种类标注绘制ROC曲线;
502、根据预设真正类率或预设假正类率在所述ROC曲线的横轴上确定分类阈值。
对于步骤501,其中,ROC曲线指受试者工作特征曲线/接收器操作特性曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系。本实施例中,ROC曲线显示的是支持向量机分类器真正类率和假正类率之间的关系,该曲线越靠近左上角分类器的准确性越高。
在验证训练样本中将样本进行了正负样本的分类:正样本(positive)或负样本(negative)。在对验证训练样本中的验证样本图片进行分类的过程中,会出现四种情况:如果人验证样本图片是正样本并且也被预测成正样本,即为真正类(True positive,TP),如果验证样本图片是负样本被预测成正样本,称之为假正类(False positive,FP)。相应地,如果验证样本图片是负样本被预测成负样本,称之为真负类(True negative,TN),正样本被预测成负样本则为假负样本(false negative,FN)。
真正类率(true positive rate,TPR)刻画的是分类器所识别出的正实例占所有正实例的比例,计算公式为TPR=TP/(TP+FN)。假正类率(false positive rate,FPR)刻画的是分类器错认为正样本的负实例占所有负实例的比例,计算公式为FPR=FP/(FP+TN)。
ROC曲线的绘制过程为:根据验证样本图片的样本特征向量和临界面的向量距离和对应的验证样本图片的种类标注,获得众多验证样本图片的真正类率和假正类率,ROC曲线以假正类率为横轴,以真正类率为纵轴,连接各点即众多验证样本图片的真正类率和假正类率,绘制曲线,然后计算曲线下的面积,面积越大,判断价值越高。
在一具体实施方式中,可通过ROC曲线绘制工具进行绘制,具体地,通过matlab中的plotSVMroc(true_labels,predict_labels,classnumber)函数绘制ROC曲线。其中,true_labels为正确的标记,predict_labels为分类判断的标记,classnumber为分类类别的数量,本实施例因为是正负样本的二分类问题,因此classnumber=2。具体地,通过计算验证样本图片的样本特征向量和临界面的向量距离后,根据向量距离分布情况,即各个验证样本图片与临界面的接近程度的分布范围,并根据对应的验证样本图片的种类标注能够获取到验证样本图片的真正类率和假正类率,然后依据验证样本图片的真正类率和假正类率绘制ROC曲线。
对于上述步骤502,具体地,预设真正类率或预设假正类率通过实际的使用需要而进行设置,服务器在获取到预设真正类率或预设假正类率后,通过ROC曲线中的横轴表示的假正类率和纵轴表示的真正类率与预设真正类率或预设假正类率比较大小,即预设真正类率或预设假正类率作为对验证样本图片进行分类的标准,从ROC曲线的横轴上依据分类标准确定分类阈值,从而使得后续模型训练中通过ROC曲线可以根据不同的场景选取不同的分类阈值,避免重复训练的需要,提高模型训练的效率。
对于上述步骤409,可知,在确定出所述支持向量机分类器的分类阈值之后,可以认为该支持向量机分类器已经训练完成,因此服务器确定所述支持向量机分类器训练完成。
106、若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;
服务器在得到该分类结果后,若所述分类结果为所述目标图片属于简单图片,则可以认为该目标图片通过快速检测模型即可得到精确的检测结果,并且可以保留快速检测模型的速度优势,因此将所述目标图片输入到指定快速检测模型进行检测。
107、若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。
若所述分类结果为所述目标图片属于困难图片,则可以认为通过快速检测模型检测该目标图片难以精确的检测结果,为了保证检测结果的精确,服务器应当将其输入到指定精准检测模型进行检测。
本发明实施例中,首先,获取待检测的目标图片;然后,使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;接着,提取每个所述候选框实例上的各个实例属性;根据提取得到的所有实例属性生成所述目标图片的图片特征向量;再之,将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。可见,本发明可以利用目标检测实例生成器检测目标图片中的实例,并提取这些实例的属性生成该目标图片的图片特征向量,从而将该图片特征向量投入分类器中判断该目标图片是简单图片还是困难的图片。如果是简单图片,说明该目标图片对检测模型的精度要求不高,因此将其输入快速检测模型,不仅能保证对该目标图片的检测精度,而且使得检测速度快,效率高;如果是困难图片,说明该目标图片对检测模型的精度要求较高,因此将其输入精准检测模型,避免错误地将其投入到快速检测模型中导致检测精度下降,保证了对该目标图片的检测精度。由此可知,本发明在检测目标图片时同时兼顾了速度和精度,在保证高精度同时保持了快速检测模型的速度优势。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种图片实例检测装置,该图片实例检测装置与上述实施例中图片实例检测方法一一对应。如图8所示,该图片实例检测装置包括目标图片获取模块601、候选框实例生成模块602、实例属性提取模块603、特征向量生成模块604、分类模块605、快速检测模块606和精准检测模块607。各功能模块详细说明如下:
目标图片获取模块601,用于获取待检测的目标图片;
候选框实例生成模块602,用于使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;
实例属性提取模块603,用于提取每个所述候选框实例上的各个实例属性;
特征向量生成模块604,用于根据提取得到的所有实例属性生成所述目标图片的图片特征向量;
分类模块605,用于将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;
快速检测模块606,用于若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;
精准检测模块607,用于若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。
如图9所示,进一步地,每个所述候选框实例的实例属性包括预测类别值、概率置信度和候选框的边界框坐标值,所述特征向量生成模块604可以包括:
概率向量获取单元6041,用于获取每个所述候选框实例的预测类别值,得到每个候选框实例对应的多维概率向量,多维概率向量的维度等于所述目标检测实例生成器预测类别的数量;
实例向量生成单元6042,用于将每个候选框实例的概率置信度和候选框的边界框坐标值生成所述每个候选框实例的一维实例向量;
特征向量组成单元6043,用于根据所有候选框实例各自对应的一维实例向量组成一个多维特征向量;
图片特征向量合并单元6044,用于合并所有所述候选框实例对应的多维概率向量和所述多维特征向量,得到所述目标图片的图片特征向量。
如图10所示,进一步地,所述实例向量生成单元6042可以包括:
置信度获取子单元421,用于获取每个候选框实例的概率置信度;
属性获取子单元422,用于获取所述每个候选框实例的候选框的左上角x轴坐标值、左上角y轴坐标值、长度值和高度值;
向量组成子单元423,用于以所述每个候选框实例的概率置信度、左上角x轴坐标值、左上角y轴坐标值、长度值和高度值作为一维行向量的元素,组成所述每个候选框实例的一维实例向量。
进一步地,所述支持向量机分类器可以通过以下模块预先训练好:
样本图片获取模块,用于获取用于训练的各个样本图片;
样本实例生成模块,用于使用所述目标检测实例生成器检测所述各个样本图片上的实例,生成所述各个样本图片各自对应的各个样本实例;
实例属性提取模块,用于针对每个样本图片,提取所述每个样本图片上每个样本实例的各个样本实例属性;
样本特征向量生成模块,用于针对每个样本图片,根据提取得到的所有样本实例属性生成所述每个样本图片的样本特征向量;
样本划分模块,用于将所述各个样本图片划分为训练样本图片和验证样本图片;
分类器训练模块,用于采用所述训练样本图片的样本特征向量训练支持向量机分类器,得到所述支持向量机分类器的临界面;
向量距离计算模块,用于计算所述验证样本图片的样本特征向量与所述临界面的向量距离;
分类阈值确定模块,用于根据所述向量距离和与所述验证样本图片对应的种类标注确定分类阈值,所述验证样本图片预先标注有种类标注,种类标注用于样本图片属于简单图片还是属于困难图片;
训练完成确定模块,用于确定所述支持向量机分类器训练完成。
进一步地,所述分类阈值确定模块可以包括:
曲线绘制单元,用于根据所述向量距离和与所述验证样本图片对应的种类标注绘制ROC曲线;
阈值确定单元,用于根据预设真正类率或预设假正类率在所述ROC曲线的横轴上确定分类阈值。
关于图片实例检测装置的具体限定可以参见上文中对于图片实例检测方法的限定,在此不再赘述。上述图片实例检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图片实例检测方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图片实例检测方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中图片实例检测方法的步骤,例如图2所示的步骤101至步骤107。或者,处理器执行计算机程序时实现上述实施例中图片实例检测装置的各模块/单元的功能,例如图8所示模块601至模块607的功能。为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中图片实例检测方法的步骤,例如图2所示的步骤101至步骤107。或者,计算机程序被处理器执行时实现上述实施例中图片实例检测装置的各模块/单元的功能,例如图8所示模块601至模块607的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种图片实例检测方法,其特征在于,包括:
获取待检测的目标图片;
使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;
提取每个所述候选框实例上的各个实例属性;
根据提取得到的所有实例属性生成所述目标图片的图片特征向量;
将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;
若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;
若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。
2.根据权利要求1所述的图片实例检测方法,其特征在于,每个所述候选框实例的实例属性包括预测类别值、概率置信度和候选框的边界框坐标值,所述根据提取得到的所有实例属性生成所述目标图片的图片特征向量包括:
获取每个所述候选框实例的预测类别值,得到每个候选框实例对应的多维概率向量,多维概率向量的维度等于所述目标检测实例生成器预测类别的数量;
将每个候选框实例的概率置信度和候选框的边界框坐标值生成所述每个候选框实例的一维实例向量;
根据所有候选框实例各自对应的一维实例向量组成一个多维特征向量;
合并所有所述候选框实例对应的多维概率向量和所述多维特征向量,得到所述目标图片的图片特征向量。
3.根据权利要求2所述的图片实例检测方法,其特征在于,所述将每个候选框实例的概率置信度和候选框的边界框坐标值生成所述每个候选框实例的一维实例向量包括:
获取每个候选框实例的概率置信度;
获取所述每个候选框实例的候选框的左上角x轴坐标值、左上角y轴坐标值、长度值和高度值;
以所述每个候选框实例的概率置信度、左上角x轴坐标值、左上角y轴坐标值、长度值和高度值作为一维行向量的元素,组成所述每个候选框实例的一维实例向量。
4.根据权利要求1至3中任一项所述的图片实例检测方法,其特征在于,所述支持向量机分类器通过以下步骤预先训练好:
获取用于训练的各个样本图片;
使用所述目标检测实例生成器检测所述各个样本图片上的实例,生成所述各个样本图片各自对应的各个样本实例;
针对每个样本图片,提取所述每个样本图片上每个样本实例的各个样本实例属性;
针对每个样本图片,根据提取得到的所有样本实例属性生成所述每个样本图片的样本特征向量;
将所述各个样本图片划分为训练样本图片和验证样本图片;
采用所述训练样本图片的样本特征向量训练支持向量机分类器,得到所述支持向量机分类器的临界面;
计算所述验证样本图片的样本特征向量与所述临界面的向量距离;
根据所述向量距离和与所述验证样本图片对应的种类标注确定分类阈值,所述验证样本图片预先标注有种类标注,种类标注用于样本图片属于简单图片还是属于困难图片;
确定所述支持向量机分类器训练完成。
5.根据权利要求4所述的图片实例检测方法,其特征在于,所述根据所述向量距离和与所述验证样本图片对应的种类标注确定分类阈值包括:
根据所述向量距离和与所述验证样本图片对应的种类标注绘制ROC曲线;
根据预设真正类率或预设假正类率在所述ROC曲线的横轴上确定分类阈值。
6.一种图片实例检测装置,其特征在于,包括:
目标图片获取模块,用于获取待检测的目标图片;
候选框实例生成模块,用于使用目标检测实例生成器检测所述目标图片上的实例,生成各个候选框实例;
实例属性提取模块,用于提取每个所述候选框实例上的各个实例属性;
特征向量生成模块,用于根据提取得到的所有实例属性生成所述目标图片的图片特征向量;
分类模块,用于将所述图片特征向量输入至预先训练好的支持向量机分类器,得到分类结果;
快速检测模块,用于若所述分类结果为所述目标图片属于简单图片,则将所述目标图片输入到指定快速检测模型进行检测;
精准检测模块,用于若所述分类结果为所述目标图片属于困难图片,则将所述目标图片输入到指定精准检测模型进行检测。
7.根据权利要求6所述的图片实例检测装置,其特征在于,每个所述候选框实例的实例属性包括预测类别值、概率置信度和候选框的边界框坐标值,所述特征向量生成模块包括:
概率向量获取单元,用于获取每个所述候选框实例的预测类别值,得到每个候选框实例对应的多维概率向量,多维概率向量的维度等于所述目标检测实例生成器预测类别的数量;
实例向量生成单元,用于将每个候选框实例的概率置信度和候选框的边界框坐标值生成所述每个候选框实例的一维实例向量;
特征向量组成单元,用于根据所有候选框实例各自对应的一维实例向量组成一个多维特征向量;
图片特征向量合并单元,用于合并所有所述候选框实例对应的多维概率向量和所述多维特征向量,得到所述目标图片的图片特征向量。
8.根据权利要求7所述的图片实例检测装置,其特征在于,所述实例向量生成单元包括:
置信度获取子单元,用于获取每个候选框实例的概率置信度;
属性获取子单元,用于获取所述每个候选框实例的候选框的左上角x轴坐标值、左上角y轴坐标值、长度值和高度值;
向量组成子单元,用于以所述每个候选框实例的概率置信度、左上角x轴坐标值、左上角y轴坐标值、长度值和高度值作为一维行向量的元素,组成所述每个候选框实例的一维实例向量。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述图片实例检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述图片实例检测方法。
CN201910401096.5A 2019-05-15 2019-05-15 一种图片实例检测方法、装置、计算机设备及存储介质 Active CN110222724B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910401096.5A CN110222724B (zh) 2019-05-15 2019-05-15 一种图片实例检测方法、装置、计算机设备及存储介质
PCT/CN2019/102921 WO2020228179A1 (zh) 2019-05-15 2019-08-28 一种图片实例检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910401096.5A CN110222724B (zh) 2019-05-15 2019-05-15 一种图片实例检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110222724A true CN110222724A (zh) 2019-09-10
CN110222724B CN110222724B (zh) 2023-12-19

Family

ID=67821225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910401096.5A Active CN110222724B (zh) 2019-05-15 2019-05-15 一种图片实例检测方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110222724B (zh)
WO (1) WO2020228179A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120070A (zh) * 2022-01-29 2022-03-01 浙江啄云智能科技有限公司 图像检测方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065591B (zh) * 2021-03-30 2023-11-28 上海商汤智能科技有限公司 目标检测方法及装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070242880A1 (en) * 2005-05-18 2007-10-18 Stebbings David W System and method for the identification of motional media of widely varying picture content
US20160063396A1 (en) * 2014-08-28 2016-03-03 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for classification
CN106355188A (zh) * 2015-07-13 2017-01-25 阿里巴巴集团控股有限公司 图像检测方法及装置
CN107316036A (zh) * 2017-06-09 2017-11-03 广州大学 一种基于级联分类器的害虫识别方法
CN108647602A (zh) * 2018-04-28 2018-10-12 北京航空航天大学 一种基于图像复杂度判定的航空遥感图像场景分类方法
CN108985155A (zh) * 2018-06-06 2018-12-11 平安科技(深圳)有限公司 嘴巴模型训练方法、嘴巴识别方法、装置、设备及介质
CN108985159A (zh) * 2018-06-08 2018-12-11 平安科技(深圳)有限公司 人眼模型训练方法、人眼识别方法、装置、设备及介质
CN109460777A (zh) * 2018-10-11 2019-03-12 北京朗镜科技有限责任公司 图片分类方法、装置及计算机可读存储介质
CN109583501A (zh) * 2018-11-30 2019-04-05 广州市百果园信息技术有限公司 图片分类、分类识别模型的生成方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358209B (zh) * 2017-07-17 2020-02-28 成都通甲优博科技有限责任公司 人脸检测模型的训练方法、装置及人脸检测方法、装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070242880A1 (en) * 2005-05-18 2007-10-18 Stebbings David W System and method for the identification of motional media of widely varying picture content
US20160063396A1 (en) * 2014-08-28 2016-03-03 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for classification
CN106355188A (zh) * 2015-07-13 2017-01-25 阿里巴巴集团控股有限公司 图像检测方法及装置
CN107316036A (zh) * 2017-06-09 2017-11-03 广州大学 一种基于级联分类器的害虫识别方法
CN108647602A (zh) * 2018-04-28 2018-10-12 北京航空航天大学 一种基于图像复杂度判定的航空遥感图像场景分类方法
CN108985155A (zh) * 2018-06-06 2018-12-11 平安科技(深圳)有限公司 嘴巴模型训练方法、嘴巴识别方法、装置、设备及介质
CN108985159A (zh) * 2018-06-08 2018-12-11 平安科技(深圳)有限公司 人眼模型训练方法、人眼识别方法、装置、设备及介质
CN109460777A (zh) * 2018-10-11 2019-03-12 北京朗镜科技有限责任公司 图片分类方法、装置及计算机可读存储介质
CN109583501A (zh) * 2018-11-30 2019-04-05 广州市百果园信息技术有限公司 图片分类、分类识别模型的生成方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120070A (zh) * 2022-01-29 2022-03-01 浙江啄云智能科技有限公司 图像检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110222724B (zh) 2023-12-19
WO2020228179A1 (zh) 2020-11-19

Similar Documents

Publication Publication Date Title
CN108377240B (zh) 异常接口检测方法、装置、计算机设备和存储介质
CN105825524B (zh) 目标跟踪方法和装置
CN105243374B (zh) 三维人脸识别方法、系统及应用其的数据处理装置
US20130251246A1 (en) Method and a device for training a pose classifier and an object classifier, a method and a device for object detection
CN105512683A (zh) 基于卷积神经网络的目标定位方法及装置
CN110807491A (zh) 车牌图像清晰度模型训练方法、清晰度检测方法及装置
US10169853B2 (en) Score weights for user interface (UI) elements
CN107798272A (zh) 快速多目标检测与跟踪系统
CN110598687A (zh) 车辆识别码的检测方法、装置及计算机设备
CN108681746A (zh) 一种图像识别方法、装置、电子设备和计算机可读介质
CN111340126A (zh) 物品识别方法、装置、计算机设备和存储介质
CN111144372A (zh) 车辆检测方法、装置、计算机设备和存储介质
CN109993021A (zh) 人脸正脸检测方法、装置及电子设备
CN111401472B (zh) 基于深度卷积神经网络的红外目标分类方法和装置
CN110222724A (zh) 一种图片实例检测方法、装置、计算机设备及存储介质
CN113516144A (zh) 目标检测方法及装置、计算设备
CN111124863B (zh) 智能设备性能测试方法、装置及智能设备
CN110796039B (zh) 一种面部瑕疵检测方法、装置、电子设备及存储介质
CN116228678A (zh) 芯片封装缺陷自动识别和处理方法
Liu et al. Human attention-guided explainable AI for object detection
CN111124896A (zh) 一种主次峰值比计算算法的蜕变测试系统
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN109583266A (zh) 一种目标检测方法、装置、计算机设备及存储介质
CN114240928B (zh) 板卡质量的分区检测方法、装置、设备及可读存储介质
CN115690514A (zh) 图像识别方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant