CN107729848B

CN107729848B - 对象检测方法及装置

Info

Publication number: CN107729848B
Application number: CN201710986773.5A
Authority: CN
Inventors: 廖媛; 吕肖庆; 汤帜; 王勇涛
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-10-20
Filing date: 2017-10-20
Publication date: 2019-10-25
Anticipated expiration: 2037-10-20
Also published as: CN107729848A

Abstract

本发明公开了一种对象检测方法及装置，属于计算机技术领域。所述方法包括：将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧；根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度；对于所述多个候选图像中属于同一类别的至少一个候选图像，根据所述至少一个候选图像的置信度中最高的置信度，对所述至少一个候选图像的置信度进行调整；根据所述多个候选图像的调整后的置信度，从所述多个候选图像中获取多个包含有预设对象的目标图像。本发明提高了从该测试帧中获取目标图像时的准确度，避免了对该测试帧中较为模糊的目标图像的遗漏，进而提高了该视频整体的对象检测效果。

Description

对象检测方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种对象检测方法及装置。

背景技术

随着电视、网络等信息媒体的迅猛发展，海量的视频充斥在人们的生活中。视频中的某些对象往往会承载大量的语义信息，因而经常需要对视频进行对象检测，以从视频中识别出这些对象。例如，某个视频为体育比赛视频，则所要检测的对象可以为运动品牌的商标，通过对该体育比赛视频中的商标的检测，可以使得广告商能够获知其商标在该体育比赛视频中的可视程度。

目前，对视频进行对象检测时，可以对于该视频的每个视频帧，根据该视频帧的图像特征，确定该视频帧中的多个候选图像、各个候选图像的类别和各个候选图像属于其类别的概率；对于某个候选图像，如果该候选图像属于其类别的概率大于或等于预设的概率，则将该候选图像确定为包含有所要检测的对象的目标图像。

然而，由于视频中存在大量的镜头变换，所以视频的视频帧中出现许多模糊的区域。模糊区域中的图像的特征不能被准确提取，因而导致模糊区域中的图像的内容不能被准确识别。这种情况下，根据模糊区域中的图像的特征确定的该图像属于其类别的概率将会偏低，从而导致后续该图像不被认为是目标图像，造成该视频帧中的目标图像的遗漏，进而降低了视频整体的对象检测效果。

发明内容

为了解决相关技术中视频整体的对象检测效果较低的问题，本发明实施例提供了一种对象检测方法及装置。所述技术方案如下：

第一方面，提供了一种对象检测方法，所述方法包括：

将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧；

根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度，所述各个候选图像的置信度为所述各个候选图像属于所述各个候选图像的类别的概率；

对于所述多个候选图像中属于同一类别的至少一个候选图像，根据所述至少一个候选图像的置信度中最高的置信度，对所述至少一个候选图像的置信度进行调整；

根据所述多个候选图像的调整后的置信度，从所述多个候选图像中获取多个包含有预设对象的目标图像。

可选地，所述根据所述至少一个候选图像的置信度中最高的置信度，对所述至少一个候选图像的置信度进行调整，包括：

获取所述至少一个候选图像所属的类别对应的颜色模板；

对于所述至少一个候选图像中的指定候选图像，确定所述指定候选图像与所述颜色模板之间的颜色相似度，所述指定候选图像为所述至少一个候选图像中的任一候选图像；

根据所述至少一个候选图像的置信度中最高的置信度，以及根据所述指定候选图像与所述颜色模板之间的颜色相似度，对所述指定候选图像的置信度进行调整。

可选地，所述根据所述至少一个候选图像的置信度中最高的置信度，以及根据所述指定候选图像与所述颜色模板之间的颜色相似度，对所述指定候选图像的置信度进行调整，包括：

当所述多个候选图像中与所述指定候选图像的类别不同的候选图像与所述指定候选图像发生重叠，且所述指定候选图像的置信度小于所重叠的候选图像的置信度时，根据所述指定候选图像的面积和所重叠的候选图像的面积，确定所述指定候选图像的惩罚值；

根据所述至少一个候选图像的置信度中最高的置信度、所述指定候选图像与所述颜色模板之间的颜色相似度和所述指定候选图像的惩罚值，对所述指定候选图像的置信度进行调整。

可选地，所述根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像之前，还包括：

确定所述视频中所述测试帧相邻的前一个视频帧与所述测试帧之间的相似度；

当所述前一个视频帧与所述测试帧之间的相似度小于预设相似度时，执行根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像的步骤；

对于所述视频中所述测试帧相邻的后n个视频帧，按照获取所述测试帧中的多个目标图像的方式，获取所述n个视频帧中每个视频帧中的多个目标图像，所述n为正整数。

可选地，所述确定所述视频中所述测试帧相邻的前一个视频帧与所述测试帧之间的相似度之后，还包括：

当所述前一个视频帧与所述测试帧之间的相似度大于或等于预设相似度时，将所述视频中的指定视频帧中与所述测试帧相距最近的指定视频帧确定为第一视频帧，所述指定视频帧为已进行对象检测且与所相邻的前一个视频帧之间的相似度小于预设相似度的视频帧；

将所述第一视频帧与所述测试帧之间的m个视频帧均确定为第二视频帧，所述m为正整数；

获取所述第一视频帧和m个第二视频帧中的多个目标图像；

根据所述第一视频帧和所述m个第二视频帧中的多个目标图像，获取所述测试帧中的多个目标图像。

可选地，所述根据所述第一视频帧和所述m个第二视频帧中的多个目标图像，获取所述测试帧中的多个目标图像，包括：

根据所述第一视频帧和所述m个第二视频帧中的多个目标图像的位置，确定所述测试帧中的多个候选位置；

根据所述测试帧中的多个候选位置，获取所述测试帧中的多个目标图像。

可选地，所述根据所述测试帧中的多个候选位置，获取所述测试帧中的多个目标图像，包括：

将所述第一视频帧和所述m个第二视频帧中与所述测试帧相邻的前一个视频帧确定为筛选视频帧，并获取所述筛选视频帧中的多个目标图像的生命值；

对于所述筛选视频帧中的多个目标图像中的指定目标图像，从所述测试帧中的多个候选位置中确定由所述指定目标图像的位置预测得到的指定候选位置，所述指定目标图像为所述筛选视频帧中的多个目标图像中的任一目标图像；

获取所述测试帧中位于所述指定候选位置处的图像；

确定所述指定目标图像与所述指定候选位置处的图像之间的相似度；

根据所述指定目标图像与所述指定候选位置处的图像之间的相似度和所述指定目标图像的生命值，确定所述指定候选位置处的图像的生命值；

当所述指定候选位置处的图像的生命值大于0时，根据该指定候选位置处的图像确定目标图像。

第二方面，提供了一种对象检测装置，所述装置包括：

第一确定模块，用于将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧；

第二确定模块，用于根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度，所述各个候选图像的置信度为所述各个候选图像属于所述各个候选图像的类别的概率；

调整模块，用于对于所述多个候选图像中属于同一类别的至少一个候选图像，根据所述至少一个候选图像的置信度中最高的置信度，对所述至少一个候选图像的置信度进行调整；

第一获取模块，用于根据所述多个候选图像的调整后的置信度，从所述多个候选图像中获取多个包含有预设对象的目标图像。

可选地，所述调整模块包括：

第一获取单元，用于获取所述至少一个候选图像所属的类别对应的颜色模板；

第一确定单元，用于对于所述至少一个候选图像中的指定候选图像，确定所述指定候选图像与所述颜色模板之间的颜色相似度，所述指定候选图像为所述至少一个候选图像中的任一候选图像；

调整单元，用于根据所述至少一个候选图像的置信度中最高的置信度，以及根据所述指定候选图像与所述颜色模板之间的颜色相似度，对所述指定候选图像的置信度进行调整。

可选地，所述调整单元用于：

可选地，所述装置还包括：

第三确定模块，用于确定所述视频中所述测试帧相邻的前一个视频帧与所述测试帧之间的相似度；

触发模块，用于当所述前一个视频帧与所述测试帧之间的相似度小于预设相似度时，触发所述第二确定模块根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像；

第二获取模块，用于对于所述视频中所述测试帧相邻的后n个视频帧，按照获取所述测试帧中的多个目标图像的方式，获取所述n个视频帧中每个视频帧中的多个目标图像，所述n为正整数。

可选地，所述装置还包括：

第四确定模块，用于当所述前一个视频帧与所述测试帧之间的相似度大于或等于预设相似度时，将所述视频中的指定视频帧中与所述测试帧相距最近的指定视频帧确定为第一视频帧，所述指定视频帧为已进行对象检测且与所相邻的前一个视频帧之间的相似度小于预设相似度的视频帧；

第五确定模块，用于将所述第一视频帧与所述测试帧之间的m个视频帧均确定为第二视频帧，所述m为正整数；

第三获取模块，用于获取所述第一视频帧和m个第二视频帧中的多个目标图像；

第四获取模块，用于根据所述第一视频帧和所述m个第二视频帧中的多个目标图像，获取所述测试帧中的多个目标图像。

可选地，所述第四获取模块包括：

第二确定单元，用于根据所述第一视频帧和所述m个第二视频帧中的多个目标图像的位置，确定所述测试帧中的多个候选位置；

第二获取单元，用于根据所述测试帧中的多个候选位置，获取所述测试帧中的多个目标图像。

可选地，所述第二获取单元用于：

获取所述测试帧中位于所述指定候选位置处的图像；

第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的对象检测方法。

第四方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的对象检测方法。

本发明实施例提供的技术方案带来的有益效果是：将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧后，先根据该测试帧的图像特征，确定该测试帧中的多个候选图像以及各个候选图像的类别和置信度，再对于该多个候选图像中属于同一类别的至少一个候选图像，根据该至少一个候选图像的置信度中最高的置信度，对该至少一个候选图像的置信度进行调整，从而使得该多个候选图像中每个候选图像的置信度可以更加准确，解决了相关技术中无法准确得到模糊图像的置信度的问题。最后根据该多个候选图像的调整后的置信度，从该多个候选图像中获取多个包含有预设对象的目标图像，从而提高了从该测试帧中获取目标图像时的准确度，避免了对该测试帧中较为模糊的目标图像的遗漏，进而提高了该视频整体的对象检测效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种对象检测方法的流程图；

图2是本发明实施例提供的另一种对象检测方法的流程图；

图3是本发明实施例提供的一种对象检测装置的结构示意图；

图4是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，对本发明实施例涉及的应用场景予以说明。

本发明实施例提供的对象检测方法可以应用于对象检测场景，具体可以应用于对视频中的预设对象进行检测的场景。

例如，视频为体育比赛视频，预设对象为运动品牌的商标。此时，在获取到该体育比赛视频后，可以对该体育比赛视频中的商标进行检测，后续广告商就可以根据商标检测结果获知其商标在该体育比赛视频中的可视程度。

当然，实际应用中，该对象检测方法还可以应用于其它需要对视频中的预设对象进行检测的场景，本发明实施例对此不再一一列举。

接下来对本发明实施例提供的对象检测方法进行详细地解释说明。

图1是本发明实施例提供的一种对象检测方法的流程图。参见图1，该方法包括：

步骤101：将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧。

需要说明的是，对于某个视频帧，该视频帧已进行对象检测是指已经从该视频帧中获取包含有预设对象的目标图像，该视频帧未进行对象检测是指尚未从该视频帧中获取包含有预设对象的目标图像。

另外，预设对象为该视频中需要检测的对象，预设对象可以预先进行设置，如预设对象可以为商标等，本发明实施例对此不作限定。

再者，本发明实施例中可以先获取待检测的视频，再提取该视频中所有的视频帧，继而按照所提取出的视频帧的拍摄时间的顺序，对所提取出的视频帧进行对象检测。因而在步骤101中可以将该视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧，以便后续可以对该测试帧进行对象检测。

步骤102：根据该测试帧的图像特征，确定该测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度。

需要说明的是，该测试帧的图像特征用于体现该测试帧的图像信息，如该测试帧的图像特征可以包括该测试帧的颜色特征、纹理特征、形状特征、空间关系特征等，本发明实施例对此不作限定。

另外，各个候选图像的类别可以为各个候选图像可能包含的某个预设对象的标识，如候选图像1可能包含的某个预设对象的标识为标识1，则候选图像1的类别可以为标识1。其中，预设对象的标识用于唯一标识预设对象，如预设对象的标识可以为预设对象的名称等。

再者，各个候选图像的置信度可以为各个候选图像属于各个候选图像的类别的概率，如候选图像1的类别为类别1，且候选图像1属于类别1的概率为0.5，则候选图像1的置信度可以为0.5。

具体地，步骤102中可以根据该测试帧的图像特征，通过预设检测算法确定该测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度。

其中，预设检测算法可以为用于进行目标检测的算法，且预设检测算法可以预先进行设置，如预设检测算法可以为R-CNN(Regions with Convolutional Neural NetworkFeature)算法、Fast R-CNN算法、Faster R-CNN算法、YOLO(You only look once)算法、SSD(Single Shot MultiBox Detector)算法等，本发明实施例对此不作限定。

例如，预设检测算法为R-CNN算法，则根据该测试帧的图像特征，通过预设检测算法确定该测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度的操作可以为：使用选择性搜索从该测试帧中确定多个候选框；使用深度网络提取每个候选框中的图像的特征；使用分类器确定每个候选框中的图像的特征所属的类别和该特征属于其类别的概率；使用回归器调整每个候选框的位置；对于位置调整后的每个候选框，将该候选框中的图像确定为候选图像，将该候选框中的图像的特征所属的类别确定为该候选图像的类别，将该候选框中的图像的特征属于其类别的概率确定为该候选图像的置信度。

步骤103：对于该多个候选图像中属于同一类别的至少一个候选图像，根据该至少一个候选图像的置信度中最高的置信度，对该至少一个候选图像的置信度进行调整。

其中，根据该至少一个候选图像的置信度中最高的置信度，对该至少一个候选图像的置信度进行调整的操作可以通过如下三种方式实现。

第一种方式：对于该至少一个候选图像中的指定候选图像，根据该至少一个候选图像的置信度中最高的置信度，对该指定候选图像的置信度进行调整，该指定候选图像为该至少一个候选图像中的任一候选图像。

需要说明的是，当某个视频帧中的某个位置上存在某个预设对象时，该视频帧中的其它位置上也将很有可能存在该预设对象。也即是，当该测试帧中的某个候选图像属于某个类别的概率越高时，该测试帧中与该候选图像的类别相同的其它候选图像属于该类别的概率也将越高。因而，上述第一种方式中可以根据该至少一个候选图像的置信度中最高的置信度来对该指定候选图像的置信度进行调整。

在此情况下，对候选图像的置信度进行调整时，可以遵循以下原则：对于属于同一类别的候选图像，原始的置信度越大的候选图像的调整后的置信度将获得越大的提升；对于原始置信度相同但属于不同类别的候选图像，当某个类别的候选图像的置信度中最高的置信度大于其它类别的候选图像的置信度中最高的置信度时，该类别的候选图像的调整后的置信度相比于该其它类别的候选图像的调整后的置信度将获得更大的提升。

其中，根据该至少一个候选图像的置信度中最高的置信度，对该指定候选图像的置信度进行调整时，可以根据该至少一个候选图像的置信度中最高的置信度和该指定候选图像的原始的置信度，通过如下第一预设公式确定该指定候选图像的调整后的置信度。

第一预设公式：

其中，

其中，为该指定候选图像的调整后的置信度，φ₁为该指定候选图像的原始的置信度，φ₂为该至少一个候选图像的大于或等于δ₁的置信度中最高的置信度，w₁、δ₁、θ、ε均为预设的参数。

当然，实际应用中，也可以通过其它方式根据该至少一个候选图像的置信度中最高的置信度，对该指定候选图像的置信度进行调整，本发明实施例对此不作限定。

第二种方式：获取该至少一个候选图像所属的类别对应的颜色模板；对于该至少一个候选图像中的指定候选图像，确定该指定候选图像与该颜色模板之间的颜色相似度；根据该至少一个候选图像的置信度中最高的置信度，以及根据该指定候选图像与该颜色模板之间的颜色相似度，对该指定候选图像的置信度进行调整。

需要说明的是，由于包含有相同的预设对象的候选图像通常具有相似的颜色信息，所以上述第二种方式中可以结合该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度这两者来对该指定候选图像的置信度进行调整。

其中，获取该至少一个候选图像所属的类别对应的颜色模板时，可以先获取该类别对应的多张训练图像，再获取该多张训练图像的平均颜色直方图，将该平均颜色直方图确定为该类别对应的颜色模板。

其中，确定该指定候选图像与该颜色模板之间的颜色相似度时，可以获取该指定候选图像的颜色直方图，确定该指定候选图像的颜色直方图与该颜色模板之间的相似度，该指定候选图像的颜色直方图与该颜色模板之间的相似度即为该指定候选图像与该颜色模板之间的颜色相似度。

其中，确定该指定候选图像的颜色直方图与该颜色模板之间的相似度时，可以根据该指定候选图像的颜色直方图和该颜色模板，通过如下第二预设公式确定该指定候选图像的颜色直方图与该颜色模板之间的相似度。

第二预设公式：

其中，λ为该指定候选图像的颜色直方图与该颜色模板之间的相似度，H₁为该指定候选图像的颜色直方图，H₂为该颜色模板。

当然，实际应用中，也可以通过其它方式确定该指定候选图像的颜色直方图与该颜色模板之间的相似度，本发明实施例对此不作限定。

其中，根据该至少一个候选图像的置信度中最高的置信度，以及根据该指定候选图像与该颜色模板之间的颜色相似度，对该指定候选图像的置信度进行调整时，可以根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度和该指定候选图像的原始的置信度，通过如下第三预设公式确定该指定候选图像的调整后的置信度。

第三预设公式：

其中，为该指定候选图像的调整后的置信度，φ₁为该指定候选图像的原始的置信度，ρ与上述第一预设公式中ρ相同，λ与上述第二预设公式中的λ相同，w₁、α均为预设的参数。

当然，实际应用中，也可以通过其它方式根据该至少一个候选图像的置信度中最高的置信度，以及根据该指定候选图像与该颜色模板之间的颜色相似度，对该指定候选图像的置信度进行调整，本发明实施例对此不作限定。

第三种方式：获取该至少一个候选图像所属的类别对应的颜色模板；对于该至少一个候选图像中的指定候选图像，确定该指定候选图像与该颜色模板之间的颜色相似度；当该多个候选图像中与该指定候选图像的类别不同的候选图像与该指定候选图像发生重叠，且该指定候选图像的置信度小于所重叠的候选图像的置信度时，根据该指定候选图像的面积和所重叠的候选图像的面积，确定该指定候选图像的惩罚值；根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度和该指定候选图像的惩罚值，对该指定候选图像的置信度进行调整。

需要说明的是，由于当某个候选图像与不同类别的其它候选图像发生重叠时，如果该候选图像的置信度小于该其它候选图像的置信度，则表明该候选图像包含某个预设对象的概率小于该其它候选图像包含其它预设对象的概率，也即是，在该候选图像的位置上该其它预设对象存在的概率更高，因而此时可以确定该候选图像的惩罚值，以使用该惩罚值适当降低该候选图像的置信度。因此，上述第三种方式中可以结合该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值这三者来对该指定候选图像的置信度进行调整。

其中，根据该指定候选图像的面积和所重叠的候选图像的面积，确定该指定候选图像的惩罚值时，可以根据该指定候选图像的面积和所重叠的候选图像的面积，通过如下第四预设公式确定该指定候选图像的惩罚值。

第四预设公式：τ＝1-e^q

其中，

其中，τ为该指定候选图像的惩罚值，P₁为该指定候选图像的面积，P₂为所重叠的候选图像的面积。

当然，实际应用中，也可以通过其它方式根据该指定候选图像的面积和所重叠的候选图像的面积，确定该指定候选图像的惩罚值，本发明实施例对此不作限定。

其中，根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度和该指定候选图像的惩罚值，对该指定候选图像的置信度进行调整时，可以根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值和该指定候选图像的原始的置信度，通过如下第五预设公式确定该指定候选图像的调整后的置信度。

第五预设公式：

其中，为该指定候选图像的调整后的置信度，φ₁为该指定候选图像的原始的置信度，w₁、w₂、α均为预设的参数，ρ与上述第一预设公式中ρ相同，λ与上述第二预设公式中的λ相同，τ与上述第四预设公式中的τ相同。

当然，实际应用中，也可以通过其它方式根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度和该指定候选图像的惩罚值，对该指定候选图像的置信度进行调整，本发明实施例对此不作限定。

需要说明的是，实际应用中，不仅可以结合该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值这三者来对该指定候选图像的置信度进行调整，还可以结合其他的因素来对该指定候选图像的置信度进行调整。

例如，可以确定该至少一个候选图像中与该指定候选图像距离最近的一个候选图像，确定该指定候选图像与该距离最近的候选图像之间的位置差异值，当该指定候选图像与该距离最近的候选图像之间的位置差异值小于预设的差异值时，根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值和该指定候选图像与该距离最近的候选图像之间的位置差异值，对该指定候选图像的置信度进行调整。

其中，确定该指定候选图像与该距离最近的候选图像之间的位置差异值时，可以根据该指定候选图像的位置和该距离最近的候选图像的位置，通过如下第六预设公式确定该指定候选图像与该距离最近的候选图像之间的位置差异值。

第六预设公式：

其中，σ为该指定候选图像与该距离最近的候选图像之间的位置差异值，Δx为该指定候选图像的位置的横轴坐标与该距离最近的候选图像的位置的横轴坐标之间的差值，Δy为该指定候选图像的位置的纵轴坐标与该距离最近的候选图像的位置的纵轴坐标之间的差值，d₁为该指定候选图像的对角线的长度，d₂为该距离最近的候选图像的对角线的长度。

当然，实际应用中，也可以通过其它方式确定该指定候选图像与该距离最近的候选图像之间的位置差异值，本发明实施例对此不作限定。

其中，根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值和该指定候选图像与该距离最近的候选图像之间的位置差异值，对该指定候选图像的置信度进行调整时，可以根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值、该指定候选图像与该距离最近的候选图像之间的位置差异值和该指定候选图像的原始的置信度，通过如下第七预设公式确定该指定候选图像的调整后的置信度。

第七预设公式：

其中，为该指定候选图像的调整后的置信度，φ₁为该指定候选图像的原始的置信度，w₁、w₂、α均为预设的参数，ρ与上述第一预设公式中ρ相同，λ与上述第二预设公式中的λ相同，τ与上述第四预设公式中的τ相同，σ与上述第四预设公式中的σ相同。

当然，实际应用中，也可以通过其它方式根据该至少一个候选图像的置信度中最高的置信度、该指定候选图像与该颜色模板之间的颜色相似度、该指定候选图像的惩罚值和该指定候选图像与该距离最近的候选图像之间的位置差异值，对该指定候选图像的置信度进行调整，本发明实施例对此不作限定。

步骤104：根据该多个候选图像的调整后的置信度，从该多个候选图像中获取多个包含有预设对象的目标图像。

具体地，对于该多个候选图像中的每个候选图像，当该候选图像的调整后的置信度大于或等于预设置信度时，可以将该候选图像确定为包含有预设对象的目标图像。

需要说明的是，预设置信度可以预先进行设置，且预设置信度可以设置的较大，如预设置信度可以设置为0.7、0.8等。

另外，从该多个候选图像中获取多个目标图像之后，就完成了对该测试帧的对象检测，此时即可返回步骤101，以继续对该视频中该测试帧相邻的后一个视频帧进行对象检测。

在本发明实施例中，将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧后，先根据该测试帧的图像特征，确定该测试帧中的多个候选图像以及各个候选图像的类别和置信度，再对于该多个候选图像中属于同一类别的至少一个候选图像，根据该至少一个候选图像的置信度中最高的置信度，对该至少一个候选图像的置信度进行调整，从而使得该多个候选图像中每个候选图像的置信度可以更加准确，解决了相关技术中无法准确得到模糊图像的置信度的问题。最后根据该多个候选图像的调整后的置信度，从该多个候选图像中获取多个包含有预设对象的目标图像，从而提高了从该测试帧中获取目标图像时的准确度，避免了对该测试帧中较为模糊的目标图像的遗漏，进而提高了该视频整体的对象检测效果。

需要说明的是，本发明实施例中不仅可以按照该视频中的视频帧的拍摄时间的顺序，通过上述步骤101-104对该视频中的视频帧进行对象检测，且为了缩短该视频整体的对象检测时间，还可以结合上述步骤101-104和如下步骤201-203来对该视频中的视频帧进行对象检测。具体地，参见图2，在上述步骤101之后，可以继续执行如下步骤201。

步骤201：确定该视频中该测试帧相邻的前一个视频帧与该测试帧之间的相似度。

具体地，可以直接计算该前一个视频帧与该测试帧之间的相似度；或者，当已经获取到该前一个视频帧中的多个目标图像时，可以根据该前一个视频帧中的多个目标图像的位置，从该测试帧中的对应位置处获取多个图像，计算该前一个视频帧中的多个目标图像与该测试帧中所获取的多个图像之间的相似度，将计算得到的相似度确定为该前一个视频帧与该测试帧之间的相似度。

步骤202：判断该前一个视频帧与该测试帧之间的相似度是否小于预设相似度；如果是，则执行上述步骤102-104；如果否，则执行如下步骤203。

需要说明是，预设相似度可以预先进行设置，且预设相似度可以设置的较大，如预设相似度可以为0.7、0.8等，本发明实施例对此不作限定。

另外，当该前一个视频帧与该测试帧之间的相似度小于预设相似度时，表明该前一个视频帧与该测试帧之间的差异较大，即该测试帧应该为一个新画面，这种情况下，前面的视频帧中的目标图像对该测试帧的参考不大，因而需要通过上述步骤102-104来独立对该测试帧进行对象检测。

而当该前一个视频帧与该测试帧之间的相似度大于或等于预设相似度时，表明该前一个视频帧与该测试帧之间的差异较小，即该前一个视频帧与该测试帧应该位于同一画面，这种情况下，前面的视频帧中的目标图像对该测试帧来说比较有参考价值，因而可以通过如下步骤203来根据前面的视频帧中的目标图像对该测试帧进行对象检测。

再者，当该前一个视频帧与该测试帧之间的相似度小于预设相似度时，对于该视频中该测试帧相邻的后n个视频帧，该n个视频帧同样无法参考前面的视频帧中的目标图像。因而对于该n个视频帧，可以按照获取该测试帧中的多个目标图像的方式，获取该n个视频帧中每个视频帧中的多个目标图像，也即是，对于该n个视频帧中的每个视频帧，可以将该视频帧作为测试帧，继而通过上述步骤102-104来获取该视频帧中的多个目标图像。其中，n为正整数。

步骤203：将该视频中的指定视频帧中与该测试帧相距最近的指定视频帧确定为第一视频帧，该指定视频帧为已进行对象检测且与所相邻的前一个视频帧之间的相似度小于预设相似度的视频帧；将该第一视频帧与该测试帧之间的m个视频帧均确定为第二视频帧；获取该第一视频帧和m个第二视频帧中的多个目标图像；根据该第一视频帧和该m个第二视频帧中的多个目标图像，获取该测试帧中的多个目标图像。

需要说明的是，该第一视频帧和该m个第二视频帧与该测试帧位于同一画面，因而可以根据该第一视频帧和该m个第二视频帧中的多个目标图像，获取该测试帧中的多个目标图像。其中，m为正整数。

其中，根据该第一视频帧和该m个第二视频帧中的多个目标图像，获取该测试帧中的多个目标图像的操作可以为：根据该第一视频帧和该m个第二视频帧中的多个目标图像的位置，确定该测试帧中的多个候选位置；根据该测试帧中的多个候选位置，获取该测试帧中的多个目标图像。

其中，根据该第一视频帧和该m个第二视频帧中的多个目标图像的位置，确定该测试帧中的多个候选位置的操作可以为：将该第一视频帧和该m个第二视频帧中的多个目标图像划分为多个目标图像组，每个目标图像组中分别包括该第一视频帧中的一个目标图像以及该m个第二视频帧中的每个第二视频帧中的一个目标图像，且每个目标图像组中包括的m+1个目标图像的位置相对应；对于该多个目标图像组中的每个目标图像组，根据该目标图像组中的m+1个目标图像的位置，构建该目标图像组的位置预测模型；使用该目标图像组的位置预测模型进行位置预测，得到该测试帧中的一个候选位置。

需要说明的是，该位置预测模型用于对图像的位置进行预测，如该位置预测模型可以为LSTM(Long Short-Term Memory，长短期记忆)模型等，本发明实施例对此不作限定。

其中，根据该测试帧中的多个候选位置，获取该测试帧中的多个目标图像的操作可以为：将该第一视频帧和该m个第二视频帧中与该测试帧相邻的前一个视频帧确定为筛选视频帧，并获取该筛选视频帧中的多个目标图像的生命值；对于该筛选视频帧中的多个目标图像中的指定目标图像，从该测试帧中的多个候选位置中确定由该指定目标图像的位置预测得到的指定候选位置，该指定目标图像为该筛选视频帧中的多个目标图像中的任一目标图像；获取该测试帧中位于该指定候选位置处的图像；确定该指定目标图像与该指定候选位置处的图像之间的相似度；根据该指定目标图像与该指定候选位置处的图像之间的相似度和该指定目标图像的生命值，确定该指定候选位置处的图像的生命值；当该指定候选位置处的图像的生命值大于0时，根据该指定候选位置处的图像确定目标图像；当该指定候选位置处的图像的生命值小于或等于0时，舍弃该指定候选位置。

需要说明的是，当该筛选视频帧中的多个目标图像是通过上述步骤102-104的方式获取得到时，该筛选视频帧中的多个目标图像的生命值可以根据该多个目标图像的置信度确定得到，当该筛选视频帧中的多个目标图像是通过上述步骤203的方式获取得到时，该筛选视频帧中的多个目标图像的生命值可以根据该筛选视频帧的前一个视频帧中的多个目标图像的生命值确定得到。

其中，根据该指定目标图像与该指定候选位置处的图像之间的相似度和该指定目标图像的生命值，确定该指定候选位置处的图像的生命值时，可以将该指定目标图像的生命值减去该指定目标图像与该指定候选位置处的图像之间的相似度，得到该指定候选位置处的图像的生命值。

其中，根据该指定候选位置处的图像确定目标图像，可以直接将该指定候选位置处的图像确定为目标图像；或者，可以先使用回归器对该指定候选位置进行调整，再将该测试帧中位于调整后的该指定候选位置处的图像确定为目标图像。

在本发明实施例中，将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧后，当该视频中该测试帧相邻的前一个视频帧与该测试帧之间的相似度小于预设相似度时，可以对该测试帧独立进行对象检测，保证从该测试帧中获取目标图像时的准确度。而当该前一个视频帧与该测试帧之间的相似度大于或等于预设相似度时，可以根据该测试帧前面的第一视频帧和m个第二视频帧中的多个目标图像，获取该测试帧中的多个目标图像，从而可以大大简化从该测试帧中获取目标图像的过程，缩短目标图像的获取时间，进而可以缩短该视频整体的对象检测时间。

接下来对本发明实施例提供的对象检测装置进行详细地解释说明。

图3是本发明实施例提供的一种对象检测装置的结构示意图。参见图3，该装置包括第一确定模块301，第二确定模块302、调整模块303和第一获取模块304。

第一确定模块301，用于将视频中未进行对象检测的视频帧中的第一个视频帧确定为测试帧；

第二确定模块302，用于根据测试帧的图像特征，确定测试帧中的多个候选图像，以及确定各个候选图像的类别和置信度，各个候选图像的置信度为各个候选图像属于各个候选图像的类别的概率；

调整模块303，用于对于多个候选图像中属于同一类别的至少一个候选图像，根据至少一个候选图像的置信度中最高的置信度，对至少一个候选图像的置信度进行调整；

第一获取模块304，用于根据多个候选图像的调整后的置信度，从多个候选图像中获取多个包含有预设对象的目标图像。

可选地，该调整模块303包括：

第一获取单元，用于获取至少一个候选图像所属的类别对应的颜色模板；

第一确定单元，用于对于至少一个候选图像中的指定候选图像，确定指定候选图像与颜色模板之间的颜色相似度，指定候选图像为至少一个候选图像中的任一候选图像；

调整单元，用于根据至少一个候选图像的置信度中最高的置信度，以及根据指定候选图像与颜色模板之间的颜色相似度，对指定候选图像的置信度进行调整。

可选地，调整单元用于：

当多个候选图像中与指定候选图像的类别不同的候选图像与指定候选图像发生重叠，且指定候选图像的置信度小于所重叠的候选图像的置信度时，根据指定候选图像的面积和所重叠的候选图像的面积，确定指定候选图像的惩罚值；

根据至少一个候选图像的置信度中最高的置信度、指定候选图像与颜色模板之间的颜色相似度和指定候选图像的惩罚值，对指定候选图像的置信度进行调整。

可选地，该装置还包括：

第三确定模块，用于确定视频中测试帧相邻的前一个视频帧与测试帧之间的相似度；

触发模块，用于当前一个视频帧与测试帧之间的相似度小于预设相似度时，触发第二确定模块302根据测试帧的图像特征，确定测试帧中的多个候选图像；

第二获取模块，用于对于视频中测试帧相邻的后n个视频帧，按照获取测试帧中的多个目标图像的方式，获取n个视频帧中每个视频帧中的多个目标图像，n为正整数。

可选地，该装置还包括：

第四确定模块，用于当前一个视频帧与测试帧之间的相似度大于或等于预设相似度时，将视频中的指定视频帧中与测试帧相距最近的指定视频帧确定为第一视频帧，指定视频帧为已进行对象检测且与所相邻的前一个视频帧之间的相似度小于预设相似度的视频帧；

第五确定模块，用于将第一视频帧与测试帧之间的m个视频帧均确定为第二视频帧，m为正整数；

第三获取模块，用于获取第一视频帧和m个第二视频帧中的多个目标图像；

第四获取模块，用于根据第一视频帧和m个第二视频帧中的多个目标图像，获取测试帧中的多个目标图像。

可选地，第四获取模块包括：

第二确定单元，用于根据第一视频帧和m个第二视频帧中的多个目标图像的位置，确定测试帧中的多个候选位置；

第二获取单元，用于根据测试帧中的多个候选位置，获取测试帧中的多个目标图像。

可选地，第二获取单元用于：

将第一视频帧和m个第二视频帧中与测试帧相邻的前一个视频帧确定为筛选视频帧，并获取筛选视频帧中的多个目标图像的生命值；

对于筛选视频帧中的多个目标图像中的指定目标图像，从测试帧中的多个候选位置中确定由指定目标图像的位置预测得到的指定候选位置，指定目标图像为筛选视频帧中的多个目标图像中的任一目标图像；

获取测试帧中位于指定候选位置处的图像；

确定指定目标图像与指定候选位置处的图像之间的相似度；

根据指定目标图像与指定候选位置处的图像之间的相似度和指定目标图像的生命值，确定指定候选位置处的图像的生命值；

当指定候选位置处的图像的生命值大于0时，根据该指定候选位置处的图像确定目标图像。

需要说明的是：上述实施例提供的对象检测装置在对象检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的对象检测装置与对象检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种计算机设备的结构示意图。参见图4，该计算机设备包括至少一个处理器401，通信总线402，存储器403以及至少一个通信接口404。

处理器401可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线402可包括一通路，在上述组件之间传送信息。

存储器403可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器403可以是独立存在，通过通信总线402与处理器401相连接。存储器403也可以和处理器401集成在一起。

通信接口404，使用任何收发器一类的装置，用于与其它设备或通信网络通信，如以太网，无线接入网(Radio Access Network，RAN)，无线局域网(Wireless Local AreaNetworks，WLAN)等。

在具体实现中，作为一种实施例，处理器401可以包括一个或多个CPU，例如图4中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图4中所示的处理器401和处理器405。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备406和输入设备407。输出设备406和处理器401通信，可以以多种方式来显示信息。例如，输出设备406可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备407和处理器401通信，可以以多种方式接收用户的输入。例如，输入设备407可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(PersonalDigital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备或者嵌入式设备，本发明实施例不限定计算机设备的类型。

其中，存储器403用于存储执行本申请方案的程序代码410，处理器401用于执行存储器403中存储的程序代码410。该计算机设备可以通过处理器401以及存储器403中的程序代码410，来实现上述图1和图2实施例提供的对象检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(Digital Versatile Disc，DVD))、或者半导体介质(例如：固态硬盘(Solid State Disk，SSD))等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对象检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述至少一个候选图像的置信度中最高的置信度，对所述至少一个候选图像的置信度进行调整，包括：

获取所述至少一个候选图像所属的类别对应的颜色模板；

3.如权利要求2所述的方法，其特征在于，所述根据所述至少一个候选图像的置信度中最高的置信度，以及根据所述指定候选图像与所述颜色模板之间的颜色相似度，对所述指定候选图像的置信度进行调整，包括：

4.如权利要求1-3任一所述的方法，其特征在于，所述根据所述测试帧的图像特征，确定所述测试帧中的多个候选图像之前，还包括：

确定所述视频中和所述测试帧相邻的前一个视频帧与所述测试帧之间的相似度；

对于所述视频中和所述测试帧相邻的后n个视频帧，按照获取所述测试帧中的多个目标图像的方式，获取所述n个视频帧中每个视频帧中的多个目标图像，所述n为正整数。

5.如权利要求4所述的方法，其特征在于，所述确定所述视频中和所述测试帧相邻的前一个视频帧与所述测试帧之间的相似度之后，还包括：

获取所述第一视频帧和m个第二视频帧中的多个目标图像；

6.如权利要求5所述的方法，其特征在于，所述根据所述第一视频帧和所述m个第二视频帧中的多个目标图像，获取所述测试帧中的多个目标图像，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述测试帧中的多个候选位置，获取所述测试帧中的多个目标图像，包括：

获取所述测试帧中位于所述指定候选位置处的图像；

8.一种对象检测装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于确定所述视频中和所述测试帧相邻的前一个视频帧与所述测试帧之间的相似度；

第二获取模块，用于对于所述视频中和所述测试帧相邻的后n个视频帧，按照获取所述测试帧中的多个目标图像的方式，获取所述n个视频帧中每个视频帧中的多个目标图像，所述n为正整数。

10.如权利要求9所述的装置，其特征在于，所述装置还包括：