CN110852285A

CN110852285A - 对象检测方法、装置、计算机设备和存储介质

Info

Publication number: CN110852285A
Application number: CN201911113537.8A
Authority: CN
Inventors: 崔志鹏; 王亚彪; 王昌安; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-02-28
Anticipated expiration: 2039-11-14
Also published as: CN110852285B

Abstract

本申请涉及一种对象检测方法、装置、计算机设备和存储介质，涉及人工智能的图像识别技术，所述方法包括：获取目标图像集合，所述目标图像集合包括一个或多个目标图像；获取已训练得到的第一对象检测模型；将所述目标图像集合中的各个目标图像输入到所述第一对象检测模型中，输出所述目标图像对应的各个候选图像区域的模型检测结果，所述候选图像区域是对所述目标图像进行分割得到的，所述候选图像区域存在标准检测结果；根据所述候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；根据所述目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。上述方法可以提高对象检测准确度。

Description

对象检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像识别领域，特别是涉及对象检测方法、装置、计算机设备和存储介质。

背景技术

随着科技的发展，图像识别技术被越来越广泛的使用。图像识别技术是指识别出图像所包括的对象的技术，是一种常见的图像处理的方式，例如对图像进行人脸识别，得到图像中人脸所在的位置。

相关技术中，可以通过人工智能、机器学习模型对图像是否包括所识别的对象进行检测。在对机器学习模型进行模型训练时，可以获取包括目标对象的图像进行模型训练，使得机器学习模型学习到识别包括目标物体的图像的模型参数。然而，经常存在模型对部分图像难以进行对象识别的情况，模型的对象检测准确度低。

发明内容

基于此，有必要针对上述模型的对象检测准确度低的问题，提供一种对象检测方法、装置、计算机设备和存储介质。

一种对象检测方法，所述方法包括：获取目标图像集合，所述目标图像集合包括一个或多个目标图像；获取已训练得到的第一对象检测模型；将所述目标图像集合中的各个目标图像输入到所述第一对象检测模型中，输出所述目标图像对应的各个候选图像区域的模型检测结果，所述候选图像区域是对所述目标图像进行分割得到的，所述候选图像区域存在标准检测结果；根据所述候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；根据所述目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型，以利用所述训练后的第二对象检测模型对目标对象进行检测。

一种对象检测装置，所述装置包括：目标图像集合获取模块，用于获取目标图像集合，所述目标图像集合包括一个或多个目标图像；第一对象检测模型获取模块，用于获取已训练得到的第一对象检测模型；第一输入模块，用于将所述目标图像集合中的各个目标图像输入到所述第一对象检测模型中，输出所述目标图像对应的各个候选图像区域的模型检测结果，所述候选图像区域是对所述目标图像进行分割得到的，所述候选图像区域存在标准检测结果；目标图像区域确定模块，用于根据所述候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；第二训练模块，用于根据所述目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型，以利用所述训练后的第二对象检测模型对目标对象进行检测。

在一些实施例中，所述目标图像区域确定模块包括：第一图像区域确定单元，用于获取模型检测结果为存在目标对象的候选图像区域，作为第一图像区域；目标图像区域确定单元，用于获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。

在一些实施例中，所述目标图像区域确定单元用于：当所述第一图像区域对应的目标图像存在目标对象时，计算目标对象对应的图像区域与所述第一图像区域的重合度；获取重合度小于第一重合度的第一图像区域，作为模型检测结果与标准检测结果不对应的图像区域。

在一些实施例中，所述目标图像区域确定单元用于：当所述第一图像区域对应的目标图像不存在目标对象时，确定所述第一图像区域为模型检测结果与标准检测结果不对应的图像区域。

在一些实施例中，所述第二训练模块包括：待拼接图像获取单元，用于获取包括目标对象的待拼接图像；拼接单元，用于根据所述目标图像区域以及所述待拼接图像进行图像拼接，得到训练样本图像；第二训练单元，用于根据所述训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

在一些实施例中，所述拼接单元用于：当所述目标图像区域对应的目标图像为不包括目标对象时，在所述目标图像上对所述目标图像区域进行缩放，得到缩放图像区域；根据所述缩放图像区域以及所述待拼接图像进行图像拼接，得到训练样本图像。

在一些实施例中，所述第二训练单元用于：根据所述待拼接图像在所述训练样本图像的位置，确定所述训练样本中存在目标对象的对象区域；对所述训练样本图像进行图像分割，得到分割图像区域；根据所述分割图像区域与所述对象区域的重合度，确定所述分割图像区域对应的样本类型；根据所述分割图像区域以及对应的样本类型对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

在一些实施例中，所述根据所述分割图像区域与所述对象区域的重合度，确定所述分割图像区域的样本类型包括以下步骤的至少一种：当所述分割图像区域与所述对象区域的重合度大于第二重合度时，确定所述分割图像区域对应的样本类型为正样本；当所述分割图像区域与所述对象区域的重合度小于第三重合度时，确定所述分割图像区域对应的样本类型为负样本。

在一些实施例中，所述装置还包括：待检测图像获取模块，用于获取待进行对象检测的待检测图像；第二输入模块，用于将所述待检测图像输入到所述第一对象检测模型中，得到所述待检测图像对应的图像区域中存在目标对象的置信度；置信度获取模块，用于获取置信度大于第二置信度的图像区域，作为第二图像区域，将所述第二图像区域输入到所述训练后的第二对象检测模型中，得到所述第二图像区域中存在目标对象的置信度；检测结果确定模块，用于根据所述第二图像区域中存在目标对象的置信度确定所述待检测图像的对象检测结果。

在一些实施例中，训练所述第一对象检测模型的第一训练模块用于:获取初始样本图像；对所述初始样本图像进行下采样处理，得到目标样本图像；根据所述目标样本图像对第一对象检测模型进行模型训练，得到已训练的所述第一对象检测模型。

在一些实施例中，所述第一输入模块用于：将所述目标图像集合中的各个目标图像输入到第一对象检测模型中，得到所述目标图像对应的各个候选图像区域中存在目标对象的置信度，将置信度大于第一置信度的候选图像区域作为存在目标对象的候选图像区域。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述对象检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述对象检测方法的步骤。

上述对象检测方法、装置、计算机设备和存储介质，可根据第一对象检测模型的模型检测结果与图像区域的标准检测结果的差异筛选得到目标图像区域，根据目标图像区域进行模型训练，得到第二对象检测模型，由于根据模型检测结果与图像区域的标准检测结果的差异选择目标图像区域，从而有针对性的对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型，因此能够提高第二对象检测模型的检测能力，对象检测准确度高。

附图说明

图1为一些实施例中提供的对象检测方法的应用环境图；

图2为一些实施例中对象检测方法的流程图；

图3为一些实施例中为对目标图像进行分割，得到候选图像区域的示意图；

图4为一些实施例中将目标图像输入到第一对象检测模型，得到输出结果的示意图；

图5为一些实施例中对象检测方法的流程图；

图6为一些实施例中级联卷积神经网络的结构示意图；

图7为一些实施例中目标对象对应的图像区域以及第一图像区域在样本图像的位置的示意图；

图8为一些实施例中对第一对象检测模型中进行模型训练的示意图；

图9为一些实施例中构建图像金字塔的示意图；

图10为一些实施例中根据目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型的流程图；

图11为一些实施例中进行图像拼接的示意图；

图12为一些实施例中对目标图像区域进行缩放的示意图；

图13为一些实施例中实施本申请实施例对象监测方法的示意图；

图14为一些实施例中对象检测装置的结构图；

图15为一些实施例中计算机设备的内部结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一对象检测模型称为第二对象检测模型，且类似地，可将第二对象检测模型称为第一对象检测模型。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括计算机视觉技术以及机器学习/深度学习等方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请的方案涉及基于人工智能的图像识别技术。具体通过如下实施例进行说明。

图1为一些实施例中提供的检测模型训练方法的应用环境图。如图1所示，在该应用环境中，包括终端110以及服务器120。终端110可以将待检测的图像发送到服务器120中，服务器120中存储了根据本申请实施例提供的方法进行模型训练得到的第一对象检测模型以及第二对象检测模型，服务器120可以利用第一对象检测模型以及第二对象检测模型对待检测的图像进行对象检测，得到待检测的图像中目标对象的具体位置，例如人脸在图像的位置。服务器120将标注出目标对象的位置的图像返回给终端110，终端110可以显示标注出目标对象的位置的图像。

在一些实施例中，也可以在终端110存储第一对象检测模型以及第二对象检测模型，由终端110执行利用第一对象检测模型以及第二对象检测模型检测目标对象在图像的位置的步骤。例如，可以在服务器120中进行模型训练，得到第一对象检测模型以及第二对象检测模型，终端110中可以安装有用于人脸检测的应用程序，该应用程序上部署有第一对象检测模型以及第二对象检测模型。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110以及服务器120可以通过网络等通讯连接方式进行连接，本申请在此不做限制。

如图2所示，在一些实施例中，提出了一种对象检测方法，本实施例主要以该方法应用于上述图1中的服务器120或终端110来举例说明。具体可以包括以下步骤：

步骤S202，获取目标图像集合，目标图像集合包括一个或多个目标图像。

具体地，“多个”是指至少两个。目标图像集合中包括存在目标对象的目标图像或者不存在目标对象的目标图像的至少一个。例如，假设需要进行人脸检测，则目标对象是“人脸”，则可以获取1000张图片，作为目标图像集合，这1000张图像中可以有800张是有人脸的图像，另200张是没有人脸的图像。目标对象是指需要检测的目标，目标对象根据具体应用场景可以不同，例如可以是肿块、汽车、人脸或者手势等。

在一些实施例中，可以根据模型训练指令获取目标图像集合，例如，可以预先获取图像并存储，当要对第二对象检测模型进行训练时，发送第二对象检测模型训练指令，训练指令中携带图像的存储地址，根据图像的存储地址获取目标图像集合。

步骤S204，获取已训练得到的第一对象检测模型。

具体地，对象检测模型用于对图像进行对象检测。可以用于检测目标对象在图像中的位置，也可以用于检测图像中是否包括目标对象。例如，当将图像输入到对象检测模型时，可以检测出人脸在图像的位置，得到人脸在图像的位置后，还可以在图像中进行标记，例如加上人脸框。目标对象所在的位置的表示方法可以根据需要设置。可以用目标对象的中心坐标、高度以及宽度表示，通过中心坐标、高度以及宽度可以确定一个矩形位置区域，该位置区域为目标对象所在的位置。第一对象检测模型是已经预先进行模型训练得到的，可以是深度神经网络，例如可以是基于CNN(Convolutional Neural Network，卷积神经网络)的对象检测模型，可以获取多个样本图像，基于样本图像进行模型训练得到第一对象检测模型。

在进行模型训练时，可以采用有监督的训练方法，将图像输入到模型中，模型预测得到图像中各个图像区域为目标对象所在的位置的概率(也称为置信度)，置信度越大，则说明该图像区域为目标对象所在的位置的可能性越大。可以根据目标对象在图像中的实际位置与预测得到的位置的差异得到损失值，差异越大，则损失值越大，可以采用梯度下降的方法朝着损失值变小的方向调整模型参数。在计算损失值时，可以根据预测得到的目标对象的位置的中心坐标与实际的目标对象的中心坐标的差异得到第一损失值，根据预测得到的图像区域为目标对象所在的位置的置信度与实际的置信度的差异得到第二损失值，根据第一损失值以及第二损失值得到总的损失值。也可以结合根据预测得到的宽度与实际的宽度的差异计算得到的损失值，以及根据预测得到的高度与实际的高度的差异计算得到的损失值得到总的损失值。其中实际的置信度可以是当该图像区域存在目标对象时，则置信度为1，当不存在目标图像时，则置信度为0。

步骤S206，将目标图像集合中的各个目标图像输入到第一对象检测模型中，输出目标图像对应的各个候选图像区域的模型检测结果，候选图像区域是对目标图像进行分割得到的，候选图像区域存在标准检测结果。

具体地，候选图像区域是对目标图像进行分割得到的图像区域。一个目标图像所包括的候选图像区域集合中的个数可以根据需要进行设置，例如可以是2000个，即可以将一张图像分割得到2000个图像区域。一个目标图像的候选图像区域可以存在重叠的区域，也可以不存在重叠的区域。候选图像区域的大小可以相同也可以不同。例如，如图3所示，为对目标图像进行分割，得到候选图像区域的示意图，目标图像可以包括3个候选区域：A、B以及C。其中A与B存在重叠的区域，A与B的大小相同，C的图像尺寸小于A与B的图像尺寸。

目标图像的候选图像区域的确定方法可以根据需要进行设置，例如，可以基于无监督算法，基于区域相似性将目标图像分割为多个图像区域。无监督得到候选图像区域的方法不需要标注，可以根据图像的底层视觉特征为依据提取将相似性高的图像区域作为一个候选图像区域区域，例如提取包括异常组织的结节或者肿块等病灶的区域。无监督候选区域生成方法可得到上千个可能候选区域。无监督分割算法可以包括碎片聚合方法(grouping method)以及窗口打分方法(window scoring method)。其中，碎片聚合方法可以将图像划分为超像素块，通过聚合方法产生有可能包含目标的多个候选区域，例如可以采用MCG(multiscale combinatorial grouping，多尺度组合分组)或者选择性搜索算法得到多个候选图像区域。窗口打分方例如可以是EdgeBox算法，EdgeBox是通过边缘特征提取,来进行目标检测的一种方法，该算法的可以通过包围框中包含完整轮廓的数量表示包括目标对象的概率，据此对该包围框进行评分，保留得分大于一定阈值的包围框对应的区域作为候选区域。当然也可以利用滑动窗口遍历目标图像，将每个滑动窗口对应的局部图像作为候选图像区域进行检测。

模型检测结果是指模型输出的检测结果，可以是存在目标对象或者不存在目标对象。标准检测结果是用于表示该候选图像区域中实际是否存在目标对象的结果。例如，假设该候选图像区域中实际上存在人脸，则标准检测结果为存在人脸。候选图像区域的标准检测结果可以是在确定模型检测结果之前已经确定的，也可以是在确定模型检测结果之后再确定的。

在一些实施例中，可以将目标图像集合中的各个目标图像分别输入到第一对象检测模型中，得到目标图像对应的各个候选图像区域中存在目标对象的置信度，将置信度大于第一置信度的候选图像区域作为存在目标对象的候选图像区域。

具体地，置信度用于表示图像区域中存在目标对象的可能性，置信度越大，则可能性越大，置信度的取值范围可以是0至1。第一置信度可以是预先设置的，例如可以是0.7。举个例子，如果第一对象检测模型对应有图3中的3个候选图像区域:A、B以及C。如果模型输出A候选图像区域存在人脸的置信度为0.3，B候选图像区域存在人脸的置信度为0.8，C候选图像区域存在人脸的置信度为0.9。则可以将B候选图像区域以及C候选图像区域作为存在人脸的候选图像区域，将A候选图像区域作为不存在人脸的候选图像区域。

在一些实施例中，候选图像区域可以称为anchor Box(锚框)表示的图像区域。在训练对象检测模型时，把anchor box作为训练样本，模型训练前，可以为每个锚框标注两类标签：一是锚框所是否包括目标对象，简称类别；二是存在对象的框相对锚框的偏移量，简称偏移量(offset)。在目标检测时，可以生成多个锚框，然后为每个锚框预测类别以及偏移量，接着根据预测的偏移量调整锚框位置从而得到预测的边界框。例如，如图4所示，可以将目标图像输入到第一对象检测模型中，经过第一层卷积层至第5层卷积层的特征提取，可以得到两个结果，结果1是每个锚框的置信度，这个置信度用于表示存在目标对象或者不存在目标对象。结果2是锚框的偏移量。对于矩形锚框，表示偏移量的数据可以有4个，为锚框左下角坐标的横坐标偏移值、左下角坐标的纵坐标偏移值、右上角坐标的横坐标偏移值以及右上角坐标的纵坐标偏移值。可以根据偏移量对锚框进行尺寸调整，得到最终的候选图像区域。其中，图4中,H*W*3中H表示输入图像的高，W表示输入图像的宽，3表示图像通道数。16、24、32、64、128表示卷积通道数。输入的图像可以是图像尺寸大于12*12像素的任意尺度图像，输出可以是H/4*W/4*2*anchors(结果1)和H/4*W/4*4*anchors(结果2)的特征图。其中anchors代表设定锚框的个数。这两个特征图的值分别代表原图某一区域经过该第一对象检测模型后的置信度和回归值，即bbox(bounding box边框)回归值。

步骤S208，根据候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域。

具体地，目标图像区域是模型检测结果与标准检测结果存在差异的候选图像区域，可以是将所有存在差异的候选图像区域作为目标图像区域。也可以是将模型检测结果与标准检测结果的差异满足差异条件的候选图像区域作为目标图像区域。差异条件可以是大于设置差异，例如，置信度差异大于预设置信度。

在一些实施中，可以将模型检测结果为存在目标对象，而标准检测结果为不存在目标对象的候选图像区域作为目标图像区域，也可以将模型检测结果为不存在目标对象，而标准检测结果为存在目标对象的候选图像区域作为目标图像区域。即可以将模型检测结果和标准检测结果是相反的候选图像区域作为目标图像区域。例如，可以将模型输出的置信度大于0.7，但是实际上不存在目标对象的候选图像区域作为目标图像区域。

可以理解，不存在目标对象的候选图像区域可以并不是完全不包括目标对象的候选图像区域。例如，可以是与目标对象所在区域的重合度小于预设重合度的图像区域，图像区域的重合度可以用两个区域中重合的面积表示，也可以用重合的面积与总面积的比值表示，总面积可以是目标对象所在区域的面积与候选图像区域的面积之和。

步骤S210，根据目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

具体地，可以是将目标图像区域直接作为训练样本对第二对象检测模型进行模型训练。也可以将目标图像区域与其他图像进行拼接，得到拼接后的图像作为训练样本图像对第二对象检测模型进行模型训练。可以是获取初始化的第二对象检测模型，根据目标图像区域对初始化的第二对象检测模型进行模型训练。也可以是获取已经根据其他样本训练得到的第二对象检测模型，根据目标图像区域集进一步进行训练，得到已训练的第二对象检测模型。在根据目标图像区域对第二对象检测模型进行训练时，还可以采用其他图像对第二对象检测模型进行训练。例如，可以将拼接后的图像加入到训练样本图像集合中，即作为额外补充的训练样本图像，对第二对象检测模型进行训练。第二对象检测模型训练的方法可以参考第一对象检测模型的训练方法，在此不再赘述。得到训练后的第二对象检测模型后，可以利用训练后的第二对象检测模型进行模型检测。

第一对象检测模型与第二对象检测模型均是用于进行对象检测的模型，例如可以是CNN模型，第一对象检测模型以及第二对象检测模型在卷积层数和特征图的数量上可以不同。第一对象检测模型以及第二对象检测模型是分别训练得到的，可以先训练第一对象检测模型，得到第一对象检测模型后，利用目标图像对第一对象检测模型的对象检测效果进行测试，筛选得到第一对象检测模型误检的目标图像区域，根据目标图像区域对第二对象检测模型进行训练，以提高第二对象检测模型对第一对象模型误检的图像的判别能力。

在一些实施例中，得到第一对象检测模型以及第二对象检测模型后，可以联合第一对象检测模型以及第二对象检测模型进行对象检测。例如，可以获取待检测的图像，分别输入到第一对象检测模型以及第二对象检测模型中，得到第一对象检测模型输出的各个图像区域存在目标对象的置信度以及第二对象检测模型输出的各个图像区域存在目标对象的置信度。由于第二对象检测模型是有针对性根据第一对象检测模型的误判样本进行训练得到的，可以识别第一对象检测模型的误判样本，因此可以计算对于同一图像区域，第一对象检测模型输出的置信度与第二对象检测模型输出的置信度的置信度差异，对于超过预设置信度差异的图像样本，则根据第二对象检测模型的置信度确定是否存在目标对象，提高对象检测准确度。又例如，可以级联第一对象检测模型以及第二对象检测模型，将待检测的图像输入到第一对象检测模型中，然后根据第一对象检测模型的模型输出结果筛选置信度大于第二置信度的图像区域，输入到第二对象检测模型中，由第二对象检测模型对这些图像区域进行进一步检测。

上述对象检测方法，可根据第一对象检测模型的模型检测结果与图像区域的标准检测结果的差异筛选得到目标图像区域，根据目标图像区域进行模型训练，得到第二对象检测模型，由于根据模型检测结果与图像区域的标准检测结果的差异选择目标图像区域有针对性的对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型，因此能够提高第二对象检测模型的检测能力，对象检测准确度高。

在一些实施例中，第一对象检测模型以及第二对象检测模型可以是one-stage检测模型，one-stage模型是指可以得到目标物体的类别概率和位置坐标值的模型，即经过单次检测可直接得到最终的检测结果。可以将第一对象检测模型以及第二对象检测模型进行级联，利用第一对象检测模型对输入的待检测图像进行检测，再利用第二对象检测模型根据第一对象检测模型的输出继续进行检测。如图5所示，对象检测方法还可以包括以下步骤：

步骤S502，获取待进行对象检测的待检测图像。

具体地，可以是在接收到图像检测请求时获取待检测的图像，例如，当需要进行美颜时，用户通过终端发出美颜指令，以进行美颜。可以根据美颜指令获取要进行美颜的图像，作为待进行人脸检测的待检测图像，以对人脸进行美化。

步骤S504，将待检测图像输入到第一对象检测模型中，得到待检测图像对应的图像区域中存在目标对象的置信度。

具体地，待检测图像对应的图像区域可以有多个，可以对待检测图像进行图像分割，得到多个图像区域。例如第一对象检测模型可以对待检测图像进行分割，得到多个候选框，并进行特征提取等操作，得到候选框中存在目标对象的置信度，然后对候选框进行nms(non maximum suppression，非极大值抑制)后在待检测图像上进行裁剪，再归一化到预设的图像尺寸，作为待检测图像对应的图像区域，并将对应的候选框对应的置信度作为该图像区域的置信度。

步骤S506，获取置信度大于第二置信度的图像区域，作为第二图像区域，将第二图像区域输入到训练后的第二对象检测模型中，得到第二图像区域中存在目标对象的置信度。

具体地，第二置信度可以是预先设置的，例如可以是0.7。得到第二图像区域后，可以将各个第二图像区域分别输入到训练得到的第二对象检测模型中，得到每个第二图像区域中存在目标对象的置信度。

步骤S508，根据第二图像区域中存在目标对象的置信度确定待检测图像的对象检测结果。

具体地，可以将存在目标对象的置信度大于第三置信度的第二图像区域，作为目标图像中存在目标对象的图像区域，还可以在目标图像中对存在目标对象的位置进行标记，例如在目标图像上人脸所在的位置加上人脸框。第三置信度可以大于第二置信度。例如，第三置信度可以为0.9，第二置信度可以为0.7。即第一对象检测模型可以筛选出可信度较大的候选图像区域，再由第二对象检测模型对这些图像区域检测标准更严格的对象检测。

例如，本申请实施例的检测模型可以是cascaded cnn(级联卷积神经网络)。cascaded cnn的结构示意图可以如图6所示，在进行对象检测时，可以构造图像金字塔，一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像集合。将图像金字塔的每个图像分别输入到第一对象检测模型中，第一对象检测模型输出各个候选框(候选图像区域)的置信度，可以将置信度大于0.7的候选框输入到第二对象检测模型中，得到待检测图像的对象检测结果。

本申请实施例中，通过第一对象检测模型对待检测的图像进行检测，再将置信度大于第二置信度的图像区域输入到第二对象检测模型中进行对象检测，由于第二对象检测模型检测出第一对象检测模型误检的图像区域的能力强，因此可以提高待检测图像的对象检测准确度。

在一些实施例中，步骤S208即根据候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域包括：获取模型检测结果为存在目标对象的候选图像区域，作为第一图像区域；获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。

具体地，可以将模型检测结果为存在目标对象的候选图像区域，即有目标对象的区域，作为第一图像区域。例如可以将存在目标对象的置信度大于0.7的图像区域作为第一图像区域。不对应是指模型检测结果与标准检测结果所代表的结果是不同的。例如模型检测结果为存在目标对象的置信度为0.8，即为存在目标对象。而实际上该候选图像区域中是没有目标对象的，则该候选图像区域为目标图像区域。目标图像区域的个数可以有多个。例如，假设有1000张目标图像，将每张目标图像分别输入到第一对象检测模型中，得到每张目标图像对应的1000个候选图像区域存在目标对象的置信度，则可以获取这1000*1000个候选图像区域中，置信度大于0.8的候选图像区域，作为第一图像区域。如果这些第一图像区域中，有800个图像区域的标准检测结果为不存在目标对象，则可以将这800个图像区域作为目标图像区域。

本申请实施例中，通过从模型检测结果为存在目标对象的候选图像区域中，筛选得到标准检测结果为不存在目标对象的图像区域，作为目标图像区域。因此可以获取得到第一对象检测模型误判的负样本，即第一对象检测模型容易将该图像区域识别为存在目标对象，但实际上不存在目标对象的样本，对第二对象检测模型进行训练，使得训练得到的第二对象检测模型可以增强识别第一对象检测模型误判的负样本的能力。例如，在进行人脸识别时，经常存在将卡通画、动物脸或者交通标识等类似人脸的目标识别为人脸的情况，即第一对象检测模型识别出包括人脸的区域，很可能是一张动物的脸。故可以获取对象检测模型误判的负样本，有针对性的对第二对象检测模型进行模型训练，从而使得第二对象检测模型可以识别得到动物脸不是人脸，提高最终得到的对象检测结果的准确度。

在一些实施例中，可以根据第一图像区域对应的目标图像是否存在目标对象确定第一图像区域的模型检测结果与标准检测结果是否对应，当第一图像区域对应的目标图像存在目标对象时，可以采用方式1获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。当第一图像区域对应的目标图像不存在目标对象时，可以采用方式2获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。

方式1：获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域包括：当第一图像区域对应的目标图像存在目标对象时，计算目标对象对应的图像区域与第一图像区域的重合度；获取重合度小于第一重合度的第一图像区域，作为模型检测结果与标准检测结果不对应的图像区域。

具体地，目标对象在目标图像的位置可以是预先确定的，例如可以利用人工对目标图像中的人脸位置进行标注，得到目标对象对应的图像区域，即所在的图像区域。重合度用于表示图像位置重合的程度，图像重合度越高，则表示位置重合的程度越高。重合度例如可以用区域的交叠率(Intersection over Union，IOU)表示。第一重合度可以根据需要预设的，例如可以为0.3，即可以将重合度小于第一重合度的第一图像区域作为不存在目标对象的区域，即标准检测结果为不存在目标对象的区域，由于第一图像区域的模型检测结果为存在目标对象，故模型检测结果与标准检测结果不对应，将该第一图像区域作为目标图像区域。

举个实际的例子，对于人脸检测，假设图像区域B对应的模型检测结果为0.8，即模型检测结果为图像区域B存在人脸。如果图像区域B所在的图像是存在人脸的，人脸所在的图像区域为C，则可以计算B与C的重合度，如果重合度为0.1，说明图像区域B中即使包括人脸，也只是一小部分人脸，而人脸检测一般需要检测出整个人脸所在的完整区域的，因此这个图像区域B不是人脸所在的图像区域，即标准检测结果应该为不存在人脸。故模型检测结果与标准检测结果不对应。

在一些实施例中，位置重合度可以根据第一面积以及第二面积的比值得到。第一面积为目标对象对应的图像区域与第一图像区域的重合面积，即位置的交集对应的面积。第二面积为目标对象对应的图像区域与第一图像区域在图像中的位置的并集所占的面积。图像重合度的计算方法可以用公式(1)表示，“I”表示位置重合度，area表示求面积，A指目标对象对应的图像区域在图像的当前位置，B指第一图像区域在图像的参考位置。“∩”指求交集，“∪”指求并集。如图7所示，为一些实施例中目标对象对应的图像区域以及第一图像区域在样本图像的位置的示意图。框A表示目标对象对应的图像区域在图像中的位置。框B表示第一图像区域在图像中的位置。图7中一个格子表示一个像素点，根据图7可以得到，A与B重合的部分即交集共占6个像素点(第5行第4列至第6行第6列之间的像素点)。A和B的并集共占18个像素点，则位置重合度为6/18＝0.33。

I＝area(A∩B)/area(A∪B) (1)

方式2：获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域包括：当第一图像区域对应的目标图像不存在目标对象时，确定第一图像区域为模型检测结果与标准检测结果不对应的图像区域。

具体地，由于第一图像区域所在的目标图像不包括目标对象，因此，可以肯定该第一图像区域也是不包括目标对象的，即该第一图像区域的标准检测结果为不存在目标对象。而由于第一图像区域的模型检测结果为存在目标对象，因此确定第一图像区域的模型检测结果与标准检测结果不对应。

举个实际的例子，对于人脸检测，假设图像区域B对应的模型检测结果为0.8，即模型检测结果为图像区域B存在人脸。如果图像区域B所在的图像是不存在人脸的，即为非人脸图片，则说明该图像的任一区域都是不包括人脸的，则可以直接确定图像区域B的标准检测结果为不存在人脸，故可以确定图像区域B的模型检测结果与标准检测结果不对应，以提高确定目标图像区域的速度。

在一些实施例中，第一对象检测模型的训练步骤包括:获取初始样本图像；对初始样本图像进行下采样处理，得到目标样本图像；根据目标样本图像对第一对象检测模型进行模型训练，得到已训练的第一对象检测模型。

具体的，样本图像是用于模型训练的图像。下采样处理是对于一个样值序列间隔多个样值取样一次，以缩小图像。例如对于一幅分辨率为M*N的图像，对其进行s倍下采样，则得到(M/s)*(N/s)分辨率的图像。下采样的倍数可以根据需要设置，例如可以为2。

由于目标对象的尺寸变化变化各异，部分对象的尺寸较小，而获取的用于训练的样本图像中，目标对象的尺寸一般较大，这样训练得到的对象检测模型容易漏检尺寸小的对象，而本申请实施例中，通过对初始样本图像进行下采样处理后，得到缩小后的图像，再进行模型训练，可以提高第一对象检测模型对尺寸小的目标对象的检测效果。

在一些实施例中，用于模型训练的图像可以有多个，例如1000个。可以是对所有的初始样本图像进行下采样处理，也可以是挑选部分初始样本图像进行下采样处理，未下采样处理的初始样本图像也可以用于进行模型训练。例如可以初始样本集合中，初始样本图像进行下采样的概率是预设概率，例如50％，即一个初始样本图像，需要下采样处理后再进行模型训练的概率为50％，这样，使得样本图像的目标对象的尺寸多种多样，提高了对象检测模型的泛化能力。

在一些实施例中，在对第一对象检测模型进行模型训练时，可以计算锚框和gt(Ground Truth，地面真值)的重合度，根据重合度得到3种样本：正样本、部分样本和负样本。Gt是指存在目标对象的图像区域。正样本是指存在目标对象的样本，负样本是指不存在目标对象的样本。部分样本是介于正样本与负样本之间的样本。例如，可以将与存在目标对象的图像区域的重合度大于第二重合度的锚框作为正样本，小于第三重合度的锚框作为负样本，重合度介于第三重合度与第二重合度之间的样本作为部分样本。其中第二重合度大于第三重合度，第二重合度以及第三重合度可以根据需要设置，例如第二重合度为0.7，第三重合度为0.3。其中正样本和负样本用于在模型训练时，计算得到模型损失值，正样本和部分样本用于bbox(bounding box，边框)回归，bbox回归的目标是使得预测的存在对象的图像区域向gt窗口靠近，例如可以通过bbox回归计算得锚框对应的偏移量，根据偏移量调整模型输出的候选图像区域的位置。

在一些实施例中，可以是将目标样本图像对应的锚框与初始样本图像的gt进行重合度的计算，以确定锚框的样本类型，即是正样本还是负样本，由于目标样本图像是下采样后的图像，目标对象的尺寸相对于未下采样后的图像小，这样，覆盖目标对象的锚框数量更多，目标样本图像对应的锚框与初始样本图像的gt重合度会更高，即目标训练图像对应的锚框与初始样本图像的gt的匹配度更高。

例如，如图8所示，如果将原图(初始样本图像)直接输入到第一对象检测模型中进行模型训练时，则第一对象检测模型会将得到的锚框与原图的gt进行匹配，以确定锚框的样本类型，由于原图中人脸的尺寸比较大，因此原图对应的锚框与原图的gt进行匹配时，则匹配度较低。如果对原图进行了下采样处理，则新输入的图像会变小，与原图的gt进行匹配时，匹配度较高。

在一些实施例中，对初始样本图像进行下采样的倍数与训练得到第一对象检测模型后，图像检测时输入到对象检测模型的图像的下采样倍数对应。例如如果输入到对象检测模型的图像可能会进行2倍到4倍的下采样，则可以随机选择2～4倍的下采样倍数，对初始样本图像进行下采样处理。

例如，图像检测时，为了检测不同大小的目标,通常会固定检测模型窗口的大小,并逐次对图像进行缩放以构建多尺度图像，即构建图像金字塔。构建图像金子塔的过程可以如图9所示，可以将原图根据resize_factor进行下采样处理，得到中间图像，再进行一系列的构建金字塔过程，以保证得到图像金字塔的速度。其中resize_factor是指第一次下采样的倍数，具体值可以根据需要设置，例如resize_factor大于3。假设原图大小为W*H像素，则图像金字塔中最大的图像图为(W*H)/resize_factor，再根据图像金字塔的下采样倍数rescale_factor(例如为2)进行多次下采样，将每次下采样得到的图像作为金字塔中的其中一个图像，以得到图像金字塔，以将金字塔的图像分别输入到第一对象模型中进行对象检测。

而在对第一对象检测模型进行训练过程中，如果输入的样本图像是固定尺寸的正方形图片，则对于第一对象检测模型来说，可检出人脸是在一定范围内的，该范围和锚框尺寸相关。例如假设第一对象检测模型的锚框的尺寸从小到大依次为：anchor_size1、anchor_size2、anchor_size3以及anchor_size4，则根据经验，其第一对象检测模型可检出人脸范围一般为anchor_size1*0.8至anchor_size4*1.2。由于原始图像中的人脸尺度变化各异，大部分人脸的尺寸远大于anchor box的尺寸。例如，假设一张人脸图的人脸大小为F*F，则经过resize_factor为(F*F)/resize_factor，图像金字塔图片对应的人脸大小为(F*F)/(resize_factor*scale_factor^N)，其中N为金字塔的级数，N<＝4。如果采用原始图进行训练的话，就会出现原始图人脸尺度远大于测试时图像金字塔各尺度输入的人脸大小的情况，

因此，在对第一对象模型进行训练的过程中，可以按照预设的概率例如50％的概率选取图像进行预设下采样范围内的随机的下采样，下采样范围为resize_factor*scale_factor^N至resize_factor，随机的下采样是指随机在下采样范围内挑选一个下采样倍数进行下采样。该方式保证了训练过程和测试过程的一致性，同时对原图中过大范围的人脸进行缩小，使得和第一对象检测模型可检出人脸的范围匹配程度一致，保证尺寸较小的人脸的检出效果。

在一些实施例中，如图10所示，步骤S210即根据目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型包括：

步骤S1002，获取包括目标对象的待拼接图像。

具体地，待拼接图像用于进行图像拼接，图像拼接是指将图像组合在一起。待拼接图像中是包括目标对象的。例如，如果需要检测出图像中的汽车，则待拼接图像中包括汽车。

在一些实施例中，由于一张图像中，目标对象可能只占其中的小部分，例如，人脸可能只占一张图像的十份之一。则可以对用于进行模型训练的图像进行裁剪，裁剪出包括目标对象的待拼接图像，例如可以获取目标对象所在的图像区域，然后可以裁剪出目标对象所在的图像区域，作为待拼接的图像。当然，也可以对目标对象所在的图像区域进行扩大，以得到包括更多环境信息的待拼接图像。可以根据扩大系数对图像区域继续扩大。例如，假设确定的目标对象的所在的区域为区域1，则可以将区域1扩大为n倍，裁剪得到扩大后的图像。其中扩大系数的范围可以是预先设置的，例如可以为1至1.8。对于一个用于模型训练的图像，可以在扩大系数的范围内，随机选取一个扩大系数进行扩大。这样，扩大后的图像的尺寸多样化，提高模型的泛化能力。

在一些实施例中，裁剪得到待拼接图像后，可以根据裁剪前的图像的groundtruth计算得到目标对象在待拼接图像的位置。例如，假设随机裁剪正方形区域为(x_crop,y_crop,length,length)，人脸位置为(x,y,w,h)，则新的人脸框在裁剪后的图像块位置为(x-x_crop,y-y_crop,w,h)，其中，x_crop,y_crop分别表示坐标值，length表示正方形的长度。x,y分别表示人脸的横坐标以及纵坐标，w,h分别表示人脸的长度和高度。

步骤S1004，根据目标图像区域以及待拼接图像进行图像拼接，得到训练样本图像。

具体地，可以是将目标图像区域以及待拼接图像进行拼接，也可以是根据目标图像区域得到缩放图像区域，将缩放图像区域与待拼接图像进行图像拼接。可以根据n个目标图像区域与m个待拼接图像进行图像拼接。n大于等于1，m大于等于1。n与m可以相同也可以不同，具体可以根据需要设置，例如n与m的范围可以为3至5。可以设置训练样本图像中，每个位置为负样本的概率为0.8，正样本概率为0.2，即训练样本图像中，80％像素点不是目标对象对应的像素点，20％像素点为目标对象对应的像素点。

举个例子，如图11所示，假设输入到第一对象检测模型的目标图像包括图片1以及图片2，则第一对象检测模型会把图片1的卡通画脸部以及图片2的动物脸部对应的图像区域作为存在人脸的候选图像区域，因此可以得到多个目标图像区域，则可以获取用于模型训练的图像中(即图片3)，包括人脸的图像，从中裁剪得到人脸区域，作为待拼接图像。将人脸区域与卡通画脸部以及动物脸部对应的图像区域拼接在一起，得到训练样本图像。

在一些实施例中，训练样本图像是拼接后，进行尺度归一化得到的图像。例如，输入到第二对象检测模型的图像的尺寸是需要满足预设的尺寸标准的，预设的尺寸标准可以是多种，则可以随机选取其中的一个，将训练样本图像进行缩放，以符合对应的尺寸标准。

在一些实施例中，目标图像区域是标准检测结果为不存在目标对象的图像区域，根据目标图像区域以及待拼接图像进行图像拼接，得到拼接图像包括：当目标图像区域对应的目标图像为不包括目标对象时，在目标图像上对目标图像区域进行缩放，得到缩放图像区域；根据缩放图像区域以及待拼接图像进行图像拼接，得到训练样本图像。

具体地，缩放可以是缩小或者放大。在目标图像上对目标图像区域进行缩放是指：在目标图像上，将目标图像区域所占据的图像范围进行缩小或者放大。缩放图像区域是指缩放后得到的图像区域。例如，如图12所示，假设目标图像是8*8像素的图像，目标图像区域是其中的3*3像素的正方形区域，则可以扩大为5*5大小的缩放图像区域，以获取该区域周围区域的信息，从而使得缩放区域包括更多的图像语义信息。而如果目标图像区域过大，例如大于预设尺寸，则可以进行缩小，以避免包括过多的无用信息，影响识别效果。

在一些实施例中，缩放可以是根据缩放系数进行的，可以预先设置缩放系数的范围，在预设的缩放系数范围内随机选取缩放系数进行缩放，以得到多种尺度的缩放图像区域，提高第二对象检测模型的泛化能力。缩放系数范围例如可以是0.5至2，其中缩放图像区域的面积可以为目标图像区域的面积乘以缩放系数。当缩放系数小于1时，则为缩小。当缩放系数大于1时，则为扩大。

在一些实施例中，由于目标图像上不存在目标对象，因此缩放后的缩放图像区域也不会包括目标对象，因此可以根据需要进行缩放，而当目标图像区域对应的目标图像为包括目标对象时，由于目标图像区域是标准检测结果为不存在目标对象的图像区域，为避免缩放后的图像包括目标对象，则可以不进行缩放，将目标图像区域与待拼接图像区域直接进行拼接。

步骤S1006，根据训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

具体地，得到训练样本图像后，可以将训练样本图像输入到第二对象检测模型中进行模型训练。可以理解，还可以结合其他图像进行训练。例如，可以获取1000个拼接后得到的训练样本图像，以及200个没有拼接的原始样本图像作为训练样本进行模型训练。

在一些实施例中，目标图像区域是标准检测结果为不存在目标对象的图像区域，根据拼接图像进行模型训练，得到第二对象检测模型包括：根据待拼接图像在训练样本图像的位置确定存在目标对象的对象区域；对训练样本图像进行图像分割，得到分割图像区域；根据分割图像区域与对象区域的重合度，确定分割图像区域对应的样本类型；根据分割图像区域以及对应的样本类型对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

具体地，样本类型可以为正样本或者负样本。由于待拼接图像是存在目标对象的，因此可以根据待拼接图像在训练样本图像的位置确定训练样本图像中，目标对象所在的位置，即对象区域，将这个区域作为gt(ground truth)，第一对象检测模型可以对训练样本图像进行图像分割，得到多个分割图像区域，可以将根据分割图像区域与对象区域的重合度的大小确定分割图像区域是正样本还是负样本，如果是负样本，则对应的存在目标对象的置信度应该为0，如果是正样本，则对应的存在目标对象的置信度应该为1。可以根据模型输出的置信度与负样本对应的置信度的差异，以及模型输出的置信度与正样本对应的置信度的差异得到模型损失值，朝着使模型损失值下降的方向调整模型参数，可以进行多批次训练，直至模型收敛，得到训练后的第二对象检测模型。

在一些实施例中，根据分割图像区域与对象区域的重合度，确定分割图像区域的样本类型包括以下步骤的至少一种：当分割图像区域与对象区域的重合度大于第二重合度时，确定分割图像区域对应的样本类型为正样本；或者当分割图像区域与对象区域的重合度小于第三重合度时，确定分割图像区域对应的样本类型为负样本。

在一些实施例中，在对第二对象检测模型进行模型训练时，也可以是获取初始样本图像进行下采样处理，得到目标样本图像，根据目标样本图像以及训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

例如，如图13所示，可以获取初始图像集合，根据50％的概率随机选取初始图像集合中的图像进行下采样处理，得到训练图像集合。训练图像集合中既包括下采样处理后的图像，也可以包括没有下采样处理的初始图像。然后根据练图像集合对第一对象检测模型进行模型训练，得到已训练的第一对象检测模型。并获取目标图像集合，将目标图像分别输入到已训练的第一对象检测模型中，确定第一对象检测模型误检的图像区域，将图像区域与训练图像集合中包括目标对象的图像进行拼接，得到拼接后的图像，输入到第二对象检测模型中进行训练，得到训练后的第二对象检测模型。

以下以对象检测应用于人脸检测，对本申请实施例提供的对象检测方法进行说明，包括以下步骤：

1、获取初始样本图像集合，对初始样本图像集合中的图像进行下采样处理，得到目标样本图像集合。

例如，可以获取1000个已经标记了人脸位置的图像，根据50％的概率，对部分初始样本图像进行下采样处理。例如，假设有499个初始样本图像进行了下采样，501个的初始样本图像没有进行下采样，则这499个图像以及501个图像组成目标样本图像集合(训练图像集合)。

下采样的倍数可以是3到3*2⁴倍中随机选取的倍数。其中，3为resize_factor，2为rescale_factor，4表示图像金字塔的级数。

2、根据目标样本图像对第一对象检测模型进行模型训练，得到已训练的第一对象检测模型。

具体地，可以利用1中的1000个样本图像对第一对象检测模型进行多次训练，直至第一对象检测模型收敛，得到已训练的第一对象检测模型。

3、获取目标图像集合，目标图像集合包括一个或多个目标图像。

例如，可以获取200个图像，作为目标图像。这些目标图像中有一些是包括人脸的，而另一些可以不包括人脸，例如可以是包括动物脸。

4、将目标图像集合中的各个目标图像输入到第一对象检测模型中，输出目标图像对应的各个候选图像区域的模型检测结果。

具体地，可以200个图像分别输入到第一对象检测模型中，得到这200个图像中，每个图像对应的2000个候选图像区域包括人脸的概率。可以将概率大于0.7的候选图像区域作为存在人脸的图像区域。

5、获取模型检测结果为存在目标对象的候选图像区域，作为第一图像区域，获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。

具体地，可以将置信度大于0.7的候选图像区域作为存在人脸的图像区域，即第一图像区域。目标图像区域是第一对象检测模型检测错误的区域，例如是第一对象检测模型检测出存在人脸，但实际上不存在人脸的区域。

如果第一图像区域所对应的图像是不包括人脸的，则可以将该第一图像区域作为目标图像区域，即因为第一图像区域在第一对象检测模型的模型检测结果是存在人脸的，但实际上这个图像区域所在的图像并不是人脸图像，则说明第一对象检测模型检测错误，将这个图像区域作为目标图像区域。

如果第一图像区域所对应的图像是包括人脸的，则可以对第一图像区域与该图像中人脸所在的区域进行重合度的计算，如果重合度小于第一重合度，例如0.3，则说明这个第一图像区域并不包括人脸，第一对象检测模型检测错误，将这个图像区域作为目标图像区域。

6、获取包括目标对象的待拼接图像，根据目标图像区域以及待拼接图像进行图像拼接，得到训练样本图像，根据训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

具体地，可以获取目标样本图像集合中，包括人脸的图像，并对该图像进行裁剪，将裁剪得到的图像作为待拼接图像。

对于目标图像区域，如果目标图像区域所在的目标图像是不包括人脸的，则可以在目标图像中对目标图像区域进行缩放，得到缩放图像区域，将缩放图像区域与待拼接图像进行拼接，得到训练样本图像。如果目标图像区域所在的目标图像包括人脸，则可以将目标图像区域与待拼接图像进行拼接。

7、获取图像检测指令，根据图像检测指令获取待进行对象检测的待检测图像。

例如，当进行拍摄时，手机自动发送图像检测指令，获取图像拍摄界面的图像作为待检测图像。

8、将待检测图像输入到第一对象检测模型中，得到待检测图像对应的图像区域中存在目标对象的置信度。

9、获取置信度大于第二置信度的图像区域，作为第二图像区域，将第二图像区域输入到训练后的第二对象检测模型中，得到第二图像区域中存在目标对象的置信度

10、根据第二图像区域中存在目标对象的置信度确定待检测图像的对象检测结果。

具体的，可以将概率大于0.9的图像区域作为存在人脸的图像区域，并可以在拍摄界面显示人脸框。

本申请实施例提供的人脸检测方法，可以解决类人脸以及小脸误检较多的问题。类人脸是指与人脸相似的目标，例如卡通画、动物脸、交通标识或者手脚等类似人脸，由于比较相似，因此在级联网络中，存在经常误检的问题。小脸是指尺寸较小的人脸，在训练时，如果采用的是原始的图像，而模型的感受野有限，会导致小脸的检出效果较差，因此可以根据人脸的尺寸范围以及锚框的尺寸对部分图像进行下采样处理后再进行训练，以提高小脸的样本比例，使得可检出人脸的范围与人脸的尺寸范围匹配程度高，保证小脸的检出效果，且在下采样倍数可以与测试时金字塔的下采样倍数一致的情况下，也保证了训练过程和测试过程的输入图像的一致性，提高了小脸的检测效果。

本申请实施例提供的第一对象检测模型以及第二对象检测模型可以进行级联，可以应用于移动端设备和低端嵌入式芯片等设备上，第一对象检测模型以及第二对象检测模型可以为one-stage检测模型，由于训练时，可以对样本图像进行下采样处理，提高网络模型的感受野因此可以提高检测模型在尺寸较小的人脸上的检测召回率。而通过对第一对象检测模型判别困难的样本对第二对象检测模型进行训练，可以提高第二对象检测模型对于第一对象检测模型错误检测的图像的检测能力，提高了检测模型的准确度。因此可在保持模型运行效率的同时提高对象检测的准确率和召回率。

本申请实施例提供的对象检测方法场景上可以用于车站或者商场等监控场景的人脸检测，也可以用于美颜相机或者人脸身份认证的人脸检测。第一对象检测模型以及第二对象检测模型可以联合部署于智能摄像头、后台服务器的CPU(central processingunit，中央处理器)或GPU(Graphics Processing Unit，图形处理器)上，也可以用于手机等移动设备的CPU上。通过训练数据更换，也可以用于其他检测任务，例如手势或者人头检测等任务。

如图14所示，在一些实施例中，提供了一种对象检测装置，该对象检测装置可以集成于上述的服务器120或者终端110中，具体可以包括目标图像集合获取模块1402、第一对象检测模型获取模块1404、第一输入模块1406、目标图像区域确定模块1408以及第二训练模块1410。

目标图像集合获取模块1402，用于获取目标图像集合，目标图像集合包括一个或多个目标图像；

第一对象检测模型获取模块1404，用于获取已训练得到的第一对象检测模型；

第一输入模块1406，用于将目标图像集合中的各个目标图像输入到第一对象检测模型中，输出目标图像对应的各个候选图像区域的模型检测结果，候选图像区域是对目标图像进行分割得到的，候选图像区域存在标准检测结果；

目标图像区域确定模块1408，用于根据候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；

第二训练模块1410，用于根据目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

在一些实施例中，目标图像区域确定模块1408包括：

第一图像区域确定单元，用于获取模型检测结果为存在目标对象的候选图像区域，作为第一图像区域；

目标图像区域确定单元，用于获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。

在一些实施例中，目标图像区域确定单元用于：当第一图像区域对应的目标图像存在目标对象时，计算目标对象对应的图像区域与第一图像区域的重合度；获取重合度小于第一重合度的第一图像区域，作为模型检测结果与标准检测结果不对应的图像区域。

在一些实施例中，目标图像区域确定单元用于：当第一图像区域对应的目标图像不存在目标对象时，确定第一图像区域为模型检测结果与标准检测结果不对应的图像区域。

在一些实施例中，第二训练模块1410包括：

待拼接图像获取单元，用于获取包括目标对象的待拼接图像；

拼接单元，用于根据目标图像区域以及待拼接图像进行图像拼接，得到训练样本图像；

第二训练单元，用于根据训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

在一些实施例中，拼接单元用于：当目标图像区域对应的目标图像为不包括目标对象时，在目标图像上对目标图像区域进行缩放，得到缩放图像区域；根据缩放图像区域以及待拼接图像进行图像拼接，得到训练样本图像。

在一些实施例中，第二训练单元用于：根据待拼接图像在训练样本图像的位置，确定训练样本中存在目标对象的对象区域；对训练样本图像进行图像分割，得到分割图像区域；根据分割图像区域与对象区域的重合度，确定分割图像区域对应的样本类型；根据分割图像区域以及对应的样本类型对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

在一些实施例中，根据分割图像区域与对象区域的重合度，确定分割图像区域的样本类型包括以下步骤的至少一种：当分割图像区域与对象区域的重合度大于第二重合度时，确定分割图像区域对应的样本类型为正样本；当分割图像区域与对象区域的重合度小于第三重合度时，确定分割图像区域对应的样本类型为负样本。

在一些实施例中，对象检测装置还包括：

待检测图像获取模块，用于获取待进行对象检测的待检测图像；

第二输入模块，用于将待检测图像输入到第一对象检测模型中，得到待检测图像对应的图像区域中存在目标对象的置信度；

置信度获取模块，用于获取置信度大于第二置信度的图像区域，作为第二图像区域，将第二图像区域输入到训练后的第二对象检测模型中，得到第二图像区域中存在目标对象的置信度；

检测结果确定模块，用于根据第二图像区域中存在目标对象的置信度确定待检测图像的对象检测结果。

在一些实施例中，训练第一对象检测模型的第一训练模块用于:获取初始样本图像；对初始样本图像进行下采样处理，得到目标样本图像；根据目标样本图像对第一对象检测模型进行模型训练，得到已训练的第一对象检测模型。

在一些实施例中，第一输入模块1406用于：将目标图像集合中的各个目标图像输入到第一对象检测模型中，得到目标图像对应的各个候选图像区域中存在目标对象的置信度，将置信度大于第一置信度的候选图像区域作为存在目标对象的候选图像区域。

图15示出了一些实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图15所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现对象检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行对象检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，本申请提供的对象检测装置可以实现为一种计算机程序的形式，计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该对象检测装置的各个程序模块，比如，图14所示的目标图像集合获取模块1402、第一对象检测模型获取模块1404、第一输入模块1406、目标图像区域确定模块1408以及第二训练模块1410。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的对象检测方法中的步骤。

例如，图15所示的计算机设备可以通过如图14所示的对象检测装置中的目标图像集合获取模块1402获取目标图像集合，目标图像集合包括一个或多个目标图像；通过第一对象检测模型获取模块1404获取已训练得到的第一对象检测模型；通过第一输入模块1406将目标图像集合中的各个目标图像输入到第一对象检测模型中，输出目标图像对应的各个候选图像区域的模型检测结果，候选图像区域是对目标图像进行分割得到的，候选图像区域存在标准检测结果；通过目标图像区域确定模块1408，根据候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；通过第二训练模块1410根据目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

在一些实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述对象检测方法的步骤。此处对象检测方法的步骤可以是上述各个实施例的对象检测方法中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述对象检测方法的步骤。此处对象检测方法的步骤可以是上述各个实施例的对象检测方法中的步骤。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对象检测方法，所述方法包括：

获取目标图像集合，所述目标图像集合包括一个或多个目标图像；

获取已训练得到的第一对象检测模型；

将所述目标图像集合中的各个目标图像输入到所述第一对象检测模型中，输出所述目标图像对应的各个候选图像区域的模型检测结果，所述候选图像区域是对所述目标图像进行分割得到的，所述候选图像区域存在标准检测结果；

根据所述候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；

根据所述目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型，以利用所述训练后的第二对象检测模型对目标对象进行检测。

2.根据权利要求1所述的方法，其特征在于，所述根据所述候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域包括：

获取模型检测结果为存在目标对象的候选图像区域，作为第一图像区域；

获取模型检测结果与标准检测结果不对应的第一图像区域，作为目标图像区域。

3.根据权利要求2所述的方法，其特征在于，所述获取模型检测结果与标准检测结果不对应的第一图像区域包括：

当所述第一图像区域对应的目标图像存在目标对象时，计算目标对象对应的图像区域与所述第一图像区域的重合度；

获取重合度小于第一重合度的第一图像区域，作为模型检测结果与标准检测结果不对应的图像区域。

4.根据权利要求2所述的方法，其特征在于，所述获取模型检测结果与标准检测结果不对应的第一图像区域包括：

当所述第一图像区域对应的目标图像不存在目标对象时，确定所述第一图像区域为模型检测结果与标准检测结果不对应的图像区域。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型包括：

获取包括目标对象的待拼接图像；

根据所述目标图像区域以及所述待拼接图像进行图像拼接，得到训练样本图像；

根据所述训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

6.根据权利要求5所述的方法，其特征在于，所述目标图像区域是标准检测结果为不存在目标对象的图像区域，所述根据所述目标图像区域以及所述待拼接图像进行图像拼接，得到训练样本图像包括：

当所述目标图像区域对应的目标图像为不包括目标对象时，在所述目标图像上对所述目标图像区域进行缩放，得到缩放图像区域；

根据所述缩放图像区域以及所述待拼接图像进行图像拼接，得到训练样本图像。

7.根据权利要求5所述的方法，其特征在于，所述目标图像区域是标准检测结果为不存在目标对象的图像区域，所述根据所述训练样本图像对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型包括：

根据所述待拼接图像在所述训练样本图像的位置，确定所述训练样本中存在目标对象的对象区域；

对所述训练样本图像进行图像分割，得到分割图像区域；

根据所述分割图像区域与所述对象区域的重合度，确定所述分割图像区域对应的样本类型；

根据所述分割图像区域以及对应的样本类型对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所述分割图像区域与所述对象区域的重合度，确定所述分割图像区域的样本类型包括以下步骤的至少一种：

当所述分割图像区域与所述对象区域的重合度大于第二重合度时，确定所述分割图像区域对应的样本类型为正样本；

当所述分割图像区域与所述对象区域的重合度小于第三重合度时，确定所述分割图像区域对应的样本类型为负样本。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待进行对象检测的待检测图像；

将所述待检测图像输入到所述第一对象检测模型中，得到所述待检测图像对应的图像区域中存在目标对象的置信度；

获取置信度大于第二置信度的图像区域，作为第二图像区域，将所述第二图像区域输入到所述训练后的第二对象检测模型中，得到所述第二图像区域中存在目标对象的置信度；

根据所述第二图像区域中存在目标对象的置信度确定所述待检测图像的对象检测结果。

10.根据权利要求1所述的方法，其特征在于，所述第一对象检测模型的训练步骤包括:

获取初始样本图像；

对所述初始样本图像进行下采样处理，得到目标样本图像；

根据所述目标样本图像对第一对象检测模型进行模型训练，得到已训练的所述第一对象检测模型。

11.根据权利要求1所述的方法，其特征在于，所述将所述目标图像集中的各个目标图像输入到第一对象检测模型中，输出所述目标图像对应的各个目标图像区域的模型检测结果包括：

将所述目标图像集合中的各个目标图像输入到第一对象检测模型中，得到所述目标图像对应的各个候选图像区域中存在目标对象的置信度，将置信度大于第一置信度的候选图像区域作为存在目标对象的候选图像区域。

12.一种对象检测装置，所述装置包括：

目标图像集合获取模块，用于获取目标图像集合，所述目标图像集合包括一个或多个目标图像；

第一对象检测模型获取模块，用于获取已训练得到的第一对象检测模型；

第一输入模块，用于将所述目标图像集合中的各个目标图像输入到所述第一对象检测模型中，输出所述目标图像对应的各个候选图像区域的模型检测结果，所述候选图像区域是对所述目标图像进行分割得到的，所述候选图像区域存在标准检测结果；

目标图像区域确定模块，用于根据所述候选图像区域的模型检测结果与标准检测结果的差异筛选候选图像区域，作为目标图像区域；

第二训练模块，用于根据所述目标图像区域对第二对象检测模型进行模型训练，得到训练后的第二对象检测模型，以利用所述训练后的第二对象检测模型对目标对象进行检测。

13.根据权利要求12所述的装置，其特征在于，所述目标图像区域确定模块包括：

14.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至11中任一项权利要求所述对象检测方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至11中任一项权利要求所述对象检测方法的步骤。