CN108229675B

CN108229675B - 神经网络的训练方法、物体检测方法、装置和电子设备

Info

Publication number: CN108229675B
Application number: CN201710160611.6A
Authority: CN
Inventors: 王宇龙; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2021-01-01
Anticipated expiration: 2037-03-17
Also published as: CN108229675A

Abstract

本发明实施例提供一种神经网络的训练方法、物体检测方法、装置和电子设备。深度神经网络模型的训练方法包括：获取从样本图像提取的多个区域候选框及其预测准确信息；根据多个区域候选框及其预测准确信息确定第一深度神经网络的状态特征数据；通过第一深度神经网络，从尚未被检测到的第一区域候选框中检测被选中概率最高的第二区域候选框，并根据第二区域候选框以及第一区域候选框的被选中概率的数据，更新第一深度神经网络的状态特征数据；为多个区域候选框确定检测反馈数据；根据检测反馈数据，调整第一深度神经网络的网络参数。能够适应地调整作为物体区域候选框的筛选机制，从而使得训练得到的深度神经网络克服召回率低、漏选、误报等问题。

Description

神经网络的训练方法、物体检测方法、装置和电子设备

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种深度神经网络模型的训练方法、物体检测方法、装置和电子设备。

背景技术

对图像中捕捉的物体进行检测的过程通常包括生成候选范围、确定物体范围、识别物体以及后续处理。在后续处理中，需要基于物体候选框的打分和分类结果对候选范围进行最终的总结和筛选。目前所采用的非极大值抑制(non-maximum suppression)是一种确定性低、人为指定的简单筛选技术。在实际检测过程中，容易造成误判和漏选，对最终的物体检测性能产生影响。

发明内容

本发明实施例的目的在于，提供一种深度神经网络模型的训练方法、物体检测方法的技术方案。

根据本发明实施例的一方面，提供一种深度神经网络模型的训练方法，包括：获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据；通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据；基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据；根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数。

可选地，所述根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述根据为所述多个区域候选框确定的检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数还包括：根据为所述多个区域候选框确定的检测反馈数据，调整所述第二深度神经网络的网络参数。

可选地，在根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据之前，所述方法还包括：根据区域候选框在样本图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在样本图像中的位置分别投射到所述预定尺寸的网格中，生成所述样本图像的打分图；所述根据所述多个区域候选框及其预测准确信息确定用于进行物体检测的第一深度神经网络的状态特征数据包括：将所述样本图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据作为第一深度神经网络初始的状态特征数据。

可选地，所述通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述通过所述第一深度神经网络从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过具有所述状态特征数据的第一深度神经网络，从尚未被检测到的区域候选框当中检测被选中概率最高的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据包括：如果所述第二区域候选框为尚未检测得到的区域候选框，则为所述第二区域候选框生成指示选中正确的检测反馈数据；以及/或者如果所述第二区域候选框与其他已检测到的区域候选框之间的重叠程度超过预定的阈值，则为所述第二区域候选框生成指示选中无效的检测反馈数据。

可选地，所述迭代终止条件包括：检测到的第二区域候选框的被选中概率不超过预定的概率阈值。

可选地，所述基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据还包括：如果任一所述区域候选框未被检测到并且所述任一区域候选框的预测准确信息超过预定的预测准确阈值，则为所述任一区域候选框生成指示选中错误的检测反馈数据。

根据本发明实施例的第二方面，提供一种物体检测方法，包括：获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据，所述第一深度神经网络如上述第一方面提供的用于深度神经网络模型的训练方法训练获得；通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。如上述第一方面提供的用于深度神经网络模型的训练方法对应的操作。

可选地，所述从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框还包括：根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框包括：迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测新的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，所述第二深度神经网络如上述第一方面提供的用于深度神经网络模型的训练方法训练获得，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述方法还包括：根据区域候选框在待检图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在待检图像中的位置分别投射到所述预定尺寸的网格中，生成所述待检图像的打分图。

可选地，所述根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据包括：将所述待检图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据，根据所述特征响应数据确定第一深度神经网络的状态特征数据。

可选地，所述通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框包括：通过所述第一深度神经网络从尚未被检测到的区域候选框网格图当中检测被选中概率最高的第二区域候选框网格图，所述根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

根据本发明实施例的第三方面，提供一种深度神经网络模型的训练装置，包括：样本候选框获取模块，用于获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；状态特征确定模块，用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据；状态特征更新模块，用于通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据；反馈数据确定模块，用于基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据；网络参数更新模块，用于根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数。

可选地，所述状态特征更新模块在根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的处理中，用于通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述网络参数更新模块还用于根据为所述多个区域候选框确定的检测反馈数据，调整所述第二深度神经网络的网络参数。

可选地，所述装置还包括：网格化模块，用于根据区域候选框在样本图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在样本图像中的位置分别投射到所述预定尺寸的网格中，生成所述样本图像的打分图；所述状态特征确定模块在根据所述多个区域候选框及其预测准确信息确定用于进行物体检测的第一深度神经网络的状态特征数据的处理中，将所述样本图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据作为第一深度神经网络初始的状态特征数据。

可选地，所述状态特征更新模块用于通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述状态特征更新模块用于迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过具有所述状态特征数据的第一深度神经网络，从尚未被检测到的区域候选框当中检测被选中概率最高的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述反馈数据确定模块用于：如果所述第二区域候选框为尚未检测得到的区域候选框，则为所述第二区域候选框生成指示选中正确的检测反馈数据；以及/或者，如果所述第二区域候选框与其他已检测到的区域候选框之间的重叠程度超过预定的阈值，则为所述第二区域候选框生成指示选中无效的检测反馈数据。

可选地，所述反馈数据确定模块还用于：如果任一所述区域候选框未被检测到并且所述任一区域候选框的预测准确信息超过预定的预测准确阈值，则为所述任一区域候选框生成指示选中错误的检测反馈数据。

根据本发明实施例的第四方面，提供一种物体检测装置，包括：待检候选框获取模块，用于获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；状态特征确定模块，用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据，所述第一深度神经网络如上述第一方面提供的用于深度神经网络模型的训练方法训练获得；最优候选框检测模块，用于通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。

可选地，所述最优候选框检测模块还用于：根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述最优候选框检测模块用于迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测新的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述最优候选框检测模块在根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的处理中，通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，所述第二深度神经网络如上述第一方面提供的用于深度神经网络模型的训练方法训练获得，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，所述装置还包括：网格化模块，用于根据区域候选框在待检图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在待检图像中的位置分别投射到所述预定尺寸的网格中，生成所述待检图像的打分图。

可选地，所述状态特征确定模块用于将所述待检图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据，根据所述特征响应数据确定第一深度神经网络的状态特征数据。

可选地，所述最优候选框检测模块用于通过所述第一深度神经网络从尚未被检测到的区域候选框网格图当中检测被选中概率最高的第二区域候选框网格图，并且根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

根据本发明实施例的第五方面，提供一种第一电子设备。第一电子设备包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如上述第一方面提供的用于深度神经网络模型的训练方法对应的操作。

根据本发明实施例的第六方面，提供一种第二电子设备。第二电子设备包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如上述第二方面提供的用于物体检测方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息的可执行指令；用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据的可执行指令；用于通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框的可执行指令，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的可执行指令；用于基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据的可执行指令；用于根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数的可执行指令。

根据本发明实施例的又一方面，还提供了另一种计算机可读存储介质，所述计算机可读存储介质存储有：用于获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息的可执行指令；用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据的可执行指令，所述第一深度神经网络如第一方面所述的深度神经网络训练方法训练获得；用于通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框的可执行指令。

根据本发明实施例的深度神经网络模型的训练方案和物体检测方案，通过在深度神经网络模型的训练过程中对区域候选框的检测结果给予检测反馈，并且基于检测反馈数据来训练用于物体检测的第一深度神经网络，能够适应地调整作为物体区域候选框的筛选机制，从而使得训练得到的深度神经网络模型在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

附图说明

图1是示出根据本发明实施例一的深度神经网络模型的训练方法的流程图；

图2是示出根据本发明实施例二的深度神经网络模型的训练方法的流程图；

图3是示出根据本发明实施例三的深度神经网络模型的训练方法的流程图；

图4是示出根据本发明实施例四的物体检测方法的流程图；

图5是示出根据本发明实施例五的物体检测方法的流程图；

图6是示出根据本发明实施例六的物体检测方法的流程图；

图7是示出根据本发明实施例七的深度神经网络模型训练装置的逻辑框图；

图8是示出根据本发明实施例八的深度神经网络模型训练装置的逻辑框图；

图9是示出根据本发明实施例九的物体检测装置的逻辑框图；

图10是示出根据本发明实施例十的物体检测装置的逻辑框图；

图11是示出根据本发明实施例十一的第一电子设备的结构示意图；

图12是示出根据本发明实施例十二的第二电子设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明实施例的示例性实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。此外，“多个”指两个或两个以上，“至少一个”指一个、两个或两个以上。对于本申请中提及的任一部件、数据或结构，在没有明确限定一个的情况下，可理解为一个或多个。

实施例一

图1是示出根据本发明实施例一的深度神经网络模型的训练方法的流程图。在此提出的深度神经网络模型的训练方法用于训练从图像检测物体所在的区域(即位置和尺寸)的深度神经网络模型。该深度神经网络模型至少包括用于进行物体区域框检测的第一深度神经网络。

参照图1，在步骤S110，获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。

在对图像中拍摄的物体进行检测时，通常先从图像提取可能包含目标物体(如行人、人脸、车辆等)的潜在区域，即区域候选框(通常为矩形框)。可通过现有的区域提取方法(如区域候选网络、卷积神经网络等)从各个样本图像提取目标物体的多个可能的区域候选框；在提取区域候选框的过程中获得这些区域候选框的预测准确信息，即关于提取的区域候选框是不是图像中目标物体的真实框的预测准确度的信息，例如置信度或预测概率。

这里所述的区域候选框是指从样本图像提取的可能包含目标物体的区域框图像，即样本图像中可能包含目标物体的区域局部图像。

在步骤S120，根据所述多个区域候选框及其预测准确信息，确定第一深度神经网络的状态特征数据。

由于在步骤S110获取的多个区域候选框的例如区域候选框的置信度或预测概率的预测准确信息已带有对于区域候选框的准确性评估信息，因此可根据所述多个区域候选框及其预测准确信息来设置第一深度神经网络的状态特征数据，以使第一深度神经网络可根据这些状态特征数据来进一步进行物体区域框的检测。这里所说的第一深度神经网络的状态特征数据用于表征当前处理的图像(如样本图像或实施例三和实施例四中提及的待检图像)在第一深度神经网络中表达的图像特征状态，可包括例如，但不限于，图像的特征向量矩阵或特征图等。

为了操作便利，可以将该第一深度神经网络的状态特征数据设置为随机数据。也可例如，将这些带有置信度和预测概率的区域候选框的特征向量进行卷积，将卷积得到的特征向量对第一深度神经网络的状态特征数据进行设置。

在步骤S130，通过第一深度神经网络，从多个区域候选框当中尚未被检测到的第一区域候选框中检测被选中概率最高的第二区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

在此，将多个区域候选框分为尚未被检测到的第一区域候选框和已被检测到的第二区域候选框，所述第二区域候选框是从多个第一区域候选框当中检测到的被选中概率最高的区域候选框，也可称为第一区域候选框当中的最优区域候选框。那么，最初所有的区域候选框均为第一区域候选框。在经过步骤S130的处理后，从多个第一区域候选框当中检测被选中概率最高的第二区域候选框(即最优区域候选框)。通过多次地执行步骤S130，能够检测得到多个第二区域候选框。

被训练的第一深度神经网络在对多个区域候选框执行检测的过程中，对这些区域候选框进行评估，为这些区域候选框各自确定的被选中概率，并且将其中被选中概率最高的区域候选框选中为第二区域候选框。

此后，根据被选中的第二区域候选框以及多个第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。这里，被选中概率的数据和前述的预测准确信息均为对从样本图像提取的这些区域候选框的评价数据，通过步骤S130的处理，能够对第一深度神经网络的状态特征数据进行修正和优化。

在步骤S140，基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据。

在物体检测的场景中，当在图像中同时出现多个物体并且多个物体之间互相重叠过多时，目前采用的非极大值抑制算法将过多地抑制正确的预测，导致召回率过低、漏选的结果。另一方面，如果人为设定的筛选阈值过大，将无法有效地抑制重复检查结果或者误报结果，导致筛选准确率降低。为此，根据本发明的基本发明构思，可对步骤S130中对最优区域候选框(第二区域候选框)的检测处理给予反馈，施加强化信号(即这里的检测反馈数据)，并且将强化信号作为监督信号来训练第一深度神经网络，以使得第一深度神经网络能够适应性地执行物体框检测，获得较理想的召回率，并且/或者减少误报、漏选。例如，针对错误或不当的检测结果，可适应性地调整筛选机制，给予指示选中错误的检测反馈数据；再例如，可适度增加指示选中正确的检测反馈数据，以提高召回率。

具体地，可根据前述最优区域候选框的检测结果为多个区域候选框确定检测反馈数据，也可通过其他评定规则为多个区域候选框生成检测反馈数据。或者，可基于强化学习方法，由智能学习系统的环境对最优区域候选框的检测行为提供指示奖赏或惩罚的反馈信号，为多个区域候选框确定检测反馈数据。此处具体不作限定。

稍后，将参照实施例二中的步骤S240描述一种为区域候选框生成检测反馈数据的示例性方式。

在步骤S150，根据为所述多个区域候选框确定的检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数。

根据本发明的一种可实施方式，将为多个区域候选框确定的指示奖赏或惩罚的检测反馈数据对被训练的第一深度神经网络的下降梯度进行加权，再将加权的下降梯度反传给第一深度神经网络，对第一深度神经网络的网络参数进行调整，从而对第一深度神经网络的训练进行优化。

这里，需要指出，第一深度神经网络的状态特征数据是指当前处理的样本图像在第一深度神经网络中呈现的图像特征状态，或者在物体检测的过程中，待检图像第一深度神经网络中呈现的图像特征状态。该状态特征数据与当前处理的图像(样本图像或待检图像)相应，并且随着处理的图像而发生变化。另一方面，第一深度神经网络的网络参数是指被训练的神经网络本身为实现某种功能而设置的参数，通常为参数矩阵、联合矩阵等。在完成第一深度神经网络的训练后，这些网络参数是固定的，不会随着处理的图像而变化。

根据本发明实施例一的深度神经网络模型的训练方法，通过在训练过程中对区域候选框的检测结果给予检测反馈，并且基于检测反馈数据来训练用于物体检测的第一深度神经网络，能够适应地调整作为物体区域候选框的筛选机制，从而使得训练得到的深度神经网络模型在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

实施例二

图2是示出根据本发明实施例二的深度神经网络模型的训练方法的流程图。

参照图2，在步骤S210，获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。该步骤的处理与步骤S110相似，在此不予赘述。

在步骤S220，根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据。

该步骤的处理与步骤S120的处理类似。

在步骤S230与步骤S130相应，具体包括步骤S231、步骤S233和步骤S235。

在步骤S231，通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。该检测被选中概率最高的第二区域候选框的处理与步骤S130中的相应处理类似，在此不予赘述。

在步骤S233，通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换。

在根据实施例二训练的深度神经网络模型除了包括第一深度神经网络以外，还包括用于提取图像特征的第二深度神经网络。在步骤S233，通过第二深度神经网络对从步骤S231检测到的第二区域候选框进行特征变换(如卷积、池化等)，从而提取该第二区域候选框的图像特征数据。

在步骤S235，根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

由于在步骤S231检测被选中概率最高的第二区域候选框(最优候选框)的处理中，已对尚未被检测到的第一区域候选框进行了评估，因此可根据被选中的第二区域候选框的变换特征和包括第二区域候选框在内的第一区域候选框的被选中为第二区域候选框的概率的数据，对第一深度神经网络的状态特征数据进行更新调整，以用于后续检测更多的最优候选框。

根据本发明的可选实施方式，迭代地执行步骤S230，直到所述第二区域候选框的检测满足迭代终止条件为止。

也就是说，在步骤S230的每次迭代处理中，基于根据前一被检测到的第二区域候选框更新的状态特征数据来执行本次迭代的第二区域候选框的选择，然后对本次迭代的第二区域候选框进行特征变换，如卷积处理，再根据本次迭代的第二区域候选框的变换特征和所述多个第一区域候选框的被选中概率继续更新第一深度神经网络的状态特征数据。具体地，在根据本次迭代的第二区域候选框的变换特征和所述多个区域候选框的被选中概率更新第一深度神经网络的状态特征数据的处理中，可将第二区域候选框的变换特征(例如特征向量矩阵)与多个区域候选框的被选中概率的某种映射进行比对(例如将变换特征与被选中概率进行相减)，根据比对的结果更新第一深度神经网络的状态特征数据。

在此，可根据检测准确度的需要或训练需要来设置该迭代终止条件。例如，将迭代终止条件设为预定的迭代次数、检测出预定个数的第二区域候选框等。一种穷尽性的迭代终止条件是，完成对样本图像提取的全部区域候选框的前述检测(步骤S130或步骤S230)处理。

根据本发明的一种可选实施方式，前述迭代终止条件包括：在步骤S130或步骤S230检测到的第二区域候选框的被选中概率不超过预定的概率阈值。也就是说，当确定检测到的第二区域候选框的质量不高时，结束前述迭代处理，不再继续进行最优区域候选框的检测。

在步骤S240，基于所述多个区域候选框被检测的结果，生成所述多个区域候选框的检测反馈数据。

在该步骤，可对步骤S231对多个区域候选框被检测的结果给予反馈，从而对正确的检测给予加强反馈，而对错误或不当的检测结果给予弱反馈或负反馈，以使训练的深度神经网络模型适应性地进行参数调整。

具体地，例如，如果检测得到的第二区域候选框为尚未检测得到的区域候选框，则为所述第二区域候选框生成指示选中正确的检测反馈数据，以给予加强反馈。

再例如，如果当前检测得到的第二区域候选框与其他已检测到的区域候选框之间的重叠程度超过预定的阈值，可推定该第二区域候选框先前已被检测到，则为当前检测得到的第二区域候选框生成指示选中无效的检测反馈数据，以给予负面反馈。

再例如，如果在多个区域候选框当中，任一所述区域候选框未被检测到并且所述任一区域候选框的预测准确信息超过预定的预测准确阈值，说明该区域候选框为物体框的可能性较大，但未被检测到，则为所述任一区域候选框生成指示选中错误的检测反馈数据，以给予负面反馈。

根据前述生成检测反馈数据的处理，可自动地为多个区域候选框生成检测反馈数据，并且对检测结果给予加强、减弱或负面的反馈。

在步骤S250，根据为所述多个区域候选框生成的检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数，并且根据为所述多个区域候选框生成的检测反馈数据，调整所述第二深度神经网络的网络参数。

在此，除了如前所述调整第一深度神经网络的网络参数，还根据为所述多个区域候选框生成的检测反馈数据，调整所述第二深度神经网络的网络参数。可根据为所述多个区域候选框生成的检测反馈数据，分别对第一深度神经网络的网络参数和第二深度神经网络的网络参数进行调整。

具体来说，可将多个区域候选框及其检测反馈数据作为训练样本分别反向传输给第一深度神经网络和第二深度神经网络，从而更新第一深度神经网络的网络参数和所述第二深度神经网络的网络参数。

在该步骤中，以为各个区域候选框生成的检测反馈数据作为监督数据，来更新第一深度神经网络的网络参数和所述第二深度神经网络的网络参数，从而训练得到用于准确检测物体的模型。例如，以各个检测行为a、更新的特征状态数据s以及相应的检测反馈数据r作为训练样本，根据例如执行者-判决者(actor-critic)学习方法、自然策略梯度方法(Natural Policy Gradient)、信域策略优化(Trust Region Policy Optimization)、确定性策略梯度方法(Deterministic Policy Gradient)等基于策略优化的方法更新深度神经网络模型的网络参数。可将各个检测反馈数据进行归一化处理，再执行步骤S250的处理。

根据本发明实施例二的深度神经网络模型的训练方法，通过迭代地从尚未被检测到的区域候选框当中检测被选中概率最高的最优区域候选框并进行第一深度神经网络的状态特征数据的更新，并且根据最优区域候选框的检测结果来自动地生成样本图像的多个区域候选框的检测反馈数据，并且基于生成的检测反馈数据来训练用于物体检测的第一深度神经网络和用于提取图像特征的第二深度神经网络，能够适应地调整作为物体区域候选框的筛选机制，从而使得训练得到的深度神经网络模型在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

实施例三

图3示出根据本发明实施例三的深度神经网络模型的训练方法的流程图。

参照图3，在步骤S310，获取从多个样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。步骤S310的处理与前述步骤S110和S210的处理类似，在此不予赘述。

在步骤S320，根据区域候选框在样本图像中的位置，分别将多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图。这里的预定尺寸可以是任何适于处理的图像尺寸，例如，但不限于样本图像的尺寸。由此，将各个区域候选框处理为统一尺寸，确保后续对区域候选框处理的准确性。

在步骤S330，将所述多个区域候选框的预测准确信息根据区域候选框在样本图像中的位置分别投射到前述预定尺寸的网格中，生成所述样本图像的打分图。

通过该步骤生成的打分图可反映各个区域候选框中各个位置(点)的预测质量，以进行步骤S340的卷积处理。

在步骤S340，分别将所述多个样本图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据作为第一深度神经网络初始的状态特征数据。

通过该步骤的卷积处理获得的多个区域候选框的特征响应数据可表征为在样本图像中各个区域候选框的特征向量矩阵，将在样本图像中各个区域候选框的特征向量矩阵作为第一深度神经网络初始的状态特征数据。

在步骤S350，迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测被选中概率最高的第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

在该步骤中，通过使用经过标准化处理的投射到预定尺寸的网格中的多个区域候选框以及各个样本图像的打分图来迭代地执行被选中概率最高的第二区域候选框的检测以及相应的第一深度神经网络的状态特征数据的更新。在将第二区域候选框的变换特征(例如特征向量矩阵)与多个区域候选框的打分图进行比对时，无需对各区域候选框的预测准确信息进行任何映射处理，可直接根据执行第二区域候选框的变换特征(例如特征向量矩阵)与多个区域候选框的打分图进行比对处理。这里所说的比对处理不限于前述的将第二区域候选框的变换特征与多个区域候选框的打分图相减，也可以例如将第二区域候选框的变换特征与多个区域候选框的打分图相加或相乘等。

步骤S350的每次迭代处理除根据经过标准化处理的投射到预定尺寸的网格中的多个区域候选框以及各个样本图像的打分图作为该步骤的输入以外，与前述步骤S130或步骤S230的处理相似，在此不予赘述。

在步骤S360，基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据。该步骤的处理与前述步骤S140或S240的处理类似，在此不予赘述。

在步骤S370，根据从所述多个样本图像提取的所述多个区域候选框以及所述多个区域候选框的检测反馈数据，更新具有更新过的状态特征数据的第一深度神经网络模型的网络参数。该步骤的处理与前述步骤S150的处理相应，在此不予赘述。

根据本发明实施例三的深度神经网络模型的训练方法，可对从多个样本图像提取目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息进行预定大小的网格化处理，生成标准化的区域候选框数据以及打分图，在此基础上，在训练过程中对区域候选框的检测结果给予检测反馈，并且基于检测反馈数据来训练用于物体检测的第一深度神经网络，能够适应地调整作为物体区域候选框的筛选机制，从而使得训练得到的深度神经网络模型在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

实施例四

图4示出根据本发明实施例四的物体检测方法的流程图。

参照图4，在步骤S410，获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。

该步骤的处理与前述步骤S110中涉及样本图像的处理类似，在此不予赘述。

在步骤S420，根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据。该第一深度神经网络为如前述实施例一～实施例三所述任一训练方法训练得到。

该步骤的处理与前述步骤S120的处理类似，在此不予赘述。

在步骤S430，通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。

通过训练得到的第一深度神经网络，可预测得到被选中概率最高的第二区域候选框作为最优区域候选框。

根据本发明实施例四的物体检测方法，通过在前述实施例一～实施例三所述的任一训练方法训练得到深度神经网络模型，可从待检图像提取的目标物体的多个区域候选框预测得到最优区域候选框，在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

实施例五

图5是示出根据本发明实施例五的物体检测方法的流程图。

参照图5，步骤S510～S530的处理与步骤S410～S430中对从样本图像提取的区域候选框的处理类似，在此不予赘述。

在步骤S540，根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据，以用于后续更多第二区域候选框的检测。

与前述实施例二类似，根据本发明的一种可选实施方式，步骤S540包括：

步骤S541，通过如前训练得到的用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换；

步骤S543，根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可与前述步骤S233和S235类似地执行步骤S541和S543的处理。

根据本发明的可选实施方式，迭代地执行步骤S530和S540，直到所述第二区域候选框的检测满足迭代终止条件为止，从而能够从待检图像检测得到多个物体区域框。

也就是说，在每次迭代处理中，基于根据前一被检测到的第二区域候选框更新的状态特征数据来执行本次迭代的第二区域候选框的选择，然后对本次迭代的第二区域候选框进行特征变换，如卷积处理，再根据本次迭代的第二区域候选框的变换特征和所述多个第一区域候选框的被选中概率继续更新第一深度神经网络的状态特征数据。具体地，在根据本次迭代的第二区域候选框的变换特征和所述多个区域候选框的被选中概率更新第一深度神经网络的状态特征数据的处理中，可将第二区域候选框的变换特征(例如特征向量矩阵)与多个区域候选框的被选中概率的某种映射进行比对(例如将变换特征与被选中概率进行相减)，根据比对的结果更新第一深度神经网络的状态特征数据。

如前所述，可根据需要，设置该迭代终止条件。根据本发明的一种可选实施方式，该迭代终止条件包括：在步骤S430或S530检测到的第二区域候选框的被选中概率不超过预定的概率阈值。也就是说，当确定检测到的第二区域候选框的质量不高时，结束前述迭代处理，不再继续进行最优区域候选框的检测。

根据本发明实施例五的物体检测方法，通过在前述实施例一～实施例三所述的任一训练方法训练得到深度神经网络模型，可从待检图像提取的目标物体的多个区域候选框迭代地预测得到多个最优区域候选框，直到检测结果达到迭代终止条件为止，从而在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

实施例六

图6是示出根据本发明实施例六的物体检测方法的流程图。

参照图6，在步骤S610，获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。

在步骤S620，根据区域候选框在待检图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图。

在步骤S630，将所述多个区域候选框的预测准确信息根据区域候选框在待检图像中的位置分别投射到所述预定尺寸的网格中，生成所述待检图像的打分图。

在步骤S640，将所述待检图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据，并且根据所述特征响应数据确定第一深度神经网络的状态特征数据。

在步骤S650，迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测被选中概率最高的第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

通过步骤S650的处理，获得多个被选中概率最高的第二区域候选框网格图，将这些第二区域候选框网格图对应的区域候选框作为物体区域框的检测结果。

步骤S610～S650的处理与前述实施例三中针对从样本图像提取的多个区域候选框的处理类似，在此不予赘述。

根据本发明实施例六的物体检测方法，可对从待检图像提取目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息进行预定大小的网格化处理，生成标准化的区域候选框数据以及打分图，使用打分图来确定第一深度神经网络的状态特征数据；在此基础上，通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测被选中概率最高的第二区域候选框网格图，迭代地检测出过个被选中概率最高的第二区域候选框网格图。使用本发明实施例训练得到的深度神经网络模型的物体检测方法能够适应地调整作为物体区域候选框的筛选机制，从而使得训练得到的深度神经网络模型在物体检测过程中能够克服召回率低、漏选、误报等问题，提高物体检测的准确性。

实施例七

图7是示出根据本发明实施例七的深度神经网络模型训练装置的逻辑框图。

参照图7，本发明实施例七的深度神经网络模型训练装置包括：样本候选框获取模块710、第一状态特征确定模块720、状态特征更新模块730、反馈数据确定模块740和网络参数更新模块750。

样本候选框获取模块710用于获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。

第一状态特征确定模块720用于根据样本候选框获取模块710获取的多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据。

状态特征更新模块730用于通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

反馈数据确定模块740用于基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据。

网络参数更新模块750用于根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数。

本实施例的深度神经网络模型训练装置用于实现前述方法实施例中相应的深度神经网络模型的训练方法，且具有相应方法实施例的有益效果，在此不再赘述。

实施例八

图8是示出根据本发明实施例八的深度神经网络模型训练装置的逻辑框图。

在根据本发明实施例八的深度神经网络模型训练装置中，状态特征更新模块730在根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的处理中，用于通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，网络参数更新模块750还用于根据为所述多个区域候选框确定的检测反馈数据，调整所述第二深度神经网络的网络参数。

参照图8，根据本发明实施例八的深度神经网络模型训练装置还包括：第一网格化模块760，用于根据区域候选框在样本图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在样本图像中的位置分别投射到所述预定尺寸的网格中，生成所述样本图像的打分图。

相应地，第一状态特征确定模块720在根据所述多个区域候选框及其预测准确信息确定用于进行物体检测的第一深度神经网络的状态特征数据的处理中，将所述样本图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据作为第一深度神经网络初始的状态特征数据。

可选地，状态特征更新模块730用于通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

根据本发明的另一可选实施方式，状态特征更新模块730用于迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过具有所述状态特征数据的第一深度神经网络，从尚未被检测到的区域候选框当中检测被选中概率最高的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，反馈数据确定模块740用于：如果所述第二区域候选框为尚未检测得到的区域候选框，则为所述第二区域候选框生成指示选中正确的检测反馈数据；以及/或者，如果所述第二区域候选框与其他已检测到的区域候选框之间的重叠程度超过预定的阈值，则为所述第二区域候选框生成指示选中无效的检测反馈数据。

可选地，反馈数据确定模块740还用于：如果任一所述区域候选框未被检测到并且所述任一区域候选框的预测准确信息超过预定的预测准确阈值，则为所述任一区域候选框生成指示选中错误的检测反馈数据。

实施例九

图9是示出根据本发明实施例九的物体检测装置的逻辑框图。

参照图9，根据本发明实施例九的物体检测装置包括待检候选框获取模块910、第二状态特征确定模块920和最优候选框检测模块930。

待检候选框获取模块910用于获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息。

第二状态特征确定模块920用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据，所述第一深度神经网络通过前述任一训练方法训练获得。

最优候选框检测模块930用于通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。

本实施例的物体检测装置用于实现前述方法实施例中相应的物体检测方法，且具有相应方法实施例的有益效果，在此不再赘述。

实施例十

图10是示出根据本发明实施例十的物体检测装置的逻辑框图。

在根据本发明实施例十的物体检测装置中，最优候选框检测模块930还用于根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，最优候选框检测模块930用于迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测新的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，最优候选框检测模块930在根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的处理中，通过前述的用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

可选地，根据本发明实施例十的物体检测装置还包括：第二网格化模块940，用于根据区域候选框在待检图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在待检图像中的位置分别投射到所述预定尺寸的网格中，生成所述待检图像的打分图。

可选地，第二状态特征确定模块920用于将所述待检图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据，根据所述特征响应数据确定第一深度神经网络的状态特征数据。

可选地，最优候选框检测模块930用于通过所述第一深度神经网络从尚未被检测到的区域候选框网格图当中检测被选中概率最高的第二区域候选框网格图，并且根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

实施例十一

图11是示出根据本发明实施例十一的第一电子设备的结构示意图。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图11，其示出了适于用来实现本发明实施例的终端设备或服务器的第一电子设备1100的结构示意图。

如图11所示，第一电子设备1100包括一个或多个第一处理器、第一通信元件等，所述一个或多个第一处理器例如：一个或多个第一中央处理单元(CPU)1101，和/或一个或多个第一图像处理器(GPU)1113等，第一处理器可以根据存储在第一只读存储器(ROM)1102中的可执行指令或者从第一存储部分1108加载到第一随机访问存储器(RAM)1103中的可执行指令而执行各种适当的动作和处理。第一通信元件包括第一通信组件1112和第一通信接口1109。其中，第一通信组件1112可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，第一通信接口1109包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，第一通信接口1109经由诸如因特网的网络执行通信处理。

第一处理器可与第一只读存储器1102和/或第一随机访问存储器1103中通信以执行可执行指令，通过第一总线1104与第一通信组件1112相连、并经通信组件1112与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据；通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据；基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据；根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数。

此外，在第一RAM 1103中，还可存储有装置操作所需的各种程序和数据。第一CPU1101、第一ROM1102以及第一RAM1103通过第一总线1104彼此相连。在有第一RAM1103的情况下，第一ROM1102为可选模块。第一RAM1103存储可执行指令，或在运行时向第一ROM1102中写入可执行指令，可执行指令使第一处理器1101执行上述通信方法对应的操作。第一输入/输出(I/O)接口1105也连接至第一总线1104。第一通信组件1112可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第一I/O接口1105：包括键盘、鼠标等的第一输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第一输出部分1107；包括硬盘等的第一存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的第一通信接口1109。第一驱动器1110也根据需要连接至第一I/O接口1105。第一可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第一驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入第一存储部分1108。

需要说明的，如图11所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图11的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，第一通信组件1112可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息的指令；根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据的指令；通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的指令；基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据的指令；根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数的指令。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从第一可拆卸介质1111被安装。在该计算机程序被第一中央处理单元(CPU)1101执行时，执行本发明实施例的方法中限定的上述功能。

本发明实施例十一提供的第一电子设备，基于强化学习的自适应机器学习框架来训练深度神经网络模型，由环境对根据多个区域候选框更新深度神经网络模型的状态特征数据的迭代处理施加强化信号，根据强化信号和从多个样本图像提取的多个区域候选框及其检测反馈数据调整具有更新过的状态特征数据的深度神经网络模型的网络参数，在训练深度神经网络模型的过程中自适应地调整筛选机制，从而克服物体检测筛选过程中发生的召回率低、漏选、误报等问题。

实施例十二

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图12，其示出了适于用来实现本发明实施例的终端设备或服务器的第二电子设备1200的结构示意图。

如图12所示，第二电子设备1200包括一个或多个第二处理器、第二通信元件等，所述一个或多个第二处理器例如：一个或多个第二中央处理单元(CPU)1201，和/或一个或多个第二图像处理器(GPU)1213等，第二处理器可以根据存储在第二只读存储器(ROM)1202中的可执行指令或者从第二存储部分1208加载到第二随机访问存储器(RAM)1203中的可执行指令而执行各种适当的动作和处理。第二通信元件包括第二通信组件1212和第二通信接口1209。其中，第二通信组件1212可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，第二通信接口1209包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，第二通信接口1209经由诸如因特网的网络执行通信处理。

第二处理器可与第二只读存储器1202和/或第二随机访问存储器1203中通信以执行可执行指令，通过第二总线1204与第二通信组件1212相连、并经第二通信组件1212与其他目标设备通信，从而完成本发明实施例提供的任一项方法对应的操作，例如，获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据，所述第一深度神经网络如前所述的深度神经网络模型的训练方法训练获得；通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。

此外，在第二RAM 1203中，还可存储有装置操作所需的各种程序和数据。第二CPU1201、第二ROM1202以及第二RAM1203通过第二总线1204彼此相连。在有第二RAM1203的情况下，第二ROM1202为可选模块。第二RAM1203存储可执行指令，或在运行时向第二ROM1202中写入可执行指令，可执行指令使第二处理器1201执行上述通信方法对应的操作。第二输入/输出(I/O)接口1205也连接至第二总线1204。第二通信组件1212可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至第二I/O接口1205：包括键盘、鼠标等的第二输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的第二输出部分1207；包括硬盘等的第二存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的第二通信接口1209。第二驱动器1210也根据需要连接至第二I/O接口1205。第二可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在第二驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入第二存储部分1208。

需要说明的，如图12所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，第二通信组件可1212分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，执行获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息的指令；根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据的指令，所述第一深度神经网络如前所述的深度神经网络模型的训练方法训练获得；通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框的指令，所述第二区域候选框为被选中概率最高的第一区域候选框。

在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从第二可拆卸介质1211被安装。在该计算机程序被第二中央处理单元(CPU)1201执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

需要指出，根据实施的需要，可将本申请中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种深度神经网络模型的训练方法，包括：

获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；

根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据；

通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据；

基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据；

根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数，

其中，所述第一深度神经网络的状态特征数据用于表征当前处理的样本图像在所述第一深度神经网络中表达的图像特征状态。

2.根据权利要求1所述的方法，其中，所述根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：

通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，并且

根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

3.根据权利要求2所述的方法，其中，所述根据为所述多个区域候选框确定的检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数还包括：

根据为所述多个区域候选框确定的检测反馈数据，调整所述第二深度神经网络的网络参数。

4.根据权利要求1～3中任一项所述的方法，其中，在根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据之前，所述方法还包括：

根据区域候选框在样本图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在样本图像中的位置分别投射到所述预定尺寸的网格中，生成所述样本图像的打分图；

所述根据所述多个区域候选框及其预测准确信息确定用于进行物体检测的第一深度神经网络的状态特征数据包括：

将所述样本图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据作为第一深度神经网络初始的状态特征数据。

5.根据权利要求4所述的方法，其中，所述通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：

通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

6.根据权利要求1～3中任一项所述的方法，其中，所述通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：

迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过具有所述状态特征数据的第一深度神经网络，从尚未被检测到的区域候选框当中检测被选中概率最高的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

7.根据权利要求6所述的方法，其中，所述基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据包括：

如果所述第二区域候选框为尚未检测得到的区域候选框，则为所述第二区域候选框生成指示选中正确的检测反馈数据；以及/或者

如果所述第二区域候选框与其他已检测到的区域候选框之间的重叠程度超过预定的阈值，则为所述第二区域候选框生成指示选中无效的检测反馈数据。

8.根据权利要求6所述的方法，其中，所述迭代终止条件包括：检测到的第二区域候选框的被选中概率不超过预定的概率阈值。

9.根据权利要求7所述的方法，其中，所述基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据还包括：

如果任一所述区域候选框未被检测到并且所述任一区域候选框的预测准确信息超过预定的预测准确阈值，则为所述任一区域候选框生成指示选中错误的检测反馈数据。

10.一种物体检测方法，包括：

获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；

根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据，所述第一深度神经网络如权利要求1～9中任一项所述方法训练获得；

通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。

11.根据权利要求10所述的方法，其中，所述从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框还包括：

根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

12.根据权利要求10或11所述的方法，其中，所述通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框包括：

迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测新的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

13.根据权利要求11所述的方法，其中，所述根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：

通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，所述第二深度神经网络如权利要求3～9中任一项所述方法训练获得，并且

14.根据权利要求10～11中任一项所述的方法，其中，所述方法还包括：

根据区域候选框在待检图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在待检图像中的位置分别投射到所述预定尺寸的网格中，生成所述待检图像的打分图。

15.根据权利要求14所述的方法，其中，所述根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据包括：

将所述待检图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据，根据所述特征响应数据确定第一深度神经网络的状态特征数据。

16.根据权利要求14所述的方法，其中，所述通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框包括：

通过所述第一深度神经网络从尚未被检测到的区域候选框网格图当中检测被选中概率最高的第二区域候选框网格图，

所述根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据包括：

根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

17.一种深度神经网络模型的训练装置，包括：

样本候选框获取模块，用于获取从样本图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；

状态特征确定模块，用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测的第一深度神经网络的状态特征数据；

状态特征更新模块，用于通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框，并根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据；

反馈数据确定模块，用于基于所述多个区域候选框被检测的结果，为所述多个区域候选框确定检测反馈数据；

网络参数更新模块，用于根据所述检测反馈数据，调整具有更新过的状态特征数据的所述第一深度神经网络的网络参数，

18.根据权利要求17所述的装置，其中，所述状态特征更新模块在根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的处理中，用于通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，并且根据所述第二区域候选框的变换特征以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

19.根据权利要求18所述的装置，其中，所述网络参数更新模块还用于根据为所述多个区域候选框确定的检测反馈数据，调整所述第二深度神经网络的网络参数。

20.根据权利要求17～19中任一项所述的装置，其中，所述装置还包括：

网格化模块，用于根据区域候选框在样本图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在样本图像中的位置分别投射到所述预定尺寸的网格中，生成所述样本图像的打分图；

所述状态特征确定模块在根据所述多个区域候选框及其预测准确信息确定用于进行物体检测的第一深度神经网络的状态特征数据的处理中，将所述样本图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据作为第一深度神经网络初始的状态特征数据。

21.根据权利要求20所述的装置，其中，所述状态特征更新模块用于通过所述第一深度神经网络，从所述尚未被检测到的第一区域候选框网格图中检测第二区域候选框网格图，并根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

22.根据权利要求17～19中任一项所述的装置，其中，所述状态特征更新模块用于迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过具有所述状态特征数据的第一深度神经网络，从尚未被检测到的区域候选框当中检测被选中概率最高的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

23.根据权利要求22所述的装置，其中，所述反馈数据确定模块用于：

24.根据权利要求22所述的装置，其中，所述迭代终止条件包括：检测到的第二区域候选框的被选中概率不超过预定的概率阈值。

25.根据权利要求23中所述的装置，其中，所述反馈数据确定模块还用于：

26.一种物体检测装置，包括：

待检候选框获取模块，用于获取从待检图像提取的目标物体的多个区域候选框以及所述多个区域候选框的预测准确信息；

状态特征确定模块，用于根据所述多个区域候选框及其预测准确信息，确定用于进行物体检测第一深度神经网络的状态特征数据，所述第一深度神经网络如权利要求1～9中任一项所述方法训练获得；

最优候选框检测模块，用于通过具有所述状态特征数据的第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测第二区域候选框，所述第二区域候选框为被选中概率最高的第一区域候选框。

27.根据权利要求26所述的装置，其中，所述最优候选框检测模块还用于：

28.根据权利要求26或27所述的装置，其中，所述最优候选框检测模块用于迭代地执行以下检测操作，直到所述检测满足迭代终止条件为止：通过所述第一深度神经网络，从所述多个区域候选框包括的当前尚未被检测到的第一区域候选框中检测新的第二区域候选框，并且根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

29.根据权利要求28所述的装置，其中，所述最优候选框检测模块在根据所述第二区域候选框以及所述第一区域候选框的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据的处理中，通过用于提取图像特征的第二深度神经网络，对所述第二区域候选框进行特征变换，所述第二深度神经网络如权利要求3～9中任一项所述方法训练获得，并且

30.根据权利要求26～27中任一项所述的装置，其中，所述装置还包括：

网格化模块，用于根据区域候选框在待检图像中的位置，分别将所述多个区域候选框投射到预定尺寸的网格中，生成区域候选框网格图，并且将所述多个区域候选框的预测准确信息根据区域候选框在待检图像中的位置分别投射到所述预定尺寸的网格中，生成所述待检图像的打分图。

31.根据权利要求30所述的装置，其中，所述状态特征确定模块用于将所述待检图像的打分图进行卷积，获得所述多个区域候选框的特征响应数据，根据所述特征响应数据确定第一深度神经网络的状态特征数据。

32.根据权利要求30所述的装置，其中，所述最优候选框检测模块用于通过所述第一深度神经网络从尚未被检测到的区域候选框网格图当中检测被选中概率最高的第二区域候选框网格图，并且根据所述第二区域候选框网格图以及所述第一区域候选框网格图的被选中为第二区域候选框的概率的数据，更新第一深度神经网络的状态特征数据。

33.一种电子设备，包括：第一处理器、第一存储器、第一通信元件和第一通信总线，所述第一处理器、所述第一存储器和所述第一通信元件通过所述第一通信总线完成相互间的通信；

所述第一存储器用于存放至少一可执行指令，所述可执行指令使所述第一处理器执行如权利要求1～9中任一项所述的深度神经网络模型的训练方法对应的操作。

34.一种电子设备，包括：第二处理器、第二存储器、第二通信元件和第二通信总线，所述第二处理器、所述第二存储器和所述第二通信元件通过所述第二通信总线完成相互间的通信；

所述第二存储器用于存放至少一可执行指令，所述可执行指令使所述第二处理器执行如权利要求10～16任一项所述的物体检测方法对应的操作。