CN107909093B

CN107909093B - 一种物品检测的方法及设备

Info

Publication number: CN107909093B
Application number: CN201711023218.9A
Authority: CN
Inventors: 陈媛媛; 伍敏; 薛迪秀
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2021-02-02
Anticipated expiration: 2037-10-27
Also published as: CN107909093A

Abstract

本发明公开了一种物品检测的方法及设备，用以解决现有技术中人眼鉴别中因人眼疲劳出现的错检、漏检现象，导致准确率较低的问题。本发明实施例通过多个不同的神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，再将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像；对融合的图像与预设的物品对应的图像进行匹配，根据匹配结果确定出所述目标图像中包括的物品。由于本发明实施例是通过神经网络进行的，避免了人工检查，减少了错检、漏检的现象，提高了准确率。

Description

一种物品检测的方法及设备

技术领域

本发明涉及计算机技术领域，特别涉及一种物品检测的方法及设备。

背景技术

近几年，地铁、高铁、飞机的客流量越来越大，安全问题也引起了人们的关注。为防止旅客携带危险品上车或上机，目前在各类进站口均设有安检机对旅客携带的包裹进行安全检查，以便及时发现枪支、刀具、鞭炮等危险物品。

现在主流的安全检测方法主要为传统的、全天候的人眼鉴别法，其中，人眼鉴别方法是通过观察旅客行李对应的光图片中不同材质显示成的不同颜色，来使安检人员排查违禁物品。但是该方法会存在一定的人为因素，安检人员会因为疲劳而导致错检、漏检；还会因为光图片中显示的颜色和物体真实图片存在很大差异，为安检人员增加了排查难度。

综上，现有技术中人眼鉴别会因为人眼疲劳出现错检、漏检的现象，导致准确率较低。

发明内容

本发明提供一种物品检测的方法及设备，用以解决现有技术中人眼鉴会因为人眼疲劳出现错检、漏检的现象，导致准确率较低的问题。

本发明实施例提供一种物品检测的方法，该方法包括：

通过多个不同的特征神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，其中所述多个不同的特征神经网络经过同一物品不同尺度的训练；

将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像；

将预设的物品的特征参数与所述融合图像进行卷积操作，根据计算结果确定所述目标图像中包括的物品。

本发明实施例提供一种物品检测的设备，该设备包括：

至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行下列过程：

本发明实施例提供另一种物品检测的设备，该设备包括：

提取模块，用于通过多个不同的特征神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，其中所述多个不同的特征神经网络经过同一物品不同尺度的训练；

融合模块，用于将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像；

确定模块，用于将预设的物品的特征参数与所述融合图像进行卷积操作，根据计算结果确定所述目标图像中包括的物品。

本发明实施例通过多个不同的神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，再将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像；对融合的图像与预设的物品对应的图像进行匹配，根据匹配结果确定出所述目标图像中包括的物品。由于本发明实施例是通过神经网络进行的，避免了人工检查，减少了错检、漏检的现象，提高了准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例物品检测的方法流程示意图；

图2为本发明实施例图像分辨率转换示意图；

图3为本发明实施例中特征提取的结构示意图；

图4为本发明实施例进行上采样得到的特征图像保存在原特征层中的示意图；

图5为本发明实施例进行上采样得到的特征图像保存在新建特征层中的示意图；

图6为本发明实施例特征图像融合示意图；

图7A为本发明实施例分辨率为200*50的电棒特征图像示意图；

图7B为本发明实施例分辨率为400*100的电棒特征图像示意图；

图8为本发明实施例预测物体类别和位置的方法步骤流程示意图；

图9为本发明实施例第一种物品检测的设备结构示意图；

图10为本发明实施例第二种物品检测的设备结构示意图；

图11为本发明实施例第三种物品检测的设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种物品检测的方法，包括：

步骤100，通过多个不同的特征神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，其中所述多个不同的特征神经网络经过同一物品不同尺度的训练；

步骤101，将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像；

步骤102，将预设的物品的特征参数与所述融合图像进行卷积操作，根据计算结果确定所述目标图像中包括的物品。

其中，所述的特征神经网络包括但不限于下列的部分或全部：

Yolo(You Only Look Once)网络、SSD(Single Shot MultiBox Detector)网络等。

其中，所述目标图像为光扫描图像，可以为X光扫描图像。

在实施中，所述将预设的物品特征参数与所述融合图像进行卷积操作，根据计算结果确定所述图像中包括的物品时，针对融合图像中任一特征图像的特征参数与训练过程中的得到的预设物品的特征参数进行卷积计算，根据卷积计算后的计算结果确定所述目标图像中包括的物品。

具体的，在训练过程中可以得到每一物体对应的特征参数，并将训练过程中得到的每一个物品的特征参数保存到神经网络中，在进行物品的类别或/和位置确认的时候，会将融合图像中的特征参数与训练过程预设的物品的特征参数进行卷积计算时，根据计算的的结果可以确定出物品的类别及在融合图像中的位置，可以准确的确定出融合图像中的物品类别与预设物品的类别是否属于同一类别，并根据特征参数对应的特征图像在融合图中的位置可以准确的确定出物品在融合图像中的位置，根据匹配来确定物品的类别及位置，保证了准确性。

其中，在具体的实施例中，在确定所述目标图像中包括的物品时，还可以利用迭代算法(Adaboost)或SVM(Support Vector Machine，支持向量机)等分类器对融合图像中的物品进行分类。

可选的，所述将目标图像分别输入到多个不同的特征神经网络之前，对所述目标图像进行去噪和/或归一化处理；和/或根据训练所述特征神经网络得到的图像分辨率，在保持所述目标图像纵横比不变的前提下，对所述目标图像的分辨率进行调整。

其中，所述根据训练对所述特征神经网络得到的图像分辨率为同一个图形中在不同的分辨率下进行训练，选取效果最佳的分辨率图像。

以X光图像为例，选取X光图像分辨率为208*208的图像输入到特征神经网络中。

其中，208*208的X光图像为经过多次试验后的到的经验值，兼顾了操作的速度及选取物品时的准确性。

具体的，在将所述目标图像输入到神经网络之前，还需要对所述目标图像进行图像预处理，在实施中主要对数据进行去噪、归一化操作；去噪采用高斯滤波的去噪方法，归一化即先计算出目标图片的像素均值和方差，再对每个像素做减均值除方差的操作。在根据训练所述特征神经网络得到的图像分辨率对所述目标图像的分辨率进行调整，在调整的过程中要保持所述目标图像的纵横比不发生改变，若出现未填充的部分则将未为填充的部分用灰度填充。

如图2所示，以X光图像为例，假设原始图像A的分辨率为1080*720,根据训练得到的图像分辨率为208*208，此时将原始图像A转换为分辨率为208*208的图像，在转换的过程中要保证图像中的物体不发生形变，因此要绑定原图的纵横比进行图像的转换，从分辨率为208*208的图像中可以看出缩小后的图像A并没有填充整个分辨率为208*208的图像,未被填充的部分就要用灰度填充，其中分辨率为208*208的图像中用斜线标注的区域为未被填充的区域。

在实施中，将目标图像输入到神经网络之前，进行去噪和/或归一化处理操作，可以减少光扫描成像过程中引入的噪点、光线的干扰；对目标图像的分辨率根据训练所述特征网络得到的分辨率进行调整，在调整的过程要绑定图像的纵横比，以最大程度的保证真实物体的长宽比，此时便于检测。

需要说明的是，在图像预处理过程中，任何一种可以减少光扫面成像过程中引入的噪点、光纤的干扰的操作都可以在本实施例中使用。

可选的，所述通过多个不同的特征神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像时，针对任意一个特征神经网络，在通过特征神经网络对所述目标图像中的物品特征进行提取时，依次通过每个特征层对输入的图像进行下采样处理；

根据每个特征层进行下采样处理得到的图像进行上采样和拼接处理。

其中，所述上采样处理是为了增大上一层特征图像的分辨率，所述拼接处理是把当前特征和上一层上采样之后的结果连接到一起，并接入1×1的卷积层来降低特征维度，从而提高神经网络处理速度。

在具体的实施过程中，以Yolo网络为例，对最后一层的特征图像进行上采样，采样后的结果和倒数第二层特征图像进行拼接处理，得到该层拼接后的特征图像；同理，再对该拼接后的特征图像上采样，采样后的结果和倒数第三层特征图像进行拼接处理，得到该层合并后的特征图像，作为Yolo网络最后特征层中的特征图像。

如图3所示，假设在Yolo网络中存在4个特征层，第一特征层中输入的为所述目标图像，此时第一特征层就会对所述目标图像进行下采样处理得到一个相比原特征图像分辨率低但特征明显的特征图像输入到第二特征层中，第二特征层会对输入的特征图像进行下采样处理得到一个相比上一层图像的分辨率低且特征明显的特征图像输入到第三层中，第三层对输入的特征图像进行下采样处理得到一个相比上一层图像的分辨率低且特征明显的特征图像输入到第四层中，第四层为Yolo网络的最后一层，对输入的特征图像进行下采样处理后输出神经网络；在进行上采样处理的时，是针对最后一层输出的特征图像进行的，在最后一层输出的特征图像经过上采样处理后与上一层中经过下采样处理的特征图像进行拼接处理，得到一个拼接的特征图像。

其中，所述下采样在本发明实施例中可以理解为神经网络对目标图像和/或进行下采样的到的特征图像进行2*2的最大池化操作，但是在进行神经网络对特征图像进行最大池化操作之前，还须使用BN(batch normalization，批量化)和非限制性单元(ReLu)对每个神经网络层进行激活。

其中，Yolo网络中使用的是darknet-19结构，兼顾了准确率和速度。在实施过程中，还可以采用SSD特征神经网络，其中SSD的baseline采用Resnet-12网络结构。

在实施中，特征神经网络在接收到所述目标图像后，就会对所述目标图像进行下采样处理，可以提取出目标图像中具有物体特征的图像，降低图像的分辨率，使图像中物品的特征更加明显，但是在下采样处理图像的过程中，会有部分特征的丢失，因此在每个特征层进行下采样处理后得到的图像上进行上采样处理，并将上采样处理后的图片与上一特征层的图像进行拼接，得到两图像特征融合后的图像，此时特征融合后的图像中就会包含有在上采样处理中丢失的特征。

可选的，所述根据每个特征层进行下采样处理得到的图像进行上采样和拼接处理时，针对任意一个非最上面的特征层，将所述非最上面的特征层的待处理图像进行上采样处理，得到与上一特征层下采样处理得到的图像相同分辨率的图像；

将所述非最上面的特征层进行上采样处理得到的图像和上一特征层下采样处理得到的图像进行拼接处理，并将得到的图像作为上一特征层的待处理图像；

其中，若所述非最上面的特征层为最下层，则所述非最上面的特征层的待处理图像是通过所述特征层进行下采样处理得到的图像。

其中，所述最上面的特征层中包含的是输入到特征神经网络中的所述目标图像，因此在进行上采样处理的时候不需要对所述目标图像进行上采样处理。

具体的，如图3所示，以神经网络中局部(4层)为例，将所述非最上面的特征层，第四特征层303进行上采样，此时，进行上采样时的待处理图像为通过所述特征层进行下采样处理得到的最后的特征图像，经过上采样处理得到第四层上采样处理得到的特征图像304，将第四层上采样处理得到的特征图像304与第三特征层302中的经过上一特征层下采样处理后得到的图像进行拼接，得到第一拼接后的特征图像305，其中，第四层上采样处理得到的特征图像304、第三特征层302中的经过上一特征层下采样处理得到的图像及第一拼接后的特征图像305具有相同的图像分辨率。再次进行上采样时，以得到的第一拼接后的特征图像305作为待处理的图像进行采样，得到第三层上采样处理得到的特征图像306，再将得到的第三层上采样处理得到的特征图像306与第二特征层301中的特征图像进行拼接后的第二拼接后的特征图像307。

在实施的过程中，进行上采样处理的到的特征图像可以存放在之前的特征层中如图4所示，还可以存放在一个新的特征层中，如图5所示：将第四层上采样处理得到的特征图像及第一拼接后的特征图像放在特征层A中，将第三层上采样处理得到的特征图像及第二拼接后的特征图像放在特征层B中。

在实施中，对任意一个非最上面的特征层中的待处理图像进行上采样处理，得到与上一特征层下采样处理得到的图像相同分辨率的图像，保证在与上一特征层下采样处理得到的特征图像进行拼接处理时可以顺利进行。

可选的，所述根据每个特征层进行下采样处理得到的图像进行上采样和拼接处理时，将最后进行拼接处理得到的图像作为所述特征神经网络输出的图像。

具体的，在神经网络中，神经网络中的每一个特征层都会对本特征层收到的特征图像进行下采样处理得到包含明显特征的特征图像，对下采样处理得到的特征图像在进行上采样提高特征图像的分辨率，以便更加清晰的分辨出所述特征图像中的物品，上采样处理得到的特征图像与上一特征层下采样处理得到的特征图像进行拼接处理，并将最后进行拼接处理后的图像作为神经网络输出的图像。

如图3所示，以局部为例(4个特征层)，最后进行拼接处理的图像是第三层上采样特到的图像特征图像，与上一特征层即第一特征层300下采样得到的特征图像即第二拼接后的特征图像307作为神经网络输出的图像。

在实施中，将最后拼接处理得到的图像作为网络提取特征过程中，神经网络最后输出的图像，所述拼接处理后的图像不仅包括进行下采样处理后特征明显的特征图像，还包括在进行下采样过程中丢失的特征图像，保证了输出图像中涵盖的特征图像对应的特征比较全面。

可选的，所述将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像时，若每个所述特征神经网络对应的特征图像的同一位置上存在差异的特征参数，根据同一位置上差异的特征参数和根据每个所述特征神经网络的参数确定的权值，确定同一位置上融合后的特征参数；

根据每个所述特征神经网络对应的特征图像中同一位置上不存在差异的特征参数以及同一位置上融合后的特征参数，得到融合图像。

具体的，每个神经网络在经过特征提取后都会输出一个特征图像，此时将每个神经网络中输出的特征图像进行特征融合，得到融合后的图像在进行处理，其中不同神经网络输出的特征图像会存在一定的差异，所述差异指的不同神经网络输出的图像中的下同位置会存在一定的特征图像差异，此时就会将不同神经网络中提取出的特征图像中在同一位置存在差异的特征图像进行融合，特征图像中存在差异的特征图像主要通过叠加的方式进行融合。

如图6所示，Yolo网络输出的特征图像600及SSD网络输出的特征图像601，其中两特征图像中同一位置存在差异的部分特征图像在图6中用斜线表示，特征图像中共同部分的特征图像用空白表示，两特征图像中同一位置存在差异的部分特征图像进行融合后在融合图像602中用A表示。

在实施中，每个特征神经网络都会输出一个特征图像，且每个特征神经网络输出的特征图像会存在一定的图像特征差异，将两个输出的特征图像融合在一起才可以更加全面保证最初输入的原始目标图像中的所对应的物品的特征图像在经过特征提取后不会有丢失。

可选的，根据下列方式对所述多个不同的特征神经网络进行同一物品不同尺度的训练：

根据用户设定的多个矩形框信息确定训练图像中对应位置的矩形框，其中每个矩形框信息对应一个物品；

对所述训练图像中对应位置的矩形框向所述矩形框中心进行收缩；

根据收缩后的矩形框及anchor(锚点)框进行识别训练。

具体的，在神经网络进行同一物品不同尺度的训练时每个矩形框信息对应一个某尺度下的同一物品，用户会根据物品在图中所占的位置来进行矩形框的标注如图7A和/或图7B中虚线框所示，但是标注的矩形框不会出现在图片中，而是以矩形框信息的方式配置在神经网络中，网络在接收到标注矩形框的信息时会根据矩形框的信息确定出矩形框在图形中的位置。

其中，矩形框信息可以为矩形框上的四个顶点，还可以为矩形框中斜对应的两定点和长宽的值。

其中，所述同一物品不同尺度为同样的物品在不同的光图像中有不同的分辨率，在整图1080*720的分辨率下，如图7A中电棒分辨率为200*50，7B中电棒分辨率为400*100。

其中，神经网络进行同一物品不同尺度训练时，使用的物品包括但不限于下列的部分或全部：

刀具(折叠刀、长刀、匕首等)、电棒、金属杆、容器(玻璃瓶、塑料瓶等)、伞、电子产品等。

其中，在对所述训练图像中对应位置的矩形框向矩形框中心进行收缩时，具体采用的收缩方式可以为，以X光图像为例，假设人工标注的矩形框R1的左上、右下两个顶点分别为P₁(X₁，Y₁),P2(X₂，Y₂),矩形框的高和宽分别为w,h表示。在网络确定人工的标注后会进行矩形框向中心收缩的操作，主要把P₁(X₁，Y₁),P2(X₂，Y₂)分别沿着水平、竖直方向向中心进行收缩，收缩到的矩形框R2的两定点坐标为P₁’(X₁’，Y₁’),P2’(X₂’，Y₂’)，具体的收缩大小如公式一所示:

公式一：X₁’＝X₁+0.2w

X₂’＝X₂-0.2w

Y₁’＝Y₁+0.2h

Y₂’＝Y₂-0.2h

需要说明的是，公式一中的0.2是通过对X光图像进行信息提取训练时，收缩比例对X光图像是效果最好的一个收缩比例。

具体的，在训练过程中还会根据收缩后的矩形框及anchor框对特征图像进行识别训练，以得到每个矩形框中对应的物品的特征参数。

在实施中，光图像的目标比较密集，目标边缘区域会在检测时对检测网络造成干扰，在训练过程中对物品对应的矩形框的区域向中间进行收缩，对目标图像中的数据作了关键信息的提取，不仅可以减少相邻目标之间粘连的部分，还可以减少边缘区域在检测时造成的干扰，可以准确识别出图像中的物品，根据anchor框可以快速的找到物品的位置。

可选的，所述anchor框根据用户设定的矩形框进行聚类得到的。

具体的，在训练过程中用到的anchor框，主要是根据人工标注的，针对同一物品不同尺度时的矩形框，进行聚类计算或/和数据拟合计算，来自适应的获取anchor框的个数和大小。

在训练过程中，通过anchor框可以准确快速的确定出图像中物体的位置。

下面以使用Yolo网络和SSD网络为例对本发明实施例物品检测的方案进行详细介绍，采用其他神经网络的方式与下面方式类似，在此不再赘述。

如图8所示，本发明实施例，预测物体类别和位置的方法步骤，包括：

步骤800，包裹进行光扫描，得到光扫描图像；

步骤801，光扫描图像进行预处理，对数据进行去噪、归一化操作；

步骤802，将预处理后的光图像根据训练所得到的图像分辨率，在保持所述目标图像纵横比不变的前提下，对所述光图像的分辨率进行调整；

步骤803，将进行分辨率调整后的光图像分别输入到Yolo网络和SSD网络；

步骤804，每个特征神经网络针对光图像提取特征图；

步骤805，将每个特征神经网络提取出的特征图进行特征融合，得到融合图像；

步骤806，根据训练时网络中预设的物品的特征参数与所述融合图像进行卷积计算；

步骤807，根据计算结果确定光图像中包括的物品及位置。

需要说明的是，本发明实施例适用于多种终端，如服务器、NVR(Network ViedoRecorder,网络硬盘录像机)+TX1(tegra x1芯片)、3559a芯片等，可以组合成一套完整的智能物品检测系统。

基于同一发明构思，本发明实施例中还提供了一种物品检测的设备，由于该设备对应的方法是本发明实施例物品检测的方法对应的设备，并且该设备解决问题的原理与该方法相似，因此该设备的实施可以参见方法的实施，重复之处不再赘述。

如图9所示，本发明实施例第一种物品检测的设备包括：

至少一个处理单元900以及至少一个存储单元901，其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元900执行时，使得所述处理单元900执行下列过程：

可选的，所述处理单元900还用于：

对所述目标图像进行去噪和/或归一化处理；和/或

根据训练所述特征神经网络得到的图像分辨率，在保持所述目标图像纵横比不变的前提下，对所述目标图像的分辨率进行调整。

可选的，所述处理单元900具体用于：

针对任意一个特征神经网络，在通过特征神经网络对所述目标图像中的物品特征进行提取时，依次通过每个特征层对输入的图像进行下采样处理；

可选的，所述处理单元900具体用于：

针对任意一个非最上面的特征层，将所述非最上面的特征层的待处理图像进行上采样处理，得到与上一特征层下采样处理得到的图像相同分辨率的图像；将所述非最上面的特征层进行上采样处理得到的图像和上一特征层下采样处理得到的图像进行拼接处理，并将得到的图像作为上一特征层的待处理图像；

可选的，所述处理单元900还用于：

将最后进行拼接处理得到的图像作为所述特征神经网络输出的图像。

可选的，所述处理单元900具体用于：

若每个所述特征神经网络对应的特征图像的同一位置上存在差异的特征参数，根据同一位置上差异的特征参数和根据每个所述特征神经网络的参数确定的权值，确定同一位置上融合后的特征参数；

可选的，所述设备还包括：训练模块，用于根据下列方式对所述多个不同的特征神经网络进行同一物品不同尺度的训练：

根据用户设定的多个矩形框信息确定训练图像中对应位置的矩形框，其中每个矩形框信息对应一个物品的一个尺度；对所述训练图像中对应位置的矩形框向所述矩形框中心进行收缩；根据收缩后的矩形框及anchor框进行识别训练。

如图10所示，本发明实施例第二种物品检测的设备包括：

提取模块1000，用于通过多个不同的特征神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，其中所述多个不同的特征神经网络经过同一物品不同尺度的训练；

融合模块1001，用于将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像；

确定模块1002，用于将预设的物品的特征参数与所述融合图像进行卷积操作，根据计算结果确定所述目标图像中包括的物品。

可选的，所述提取模块1000还用于：

对所述目标图像进行去噪和/或归一化处理；和/或

可选的，所述提取模块1000具体用于：

可选的，所述提取模块1000还用于：

可选的，所述融合模块1001具体用于：

可选的，如图11所示，该设备还包括训练模块1100，用于根据下列方式对所述多个不同的特征神经网络进行同一物品不同尺度的训练：

根据用户设定的多个矩形框信息确定训练图像中对应位置的矩形框，其中每个矩形框信息对应一个物品；对所述训练图像中对应位置的矩形框向所述矩形框中心进行收缩；根据收缩后的矩形框及anchor框进行识别训练。

以上参照示出根据本申请实施例的方法、装置(系统)和/或计算机程序产品的框图和/或流程图描述本申请。应理解，可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置，以产生机器，使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。

相应地，还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地，本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式，其具有在介质中实现的计算机可使用或计算机可读程序代码，以由指令执行系统来使用或结合指令执行系统而使用。在本申请上下文中，计算机可使用或计算机可读介质可以是任意介质，其可以包含、存储、通信、传输、或传送程序，以由指令执行系统、装置或设备使用，或结合指令执行系统、装置或设备使用。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种物品检测的方法，其特征在于，该方法包括：

将预设的物品的特征参数与所述融合图像进行卷积操作，根据计算结果确定所述目标图像中包括的物品；

其中，将目标图像分别输入到多个不同的特征神经网络之前，还包括：根据训练所述特征神经网络得到的图像分辨率，在保持所述目标图像纵横比不变的前提下，对所述目标图像的分辨率进行调整；

其中，所述将每个所述特征神经网络对应的特征图像进行特征融合，得到融合图像，包括：

2.如权利要求1所述的方法，其特征在于，所述将目标图像分别输入到多个不同的特征神经网络之前，还包括：

对所述目标图像进行去噪和/或归一化处理。

3.如权利要求1所述的方法，其特征在于，所述通过多个不同的特征神经网络，对目标图像中的物品特征进行提取，得到每个神经网络对应的特征图像，包括：

4.如权利要求3所述的方法，其特征在于，所述根据每个特征层进行下采样处理得到的图像进行上采样和拼接处理，包括：

针对任意一个非最上面的特征层，将所述非最上面的特征层的待处理图像进行上采样处理，得到与上一特征层下采样处理得到的图像相同分辨率的图像；

5.如权利要求4所述的方法，其特征在于，所述根据每个特征层进行下采样处理得到的图像进行上采样和拼接处理，还包括：

6.如权利要求1～5任一所述的方法，其特征在于，根据下列方式对所述多个不同的特征神经网络进行同一物品不同尺度的训练：

根据收缩后的矩形框及锚点anchor框进行识别训练。

7.如权利要求6所述的方法，其特征在于，所述anchor框根据用户设定的矩形框进行聚类得到的。

8.一种物品检测的设备，其特征在于，该设备包括：

其中，所述处理单元还用于：根据训练所述特征神经网络得到的图像分辨率，在保持所述目标图像纵横比不变的前提下，对所述目标图像的分辨率进行调整；

其中，所述处理单元具体用于：若每个所述特征神经网络对应的特征图像的同一位置上存在差异的特征参数，根据同一位置上差异的特征参数和根据每个所述特征神经网络的参数确定的权值，确定同一位置上融合后的特征参数；根据每个所述特征神经网络对应的特征图像中同一位置上不存在差异的特征参数以及同一位置上融合后的特征参数，得到融合图像。

9.如权利要求8所述的设备，其特征在于，所述处理单元还用于：

对所述目标图像进行去噪和/或归一化处理。

10.如权利要求8所述的设备，其特征在于，所述处理单元具体用于：

11.如权利要求10所述的设备，其特征在于，所述处理单元具体用于：

12.如权利要求11所述的设备，其特征在于，所述处理单元还用于：

13.如权利要求8～12任一所述的设备，其特征在于，所述设备还包括：

训练模块，用于根据下列方式对所述多个不同的特征神经网络进行同一物品不同尺度的训练：

根据用户设定的多个矩形框信息确定训练图像中对应位置的矩形框，其中每个矩形框信息对应一个物品的一个尺度；对所述训练图像中对应位置的矩形框向所述矩形框中心进行收缩；根据收缩后的矩形框及锚点anchor框进行识别训练。

14.如权利要求13所述的设备，其特征在于，所述anchor框根据用户设定的矩形框进行聚类得到的。

15.一种物品检测的设备，其特征在于，该设备包括：

确定模块，用于将预设的物品的特征参数与所述融合图像进行卷积操作，根据计算结果确定所述目标图像中包括的物品；

其中，所述提取模块还用于：根据训练所述特征神经网络得到的图像分辨率，在保持所述目标图像纵横比不变的前提下，对所述目标图像的分辨率进行调整；

其中，所述融合模块具体用于：若每个所述特征神经网络对应的特征图像的同一位置上存在差异的特征参数，根据同一位置上差异的特征参数和根据每个所述特征神经网络的参数确定的权值，确定同一位置上融合后的特征参数；根据每个所述特征神经网络对应的特征图像中同一位置上不存在差异的特征参数以及同一位置上融合后的特征参数，得到融合图像。