CN109948585A

CN109948585A - 一种基于高精度哈希图像检索技术的行人检测方法及系统

Info

Publication number: CN109948585A
Application number: CN201910247002.3A
Authority: CN
Inventors: 焦宏哲; 魏斯玮; 傅稼润; 王春枝; 严灵毓; 叶志伟
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-06-28

Abstract

本发明属于图像检索技术领域，公开了一种基于高精度哈希图像检索技术的行人检测方法及系统，对于提取的行人图像采用机器学习创建目标函数，进行目标最小化，得到临阶相似矩阵，再采用ILS算法进一步最小化目标函数，得到精确的哈希码；得到精确的哈希码后，采用端到端哈希深度学习方法学习哈希函数，并根据人工神经网络ANN的隐藏层中不同节点的不同权重对输入进行调整；在CNNs后，选择单隐藏层MLP学习hash标签；最后生成的训练函数本发明减少了识别误差与语义损失，提高了对象搜索的准确性和全面性；利用高精度的哈希图像检索算法提高了识别准确率以及识别速率。

Description

一种基于高精度哈希图像检索技术的行人检测方法及系统

技术领域

本发明属于图像检索技术领域，尤其涉及一种基于高精度哈希图像检索技术的行人检测方法及系统。

背景技术

目前，最接近的现有技术：

基于区域提案的神经网络是一种将区域建议和卷积神经网络相结合的目标检测算法，比如RCNN，SPP-net，Fast，RCNN，FasterRCNN，RFCN等，通常采用区域选择或者区域提案网络获取感兴区域，然后在每个提案区域上使用卷积神经网路做分类得到分类类别和置信度。这种提案方法大大提升了行人检测精度，但是检测速度有待提升，较难满足行人检测中的高效率检测要求。

端到端的深度学习行人检测采用使用单通道网络架构，比如YOLO，SSD， YOLOv2[3】等，将行人定位和行人识别统一，一次性输出行人的位置信息和行人的置信度，这样大大提升的网络的执行效率，但是检精度较低有待提升。

所以现阶段行人检测的所采用的深度学习网络总是之具备其中一种特性，要么速度快但是精度较低，要么精度高但是速度太慢。本发明采用了深度学习领域新型算法HPSLH,意图同时解决两种问题。

综上所述，现有技术存在的问题是：

(1)现阶段行人检测的所采用的深度学习网络总是只具备其中一种特性，要么速度快但是精度较低，要么精度高但是速度太慢，使得如果现有检测系统采用其中一种网络，如采用速度快但精度低的网络，在日后的改进中就无法具备高精度的优点，反之亦然，这使得行人检测系统必然存在无法改进的缺陷这。

(2)现有行人检测技术难以相互贯通。由第一点看到由于不同的神经网络特性并不相同，所以很难将不同的网络体系结合在一起，也就意味着行人监测系统难以相互融合各自的优点进而得到改进。

解决上述技术问题的难度：

现有行人检测的难点有：

外观差异大。包括视角，姿态，服饰和附着物，光照，成像距离等。从不同的角度看过去，行人的外观是很不一样的。处于不同姿态的行人，外观差异也很大。由于人穿的衣服不同，以及打伞、戴帽子、戴围巾、提行李等附着物的影响，外观差异也非常大。光照的差异也导致了一些困难。远距离的人体和近距离的人体，在外观上差别也非常大。

检测速度。行人检测一般采用了复杂的模型，运算量相当大，要达到实时非常困难，一般需要大量的优化。

检测精度较低。就算可以获取清晰的图像，也可能得到低精度的检测结果。

难以融合不同算法的优点。由于网络架构千奇百怪，所以很难将两种不同的网络架构结合在一起，很难融合不同算法的优点。

由于HPSLH算法相对于其他算法来说，其作为检索标签所应用的哈希码更为精准，针对细节的识别更为准确。由于行人检测中人的外观差异巨大，所以更需要细节方面的把握。由此可以解决最主要的问题。并且此算法应用预创建标签库的方法，所以检测速度方面也有相应提高。

解决上述技术问题的意义：

由此，采用HPSLH可以解决以上行人检测领域的传统难题。

采用预生成标签的方式，杜绝外观差异大的影响。

运用将两种端到端的深度学习算法结合在一起，创建混成网络的方式，解决了传统行人检测领域中高检测精度与快检测速度无法共存的问题。

由于本算法中所创建的检测标签更为精细，由此可以解决检测精度较低的问题。

由于本发明在图像检索领域为前沿高精度算法，精度问题可以解决。本算法采取从零打造神经网络架构的方式，从零结合两个领域，不存在融合的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种基于高精度哈希图像检索技术的行人检测方法及系统。本发明采用了深度学习领域新型算法HPSLH,同时解决了现有技术存在的两种问题。

本发明是这样实现的，高精度图像检索算法(HPSLH,High precision self-learning hashingfor Image Retrieval)是一种基于深度学习的图像检索算法，本发明提供了一种基于高精度哈希图像检索技术的行人检测方法分为两个部分，第一部分为哈希码创建部分，第二部分为端到端的哈希深度学习来学习哈希函数，进而利用函数完成检测。在第一步，首先对于所提取的行人图像，采用机器学习创建目标函数，将其目标最小化，得到临阶相似矩阵，之后采用ILS算法进一步最小化目标函数，进而得到精确的哈希码。

得到精确的哈希码之后，本发明采用一种端到端哈希深度学习来学习哈希函数，本发明采用的是一种人工神经网络(ANN)，由输入层、隐藏层和输出层组成。它可以根据隐藏层中不同节点的不同权重对输入进行调整。在CNNs之后，选择单隐藏层MLP来学习hash标签。最后生成的函数可表示为：本函数F(X)表示输出一个mxd矩阵,m是批量的样本数量，d是最后一个全连接层的输出数量，x 是输出向量，y是对应的标签。则生成的训练函数可表示为

基于以上方法，本发明得出了一个区域式网络与端到端相结合的神将网络架构，将其用于行人检测领域中，便可解决现有技术存在的两种问题。

进一步，所述基于高精度哈希图像检索技术的行人检测方法具体包括：

第一步，获取目标图像；

第二步，创建临阶相似矩阵；

第三步，将生成的矩阵带入ISL算法得到对应的哈希码标签；

第四步，将所生成的哈希码标签带入Ann网络进项多次迭代学习，进而得到最终的检测结果。

进一步，第一步中，采用深层的CNN网络结构获取图像的特征；在图片经过深层次的神经网络捕捉特征后，对获取的特征进行数据格式上的规范化处理，使特征的数据格式完全符合哈希码创建公式：

其中N为输入特征向量的临近集合，S为创建的临近相似矩阵，C为偏置参数；I为单位矩阵。

进一步，第二步中，建立n×n相似矩阵S，两个二进制码hi和hj之间的汉明距离由hi和hj之间不同的比特数给出；将加权平均汉明距离最小化，表示语义损失，得到符合相似矩阵S计算公式的哈希码。

进一步，得到符合相似矩阵S计算公式的哈希码中，训练特征为：X＝[x₁, x₂,...,x_n]∈R^p×n,训练特征为前面环节所输入的视觉特征，R为参数矩阵，n为训练图像的个数，p为特征的维数，设哈希码为H＝[h₁,h₂,..., h_n]^T∈{1,-1}^n×c，c是哈希码的长度，n为图片的数量；

其中N_k(x)表示特征向量x的近邻集合；通过相似矩阵S判断特征是否所输入参数是否属于临近特征集合。

进一步，第三步中，哈希函数表示为：

哈希函数为最终哈希码H的计算公式，选取(N-S+φC)的最小非零特征值作为H的数值；其中N为输入特征向量的临近集合，S为创建的临近相似矩阵， C为偏置参数；I为单位矩阵。

进一步，第四步中，采用MLP算法的端到端的深度学习算法学习哈希函数； MLP包括一个输入层，一个输出层和若干个隐藏层；根据隐藏层中不同节点的不同权重对输入进行调整；CNNs后，选择单隐藏层型的MLP学习哈希码标签，在多输出条件下构建ANN的端到端的哈希函数深度学习模型。

本发明的另一目的在于提供一种实施所述的基于高精度哈希图像检索技术的行人检测方法的道路交通行人图像检索检测终端。

本发明的另一目的在于提供一种基于高精度哈希图像检索方法的行人检测控制系统。

综上所述，本发明的优点及积极效果为：

由于行人检测中识别的基础表示是身形等相对于一般图片精度要求更高的要素，所以在行人检测领域，提高识别要素的精度一直是研究工作者所追求的目标。本发明目标在于利用一种基于高精度哈希算法(HPSLH)其识别精度相对较高的特点，减少了识别误差与语义损失，提高了对象搜索的准确性和全面性，并提高了行人检测的搜索效率。

本发明使用高精度的哈希图像检索算法进行行人检测的方法首次提出。利用高精度的哈希图像检索算法提高了识别准确率以及识别速率。

附图说明

图1是本发明实施例提供的基于高精度哈希图像检索技术的行人检测方法流程图。

图2是本发明实施例提供的带入5w张左右图片集的实验结果图。

图3是本发明实施例提供的实验和训练时间图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现阶段行人检测的所采用的深度学习网络总是之具备其中一种特性，要么速度快但是精度较低，要么精度高但是速度太慢。

为解决上述技术问题，下面结合具体方案对本发明作详细描述。

如图1所示，本发明实施例提供的基于高精度哈希图像检索技术的行人检测方法包括：

第一步：获取目标图像。

第二步：创建临阶相似矩阵。

第三步：将生成的矩阵带入ISL算法得到对应的哈希码标签。

第四步：将所生成的哈希码标签带入Ann网络进项多次迭代学习，进而得到最终的检测结果。

本发明提供一种基于高精度哈希图像检索方法的行人检测控制系统。

下面结合具体实施例对本发明作进一步描述。

实施例：

本发明实施例提供的基于高精度哈希图像检索技术的行人检测方法分为两部分，首先在第一部分本发明利用上述的第一种算法来创建哈希码。

在第一阶段，可分为以下两个步骤：

步骤一：在主要功能为哈希码创建的第一阶段，本发明首先采用深层的CNN 网络结构来获取图像的特征。通过深层次的CNN获取的特征，本发明可以保证特征的准确性与详细程度。

步骤二：在图片经过深层次的神经网络捕捉特征后，本发明采用数学公式 (数学公式具体针对调整所捕捉的特征的格式，视特征而定，并不存在定式)，对获取的特征进行数据格式上的规范化处理，使特征的数据格式(也视商品信息情况而定，无定式)能够完全符合本发明接下来的哈希码创建公式，否则输入为统一规范化的数据，会使该数据无法被使用。接下来本发明建立一个n×n 相似矩阵S，两个二进制码hi和hj之间的汉明距离(对应于特征xi和xj)是由它们之间不同的比特数给出的。本发明寻求将加权平均汉明距离最小化，表示语义损失，使结果更加精确。在此之后，本发明得到的是精确详细又符合本发明计算公式的哈希码，所采用的哈希函数:

训练特征为：X＝[x₁,x₂,...,x_n]∈R^p×n,训练特征为前面环节所输入的视觉特征，(R为参数矩阵，n为训练图像的个数，p为特征的维数)，设哈希码为H＝[h₁,h₂,...,h_n]^T∈{1,-1}^n×c(c是哈希码的长度，n为图片的数量).

本发明创建相似矩阵矩阵S。其中Nk(x)表示特征向量x的近邻集合。

以上公式为判断特征是否所输入参数是否属于临近特征集合，创建临近相似矩阵进行之后的优化可保证哈希码的识别性。

最终哈希函数可表示为：

以上哈希函数为最终哈希码H的计算公式，其含义选取(N-S+φC)的最小非零特征值作为H的数值。其中N为输入特征向量的临近集合，S为创建的临近相似矩阵，C为偏置参数。I为单位矩阵。

本发明在第一阶段采用了相对深层次的网络结构，这保证了本发明所创建的哈希码的准确性，但是在下一个阶段，本发明则采用了相对较为简单的网络结构。

在第二阶段，本发明主要是实现了一种端到端的深度学习算法来学习哈希函数。首先，导入在哈希标签生成阶段获得的哈希码标签。在此之后，本发明采用MLP算法来学习哈希函数。MLP包括一个输入层，一个输出层和若干个隐含层。对于MLP，本发明可以用Backprop(backward propagation oferrors，误差的反向传播，简称BP)算法实现它的建模，由于采用了相对较为简单的网络结构，该算法具有结构简单、易于实现等特点。本发明采用的是一种人工神经网络(ANN)，由输入层、隐藏层和输出层组成。它可以根据隐藏层中不同节点的不同权重对输入进行调整。在CNNs之后，本发明选择单隐藏层型的MLP来学习哈希码标签的原因是CNNs也是MLP的一种转换模型。因此，本发明可以在多输出条件下构建ANN的端到端的深度学习模型。

对于本阶段学习过程的函数：

输出为一个mxd矩阵,m是批量的样本数量，d是最后一个全连接层的输出数量，x是输出向量，y是对应的标签。

下面结合实验对本发明作进一步描述。

如图2所示，为本发明的检测方法带入5w张左右图片集的实验结果，其图片种类包括人，狗，猫等12中不同的类型。实验结果表明，在256次迭代之后，准确率达到最高，大概为百分比98.3。

其实验和训练时间如图3所示，可以看到其单次识别时间仅为0.0035秒，完全可以满足行人检测要求中实时检测这一条。

由此，可以得出本算法具有以上所述优点的结论。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高精度哈希图像检索技术的行人检测方法，其特征在于，所述基于高精度哈希图像检索技术的行人检测方法包括：

对于提取的行人图像采用机器学习创建目标函数，进行目标最小化，得到临阶相似矩阵，再采用ILS算法进一步最小化目标函数，得到精确的哈希码；

得到精确的哈希码后，采用端到端哈希深度学习方法学习哈希函数，根据人工神经网络ANN的隐藏层中不同节点的不同权重对输入进行调整；并进行CNNs后，选择单隐藏层MLP学习hash标签；最后生成训练函数：

表示输出为一个mxd矩阵,m是批量的样本数量，d是最后一个全连接层的输出数量，x是输出向量，y是对应的标签。

2.如权利要求1所述的基于高精度哈希图像检索技术的行人检测方法，其特征在于，所述基于高精度哈希图像检索技术的行人检测方法具体包括：

第一步，获取目标图像；

第二步，创建临阶相似矩阵；

第三步，将生成的矩阵带入ISL算法得到对应的哈希码标签；

第四步，将所生成的哈希码标签带入Ann网络进项多次迭代学习，得到最终的检测结果。

3.如权利要求2所述的基于高精度哈希图像检索技术的行人检测方法，其特征在于，第一步中，采用深层的CNN网络结构获取图像的特征；在图片经过深层次的神经网络捕捉特征后，对获取的特征进行数据格式上的规范化处理，使特征的数据格式完全符合哈希码创建公式：

S.t.HH^T＝I

4.如权利要求2所述的基于高精度哈希图像检索技术的行人检测方法，其特征在于，第二步中，建立n×n相似矩阵S，两个二进制码hi和hj之间的汉明距离由hi和hj之间不同的比特数给出；将加权平均汉明距离最小化，表示语义损失，得到符合相似矩阵S计算公式的哈希码。

5.如权利要求4所述的基于高精度哈希图像检索技术的行人检测方法，其特征在于，得到符合相似矩阵S计算公式的哈希码中，训练特征为：X＝[x₁,x₂,...,x_n]∈R^p×n,训练特征为前面环节所输入的视觉特征，R为参数矩阵，n为训练图像的个数，p为特征的维数，设哈希码为H＝[h₁,h₂,...,h_n]^T∈{1,-1}^n×c，c是哈希码的长度，n为图片的数量；

6.如权利要求4所述的基于高精度哈希图像检索技术的行人检测方法，其特征在于，第三步中，哈希函数表示为：

哈希函数为最终哈希码H的计算公式，选取(N-S+φC)的最小非零特征值作为H的数值；其中N为输入特征向量的临近集合，S为创建的临近相似矩阵，C为偏置参数；I为单位矩阵。

7.如权利要求2所述的基于高精度哈希图像检索技术的行人检测方法，其特征在于，第四步中，采用MLP算法的端到端的深度学习算法学习哈希函数；MLP包括一个输入层，一个输出层和若干个隐藏层；根据隐藏层中不同节点的不同权重对输入进行调整；进行CNNs后，选择单隐藏层型的MLP学习哈希码标签，在多输出条件下构建ANN的端到端的哈希函数深度学习模型。

8.一种实施权利要求1所述的基于高精度哈希图像检索技术的行人检测方法的基于高精度哈希图像检索技术的行人检测控制系统。

9.一种实施权利要求1所述的基于高精度哈希图像检索技术的行人检测方法的道路交通行人图像检索检测终端。