CN110163910B

CN110163910B - 物体对象定位方法、装置、计算机设备和存储介质

Info

Publication number: CN110163910B
Application number: CN201910222521.4A
Authority: CN
Inventors: 姜媚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2021-09-28
Anticipated expiration: 2039-03-22
Also published as: CN110163910A

Abstract

本申请涉及一种物体对象定位方法、装置、计算机设备和存储介质，获取待处理图像；提取所述待处理图像的图像特征；基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率；所述区域概率包括所述像素点属于对象区域的概率；根据所述像素点的所述区域概率，分别确定各所述像素点的所属区域；对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。如此，通过像素级的分类解决物体对象的定位问题，能够提高物体对象定位的准确性。同时，具有较强的泛化性和鲁棒性。

Description

物体对象定位方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种物体对象定位方法、装置、计算机设备和存储介质。

背景技术

物体对象定位在图像处理技术领域具有十分重要的作用。通过对待处理图像中的目标物体对象进行定位，可以进一步获取目标物体对象的图像信息。这对减少人工成本，提高作业处理效率具有不可替代的作用。

传统的物体对象定位方法，通过边缘检测的方式检测待处理图像中目标物体对象的边缘，对目标物体对象进行定位。但基于边缘检测的物体对象定位方法，对于边缘模糊或背景复杂的情况下，物体对象定位的准确性急剧下降。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高准确性的物体对象定位方法、装置、计算机设备和存储介质。

一种物体对象定位方法，所述方法包括：

获取待处理图像；

提取所述待处理图像的图像特征；

基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率；所述区域概率包括所述像素点属于对象区域的概率；

根据所述像素点的所述区域概率，分别确定各所述像素点的所属区域；

对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

一种物体对象定位装置，所述装置包括：

待处理图像获取模块，用于获取待处理图像；

图像特征提取模块，用于提取所述待处理图像的图像特征；

像素分类映射模块，用于基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率；所述区域概率包括所述像素点属于对象区域的概率；

像素区域划分模块，用于根据所述像素点的所述区域概率，分别确定各所述像素点的所属区域；

对象区域确定模块，用于对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理图像；

提取所述待处理图像的图像特征；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理图像；

提取所述待处理图像的图像特征；

上述物体对象定位方法、装置、计算机设备和存储介质，对待处理图像中的每个像素点进行预设分类映射，得到该像素点的区域概率，进而根据该区域概率确定该像素点的所属区域，最后将对所属区域为对象区域的像素点进行连通域提取，确定整个对象区域。如此，通过像素级的分类解决物体对象的定位问题，能够提高物体对象定位的准确性。同时，具有较强的泛化性和鲁棒性。

附图说明

图1为一个实施例中物体对象定位方法的应用环境图示意图；

图2为一个实施例中物体对象定位方法的流程示意图；

图3为一具体实施例中的物体对象定位方法的残差网络结构示意图；

图4为一具体实施例中的物体对象定位方法的神经网络模型结构示意图；

图5为一具体实施例中的物体对象定位方法的训练图像示例图；

图6a、6b为一具体实施例中的物体对象定位方法的示例效果图；

图7为一个具体实施例中的物体对象定位方法的神经网络模型结构示意图；

图8a、8b、8c、8d、8e为一个具体实施例中的物体对象定位方法的示例效果图；

图9a、9b、9c、9d为一个具体实施例中的物体对象定位方法的物体对象摆放示例图；

图10为一个实施例中物体对象定位装置的结构框图；

图11为一个实施例中计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中物体对象定位方法的应用环境图示意图。本申请提供的物体对象定位方法，可应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。本申请一个实施例的物体对象定位方法可以运行在服务器104上。终端102可通过网络发送待处理图像至服务器104。服务器104获取待处理图像；提取待处理图像的图像特征；基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率；区域概率包括像素点属于对象区域的概率；根据像素点的区域概率，分别确定各像素点的所属区域；对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。其中，终端102可以是台式设备或者移动终端，如台式电脑、平板电脑、智能手机等。服务器104可以是独立的物理服务器、物理服务器集群或者虚拟服务器。

在另一个实施例中，本申请的物体对象定位方法可以运行在终端102上。终端102获取待处理图像；提取待处理图像的图像特征；基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率；区域概率包括像素点属于对象区域的概率；根据像素点的区域概率，分别确定各像素点的所属区域；对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。

如图2所示，在一个实施例中，提供了一种物体对象定位方法。该方法可以运行于图1中的服务器104或终端102。该物体对象定位方法，包括以下步骤：

S202，获取待处理图像。

待处理图像可以是任意格式的图像。待处理图像中可以包括物体对象，也可以不包括物体对象。

当本方法运行在服务器上时，获取待处理图像的方式可以是接收终端发送的待处理图像；也可以是将接收到的待处理图像存储在预先设置的存储位置，在对物体对象进行定位时，从该预先设置的存储位置处，获取到待处理图像。

当本方法运行在终端时，获取待处理图像的方式可以是，通过用户在本地图片中选择的方式确定待处理图像。获取待处理图像的方式也可以是，接收其他设备发送的待处理图像，该其他设备可以是其他终端，也可以是服务器。获取待处理图像的方式还可以是，调用图像获取装置实时获取待处理图像，该图像获取装置可以为摄像头。

S204，提取待处理图像的图像特征。

在获取到待处理图像之后，对待处理图像进行图像特征提取，得到待处理图像的图像特征。可以通过图像特征提取算法提取待处理图像的图像特征，也可以通过神经网络模型提取待处理图像的网络特征。

S206，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率。区域概率包括像素点属于对象区域的概率。

预设分类映射可以通过神经网络模型实现，该神经网络模型的输入可以为图像特征。该神经网络模型的输入也可以是待处理图像，在该神经网络模型中对待处理图像进行特征提取，然后再对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率。

区域概率是指对应的像素点属于某个区域的概率，如可以包括像素点属于对象区域的概率，又如，还可以包括像素点属于背景区域的概率。其中，对象区域是指，在待处理图像中物体对象所属的区域。背景区域是指在待处理图像中非物体对象所属的区域，也即背景所属的区域。

S208，根据像素点的区域概率，分别确定各像素点的所属区域。

可以将属于对象区域的概率大于或等于预设值的像素点，确定其所属区域为对象区域；将属于对象区域的概率小于预设值的像素点，确定其所属区域为背景区域。其中，预设值可以设置为50％。

还可以将属于对象区域的概率大于或等于属于背景区域的概率的像素点，确定其区域为对象区域；将属于对象区域的概率小于属于背景区域的概率的像素点，确定其所属区域为背景区域。

S210，对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。

连通域提取是指将相互连通的属于对象区域的像素点提取出来，得到待处理图像中的对象区域。从而，定位到待处理图像中的物体对象。

基于本实施例的物体对象定位方法，对待处理图像中的每个像素点进行预设分类映射，得到该像素点的区域概率，进而根据该区域概率确定该像素点的所属区域，最后将对所属区域为对象区域的像素点进行连通域提取，确定整个对象区域。如此，通过像素级的分类解决物体对象的定位问题，能够提高物体对象定位的准确性。同时，具有较强的泛化性和鲁棒性。

在其中一实施例中，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率，包括：将图像特征输入训练好的全卷积神经网络模型进行卷积和池化处理，得到卷积结果；结合全卷积神经网络模型的池化层的卷积结果及池化层的输入，确定池化层对应的融合结果；基于各池化层对应的融合结果，确定各像素点的区域概率。

通过全卷积神经网络对基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率。由于全卷积神经网络不含全连接层(fullyconnection)，可适应任意尺寸的输入。该全卷积神经网络包括至少三个池化层，每个池化层对输入数据进行卷积和池化处理得到卷积结果。

结合全卷积神经网络模型的池化层的卷积结果及池化层的输入，确定融合结果。也即，结合一池化层的卷积结果及该池化层上一池化层的卷积结果，确定融合结果。如此通过跳层(skip layer)结构结合不同深度但分辨率相同的层结果，保证全卷积神经网络同时捕捉低层和高层的图像特征信息，提升全卷积神经网络的鲁棒性和精确性。从而，提高物体对象定位的鲁棒性和准确性。

该全卷积神经网络还可以包括残差网络结构(Residual Network,简写为resnet)。可以通过该残差网络结合全卷积神经网络模型的池化层的卷积结果及池化层的输入，确定融合结果。该融合结果可以是基于该池化层的输入与该池化层对应的卷积结果进行逐项相加的结果。如此，通过跨层的方式学习网络损失的残差，可以避免全卷积神经网络深度增加带来的梯度消失，从而，提高物体对象定位的准确性。同时还能使全卷积神经网络的训练更容易收敛。在其中一具体实施例中，残差网络结构如图3所示，假设池化层的输入为x，池化层基于映射规则及权重进行映射得到的卷积结果为F(x)，将输入和卷积结果进行融合，得到的融合结果，该融合结果可以表示为F(x)+x。

在其中一实施例中，结合全卷积神经网络模型的池化层的卷积结果及池化层的输入，确定池化层对应的融合结果，还包括：对全卷积神经网络模型的池化层的下一池化层对应的融合结果进行上采样，得到下一池化层对应的采样结果；将下一池化层对应的采样结果与池化层对应的上一池化层卷积结果进行融合，确定池化层对应的融合结果。

对于中间的池化层，需要对其下一池化层对应的融合结果进行上采样，得到采样结果，如此，可以使得该采样结果与该池化层的上一池化层的卷积结果分辨率保持一致，也即使得该采样结果与该池化层对应的输入分辨率保持一致，如此，方便对池化层的输入及卷积结果进行融合。

可以通过能够增加数据尺寸的反卷积层(deconvolution)来实现，对全卷积神经网络模型的池化层的下一池化层对应的融合结果进行上采样。如此，可以使得采样结果更为精确，进而使得融合结果更为精确。从而，提升基于各池化层对应的融合结果，确定的各像素点的区域概率的准确性，提高物体对象定位的准确性。

在其中一具体实施例中，如图4所示，将第五池化层对应的卷积结果与第四池化层对应的卷积结果，也即第五池化层的输入，进行融合得到第五池化层对应的融合结果。

然后，对第四池化层的下一池化层对应的融合结果，进行上采样得到该第五池化层对应的采样结果。也即对第五池化对应的融合结果，进行上采样得到该第五池化层对应的采样结果。将对第四池化层的下一池化层对应的采样结果与第四池化层对应的上一池化层的卷积结果进行融合，确定第四池化层的融合结果。也即对该第五池化层对应的采样结果与第三池化层的卷积结果进行融合，确定第四池化层的融合结果。也即对该第四池化层的下一池化层的采样结果与该第四池化层的输入进行融合，确定第四池化层对应的融合结果。

继而，将第四池化层对应的融合结果进行上采样，得到第四池化层对应的采样结果。将第四池化层的采样结果与第三池化层的上一池化层的卷积结果进行融合，确定第三池化层对应的融合结果。

最后，将第三池化层对应的融合结果进行上采样，得到第三池化层对应的采样结果。将第三池化层的采样结果与第二池化层的上一池化层的卷积结果进行融合，确定第二池化层对应的融合结果。将该第二池化层对应的融合结果作为输出结果，也即各像素点的区域概率。

在其中一实施例中，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率，通过神经网络模型实现；在神经网络模型的训练过程中，采用类间均衡损失函数确定损失函数值。

神经网络模型可以是全卷积神经网络，还可以是UNet(U型网络)。神经网络模型的主体单元可以根据对定位精度和预测速度的要求进行替换，如densenet(DenseConvolutional Network，密集卷积网络)、shufflenet(拖拽网络)、mobilenet(移动网络)等。

对于神经网络模型中的像素分类任务，也即基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率的步骤：其采用的损失函数是类间均衡损失函数。类间均衡损失函数是指使得不同分类结果均衡的损失函数。如，可以采用类均衡的交叉熵损失函数，还可以采用类均衡的Focal(焦点)损失函数等。

由于在一张待处理图像中，属于对象区域的像素个数与属于背景区域的像素个数数值差别可能较大。为了保证不同分类的样本均衡，可以在传统的交叉熵损失上为每个类引入权重，该权重与该类的像素数目呈反比，从而保证每个像素对网络训练的贡献一致。如此，可以提高神经网络模型的准确性，提高物体对象定位的准确性。

在其中一具体实施例中，损失函数采用类间均衡的交叉熵损失来定义(Instance-Balanced Cross-Entropy Loss)。损失函数可以表示为：L_pixel＝W*L_pixel-CE,其中，L_pixel-CE表示交叉熵；W表示像素点对应的权重。进一步地，可以通过对训练样本进行离线统计，计算得到属于证件区域和背景区域的像素数比值，得到相应的权重。如此，可以保证每个像素对网络训练的贡献一致，提高神经网络模型的准确性，从而提高物体对象定位的准确性。

在其中一具体实施例中，该神经网络模型为CNN(Convolutional NeuralNetwork，卷积神经网络)模型。该物体对象为证件对象。如图5所示，在对神经网络模型进行训练时，训练样本包括训练图像及该训练图像对应的标签。该标签可以通过与训练图像分辨率相同的图像来表示。训练图像对应的每个像素点均存在一个对应的标签值。该标签值可以为0或1，当该像素点属于对象区域时，如当该像素点属于证件区域时，其标签值为1；当该像素点属于背景区域时，其标签值为0。当训练图像的分辨率为H*W时，该神经网络的输出可以是2*H*W的分割图，而该神经网络的分割过程相当于学习对每个像素的分类，其中每个像素的值表明该像素点的类别。

在其中一实施例中，区域概率包括第一区域概率及第二区域概率；第一区域概率为像素点属于对象区域的概率，第二区域概率为像素点属于背景区域的概率。

在本实施例中，每个像素点的区域概率包括两个概率。一个为第一区域概率，表示该像素点属于对象区域的概率；另一个为第二区域概率，表示该像素点属于背景区域的概率。可通过两个通道的方式来存储两个概率，其中第一个通道记录第一区域概率，第二个通道记录第二区域概率。如，可以通过像素分割图的方式体现待处理图像的每个像素点的区域概率。该像素分割图可以为两通道的特征图。该像素图中每个像素点在每个通道的数值范围均为0到1。在其中一具体实施例中，该特征图的高(可以用H表示)和宽(可以用W表示)可以是待处理图像的1/4。

可以通过第一区域概率与第二区域概率的大小来确定，像素点所属的区域。如，当一个像素点的第一区域概率大于第二区域概率时，可以确定该像素点属于对象区域。当一个像素点的第二区域概率大于第一区域概率时，可以确定该像素点属于背景区域。具体如，在特征图中可以将第二个通道上的第二区域概率大于第一通道上的第一区域概率的像素点的值记为255，表示该像素点为背景区域。

相较于仅包括一种区域概率的实施方式，基于本实施例中包括两种区域概率的实施方式，由于分别确定一个像素点属于对象区域的概率和属于背景区域的概率，因此，其具有更高的准确性。从而，基于本实施例的物体对象定位方法，能够进一步提高物体对象定位的准确性。

更进一步地，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率，包括：基于图像特征对待处理图像的每个像素点进行第一预设分类映射，得到各像素点的第一区域概率；基于图像特征对待处理图像的每个像素点进行第二预设分类映射，得到各像素点的第二区域概率。

为了进一步提高像素分类的准确性，在本实施例中，通过两个分类映射：第一预设分类映射和第二预设分类映射，分别确定第一区域概率和第二区域概率。第一预设分类映射和第二预设分类映射可以通过一个神经网络的两个不同模块实现，也可以通过两个不同的神经网络实现。

由于通过两个不同的分类映射，分别得到第一区域概率和第二区域概率，两个预设分类映射互不影响，因此，可能进一步提高对于像素点的分类结果的准确性，从而可以进一步提高物体对象定位的准确性。

在其中一实施例中，物体对象为证件对象。证件对象包括银行卡、公交卡、地铁卡、身份证等各种存储有身份信息的证件。由于证件对象的定位对于进一步捕获证件信息具有十分重要的意义。因此，对于证件对象的准确定位，具有不可替代的意义。然而证件对象具有一定的特殊性，如对于银行卡等证件，往往卡面颜色丰富、内容多变、版式不固定，因此传统方式的证件对象定位方法的准确性差。

基于本实施例的物体对象定位方法，由于物体对象为证件对象，采用像素级的像素分类方式，得到每个像素点的区域概率，进而根据该区域概率确定该像素点的所属区域，最后将对所属区域为对象区域的像素点进行连通域提取，确定整个对象区域。如此，通过像素级的分类解决物体对象的定位问题，能够提高证件对象定位的准确性。同时，具有较强的泛化性和鲁棒性。

在其中一具体示例中，在提取待处理图像的图像特征，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率，根据像素点的区域概率，分别确定各像素点的所属区域，可以得到与图6a类似的效果，对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域之后，可将该对象区域通过提取的方式抠取出来，进行放射变换等操作，得到图6b类似效果的证件对象图像，方便后续对证件对象的字符识别等处理流程。

在其中一实施例中，对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域，包括：根据图像特征确定待处理图像的图像类型；基于图像类型对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。

在本实施中，在获取到待处理图像之后，还需要对该待处理图像进行分类，确定图像类型。该图像类型可以根据物体对象的类型来划分。如可以为证件对象图像、非证件对象图像。又如其他类别的物体对象，可以分为物体对象图像和非物体对象图像。可以结合该图像类型对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。如，在对所属区域为对象区域的各像素点进行连通域提取时，结合物体对象的基本形状，确定待处理图像中的对象区域。具体如，若物体对象为证件对象时，当图像类型为证件对象图像，则结合证件对象一般为具有四个顶点的矩形，对所属区域为对象区域的各像素点进行连通区域提取，确定待处理图像中的对象区域。

基于图像类型对所属区域为对象区域的各像素点进行连通域提取，确定待处理对象中的对象区域的实施方式，结合图像类型确定待处理对象中的对象区域，能够提高对象区域的确定的准确性，从而可以进一步提高物体对象定位的准确性。

在其中一具体实施例中，如图7所示，采用多任务框架同时进行待处理图像的类型判断和像素级分类。即，在神经网络模型中，通过一个任务根据图像特征确定待处理图像的图像类型，通过另一个任务，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率。如此，对于一张输入神经网络模型的待处理图像，通过该神经网络模型进行图像特征提取，并在神经网络的末端产生两类输出结果：一是，待处理图像的图像类型，如该图像类型可以是证件对象图像或者非证件对象图像，可以是通过一个1*2大小的概率向量体现；二是，各像素点的区域概率。

在该具体实施例中，神经网络模型中的损失包括两个部分，分别为用于判断待处理图像的图像类型的分类任务损失和用于像素级分类的像素分类任务损失。

针对图像类型分类任务，可以采用softmax(归一化指数函数)损失来定义。其公式可以表示为：

L_cls＝-log(α_j)，

其中，L_cls表示图像类型分类损失，z_i是输入的第i项图像特征，α_i是输出类别为第i类的概率值。z_j是输入的第j项图像特征，α_j是输出类别为第j类的概率值。在一具体实施例中，n＝2，即包括两种图像类型，物体对象图像以及非物体对象图像。

针对像素级分类任务，可以采用类间均衡的交叉熵损失来定义。其公式可以表示为L_pixel＝W*L_pixel-CE,其中，L_pixel-CE表示交叉熵；W表示像素点对应的权重。

因此，在该具体实施例中，神经网络模型的总损失可以表示为：L＝L_cls+λL_pixel，其中，λ可以取常数，如可以为10。

在其中一实施例中，基于图像类型对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域，包括：当图像类型为物体对象图像时，基于图像类型对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。

由于图像类型不是物体对象图像时，说明待处理图像中，不包括物体对象。此时，根本提取不到对象区域，因此，可以无需对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域。进一步地，在其中一具体实施例中，可以在图像类型为物体对象图像时，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率。如此，在图像类型为物体对象图像时，才进行预设分类映射，得到各像素点的区域概率。而在图像类型为非物体对象图像时，可以无需进行预设分类映射。基于本实施例的物体对象定位方法，可以减少不必要的处理，从而提高对待处理图像对象物体对象定位的整体定位效率。

在其中一实施例中，对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域，包括：对所属区域为对象区域的各像素点进行连通域提取，确定候选对象区域；对候选对象区域进行修正，得到待处理图像中的对象区域。

对所属区域为对象区域的各像素点进行连通区域提取，将连通的对象区域提取出来，得到候选对象区域，此时，候选对象区域中还可能存在一些空洞像素。如，可能有一些实质为对象区域的像素点在像素级分类时，将其认定为了背景区域的像素点。

通过对候选区域进行修正，可以使得到的待处理图像中的对象区域更为准确。其中，修正的方式可以是消除空洞像素。如，可以通过对候选对象区域进行简单对形态学操作的方式，消除候选对象区域中的空洞像素。

基于本实施例的物体对象定位方法，通过对属于对象区域的各像素进行连通域提取后，对提取得到的候选对象区域进行修正的方式，提高对象区域的准确性，从而提高物体对象定位的准确性。

在其中一实施例中，对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域，包括：对所属区域为对象区域的各像素点进行连通域提取，确定候选对象区域；提取候选对象区域的轮廓，并根据物体对象的特征对轮廓进行拟合，确定待处理图像中的对象区域。

为了确定更准确的对象区域，在本实施例中，先提取候选对象区域，然后提取候选对象区域的轮廓，可以提取到不少于一个轮廓，然后对提取到的轮廓进行物体对象轮廓的拟合，从而确定待处理图像中的对象区域。可以基于待处理图像的图像类型，确定物体对象的特征。如图像类型为证件对象时，可以确定物体对象为形状为四边形，包括四个顶点，更具体如该四边形为矩形。然后可以根据该物体对象的特征，对提取到的轮廓进行拟合，从而确定待处理图像中的对象区域。在一个具体实施例中，当图像类型为证件对象时，在对提取到的轮廓进行拟合的过程中，在拟合得到最小四边形时，确定该最小四边形对应的区域为对象区域。如此，可以更为准确地定位到待处理图像中的证件对象所在的对象区域。

在其中一具体示例中，如图8所示，在通过神经网络模型，对待处理图像进行图像分割，即提取待处理图像的图像特征，基于图像特征对待处理图像的每个像素点进行预设分类映射，得到各像素点的区域概率，之后，可以得到如图8a所示的分割结果。该分割结果可以存储在一个新建的与分割图分辨率相同的空白图像文件中，在存储分割结果之前，该空白图像文件中的所有元素可以初始化为0。

根据像素点的区域概率，分别确定各像素点的所属区域，可以得到如图8b所示的二值化分割结果。对所属区域为对象区域的各像素点进行连通域提取，确定候选对象区域，可以得到如图8c所示的分割结果轮廓。然后提取候选对象区域的轮廓，并根据物体对象的特征对轮廓进行拟合，可以得到如图8d所示的轮廓拟合四边形，该四边形确定的区域即为待处理图像中的对象区域。进一步地，在该具体示例中，将该对象区域中的数据提取出来，如可以通过反射变换的方式，提取该对象区域中的数据，最终可以得到如图8e所示的证件对象。

在其中一实施例中，对所属区域为对象区域的各像素点进行连通域提取，确定待处理图像中的对象区域之后，还包括：提取待处理图像中的对象区域的数据，得到对象图像；对对象图像进行预设方向映射，得到物体对象的方向信息。

由于待处理对象中的物体对象可能存在拍摄或者放置角度的问题，使得对物体对象定位得到的对象区域可能存在角度旋转的问题。如在物体对象为证件对象时，由于待处理图像在拍摄时证件对象的摆放方向不同，确定的对象区域可能呈现，如图9a所示的证件对象正放、如图9b所示的证件对象90度旋转、如图9c所示的证件对象180度水平倒转，以及如图9d所示的证件对象270度旋转等情况。

在本实施例中，提取待处理图像中的对象区域的数据，得到对象图像后，可以通过一个卷积神经网络对提取得到的对象图像进行方向判断分类，从而实现对对象图像的预设方向映射，得到物体对象的方向信息。通过一个4～5层的卷积层即可达到99％以上准确的方向信息。另外，由于采用4～5层的卷积层可以使得该卷积神经网络具有较快的预测速度。

进一步地，在对对象图像进行预设方向映射，得到物体对象的方向信息之后，可以根据该方向信息对图像数据进行调整，得到标准图像数据。该标准图像数据是指物体对象正向摆放的图像数据。如，正向摆放的银行卡。通过标准图像数据可以方便地提取到物体对象的相关信息。如，可以减小证件对象中后续的文字识别模块的复杂度，提升证件对象中文字识别的准确性。

在其中一具体实施例中，提供一种物体对象定位方法，该物体对象为证件对象，方法包括：

获取待处理图像；

提取待处理图像的图像特征；

根据图像特征确定待处理图像的图像类型；

当图像类型为物体对象图像时，将图像特征输入训练好的全卷积神经网络模型进行卷积和池化处理，得到卷积结果；

结合全卷积神经网络模型的池化层的卷积结果及池化层的输入，确定池化层对应的融合结果；

对全卷积神经网络模型的池化层的下一池化层对应的融合结果进行上采样，得到下一池化层对应的采样结果；

将下一池化层对应的采样结果与池化层对应的上一池化层卷积结果进行融合，确定池化层对应的融合结果；

基于各池化层对应的融合结果，确定各像素点的第一区域概率及第二区域概率；第一区域概率为像素点属于对象区域的概率，第二区域概率为像素点属于背景区域的概率；

根据像素点的区域概率，分别确定各像素点的所属区域；

对所属区域为对象区域的各像素点进行连通域提取，确定第一候选对象区域；

对候选对象区域进行修正，得到待处理图像中的第二候选对象区域；

提取第二候选对象区域的轮廓，并根据物体对象的特征对轮廓进行拟合，确定待处理图像中的对象区域；

提取待处理图像中的对象区域的数据，得到对象图像；

对对象图像进行预设方向映射，得到物体对象的方向信息。

该具体实施例，通过像素级的分类解决物体对象的定位问题，能够提高物体对象定位的准确性，具有较强的泛化性和鲁棒性。通过对属于对象区域的各像素进行连通域提取后，对提取得到的候选对象区域进行修正的方式，可以提高对象区域的准确性，从而提高物体对象定位的准确性。根据物体对象的特征对轮廓进行拟合，确定待处理图像中的对象区域的方式，也可以提高对象区域的准确性，从而提高物体对象定位的准确性。由于对对象区域的数据，进行预设方向区域，得到方向信息，可以满足证件对象任意角度的定位功能。进而可以减小后续的文字识别模块的复杂度，提升整体证件文字识别精度。

如下表所示，通过一组实验数据对比，可以进一步体现该具体实施的有益效果。该具体实施例可在的定位误差在自有测试集上能够达到10^-3级别的平均定位误差，相比传统的四顶点回归算法定位误差在10^-2级别，具有更精确的定位效果。

表1

算法	定位误差(％)	类型判断精度(％)	方向判断精度(％)
				本申请	0.0061	100	100
基于证件四点回归算法	0.0143	99.95	/

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种与上述物体对象定位方法对应的物体对象定位装置，包括：

待处理图像获取模块1002，用于获取待处理图像；

图像特征提取模块1004，用于提取所述待处理图像的图像特征；

像素分类映射模块1006，用于基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率；所述区域概率包括所述像素点属于对象区域的概率；

像素区域划分模块1008，用于根据所述像素点的所述区域概率，分别确定各所述像素点的所属区域；

对象区域确定模块1010，用于对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

上述物体对象定位装置，对待处理图像中的每个像素点进行预设分类映射，得到该像素点的区域概率，进而根据该区域概率确定该像素点的所属区域，最后将对所属区域为对象区域的像素点进行连通域提取，确定整个对象区域。如此，通过像素级的分类解决物体对象的定位问题，能够提高物体对象定位的准确性。同时，具有较强的泛化性和鲁棒性。

在其中一实施例中，所述像素分类映射模块，包括：

卷积结果确定单元，用于将所述图像特征输入训练好的全卷积神经网络模型进行卷积和池化处理，得到卷积结果；

融合结果确定单元，用于结合所述全卷积神经网络模型的池化层的所述卷积结果及所述池化层的输入，确定所述池化层对应的融合结果；

区域概率确定单元，用于基于各所述池化层对应的所述融合结果，确定各所述像素点的区域概率。

在其中一实施例中，所述像素分类映射模块，还包括：

结果上采样单元，用于对所述全卷积神经网络模型的所述池化层的下一池化层对应的所述融合结果进行上采样，得到所述下一池化层对应的采样结果；

融合结果确定单元，还用于将所述下一池化层对应的所述采样结果与所述池化层对应的上一池化层所述卷积结果进行融合，确定所述池化层对应的所述融合结果。

在其中一实施例中，还包括训练模块；像素分类映射模块通过神经网络模型实现；训练模块，用于对神经网络模型进行训练，且在所述神经网络模型的训练过程中，采用类间均衡损失函数确定损失函数值。

在其中一实施例中，所述区域概率包括第一区域概率及第二区域概率；所述第一区域概率为所述像素点属于所述对象区域的概率，所述第二区域概率为所述像素点属于背景区域的概率。

在其中一实施例中，所述像素分类映射模块，用于基于所述图像特征对所述待处理图像的每个像素点进行第一预设分类映射，得到各所述像素点的所述第一区域概率；基于所述图像特征对所述待处理图像的每个像素点进行第二预设分类映射，得到各所述像素点的所述第二区域概率。

在其中一实施例中，所述物体对象为证件对象。

在其中一实施例中，还包括图像类型确定模块；

图像类型确定模块，用于根据所述图像特征确定所述待处理图像的图像类型；

所述对象区域确定模块，用于基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

在其中一实施例中，所述对象区域确定模块，用于当所述图像类型为物体对象图像时，基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

在其中一实施例中，对象区域确定模块，包括连通域提取单元及对象区域修正单元；

连通域提取单元，用于对所属区域为所述对象区域的各所述像素点进行连通域提取，确定候选对象区域；

对象区域修正单元，用于对所述候选对象区域进行修正，得到所述待处理图像中的所述对象区域。

在其中一实施例中，所述对象区域确定模块，包括：连通域提取单元及轮廓拟合单元；

轮廓拟合单元，用于提取所述候选对象区域的轮廓，并根据所述物体对象的特征对所述轮廓进行拟合，确定所述待处理图像中的所述对象区域。

在其中一实施例中，还包括：对象图像提取模块及方向信息确定模块；

对象图像提取模块，用于提取所述待处理图像中的所述对象区域的数据，得到对象图像；

方向信息确定模块，用于对所述对象图像进行预设方向映射，得到所述物体对象的方向信息。

如图11所示，在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种物体对象定位方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施方式中，提供了一种计算机设备，该计算机设备可以是服务器或终端。该计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述物体对象定位方法的步骤。

在其中一实施例中，该计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理图像；

提取所述待处理图像的图像特征；

在其中一实施例中，所述基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率，包括：

将所述图像特征输入训练好的全卷积神经网络模型进行卷积和池化处理，得到卷积结果；

结合所述全卷积神经网络模型的池化层的所述卷积结果及所述池化层的输入，确定所述池化层对应的融合结果；

基于各所述池化层对应的所述融合结果，确定各所述像素点的区域概率。

在其中一实施例中，所述结合所述全卷积神经网络模型的池化层的所述卷积结果及所述池化层的输入，确定所述池化层对应的融合结果，还包括：

对所述全卷积神经网络模型的所述池化层的下一池化层对应的所述融合结果进行上采样，得到所述下一池化层对应的采样结果；

将所述下一池化层对应的所述采样结果与所述池化层对应的上一池化层所述卷积结果进行融合，确定所述池化层对应的所述融合结果。

在其中一实施例中，基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率，通过神经网络模型实现；在所述神经网络模型的训练过程中，采用类间均衡损失函数确定损失函数值。

基于所述图像特征对所述待处理图像的每个像素点进行第一预设分类映射，得到各所述像素点的所述第一区域概率；

基于所述图像特征对所述待处理图像的每个像素点进行第二预设分类映射，得到各所述像素点的所述第二区域概率。

在其中一实施例中，所述物体对象为证件对象。

在其中一实施例中，所述对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域，包括：

根据所述图像特征确定所述待处理图像的图像类型；

基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

在其中一实施例中，所述基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域，包括：

当所述图像类型为物体对象图像时，基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

对所属区域为所述对象区域的各所述像素点进行连通域提取，确定候选对象区域；

对所述候选对象区域进行修正，得到所述待处理图像中的所述对象区域。

提取所述候选对象区域的轮廓，并根据所述物体对象的特征对所述轮廓进行拟合，确定所述待处理图像中的所述对象区域。

在其中一实施例中，所述对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域之后，还包括：

提取所述待处理图像中的所述对象区域的数据，得到对象图像；

对所述对象图像进行预设方向映射，得到所述物体对象的方向信息。

在其中一实施方式中，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述物体对象定位方法的步骤。

如，在其中一实施例中，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理图像；

提取所述待处理图像的图像特征；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种物体对象定位方法，所述方法包括：

获取待处理图像；

提取所述待处理图像的图像特征；

在神经网络模型中，通过一个任务根据图像特征确定所述待处理图像的图像类型，通过另一个任务，基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率；所述区域概率包括所述像素点属于对象区域的概率；所述神经网络模型的损失包括图像类型分类损失和像素级分类损失，所述图像类型分类损失为采用归一化指数函数损失定义的损失；所述像素级分类损失为采用类间均衡的交叉熵损失来定义的损失，所述像素级分类损失为交叉熵与像素点对应的权重的乘积，其中，权重与类的像素数目呈反比；所述神经网络模型的总损失为所述像素级分类损失的常数倍与所述图像类型分类损失的和值；

对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域；

所述基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率，包括：

将所述图像特征输入训练好的全卷积神经网络模型进行卷积和池化处理，得到卷积结果，所述全卷积神经网络模型包括至少三个池化层，每个池化层对输入数据进行卷积和池化处理得到卷积结果；

2.根据权利要求1所述的方法，其特征在于，

所述结合所述全卷积神经网络模型的池化层的所述卷积结果及所述池化层的输入，确定所述池化层对应的融合结果，还包括：

3.根据权利要求1所述的方法，其特征在于，所述区域概率包括第一区域概率及第二区域概率；所述第一区域概率为所述像素点属于所述对象区域的概率，所述第二区域概率为所述像素点属于背景区域的概率。

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率，包括：

5.根据权利要求1所述的方法，其特征在于，所述物体对象为证件对象。

6.根据权利要求1所述的方法，其特征在于，所述对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域，包括：

根据所述图像特征确定所述待处理图像的图像类型；

7.根据权利要求6所述的方法，其特征在于，所述基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域，包括：

8.根据权利要求1所述的方法，其特征在于，所述对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域，包括：

10.根据权利要求1所述的方法，其特征在于，所述对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域之后，还包括：

11.一种物体对象定位装置，所述装置包括：

待处理图像获取模块，用于获取待处理图像；

图像特征提取模块，用于提取所述待处理图像的图像特征；

对象区域确定模块，用于对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域；

所述像素分类映射模块，包括：

卷积结果确定单元，用于将所述图像特征输入训练好的全卷积神经网络模型进行卷积和池化处理，得到卷积结果，所述全卷积神经网络模型包括至少三个池化层，每个池化层对输入数据进行卷积和池化处理得到卷积结果；

区域概率确定单元，用于基于各所述池化层对应的所述融合结果，确定各所述像素点的区域概率；

所述装置还包括训练模块和图像类型确定模块：

所述像素分类映射模块和所述图像类型确定模块通过神经网络模型实现；

所述训练模块，用于对所述神经网络模型进行训练；在所述神经网络模型中，通过一个任务根据图像特征确定所述待处理图像的图像类型，通过另一个任务，基于所述图像特征对所述待处理图像的每个像素点进行预设分类映射，得到各所述像素点的区域概率；所述神经网络模型的损失包括图像类型分类损失和像素级分类损失，所述图像类型分类损失为采用归一化指数函数损失定义的损失；所述像素级分类损失为采用类间均衡的交叉熵损失来定义的损失，所述像素级分类损失为交叉熵与像素点对应的权重的乘积，其中，权重与类的像素数目呈反比；所述全卷积神经网络模型的总损失为所述像素级分类损失的常数倍与所述图像类型分类损失的和值。

12.根据权利要求11所述的装置，其特征在于，所述像素分类映射模块，还包括：

13.根据权利要求11所述的装置，其特征在于，所述区域概率包括第一区域概率及第二区域概率；所述第一区域概率为所述像素点属于所述对象区域的概率，所述第二区域概率为所述像素点属于背景区域的概率。

14.根据权利要求13所述的装置，其特征在于，所述像素分类映射模块，用于基于所述图像特征对所述待处理图像的每个像素点进行第一预设分类映射，得到各所述像素点的所述第一区域概率；基于所述图像特征对所述待处理图像的每个像素点进行第二预设分类映射，得到各所述像素点的所述第二区域概率。

15.根据权利要求11所述的装置，其特征在于，所述物体对象为证件对象。

16.根据权利要求11所述的装置，其特征在于，还包括图像类型确定模块；

所述图像类型确定模块，用于根据所述图像特征确定所述待处理图像的图像类型；

17.根据权利要求16所述的装置，其特征在于，所述对象区域确定模块，用于当所述图像类型为物体对象图像时，基于所述图像类型对所述所属区域为所述对象区域的各所述像素点进行连通域提取，确定所述待处理图像中的所述对象区域。

18.根据权利要求17所述的装置，其特征在于，所述对象区域确定模块，包括连通域提取单元及对象区域修正单元；

所述连通域提取单元，用于对所属区域为所述对象区域的各所述像素点进行连通域提取，确定候选对象区域；

所述对象区域修正单元，用于对所述候选对象区域进行修正，得到所述待处理图像中的所述对象区域。

19.根据权利要求17所述的装置，其特征在于，所述对象区域确定模块，包括：连通域提取单元及轮廓拟合单元；

所述轮廓拟合单元，用于提取所述候选对象区域的轮廓，并根据所述物体对象的特征对所述轮廓进行拟合，确定所述待处理图像中的所述对象区域。

20.根据权利要求11所述的装置，其特征在于，还包括：对象图像提取模块及方向信息确定模块；

所述对象图像提取模块，用于提取所述待处理图像中的所述对象区域的数据，得到对象图像；

所述方向信息确定模块，用于对所述对象图像进行预设方向映射，得到所述物体对象的方向信息。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-10任意一项所述的方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10任意一项所述的方法的步骤。