CN112508975A

CN112508975A - 一种图像识别方法、装置、设备及存储介质

Info

Publication number: CN112508975A
Application number: CN202011520209.2A
Authority: CN
Inventors: 王林武
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-16

Abstract

本发明实施例公开了一种图像识别方法、装置、设备及存储介质，通过获取待检测图像，并确定待检测图像对应的目标轮廓框图像，目标轮廓框图像包含至少一个目标轮廓框；将目标轮廓框图像输入至目标分割网络模型中，获得目标分割网络模型输出的各所述目标轮廓框所对应的至少一个目标偏移量，其中，目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得；根据各目标偏移量调整所述目标轮廓框中对应的各轮廓点的位置，得到目标图像，解决了图像识别准确度较低的问题，通过训练待训练分割网络模型得到目标分割网络模型，准确预测目标轮廓框对应的目标偏移量，进而根据目标偏移量调整各轮廓点的位置，得到准确的目标图像，提高数据处理精度。

Description

一种图像识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种图像识别方法、装置、设备及存储介质。

背景技术

图像的语义分割通过判断图像中每个像素属于预定义的多个类别中哪个类，进而得到像素化的密集分类。随着深度学习技术的发展，卷积神经网络CNN在语义分割中得到越来越广泛的应用。特别是自2014年Long等人首次使用全卷积网络对自然图像进行端到端分割，语义分割产生了很大的突破。语义分割只是对每个像素进行语义分类，不能区分属于同一类别但不同物体的像素，例如将重复相邻的连续字符或者有重叠的多个人作为一个整体分割，不能区分出每个个体，所以出现了实例分割的图像处理方法。

实例分割是比语义分割更困难的计算机视觉任务，不仅要分类出每个像素所属语义类别，还需区分并定位图像中所有不同目标。实例分割目前常用的框架有两种：Top-DownBased和Bottom-Up Based。Top-Down Based也称Two Stage方法，2020年由浙大提出的一种最新开源算法DeepSnake，一种用于实例分割的Two Stage算法，根据所求轮廓点周围固定数量的临近轮廓点的特征确定偏移量，但是仅根据所求轮廓点周围固定数量的临近轮廓点的特征确定偏移量，学习到的特征精确度较低，无法满足高精度数据处理要求，无法实现对图像的准确识别。

发明内容

本发明提供一种图像识别方法、装置、设备及存储介质，以实现图像的准确识别。

第一方面，本发明实施例提供了一种图像识别方法，所述图像识别方法包括：

获取待检测图像，并确定所述待检测图像对应的目标轮廓框图像，所述目标轮廓框图像包含至少一个目标轮廓框；

将所述目标轮廓框图像输入至目标分割网络模型中，获得所述目标分割网络模型输出的各所述目标轮廓框所对应的至少一个目标偏移量，其中，所述目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得；

根据各所述目标偏移量调整所述目标轮廓框中对应的各轮廓点的位置，得到目标图像。

第二方面，本发明实施例还提供了一种图像识别装置，该图像识别装置包括：

图像获取模块，用于获取待检测图像，并确定所述待检测图像对应的目标轮廓框图像，所述目标轮廓框图像包含至少一个目标轮廓框；

偏移量确定模块，用于将所述目标轮廓框图像输入至目标分割网络模型中，获得所述目标分割网络模型输出的各所述目标轮廓框所对应的至少一个目标偏移量，其中，所述目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得；

目标图像确定模块，用于根据各所述目标偏移量调整所述目标轮廓框中对应的各轮廓点的位置，得到目标图像。

第三方面，本发明实施例还提供了一种图像识别设备，该图像识别设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的一种图像识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的一种图像识别方法。

本发明实施例提供了一种图像识别方法、装置、设备及存储介质，通过获取待检测图像，并确定待检测图像对应的目标轮廓框图像，所述目标轮廓框图像包含至少一个目标轮廓框；将所述目标轮廓框图像输入至目标分割网络模型中，获得所述目标分割网络模型输出的各所述目标轮廓框所对应的至少一个目标偏移量，其中，所述目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得；根据各所述目标偏移量调整所述目标轮廓框中对应的各轮廓点的位置，得到目标图像，解决了图像识别时准确度较低的问题，通过对待检测图像进行处理得到包含至少一个目标轮廓框的目标轮廓框图像，然后通过训练待训练分割网络模型得到目标分割网络模型，准确预测目标轮廓框对应的目标偏移量，进而根据目标偏移量调整各轮廓点的位置，得到准确的目标图像，提高数据处理精度。

附图说明

图1是本发明实施例一中的一种图像识别方法的流程图；

图2是本发明实施例二中的一种图像识别方法的流程图；

图3是本发明实施例二中的一种由检测框图像确定轮廓框图像的过程展示图；

图4是本发明实施例二中的一种待训练分割网络模型的结构示意图；

图5是本发明实施例二中的一种图像识别方法中确定目标分割网络模型的实现流程图；

图6是本发明实施例二中的一种确定设定数量的特征预测图像的实现流程图；

图7是本发明实施例二中的一种自注意力机制单元的计算流程图；

图8是本发明实施例二中的一种目标图像的效果展示图；

图9是本发明实施例二中的另一种目标图像的效果展示图；

图10是本发明实施例三中的一种图像识别装置的结构示意图；

图11是本发明实施例四中的一种图像识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种图像识别方法的流程图，本实施例可适用于识别图像的情况，该方法可以由图像识别装置来执行，具体包括如下步骤：

步骤S110、获取待检测图像，并确定待检测图像对应的目标轮廓框图像。

其中，目标轮廓框图像包含至少一个目标轮廓框。

在本实施例中，待检测图像可以理解为有检测需求的图像，可以是包含车辆的车架号的图像、身份证图像等。目标轮廓框可以理解为描述物体的外轮廓的多边形框，由于物体外轮廓是不规则的，所以目标轮廓框为了准确描述物体外轮廓，通常情况下也是不规则的；目标轮廓框图像可以理解为包含一个或者多个目标轮廓框的图像。

步骤S120、将目标轮廓框图像输入至目标分割网络模型中，获得目标分割网络模型输出的各目标轮廓框所对应的至少一个目标偏移量。

其中，目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得。

在本实施例中，目标分割网络模型可以理解为基于轮廓的深度学习神经网络模型，预先训练好目标分割网络模型。目标偏移量可以理解为目标轮廓框所描述的目标的外轮廓相对目标的实际外轮廓的偏移量，目标是指待检测图像中的需要识别出来的物体、字符等。待训练分割网络模型可以理解为未进行训练的、基于轮廓的深度学习神经网络模型，用于预测轮廓点的偏移量。

将目标轮廓框图像输入至目标分割网络模型中，由于已经预先根据对待训练分割网络模型进行训练获得了目标分割网络模型，所以目标分割网络模型已经学习到了经验值，其可以根据学习经验对目标轮廓框图像进行处理，输出至少一个目标偏移量，目标轮廓框有多少个轮廓点，相应的，输出相同数量的目标偏移量，每个轮廓点对应一个目标偏移量。

步骤S130、根据各目标偏移量调整目标轮廓框中对应的各轮廓点的位置，得到目标图像。

在本实施例中，目标图像可以理解为对最终要识别的物体或字符进行了外轮廓标注的图像，此时对物体或字符标注的外轮廓真实贴近物体或字符的实际外轮廓。待检测图像中包含的物体、数字等是在图像识别时最终要识别的目标，例如，识别图像中的车架号，车架号由数字和字符组成，共计17位，这17位字符就是需要识别的目标，最终得到的目标图像是对17位字符分别标注了外轮廓的图像；再例如，识别游客图像中的人，游客图像中包含了人、背景景色，人就是需要识别的目标，最终得到的目标图像是对人就行了外轮廓标注的图像。

通过目标分割网络模型确定出目标偏移量后，每个目标偏移量对应一个轮廓点，根据每个轮廓点对应的目标偏移量，调整轮廓点的位置，例如，根据目标偏移量对轮廓点的位置进行平移，根据调整后的各轮廓点的位置得到目标图像。

本发明实施例提供了一种图像识别方法，通过获取待检测图像，并确定待检测图像对应的目标轮廓框图像，所述目标轮廓框图像包含至少一个目标轮廓框；将所述目标轮廓框图像输入至目标分割网络模型中，获得所述目标分割网络模型输出的各所述目标轮廓框所对应的至少一个目标偏移量，其中，所述目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得；根据各所述目标偏移量调整所述目标轮廓框中对应的各轮廓点的位置，得到目标图像，解决了图像识别时准确度较低的问题，通过对待检测图像进行处理得到包含至少一个目标轮廓框的目标轮廓框图像，然后通过训练待训练分割网络模型得到目标分割网络模型，准确预测目标轮廓框对应的目标偏移量，进而根据目标偏移量调整各轮廓点的位置，得到准确的目标图像，提高数据处理精度。

实施例二

图2为本发明实施例二提供的一种图像识别方法的流程图。本实施例的技术方案在上述技术方案的基础上进一步细化，具体主要包括如下步骤：

步骤S210、获取待检测图像，将待检测图像输入到预确定的检测框确定模型中，得到包含至少一个检测框的检测框图像。

在本实施例中，检测框确定模型可以理解为一种深度学习的神经网络模型，用来提取检测框，例如，CenterNet，Yolov3等。其中，Centernet是Anchor-free的检测模型，不需要设置不同大小和长宽比的Anchor Box，优点是模型检测速度快、后处理简单。相比采用Anchor box的方法，Centernet存在缺点是检测框的召回率低，检测精度略差。Two Stage的实例分割算法根据目标检测框提取目标的特征并做分割，提取目标的外轮廓，因此很依赖图片中目标的检测框位置及提取的特征效果。目标定位的越准确、目标对应的特征越准确，则实例分割越准确。而Yolov3是基于Anchor box的检测算法，具有检测速度快和精度高的优点，并且相比Centernet，漏检的实例更少，因此实际效果更好。平均检测时间和显存占用与Centernet相近。检测框图像可以理解为包含一个或者多个检测框的图像。

检测框通常为一个矩形框。在进行图像识别时，通过生成矩形框，对图像中存在物体、数字等目标的地方进行框选，以便后续进行图像识别。实际生活或工作中，在进行物体识别或数据录入时，为了节省人力，提高工作效率，通常将需要识别的物体或需要进行录入的数据通过图像采集的方式，得到待检测图像，然后通过图像识别技术对待检测图像中的物体或者数据进行识别，进而得到物体或者数据。

将获取到的待检测图像输入到检测框确定模型中，本申请实施例的检测框确定模型选择Yolov3，预先对Yolov3模型进行训练，得到训练好的模型，在提取检测框时，直接将待检测图像输入到检测框确定模型中，得到模型输出的检测框图像。

步骤S220、根据各检测框的坐标进行轮廓筛选，得到轮廓框图像。

在本实施例中，轮廓框图像可以理解为包含了描述待检测图像中目标的外轮廓的多边形框的图像。通常情况下，通过检测框确定模型所确定的检测框图像中的检测框是矩形框，仅能大概描述目标的位置，无法描述目标的形状，所以根据检测框的坐标，进行相应的变换和处理，得到可以粗略描述目标形状的轮廓框图像。示例性的，图3提供了一种由检测框图像确定轮廓框图像的过程展示图，检测框图像10中包括了目标(即，猫)以及检测框101，根据检测框101的四个顶点坐标确定检测框101每条边的中点，构建出方块形的轮廓，得到新的检测框图像11，计算新的检测框图像11中的检测框111的四个顶点坐标需要的偏移量，得到偏移量图像12，根据偏移量获取图像中目标的极值点(最左边点、最右边点、最上边点以及最下边点)，得到极值点图像13，在获得了四个极值点后，将每个极值点按照检测框101的方向向两边生长1/4边长的线段，在生长过程中遇到检测框101的顶点就停止，依次连接四个线段的八个顶点得到一个八边形轮廓，进而得到轮廓框图像14。

步骤S230、将轮廓框图像按照设定尺寸进行缩放，得到目标轮廓框图像。

在本实施例中，设定尺寸可以理解为预先根据待检测图像的类型选择的合适尺寸，例如，待检测图像为车架号图像时，为了适配车架号图像的原始图像的长宽比，目标轮廓框图像通常选择512×128尺寸，可以减少信息的丢失。对图像进行缩放的步骤也可以先进行，例如对待检测图像进行缩放，然后在确定检测框图像，或者在确定检测框图像后先进行缩放再进行轮廓筛选。本领域技术人员可以根据情况自由选择何时进行图像缩放。

步骤S240、将目标轮廓框图像输入至目标分割网络模型中，获得目标分割网络模型输出的各目标轮廓框所对应的至少一个目标偏移量。

进一步地，待训练分割网络模型包括设定数量用于轮廓点特征表示确定的轮廓点特征学习模块，轮廓点特征学习模块包括循环卷积单元CirConv-Bn-ReLU和自注意力机制单元self-attention。

本申请实施例的待训练分割网络模型基于DeepSnake和自注意力机制self-attention构建。图4提供了一种待训练分割网络模型的结构示意图，图中21为轮廓点特征学习模块，本申请实施例中，设定数量以8为例，待训练分割网络模型中包括了8个轮廓点特征学习模块，轮廓点特征学习模块中包含了循环卷积单元CirConv-Bn-ReLU211和自注意力机制单元self-attention212；特征融合模块Fusion22用于融合各特征预测图像；预测模块Prediction23用于预测各融合轮廓点的偏移量。

进一步地，图5提供了一种图像识别方法中确定目标分割网络模型的实现流程图，目标分割网络模型的确定步骤包括：

步骤S241、将获取的图像训练样本输入给定的待训练分割网络模型，得到设定数量的特征预测图像。

其中，特征预测图像包括至少一个目标轮廓点的特征表示。

在本实施例中，图像训练样本可以理解为用来训练待训练分割网络模型的图像样本。目标轮廓点可以理解为图像训练样本中形成目标外轮廓的坐标点，特征预测图像可以理解为包括了各目标轮廓点的图像。目标轮廓点的特征表示可以是特征向量、特征图、特征树等代表目标轮廓点的特征的任意一种特征表示。

图像训练样本可以是从大数据平台获取，也可以由图像采集设备采集图像，作为图像训练样本，其中，图像采集设备可以是摄像头、摄像机等可以采集图像的设备。本申请实施例中选用设定格式大小的图像训练样本，可以减少信息丢失，图像训练样本的大小与目标轮廓框图像的大小相同。在实际应用中，若对图像信息的要求较低，图像训练样本的大小可以选择不同大小。

示例性的，本申请实施例提供一种图像训练样本的处理方法，图像训练样本以车架码图像为例：

S1、采集包含车架码的原始图像。

S2、对原始图像中车架码每个字符对应区域的像素分别标记相应标签，其他区域的像素则标记背景类，形成标签图像。

S3、对原始图像和对应已标记的标签图像进行相同数据扩充，得到扩充后的样本图像和标注图像。数据扩充包括随机裁剪、水平翻转、旋转一定角度。

S4、根据各样本图像和对应的标注图像生成携带标注类型的json文件，json文件包括训练json文件和验证json文件。

其中，携带标注类型的json文件是一种类似coco数据集样式的json文件，由于本申请仅做实例分割，所以标注类型可以仅选择目标实例这一种标注类型。

一个车架码的标注图像一般包含17位字符，需要提取每个字符并单独生成一个二值标注图像，字符所在像素为255，否则为0；这样一个车架码的标注图像需要生成17张单个字符二值标注图像。将样本图像与生成的所有单个字符二值标注图像生成携带标注类型的json文件。网络训练及测试时通过加载json文件解析字符标注信息。

S5、对生成的训练json文件和验证json文件，进行尺寸缩放，得到设定尺寸的图像训练样本。

在生成图像训练样本后，通过图像训练样本训练待训练分割网络模型，由于图像训练样本可能只包含一个目标，而实际进行图像识别时，待检测图像中可能包含了多个目标，对多个目标分别用检测框框选得到检测框图像，然后根据检测框图像确定目标轮廓框图像，将目标轮廓框图像输入到目标分割网络模型中，采用同样的方式对不同的目标轮廓框进行识别，得到每个目标轮廓框对应的目标偏移量。生成用于训练数据的训练json文件时是对单个字符生成一个灰度图，待训练分割网络模型在训练时，加载训练json文件后会根据输入的原始图像找到所有单个字符的标注信息(标签)，然后一起输入到网络中训练，训练的时候待训练分割网络模型同时处理一张图像中所有字符。训练好的目标分割网络模型，在实际识别时也是传入一张图像，目标分割网络模型同时处理所有字符，输出所有字符的目标轮廓框所对应的目标偏移量。

进一步地，图6提供了一种确定设定数量的特征预测图像的实现流程图，将获取的图像训练样本输入给定的待训练分割网络模型，得到设定数量的特征预测图像，包括：

步骤S2411、将待训练分割网络模型的首个轮廓点特征学习模块作为当前轮廓点特征学习模块，图像训练样本作为当前输入数据。

在本实施例中，待训练分割网络模型中包含了设定数量个轮廓点特征学习模块，待训练分割网络模型输入的数据依次从第一个轮廓点特征学习模块到最后一个轮廓点学习模块。当前轮廓点特征学习模块可以理解为当前进行轮廓点特征学习的轮廓点特征学习模块。当前输入数据可以理解为当前进行轮廓点特征学习的轮廓点特征学习模块的输入数据。

步骤S2412、将当前输入数据输入到当前轮廓点特征学习模块中，得到特征预测图像。

步骤S2413、判断当前轮廓点特征学习模块是否存在下一模块，若是，执行步骤S2414；否则，执行步骤S2415。

步骤S2414、将特征预测图像作为新的当前输入数据，当前轮廓点特征学习模块的下一模块作为新的当前轮廓点特征学习模块，返回步骤S2412。

步骤S2415、结束操作。

将当前输入数据输入到当前轮廓点特征学习模块中，得到当前轮廓点特征学习模块输出的特征预测图像，若当前轮廓点特征学习模块存在下一模块，即，存在下一个轮廓点特征学习模块，将特征预测图像作为新的当前输入数据，当前轮廓点特征学习模块的下一模块作为新的当前轮廓点特征学习模块，再次确定特征预测图像，直到所有当前轮廓点特征学习模块均输出相应的特征预测图。轮廓点特征学习模块的数量有多少，对应得到相同数量的特征预测图。

进一步地，将当前输入数据输入到当前轮廓点特征学习模块中，得到特征预测图的实施方式可以是：

将当前输入数据输入到循环卷积单元中，得到卷积特征图像；将卷积特征图像输入到自注意力机制单元中，根据卷积特征图像的尺寸参数、设定数量的卷积模板及维度转换函数进行矩阵变换，得到变换特征图像；对卷积特征图像和变换特征图像进行通道拼接，得到对应的特征预测图像。

在本实施例中，循环卷积单元可以理解为一种2d卷积单元，用于学习轮廓点特征表示；卷积特征图像可以理解为经过卷积运算后，学习到轮廓点特征表示的图像，卷积特征图像中包括至少一个轮廓点的特征表示。自注意力机制单元可以理解为根据所有轮廓点的特征表示学习一个轮廓点的特征表示的模块，自注意力机制单元可以计算所求轮廓点的特征表示与所有轮廓点的相似性，并基于相似性和所有轮廓点的特征表示求得该轮廓点的特征表示。维度转换函数可以理解为进行不同维度之间转换的函数，例如reshape。变换特征图像可以理解为自注意力机制单元对卷积特征图像进行特征变换处理后所得到的图像。

将所述当前输入数据输入到循环卷积单元中，循环卷积单元根据卷积核参数对当前输入数据进行卷积处理，得到卷积特征图像。将卷积特征图像输入到自注意力机制单元中，自注意力机制单元根据尺寸参数和维度转换函数进行降维和升维处理，根据卷积模板进行卷积运算，学习轮廓点的特征表示，得到特征变换图像。最后将卷积特征图像和变换特征图像进行通道拼接，得到特征预测图像。相比于将卷积特征图像和变换特征图像按元素相加得到的特征预测图像，按通道拼接保留的语义更多，提高图像识别的准确度。

进一步地，根据卷积特征图像的尺寸参数、设定数量的卷积模板及维度转换函数进行矩阵变换，得到变换特征图像的实施方式可以是：

对卷积特征图像的尺寸参数中的通道个数进行降维处理，得到降维特征图像；根据降维特征图像及设定数量的卷积模板进行卷积运算，得到设定数量的卷积运算图像；根据维度转换函数对各卷积运算图像进行维度变换，并将各维度变换后的卷积运算图像进行综合处理得到维度变换图像；将降维变换图像的尺寸参数中的通道个数进行升维处理，得到升维后的变换特征图像。

在本实施例中，降维特征图像可以理解为进行了维度下降处理的图像，即减少通道个数；卷积运算图像可以理解为乘以卷积模板进行卷积运算后得到的图像。维度变换图像可以理解为将维度变换后的图像进行运算处理的图像。

减少卷积特征图像尺寸参数中的通道个数，实现维度下降，得到降维特征图像，例如，将尺寸参数为(C*H*W)的卷积特征图像进行降维处理，将C减少为M，M可以设置为一个较小的值，例如32、30等。将降维特征图像分别乘以设定数量的卷积模板，得到设定数量的卷积运算图像。根据维度转换函数分别对卷积运算图像进行维度变换，得到变换后的卷积运算图像，并将变换后的卷积运算图像进行矩阵转置、相乘等综合处理，得到维度变换图像。增加维度变换图像的通道个数，将其恢复到未进行维度下降操作之前的通道个数，得到变换特征图像。

示例性的，图7提供一种自注意力机制单元的计算流程图，尺寸参数为C*H*W的卷积特征图像31经过降维处理后变为降维特征图像32(尺寸参数为M*H*W),将降维特征图像32分别乘以1*1的卷积模板得到卷积运算图像33、卷积运算图像34和卷积运算图像35，尺寸参数均为M*H*W。将卷积运算图像33、卷积运算图像34和卷积运算图像35分别经过一个reshape操作变为尺寸为M*(H*W)的二维矩阵，再将卷积运算图像33做矩阵转置操作变为尺寸为(H*W)*M的二维矩阵，为表示方便记为BT。将BT矩阵和卷积运算图像34经过reshape操作后得到的二维矩阵相乘得到尺寸为(H*W)*(H*W)的二维矩阵,对此矩阵按照行或者列进行softmax操作即可得到H*W个位置之间的相似性相关系数矩阵，计为S。将该系数矩阵与卷积运算图像35经过一个reshape操作输出的二维矩阵(尺寸为M*(H*W))相乘，得到输出尺寸为M*(H*W)的特征图像36，特征图像36的某一位置特征是长度为M的一维向量，并融合了卷积运算图像35中所有其他位置的特征，等于所有位置(H*W)特征的加权和，权重即为系数矩阵S里对应值。将特征图像36做reshape操作，由尺寸为M*(H*W)二维矩阵变形为M*H*W的三维矩阵，得到维度变换图像37，将维度变换图像37进行升维处理，得到变换特征图像38，尺寸参数为C*H*W，将变换特征图像38与卷积特征图像31进行通道拼接，得到特征预测图像39，特征预测图像39的尺寸参数为2C*H*W。

步骤S242、对各特征预测图像进行特征融合，得到包含至少一个融合轮廓点的特征融合图像。

在本实施例中，融合轮廓点可以理解为通过对多个轮廓点进行融合所得到的点，特征融合图可以理解为多张图像进行融合得到的融合图像。

对多张特征预测图像进行融合，得到一张特征融合图像。在进行特征融合时，将多个对应的点融合为一个融合轮廓点，最终形成包含至少一个融合轮廓点的特征融合图像。示例性的，轮廓点1在特征预测图像1中的点记为A1，在特征预测图像2中的点记为B1，在特征预测图像3中的点记为C1…，将A1，B1，C1…按各元素相加，得到一个融合轮廓点；采用同样的方式确定其他的融合特征点，最终将标注了融合特征点的图像训练样本作为特征融合图像。

步骤S243、对特征融合图像进行卷积运算，得到各融合轮廓点的预测偏移量。

在本实施例中，预测偏移量可以理解为融合轮廓点相对图像训练样本中的外轮廓的偏移量。将特征融合图像乘以1*1的卷积模板进行卷积运算，得到各融合轮廓点的预测偏移量。

步骤S244、采用给定的损失函数表达式，结合预测偏移量、图像训练样本对应的标准偏移量，确定损失函数。

在本实施例中，标准偏移量可以理解为图像训练样本中对目标标注的外轮廓框相对于实际外轮廓的偏移量。根据损失函数表达式、预测偏移量和对应的标准偏移量确定损失函数。

步骤S245、通过损失函数对待训练分割网络模型进行反向传播，得到目标分割网络模型。

在神经网络模型的训练过程中，通过反向传播方法不断更新调整模型，直至模型的输出与目标趋于一致。在确定了损失函数后，利用该损失函数对待训练网络模型进行反向传播，得到目标分割网络模型。本发明实施例对具体的反向传播过程不做限定，可根据具体情况进行设置。

步骤S250、将目标轮廓框中的各轮廓点按照对应的目标偏移量进行移动，得到移动后的各轮廓点。

目标轮廓框由轮廓点构成，每个轮廓点对应一定的目标偏移量，将轮廓点按照对应的目标偏移量进行移动，得到移动后的各轮廓点。例如，将坐标为(100,120)的轮廓点按照左下方∠30°移动3个像素，得到移动后的轮廓点。

步骤S260、将包含移动后的各轮廓点的图像作为目标图像。

移动后的各轮廓点可以准确的描述待检测图像中目标的外轮廓，将包含移动后的各轮廓点的图像作为目标图像，即目标图像中包含了由移动后的各轮廓点组成的外轮廓框，外轮廓框准确的描述了目标的外轮廓。示例性的，图8提供了一种目标图像的效果展示图，外轮廓框41描述目标(即，猫)的外轮廓。待检测图像为车架号图像时，相应的，图9提供了另一种目标图像的效果展示图，外轮廓框51描述了目标(即，数字8)的外轮廓，车架号为17位字符，图中仅示例性的标注了一个外轮廓框51，其他字符相应的都由外轮廓框51描述外轮廓，本申请实施例对此不进行一一标注，本领域技术人员可以知晓。

本发明实施例提供了一种图像识别方法，解决了图像识别时准确度较低的问题，通过训练待训练分割网络模型得到目标分割网络模型，待训练分割网络模型包括设定数量用于轮廓点特征表示确定的轮廓点特征学习模块，轮廓点特征学习模块包括循环卷积单元和自注意力机制单元，通过增加自注意力机制单元对轮廓点的特征表示进行学习，利用目标外轮廓的全局信息学习轮廓点特征表示，提高计算精度，进而准确预测目标轮廓框对应的目标偏移量；通过对卷积特征图像进行降维处理，减少网络计算量，并且通过通道拼接的方式确定特征预测图像，可以更好的保留图像中的语义，进一步提高准确度。

实施例三

图10为本发明实施例三提供的一种图像识别装置的结构示意图，该装置包括：图像获取模块61、偏移量确定模块62和目标图像确定模块63。

其中，图像获取模块61，用于获取待检测图像，并确定所述待检测图像对应的目标轮廓框图像，所述目标轮廓框图像包含至少一个目标轮廓框；偏移量确定模块62，用于将所述目标轮廓框图像输入至目标分割网络模型中，获得所述目标分割网络模型输出的各所述目标轮廓框所对应的至少一个目标偏移量，其中，所述目标分割网络模型通过对预先所构建待训练分割网络模型的训练获得；目标图像确定模块63，用于根据各所述目标偏移量调整所述目标轮廓框中对应的各轮廓点的位置，得到目标图像。

本发明实施例提供了一种图像识别装置，解决了图像识别时准确度较低的问题，通过对待检测图像进行处理得到包含至少一个目标轮廓框的目标轮廓框图像，然后通过训练待训练分割网络模型得到目标分割网络模型，准确预测目标轮廓框对应的目标偏移量，进而根据目标偏移量调整各轮廓点的位置，得到准确的目标图像，提高数据处理精度。

进一步地，图像获取模块61，包括：

输入单元，用于将所述待检测图像输入到预确定的检测框确定模型中，得到包含至少一个检测框的检测框图像；

筛选单元，用于根据各所述检测框的坐标进行轮廓筛选，得到轮廓框图像；

缩放单元，用于将所述轮廓框图像按照设定尺寸进行缩放，得到目标轮廓框图像。

进一步地，所述待训练分割网络模型包括设定数量用于轮廓点特征表示确定的轮廓点特征学习模块，所述轮廓点特征学习模块包括循环卷积单元和自注意力机制单元；

相应的，该装置还包括：模型确定模块，用于确定所述目标分割网络模型。

模型确定模块包括：

预测图像确定单元，用于将获取的图像训练样本输入给定的待训练分割网络模型，得到所述设定数量的特征预测图像，所述特征预测图像包括至少一个目标轮廓点的特征表示；

融合单元，用于对各所述特征预测图像进行特征融合，得到包含至少一个融合轮廓点的特征融合图像；

卷积单元，用于对所述特征融合图像进行卷积运算，得到各融合轮廓点的预测偏移量；

函数确定单元，用于采用给定的损失函数表达式，结合所述预测偏移量、图像训练样本对应的标准偏移量，确定损失函数；

模型确定单元，用于通过所述损失函数对所述待训练分割网络模型进行反向传播，得到目标分割网络模型。

进一步地，预测图像确定单元，具体用于将待训练分割网络模型的首个轮廓点特征学习模块作为当前轮廓点特征学习模块，图像训练样本作为当前输入数据；将所述当前输入数据输入到当前轮廓点特征学习模块中，得到特征预测图像；如果所述当前轮廓点特征学习模块存在下一模块，将所述特征预测图像作为新的当前输入数据，所述当前轮廓点特征学习模块的下一模块作为新的当前轮廓点特征学习模块，返回执行特征预测图像的确定操作。

进一步地，将所述当前输入数据输入到当前轮廓点特征学习模块中，得到特征预测图像的方式可以是：将所述当前输入数据输入到所述循环卷积单元中，得到卷积特征图像；将所述卷积特征图像输入到所述自注意力机制单元中，根据所述卷积特征图像的尺寸参数、设定数量的卷积模板及维度转换函数进行矩阵变换，得到变换特征图像；对所述卷积特征图像和变换特征图像进行通道拼接，得到对应的特征预测图像。

进一步地，根据所述卷积特征图像的尺寸参数、设定数量的卷积模板及维度转换函数进行矩阵变换，得到变换特征图像的方式可以是：对所述卷积特征图像的尺寸参数中的通道个数进行降维处理，得到降维特征图像；根据所述降维特征图像及设定数量的卷积模板进行卷积运算，得到设定数量的卷积运算图像；根据所述维度转换函数对各所述卷积运算图像进行维度变换，并将各维度变换后的卷积运算图像进行综合处理得到维度变换图像；将所述降维变换图像的尺寸参数中的通道个数进行升维处理，得到升维后的变换特征图像。

进一步地，目标图像确定模块63，包括：

移动单元，用于将目标轮廓框中的各轮廓点按照对应的所述目标偏移量进行移动，得到移动后的各轮廓点；

图像确定单元，用于将包含所述移动后的各轮廓点的图像作为目标图像。

本发明实施例所提供的图像识别装置可执行本发明任意实施例所提供的图像识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图11为本发明实施例四提供的一种图像识别设备的结构示意图，如图11所示，该设备包括处理器70、存储器71、输入装置72和输出装置73；设备中处理器70的数量可以是一个或多个，图11中以一个处理器70为例；设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接，图11中以通过总线连接为例。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的图像识别方法对应的程序指令/模块(例如，图像识别装置中的图像获取模块61、偏移量确定模块62和目标图像确定模块63)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的图像识别方法。

存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置72可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像识别方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的图像识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述图像识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种图像识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定待检测图像对应的目标轮廓框图像，包括：

将所述待检测图像输入到预确定的检测框确定模型中，得到包含至少一个检测框的检测框图像；

根据各所述检测框的坐标进行轮廓筛选，得到轮廓框图像；

将所述轮廓框图像按照设定尺寸进行缩放，得到目标轮廓框图像。

3.根据权利要求1所述的方法，其特征在于，所述待训练分割网络模型包括设定数量用于轮廓点特征表示确定的轮廓点特征学习模块，所述轮廓点特征学习模块包括循环卷积单元和自注意力机制单元；

相应的，所述目标分割网络模型的确定步骤包括：

将获取的图像训练样本输入给定的待训练分割网络模型，得到所述设定数量的特征预测图像，所述特征预测图像包括至少一个目标轮廓点的特征表示；

对各所述特征预测图像进行特征融合，得到包含至少一个融合轮廓点的特征融合图像；

对所述特征融合图像进行卷积运算，得到各融合轮廓点的预测偏移量；

采用给定的损失函数表达式，结合所述预测偏移量、图像训练样本对应的标准偏移量，确定损失函数；

通过所述损失函数对所述待训练分割网络模型进行反向传播，得到目标分割网络模型。

4.根据权利要求3所述的方法，其特征在于，所述将获取的图像训练样本输入给定的待训练分割网络模型，得到设定数量的特征预测图像，包括：

将待训练分割网络模型的首个轮廓点特征学习模块作为当前轮廓点特征学习模块，图像训练样本作为当前输入数据；

将所述当前输入数据输入到当前轮廓点特征学习模块中，得到特征预测图像；

如果所述当前轮廓点特征学习模块存在下一模块，将所述特征预测图像作为新的当前输入数据，所述当前轮廓点特征学习模块的下一模块作为新的当前轮廓点特征学习模块，返回执行特征预测图像的确定操作。

5.根据权利要求4所述的方法，其特征在于，所述将所述当前输入数据输入到当前轮廓点特征学习模块中，得到特征预测图像，包括：

将所述当前输入数据输入到所述循环卷积单元中，得到卷积特征图像；

将所述卷积特征图像输入到所述自注意力机制单元中，根据所述卷积特征图像的尺寸参数、设定数量的卷积模板及维度转换函数进行矩阵变换，得到变换特征图像；

对所述卷积特征图像和变换特征图像进行通道拼接，得到对应的特征预测图像。

6.根据权利要求5所述的方法，其特征在于，所述根据所述卷积特征图像的尺寸参数、设定数量的卷积模板及维度转换函数进行矩阵变换，得到变换特征图像，包括：

对所述卷积特征图像的尺寸参数中的通道个数进行降维处理，得到降维特征图像；

根据所述降维特征图像及设定数量的卷积模板进行卷积运算，得到设定数量的卷积运算图像；

根据所述维度转换函数对各所述卷积运算图像进行维度变换，并将各维度变换后的卷积运算图像进行综合处理得到维度变换图像；

将所述降维变换图像的尺寸参数中的通道个数进行升维处理，得到升维后的变换特征图像。

7.根据权利要求1所述的方法，其特征在于，所述根据各所述目标偏移量调整目标轮廓框中对应的各轮廓点的位置，得到目标图像，包括：

将目标轮廓框中的各轮廓点按照对应的所述目标偏移量进行移动，得到移动后的各轮廓点；

将包含所述移动后的各轮廓点的图像作为目标图像。

8.一种图像识别装置，其特征在于，包括：

9.一种图像识别设备，其特征在于，所述图像识别设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的图像识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的图像识别方法。