CN110210571A

CN110210571A - 图像识别方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN110210571A
Application number: CN201910497448.1A
Authority: CN
Inventors: 龚丽君
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Healthcare Shenzhen Co Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-09-06
Anticipated expiration: 2039-06-10
Also published as: CN110348543A; CN110348543B; CN110210571B

Abstract

本发明公开了一种图像识别方法、装置、计算机设备及计算机可读存储介质，属于图像技术领域。本发明通过目标识别模型对待识别的图像进行特征提取，获取该图像对应的第一特征图，对该第一特征图进行可形变卷积处理，使该目标识别模型可以全面捕捉到尺寸和形状差异较大的目标区域，该目标识别模型基于可形变卷积后的第一特征图生成第二特征图，通过注意力机制对该第二特征图中的关键信息进行提取，使该目标识别模型更加关注目标区域，从而可以准确获取到该图像中的各个目标区域。这种图像识别方法提高了目标识别模型对不同尺寸和形状的目标区域的识别能力，且通过注意力机制使该目标识别模型更加关注重要的目标区域，从而提高了识别结果的准确率。

Description

图像识别方法、装置、计算机设备及计算机可读存储介质

技术领域

本发明涉及图像技术领域，特别涉及一种图像识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着机器学习技术的发展，计算机设备可以基于深度神经网络构建目标识别模型，对图像中包含的目标信息进行识别，例如，在临床医学领域，计算机设备可以通过目标识别模型自动识别出眼底图像中的病灶。目前，在图像识别任务中，通常采用YOLO(youonly look once，你只看一次)目标识别模型，对图像进行特征提取，获取图像对应的特征图，基于该特征图预测图像中的目标区域的位置信息、类别信息等。

但是，在图像中通常会存在大小和形状差异较大的目标，YOLO目标识别模型对于这些尺寸和形状悬殊巨大的目标的信息提取能力较差，导致检测结果的准确率较低。

发明内容

本发明实施例提供了一种图像识别方法，可以解决相关技术中图像识别准确率低的问题。所述技术方案如下：

一方面，提供了一种图像识别方法，所述方法包括：

获取待识别的图像；

将该图像输入目标识别模型中，由该目标识别模型对该图像进行特征提取，基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，基于该第二特征图进行关键信息提取，得到第三特征图，基于该第三特征图输出该图像的至少一个目标区域的位置信息以及置信度；

根据该至少一个目标区域的位置信息以及置信度，在该图像中突出显示该至少一个目标区域。

在一种可能实现方式中，该基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，包括：

将该第一特征图与该多个不同的可形变卷积核分别进行卷积运算，得到多个中间特征图；

根据该多个不同的可形变卷积核的通道权重和该多个中间特征图进行加权运算，得到该第二特征图。

在一种可能实现方式中，该将该第一特征图与该多个不同的可形变卷积核分别进行卷积运算，得到多个中间特征图包括：

在任一个可形变卷积核与该第一特征图的运算过程中，当扫描窗口扫描至该第一特征图的子图上，基于该子图中的各个第一特征点的位置，在该子图中确定各个第一特征点进行偏移后的第二特征点，将该各个第二特征点与该可形变卷积核中对应的权重进行点乘运算，输出该中间特征图中的一个特征点。

在一种可能实现方式中，该基于该第二特征图进行关键信息提取，得到第三特征图包括：

当扫描窗口扫描至该第二特征图的任一个子图上时，获取位于该扫描窗口内的最大值，将获取到的最大值输出为该第三特征图的一个特征点。

在一种可能实现方式中，该基于该第三特征图输出该图像的至少一个目标区域的位置信息以及置信度包括：

基于该第三特征图生成至少一个特征向量，每个特征向量用于指示一个区域的位置信息、类别置信度以及区域置信度。

在一种可能实现方式中，该根据该至少一个目标区域的位置信息以及置信度，在该图像中突出显示该至少一个目标区域包括：

将类别置信度以及区域置信度符合目标条件的至少一个区域确定为该至少一个目标区域；

根据该至少一个目标区域的位置信息，在该图像中突出显示该至少一个目标区域。

在一种可能实现方式中，该在该图像中突出显示该至少一个目标区域包括：

根据该至少一个目标区域的位置信息，确定该至少一个目标区域的边框；

将该图像中的该至少一个目标区域的边框显示为目标颜色。

在一种可能实现方式中，该根据该至少一个目标区域的位置信息以及置信度，在该图像中突出显示该至少一个目标区域之后，该方法还包括：

当检测到对任一目标区域的点击操作时，在该目标区域的预设范围内显示该目标区域的置信度。

一方面，提供了一种图像识别装置，该装置包括：

获取单元，用于获取待识别的图像；

输出单元，用于将该图像输入目标识别模型中，由该目标识别模型对该图像进行特征提取，基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，基于该第二特征图进行关键信息提取，得到第三特征图，基于该第三特征图输出该图像的至少一个目标区域的位置信息以及置信度；

区域显示单元，用于根据该至少一个目标区域的位置信息以及置信度，在该图像中突出显示该至少一个目标区域。

在一种可能实现方式中，该输出单元用于：

在一种可能实现方式中，该区域显示单元用于：

将该图像中的该至少一个目标区域的边框显示为目标颜色。

在一种可能实现方式中，该装置还包括：

置信度显示单元，用于当检测到对任一目标区域的点击操作时，在该目标区域的预设范围内显示该目标区域的置信度。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述图像识别方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述图像识别方法所执行的操作。

本发明实施例提供的技术方案，通过目标识别模型对待识别的图像进行特征提取，获取该图像对应的第一特征图后，对该第一特征图进行可形变卷积处理，使该目标识别模型可以全面捕捉到尺寸和形状差异较大的目标区域，该目标识别模型基于可形变卷积后的第一特征图生成第二特征图，通过注意力机制对该第二特征图中的关键信息进行提取，使该目标识别模型更加关注目标区域，从而可以准确获取到该图像中的至少一个目标区域信息。这种图像识别方法提高了目标识别模型对不同尺寸和形状的目标区域的识别能力，而且通过注意力机制使该目标识别模型更加关注重要的目标区域，从而提高了识别结果的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像识别系统的结构框图；

图2是本发明实施例提供的一种图像识别方法的流程图；

图3是本发明实施例提供的一种可形变卷积核的示意图；

图4是本发明实施例提供的一种可形变卷积核与特征图进行卷积运算的示意图；

图5是本发明实施例提供的一种目标区域标注的对比示意图；

图6是本发明实施例提供的一种目标识别模型的示意图；

图7是本发明实施例提供的一种目标识别模型训练方法的流程图；

图8是本发明实施例提供的一种图像识别装置的结构示意图；

图9是本发明实施例提供的一种终端的结构示意图；

图10是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

注意力机制(Attention Mechanism)：是利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。注意力机制被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。具体地，在深度学习技术中可以通过掩码来形成注意力机制，掩码本质上是一组权重数值，使用掩码可以对不同特征赋予不同权重，对关键特征赋予较高的权重，使深度神经网络更加关注这些权重较高的关键特征，也就形成了注意力机制。当然，深度神经网络需要通过对大量样本数据的学习训练，才能确定具有哪些特性的特征是关键特征，从而在实际应用过程中，对具有该特性的特征赋予较高的权重。

综上，注意力机制主要有两个方面：一是决定需要关注输入的哪部分；二是分配有限的信息处理资源给重要的部分。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务更关键的信息。

图1是本发明实施例提供的一种图像识别系统的结构框图。该图像识别系统100包括：终端110和图像识别平台140。

终端110通过无线网络或有线网络与图像识别平台110相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持图像识别的应用程序。该应用程序可以是检测类应用程序等。示例性的，终端110是第一用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与图像识别平台140相连。

图像识别平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像识别平台140用于为支持图像识别的应用程序提供后台服务。可选地，图像识别平台140承担主要识别工作，终端110承担次要识别工作；或者，图像识别平台140承担次要识别工作，终端110承担主要识别工作；或者，图像识别平台140或终端110分别可以单独承担识别工作。

可选地，图像识别平台140包括：接入服务器、图像识别服务器和数据库。接入服务器用于为终端110提供接入服务。图像识别服务器用于提供图像识别有关的后台服务。图像识别服务器可以是一台或多台。当图像识别服务器是多台时，存在至少两台图像识别服务器用于提供不同的服务，和/或，存在至少两台图像识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。图像识别服务器中可以设置有图像识别模型。在本申请实施例中，该图像识别模型是基于注意力机制所构建的识别模型。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述图像识别系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

图2是本发明实施例提供的一种图像识别方法的流程图。该方法可以应用于上述终端或者服务器，而终端和服务器均可以视为一种计算机设备，因此，本发明实施例基于计算机设备作为执行主体来进行介绍，参见图2，该实施例具体可以包括以下步骤：

201、计算机设备获取待识别的图像。

其中，该待识别的图像可以为存储在计算机设备中的一幅或一组图像，也可以为该计算机设备在视频中截取的图像，还可以为具备图像采集功能的计算机设备实时采集的图像，本发明实施例对具体采用哪种图像不做限定。

202、该计算机设备将该图像输入目标识别模型中。

该目标识别模型用于识别图像中包含的一个或多个目标区域，并对该一个或多个目标区域的位置信息以及所属类别进行预测，该目标识别模型可以为基于深度神经网络设计的模型，例如，该深度神经网络可以为FPN(Feature Pyramid Networks，特征金字塔网络)、Faster-RCNN(Faster Region CNN，快速目标检测网络)、YOLO(you only look once，你只看一次)等。

该计算机设备将该图像输入目标识别模型后，该目标识别模型对输入的图像进行预处理，将该图像转化为由多个像素值组成的数字矩阵，以便该计算机设备进行后续运算过程。

203、该计算机设备通过该目标识别模型对该图像进行特征提取，获取第一特征图。

在本发明实施例中，该计算机设备可以通过一个或多个卷积层对该图像进行特征提取，生成第一特征图。在一种可能实现方式中，该目标识别模型中可以包括多个卷积层，该计算机设备将该图像对应的数字矩阵依次与该多个卷积层进行卷积运算，将最后一个卷积层输出的卷积运算的结果作为该图像对应的图像特征，该计算机设备基于该图像特征生成第一特征图。

具体地，以其中一个卷积层为例对上述卷积运算过程进行说明，一个卷积层可以包括一个或多个卷积核，每个卷积核对应一个扫描窗口，该扫描窗口的大小与该卷积核的大小相同，在卷积核进行卷积运算的过程中，该扫描窗口可以按照目标步长在特征图上滑动，依次扫描该特征图的各个区域，其中，该目标步长可以由开发人员进行设置。以一个卷积核为例，在卷积运算的过程中，当该卷积核的扫描窗口滑动至特征图的任一区域时，该计算机设备读取该区域中各个特征点对应的数值，将该卷积核与该各个特征点对应的数值进行点乘运算，再对各个乘积进行累加，将累加结果作为一个特征点。之后，该卷积核的扫描窗口按照目标步长滑动至特征图的下一区域，再次进行卷积运算，输出一个特征点，直至该特征图的全部区域扫描完毕，将输出的全部特征点组成一个特征图，作为下一个卷积层的输入。

其中，该目标识别模型中卷积层的具体数目可以由开发人员设置，例如，可以根据待检测图像的尺寸、图像识别精度等，确定卷积层数目，通常待检测图像的尺寸越大，图像识别精度越高，卷积层的数目越多。在本发明实施例中，为达到该目标识别模型的识别效果最优，可以将卷积层数目设置为18个。

204、该计算机设备基于提取到的该第一特征图以及多个不同的可形变卷积核获取第二特征图。

其中，每个可形变卷积核可以对应一组偏移向量，该偏移向量用于指示该卷积核中各个卷积点偏移的方向和距离，该计算机设备可以基于该各个卷积点按照其对应的偏移向量进行偏移后的位置，获取该位置对应的第一特征图中的特征点，其中，该偏移向量可以通过该目标识别模型的训练过程确定。参见图3，图3提供了一种可形变卷积核的示意图，以3*3的卷积核为例，正常卷积核中的9个卷积点排列为规则的正方形，可形变卷积核中的卷积点可以基于偏移向量(即图中箭头)所指示的方向和距离进行偏移，该卷积核还可以进行比例变换、旋转变换等特殊变换，例如，301为正常卷积核，302为进行随机变换的卷积核，303为进行比例变换的卷积核，304为进行旋转变换的卷积核。

在一种可能实现方式中，该计算机设备获取第二特征图具体可以包括以下步骤：

步骤一、该计算机设备将该第一特征图与该多个不同的可形变卷积核分别进行卷积运算，得到多个中间特征图。

在任一个可形变卷积核与该第一特征图的运算过程中，当扫描窗口扫描至该第一特征图的子图上，基于该子图中的各个第一特征点的位置，在该子图中确定各个第一特征点进行偏移后的第二特征点，将该各个第二特征点与该可形变卷积核中对应的权重进行点乘运算，输出该中间特征图中的一个特征点。参见图4，图4是本发明实施例提供的一种可形变卷积核与特征图进行卷积运算的示意图，以一个可形变卷积核与一个子图的卷积运算为例，对上述卷积运算过程进行说明，该卷积核401的大小为3*3，对应的权重向量包括(1,0,1)、(0,3,5)和(4,0,2)，该卷积核401扫描至特征图402的子图403时按照偏移向量所指示的方向进行偏移，获取卷积点偏移后对应的特征点(也即是图4中404所指示的特征图中的任一特征点)，将该各个特征点与该可形变卷积核中对应的权重进行点乘运算，将多个点乘运算的结果相加，作为一个特征点。

该可形变卷积核与该第一特征图的一个子图卷积完成后，按照目标步长，继续扫描该第一特征图的下一区域，与该区域中子图对应的特征点进行卷积运算，输出该中间特征图的一个特征点，直至该第一特征图的所有区域扫描完成，将输出的全部特征点组成该中间特征图。

上述可形变卷积核的具体数目和目标步长均可以由开发人员进行设定，在本发明实施例中，考虑到图像识别精度以及图像识别过程中的运算量，该可形变卷积核的数量可以设置为3，该目标步长可以设置为1。

步骤二、该计算机设备根据该多个不同的可形变卷积核的通道权重和该多个中间特征图进行加权运算，得到该第二特征图。

其中，该通道权重用于指示不同的可形变卷积核对于图像识别的重要程度，该多个不同的可形变卷积核的通道权重可以通过该目标识别模型的训练过程确定。

在一种可能实现方式中，可以通过一个全连接层对该多个中间特征图进行加权运算，其中，该全连接层可以包括1*1*N的通道权重向量，N为中间特征图的个数，N为大于1的整数，将该通道权重向量中的各个权重与其对应的中间特征图相乘，得到多个新的中间特征图，将该多个新的中间特征图进行连接，生成第二特征图。

在上述第二特征图获取过程中，通过对第一特征图进行可形变卷积以及加权运算，可以全面识别到待识别图像中不同大小和形状的目标区域，并且对不同大小和形状的目标区域的重要性进行区分，可以增强目标识别模型对于不同大小和形状的目标区域的敏感性，从而提高目标识别模型的识别精度，提高识别结果的准确率。

205、该计算机设备基于该第二特征图进行关键信息提取，得到第三特征图。

该计算机设备可以在目标识别模型中添加空间注意力机制，以实现对该第二特征图的关键信息提取，其中，该空间注意力机制用于提取特征图中的重要信息，从而对特征图进行压缩。在一种可能实现方式中，该计算机设备可以通过池化层构建空间注意力机制，对该第二特征图进行关键信息提取，该池化层可以对该第二特征图进行最大池化处理，具体地，当扫描窗口扫描至该第二特征图的任一个子图上时，该计算机设备获取位于该扫描窗口内的最大值，将获取到的最大值输出为该第三特征图的一个特征点。

该扫描窗口对该第二特征图中一个区域的最大值获取完毕后，该扫描窗口按照目标步长，继续扫描该第二特征图的下一区域，获取该区域对应的子图中的最大值，作为该第三特征图的一个特征点，直至该第二特征图的所有区域扫描完成，将输出的全部特征点组成该第三特征图。

通过获取该第二特征图中权重较大的特征点，来对第二特征图中的关键信息进行提取，可以有效地消除干扰信息，使该目标识别模型更加关注关键信息，减小后续目标识别过程的运算量，提高目标识别效率以及识别结果的准确率。

上述扫描窗口的大小和目标步长均可以由开发人员进行设定，在本发明实施例中，考虑到图像识别精度，以及图像识别过程中的运算量，该扫描窗口的大小可以设置为3*3，该目标步长可以设置为1。

206、该计算机设备基于该第三特征图输出该图像的至少一个目标区域的位置信息以及置信度。

其中，该置信度用于指示该目标识别模型的输出结果为正确结果的概率，该置信度可以包括区域置信度和类别置信度，该区域置信度用于指示识别到的目标区域为正确目标区域的概率，该类别置信度用于指示该目标区域中包含的信息属于某类别的概率。

该计算机设备基于该第三特征图生成至少一个特征向量，每个特征向量用于指示一个区域的位置信息、类别置信度以及区域置信度。在本发明实施例中，该计算机设备可以通过输出模块将该第三特征图转换为特征向量，在一种可能实现方式中，该输出模块可以包括一个全连接层，该计算机设备将该第三特征图输入该全连接层，该全连接层基于该第三特征图生成一个或多个特征向量，该特征向量的个数与该图像中识别出的目标区域的个数相同。其中，该特征向量可以包括多个数据，用于指示该目标区域中心点的位置坐标、该区域的长度和宽度、区域置信度以及类别置信度。

207、该计算机设备根据该至少一个目标区域的位置信息以及置信度，在该图像中突出显示该至少一个目标区域。

该计算机设备可以在该图像中对识别出的该至少一个目标区域进行突出显示。为降低信息干扰，使用户更容易获取重要信息，在一种可能实现方式中，该步骤207具体可以包括以下步骤：

步骤一、该计算机设备将类别置信度以及区域置信度符合目标条件的至少一个区域确定为该至少一个目标区域。

在一种可能实现方式中，该计算机设备可以将区域置信度和类别置信度分别与第一阈值和第二阈值进行比较，当该区域置信度大于该第一阈值，或类别置信度大于第二阈值时，则将该区域置信度对应的目标区域作为符合目标条件的目标区域。其中，该第一阈值和该第二阈值均可以由开发人员设置。

步骤二、该计算机设备根据该至少一个目标区域的位置信息，在该图像中突出显示该至少一个目标区域。

该计算机设备可以在该图像中用边框分别框出各个目标区域，来对其突出显示，也可以去除该图像中的背景信息仅显示该至少一个目标区域。

在本发明实施例中，该计算机设备根据该至少一个目标区域的位置信息，确定该至少一个目标区域的边框，将该图像中的该至少一个目标区域的边框显示为目标颜色。其中，该目标区域的边框大小可以由步骤206中输出的该目标区域对应的特征向量确定，该目标颜色可以由开发人员设定，为了更好的区分不同类型的目标，在一种可能实现方式中，该计算机设备可以将属于不同类别的目标区域的边框设置为不同颜色。

该计算机设备在对目标区域进行标注时，还可以在图像中显示该目标区域对应的置信度等信息。为了提高显示的简洁程度，避免对用户视觉的扰乱，该计算机设备可以基于用户的操作来进行信息显示，在一种可能实现方式中，当检测到对任一目标区域的点击操作时，该计算机设备在该目标区域的预设范围内显示该目标区域的置信度。

图5是本发明实施例提供的一种目标区域标注的对比示意图，参见图5，图5中的(a)图为该计算机设备输入的待识别图像的示意图，(b)图为该计算机设备输出的已标注图像的示意图，以该目标区域的预设范围为该目标区域的右侧区域为例，当该计算机设备检测到对目标区域501的点击操作时，该计算机设备在该目标区域501的右侧显示该目标区域对应的区域置信度、所属类别以及类别置信度。

本发明实施例提供的方法，通过目标识别模型对待识别的图像进行特征提取，获取该图像对应的第一特征图后，对该第一特征图进行可形变卷积处理，使该目标识别模型可以全面捕捉到尺寸和形状差异较大的目标区域，该目标识别模型基于可形变卷积后的第一特征图生成第二特征图，通过注意力机制对该第二特征图中的关键信息进行提取，使该目标识别模型更加关注目标区域，从而可以准确获取到该图像中的至少一个目标区域信息。这种图像识别方法提高了目标识别模型对不同尺寸和形状的目标区域的识别能力，而且通过注意力机制使该目标识别模型更加关注重要的目标区域，从而提高了识别结果的准确率。

例如，在医疗检测领域，可以应用上述图像识别方法对医学图像中的病灶进行检测，医务工作者可以将眼底图像、CT切片等医学图像输入训练好的目标识别模型，由目标识别模型对该医学图像进行识别，输出识别到的病灶位置、病灶类别等信息，通过上述图像识别方法可以全面识别出医学图像中不同大小和形状的病灶，识别结果准确率高。这种图像识别方法可以应用于各医疗机构，辅助医务人员进行诊断，从而缩短诊断时间，提高诊断效率。

上述图像识别过程中采用的目标识别模型可以为应用注意力机制的目标识别模型，在一种可能实现方式中，可以在深度神经网络中添加注意力模块来构造目标识别模型。具体地，下面以基于深度神经网络YOLO构造的目标识别模型为例进行说明。

参见图6，图6是本发明实施例提供的一种目标识别模型的示意图，该模型可以包括输入模块601、特征提取模块602、可形变卷积模块603、通道注意力模块604、空间注意力模块605以及输出模块606。其中，该输入模块601用于将待识别的图像输入该目标识别模型，并对该图像进行预处理，将该图像转换为由一组像素值组成的数字矩阵；该特征提取模块602可以用于对该图像对应的数字矩阵进行特征提取，生成该图像对应的特征图；该可形变卷积模块603可以用于对特征提取模块的输出的特征图进行可形变卷积；该通道注意力模块604可以用于对可形变卷积模块输出的特征图赋予不同权重；该空间注意力模块605可以用于对通道注意力模块输出的特征图进行关键信息提取；该输出模块606用于将空间注意力模块输出的特征图转换为特征向量输出。

在本发明实施例中，该计算机设备基于该目标识别模型获取该图相对应的至少一个特征向量，具体可以包括以下步骤：

步骤一、该计算机设备将该图像输入目标识别模型。

该计算机设备通过输入模块601将该图像输入目标识别模型后，首先，该目标识别模型将该图像调整为预设尺寸，然后，将该图像划分为S*S个网格区域，S为大于1的整数，网格的具体数目可以由开发人员设置，该网格可以用于后续目标区域位置坐标的确定，最后，该计算机设备将该图像转换为一组由像素值组成的数字矩阵。

步骤二、该计算机设备通过特征提取模602块对该图像进行特征提取，获取第一特征图。

该特征提取模块602可以包括至少一个卷积层，该至少一个卷积层可以用于对该图像对应的数字矩阵进行卷积处理，以提取图像特征，生成第一特征图。其中，卷积层的数目可以由开发人员进行设置。

该第一特征该图的具体生成方式和上述步骤203同理，在此不做赘述。

步骤三、该计算机设备通过可形变卷积模块603对该第一特征图进行可形变卷积处理，生成中间特征图，通过通道注意力模块604对该中间特征图进行加权运算，获取第二特征图。

该可形变卷积模块603可以包括至少一个可形变卷积层，该至少一个可形变卷积层可以用于对该第一特征图进行卷积处理，以识别到不同大小和形状的目标区域，生成该至少一个中间特征图。该通道注意力模块604可以包括至少一个全连接层，该至少一个全连接层可以用于对不同的中间特征图赋予不同的权重，来生成第二特征图。其中，可形变卷积层和全连接层的数目均可以由开发人员进行设置。

该第二特征图的具体生成方式和上述步骤204同理，在此不做赘述。

步骤四、该计算机设备通过空间注意力模块605对该第二特征图进行关进信息提取，得到第三特征图。

该空间注意力模块605可以包括至少一个池化层，该至少一个池化层可以用于对该第二特征图进行最大池化处理，来提取该第二特征图中的关键信息，生成第三特征图。

该第三特征图的具体生成方式和上述步骤205同理，在此不做赘述。

步骤五、该计算机设备通过输出模块606将该第三特征图转换为至少一个特征向量，并输出。

该输出模块606可以包括至少一个全连接层，该全连接层可以基于该第三特征图生成至少一个特征向量，该特征向量的个数与该图像中识别出的目标区域的个数相同。其中，该特征向量可以包括多个数据，用于指示该目标区域中心点的位置坐标、该区域的长度和宽度、区域置信度以及类别置信度。在本发明实施例中，该区域中心点的位置坐标可以基于步骤一中对该图像的网格划分确定，当该目标区域的中心点在某个网格中时，则该目标区域中心点的位置坐标为相对于该网格左上角坐标的偏移量。

上述实施例主要介绍了计算机设备进行图像识别的过程，而在进行图像识别之前，需对该目标识别模型进行训练，图7是本发明实施例提供的一种目标识别模型训练方法的流程图。参见图7，该实施例具体可以包括以下步骤：

701、该计算机设备初始化目标识别模型中的各个参数。

该计算机设备对该目标识别模型的各个卷积层、全连接层中的全部参数进行随机赋值，来实现参数初始化。在一种可能实现方式中，该计算机设备可以采用方差为0.01，均值为0的高斯分布对该目标识别模型进行参数初始化。

702、该计算机设备将训练数据集输入该目标识别模型。

其中，该训练数据集可以包括多张样本图像，该多张样本图像为已标注的样本图像，在各个样本图像中标注有目标区域的位置、大小和所属类别。例如，该训练数据集可以包括多张带有病灶的眼底图像，每张眼底图像均包括至少一个病灶，可以由多个医生对该眼底图像中的至少一个病灶的位置以及所属类别进行标注，并对该多张眼底图像的标注结果进行审核。

703、该计算机设备获取该目标识别模型的识别结果，计算该目标识别结果与正确识别结果的误差。

在一种可能实现方式中，该计算机设备可以通过一个或多个损失函数计算该目标识别结果中各组数据与正确识别结果的误差。例如，可以采用交叉熵损失函数计算该目标区域中是否有正确目标的分类损失，作为第一误差；可以采用交叉熵损失函数计算以及该目标区域内目标所属类别的分类损失，作为第二误差；可以采用平滑L1损失函数计算该目标区域与标注区域的回归损失，作为第三误差。

704、该计算机设备基于该目标识别结果与正确识别结果的误差，对该目标识别模型中的各个参数进行调整，至到符合预设条件时，得到训练好的目标识别模型。

在一种可能实现方式中，该计算机设备可以将获取的多个误差与分别与多个误差阈值进行比较，当任一个误差值大于误差阈值时，该计算机设备将该多个误差反向传播到该目标识别模型，采用梯度下降法求解该目标识别模型中的各个参数，该各个参数包括多个卷积核对应的数值矩阵、多个可形变卷积核对应的数值矩阵、多个可形变卷积核对应的偏移向量以及通道权重等。其中，该多个误差阈值均可以由开发人员设置，误差阈值的个数与获取的误差个数相同。

当该多个误差均小于误差阈值时，则认为该计算机设备获取的目标识别结果正确，该计算机设备继续读取下一张样本图像，执行步骤703，若该计算机设备获取到的目标识别结果正确的个目到达目标数目时，则认为该目标识别模型训练完毕。其中，该目标数目可以由开发人员进行设置。

图8是本发明实施例提供的一种图像识别装置的结构示意图，参见图8，该装置包括：

获取单元801，用于获取待识别的图像；

输出单元802，用于将该图像输入目标识别模型中，由该目标识别模型对该图像进行特征提取，基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，基于该第二特征图进行关键信息提取，得到第三特征图，基于该第三特征图输出该图像的至少一个目标区域的位置信息以及置信度；

区域显示单元803，用于根据该至少一个目标区域的位置信息以及置信度，在该图像中突出显示该至少一个目标区域。

在一种可能实现方式中，该输出单元802用于：

在一种可能实现方式中，该区域显示单元803用于：

将该图像中的该至少一个目标区域的边框显示为目标颜色。

在一种可能实现方式中，该装置还包括：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像识别的装置在图像识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像识别的装置与图像识别的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种终端的结构示意图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：一个或多个处理器901和一个或多个存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本发明中方法实施例提供的图像识别方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本发明实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1001和一个或多个的存储器1002，其中，所述一个或多个存储器1002中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1000还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的图像识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别的图像；

将所述图像输入目标识别模型中，由所述目标识别模型对所述图像进行特征提取，基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，基于所述第二特征图进行关键信息提取，得到第三特征图，基于所述第三特征图输出所述图像的至少一个目标区域的位置信息以及置信度；

根据所述至少一个目标区域的位置信息以及置信度，在所述图像中突出显示所述至少一个目标区域。

2.根据权利要求1所述的方法，其特征在于，所述基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，包括：

将所述第一特征图与所述多个不同的可形变卷积核分别进行卷积运算，得到多个中间特征图；

根据所述多个不同的可形变卷积核的通道权重和所述多个中间特征图进行加权运算，得到所述第二特征图。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一特征图与所述多个不同的可形变卷积核分别进行卷积运算，得到多个中间特征图包括：

在任一个可形变卷积核与所述第一特征图的运算过程中，当扫描窗口扫描至所述第一特征图的子图上，基于所述子图中的各个第一特征点的位置，在所述子图中确定各个第一特征点进行偏移后的第二特征点，将各个第二特征点与所述可形变卷积核中对应的权重进行点乘运算，输出所述中间特征图中的一个特征点。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第二特征图进行关键信息提取，得到第三特征图包括：

当扫描窗口扫描至所述第二特征图的任一个子图上时，获取位于所述扫描窗口内的最大值，将获取到的最大值输出为所述第三特征图的一个特征点。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第三特征图输出所述图像的至少一个目标区域的位置信息以及置信度包括：

基于所述第三特征图生成至少一个特征向量，每个特征向量用于指示一个区域的位置信息、类别置信度以及区域置信度。

6.根据权利要求5所述的方法，其特征在于，所述根据所述至少一个目标区域的位置信息以及置信度，在所述图像中突出显示所述至少一个目标区域包括：

将类别置信度以及区域置信度符合目标条件的至少一个区域确定为所述至少一个目标区域；

根据所述至少一个目标区域的位置信息，在所述图像中突出显示所述至少一个目标区域。

7.根据权利要求1所述的方法，其特征在于，所述在所述图像中突出显示所述至少一个目标区域包括：

根据所述至少一个目标区域的位置信息，确定所述至少一个目标区域的边框；

将所述图像中的所述至少一个目标区域的边框显示为目标颜色。

8.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标区域的位置信息以及置信度，在所述图像中突出显示所述至少一个目标区域之后，所述方法还包括：

当检测到对任一目标区域的点击操作时，在所述目标区域的预设范围内显示所述目标区域的置信度。

9.一种图像识别装置，其特征在于，所述装置包括：

获取单元，用于获取待识别的图像；

输出单元，用于将所述图像输入目标识别模型中，由所述目标识别模型对所述图像进行特征提取，基于提取到的第一特征图以及多个不同的可形变卷积核获取第二特征图，基于所述第二特征图进行关键信息提取，得到第三特征图，基于所述第三特征图输出所述图像的至少一个目标区域的位置信息以及置信度；

区域显示单元，用于根据所述至少一个目标区域的位置信息以及置信度，在所述图像中突出显示所述至少一个目标区域。

10.根据权利要求9所述的装置，所述输出单元用于：

11.根据权利要求10所述的装置，所述输出单元用于：

12.根据权利要求9所述的装置，所述输出单元用于：

13.根据权利要求9所述的装置，所述输出单元用于：

基于所述第三特征图生成至少一个特征向量，每个所述特征向量用于指示一个区域的位置信息、类别置信度以及区域置信度。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求8任一项所述的图像识别方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的图像识别方法所执行的操作。