CN115131544A

CN115131544A - 图像识别的方法和系统

Info

Publication number: CN115131544A
Application number: CN202210748220.7A
Authority: CN
Inventors: 武文琦
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-30

Abstract

本说明书提供的图像识别的方法和系统，在目标图像中识别出至少一个候选区域后，基于至少一个候选区域中每个候选区域的尺寸，获取至少一个候选区域对应的总目标图像特征，可以针对不同的候选区域的尺寸，采用不同的特征融合方式，使得提取出候选区域的目标图像特征更加准确，从而提升图像识别的准确率。

Description

图像识别的方法和系统

技术领域

本说明书涉及图像识别领域，尤其涉及一种图像识别的方法和系统。

背景技术

近年来，随着互联网技术的飞速发展，图像识别的应用领域也越来越广泛，比如，在无人零售领域往往就需要识别出无人零售小店内的商品信息和顾客信息等等。现有的图像识别方法往往采用特征融合的目标检测算法。

在对现有技术的研究和实践过程中，本发明的发明人发现无人零售小店内往往包含多种尺度的对象，而在特征融合方式中特征提取参数相对单一，在针对尺度变化较大的目标时会存在较高的漏检率，导致图像识别的准确率较低。

因此，需要提供一种准确率更高的图像识别的方法和系统。

发明内容

本说明书提供一种准确率更高的图像识别的方法和系统。

第一方面，本说明书提供一种图像识别方法，包括：获取目标图像，所述目标图像包括至少一个目标对象；从所述目标图像中识别出至少一个候选区域，所述至少一个候选区域对应于至少一个目标对象；基于所述至少一个候选区域中每个候选区域的尺寸，获取所述至少一个候选区域对应的总目标图像特征；以及基于所述总目标图像特征，确定所述至少一个目标对象的对象信息。

在一些实施例中，所述从所述目标图像中识别出至少一个候选区域，包括：在所述目标图像中识别出至少一个基础候选区域，所述至少一个基础候选区域对应于所述目标对象；对所述目标图像进行多维图像特征提取，得到基础图像特征，所述基础图像特征包括每一维度所对应的图像特征；以及基于所述基础图像特征，在所述基础候选区域中检测出至少一个候选区域。

在一些实施例中，所述基于所述基础图像特征，在所述基础候选区域中检测出至少一个候选区域，包括：从所述基础图像特征中筛选出目标维度对应的图像特征；将所述基础候选区域投影至所述图像特征对应的特征图，得到目标特征图；在所述目标特征图中进行滑窗处理，以得到至少一个候选区域。

在一些实施例中，所述在所述目标特征图中进行滑窗处理，以得到至少一个候选区域，包括：基于预设滑窗的尺寸信息，在所述目标特征图中识别出每一预设滑窗与所述基础候选区域的位置关系；基于所述位置关系，确定所述预设滑窗的检测粒度，并基于所述检测粒度，在所述目标特征图中生成至少一个锚框；以及在所述至少一个锚框中筛选出至少一个目标锚框，并将所述目标锚框对应的区域作为候选区域。

在一些实施例中，所述基于所述检测粒度，在所述目标特征图中生成至少一个锚框，包括：基于所述检测粒度，确定所述预设滑窗对应的滑窗步长；以及基于所述滑窗步长，在所述目标特征图中生成至少一个锚框。

在一些实施例中，所述在所述至少一个锚框中筛选出至少一个目标锚框，包括：在所述目标特征图中提取出所述至少一个锚框对应的当前图像特征；基于所述当前图像特征，确定所述至少一个锚框对应的候选对象信息；以及基于所述候选对象信息，在所述至少一个锚框中筛选出所述目标锚框，所述目标锚框中包括所述目标对象。

在一些实施例中，所述基于所述至少一个候选区域中每个候选区域的尺寸，获取所述至少一个候选区域对应的总目标图像特征，包括：基于所述至少一个候选区域中每个候选区域的尺寸，获取所述每个候选区域对应的目标图像特征；将所述目标图像特征进行融合，得到所述至少一个候选区域对应的总目标图像特征。

在一些实施例中，所述基于所述至少一个候选区域中每个候选区域的尺寸，获取所述每个候选区域对应的目标图像特征，包括：在所述基础图像特征中筛选出预设多个维度的基础图像特征，得到所述至少一个候选区域中每个候选区域对应的区域图像特征集合；以及基于所述每个候选区域的尺寸，对所述区域图像特征集合中的图像特征进行融合，得到所述每个候选区域的目标图像特征。

在一些实施例中，所述基于所述每个候选区域的尺寸，对所述区域图像特征集合中的图像特征进行融合，得到所述每个候选区域的目标图像特征，包括：当所述候选区域的尺寸小于预设尺寸阈值时，对所述区域图像特征集合中的图像特征进行融合，得到所述候选区域的目标图像特征。

在一些实施例中，所述对所述区域图像特征集合中的图像特征进行融合，得到所述候选区域的目标图像特征，包括：基于所述候选区域的尺寸，在所述区域图像特征集合中筛选出所述候选区域对应的多个图像特征，得到目标图像特征组；以及对所述目标图像特征组中的图像特征进行融合，以得到所述候选区域的目标图像特征。

在一些实施例中，所述基于所述候选区域的尺寸，在所述区域图像特征集合中筛选出所述候选区域对应的多个图像特征，得到目标图像特征组，包括：基于所述候选区域的尺寸，确定所述候选区域对应的目标对象的对象尺度；以及在所述区域图像特征集合中筛选出所述对象尺度对应的多个图像特征，得到目标图像特征组。

在一些实施例中，所述对所述目标图像特征组中的图像特征进行融合，以得到所述候选区域的目标图像特征，包括：在所述目标图像特征组中筛选出待增强图像特征和所述待增强图像特征对应的邻近图像特征；采用所述邻近图像特征对所述待增强图像特征进行语义增强，得到增强后图像特征；以及将所述增强后图像特征和所述区域图像特征集合中除所述待增强图像特征以外的图像特征作为所述候选区域的目标图像特征。

在一些实施例中，所述在所述目标图像特征组中筛选出待增强图像特征和所述待增强图像特征对应的邻近图像特征，包括：基于所述目标图像特征组中的图像特征对应的图像分辨率，对所述目标图像特征组中的图像特征进行排序；以及基于排序结果，在所述目标图像特征组中筛选出至少一个待增强图像特征和所述待增强图像特征的邻近图像特征。

在一些实施例，所述采用所述邻近图像特征对所述待增强图像特征进行语义增强，得到增强后图像特征，包括：对所述邻近图像特征进行上采样，得到目标邻近图像特征；将所述目标邻近图像特征与所述待增强图像特征进行融合，得到融合后图像特征；以及对所述待增强图像特征的通道数进行调整，并将调整后待增强图像特征与所述融合后图像特征进行像素相加，得到增强后图像特征。

在一些实施例中，所述基于所述每个候选区域的尺寸，对所述区域图像特征集合中的图像特征进行融合，得到所述每个候选区域的目标图像特征，包括：当所述候选区域的尺寸大于所述预设尺寸阈值时，将所述区域图像特征集合中的图像特征作为所述候选区域的目标图像特征。

在一些实施例，所述将所述目标图像特征进行融合，得到所述至少一个候选区域对应的总目标图像特征，包括：对所述目标图像特征进行池化处理，得到池化后图像特征；对所述池化后图像特征进行归一化处理，得到归一化后图像特征；以及将所述归一化后图像特征进行拼接，得到所述至少一个候选区域对应的总目标图像特征。

在一些实施例，所述对所述目标图像特征进行池化处理，得到池化后图像特征，包括：基于预设区域尺寸，对所述至少一个候选区域进行切分，得到所述预设尺寸的至少一个候选子区域；在所述目标图像特征中提取出至少一个图像子特征，所述至少一个图像子特征对应于所述至少一个候选子区域；以及对所述至少一个图像子特征进行池化处理，得到池化后图像特征。

在一些实施例，所述基于所述总目标图像特征，确定所述至少一个目标对象的对象信息，包括：对所述总目标图像特征的特征通道数进行调整，得到所述至少一个目标对象的对象特征；以及在所述对象特征中检测出所述至少一个目标对象中每个目标对象的对象类型和对象位置，并将所述对象类型和对象位置作为所述至少一个目标对象的对象信息。

在一些实施例，所述获取目标图像，包括：获取针对目标空间的至少一个目标视角下的空间视频；对所述空间视频进行分帧，并对分帧后的视频帧进行去重处理，得到去重后视频帧；以及从所述去重后视频帧中筛选出至少一张视频帧，得到目标图像。

在一些实施例，所述基于所述总目标图像特征，确定所述至少一个目标对象的对象信息之后，还包括：将所述至少一个目标对象的对象信息进行融合，得到所述目标图像的目标对象信息；根据所述目标图像对应的目标视角和目标对象信息，确定所述目标空间的空间对象信息，所述空间对象信息包括所述目标空间内的每一对象的类型和位置；以及将所述空间对象信息发送至推荐服务器，以便所述推荐服务器基于空间对象信息进行推荐。

第二方面，本说明书还提供一种图像识别系统，包括：至少一个存储介质，存储有至少一个指令集，用于进行图像识别；以及至少一个处理器，同所述至少一个存储介质通信连接，其中，当所述图像识别系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书第一方面所述的图像识别的方法。

由以上技术方案可知，本说明书提供的图像识别的方法和系统，获取目标图像，该目标图像包括至少一个目标对象，从目标图像中识别出至少一个候选区域，该至少一个候选区域对应于至少一个目标对象，然后，基于至少一个候选区域中每个候选区域的尺寸，获取至少一个候选区域对应的总目标图像特征，以及基于总目标图像特征，确定至少一个目标对象的对象信息；由于该方案可以在目标图像中识别出目标对象对应的至少一个候选区域，然后，在不同尺度的对象检测场景中，基于候选区域的尺寸，采用不同的特征提取方式筛选出总目标图像特征，使得不同尺度的对象的图像特征提取更加准确，因此，可以提升图像识别的准确率。

本说明书提供的图像识别的方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的图像识别的方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种图像识别的系统的应用场景示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图；

图3示出了根据本说明书的实施例提供的一种图像识别的方法流程图；

图4示出了根据本说明书的实施例提供的一种多任务RPN网络的网络结构图；

图5示出了根据本说明书的实施例提供的一种针对不同尺度的目标对象的特征融合网络的网络结构图；以及

图6示出了根据本说明书的实施例提供的一种多尺度特征融合的对象检测模型的网络结构图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

在对本说明书具体实施例说明之前，先对本说明书的应用场景进行如下介绍：

在无人零售场景下，无人零售小店内的监控摄像头往往是必不可少的硬件设备，通过该设备可以采集到无人零售小店的视频信息，然后，通过视觉算法可以提取出视频的人物信息，再以推荐的方式赋能商家。但是受限于监控视角的位置以及视角内目标的尺度问题，无法准确检测出无人零售小店内的商品信息等。如果可以通过视觉方案对商品信息或顾客与商品的关系等进行有效的提取和统计，将对无人零售小店的多维度运营提供更宽广的数字化信息。

为了方便描述，本说明书将对以下描述将会出现的术语进行如下解释：

多尺度特征融合：在深度学习模型中，网络中的不同层对应不同的尺度，将对网络中不同层的特征进行融合。

目标检测：在图像或视频中找出感兴趣的物体或人，并同时检测出他们的位置和大小。不同于图像分类任务，目标检测不仅要解决分类问题，还要解决定位问题。

商铺监控视角，在商铺中的监控摄像头拍摄的视角，角度可以任意数值，比如，可以为偏45度俯视视角或者其他视角，在无人零售场景下，主要用于拍摄出商铺内的商品和顾客等等。另外，商铺中的商品可以有多种，比如，可以包括固定在货架上的商品还可以包括顾客手持的商品等等。

需要说明的是，上述无人零售场景只是本说明是提供的多个使用场景中的一个，本说明书所述的图像识别方法和系统不仅可以应用于无人零售场景，还可以应用于图像识别的所有场景，比如，针对航拍图像进行图像识别的场景，或者，针对微观视角下图像的图像识别场景，等等。本领域技术人员应当明白，本说明书所述的图像识别方法和系统应用于其他使用场景也在本说明书的保护范围内。

图1示出了根据本说明书的实施例提供的一种图像识别的系统001的应用场景示意图。图像识别的系统001(以下简称系统001)可以应用于任意场景的图像识别，比如，无人零售小店场景下的图像识别、航拍场景下的图像识别、微观场景下的图像识别，等等，如图1所示，系统001可以包括目标空间内的目标用户100、客户端200、服务器300以及网络400。

目标用户100可以为触发对目标图像进行识别的用户，目标用户100可以在客户端200进行图像识别的操作。

客户端200可以为响应于目标用户100的图像识别操作对目标图像进行识别的设备。在一些实施例中，所述图像识别的方法可以在客户端200上执行。此时，客户端200可以存储有执行本说明书描述的图像识别的方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，客户端200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。如图1所示，客户端200可以与服务器300进行通信连接。在一些实施例中，服务器300可以与多个客户端200进行通信连接。在一些实施例中，客户端200可以通过网络400与服务器300交互，以接收或发送消息等，比如接收或发送人脸图像或人脸特征，例如二维特征和/或三维特征。在一些实施例中，客户端200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容，或其中的任何组合。例如，所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，客户端200可以包括图像采集设备，用于采集目标空间内的视频或图像信息，从而获取目标图像。在一些实施例中，所述图像采集设备可以是二维图像采集设备(比如RGB摄像头)，也可以是二维图像采集设备(比如RGB摄像头)和深度图像采集设备(比如3D结构光摄像头、激光探测器，等等)。在一些实施例中，客户端200可以是具有定位技术的设备，用于定位客户端200的位置。

在一些实施例中，客户端200可以安装有一个或多个应用程序(APP)。所述APP能够为目标用户110提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于：网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱客户端、社交平台软件等等。在一些实施例中，客户端200上可以安装有目标APP。所述目标APP能够为客户端200采集目标空间内的视频或图像信息，从而得到目标图像。在一些实施例中，所述目标对象100还可以通过所述目标APP触发图像识别请求。所述目标APP可以响应于所述图像识别请求，执行本说明书描述的图像识别的方法。所述图像识别的方法将在后面的内容中详细介绍。

服务器300可以是提供各种服务的服务器，例如对客户端200上采集的目标图像提供支持的后台服务器。在一些实施例中，所述图像识别的方法可以在服务器300上执行。此时，服务器300可以存储有执行本说明书描述的图像识别的方法的数据或指令，并可以执行或用于执行所述数据或指令。在一些实施例中，服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。服务器300可以与多个客户端200通信连接，并接收客户端200发送的数据。

网络400用以在客户端200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示，客户端200和服务器300可以同网络400连接，并且通过网络400互相传输信息或数据。在一些实施例中，网络400可以是任何类型的有线或无线网络，也可以是其组合。比如，网络400可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络400可以包括一个或多个网络接入点。例如，网络400可以包括有线或无线网络接入点，如基站或互联网交换点，通过该接入点，客户端200和服务器300的一个或多个组件可以连接到网络400以交换数据或信息。

应该理解，图1中的客户端200、服务器300和网络400的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端200、服务器300和网络400。

需要说明的是，所述图像识别的方法可以完全在客户端200上执行，也可以完全在服务器300上执行，还可以部分在客户端200上执行，部分在服务器300上执行。

图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的图像识别的方法。所述图像识别的方法在本说明书中的其他部分介绍。当所述图像识别的方法在客户端200上执行时，计算设备600可以是客户端200。当所述图像识别的方法在服务器300上执行时，计算设备600可以是服务器300。当所述图像识别的方法可以部分在客户端200上执行，部分在服务器300上执行时，计算设备600可以是客户端200和服务器300。

如图2所示，计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中，计算设备600还可以包括通信端口650和内部通信总线610。同时，计算设备600还可以包括I/O组件660。

内部通信总线610可以连接不同的系统组件，包括存储介质630、处理器620和通信端口650。

I/O组件660支持计算设备600和其他组件之间的输入/输出。

通信端口650用于计算设备600同外界的数据通信，比如，通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。

存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的图像识别的方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时，至少一个处理器620读取所述至少一个指令集，并且根据所述至少一个指令集的指示，执行本说明书提供的图像识别的方法。处理器620可以执行图像识别的方法包含的所有步骤。处理器620可以是一个或多个处理器的形式，在一些实施例中，处理器620可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中心处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备600中仅描述了一个处理器620。然而，应当注意，本说明书中计算设备600还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备600的处理器620执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种图像识别的方法P100的流程图。如前，计算设备600可以执行本说明书的图像识别的方法P100。具体地，处理器620可以读取存储在其本地存储介质中的指令集，然后根据指令集的规定，执行本说明书的图像识别的方法P100。如图3所示，方法P100可以包括：

S110：获取目标图像。

其中，目标图像包括至少一个目标对象，目标对象的类型可以有多种，比如，以无人零售场景为例，目标图像就可以为客户端200或者监控设备采集到的无人零售小店监控视角下的图像，该目标图像就可以包括无人零售小店中商品、购买商品的用户或前来无人零售小店添加商品的商铺管理员，等等。

其中，获取目标图像的方式可以有多种，具体可以如下：

例如，处理器620可以获取针对目标空间的至少一个目标视角下的空间视频，对空间视频进行分帧，并对分帧后的视频帧进行去重处理，得到去重后视频帧，以及从去重后视频帧中筛选出至少一张视频帧，得到目标图像。

其中，空间视频可以为目标空间下部署的图像采集设备(监控设备)在至少一个目标视角下采集的视频，该空间视频可以为实时视频或非实时视频。获取针对目标空间的至少一个目标视角下的空间视频的方式可以有多种，比如，当空间视频为实时视频时，处理器620就可以在从目标空间内的部署的至少一个目标视角下的客户端200或监控设备中直接获取采集的实时视频，从而得到空间视频，当空间视频为非实时视频时，就可以根据监控设备的存储空间大小或者实际应用，设定一个采集周期，基于该采集周期，获取空间视频。

其中，在目标空间内部署的监控设备可以为多个，也就意味着存在多个目标视角(监控视角)，在获取空间视频时，可以获取全部目标视角下的视频，也还可以获取部分目标视角下的视频。以目标空间为无人零售小店为例，则目标视角就可以为商铺监视视角。

在获取空间视频后，便可以对空间视频进行分帧和去重，对空间视频进行分帧和去重处理的方式可以有多种，比如，处理器620可以在本地对空间视频进行分帧和去重，或者，还可以将空间视频发送至视频服务器，以便视频服务器对空间视频进行分帧和去重，并接收视频服务器返回的去重后视频帧。

在对空间视频进行分帧和去重之后，便可以从去重后视频帧中筛选出至少一张视频帧，从而得到目标图像。筛选出目标图像的方式可以有多种，比如，处理器620可以在目标图像中识别出前景和背景，将存在前景的视频帧就可以作为目标图像。以目标图像为无人零售小店的商铺照片为例，商铺照片中的前景就可以为商铺中的商品或顾客等，背景就可以为除了前景以外的内容。

S120：从目标图像中识别出至少一个候选区域。

其中，至少一个候选区域对应于至少一个目标对象，也就意味着目标图像的每一目标对象可以存在一个或多个与之对应的候选区域。所谓候选区域就可以为目标图像可能存在目标对象的区域，候选区域的尺寸可以为任意尺寸，由于候选区域完整包含可能存在的目标对象，因此，候选区域的尺寸就可以指示出该候选区域对应的目标对象的尺寸等信息。

其中，从目标图像中识别出至少一个候选区域的方式可以有多种，具体可以如下：

例如，处理器620可以在目标图像中识别出至少一个基础候选区域，对目标图像进行多维图像特征，得到基础图像特征，以及基于基础图像特征，在基础候选区域中检测出至少一个候选区域。

其中，基础候选区域对应于目标对象，所谓基础候选区域就可以理解为在目标图像中识别出的可能存在目标对象的区域，该基础候选区域主要作为候选区域识别的约束条件，也可以理解为ROI mask(感兴趣区域的遮罩)。由于目标图像中并不是每个位置都可能存在候选区域，因此，通过识别出基础候选区域之后，将该基础候选区域作为约束条件，使得重点在基础候选区域内识别出候选区域，从而可以提升候选区域的识别速度和识别精度。在目标图像识别中识别出至少一个基础候选区域的方式可以有多种，比如，处理器620可以采用级联Boosting检测器(一种对象检测器)作为预滤波器，得到目标对象的至少一个初始候选区域，计算至少一个初始候选区域的并集，从而得到至少一个基础候选区域，或者，还可以采用其他对象检测网络作为预滤波器，在目标图像中识别出至少一个基础候选区域，等等。

其中，基础图像特征包括每一维度所对应的图像特征，对目标图像进行多维图像特征提取的方式就可以有多种，比如，以维度为卷积层为例，处理器620可以采用多个卷积层(conv)进行串联，得到特征提取网络，通过该特征提取网络提取目标图像的图像特征，此时，特征提取网络中每一层卷积层都可以输出对应分辨率的图像特征，从而得到基础图像特征，或者，处理器620还可以采用其他网络结构作为特征提取网络，譬如，可以为VGG-16或者其他可以提取多个维度的图像特征的网络。

在识别出基础候选区域和提取出基础图像特征之后，便可以基于基础图像特征，在基础候选区域中检测出至少一个候选区域。检测出至少一个候选区域的方式可以有多种，比如，处理器620可以从基础图像特征中筛选出目标维度对应的图像特征，将基础候选区域投影至目标图像特征对应的特征图，得到目标图像特征图，在目标图像特征图中进行滑窗处理，以得到至少一个候选区域。

其中，从基础图像特征中筛选出目标维度对应的图像特征的方式可以有多种，比如，以维度为卷积层为例，处理器620在特征提取网络中确定出最后一层卷积层为目标维度，在基础图像特征中筛选出最后一层卷积层输出的图像特征，从而得到目标维度对应的图像特征。

在筛选出目标维度对应的图像特征之后，便可以将基础候选区域投影至图像特征对应的特征图。投影的方式可以有多种，比如，处理器620可以获取图像特征对应的特征图，并获取基础候选区域在目标图像中的位置信息，基于该位置信息，将基础候选区域直接投影至图像特征对应的特征图中，从而得到目标特征图，或者，还可以获取图像特征对应的特征图，并获取基础候选区域在目标图像中的位置信息，基于该位置信息，在特征图中标注出基础候选区域的位置，从而得到目标特征图。

在将基础候选区域投影至图像特征对应的特征图之后，便可以在目标特征图中进行滑窗处理。滑窗处理也可以称之为滑窗操作，通过预设尺寸的滑窗在目标特征图中按照固定的滑动步长进行滑动检测，在目标特征图中检测出存在目标对象的像素区域，从而得到至少一个候选区域，滑窗操作可以为均匀滑窗操作，也可以为非均匀滑窗操作。在目标图像特征图中进行滑窗处理的方式可以有多种，比如，处理器620可以基于预设滑窗的尺寸信息，在目标特征图中识别出每一预设滑窗与基础候选区域的位置关系，基于位置关系，确定预设滑窗的检测粒度，并基于检测粒度，在目标特征图中生成至少一个锚框，以及在至少一个锚框中筛选出至少一个目标锚框，并将目标锚框对应的区域作为候选区域。

其中，位置关系用于指示预设滑窗与基础候选区域之间的重合关系，因此，位置关系就可以有多种，比如，可以为重合、部分重合和不重合，等等。在重合的过程中，还可以根据重合程度，进行进一步细分。检测粒度可以为在滑窗过程中进行特征检测的精度信息，检测粒度越高，对应的检测精度就越高。基于位置关系，确定预设滑窗的检测粒度的方式可以有多种，比如，处理器620可以将位置关系转换为重合等级，在预设检测粒度集合中筛选出重合等级对应的检测粒度，这里的重合等级可以根据实际应用进行设定，譬如，可以设定为重合和不重合，也可以设定为完全重合、部分重合、不重合，等等，或者，还可以针对部分重合，根据重合面积划分重合等级；或者，还可以直接在预设检测粒度集合中筛选出该位置关系对应的检测粒度。

在确定出预设滑窗的检测粒度之后，便可以基于检测粒度，在目标特征图中生成至少一个锚框。所谓锚框(anchor box)可以为以每个像素为中心生成多个大小和宽高比(aspect ratio)不同的边界框。基于检测粒度，在目标特征图中生成至少一个锚框的方式可以有多种，比如，处理器620可以基于检测粒度，确定预设滑窗对应的滑窗步长，以及基于滑窗步长，在目标特征图中生成至少一个锚框。

其中，滑窗步长可以理解为在滑窗操作中预设滑窗进行检测时滑动的步长，滑窗步长越小，也就意味着滑窗操作检测的精度越高。基于检测粒度，确定预设滑窗对应的滑窗步长的方式可以有多种，比如，处理器620在预设滑窗步长集合中筛选出检测粒度对应的滑窗步长，筛选的原则在于检测粒度越高，精度要求越高，与之相对应的滑窗步长就越小。滑窗步长可以根据实际应用进行设定，比如，处理器620可以设定为预设滑窗与基础候选区域存在重合区域时，滑窗步长为1，预设滑窗与基础候选区域不存在重合区域时，滑窗步长为2，等等。根据不同的滑窗步长，就可以在目标图像特征图中做非均匀滑窗操作，对于存在重合区域时，预设滑窗进行滑窗操作时的检测精度就更高，对于不存在重合区域时，预设滑窗进行滑窗操作时的检测精度虽然相对低一些，但是可以提升相应的检测速度。

在目标特征图中生成至少一个锚框之后，便可以在至少一个锚框中筛选出至少一个目标锚框，所谓目标锚框可以理解为完整的包含可能存在的目标对象的锚框。筛选出至少一个目标锚框的方式可以有多种，比如，处理器620可以在目标特征图中提取出至少一个锚框对应的当前图像特征，基于当前图像特征，确定至少一个锚框对应的候选对象信息，以及基于候选对象信息，在至少一个锚框中筛选出目标锚框。

其中，候选对象信息可以理解为该锚框对应的可能存在的目标对象的对象信息，该对象信息的类型可以有多种，比如，处理器620可以包括对象类型以及该对象类型对应的概率或者得分(score)、对象位置(位置回归)和对象关键点信息(关键点回归)，等等。对于关键点信息来说，通常可以为目标对象的关键点的信息，该关键点的数量可以为任意数值，根据实际应用进行设定，比如，可以为5个或者多个，等等。基于当前图像特征，确定至少一个锚框对应的候选对象信息的方式可以有多种，比如，处理器620可以采用全连接层(FC层)对当前图像特征进行激活，然后，分别将激活后的当前图像特征分别进行分类处理、位置识别处理和关键点识别处理等等，输出该锚框对应的目标对象的对象类型、对象类型对应的分类概率、位置信息和关键点信息，从而得到锚框对应的候选对象信息。

在确定出至少一个锚框对应的候选对象信息之后，便可以基于候选对象信息，在至少一个锚框中筛选出目标锚框。筛选目标锚框的方式可以有多种，比如，处理器620可以在候选对象信息中提取出锚框对应的对象类型的分类概率或分类得分，在锚框中筛选出分类概率或分类得分大于预设阈值的至少一个锚框作为目标锚框。

其中，在目标图像中识别出至少一个候选区域的网络结构可以看作是基于级联Boosting对象检测约束的多任务RPN网络，主要可以包括级联Boosting对象检测器、多维特征提取网络和多任务RPN网络(一种区域候选网络)。Boosting对象检测器主要用于识别出基础候选区域，并通过候选区域对候选区域进行约束。通过Boosting对象检测器进行区域约束可以减少在目标图像中进行筛选的区域，从而提升候选区域的识别效率，而且，还可以提升候选区域识别的准确率。多维特征提取网络主要用于提取出目标图像的多个维度的图像特征。多任务RPN网络主要用于在图像特征对应的特征图中进行非均匀滑窗操作，生成至少一个锚框，并识别出每一锚框对应的对象类型、对象位置和关键点信息。以对象类型为K个，且目标特征图为conv5_3层输出的特征图为例，多任务RPN网络的网络结构可以如图4所示，在识别候选区域的过程中，将与基础候选区域重叠的滑窗的滑窗步长设定为1，将与基础候选区域不重叠的滑窗的滑窗步长设定为2，在目标特征图中进行非均匀滑窗操作，生成K个不同长宽比的锚框，将该锚框对应的当前图像特征输入中间层，此时，当前图像特征的维度为512维，然后，分别将当前图像特征输入至分类层、目标框回归的回归函数层，回归函数层可以包括位置回归层和关键点回归层。分类层输出2k个得分(scores)，位置回归层输出4k个角点的坐标信息，关键点回归层输出(5*2k)个关键点坐标，从而得到每一锚框对应的候选对象信息。然后，基于2k个分类得分，确定该锚框的分类结果，基于分类结果，在锚框中筛选出存在目标对象的锚框作为目标锚框，并将目标锚框对应的区域作为候选区域，此时，就可以得到候选区域对应的目标对象的对象类型、对象位置和关键点位置，等等。通过非均匀RPN网络可以在基础候选区域的约束的条件下，对基础候选区域重合滑窗区域进行更加细粒度的目标检测，从而可以提升候选区域的识别精度，而且，对基础候选区域不重合的滑窗区域进行粗粒度的目标检测，还可以提升候选区域的识别效率。因此，通过基于级联Boosting对象检测约束的多任务RPN网络，可以提升候选区域的识别准确率和识别效率。

S130：基于至少一个候选区域中每个候选区域的尺寸，获取至少一个候选区域对应的总目标图像特征。

其中，候选区域的尺寸可以理解为候选区域的多个角点构成的区域边界的尺寸信息，该尺寸可以表示候选区域大小和位置，等等。

其中，总目标图像特征可以理解为将每一候选区域的目标图像特征进行融合后所得到的目标图像，该总目标图像特征用于直接确定至少一个目标对象的对象信息。

其中，基于至少一个候选区域中每个候选区域的尺寸，获取至少一个候选对应的总目标图像特征的方式可以有多种，具体可以如下：

例如，处理器620可以基于至少一个候选区域中每个候选区域的尺寸，获取每个候选区域对应的目标图像特征，将目标图像特征进行融合，得到至少一个候选区域对应的总目标图像特征，具体可以如下：

S131：基于至少一个候选区域中每个候选区域的尺寸，获取每个候选区域对应的目标图像特征。

例如，处理器620可以在基础图像特征中筛选出预设多个维度的基础图像特征，得到至少一个候选区域中每个候选区域对应的区域图像特征集合，以及基于每个候选区域的尺寸，对区域图像特征集合中的图像特征进行融合，得到每个候选区域的目标图像特征。

其中，区域图像特征集合可以包括多个维度的基础图像特征中对应的候选区域的图像特征。在基础图像特征中筛选出候选区域对应的区域图像特征集合的方式可以有多种，比如，处理器620可以在基础图像特征中筛选出预设多个维度的基础图像特征，得到候选图像特征集合，在候选图像特征集合中筛选出每个候选区域对应的区域图像特征，从而得到每个候选区域对应的区域图像特征集合。预设维度可以根据实际应用进行设定，预设维度可以为一个或多个任意的维度，比如，以维度为卷积层，卷积层包含conv1-conv5为例，处理器620就可以在基础图像特征中筛选出conv3-conv5的最后一层卷积层输出的基础图像特征作为候选图像特征，从而得到候选图像特征集合，或者，还可以在conv1-conv5中筛选出任意一个多个卷积层输出的基础图像特征作为候选图像特征，从而得到候选图像特征集合。根据候选区域的位置或尺寸等，在候选图像特征集合中的每一候选图像特征中筛选出该位置或尺寸对应的图像特征，从而得到候选区域对应的区域图像特征集合。

在筛选出候选区域对应的区域图像特征集合之后，便可以基于每个候选区域的尺寸，对区域图像特征集合中的图像特征进行融合。对区域图像特征集合中的图像特征进行融合的方式可以有多种，比如，处理器620当候选区域的尺寸小于预设尺寸阈值时，对区域图像特征集合中的图像特征进行融合，得到候选区域的目标图像特征。

其中，预设尺寸阈值可以根据实际应用进行设定，针对大于该预设尺寸阈值的候选区域，就可以直接将区域图像特征集合中的图像特征作为候选区域的目标图像特征，无需对区域图像特征集合中的图像特征进行语义增强。针对小于该预设尺寸阈值的候选区域，就可以对区域图像特征集合中的图像特征进行融合，从而实现低层图像特征的语义增强。对区域图像特征集合中的图像特征进行融合的方式可以有多种，比如，处理器620可以基于候选区域的尺寸，在区域图像特征集合中筛选出候选区域对应的多个图像特征，得到目标图像特征组，对目标图像特征中的图像特征进行融合，以得到候选区域的目标图像特征。

其中，基于候选区域的尺寸，在区域图像特征集合中筛选出候选区域对应的多个图像特征的方式可以有多种，比如，处理器620可以基于候选区域的尺寸，确定候选区域对应的目标对象的对象尺度，在区域图像特征集合中筛选出对象尺度对应的多个图像特征，得到目标图像特征组。

其中，对象尺度可以理解为在特定尺度范围内评价目标对象的大小或尺寸的信息，对象尺度可以根据实际应用进行设定，对象尺度可以为一个或多个尺度等级，也可以为一个具体的尺度信息，等等。基于候选区域的尺寸，确定候选区域对应的目标对象的对象尺度的方式可以有多种，比如，处理器620可以获取预设对象尺度集合，并在预设对象尺度集合中筛选出候选区域的尺寸对应的对象尺度，从而得到该候选区域对应的目标对象的对象尺度，或者，可以基于候选区域的尺寸，确定该候选区域的区域尺度，获取候选区域对应的目标对象的候选对象信息，基于候选对象信息，对区域尺度进行调整，得到调整后区域尺度，并将该调整后区域尺度作为该候选区域对应的目标对象的对象尺度。

其中，区域尺度可以理解为在特定尺度范围内评价候选区域的大小或尺寸的信息，与对象尺度类似。确定候选区域的区域尺度的方式可以有多种，比如，处理器620可以获取预设区域尺度集合，在预设区域尺度集合中筛选出候选区域尺寸对应的区域尺度。

在确定候选区域的区域尺度之后，便可以基于该候选区域对应的目标对象的候选对象信息对区域尺度进行调整。对区域尺度进行调整的方式可以有多种，比如，处理器620将候选对象信息与区域尺度进行匹配，当候选对象信息与区域尺度匹配时，就无需对区域尺度进行调整，并将该区域尺度作为该候选区域对应的目标对象的对象尺度，当候选对象信息与区域尺度不匹配时，根据候选对象信息，确定针对区域尺度的尺度调整信息，并基于尺度调整信息，对区域尺度进行调整，从而得到调整后区域尺度，并将调整后区域尺度作为该候选区域对于的目标对象的对象尺度。

在确定候选区域对应的目标对象的对象尺度之后，便可以在区域图像特征集合中筛选出对象尺度对应的多个图像特征，得到目标图像特征组。在区域图像特征集合中筛选出对象尺度对应的多个图像特征的方式可以有多种，比如，处理器620根据区域图像特征集合中的图像特征对应的分辨率或者特征尺度，对区域图像特征集合中的图像特征进行分类，基于分类结果，在区域图像特征集合中筛选出该对象尺度对应的类型的图像特征，从而得到目标图像特征组。在筛选的过程中，对象尺度越大，所对应的图像特征的分辨率就越小，比如，以对象尺度分为大、中和小，且区域图像特征集合中的图像特征分别为conv3-conv5的最后一层卷积层输出的基础图像特征为例，小尺度的目标对象所对应的图像特征就可以为conv3-conv4的卷积层输出的多个基础图像特征，中尺度的目标对象所对应的图像特征就可以为conv4-conv5的卷积层输出的多个图像特征。另外，不同对象尺度所对应的图像特征也可以存在部分重合的特征。

在筛选出目标图像特征组之后，便可以将目标图像特征组中的图像特征进行融合，以得到候选区域的目标图像特征。将目标图像特征在中的图像特征进行融合的方式可以有多种，比如，处理器620可以在目标图像特征组中筛选出待增强图像特征和待增强图像特征对应的邻近图像特征，采用邻近图像特征对待增强图像特征进行语义增强，得到增强后图像特征，将增强后图像特征和区域图像特征集合中除待增强图像特征以外的图像特征作为候选区域的目标图像特征。

其中，待增强图像特征可以理解为低语义信息的图像特征，也可以称之为低层特征。在图像特征中，分辨率越高，该图像特征中所包含的语义信息就越低。与之对应的是低分辨率、高语义信息的高层特征。待增强图像特征对应的邻近图像特征可以理解为在输出的基础图像特征，分辨率与待增强图像对应的分辨率相邻近的图像特征，也可以理解为输出待增强图像特征的卷积层的邻近卷积层输出的图像特征。邻近图像特征的数量可以为一个或者多个，需要说明的是，邻近图像特征对应的分辨率小于待增强图像特征对应的分辨率，因此，邻近图像特征比待增强图像具有更多的语义信息，从而才可以通过邻近图像特征对待增强图像特征进行语义增强。在目标图像特征组中筛选出待增强图像特征和待增强图像特征对应的邻近图像特征的方式可以有多种，比如，处理器620可以基于目标图像特征组中的图像特征对应的图像分辨率，对目标图像特征组中的图像特征进行排序，以及基于排序结果，在目标图像特征组中筛选出至少一个待增强图像特征和待增强图像特征的邻近图像特征。

其中，基于排序结果，在目标图像特征组中筛选出至少一个待增强图像特征和待增强图像的邻近图像特征的方式可以有多种，比如，处理器620可以在目标图像特征组中筛选出图像分辨率TOP K的图像特征作为待增强图像特征，以目标图像特征组中的图像特征数量为N为例，则K可以为小于N的任意数值。基于排序结果，在目标图像特征组中除待增强图像特征以外的剩余图像特征中筛选出与待增强图像特征相邻的图像特征，从而得到邻近图像特征，邻近图像特征的数量可以为小于(N-K)的任意数值。

在筛选出待增强图像特征和邻近图像特征之后，便可以采用邻近图像特征对待增强图像特征进行语义增强。对待增强图像特征进行语义增强的方式可以有多种，比如，处理器620可以对邻近图像特征进行上采样，得到目标邻近图像特征，将目标邻近图像特征与待增强图像特征进行融合，得到融合后图像特征，以及对待增强图像特征的通道数进行调整，并将调整后待增强图像特征与融合后图像特征进行像素相加，得到增强后图像特征。

其中，对邻近图像特征进行上采样的方式可以有多种，比如，处理器620可以采用最近邻上采样(Nearestneighborupsampling)对邻近图像特征进行上采样，或者，采用其他上采样算法对邻近图像特征进行上采样。对邻近图像特征进行上采样的次数可以为一次或多次，可以根据实际应用进行设定，或者，还可以根据邻近图像特征的图像尺寸，确定上采样的次数。

其中，对待增强图像特征的通道数进行调整的方式可以有多种，比如，处理器620可以采用1*1像素的卷积层对待增强图像特征的通道数进行调整，从而降低待增强图像特征的通道数，或者，还可以采用其他可以降低图像特征的算法，对待增强图像特征的通道数进行降低，从而得到调整后待增强图像特征。

在对待增强图像特征进行语义增强之后，便可以将增强后图像特征和区域图像特征集合中除待增强图像特征以外的图像特征作为候选区域的目标图像特征。根据候选区域的尺寸，筛选出不同的待增强图像特征，并对待增强图像特征进行语义增强，从而可以将低分辨率、高语义信息的高层特征(邻近图像特征)更好的融入到高分辨率、低语义信息的低层特征(待增强图像特征)中，可以大大提升候选区域的目标图像特征的精度，从而提升图像识别的准确率。

在一些实施例中，处理器620当候选区域的尺寸大于预设尺寸阈值时，将区域图像特征集合中的图像特征作为候选区域的目标图像特征。因此，针对大于该预设尺寸阈值的候选区域，就可以直接将区域图像特征集合中的图像特征作为候选区域的目标图像特征，无需对区域图像特征集合中的图像特征进行语义增强。

其中，在获取候选区域的目标图像特征的过程中，不同候选区域的尺寸，可以通过不同的网络结构对候选区域的区域图像特征集合中的图像特征进行融合。候选区域的尺寸又可以指示该候选区域对应的目标对象的对象尺度，也就可以理解为针对不同对象尺度的目标对象，采用不同的网络结构来提取该目标对象对应的目标图像特征。以对象尺度分为大、中和小三种，将尺寸大于预设尺寸阈值的候选区域对应的目标对象为大目标对象，将尺寸小于预设尺寸阈值的候选区域对应的目标对象呢分为小目标对象和中目标对象，区域图像特征集合中的图像特征为conv3-conv5的最后一层卷积层输出的基础图像特征为例，针对三种不同尺度的目标对象的特征融合网络的网络结构可以如图5所示，包括了三种不同对象尺度对应的特征金字塔结构，图5(a)表示小目标对象的网络结构(网络连接方式)，将conv4_3的特征图(邻近图像特征)用最近邻上采样的方法进行2次上采样操作，随后将经过上采样后的特征图(目标邻近图像特征)和与其相关的低层特征图(待增强图像特征conv3_3)相融合。另外，再将conv3_3的特征图(待增强图像特征)通过1×1像素的卷积层降低通道数，然后将经过上采样后的特征图(目标邻近图像特征)和经过1×1像素卷积层后的特征图(调整后待增强图像特征)进行像素相加操作，从而得到了增强语义信息的conv3_3特征图(增强后图像特征)表示为P3_3。最后分别将P3_3、conv4_3和conv5_3输出的基础图像特征作为该小目标对象的候选区域的目标图像特征。图5(b)表示中目标对象的网络结构(网络连接方式)，语义增强方式与小目标对象的网络结构类似，不同的是，待增强图像特征为conv4_3输出的基础图像特征，conv5_3输出的基础图像特征为邻近图像特征。图5(c)表示大目标对象的网络结构，可以发现针对大目标对象对应的候选区域来说，无需进行语义增强，因此，将conv3_3、conv4_3和conv5_3分别输出的基础图像特征直接作为该候选区域的目标图像特征。因此，针对不同的候选区域尺寸和对应的目标对象的对象尺度，采用不同的特征融合网络结构，使得获取到候选区域的目标图像特征更加准确，而且还可以针对不同尺度的目标进行目标检测，从而大大提升了图像识别的准确率。

S132：将目标图像特征进行融合，得到至少一个候选区域对应的总目标图像特征。

例如，处理器620可以对目标图像特征进池化处理，得到池化后图像特征，对池化后图像特征进行归一化处理，得到归一化后图像特征，以及将归一化后图像特征进行拼接，得到至少一个候选区域对应的总目标图像特征。

其中，由于各个候选区域的尺寸不同，使得候选区域对应的目标图像特征的大小也不相同。对目标图像特征进行池化处理，就可以提取出大小相同的池化后图像特征。对目标图像特征进行池化处理的方式可以有多种，比如，处理器620可以采用ROI Pooling层对目标图像特征进行池化处理，从而得到池化后图像特征，或者，还可以采用其他池化层对目标图像特征进行池化处理，从而得到池化后图像特征。

其中，采用ROI Pooling层对目标图像特征进行池化处理的方式可以有多种，比如，处理器620可以基于预设区域尺寸，对至少一个候选区域进行切分，得到预设尺寸的至少一个候选子区域，在目标图像特征中提取出至少一个图像子特征，该至少一个图像子特征对应于至少一个候选子区域，以及对至少一个图像子特征进行池化处理，得到池化后图像特征。

其中，对池化后图像特征进行归一化处理的方式可以有多种，比如，处理器620可以采用L2 Normalize(L2归一化算法)对池化后图像特征进行归一化处理，从而得到归一化后图像特征，或者，还可以采用其他可以对池化后图像特征进行归一化的归一化算法进行归一化处理，从而得到归一化后图像特征。

在对池化后图像特征进行归一化后，便可以将归一化后图像特征进行拼接。将归一化后图像特征进行拼接的方式可以有多种，比如，处理器620可以直接将归一化后图像特征进行拼接或融合，得到至少一个候选区域对应的总目标图像特征，或者，还可以获取归一化后图像特征对应的加权系数，基于该加权系数，分别对归一化后图像特征进行加权，并将加权后图像特征进行拼接或融合，得到至少一个候选区域对应的总目标图像特征，或者，还可以根据归一化后图像特征对应的像素位置，在归一化后图像特征中筛选出至少一个目标归一化后图像特征，并将目标归一化后图像进行拼接或融合，从而得到至少一个候选区域对应的总目标图像特征。

S140：基于总目标图像特征，确定至少一个目标对象的对象信息。

其中，对象信息可以为目标对象的对象类型、对象位置、对象标识或者其他可以表征该目标对象的信息，等等。

其中，基于总目标图像特征，确定至少一个目标对象的对象信息的方式可以有多种，具体可以如下：

例如，处理器620可以对总目标图像特征的特征通道数进行调整，得到至少一个目标对象的对象特征，以及在对象特征中检测出至少一个目标对象中每个目标对象的对象类型和对象位置，并将对象类型和对象位置作为至少一个目标对象的对象信息。

其中，对象特征可以为表征目标对象的类型、位置或其他标识的特征信息。对总目标图像特征的特征通道数进行调整的方式可以有多种，比如，处理器620可以采用1*1像素的卷积层对总目标图像特征的特征通道数进行降低，从而得到至少一个目标对象的对象特征，或者，还可以采用其他对特征通道数降低的算法，对总目标图像特征进行特征通道数降低，从而得到至少一个目标对象的对象特征。

在对总目标图像特征的特征通道数进行调整之后，便可以在对象特征中检测出至少一个目标对象中每个目标对象的对象类型和对象位置。在对象特征中检测出对象类型和对象位置的方式可以有多种，比如，处理器620可以采用全连接层(FC层)对对象特征进行激活，并将激活后的对象特征输入至分类层和回归函数层，通过分类层输出每个目标对象的对象类型，并通过回归函数层输出每个目标对象的对象位置。将对象类型和对象位置作为至少一个目标对象的对象信息。

其中，分类层的的网络结构可以有多种，比如，可以采用softmax网络结构，或者，MLP网络结构，或者，其他可以用于二分类或多分类的网络结构。分类层输出的对象类型可以有多种，比如，针对物品来说，可以为该物品的标识或类型，针对用户或人来说，就可以为该用户/人的身份标识，等等。

其中，对象位置可以为目标对象在目标图像中的位置信息，也可以为该目标对象在目标图像对应的目标空间内的位置信息。

其中，针对目标图像中不同尺度的目标对象的目标检测，可以采用多尺度特征融合的对象检测模型，该对象检测模型的网络结构可以如图6所示，主要包含区域识别网络(多任务RPN网络)和对象检测网络(并联式Fast R-CNN)两部分。区域识别网络中的卷积层的数量可以根据实际应用进行设定。该区域识别网络主要用于在目标图像中识别出至少一个候选区域。在识别候选区域的过程中，通过级联Boosting对象检测器作为预滤波器，在目标图像中识别出基础候选区域，然后，基于该基础候选区域通过滑窗步长进行约束，通过不同粒度的滑窗精度进行滑窗操作，可以提升滑窗检测的检测效率和检测精度，进而提升图像识别的准确率。对象检测网络可以为基于区域尺度的并联式Fast R-CNN。通过不同的候选区域的尺寸，确定每个候选区域对应的目标对象的对象尺度，然后，基于对象尺度，采用不同的特征融合网络进行特征融合，从而得到每一对象尺度对应的目标图像特征，并基于目标图像特征，确定至少一个目标对象的对象信息。图(6)中所示的对象尺度以大中小三级为例，在实际应用中，对象尺度可以根据实际应用进行设定，也就意味并联式Fast R-CNN的并行通道取决于设定的对象尺度的层级或数量。对象检测网络可以根据对象尺度不同，采用不同的特征融合，将低分辨率、高语义信息的高层特征更好的融入到高分辨率、低语义信息的低层特征中，从而提升了提取出的候选区域对应的目标图像特征的特征精度，而且，在无人零售小店的场景下还可以针对不同尺度的目标对象进行检测，从而避免因为对象尺度变化较大出现漏检的情况。

在一些实施例中，在基于总目标图像特征，确定至少一个目标对象的对象信息之后，还可以基于确定出的对象信息进行推荐，进行推荐的方式可以有多种，比如，处理器620可以将至少一个目标对象的对象信息进行融合，得到目标图像的目标对象信息，根据目标图像对应目标视角和目标对象信息，确定目标空间的空间对象信息，以及将空间对象信息发送至推荐服务器，以便该推荐服务器基于空间对象信息进行推荐，或者，还可以将目标图像和至少一个目标对象的对象信息发送至推荐服务器，以便推荐服务器进行推荐。

其中，空间对象信息包括目标空间内的每一对象的类型和位置等信息，根据目标图像对应的目标视角和目标对象信息，确定目标空间的空间对象信息的方式可以有多种，比如，处理器620可以将每一目标视角对应的目标图像进行去重和拼接，得到目标空间对应的空间图像，基于空间图像，将至少一个目标对象的对象信息进行融合，得到该目标空间的空间对象信息。以目标空间为无人零售场景下的无人零售小店，目标图像为商铺图像为例，就可以基于无人零售小店内的监控视角，将每一监控视角对应的商铺图像进行去重和拼接，就可以得到无人零售小店的全景商铺图像。将每一商铺图像中包括的商品和顾客的信息进行融合，就可以得到该无人零售小店在商铺图像对应的采集时刻对应的商品的类型和位置、以及顾客的身份信息和位置，等等，将这些作为无人零售小店的空间对象信息。

在确定出空间对象信息之后，便可以将空间对象信息发送至推荐服务器，以便推荐服务器进行推荐。推荐服务器进行推荐的方式可以有多种，比如，以目标空间为无人零售小店为例，推荐服务器基于提取出的空间对象信息，可以统计出无人零售小店在历史时间内的销售信息或其他商铺信息，从而得到无人零售小店的数字化信息，将这些数字化信息推荐至运营方法，使得运营方可以采用多维度的运营方式对无人零售小店进行运营，或者，还可以推荐至第三方平台，以便第三方平台根据无人零售小店的数字化信息进行更多的应用，譬如，可以进行税务监督或质量监督，等等。

其中，处理器620将目标图像和至少一个目标对象的对象信息发送至推荐服务器进行推荐的方式与将空间对象信息发送至推荐服务器进行推荐的方式类型，可以参见上文所述，在此就不再一一赘述。

综上所述，本说明书提供的图像识别的方法P100和系统001，获取目标图像，该目标图像包括至少一个目标对象，从目标图像中识别出至少一个候选区域，该至少一个候选区域对应于至少一个目标对象，然后，基于至少一个候选区域中每个候选区域的尺寸，获取至少一个候选区域对应的总目标图像特征，以及基于总目标图像特征，确定至少一个目标对象的对象信息；由于该方案可以在目标图像中识别出目标对象对应的至少一个候选区域，然后，在不同尺度的对象检测场景中，基于候选区域的尺寸，采用不同的特征提取方式筛选出总目标图像特征，使得不同尺度的对象的图像特征提取更加准确，因此，可以提升图像识别的准确率。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来进行图像识别的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的图像识别的方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备600上运行时，所述程序代码用于使计算设备600执行本说明书描述的图像识别的方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备600上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种图像识别方法，包括：

获取目标图像，所述目标图像包括至少一个目标对象；

从所述目标图像中识别出至少一个候选区域，所述至少一个候选区域对应于至少一个目标对象；

基于所述至少一个候选区域中每个候选区域的尺寸，获取所述至少一个候选区域对应的总目标图像特征；以及

基于所述总目标图像特征，确定所述至少一个目标对象的对象信息。

2.根据权利要求1所述的图像识别方法，其中，所述从所述目标图像中识别出至少一个候选区域，包括：

在所述目标图像中识别出至少一个基础候选区域，所述至少一个基础候选区域对应于所述目标对象；

对所述目标图像进行多维图像特征提取，得到基础图像特征，所述基础图像特征包括每一维度所对应的图像特征；以及

基于所述基础图像特征，在所述基础候选区域中检测出至少一个候选区域。

3.根据权利要求2所述的图像识别方法，其中，所述基于所述基础图像特征，在所述基础候选区域中检测出至少一个候选区域，包括：

从所述基础图像特征中筛选出目标维度对应的图像特征；

将所述基础候选区域投影至所述图像特征对应的特征图，得到目标特征图；

在所述目标特征图中进行滑窗处理，以得到至少一个候选区域。

4.根据权利要求3所述的图像识别方法，其中，所述在所述目标特征图中进行滑窗处理，以得到至少一个候选区域，包括：

基于预设滑窗的尺寸信息，在所述目标特征图中识别出每一预设滑窗与所述基础候选区域的位置关系；

基于所述位置关系，确定所述预设滑窗的检测粒度，并基于所述检测粒度，在所述目标特征图中生成至少一个锚框；以及

在所述至少一个锚框中筛选出至少一个目标锚框，并将所述目标锚框对应的区域作为候选区域。

5.根据权利要求4所述的图像识别方法，其中，所述基于所述检测粒度，在所述目标特征图中生成至少一个锚框，包括：

基于所述检测粒度，确定所述预设滑窗对应的滑窗步长；以及

基于所述滑窗步长，在所述目标特征图中生成至少一个锚框。

6.根据权利要求4所述的图像识别方法，其中，所述在所述至少一个锚框中筛选出至少一个目标锚框，包括：

在所述目标特征图中提取出所述至少一个锚框对应的当前图像特征；

基于所述当前图像特征，确定所述至少一个锚框对应的候选对象信息；以及

基于所述候选对象信息，在所述至少一个锚框中筛选出所述目标锚框，所述目标锚框中包括所述目标对象。

7.根据权利要求2所述的图像识别方法，其中，所述基于所述至少一个候选区域中每个候选区域的尺寸，获取所述至少一个候选区域对应的总目标图像特征，包括：

基于所述至少一个候选区域中每个候选区域的尺寸，获取所述每个候选区域对应的目标图像特征；

将所述目标图像特征进行融合，得到所述至少一个候选区域对应的总目标图像特征。

8.根据权利要求7所述的图像识别方法，其中，所述基于所述至少一个候选区域中每个候选区域的尺寸，获取所述每个候选区域对应的目标图像特征，包括：

在所述基础图像特征中筛选出预设多个维度的基础图像特征，得到所述至少一个候选区域中每个候选区域对应的区域图像特征集合；以及

基于所述每个候选区域的尺寸，对所述区域图像特征集合中的图像特征进行融合，得到所述每个候选区域的目标图像特征。

9.根据权利要求8所述的图像识别方法，其中，所述基于所述每个候选区域的尺寸，对所述区域图像特征集合中的图像特征进行融合，得到所述每个候选区域的目标图像特征，包括：

当所述候选区域的尺寸小于预设尺寸阈值时，对所述区域图像特征集合中的图像特征进行融合，得到所述候选区域的目标图像特征。

10.根据权利要求9所述的图像识别方法，其中，所述对所述区域图像特征集合中的图像特征进行融合，得到所述候选区域的目标图像特征，包括：

基于所述候选区域的尺寸，在所述区域图像特征集合中筛选出所述候选区域对应的多个图像特征，得到目标图像特征组；以及

对所述目标图像特征组中的图像特征进行融合，以得到所述候选区域的目标图像特征。

11.根据权利要求10所述的图像识别方法，其中，所述基于所述候选区域的尺寸，在所述区域图像特征集合中筛选出所述候选区域对应的多个图像特征，得到目标图像特征组，包括：

基于所述候选区域的尺寸，确定所述候选区域对应的目标对象的对象尺度；以及

在所述区域图像特征集合中筛选出所述对象尺度对应的多个图像特征，得到目标图像特征组。

12.根据权利要求10所述的图像识别方法，其中，所述对所述目标图像特征组中的图像特征进行融合，以得到所述候选区域的目标图像特征，包括：

在所述目标图像特征组中筛选出待增强图像特征和所述待增强图像特征对应的邻近图像特征；

采用所述邻近图像特征对所述待增强图像特征进行语义增强，得到增强后图像特征；以及

将所述增强后图像特征和所述区域图像特征集合中除所述待增强图像特征以外的图像特征作为所述候选区域的目标图像特征。

13.根据权利要求12所述的图像识别方法，其中，所述在所述目标图像特征组中筛选出待增强图像特征和所述待增强图像特征对应的邻近图像特征，包括：

基于所述目标图像特征组中的图像特征对应的图像分辨率，对所述目标图像特征组中的图像特征进行排序；以及

基于排序结果，在所述目标图像特征组中筛选出至少一个待增强图像特征和所述待增强图像特征的邻近图像特征。

14.根据权利要求12所述的图像识别方法，其中，所述采用所述邻近图像特征对所述待增强图像特征进行语义增强，得到增强后图像特征，包括：

对所述邻近图像特征进行上采样，得到目标邻近图像特征；

将所述目标邻近图像特征与所述待增强图像特征进行融合，得到融合后图像特征；以及

对所述待增强图像特征的通道数进行调整，并将调整后待增强图像特征与所述融合后图像特征进行像素相加，得到增强后图像特征。

15.根据权利要求8所述的图像识别方法，其中，所述基于所述每个候选区域的尺寸，对所述区域图像特征集合中的图像特征进行融合，得到所述每个候选区域的目标图像特征，包括：

当所述候选区域的尺寸大于所述预设尺寸阈值时，将所述区域图像特征集合中的图像特征作为所述候选区域的目标图像特征。

16.根据权利要求7所述的图像识别方法，其中，所述将所述目标图像特征进行融合，得到所述至少一个候选区域对应的总目标图像特征，包括：

对所述目标图像特征进行池化处理，得到池化后图像特征；

对所述池化后图像特征进行归一化处理，得到归一化后图像特征；以及

将所述归一化后图像特征进行拼接，得到所述至少一个候选区域对应的总目标图像特征。

17.根据权利要求16所述的图像识别方法，其中，所述对所述目标图像特征进行池化处理，得到池化后图像特征，包括：

基于预设区域尺寸，对所述至少一个候选区域进行切分，得到所述预设尺寸的至少一个候选子区域；

在所述目标图像特征中提取出至少一个图像子特征，所述至少一个图像子特征对应于所述至少一个候选子区域；以及

对所述至少一个图像子特征进行池化处理，得到池化后图像特征。

18.根据权利要求1所述的图像识别方法，其中，所述基于所述总目标图像特征，确定所述至少一个目标对象的对象信息，包括：

对所述总目标图像特征的特征通道数进行调整，得到所述至少一个目标对象的对象特征；以及

在所述对象特征中检测出所述至少一个目标对象中每个目标对象的对象类型和对象位置，并将所述对象类型和对象位置作为所述至少一个目标对象的对象信息。

19.根据权利要求1所述的图像识别方法，其中，所述获取目标图像，包括：

获取针对目标空间的至少一个目标视角下的空间视频；

对所述空间视频进行分帧，并对分帧后的视频帧进行去重处理，得到去重后视频帧；以及

从所述去重后视频帧中筛选出至少一张视频帧，得到目标图像。

20.根据权利要求19所述的图像识别方法，其中，所述基于所述总目标图像特征，确定所述至少一个目标对象的对象信息之后，还包括：

将所述至少一个目标对象的对象信息进行融合，得到所述目标图像的目标对象信息；

根据所述目标图像对应的目标视角和目标对象信息，确定所述目标空间的空间对象信息，所述空间对象信息包括所述目标空间内的每一对象的类型和位置；以及

将所述空间对象信息发送至推荐服务器，以便所述推荐服务器基于空间对象信息进行推荐。

21.一种图像识别系统，包括：

至少一个存储介质，存储有至少一个指令集，用于进行图像识别；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述图像识别系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行权利要求1-20中任一项所述的图像识别的方法。