CN108805004B

CN108805004B - 功能区域检测方法和装置、电子设备、存储介质

Info

Publication number: CN108805004B
Application number: CN201810326589.2A
Authority: CN
Inventors: 张展鹏; 成慧; 蔡俊浩; 林倞
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2021-09-14
Anticipated expiration: 2038-04-12
Also published as: CN108805004A

Abstract

本发明实施例公开了一种功能区域检测方法和装置、电子设备、存储介质，其中，方法包括：分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征；融合所述功能区域的特征和所述物体区域的特征，得到融合特征；基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，确定所述待检测图像中的功能区域的位置和类别。本发明实施例可以确定待检测图像中的功能区域的位置和类别，结合功能区域附近区域的特征，提高了功能区域检测的精度。

Description

功能区域检测方法和装置、电子设备、存储介质

技术领域

本发明涉及计算机视觉技术，尤其是一种功能区域检测方法和装置、电子设备、存储介质。

背景技术

深度学习在物体分类和检测中都取得了很大的进展，在认知领域也得到广泛的应用；例如：认知机器人，在执行具体的操作之前，必须定位出执行操作的区域。例如，一个机器人需要打开一个抽屉，它需要判断是否存在一个“球面物体抓取”的操作区域，以及这个区域里面把手的位置。给定一个特定的场景图片，定位这种功能性区域的问题可称为功能区域检测。其他功能区域的例子：“关水龙头”、“抓圆柱体”、“提挂钩”、“坐”、“躺”等。

有了这种功能性的知识，机器人可以通过不同的动作以及任务与人和物体交互。

发明内容

本发明实施例提供的一种功能区域检测技术。

根据本发明实施例的一个方面，提供的一种功能区域检测方法，包括：

分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征，所述功能区域为所述物体区域中物体的可操作部分；

融合所述功能区域的特征和所述物体区域的特征，得到融合特征；

基于所述功能区域检测网络的第三网络分支及所述融合特征，确定所述待检测图像中的功能区域的位置和类别。

可选地，所述分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征，包括：

基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到功能区域对应的功能区域的特征；

基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象区域对应的物体区域的特征。

可选地，所述基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到功能区域对应的功能区域的特征，包括：

基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到至少一个第一候选框，每个所述候选框对应一个功能区域；

基于所述至少一个第一候选框，得到至少一个功能区域对应的功能区域的特征；

所述基于所述至少一个第一候选框，得到至少一个功能区域对应的功能区域的特征，包括：

对所述至少一个第一候选框执行感兴趣区域池化操作，得到至少一个功能区域对应的功能区域的特征。

可选地，所述基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象区域对应的物体区域的特征，包括：

基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象相关特征；

基于所述至少一个第一候选框从所述对象相关特征中，获取至少一个第二候选框；

基于所述至少一个第二候选框，得到对象区域对应的至少一个物体区域的特征。

可选地，基于所述至少一个第一候选框从所述对象相关特征中，获取至少一个第二候选框，包括：

将所述至少一个第一候选框分别放大预设倍数，得到至少一个放大后的第一候选框；

分别基于所述至少一个放大后的第一候选框对所述对象相关特征进行截取，获取至少一个第二候选框；

所述基于所述至少一个第二候选框，得到至少一个对象区域对应的物体区域的特征，包括：

对所述至少一个第二候选框执行感兴趣区域池化操作，得到对象区域对应的至少一个物体区域的特征。

可选地，所述融合所述功能区域的特征和所述物体区域的特征，得到融合特征，包括：

对所述功能区域的特征和所述物体区域的特征执行加权求和，得到融合特征。

连接所述功能区域的特征和所述物体区域的特征，得到融合特征。

可选地，基于所述功能区域检测网络的第三网络分支及所述融合特征，确定所述待检测图像中的功能区域的位置和类别，包括：

基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，确定所述待检测图像中的功能区域的位置；

基于位置确定的功能区域，确定所述功能区域的类别。

可选地，基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，确定所述待检测图像中的功能区域的位置，包括：

基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，获得所述功能区域对应的偏移位置；

基于所述偏移位置和所述第一候选框，得到所述待检测图像中的功能区域的位置。

可选地，所述分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征之前，还包括：

利用样本图像训练所述功能区域检测网络。

可选地，所述利用样本图像训练所述功能区域检测网络，包括：

利用样本图像训练所述功能区域检测网络的第二网络分支，得到训练后的第二网络分支；

利用样本图像，基于训练后的第二网络分支，训练所述功能区域检测网络的第一网络分支和第三网络分支。

可选地，所述利用样本图像训练所述功能区域检测网络的第二网络分支，得到训练后的第二网络分支之后，还包括：

基于训练后的第二网络分支中的网络参数，初始化所述第一网络分支中的网络参数。

根据本发明实施例的另一个方面，提供的一种功能区域检测装置，包括：

特征提取单元，用于分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征，所述功能区域为所述物体区域中物体的可操作部分；

特征融合单元，用于融合所述功能区域的特征和所述物体区域的特征，得到融合特征；

功能区域确定单元，用于基于所述功能区域检测网络的第三网络分支及所述融合特征，确定所述待检测图像中的功能区域的位置和类别。

可选地，所述特征提取单元，包括：

功能区域的特征模块，用于基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到功能区域对应的功能区域的特征；

物体区域的特征模块，用于基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象区域对应的物体区域的特征。

可选地，所述功能区域的特征模块，包括：

第一候选框模块，用于基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到至少一个第一候选框，每个所述候选框对应一个功能区域；

功能特征模块，用于基于所述至少一个第一候选框，得到至少一个功能区域对应的功能区域的特征；

所述功能特征模块，具体用于对所述至少一个第一候选框执行感兴趣区域池化操作，得到至少一个功能区域对应的功能区域的特征。

可选地，所述物体区域的特征模块，包括：

对象相关模块，用于基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象相关特征；

第二候选框模块，用于基于所述至少一个第一候选框从所述对象相关特征中，获取至少一个第二候选框；

对象特征模块，用于基于所述至少一个第二候选框，得到对象区域对应的至少一个物体区域的特征。

可选地，所述第二候选框模块，具体用于将所述至少一个第一候选框分别放大预设倍数，得到至少一个放大后的第一候选框；分别基于所述至少一个放大后的第一候选框对所述对象相关特征进行截取，获取至少一个第二候选框；

所述对象特征模块，具体用于对所述至少一个第二候选框执行感兴趣区域池化操作，得到对象区域对应的至少一个物体区域的特征。

可选地，所述特征融合单元，具体用于对所述功能区域的特征和所述物体区域的特征执行加权求和，得到融合特征。

可选地，所述特征融合单元，具体用于连接所述功能区域的特征和所述物体区域的特征，得到融合特征。

可选地，所述功能区域确定单元，包括：

位置确定模块，用于基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，确定所述待检测图像中的功能区域的位置；

类别确定模块，用于基于位置确定的功能区域，确定所述功能区域的类别。

可选地，所述位置确定模块，具体用于基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，获得所述功能区域对应的偏移位置；基于所述偏移位置和所述第一候选框，得到所述待检测图像中的功能区域的位置。

可选地，还包括：

训练单元，用于利用样本图像训练所述功能区域检测网络。

可选地，所述训练单元，包括：

预训练模块，用于利用样本图像训练所述功能区域检测网络的第二网络分支，得到训练后的第二网络分支；

分支训练模块，用于利用样本图像，基于训练后的第二网络分支，训练所述功能区域检测网络的第一网络分支和第三网络分支。

可选地，所述训练单元，还包括：

初始化模块，用于基于训练后的第二网络分支中的网络参数，初始化所述第一网络分支中的网络参数。

根据本发明实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的功能区域检测装置。

根据本发明实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述功能区域检测方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述功能区域检测方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述功能区域检测方法中各步骤的指令。

基于本发明上述实施例提供的一种功能区域检测方法和装置、电子设备、存储介质，分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征；融合功能区域的特征和物体区域的特征，得到融合特征；基于功能区域检测网络的第三网络分支及融合特征，确定待检测图像中的功能区域的位置和类别，结合功能区域附近区域的特征，提高了功能区域检测的精度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明功能区域检测方法一个实施例的流程图。

图2为本发明功能区域检测方法的一个具体示例中功能区域检测网络中部分网络的结构示意图。

图3为本发明功能区域检测方法的一个具体示例中功能区域检测网络的结构示意图。

图4为本发明功能区域检测装置一个实施例的结构示意图。

图5为用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

机器人可以通过不同的动作以及任务与人和物体交互并不简单，因为在现实环境中由于光照和物体多样性的因素，图像中的内容变化较大。例如，同样对于“球面物体抓取”的功能区域，这种区域可能存在于门把手，抽屉把手或者其他球形物体。

为了实现上述任务，现有技术采用先抽取图像中可能的区域，然后通过一个深度神经网络对这些区域做功能性的分类。

然而，这种方法存在以下问题：只使用目标区域中的特征，忽视了区域中的上下文信息。这会使得这种方法难以应对由于视角和遮挡造成的区域外观的变化。例如，水龙头开关区域肯定在水龙头上，使用水龙头的上下文信息可以有效辅助检测。

图1为本发明功能区域检测方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤110，分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征。

在一个或多个可选的实施例中，功能区域为物体区域中物体的可操作部分，功能区域可以指可执行操作的区域，通常功能区域设置在被执行操作的物品上或被执行操作的物品附近，例如：手提箱(被执行操作的物体)的提手(功能区域)设置在手提箱上，对于提手，认知机器人可对应执行“抓取”的操作；功能区域检测网络的第一网络分支可以检测功能区域，而第二网络分支对功能区域对应的物体区域进行检测，结合第二网络分支的物品区域检测可有效提高功能区域检测的精度。

其中，第一网络分支可以采用现有技术中的任意功能检测网络，第二网络分支可以采用现有技术中的任意区域检测网络，本申请对具体网络结构不做限制。

可选地，待检测图像可以是实时抓取的图像或从视频中分解得到的一帧图像，例如：认知机器人在某一场景中对场景中的目标区域进行抓取，得到一个待检测图像；本申请对图像的具体来源不做限制。

步骤120，融合功能区域的特征和物体区域的特征，得到融合特征。

可选地，当获得多个功能区域的特征和多个物体区域的特征时，分别融合每个功能区域的特征与对应的物体区域的特征，得到多个融合特征。

在一个或多个可选的实施例中，对功能区域的特征和物体区域的特征执行加权求和，得到融合特征。

可选地，功能区域的特征对应第一权重值，物体区域的特征对应第二权重值，加权求和过程中功能区域的特征与物体区域的特征对应位置的特征值分别加权求和，获得维度不变的融合特征，其中，要功能区域的特征和物体区域的特征的维度相同，当功能区域的特征和物体区域的特征为特征图时，需要两个特征图的大小相同，完成特征融合。

其中，由于是对功能区域的检测，功能区域的特征对应的权重值通常大于功能区域的特征对应的权重值。

在一个或多个可选的实施例中，连接功能区域的特征和物体区域的特征，得到融合特征。

可选地，连接功能区域的特征和物体区域的特征是将两个特征的维度进行叠加，例如：功能区域的特征包括3个维度，物体区域的特征包括3个维度，连接后的融合特征包括6个维度。

基于包括功能区域的特征和物体区域的特征得到的融合特征，即包括功能区域的特征，还包括功能区域附近区域的特征，基于该融合特征获得的功能区域的位置更准确。

步骤130，基于功能区域检测网络的第三网络分支及融合特征，确定待检测图像中的功能区域的位置和类别。

本实施例中涉及的功能区域检测网络包括第一网络分支、第二网络分支和第三网络分支。

可选地，第三网络分支可以同时实现功能区域位置的检测和功能区域类别的分类，同时实现检测和分类两种功能，第三网络分支输出的功能区域的位置和类别的数量与融合特征相对应，每个融合特征对应一个功能区域。

基于本发明上述实施例提供的一种功能区域检测方法，分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征；融合功能区域的特征和物体区域的特征，得到融合特征；基于功能区域检测网络的第三网络分支对融合特征进行处理，确定待检测图像中的功能区域的位置和类别，结合功能区域附近区域的特征，提高了功能区域检测的精度。

本发明功能区域检测方法的另一个实施例中，在上述各实施例的基础上，操作110可以包括：

可选地，基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到至少一个第一候选框，每个候选框对应一个功能区域。

该第一网络分支可以采用深度网络faster-RCNN，具体地，基于前几层卷积层得到特征，基于该特征经过区域提取器得到零个或至少一个可能存在功能区域的第一候选框，该区域提取器可以是faster-RCNN中的RPN区域推荐网络，其中，零个第一候选框是一种特殊情况，这种情况说明当前待检测图像中不存在功能区域，可直接放弃对该待检测图像的检测。

图2为本发明功能区域检测方法的一个具体示例中功能区域检测网络中部分网络的结构示意图。如图2所示，利用锚/参考框的不同尺度和纵横比，可以在网络的正向通道中检测获得不同尺寸的功能区域。

一般来说，faster-RCNN由两个模块组成。第一个模块将图像作为输入，并生成感兴趣的区域。第二个模块从感兴趣区域中提取更深的特征以推断准确的目标类别和位置。由于在第一阶段可能会漏掉一些小区域，因此检测不同尺度的合理区域很重要。

在本示例中，第一个模块可以采用区域提议网络(RPN)，可以通过具有输入图像的完全卷积网络来实现。然后可以获得网络生成的特征映射。然后在该特征图的每个网格上应用一个小型网络，并生成矩形提案区域，每个提案区域都对应一个得分。如图2所示，RPN的目标包含两个部分：每个提案区域的坐标和提案区域的得分(得分越高意味着更可能是感兴趣的区域)。具体而言，参考不同尺度和长宽比的锚来表示坐标。这意味着网格(固定大小)的特征推断了不同大小的区域。即输出建议可以从其自身的特征或附加的周围上下文中生成。通过设置锚的不同尺度和高宽比，可以利用不同提案区域的上下文信息来定位不同尺度的提案区域。由此，从RPN中获得感兴趣的区域和相应的特征。

对于第二个模块，包括另一个具有多个卷积层的深度网络，用于更深入的特征提取。对于每个区域，它将来自RPN的特征作为输入，使用卷积层提取新特征并执行矩形分类和位置回归细化。第一个模块和第二个模块可以以端对端的方式进行训练。基于第一个模块和第二个模块可以为每个类获取一个或多个矩形(即，功能类别)。每个类的矩形可以高度重叠。为了减少冗余，基于类别分数执行非极大值抑制(NMS)处理，并且输出目标结果。针对不同规模的提案生成了RPN，并且可以使用faster-RCNN作为功能区域检测的多尺度方法。

非极大值抑制顾名思义就是抑制不是极大值的元素，搜索局部的极大值。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。

基于至少一个第一候选框，得到至少一个功能区域对应的功能区域的特征。

具体地，可以对至少一个第一候选框执行感兴趣区域池化ROI Pooling操作，得到至少一个功能区域对应的功能区域的特征。

ROI Pooling顾名思义，是Pooling池化层的一种，而且是针对RoI的Pooling，他的特点是输入特征图尺寸不固定，但是输出特征图尺寸固定；通过ROI Pooling操作，可以基于所有第一候选框得到大小相同的至少一个功能区域的特征，保证了所有功能区域的特征的大小相同。

可选地，包括：基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象相关特征；

基于至少一个第一候选框从对象相关特征中，获取至少一个第二候选框；

本实施例中，第二网络分支可以采用现有的神经网络结合区域提取器，通过神经网络得到对应待检测图像的特征图，基于所有第一候选框在该特征图对应位置获取对应每个第一候选框的第二候选框，每个第二候选框对应一个第一候选框。具体地，基于第一候选框获取第二候选框可以包括：将至少一个第一候选框分别放大预设倍数，得到至少一个放大后的第一候选框；分别基于至少一个放大后的第一候选框对对象相关特征进行截取，获取至少一个第二候选框。放大第一候选框是为了获取功能区域附近的区域，以使功能区域的检测结果更准确。

基于至少一个第二候选框，得到对象区域对应的至少一个物体区域的特征。

可选地，可以对至少一个第二候选框执行感兴趣区域池化ROI Pooling操作，得到对象区域对应的至少一个物体区域的特征。

通过ROI Pooling操作，可以基于所有第二候选框得到大小相同的至少一个物体区域的特征，保证了所有物体区域的特征的大小相同。

本发明功能区域检测方法的又一个实施例中，在上述各实施例的基础上，操作130可以包括：

基于功能区域检测网络的第三网络分支对融合特征进行处理，确定待检测图像中的功能区域的位置；

基于位置确定的功能区域，确定功能区域的类别。

本实施例中，第三网络分支是训练后的对区域位置和类别进行检测的网络，由于融合特征中包括功能区域及功能区域附近的特征，因此，经过第三网络分支的检测，可获得功能区域的准确位置(如：位置对应的所有坐标)，以及基于该确定位置的功能区域确定其对于的类别(例如：基于一维特征对应的概率值确定最大概率对应的类别)。

可选地，基于功能区域检测网络的第三网络分支对融合特征进行处理，确定待检测图像中的功能区域的位置，包括：

基于功能区域检测网络的第三网络分支对融合特征进行处理，获得功能区域对应的偏移位置；

基于偏移位置和所述第一候选框，得到待检测图像中的功能区域的位置。

在第一网络分支获得的第一候选框已经初步确定了功能区域对应的位置，而第三网络分支通过融合特征，确定了第一候选框与功能区域之间的偏移量(例如：包括左右偏移量和上下偏移量)，基于第一候选框根据偏移量进行移动之后，即可确定功能区域的位置。

图3为本发明功能区域检测方法的一个具体示例中功能区域检测网络的结构示意图。如图3所示，一个待检测图像输入到第一网络分支和第二网络分支，其中第一网络分支包括functionality CNN功能神经网络、特征提取器和ROI Pooling层；第二网络分支包括object CNN对象神经网络、特征映射层和ROI Pooling层；基于第一网络分支输出功能相关的特征(功能区域的特征)，基于第二网络分支输出对象相关的特征(物体区域的特征)；对功能区域的特征和物体区域的特征加权求和得到融合特征，融合特征输入第三网络分支，输出区域定位(功能区域的位置)和功能标签(功能区域的类别)。

本发明功能区域检测方法的还一个实施例中，在上述各实施例的基础上，还包括：

利用样本图像训练功能区域检测网络。

本实施例中，为了实现对功能区域的位置和分类进行检测，需要利用已知功能区域位置和分类的样本图像对功能区域检测网络进行训练。

可选地，包括：

利用样本图像训练功能区域检测网络的第二网络分支，得到训练后的第二网络分支；

利用样本图像，基于训练后的第二网络分支，训练功能区域检测网络的第一网络分支和第三网络分支。

具体地，可以使用一个物体检测数据集，预训练一个物体检测网络(第二网络分支)，例如faster-RCNN，基于训练后的第二网络分支训练第一网络分支和第三网络分支，在该训练过程中第二网络分支的网络参数不变化，仅对第一网络分支和第三网络分支的参数进行调整，直到满足训练结束条件，得到训练后的功能区域检测网络；调整网络参数的方法可以采用损失函数和反向梯度传播方法，本申请对具体调整参数的方法不作限制。

在训练后，还可以使用一个人工标注好的功能区域检测数据集，通过训练微调整个功能区域检测网络(除了第二网络分支的特征提取器)。

可选地，利用样本图像训练功能区域检测网络的第二网络分支，得到训练后的第二网络分支之后，还包括：

基于训练后的第二网络分支中的网络参数，初始化第一网络分支中的网络参数。

在训练第一网络分支之前，需要对第一网络分支进行初始化，在本实施例中，基于训练后的第二网络分支的网络参数对第一网络分支进行初始化。

本申请功能区域检测方法可应用于任意需要功能区域识别的领域，例如：服务型机器人，多功能工业机器人等；在服务型机器人上，部署本系统，服务机器人可以定位进行作业的区域，例如哪里进行开门操作，哪里进行关水龙头操作。因为融合了物体相关的特征，本方法可以使用一些额外的信息辅助作业区域的定位，例如使用“门”这个物体，辅助定位“开门”这个操作(“开门”操作肯定在“门”的某个位置)。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图4为本发明功能区域检测装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图4所示，该实施例的装置包括：

特征提取单元41，用于分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征。

其中，功能区域为物体区域中物体的可操作部分。

特征融合单元42，用于融合功能区域的特征和所述物体区域的特征，得到融合特征。

在一个或多个可选的实施例中，特征融合单元42具体用于对功能区域的特征和物体区域的特征执行加权求和，得到融合特征。

在一个或多个可选的实施例中，特征融合单元42具体用于连接功能区域的特征和物体区域的特征，得到融合特征。

功能区域确定单元43，用于基于功能区域检测网络的第三网络分支对融合特征进行处理，确定待检测图像中的功能区域的位置和类别。

基于本发明上述实施例提供的一种功能区域检测装置，分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征；融合功能区域的特征和物体区域的特征，得到融合特征；基于功能区域检测网络的第三网络分支对融合特征进行处理，确定待检测图像中的功能区域的位置和类别，结合功能区域附近区域的特征，提高了功能区域检测的精度。

本发明功能区域检测方法的另一个实施例中，在上述各实施例的基础上，特征提取单元41，包括：

可选地，功能区域的特征模块，包括：

第一候选框模块，用于基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到至少一个第一候选框，每个候选框对应一个功能区域；

功能特征模块，用于基于至少一个第一候选框，得到至少一个功能区域对应的功能区域的特征。

该第一网络分支可以采用深度网络faster-RCNN，具体地，基于前几层卷积层得到特征，基于该特征经过区域提取器得到零个或至少一个可能存在功能区域的第一候选框，该区域提取器可以是faster-RCNN中的RPN区域推荐网络，其中，零个第一候选框是一种特殊情况，这种情况说明当前待检测图像中不存在功能区域，可直接放弃对该待检测图像的检测。可选地，功能特征模块，具体用于对至少一个第一候选框执行感兴趣区域池化操作，得到至少一个功能区域对应的功能区域的特征。

可选地，物体区域的特征模块，包括：

第二候选框模块，用于基于至少一个第一候选框从对象相关特征中，获取至少一个第二候选框；

对象特征模块，用于基于至少一个第二候选框，得到对象区域对应的至少一个物体区域的特征。

可选地，第二候选框模块，具体用于将至少一个第一候选框分别放大预设倍数，得到至少一个放大后的第一候选框；分别基于至少一个放大后的第一候选框对对象相关特征进行截取，获取至少一个第二候选框。

可选地，对象特征模块，具体用于对至少一个第二候选框执行感兴趣区域池化操作，得到对象区域对应的至少一个物体区域的特征。

在一个或多个可选的实施例中，功能区域确定单元43，包括：

位置确定模块，用于基于功能区域检测网络的第三网络分支对融合特征进行处理，确定待检测图像中的功能区域的位置；

类别确定模块，用于基于位置确定的功能区域，确定功能区域的类别。

可选地，位置确定模块，具体可以用于基于功能区域检测网络的第三网络分支对融合特征进行处理，获得功能区域对应的偏移位置；基于偏移位置和第一候选框，得到待检测图像中的功能区域的位置。

本发明功能区域检测装置的还一个实施例中，在上述各实施例的基础上，还包括：

训练单元，用于利用样本图像训练功能区域检测网络。

可选地，训练单元，包括：

预训练模块，用于利用样本图像训练功能区域检测网络的第二网络分支，得到训练后的第二网络分支；

分支训练模块，用于利用样本图像，基于训练后的第二网络分支，训练功能区域检测网络的第一网络分支和第三网络分支。

可选地，训练单元，还可以包括：

初始化模块，用于基于训练后的第二网络分支中的网络参数，初始化第一网络分支中的网络参数。

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征；融合功能区域的特征和物体区域的特征，得到融合特征；基于功能区域检测网络的第三网络分支及融合特征，确定待检测图像中的功能区域的位置和类别。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至输入/输出(I/O)接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至输入/输出(I/O)接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征；融合功能区域的特征和物体区域的特征，得到融合特征；基于功能区域检测网络的第三网络分支及融合特征，确定待检测图像中的功能区域的位置和类别。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种功能区域检测方法，其特征在于，包括：

所述融合所述功能区域的特征和所述物体区域的特征，得到融合特征，包括：

对所述功能区域的特征和所述物体区域的特征执行加权求和，得到融合特征；

2.根据权利要求1所述的方法，其特征在于，所述分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于功能区域检测网络的第一网络分支对待检测图像进行功能区域检测，得到功能区域对应的功能区域的特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于功能区域检测网络的第二网络分支对待检测图像进行对象区域检测，得到对象区域对应的物体区域的特征，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述至少一个第一候选框从所述对象相关特征中，获取至少一个第二候选框，包括：

6.根据权利要求3所述的方法，其特征在于，基于所述功能区域检测网络的第三网络分支及所述融合特征，确定所述待检测图像中的功能区域的位置和类别，包括：

基于位置确定的功能区域，确定所述功能区域的类别。

7.根据权利要求6所述的方法，其特征在于，基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，确定所述待检测图像中的功能区域的位置，包括：

8.根据权利要求1-7任一所述的方法，其特征在于，所述分别基于功能区域检测网络的第一网络分支和第二网络分支对待检测图像进行特征提取，得到功能区域的特征和物体区域的特征之前，还包括：

利用样本图像训练所述功能区域检测网络。

9.根据权利要求8所述的方法，其特征在于，所述利用样本图像训练所述功能区域检测网络，包括：

10.根据权利要求9所述的方法，其特征在于，所述利用样本图像训练所述功能区域检测网络的第二网络分支，得到训练后的第二网络分支之后，还包括：

11.一种功能区域检测装置，其特征在于，包括：

特征融合单元，用于融合所述功能区域的特征和所述物体区域的特征，得到融合特征；所述特征融合单元，具体用于对所述功能区域的特征和所述物体区域的特征执行加权求和，得到融合特征；

12.根据权利要求11所述的装置，其特征在于，所述特征提取单元，包括：

13.根据权利要求12所述的装置，其特征在于，所述功能区域的特征模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述物体区域的特征模块，包括：

15.根据权利要求14所述的装置，其特征在于，所述第二候选框模块，具体用于将所述至少一个第一候选框分别放大预设倍数，得到至少一个放大后的第一候选框；分别基于所述至少一个放大后的第一候选框对所述对象相关特征进行截取，获取至少一个第二候选框；

16.根据权利要求13所述的装置，其特征在于，所述功能区域确定单元，包括：

17.根据权利要求16所述的装置，其特征在于，所述位置确定模块，具体用于基于所述功能区域检测网络的第三网络分支对所述融合特征进行处理，获得所述功能区域对应的偏移位置；基于所述偏移位置和所述第一候选框，得到所述待检测图像中的功能区域的位置。

18.根据权利要求11-17任一所述的装置，其特征在于，还包括：

训练单元，用于利用样本图像训练所述功能区域检测网络。

19.根据权利要求18所述的装置，其特征在于，所述训练单元，包括：

20.根据权利要求19所述的装置，其特征在于，所述训练单元，还包括：

21.一种电子设备，其特征在于，包括处理器，所述处理器包括权利要求11至20任意一项所述的功能区域检测装置。

22.一种电子设备，其特征在于，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至10任意一项所述功能区域检测方法的操作。

23.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时执行权利要求1至10任意一项所述功能区域检测方法的操作。