CN114120160A

CN114120160A - 基于Faster-RCNN物体空间区分方法、装置、计算机设备及存储介质

Info

Publication number: CN114120160A
Application number: CN202210082954.6A
Authority: CN
Inventors: 姜帝兆; 郑义; 李骥东
Original assignee: Chengdu Heneng Chuangyue Software Co ltd
Current assignee: Chengdu Heneng Chuangyue Software Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-03-01
Anticipated expiration: 2042-01-25
Also published as: CN114120160B

Abstract

本申请涉及图像处理技术领域，具体而言，涉及基于Faster‑RCNN物体空间区分方法、装置、计算机设备及存储介质；该方法包括：获取待识别图像；针对待识别图像，通过Faster‑RCNN目标区域推荐网络获得多个感兴趣区域；获取独立感兴趣区域的参量；通过参量生成高斯热图，基于高斯热图作为掩膜，通过点乘所述特征图得到环境热图；对环境热图进行池化，得到特征热图，基于特征热图得到特征向量；生成类别向量，将类别向量与所述特征向量进行拼接，得到目标向量；对目标向量进行回归处理，得到物体‑环境匹配值；基于物体‑环境匹配值进行物体环境的区分；本发明能有效克服被识别物体与预设场景不符的情况，增加了对于物体识别的准确度。

Description

基于Faster-RCNN物体空间区分方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及基于Faster-RCNN物体空间区分方法、装置、计算机设备及存储介质。

背景技术

物体检测(object detection)：它是计算机视觉中的经典问题之一，其任务是用框去标出图像中物体的位置，并给出物体的类别和置信度。上下文感知(contextawareness)：它是一种在信息系统中，结合物体周边环境一起推理的能力。

目前针对于基于环境的物体检测的方法包含两种，一种方案是基于多个单纯的物体检测模型，一个模型识别物体，另一个识别场景。当被识别物体处于不符合要求的场景时，不输出结果。另一种方案是，一个模型识别物体，另一个模型对全场景进行语义分割。当被识别物体处于不符合要求的场景时，不上报结果。

利用多个检测模型的方案，只能对大小、长宽比例合适的“场景”进行检测，例如一辆卡车上运输的纸箱：模型检测出纸箱，另一模型检测出卡车，若规定卡车上的纸箱不属于被检测的类型，则不输出结果。但对于形状不规则，大小比例不适合物体检测模型识别的“场景”时，如天空、湖泊，街道等，此方法无效，会将路灯误认为井盖。

针对于这样的问题，现有技术中常使用利用语义分割的方法理论上能解决上述问题。但由于效果较好的语义分割模型，都使用了较高的分辨率，边缘端设备由于性能限制无法使用。同时，由于被识别物体的场景多样，语义分割模型无法包含所有的背景类别，模型也无法推理出待识别物体与环境的关系，最后的输出结果需要依据两个模型的结果人为地进行逻辑判断，缺乏灵活性。

发明内容

本申请实施例提供一种基于Faster-RCNN物体环境区分方法、装置、计算机设备及其存储介质，该方法在数据标注的时候需要除了要提供被识别物体的位置、类别信息外，还要求提供该物体周围的场景与该物体是否匹配的标签。

为了达到上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种基于Faster-RCNN物体环境区分方法，该方法包括：获取待识别图像；针对待识别图像，通过Faster-RCNN目标区域推荐网络获得多个感兴趣区域；获取独立感兴趣区域的参量；通过参量生成高斯热图，其中热图与特征图大小相同；高斯热图作为掩膜，通过点乘所述特征图得到环境热图；对环境热图进行池化，得到特征热图，基于特征热图得到特征向量；基于Faster-RCNN识别结果回归层生成类别向量，将类别向量与所述特征向量进行拼接，得到目标向量；对目标向量进行回归处理，得到物体-环境匹配值；基于物体-环境匹配值进行物体环境的区分。

进一步地，参量包括所述感兴趣区域的中心位置坐标及宽度和高度。

进一步地，环境热图池化处理在Faster-RCNN感兴趣区域池化层中进行。

进一步地，对环境热图进行池化处理后，得到特征热图，并对特征热图进行调整，调整为1维向量，得到特征向量。

进一步地，类别向量通过Faster-RCNN全连接层与softmax函数生成。

进一步地，类别向量拼接至特征向量的数据后部，形成目标向量。

进一步地，物体-环境匹配值的获得通过以下方式：

将目标向量通过循环神经网络LSTM变形，经过Sigmoid函数得到。

进一步地，物体-环境匹配值的获得通过以下方式：

将目标向量通过变压器模型Transformer变形，经过Sigmoid函数得到。

第二方面，本申请实施例还提供一种基于Faster-RCNN物体环境区分方法的装置，包括：获取模块，用于获取采集的图像；处理模块：用于处理基于获取模块获取待识别图像，得到物体-环境匹配值；展示模块，用于在图像中展示物体-环境区分框图。

第三方面，本申请实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现上述的基于Faster-RCNN物体环境区分方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，存储介质内存储有计算机程序，计算机程序被处理器执行时实现本申请实施例第一方面提供的基于Faster-RCNN物体环境方法。

本申请实施例提供的技术方案中，基于模型以及物体环境区分方法，通过结合上下文信息，输出识别目标的类别、位置、置信度以及场景匹配度。能有效克服被识别物体与预设场景不符的情况，增加了对于物体识别的准确度。

通过算法的构建，增加了物体识别过程中对于环境的敏感度，降低了物体识别中环境因素的干扰。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例，其中示例数字在附图的各个视图中代表相似的机构。

图1是根据本申请的一些实施例所示的一种物体环境区分方法流程图；

图2是根据本申请的一些实施例所示的一种物体环境区分装置的结构示意图；

图3是根据本申请的一些实施例所示的现有技术中物体检测示意图；

图4是根据本申请的一些实施例所示的热图示意图；

图5是根据本申请的一些实施例所示的感兴趣区域示意图；

图6是现有技术中的一种实施例效果附图；

图7是现有技术中的一种实施例效果附图；

图8是现有技术中的一种实施例效果附图；

图9是基于本实施例的一种识别效果图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

在下面的详细描述中，通过实例阐述了许多具体细节，以便提供对相关指导的全面了解。然而，对于本领域的技术人员来说，显然可以在没有这些细节的情况下实施本申请。在其他情况下，公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述，没有细节，以避免不必要的模糊本申请的方面。

本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是，流程图的执行过程可以不按顺序执行。相反，这些执行过程可以以相反的顺序或同时执行。另外，可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。

本实施例提供一种服务器，包括物体环境区分装置、存储器、处理器和通信单元。存储器、处理器以及通信单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。物体空间位置检测装置包括至少一个可以软件或固件（firmware）的形式存储于存储器中或固化在电子设备的操作系统（operating system，OS）中的软件功能模块。处理器用于执行存储器中存储的可执行模块，例如基于色谱分析的样品确定装置所包括的软件功能模块及计算机程序等。

其中，存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行所述程序。通信单元用于通过网络建立样品服务器与查询终端之间的通信连接，并用于通过网络收发数据。

处理器可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器（DSP)）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

现有技术中，对于室外环境中物体的识别和检测，利用多个检测模型的方案，只能对大小、长宽比例合适的“场景”进行检测。请参阅图6，一辆卡车上运输的纸箱：模型检测出纸箱，另一模型检测出卡车，若规定卡车上的纸箱不属于被检测的类型，则不输出结果。

如图7所示，但对于形状不规则，大小比例不适合物体检测模型识别的“场景”时，如天空、湖泊，街道等，此方法无效。如下图所示，模型将路灯误识别成了井盖。

如图8所示，为DeeplabV3语义分割模型效果。在现有技术中，可以利用语义分割的方法理论上能解决上述问题。但由于效果较好的语义分割模型，都使用了较高的分辨率，边缘端设备由于性能限制无法使用。同时，由于被识别物体的场景多样，语义分割模型无法包含所有的背景类别，模型也无法推理出待识别物体与环境的关系，最后的输出结果需要依据两个模型的结果人为地进行逻辑判断，缺乏灵活性。通过图8可以看出，该模型在右下角，人行道与建筑物的交界处，分割效果较差。

本实施例提供一种基于物体环境区分方法，其基础逻辑为：离物体越近的环境，与该物体的关联性越大。

参阅图9，被模型识别出的衣物处于室内，此时与衣物关联度最大的“环境”就是门店内部区域，而非整个图像区域。

请参照图1，是根据本申请的一些实施例所示的一种基于Faster-RCNN物体空间区分方法的流程图，具体可以包括步骤S1-步骤S9。在以下步骤S1-步骤S9的基础上，将对一些可选实施例进行说明，这些实施例应当理解为示例，不应理解为实现本方案所必不可少的技术特征。

步骤S1，获取采集的图像。

在申请本实施例中，对物体进行检测时，可以通过设置在道路旁侧的图像获取设备针对待检测对象进行图像拍摄，以根据拍摄图像对物体进行检测。

作为一种可能的实现方式，可以通过安装在道路旁侧的鱼眼镜头拍摄得到待检测位置的图像，以根据采集的图像对物体进行检测。

其中，鱼眼镜头，是一种焦距极短并且视角接近或等于180°的镜头。鱼眼镜头是属于超广角镜头中的一种特殊镜头，它的视角力求达到或超出人眼所能看到的范围。因此，鱼眼镜头与人们眼中的真实世界的景象存在很大的差别。

步骤S2，针对待识别图像，通过Faster-RCNN目标区域推荐网络获得多个感兴趣区域。

步骤S3，获取独立感兴趣区域的参量。

在本实施例中，参量包括所述感兴趣区域的中心位置坐标及宽度和高度。

步骤S4，通过参量生成热图，其中热图与特征图大小相同，且呈高斯分布。

步骤S5，以热图作为掩膜，通过点乘所述特征图得到环境热图。

步骤S6，对环境热图进行池化，得到特征热图，基于特征热图得到特征向量。

在本实施例中，环境热图池化处理在Faster-RCNN感兴趣区域池化层中进行。

步骤S7，基于Faster-RCNN识别结果回归层生成类别向量，将类别向量与所述特征向量进行拼接，得到目标向量。

步骤S71，对环境热图进行池化处理后，得到特征热图，并对特征热图进行调整，调整为1维向量，得到特征向量。

步骤S8，基于Faster-RCNN识别结果回归层生成类别向量，将类别向量与所述特征向量进行拼接，得到目标向量。

在本实施例中，类别向量通过Faster-RCNN全连接层与softmax函数生成。

步骤S9，对目标向量进行回归处理，得到物体-环境匹配值；基于物体-环境匹配值进行物体环境的区分。

在本实施例中，物体-环境匹配值的获得通过以下方式：

在其他实施例中，物体-环境匹配值的获得还可以通过以下方式：

在本实施例中，基于LSTM神经网络模型为基础方案，经过Transformer模型变形的方案为优选方案。

在本实施例提供的方法中，物体-环境匹配值介于0~1之间。

在本实施例中，优选的针对于输出的物体-环境匹配值主要0或1，其中0代表物体与环境呈不匹配对应关系，1代表物体与环境呈匹配关系。

通过图4和图5中能够看出，热图能较好的覆盖目标物体的环境区域，并且环境离物体越远，相关度越低。

参与图3，为现有技术中对于物体检测示意图，能够明显的看出，在现有的语义分割的方法下，针对于具有相似性的两个物体之间的区分较为模糊，会将汽车后视镜识别为树叶，从而导致物体检测的精准性较低。

当引入了物体-环境匹配值后，经过区分能够实现后视镜与环境的区分，即不会将后视镜简单检测为树叶。

针对本实施例提供的一种物体环境方法，还另设置有一个步骤：即构建多边形检测框，通过物体-环境匹配值，构建针对于用于区分物体和环境的检测框，利用检测框在机器视觉上实现物体与环境的区分。通过检测框能较好地识别出室内环境，道路，建筑等场景，并用多边形标识出来。实际生活中的大部分场景都可被多边形较为精准的拟合出来，从而为不同场景的物体识别提供解决方案。

本申请实施例还提供一种物体环境区分装置100，用以执行以上方法，请参照图2，是本申请实施例提供的物体空间检测方法的功能模块架构示意图，其包括：

获取模块110、处理模块120以及展示模块130。

获取模块110，用于获取采集的图像。

处理模块120，用于处理基于获取模块获取待识别图像，得到物体-环境匹配值。

展示模块130，用于在图像中展示物体-环境区分框图。

作为另一种可能的实施方式，处理模块中主要用于执行基于Faster-RCNN物体环境区分方法，里面嵌有Faster-RCNN模型。

在本实施例中，Faster-RCNN模型由特征提取网络（Feature Extractor）、目标区域推荐网络（Region Proposal Network）、感兴趣区域池化层(ROI pooling)以及识别结果回归层（classifier）组成。

在本实施例中，其中特征提取网络用于提取图像中的有效特征。

目标区域推荐网络用于从特征提取网络所生成的热图中生成识别目标可能的区域。

感兴趣区域池化层用于，将热图中感兴趣的区域提取出来，并归一化成固定尺寸的向量。

回归层利用生成的特征向量，推理出物体的位置、大小、类别和置信度。

作为另一种可能的实现方式，获取模块，用于：

获取采用鱼眼镜头采集的图像。

本申请实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述的基于Faster-RCNN物体环境区分方法。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机上执行时，使得计算机执行本申请实施例提供的物体环境区分装置的检测方法。

需要理解的是，针对上述内容没有进行名词解释的技术术语，本领域技术人员可以根据上述所公开的内容进行前后推导毫无疑义地确定其所指代的含义，例如针对一些阈值、系数等术语，本领域技术人员可以根据前后的逻辑关系进行推导和确定，这些数值的取值范围可以根据实际情况进行选取，例如0.1~1，又例如1~10，再例如50~100，在此均不作限定。

本领域技术人员可以根据上述已公开的内容毫无疑义对一些预设的、基准的、预定的、设定的以及偏好标签的技术特征/技术术语进行确定，例如阈值、阈值区间、阈值范围等。对于一些未作解释的技术特征术语，本领域技术人员完全能够基于前后文的逻辑关系进行合理地、毫无疑义地推导，从而清楚、完整地实施上述技术方案。未作解释的技术特征术语的前缀，例如“第一”、“第二”、“示例”、 “目标”等，可以根据前后文进行毫无疑义地推导和确定。未作解释的技术特征术语的后缀，例如“集合”、“列表”等，也可以根据前后文进行毫无疑义地推导和确定。

本申请实施例公开的上述内容对于本领域技术人员而言是清楚完整的。应当理解，本领域技术人员基于上述公开的内容对未作解释的技术术语进行推导和分析的过程是基于本申请所记载的内容进行的，因此上述内容并不是对整体方案的创造性的评判。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可以对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定术语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同部分两次或多次提到的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的至少一个实施例中的某些特征、结构或特点可以进行适当的组合。

另外，本领域普通技术人员可以理解的是，本申请的各个方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可以被称为“单元”、“组件”或“系统”。此外，本申请的各方面可以表现为位于至少一个计算机可读介质中的计算机产品，所述产品包括计算机可读程序编码。

计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤缆线、RF、或类似介质、或任何上述介质的组合。

本申请各方面执行所需的计算机程序码可以用一种或多种程序语言的任意组合编写，包括面向对象程序设计，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET，Python等，或类似的常规程序编程语言，如"C"编程语言，Visual Basic，Fortran2003，Perl，COBOL 2002，PHP，ABAP，动态编程语言如Python，Ruby和Groovy或其它编程语言。所述程式设计编码可以完全在用户计算机上执行、或作为独立的软体包在用户计算机上执行、或部分在用户计算机上执行部分在远程计算机执行、或完全在远程计算机或服务器上执行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网络(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非申请专利范围中明确说明，本申请所述处理元件和序列的顺序、数位字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的申请专利范围并不仅限于披露的实施例，相反，申请专利范围旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件装置实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或行动装置上安装所描述的系统。

同样应当理解的是，为了简化本申请揭示的表述，从而帮助对至少一个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法幷不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

Claims

1.一种基于Faster-RCNN的物体环境区分方法，其特征在于，所述方法包括：

获取待识别图像；

针对所述待识别图像，通过Faster-RCNN目标区域推荐网络获得多个感兴趣区域；

获取独立所述感兴趣区域的参量；

通过所述参量生成高斯热图，所述热图与所述特征图大小相同；

所述高斯热图作为掩膜，通过点乘所述特征图得到环境热图；

对所述环境热图进行池化，得到特征热图，基于所述特征热图得到特征向量；

基于Faster-RCNN识别结果回归层生成类别向量，将所述类别向量与所述特征向量进行拼接，得到目标向量；

对所述目标向量进行回归处理，得到物体-环境匹配值；

基于所述物体-环境匹配值进行物体环境的区分。

2.根据权利要求1所述的物体环境区分方法，其特征在于，所述参量包括所述感兴趣区域的中心位置坐标及宽度和高度。

3.根据权利要求1所述的物体环境区分方法，其特征在于，所述环境热图池化处理在所述Faster-RCNN感兴趣区域池化层中进行。

4.根据权利要求3所述的物体环境区分方法，其特征在于，对所述环境热图进行池化处理后，得到所述特征热图，并对所述特征热图进行调整，调整为1维向量，得到特征向量。

5.根据权利要求4所述的物体环境区分方法，其特征在于，所述类别向量通过Faster-RCNN全连接层与softmax函数生成。

6.根据权利要求5所述的物体环境区分方法，其特征在于，所述类别向量拼接至所述特征向量的数据后部，形成目标向量。

7.根据权利要求6所述的物体环境区分方法，其特征在于，所述物体-环境匹配值的获得通过以下方式：

将所述目标向量通过循环神经网络LSTM变形，经过Sigmoid函数得到。

8.根据权利要求6所述的物体环境区分方法，其特征在于，所述物体-环境匹配值的获得通过以下方式：

将所述目标向量通过变压器模型Transformer变形，经过Sigmoid函数得到。

9.一种基于Faster-RCNN的物体环境区分装置，其特征在于，所述装置包括：获取模块，用于获取采集的图像；处理模块：用于处理基于所述获取模块获取待识别图像，得到物体-环境匹配值；展示模块，用于在所述图像中展示所述物体-环境区分框图。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-8中任一所述的基于Faster-RCNN物体环境区分方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的基于Faster-RCNN物体环境区分方法。