CN111968145A

CN111968145A - 箱式结构识别方法、装置、电子设备及存储介质

Info

Publication number: CN111968145A
Application number: CN202011145063.8A
Authority: CN
Inventors: 侯嘉悦; 郭双双; 龚星; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2020-11-20
Anticipated expiration: 2040-10-23
Also published as: CN111968145B

Abstract

本申请提供了一种箱式结构识别方法、装置、电子设备及计算机可读存储介质；方法包括：对包括箱式结构的待识别图像进行特征提取处理，得到箱式结构的初始特征；基于箱式结构的初始特征对待识别图像进行轮廓预测处理，得到待识别图像中对应箱式结构的第一轮廓线；基于箱式结构的初始特征对待识别图像进行箱体预测处理，得到待识别图像中对应箱式结构的箱体区域；对箱式结构的箱体区域进行边缘检测处理，得到箱式区域的第二轮廓线；对箱式结构的第一轮廓线以及箱式区域的第二轮廓线进行整合处理，将整合得到的轮廓线的坐标作为箱式结构在待识别图像中的位置信息。通过本申请，提高箱式结构识别的准确率。

Description

箱式结构识别方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种箱式结构识别方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能（Artificial Intelligence，AI）是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

箱式结构识别系统是人工智能领域的重要应用之一，能够利用计算机对图像进行处理、分析和理解，以识别图像中各种不同模式的目标和对象。

虽然，相关技术中的箱式结构识别系统能够识别图像中所包括的箱式结构。但是，相关技术中箱式结构的识别不够精确。

发明内容

本申请实施例提供一种箱式结构识别方法、装置、电子设备及计算机可读存储介质，能够结合两种箱式结构的轮廓线，提高箱式结构识别的准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种箱式结构识别方法，包括：

对包括箱式结构的待识别图像进行特征提取处理，得到所述箱式结构的初始特征；

基于所述箱式结构的初始特征对所述待识别图像进行轮廓预测处理，得到所述待识别图像中对应所述箱式结构的第一轮廓线；

基于所述箱式结构的初始特征对所述待识别图像进行箱体预测处理，得到所述待识别图像中对应所述箱式结构的箱体区域；

对所述箱式结构的箱体区域进行边缘检测处理，得到所述箱式区域的第二轮廓线；

对所述箱式结构的第一轮廓线以及所述箱式区域的第二轮廓线进行整合处理，将整合得到的轮廓线的坐标作为所述箱式结构在所述待识别图像中的位置信息。

上述技术方案中，所述对所述箱式结构的箱体区域进行边缘检测处理之后，还包括：

对所述箱式区域的第二轮廓线的像素进行矢量化，得到多条对应所述第二轮廓线的线段以及所述线段对应的端点；

基于多条所述线段分别对应的端点，对多条所述线段进行拼接处理，得到矢量化的第二轮廓线。

本申请实施例提供一种箱式结构识别装置，包括：

提取模块，用于对包括箱式结构的待识别图像进行特征提取处理，得到所述箱式结构的初始特征；

轮廓预测模块，用于基于所述箱式结构的初始特征对所述待识别图像进行轮廓预测处理，得到所述待识别图像中对应所述箱式结构的第一轮廓线；

箱体预测模块，用于基于所述箱式结构的初始特征对所述待识别图像进行箱体预测处理，得到所述待识别图像中对应所述箱式结构的箱体区域；

检测模块，用于对所述箱式结构的箱体区域进行边缘检测处理，得到所述箱式区域的第二轮廓线；

后处理模块，用于对所述箱式结构的第一轮廓线以及所述箱式区域的第二轮廓线进行整合处理，将整合得到的轮廓线的坐标作为所述箱式结构在所述待识别图像中的位置信息。

本申请实施例提供一种用于箱式结构识别的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的箱式结构识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的箱式结构识别方法。

本申请实施例具有以下有益效果：

通过结合箱式结构的第一轮廓线以及箱式区域的第二轮廓线，获取准确的箱式结构的轮廓线，从而定位箱式结构在待识别图像中的位置，提高箱式结构识别的准确性；另外，通过复用箱式结构的初始特征，同时进行轮廓预测以及箱体预测，提高箱式结构识别的效率。

附图说明

图1是本申请实施例提供的箱式结构识别系统的应用场景示意图；

图2是本申请实施例提供的用于箱式结构识别的电子设备的结构示意图；

图3A-3D是本申请实施例提供的箱式结构识别方法的流程示意图；

图4是本申请实施例提供的高分辨率网络的结构示意图；

图5是本申请实施例提供的高分辨率网络的结构示意图；

图6A是本申请实施例提供的轮廓预测模型以及箱体预测模型的结构示意图；

图6B是本申请实施例提供的轮廓预测模型以及箱体预测模型的结构示意图；

图7A是本申请实施例提供的第一轮廓线的示意图；

图7B是本申请实施例提供的第一轮廓线的示意图；

图7C是本申请实施例提供的第一轮廓线的示意图；

图8A-8F是本申请实施例提供的集装箱的示意图；

图9A是本申请实施例提供的输入图像的示意图；

图9B是本申请实施例提供的集装箱主体区域的分割结果的示意图；

图10是本申请实施例提供的流程示意图；

图11A是本申请实施例提供的输入图像的示意图；

图11B是本申请实施例提供的外围轮廓线分割结果示意图；

图11C是本申请实施例提供的集装箱主体区域分割结果示意图；

图12是本申请实施例提供的带有目标边缘强化的注意力机制的多任务的网络框架示意图；

图13A是本申请实施例提供的输入图像的示意图；

图13B是本申请实施例提供的集装箱主体区域分割结果示意图；

图14A是本申请实施例提出的输入图像的示意图；

图14B是本申请实施例提出的目标边缘强化注意力机制带来的外围轮廓线分割结果的效果提升图；

图14C是本申请实施例提出的目标边缘强化注意力机制带来的主体区域分割结果的效果提升图；

图14D是本申请实施例提出的未融入目标边缘强化注意力机制带来的外围轮廓线分割结果的效果图；

图14E是本申请实施例提出的未融入目标边缘强化注意力机制带来的主体区域分割结果的效果提升图；

图15A是本申请实施例提出的输入图像的示意图；

图15B是本申请实施例提出的主体区域检测结果的示意图；

图15C是本申请实施例提出的外围轮廓线检测结果的示意图；

图15D是本申请实施例提出的后处理的最终精细定位结果的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）高分辨率网络：一种在计算机视觉的各领域广泛使用并取得较好效果的一类网络结构，如分类、检测和分割等。不同于之前很多网络结构将高分辨率特征图和低分辨率特征图进行串联的方式，高分辨率网络在提取高层特征的同时始终保留高分辨率的低层特征，使得其能更好地得到图像中的多尺度融合的特征，从而在分割领域获得了很大的效果提升。

2）霍夫变换技术：一种用于特征提取的图像处理技术，应用于计算机视觉和图像分析等领域。通过利用直角坐标系和极坐标系等对应关系及统计数量，提取图像中的特征，如直线，圆等。

3）注意力机制：一种应用于神经网络里的机制，如机器翻译，看图说话，图像分割等。它是一种根据具体任务目标，对关注的方向和加权模型进行调整，即在神经网络的隐藏层增加注意力机制的权重的方法。

4）集装箱主体区域（箱体区域）：包含集装箱六个面及每面的上下左右横梁的部分。在图像中，所有属于集装箱这些区域的均包含在集装箱主体区域内，该区域不是集装箱的外接矩形区域，而是只包含集装箱的部分。

5）外围轮廓线：又称轮廓线，图像中集装箱主体区域的外侧边缘线，可以将主体区域包围起来。

6）质心：质点系质量分布的平均位置。图像中集装箱区域可以认为是质量均匀分布的，从而质心即代表图像中集装箱主体区域的像素中心，尤其当主体区域分割结果非连通或不规则时，质心代表了一种相对中心的结果。

7）canny边缘检测算法：一种标准的边缘检测算法，通过求取图像中像素点的梯度，保留梯度较大的像素点以组成边缘。

8）箱式结构：包括横梁和立柱的立体结构，例如集装箱、包装箱、模块化房屋等。

本申请实施例提供了一种箱式结构识别方法、装置、电子设备及计算机可读存储介质，能够结合两种箱式结构的轮廓线，提高箱式结构识别的准确率。

本申请实施例所提供的箱式结构识别方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的箱式结构识别方法，或者，终端向服务器发送针对待识别图像的识别请求（包括待识别图像），服务器根据接收的针对待识别图像的识别请求执行箱式结构识别方法，并向终端发送箱式结构的识别结果，即箱式结构在待识别图像中的位置。

本申请实施例提供的用于箱式结构识别的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务（AI as a Service，AIaaS），AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为箱式结构识别服务，即云端的服务器封装有本申请实施例提供的箱式结构识别的程序。用户通过终端（运行有客户端，例如箱式结构识别客户端）调用云服务中的箱式结构识别服务，以使部署在云端的服务器调用封装的箱式结构识别的程序，通过整合箱式结构的第一轮廓线以及箱式区域的第二轮廓线，确定整合的轮廓线，并将整合的轮廓线的坐标作为箱式结构在待识别图像中的位置信息，以响应针对待识别图像的识别请求，例如，对于箱式结构识别应用，通过整合集装箱的轮廓线以及箱体的轮廓线，确定准确的集装箱的最终轮廓线，并将最终轮廓线的坐标作为集装箱在待识别图像中的位置信息，以响应针对集装箱的识别请求，以便后续根据识别结果进行集装箱的缺陷分析，从而快速解决集装箱的缺陷，避免造成重大事故。

参见图1，图1是本申请实施例提供的箱式结构识别系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200（运行有客户端，例如箱式结构识别客户端）可以被用来获取针对待识别图像的识别请求，例如，用户在客户端中输入包括箱式结构的待识别图像后，终端自动获取针对待识别图像的识别请求。

在一些实施例中，终端中运行的客户端中可以植入有箱式结构识别插件，用以在客户端本地实现箱式结构识别方法。例如，终端200获取针对待识别图像的识别请求后，调用箱式结构识别插件，以实现箱式结构识别方法，通过整合箱式结构的第一轮廓线以及箱式区域的第二轮廓线，确定整合的轮廓线，并将整合的轮廓线的坐标作为箱式结构在待识别图像中的位置信息，以响应针对待识别图像的识别请求，例如，对于箱式结构检测应用，用户输入包括模块化房屋的待识别图像后，则自动获取针对待识别图像的识别请求，并整合模块化房屋的轮廓线以及房屋主体的轮廓线，确定模块化房屋的最终轮廓线，并将模块化房屋的最终轮廓线作为模块化房屋在待识别图像中的位置信息，以响应针对模块化房屋的识别请求，以便后续根据识别结果进行模块化房屋的缺陷分析，从而快速解决模块化房屋的缺陷，避免造成重大事故。

在一些实施例中，终端200获取针对待识别图像的识别请求后，调用服务器100的箱式结构识别接口（可以提供为云服务的形式，即箱式结构识别服务），服务器100整合箱式结构的第一轮廓线以及箱式区域的第二轮廓线，确定整合的轮廓线，并将整合的轮廓线的坐标作为箱式结构在待识别图像中的位置信息，以响应针对待识别图像的识别请求，例如，对于箱式结构检测应用，整合包装箱的轮廓线以及箱体的轮廓线，确定包装箱的最终轮廓线，并将包装箱的最终轮廓线作为包装箱在待识别图像中的位置信息，以响应针对包装箱的识别请求，以便后续根据包装箱的识别结果进行完整性检测，从而进行及时的更换处理，即当包装箱的结构不完整时，需要及时更换该包装箱，避免影响用户的使用。

下面说明本申请实施例提供的用于箱式结构识别的电子设备的结构，参见图2，图2是本申请实施例提供的用于箱式结构识别的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于箱式结构识别的电子设备500包括：至少一个处理器510、存储器550以及至少一个网络接口520。电子设备500中的各个组件通过总线系统530耦合在一起。可理解，总线系统530用于实现这些组件之间的连接通信。总线系统530除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统530。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块553，用于经由一个或多个（有线或无线）网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

在一些实施例中，本申请实施例提供的箱式结构识别装置可以采用软件方式实现，例如，可以是上文所述的终端中的箱式结构识别插件，可以是上文所述的服务器中箱式结构识别服务。当然，不局限于此，本申请实施例提供的箱式结构识别装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2示出了存储在存储器550中的箱式结构识别装置555，其可以是程序和插件等形式的软件，例如箱式结构识别插件，并包括一系列的模块，包括提取模块5551、轮廓预测模块5552、箱体预测模块5553、检测模块5554以及后处理模块5555；其中，提取模块5551、轮廓预测模块5552、箱体预测模块5553、检测模块5554以及后处理模块5555用于实现本申请实施例提供的箱式结构识别功能。

如前，本申请实施例提供的箱式结构识别方法可以由各种类型的电子设备实施。参见图3A，图3A是本申请实施例提供的箱式结构识别方法的流程示意图，结合图3A示出的步骤进行说明。

在下面的步骤中，待识别图像中不仅包括箱式结构的成像，还包括箱式结果所处环境的成像（非箱式结构的成像），即待识别图像中仅仅有部分成像的区域是箱式结构，在下面步骤中涉及的特征的具体表现形式为特征图。

在步骤101中，对包括箱式结构的待识别图像进行特征提取处理，得到箱式结构的初始特征。

作为获取待识别图像的示例，用户在客户端（运行于终端）中输入包括箱式结构的待识别图像，终端自动获取针对待识别图像的识别请求（包括待识别图像），并将针对待识别图像的识别请求发送至服务器，服务器接收针对待识别图像的识别请求，并提取待识别图像。然后，从待识别图像中提取箱式结构的初始特征图，以便后续复用箱式结构的初始特征图进行轮廓预测以及箱体预测，从而避免冗余计算，提高箱式结构的识别速度。

其中，箱式结构的初始特征为对待识别图像进行初次特征提取所得到的特征图，该初始特征包括待识别图像的所有笼统表征的特征，例如包括边缘等精细的底层特征和语义的高层特征等。该初始特征用于后续进行更加精细的特征转换，以得到目标性更强的特征。

参见图3B，图3B是本申请实施例提供的箱式结构识别方法的一个可选的流程示意图，图3B示出图3A中的步骤101可以通过图3B示出的步骤1011至步骤1014实现：在步骤1011中，对包括箱式结构的待识别图像进行卷积处理，得到待识别图像的第一卷积编码特征；在步骤1012中，对待识别图像进行下采样编码处理，得到待识别图像的第一下采样特征；在步骤1013中，基于第一卷积编码特征以及第一下采样特征进行表征信息变换处理，得到变换的第一卷积编码特征以及变换的第一下采样特征；在步骤1014中，对变换的第一卷积编码特征以及变换的第一下采样特征进行融合处理，将融合结果作为箱式结构的初始特征。

例如，调用高分辨率网络对待识别图像进行特征提取，以得到箱式结构的初始特征。通过高分辨率网络在提取高层的语义特征的同时始终保留高分辨率的低层特征，使得其能更好地得到图像中的多尺度融合的特征，既有利于后续轮廓的精确提取，又有利于后续箱体区域的分割。

如图4所示，通过高分辨率网络先对包括待识别图像进行卷积处理，第一卷积编码特征（一种卷积特征图），然后对待识别图像进行下采样编码，得到第一下采样特征（一种下采样特征图）；然后将第一卷积编码特征以及第一下采样特征并列相连，仍得到一种卷积特征图（变换的第一卷积编码特征）以及一种下采样特征图（变换的第一下采样特征），最后，对变换的第一卷积编码特征以及变换的第一下采样特征进行融合处理，将融合结果作为箱式结构的初始特征。

在一些实施例中，基于第一卷积编码特征以及第一下采样特征进行表征信息变换处理，得到变换的第一卷积编码特征，包括：对第一卷积编码特征进行卷积处理，得到第二卷积编码特征；对第一下采样特征进行上采样解码处理，得到第一上采样特征；对第二卷积编码特征以及第一上采样特征进行拼接处理，得到变换的第一卷积编码特征。

承接上述示例，如图4所示，对第一卷积编码特征（一种卷积特征图）进行卷积处理，得到第二卷积编码特征，然后对第一下采样特征（一种下采样特征图）进行上采样解码，得到第一上采样特征，最后拼接第二卷积编码特征以及第一上采样特征，以得到变换的第一卷积编码特征（一种卷积特征图）。

在一些实施例中，基于第一卷积编码特征以及第一下采样特征进行表征信息变换处理，得到变换的第一下采样特征，包括：对第一下采样特征进行卷积处理，得到第三卷积编码特征；对第一卷积编码特征进行下采样编码处理，得到第二下采样特征；对第三卷积编码特征以及第二下采样特征进行拼接处理，得到变换的第一下采样特征。

承接上述示例，如图4所示，对第一下采样特征（一种下采样特征图）进行卷积处理，得到第三卷积编码特征（一种下采样特征图），然后对第一卷积编码特征（一种卷积特征图）进行下采样解码，得到第二下采样特征（一种下采样特征图），最后拼接第三卷积编码特征以及第二下采样特征，以得到变换的第一下采样特征（一种下采样特征图）。

在一些实施例中，对变换的第一卷积编码特征以及变换的第一下采样特征进行融合处理，将融合结果作为箱式结构的初始特征，包括：对变换的第一下采样特征进行上采样解码处理，得到第二上采样特征；对变换的第一卷积编码特征以及第二上采样特征进行拼接处理，得到箱式结构的初始特征。

承接上述示例，如图4所示，为了高分辨率的初始特征，对变换的第一下采样特征（一种下采样特征图）进行上采样解码处理，得到第二上采样特征（一种卷积特征图），然后，拼接变换的第一卷积编码特征以及第二上采样特征，以得到高分辨率的初始特征，能更好地表征精细的底层特征。

在一些实施例中，对变换的第一卷积编码特征以及变换的第一下采样特征进行融合处理，将融合结果作为箱式结构的初始特征，包括：对变换的第一卷积编码特征进行下采样编码处理，得到第三下采样特征；对第三下采样特征以及变换的第一下采样特征进行拼接处理，得到箱式结构的初始特征。

承接上述示例，为了低分辨率的初始特征，对变换的第一卷积编码特征（一种卷积特征图）进行下采样编码处理，得到第三下采样特征（一种下采样特征图），然后，拼接第三下采样特征以及变换的第一下采样特征，以得到低分辨率的初始特征，能更好地表征包括语义的高层特征，有利于进行后续的箱体分割。

例如，如图5所示，高分辨率网络包括多种分辨率的下采样特征图。待识别图像进行卷积处理，得到第一卷积特征图；然后，第二卷积特征图由第一卷积特征图经过卷积处理所得到的卷积结果以及第一下采样特征图经过上采样处理所得到的上采样结果进行拼接得到的；第三卷积特征图由第二卷积特征图经过卷积处理所得到的卷积结果以及第二下采样特征图经过上采样处理所得到的上采样结果进行拼接得到的；第四卷积特征图由第三卷积特征图经过卷积处理所得到的卷积结果、第三下采样特征图经过上采样处理所得到的上采样结果以及第五下采样特征图经过上采样所得到的上采样结果进行拼接得到的；最后，第五卷积特征图由第四卷积特征图经过卷积处理所得到的卷积结果、第四下采样特征图经过上采样所得到的上采样结果以及第六下采样特征图经过上采样处理所得到的上采样结果进行拼接得到的，其第五卷积特征图可以作为箱式结构的初始特征。其中，高分辨率网络的层次越多，输出的初始特征越丰富，计算复杂度也越高。

在步骤102中，基于箱式结构的初始特征对待识别图像进行轮廓预测处理，得到待识别图像中对应箱式结构的第一轮廓线。

例如，在服务器获得箱式结构的初始特征后，调用轮廓预测模型执行轮廓预测处理，从而得到待识别图像中对应箱式结构的第一轮廓线。

如图6A所示，轮廓预测模型可以先对待识别图像进行特征提取，以得到箱式结构的初始特征，然后再基于箱式结构的初始特征对待识别图像进行轮廓预测处理，得到待识别图像中对应箱式结构的第一轮廓线。

如图6B所示，先通过高分辨率网络对待识别图像进行特征提取，以得到箱式结构的初始特征，然后再通过轮廓预测模型结合箱式结构的初始特征对待识别图像进行轮廓预测处理，得到待识别图像中对应箱式结构的第一轮廓线。由于箱体预测模型与轮廓预测模型公用箱式结构的初始特征，从而实现复用箱式结构的初始特征，同时进行轮廓预测以及箱体预测，提高箱式结构识别的效率。

参见图3C，图3C是本申请实施例提供的箱式结构识别方法的一个可选的流程示意图，图3C示出图3A中的步骤102可以通过图3C示出的步骤1021至步骤1024实现：在步骤1021中，对箱式结构的初始特征进行特征变换处理，得到箱式结构的轮廓特征；在步骤1022中，基于获取的箱式结构的箱体特征，对箱式结构的轮廓特征进行注意力处理，得到箱式结构的轮廓的注意力特征；在步骤1023中，基于轮廓的注意力特征进行通道融合处理，得到箱式结构的轮廓的融合特征；在步骤1024中，对轮廓的融合特征进行轮廓分割处理，得到箱式结构的第一轮廓线。

例如，服务器调用轮廓预测模型执行以下处理：先通过两层卷积层（例如，第一层卷积层（卷积核为1*1，通道数为270，步长为1）、第二层卷积层（卷积核为1*1，通道数为2，步长为1））对箱式结构的初始特征进行特征变换，得到箱式结构的轮廓特征，然后从箱体预测模型中获取箱式结构的箱体特征，并拼接箱式结构的箱体特征以及箱式结构的轮廓特征，得到箱式结构的轮廓的注意力特征，接着通过两层卷积层（例如，第一层卷积层（卷积核为1*1，通道数为270，步长为1）、第二层卷积层（卷积核为1*1，通道数为2，步长为1））对轮廓的注意力特征进行通道融合，得到箱式结构的轮廓的融合特征，最后对轮廓的融合特征进行轮廓分割处理，得到箱式结构的第一轮廓线。

在一些实施例中，对轮廓的融合特征进行轮廓分割处理，得到箱式结构的第一轮廓线，包括：对轮廓的融合特征进行基于轮廓的映射处理，得到待识别图像中每个像素属于箱式结构的轮廓线的概率；将大于轮廓线概率阈值的概率对应的像素，确定为属于箱式结构的第一轮廓线的像素；对属于箱式结构的第一轮廓线的像素进行拟合处理，得到箱式结构的第一轮廓线。

例如，在服务器得到准确的轮廓的融合特征后，通过轮廓预测模型进行非线性映射处理后，得到待识别图像中每个像素属于箱式结构的轮廓线的概率，例如像素x属于轮廓线的概率（0.8）、轮廓线概率阈值为0.6，则像素x属于箱式结构的第一轮廓线的像素，对待识别图像中所有属于箱式结构的第一轮廓线的像素进行拟合，以得到箱式结构的第一轮廓线。

在一些实施例中，对属于箱式结构的轮廓线的像素进行拟合处理，得到箱式结构的第一轮廓线，包括：对属于箱式结构的第一轮廓线的像素进行矢量化，得到多条线段以及线段对应的端点；基于多条线段分别对应的端点，对多条线段进行拼接处理，得到箱式结构的第一轮廓线。

承接上述示例，当服务器获得待识别图像中所有属于箱式结构的第一轮廓线的像素后，由于所有属于箱式结构的第一轮廓线的像素所构成的线段不够清晰，因此，可以通过霍夫变换对所有属于箱式结构的第一轮廓线的像素进行矢量化，以获得多条线段以及线段对应的端点，最后，基于多条线段分别对应的端点的坐标，对多条线段进行拼接处理，以得到完整的箱式结构的第一轮廓线。

在步骤103中，基于箱式结构的初始特征对待识别图像进行箱体预测处理，得到待识别图像中对应箱式结构的箱体区域。

例如，在服务器获得箱式结构的初始特征后，调用箱体预测模型执行箱体预测处理，从而得到待识别图像中对应箱式结构的箱体区域。

如图6A所示，箱体预测模型可以先对待识别图像进行特征提取，以得到箱式结构的初始特征，然后再基于箱式结构的初始特征对待识别图像进行箱体预测处理，得到待识别图像中对应箱式结构的箱体区域。

如图6B所示，先通过高分辨率网络对待识别图像进行特征提取，以得到箱式结构的初始特征，然后再通过箱体预测模型结合箱式结构的初始特征对待识别图像进行箱体预测处理，得到待识别图像中对应箱式结构的箱体区域。由于箱体预测模型与轮廓预测模型公用箱式结构的初始特征，从而实现复用箱式结构的初始特征，同时进行轮廓预测以及箱体预测，提高箱式结构识别的效率。

参见图3D，图3D是本申请实施例提供的箱式结构识别方法的一个可选的流程示意图，图3D示出图3A中的步骤103可以通过图3D示出的步骤1031至步骤1034实现：在步骤1031中，对箱式结构的初始特征进行特征变换处理，得到箱式结构的箱体特征；在步骤1032中，基于获取的箱式结构的轮廓特征，对箱式结构的箱体特征进行注意力处理，得到箱式结构的箱体的注意力特征；在步骤1033中，基于箱体的注意力特征进行通道融合处理，得到箱式结构的箱体的融合特征；在步骤1034中，对箱体的融合特征进行箱体分割处理，得到待识别图像中对应箱式结构的箱体区域。

例如，服务器调用箱体预测模型执行以下处理：先通过两层卷积层（例如，第一层卷积层（卷积核为1*1，通道数为270，步长为1）、第二层卷积层（卷积核为1*1，通道数为2，步长为1））对箱式结构的初始特征进行特征变换，得到箱式结构的箱体特征，然后从轮廓预测模型中获取箱式结构的轮廓特征，并拼接箱式结构的箱体特征以及箱式结构的轮廓特征，得到箱式结构的箱体的注意力特征，接着通过两层卷积层（例如，第一层卷积层（卷积核为1*1，通道数为270，步长为1）、第二层卷积层（卷积核为1*1，通道数为2，步长为1））对箱体的注意力特征进行通道融合，得到箱式结构的箱体的融合特征，最后对箱体的融合特征进行箱体分割处理，得到待识别图像中对应箱式结构的箱体区域。

在一些实施例中，对箱体的融合特征进行箱体分割处理，得到待识别图像中对应箱式结构的箱体区域，包括：对箱体的融合特征进行基于箱体的映射处理，得到待识别图像中每个像素属于箱体的概率；将大于箱体概率阈值的概率对应的像素，确定为属于箱体的像素；对属于箱体的像素进行拟合处理，得到对应箱式结构的箱体区域。

例如，在服务器得到准确的箱体的融合特征后，通过箱体预测模型进行非线性映射处理后，得到待识别图像中每个像素属于箱体的概率，例如像素y属于箱体的概率（0.9）、箱体概率阈值为0.6，则像素y属于箱体的像素，对待识别图像中所有属于箱体的像素进行拟合，以得到箱式结构的箱体区域。

在步骤104中，对箱式结构的箱体区域进行边缘检测处理，得到箱式区域的第二轮廓线。

例如，在服务器获得箱式结构的箱体区域后，针对箱式结构的箱体区域进行边缘检测，例如canny边缘检测，计算箱体区域中像素点的梯度，并筛选出梯度较大的像素点，例如将梯度大于梯度阈值的像素点确定为属于第二轮廓线的像素，对所有属于第二轮廓线的像素进行拟合，得到箱式区域的第二轮廓线。

在一些实施例中，对箱式结构的箱体区域进行边缘检测处理之后，还包括：对箱式区域的第二轮廓线的像素进行矢量化，得到多条对应第二轮廓线的线段以及线段对应的端点；基于多条线段分别对应的端点，对多条线段进行拼接处理，得到矢量化的第二轮廓线。

承接上述示例，当服务器获得箱式区域的第二轮廓线后，由于箱式区域的第二轮廓线不够清晰，因此，可以通过霍夫变换对所有属于箱式区域的第二轮廓线的像素进行矢量化，以获得多条线段以及线段对应的端点，最后，基于多条线段分别对应的端点的坐标，对多条线段进行拼接处理，以得到完整的箱式区域的第二轮廓线。

在步骤105中，对箱式结构的第一轮廓线以及箱式区域的第二轮廓线进行整合处理，将整合得到的轮廓线的坐标作为箱式结构在待识别图像中的位置信息。

例如，通过深度学习技术获得箱式结构的第一轮廓线，通过图像处理技术获得箱式区域的第二轮廓线，即通过两种方式，获得对应的两种轮廓线，综合两种轮廓线，可以获得更加精确的轮廓线，并将最后得到的轮廓线作为箱式结构在待识别图像中的位置信息，从而实现箱式结构的定位，使得定位的箱式结构不掺杂其他的背景部分，提高箱式结构识别的准确性。

在一些实施例中，对箱式结构的第一轮廓线以及箱式区域的第二轮廓线进行整合处理，包括：确定第一轮廓线中存在多条分叉的线段的分叉区间；针对每个分叉区间执行以下处理：确定第二轮廓线与分叉区间的相同位置的匹配区间，从分叉区间包括的多条分叉的线段中，确定与匹配区间中的线段匹配的线段，以作为分叉区间的待整合线段；将每个分叉区间的待整合线段、以及每个非分叉区间中的线段按照位置关系进行拼接，得到整合的轮廓线。

其中，将第一轮廓线可以分成多个区域，区间的端点与第一轮廓线包括的线段的端点对应。遍历第一轮廓线的多个区间，以确定存在多条分叉线段的分叉区间，例如，如图7A所示，第一轮廓线包括区间701和区间702，其中，区间702包括两条分叉的线段，则将区间702确定为分叉区间，确定第二轮廓线与分叉区间702的相同位置的匹配区间，从分叉区间702的分叉的线段中，确定与匹配区间中的线段匹配的线段，以作为分叉区间的待整合线段，最后将每个分叉区间的待整合线段、以及每个非分叉区间中的线段按照位置关系进行拼接，从而得到整合的轮廓线，避免第一轮廓线以及第二轮廓线中出现重复多余的线段。

在一些实施例中，对箱式结构的第一轮廓线以及箱式区域的第二轮廓线进行整合处理，包括：确定第一轮廓线中存在缺口的缺口区间；针对每个缺口区间执行以下处理：确定第二轮廓线与缺口区间的相同位置的匹配区间，将匹配区间中的线段作为缺口区间的待整合线段；将每个缺口区间的待整合线段、以及每个非缺口区间中的线段按照位置关系进行拼接，得到整合的轮廓线。

其中，如图7B所示，第一轮廓线包括区间701和区间702，其中，区间702中的线段不连续，存在缺口704，则将区间702确定为缺口区间，确定第二轮廓线与缺口区间702的相同位置的匹配区间，将匹配区间中的线段作为缺口区间的待整合线段，最后将每个缺口区间的待整合线段、以及每个非分叉区间中的线段按照位置关系进行拼接，得到如图7C所示的整合的轮廓线，图7C中不存在缺口704，避免第一轮廓线出现缺口。

在一些实施例中，对箱式结构的第一轮廓线以及箱式区域的第二轮廓线进行整合处理，包括：确定第二轮廓线中存在缺口的缺口区间；针对每个缺口区间执行以下处理：确定第一轮廓线与缺口区间的相同位置的匹配区间，将匹配区间中的线段作为缺口区间的待整合线段；将每个缺口区间的待整合线段、以及每个非缺口区间中的线段按照位置关系进行拼接，得到整合的轮廓线。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例可以应用于各种结构的应用场景中，例如，集装箱定位场景，如图1所示，终端200通过网络300连接部署在云端的服务器100，在终端200上安装集装箱识别应用，获取针对待识别图像的识别请求后，调用服务器100的集装箱识别接口，服务器100根据针对待识别图像的识别请求，通过整合集装箱的轮廓线以及箱体的边缘线，确定整合的轮廓线，并将整合的轮廓线的坐标作为集装箱在待识别图像中的位置信息，以响应针对待识别图像的识别请求，以便后续根据定位信息进行集装箱的缺陷分析，从而快速解决集装箱的缺陷，避免造成重大事故。

集装箱是一种标准化的、用于运输包装或无包装货的一种组成工具，且因为其便于用机械装备进行装卸和搬运而被广泛应用于船舶、港口、航线、公路等许多场景中，智能化地实现对集装箱的这些操作，能大大地提升效率且降低人力成本。而集装箱的缺陷检测、箱体识别和质量监控等变成很重要的一个环节，如果集装箱有破口或较大的断裂，都会影响货物的成功运输。而现今的集装箱缺陷检测和识别等仍要耗费大量的人力，且效率不高，为了节约人力并提高检测速度，通过手机拍摄集装箱图像，对图像中拍摄的集装箱进行缺陷检测等后续操作。其中，由于集装箱所处位置背景复杂，包括地面、天空及周边的集装箱等干扰物，因此准确检测出手机图像中的集装箱主体区域有着重要的作用。

然而，在本申请实施例中发现，对于集装箱主体区域（箱体）精细定位这一问题，在实践过程中存在以下问题：

1）不同于工业中固定相机拍摄位置，手机作为集装箱图像的拍摄设备，往往由于人的移动性和随意性较大，使得获取的图像角度更加多变，从而拍到的集装箱形态多变，如图8A-8F所示，例如图8C是从下横梁的角度拍摄的，图8D是从左立柱的角度拍摄的；同时，图片中除集装箱外的背景成分复杂，如天空、地面和其它箱体等，这些都加大了手机拍摄图片中集装箱主体区域的定位难度，例如，图8A中除了集装箱801外，还包括其他集装箱802；图8B中除了集装箱803外，还包括其他集装箱804；图8E中除了集装箱805外，还包括天空806等背景；图8F中除了集装箱807外，还包括地面808等背景。

2）对于手机拍摄图像中的集装箱主体区域往往形状不规则，且有大量角度倾斜的情况，因此本申请中的精细定位不是只给出图像中集装箱区域的外接矩形，而是给出完全包含且只包含集装箱区域的精确定位结果。

3）集装箱主体区域定位是后续集装箱表面形变检测的坚实基础，一旦主体区域定位出现较大错误，将导致后续的缺陷检测等步骤出现严重错误，因此，在真实业务场景中，对集装箱主体区域的精细定位有着很高的精度要求。

为了解决上述问题，本申请提出一种新颖的集装箱主体区域精细化定位方法，该方法通过深度学习技术分割图像上集装箱主体区域及集装箱的轮廓线，并通过轮廓线与主体区域的互相作用提取出更精细的集装箱主体区域（即集装箱的轮廓线所包围的区域），便于后续的缺陷检测、箱号识别、数量统计等任务。

如图9A所示，输入一张手机拍摄的待验的包装集装箱的图像，通过本申请所提出的方法，将给出一个集装箱主体区域的最终分割结果，如图9B所示，边框901从图像中框出集装箱的主体区域，该边框901不是外接矩形，而是完全包含且只包含集装箱部分的精细定位结果。

如图10所示，图10是本申请实施例提供的关键流程示意图，该图包括4个步骤，即步骤1）：输入图像；步骤2）：外围轮廓线检测以及主体箱区域检测；步骤3）：直线信息矢量化以及边缘检测；步骤4）：集装箱主体区域定位，下面具体说明流程示意图中各个步骤：

步骤1）：输入图像

首先利用手机对待验集装箱进行图像拍摄，拍摄到如图11A所示的图像，作为网络模型的输入数据。

步骤2）：外围轮廓线检测以及主体箱区域检测

基于高分辨率网络，本申请实施例提出一种多分支同时预测集装箱外围轮廓线及主体区域（箱体）两个任务的网络结构。在两个分支任务共用骨干（backbone）架构后，对各自分支融入一种目标边缘强化的注意力机制，进一步提升了各自的效果。

如图11B所示，图11B是本申请实施例提供的外围轮廓线分割结果示意图，线段1101表示集装箱外围轮廓线；如图11C所示，图11C是本申请实施例提供的集装箱主体区域分割结果示意图，黑色区域1102表示集装箱主体区域。

步骤3）：直线信息矢量化以及边缘检测

上述神经网络模型的输出仅仅提供了像素级别的分类信息，且集装箱主体区域的边缘线不够笔直，为了进一步优化效果，需要将线进行矢量化：

（1）外围轮廓线的矢量化：由于集装箱的外围轮廓线大多为笔直的直线，而像素级的外围轮廓线分割结果不够笔直，为了在拟合外围轮廓线的基础上使结果尽可能笔直，对像素级的分割结果进行霍夫变换，从而得到多条线段及线段对应的两个端点的坐标，然后对这些矢量化的线段进行进一步的拼接，以便得到更好的拟合外围轮廓的直线。

（2）主体区域分割的边缘线（轮廓线）矢量化：集装箱主体区域的边缘线可以通过边界检测算法得到；为了得到更笔直的直线结果，需要对边界检测得到的边缘线进行霍夫变换，从而得到多条线段及线段对应的两个端点的坐标，然后对这些矢量化的线段进行进一步的拼接，得到真正拟合图像中集装箱区域的直线。

步骤4）：集装箱主体区域定位

根据上面得到的两类矢量化的直线，就可以互相作用提取到精确的集装箱主体区域。首先利用主体区域检测结果将主体区域外的直线进行删除；然后用主体区域的边缘线与轮廓线共同确定最终的集装箱外围直线，最后根据区域检测结果得到集装箱质心，并定义集装箱主体区域即为这些直线的交集区域。

下面具体介绍A）直线与区域多任务的网络结构，即步骤2）的网络结构；B）后处理流程，即步骤3）-4）中所涉及到的流程。

A）直线与区域多任务的网络结构

高分辨率网络是一种设计巧妙且在图像分类、目标检测、图像分割和姿态估计等多领域均取得优秀结果的一种神经网络结构。本申请实施例基于高分辨率网络，提出一种有效的同时检测集装箱外围轮廓线和主体区域的多任务的网络结构，并提出一种目标边缘强化的注意力机制，融合外围轮廓线及主体区域的特征，达到两个分支互相促进的效果，从而进一步提升了主体区域的定位结果，明显提升区域边缘的检测效果。如图12所示，图12是本申请实施例提供的带有目标边缘强化的注意力机制的多任务的网络框架示意图，下面具体说明框架：

1）高分辨率网络（hrnet backbone）：该模块即为高分辨率网络的主体架构，相对于其它所有高分辨率和低分辨率特征图串联的网络结构，高分辨率网络将高分辨率的底层特征和低分辨率的高层特征并列相连，使得网络结构后端始终保留了具有边缘等精细的底层特征及包含语义的高层特征，既有利于边缘的精确提取，又有利于物体区域的分割。

2）目标边缘强化注意力机制：图12中的拼接（concat）即为本申请实施例提到的注意力机制的核心步骤。输入数据经过上述高分辨率网络提取特征后，分别输入两个分支。分支的第一步即为两个连续的卷积层。之后concat层将本分支的卷积层输出与另一分支的卷积层输出进行通道（channel）层面的拼接，并将拼接后的特征图分别输入下面的两个连续卷积层中，从而使得外围轮廓线和主体区域在边缘的一致性特征能更好的促进各自特征的学习。

3）网络输出：网络最终包含两个分支，每个分支输出最后的结果，即集装箱外围轮廓线和主体区域分割结果。

其中，在训练该神经网络模型时，集装箱外围轮廓线和主体区域检测均采用交叉熵损失函数。在外围轮廓线的训练中，由于图像中属于轮廓线的像素个数远远少于非轮廓线像素个数，因此，将训练时两种样本的权重比例设置为0.1:1（本申请实施例并不局限于0.1:1），基本反比于两类样本像素数的比例，这样设置有利于减少样本不均衡带来的影响。

B）后处理流程

输入的手机图像经过上述神经网络结构之后，得到了集装箱外围轮廓线和集装箱主体区域的分割结果，由于图像中背景的复杂及集装箱形态的多变性，使得网络的输出往往不是很准确，区域边缘无法准确贴合集装箱边缘等，例如，如图13A所示，输入一张手机拍摄的待验的包装集装箱的图像；如图13B所示，图13B是本申请实施例提供的集装箱主体区域分割结果示意图，黑色区域1301表示集装箱主体区域，区域边缘1302无法准确贴合集装箱边缘。

因此，需要对上述的预测结果进行一些后处理操作，以便得到更准确的集装箱主体区域。

1、外围轮廓线和主体区域边缘线的矢量化：

神经网络结构输出的集装箱外围轮廓线对应了输入图像中真实集装箱的外围轮廓线，神经网络结构输出的主体区域的边缘线也对应了图像中真实集装箱的外围轮廓线，因此两者之间可以互相促进。

首先对神经网络结构输出的外围轮廓线进行霍夫变换，提取出矢量化的直线；然后对神经网络结构输出的集装箱主体区域采用canny边缘检测算法，提取区域边缘线（也是一种轮廓线），并进行霍夫变换，得到矢量化的直线；之后利用神经网络结构输出的主体区域对外围轮廓线中离主体区域较远的非集装箱区域的直线（大于阈值的直线）进行过滤；最后，利用主体区域边缘线得到的矢量化直线，对外围轮廓线得到的矢量化直线进行筛选，并最终得到集装箱外围轮廓的矢量化直线（整合的轮廓线），其中，每条直线均可得到一个数学化表示，即Ax+By+C=0，其中A、B和C为表示该直线的参数，x和y表示图像中的像素坐标点。

2、集装箱主体区域的提取：

得到第一步的矢量化的直线后，需要确定图像中哪些像素属于集装箱，哪些属于非集装箱，这需要确定直线哪一侧是集装箱，哪一侧不是。首先，求取神经网络结构输出的集装箱主体区域检测结果中的区域质心（cx，cy），并将质心带入第一步得到的所有直线的公式Ax+By+C=0，从而得到质心在每条直线的哪一侧。然后遍历图像中的每一个像素点，将该点的坐标值带入到每条直线的公式中，当该点得到的所有公式的值的正负号（代表在直线的哪一侧）与质心的相同时，则表明该点属于集装箱主体区域，否则属于非主体区域。

本发明针对智能验箱系统，在利用手机端拍摄的集装箱图像中对集装箱主体区域精细定位的任务上取得了较好的效果，其区域定位的交并比达到95.9%；该任务的完成有利于后续对集装箱进行多种统计操作，为诸如集装箱表面缺陷检测、磨损和锈蚀分析、箱号识别、箱体个数统计等场景提供了坚实的保障；同时，手机拍摄的灵活性及低成本大大提高了该技术方案的可用性及便利性。

综上，本申请实施例的产生的有益效果如下：

1）结合了深度学习图像分割技术和图像处理技术对手机拍摄的集装箱图像进行主体区域精细定位，相比单纯的图像处理技术，本申请实施例更鲁棒地应对复杂的背景及集装箱多样的形态；

2）基于高分辨率网络结构，提出一种有效的多分支深度神经网络结构，能够同时输出图像中集装箱的外围轮廓线和主体区域分割结果。这两个分支在语义上各自有不同的含义，却又在集装箱边缘区域特征一致，因此在训练过程中，网络主干特征提取部分可以获得很好的促进效果，且由于共用一个网络主干结构，有效缩短了模型推理时间，既简洁又高效，使得神经网络结构输出结果在直线及区域边缘能获得更好的细节效果及整体定位精度；

3）在神经网络结构中，提出一种目标边缘强化的注意力机制，从而融合与促进外围轮廓线分支和主体区域分支在边缘的一致性特征，提升各自效果，并在集装箱的边缘得到更一致的准确结果，从而使得外围轮廓线的检测更准确更精细，而主体区域检测时，边缘分割也更贴合图片中集装箱的边缘。

图14A所示，图14A是本申请实施例提出的输入图像的示意图；图14B所示，图14B是本申请实施例提出的目标边缘强化注意力机制带来的外围轮廓线分割结果的效果提升图，线段1401为融入目标边缘强化注意力机制所得到的外围轮廓线；图14C所示，图14C是本申请实施例提出的目标边缘强化注意力机制带来的主体区域分割结果的效果提升图，黑色区域1402为融入目标边缘强化注意力机制所得到的主体区域；图14D是本申请实施例提出的未融入目标边缘强化注意力机制带来的外围轮廓线分割结果的效果图，线段1403为未融入目标边缘强化注意力机制所得到的外围轮廓线；图14E所示，图14E是本申请实施例提出的未融入目标边缘强化注意力机制带来的主体区域分割结果的效果提升图，黑色区域1404为融入目标边缘强化注意力机制所得到的主体区域。

如图15A所示，图15A是本申请实施例提出的输入图像的示意图；如图15B所示，图15B是本申请实施例提出的主体区域检测结果的示意图，黑色区域1501为检测到的集装箱的主体区域；如图15C所示，图15C是本申请实施例提出的外围轮廓线检测结果的示意图，线段1502为检测到的外围轮廓线；如图15D所示，图15D是本申请实施例提出的后处理的最终精细定位结果的示意图，白色区域1503为最终精细定位结果。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的箱式结构识别方法。本申请实施例还提供箱式结构识别装置，实际应用中，箱式结构识别装置中的各功能模块可以由电子设备（如终端设备、服务器或服务器集群）的硬件资源，如处理器等计算资源、通信资源（如用于支持实现光缆、蜂窝等各种方式通信）、存储器协同实现。图2示出了存储在存储器550中的箱式结构识别装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式，下面对不同的实现方式举例说明。

示例一、箱式结构识别装置是移动端应用程序及模块

本申请实施例中的箱式结构识别装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端应用中（以可执行指令存储在移动端的存储介质中，由移动端的处理器执行），从而直接使用移动端自身的计算资源完成相关的箱式结构检测任务，并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器，或者在移动端本地保存。

示例二、箱式结构识别装置是服务器应用程序及平台

本申请实施例中的箱式结构检测装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端（以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行），服务器使用自身的计算资源完成相关的信息推荐任务。

本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络（Web）界面或其他各用户界面（UI，User Interface），形成供个人、群体或单位使用的信息推荐平台等。

示例三、箱式结构识别装置是服务器端应用程序接口（API，Application ProgramInterface）及插件

本申请实施例中的箱式结构识别装置555可提供为服务器端的API或插件，以供用户调用，以执行本申请实施例的箱式结构识别方法，并嵌入到各类应用程序中。

示例四、箱式结构识别装置是移动设备客户端API及插件

本申请实施例中的箱式结构识别装置555可提供为移动设备端的API或插件，以供用户调用，以执行本申请实施例的箱式结构识别方法。

示例五、箱式结构识别装置是云端开放服务

本申请实施例中的箱式结构识别装置555可提供为向用户开发的箱式结构识别云服务，供个人、群体或单位获取推荐列表。

其中，箱式结构识别装置555包括一系列的模块，包括提取模块5551、轮廓预测模块5552、箱体预测模块5553、检测模块5554以及后处理模块5555。下面继续说明本申请实施例提供的箱式结构识别装置555中各个模块配合实现箱式结构识别的方案。

提取模块5551，用于对包括箱式结构的待识别图像进行特征提取处理，得到所述箱式结构的初始特征；轮廓预测模块5552，用于基于所述箱式结构的初始特征对所述待识别图像进行轮廓预测处理，得到所述待识别图像中对应所述箱式结构的第一轮廓线；箱体预测模块5553，用于基于所述箱式结构的初始特征对所述待识别图像进行箱体预测处理，得到所述待识别图像中对应所述箱式结构的箱体区域；检测模块5554，用于对所述箱式结构的箱体区域进行边缘检测处理，得到所述箱式区域的第二轮廓线；后处理模块5555，用于对所述箱式结构的第一轮廓线以及所述箱式区域的第二轮廓线进行整合处理，将整合得到的轮廓线的坐标作为所述箱式结构在所述待识别图像中的位置信息。

在一些实施例中，所述提取模块5551还用于对包括箱式结构的待识别图像进行卷积处理，得到所述待识别图像的第一卷积编码特征；对所述待识别图像进行下采样编码处理，得到所述待识别图像的第一下采样特征；基于所述第一卷积编码特征以及所述第一下采样特征进行表征信息变换处理，得到变换的第一卷积编码特征以及变换的第一下采样特征；对所述变换的第一卷积编码特征以及所述变换的第一下采样特征进行融合处理，将融合结果作为所述箱式结构的初始特征。

在一些实施例中，所述提取模块5551还用于对所述第一卷积编码特征进行卷积处理，得到第二卷积编码特征；对所述第一下采样特征进行上采样解码处理，得到第一上采样特征；对所述第二卷积编码特征以及所述第一上采样特征进行拼接处理，得到变换的第一卷积编码特征。

在一些实施例中，所述提取模块5551还用于对所述第一下采样特征进行卷积处理，得到第三卷积编码特征；对所述第一卷积编码特征进行下采样编码处理，得到第二下采样特征；对所述第三卷积编码特征以及所述第二下采样特征进行拼接处理，得到变换的第一下采样特征。

在一些实施例中，所述提取模块5551还用于对所述变换的第一下采样特征进行上采样解码处理，得到第二上采样特征；对所述变换的第一卷积编码特征以及所述第二上采样特征进行拼接处理，得到所述箱式结构的初始特征。

在一些实施例中，所述提取模块5551还用于对所述变换的第一卷积编码特征进行下采样编码处理，得到第三下采样特征；对所述第三下采样特征以及所述变换的第一下采样特征进行拼接处理，得到所述箱式结构的初始特征。

在一些实施例中，所述轮廓预测模块5552还用于对所述箱式结构的初始特征进行特征变换处理，得到所述箱式结构的轮廓特征；基于获取的所述箱式结构的箱体特征，对所述箱式结构的轮廓特征进行注意力处理，得到所述箱式结构的轮廓的注意力特征；基于所述轮廓的注意力特征进行通道融合处理，得到所述箱式结构的轮廓的融合特征；对所述轮廓的融合特征进行轮廓分割处理，得到所述箱式结构的第一轮廓线。

在一些实施例中，所述轮廓预测模块5552还用于对所述轮廓的融合特征进行基于轮廓的映射处理，得到所述待识别图像中每个像素属于所述箱式结构的轮廓线的概率；将大于轮廓线概率阈值的概率对应的像素，确定为属于所述箱式结构的第一轮廓线的像素；对属于所述箱式结构的第一轮廓线的像素进行拟合处理，得到所述箱式结构的第一轮廓线。

在一些实施例中，所述轮廓预测模块5552还用于对属于所述箱式结构的第一轮廓线的像素进行矢量化，得到多条线段以及所述线段对应的端点；基于多条所述线段分别对应的端点，对多条所述线段进行拼接处理，得到所述箱式结构的第一轮廓线。

在一些实施例中，所述箱体预测模块5553还用于对所述箱式结构的初始特征进行特征变换处理，得到所述箱式结构的箱体特征；基于获取的所述箱式结构的轮廓特征，对所述箱式结构的箱体特征进行注意力处理，得到所述箱式结构的箱体的注意力特征；基于所述箱体的注意力特征进行通道融合处理，得到所述箱式结构的箱体的融合特征；对所述箱体的融合特征进行箱体分割处理，得到所述待识别图像中对应所述箱式结构的箱体区域。

在一些实施例中，所述箱体预测模块5553还用于对所述箱体的融合特征进行基于箱体的映射处理，得到所述待识别图像中每个像素属于所述箱体的概率；将大于箱体概率阈值的概率对应的像素，确定为属于所述箱体的像素；对属于所述箱体的像素进行拟合处理，得到对应所述箱式结构的箱体区域。

在一些实施例中，所述箱体预测模块5553还用于对所述箱式区域的第二轮廓线的像素进行矢量化，得到多条对应所述第二轮廓线的线段以及所述线段对应的端点；基于多条所述线段分别对应的端点，对多条所述线段进行拼接处理，得到矢量化的第二轮廓线。

在一些实施例中，所述后处理模块5555还用于确定所述第一轮廓线中存在多条分叉的线段的分叉区间；针对每个所述分叉区间执行以下处理：确定所述第二轮廓线与所述分叉区间的相同位置的匹配区间，从所述分叉区间包括的多条分叉的线段中，确定与所述匹配区间中的线段匹配的线段，以作为所述分叉区间的待整合线段；将每个所述分叉区间的待整合线段、以及每个非分叉区间中的线段按照位置关系进行拼接，得到整合的轮廓线。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的箱式结构识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的箱式结构识别方法，例如，如图3A示出的箱式结构识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种箱式结构识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对包括箱式结构的待识别图像进行特征提取处理，得到所述箱式结构的初始特征，包括：

对包括箱式结构的待识别图像进行卷积处理，得到所述待识别图像的第一卷积编码特征；

对所述待识别图像进行下采样编码处理，得到所述待识别图像的第一下采样特征；

基于所述第一卷积编码特征以及所述第一下采样特征进行表征信息变换处理，得到变换的第一卷积编码特征以及变换的第一下采样特征；

对所述变换的第一卷积编码特征以及所述变换的第一下采样特征进行融合处理，将融合结果作为所述箱式结构的初始特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一卷积编码特征以及所述第一下采样特征进行表征信息变换处理，得到变换的第一卷积编码特征，包括：

对所述第一卷积编码特征进行卷积处理，得到第二卷积编码特征；

对所述第一下采样特征进行上采样解码处理，得到第一上采样特征；

对所述第二卷积编码特征以及所述第一上采样特征进行拼接处理，得到变换的第一卷积编码特征。

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一卷积编码特征以及所述第一下采样特征进行表征信息变换处理，得到变换的第一下采样特征，包括：

对所述第一下采样特征进行卷积处理，得到第三卷积编码特征；

对所述第一卷积编码特征进行下采样编码处理，得到第二下采样特征；

对所述第三卷积编码特征以及所述第二下采样特征进行拼接处理，得到变换的第一下采样特征。

5.根据权利要求2所述的方法，其特征在于，所述对所述变换的第一卷积编码特征以及所述变换的第一下采样特征进行融合处理，将融合结果作为所述箱式结构的初始特征，包括：

对所述变换的第一下采样特征进行上采样解码处理，得到第二上采样特征；

对所述变换的第一卷积编码特征以及所述第二上采样特征进行拼接处理，得到所述箱式结构的初始特征。

6.根据权利要求2所述的方法，其特征在于，所述对所述变换的第一卷积编码特征以及所述变换的第一下采样特征进行融合处理，将融合结果作为所述箱式结构的初始特征，包括：

对所述变换的第一卷积编码特征进行下采样编码处理，得到第三下采样特征；

对所述第三下采样特征以及所述变换的第一下采样特征进行拼接处理，得到所述箱式结构的初始特征。

7.根据权利要求1所述的方法，其特征在于，所述基于所述箱式结构的初始特征对所述待识别图像进行轮廓预测处理，得到所述待识别图像中对应所述箱式结构的第一轮廓线，包括：

对所述箱式结构的初始特征进行特征变换处理，得到所述箱式结构的轮廓特征；

基于获取的所述箱式结构的箱体特征，对所述箱式结构的轮廓特征进行注意力处理，得到所述箱式结构的轮廓的注意力特征；

基于所述轮廓的注意力特征进行通道融合处理，得到所述箱式结构的轮廓的融合特征；

对所述轮廓的融合特征进行轮廓分割处理，得到所述箱式结构的第一轮廓线。

8.根据权利要求7所述的方法，其特征在于，所述对所述轮廓的融合特征进行轮廓分割处理，得到所述箱式结构的第一轮廓线，包括：

对所述轮廓的融合特征进行基于轮廓的映射处理，得到所述待识别图像中每个像素属于所述箱式结构的轮廓线的概率；

将大于轮廓线概率阈值的概率对应的像素，确定为属于所述箱式结构的第一轮廓线的像素；

对属于所述箱式结构的第一轮廓线的像素进行拟合处理，得到所述箱式结构的第一轮廓线。

9.根据权利要求8所述的方法，其特征在于，所述对属于所述箱式结构的轮廓线的像素进行拟合处理，得到所述箱式结构的第一轮廓线，包括：

对属于所述箱式结构的第一轮廓线的像素进行矢量化，得到多条线段以及所述线段对应的端点；

基于多条所述线段分别对应的端点，对多条所述线段进行拼接处理，得到所述箱式结构的第一轮廓线。

10.根据权利要求1所述的方法，其特征在于，所述基于所述箱式结构的初始特征对所述待识别图像进行箱体预测处理，得到所述待识别图像中对应所述箱式结构的箱体区域，包括：

对所述箱式结构的初始特征进行特征变换处理，得到所述箱式结构的箱体特征；

基于获取的所述箱式结构的轮廓特征，对所述箱式结构的箱体特征进行注意力处理，得到所述箱式结构的箱体的注意力特征；

基于所述箱体的注意力特征进行通道融合处理，得到所述箱式结构的箱体的融合特征；

对所述箱体的融合特征进行箱体分割处理，得到所述待识别图像中对应所述箱式结构的箱体区域。

11.根据权利要求10所述的方法，其特征在于，所述对所述箱体的融合特征进行箱体分割处理，得到所述待识别图像中对应所述箱式结构的箱体区域，包括：

对所述箱体的融合特征进行基于箱体的映射处理，得到所述待识别图像中每个像素属于所述箱体的概率；

将大于箱体概率阈值的概率对应的像素，确定为属于所述箱体的像素；

对属于所述箱体的像素进行拟合处理，得到对应所述箱式结构的箱体区域。

12.根据权利要求1所述的方法，其特征在于，所述对所述箱式结构的第一轮廓线以及所述箱式区域的第二轮廓线进行整合处理，包括：

确定所述第一轮廓线中存在多条分叉的线段的分叉区间；

针对每个所述分叉区间执行以下处理：

确定所述第二轮廓线与所述分叉区间的相同位置的匹配区间，从所述分叉区间包括的多条分叉的线段中，确定与所述匹配区间中的线段匹配的线段，以作为所述分叉区间的待整合线段；

将每个所述分叉区间的待整合线段、以及每个非分叉区间中的线段按照位置关系进行拼接，得到整合的轮廓线。

13.一种箱式结构识别装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的箱式结构识别方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的箱式结构识别方法。